注:近日,金電聯(lián)行首席科學(xué)家曹鴻強(qiáng)在天堂硅谷信息技術(shù)閉門會(huì)上做了精彩發(fā)言,以下根據(jù)其講話實(shí)錄整理而成。
感謝主辦機(jī)構(gòu)。很高興有這個(gè)機(jī)會(huì),和大家分享金電聯(lián)行在大數(shù)據(jù)領(lǐng)域的一些觀點(diǎn)和做法。
首先介紹一下公司的情況。金電聯(lián)行有兩個(gè)顯著標(biāo)簽:一是國(guó)內(nèi)大數(shù)據(jù)行業(yè)領(lǐng)軍企業(yè)之一。公司成立于2007年,是國(guó)內(nèi)最早涉足大數(shù)據(jù)行業(yè)的高新技術(shù)企業(yè),經(jīng)過多年發(fā)展,在金融大數(shù)據(jù)、政務(wù)大數(shù)據(jù)、產(chǎn)業(yè)大數(shù)據(jù)的部分細(xì)分領(lǐng)域已經(jīng)位居全國(guó)領(lǐng)先地位。二是國(guó)內(nèi)信用建設(shè)主導(dǎo)企業(yè)之一。我們是國(guó)內(nèi)最早運(yùn)用大數(shù)據(jù)技術(shù)開展信用體系建設(shè)的企業(yè),是中國(guó)人民銀行首批備案的全國(guó)性企業(yè)征信機(jī)構(gòu)、北京征信機(jī)構(gòu)總經(jīng)理聯(lián)席會(huì)主席單位;是國(guó)家發(fā)改委綜合信用服務(wù)試點(diǎn)機(jī)構(gòu)、第三方評(píng)估機(jī)構(gòu);是工信部、科技部等主管單位認(rèn)定的信用體系建設(shè)和中小微企業(yè)信用融資評(píng)價(jià)機(jī)構(gòu);國(guó)家公共信用信息中心第一批可為信用修復(fù)申請(qǐng)人出具信用報(bào)告的信用服務(wù)機(jī)構(gòu)。
作為一家大數(shù)據(jù)企業(yè),金電聯(lián)行有一個(gè)基本觀點(diǎn):大數(shù)據(jù)正在推動(dòng)流程化系統(tǒng)向決策支持系統(tǒng)轉(zhuǎn)變。在IT領(lǐng)域,如果說過去二三十年是流程化系統(tǒng)占據(jù)主導(dǎo)地位,那么未來二三十年一定是決策支持系統(tǒng)占據(jù)主導(dǎo)地位,要用數(shù)據(jù)說話,要讓數(shù)據(jù)說話。
因此,金電聯(lián)行將核心業(yè)務(wù)能力定位為幫助客戶實(shí)現(xiàn)決策支持系統(tǒng)。經(jīng)過在金融、政務(wù)、產(chǎn)業(yè)等市場(chǎng)十多年領(lǐng)域的技術(shù)積累,我們建立了覆蓋大數(shù)據(jù)價(jià)值變現(xiàn)全鏈條的五層架構(gòu)(如下圖所示):最底層是大數(shù)據(jù)輸入輸出控制器和大數(shù)據(jù)基礎(chǔ)平臺(tái),其中前者實(shí)現(xiàn)大數(shù)據(jù)的內(nèi)外交換及其控制,例如安全、計(jì)費(fèi)等,類似計(jì)算機(jī)的南橋芯片;后者是大數(shù)據(jù)存儲(chǔ)、處理、分析的基礎(chǔ)設(shè)施,類似計(jì)算機(jī)的主板。倒數(shù)第二層是大數(shù)據(jù)管理器,實(shí)現(xiàn)了大數(shù)據(jù)的數(shù)據(jù)管控,例如數(shù)據(jù)標(biāo)準(zhǔn)、元數(shù)據(jù)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)譜系等,類似計(jì)算機(jī)的北橋芯片。中間一層是大數(shù)據(jù)中央處理器,即針對(duì)大數(shù)據(jù)的數(shù)據(jù)工廠平臺(tái),實(shí)現(xiàn)規(guī)模化的大數(shù)據(jù)加工處理,類似計(jì)算機(jī)的CPU芯片;再往上是大數(shù)據(jù)通用AI處理器,即針對(duì)大數(shù)據(jù)的數(shù)據(jù)科學(xué)平臺(tái),實(shí)現(xiàn)規(guī)模化的大數(shù)據(jù)分析挖掘,類似計(jì)算機(jī)的GPU芯片。最上面一層是大數(shù)據(jù)專用AI處理器,固化業(yè)務(wù)專家的方法論和知識(shí)經(jīng)驗(yàn),實(shí)現(xiàn)面向特定領(lǐng)域的大數(shù)據(jù)分析挖掘,類似計(jì)算機(jī)的FPGA芯片。這五層架構(gòu)作為一個(gè)整體,支撐信貸風(fēng)控、精準(zhǔn)營(yíng)銷、社會(huì)治理、企業(yè)征信、智能定價(jià)、預(yù)測(cè)性維護(hù)等各種具體大數(shù)據(jù)決策支持應(yīng)用,類似計(jì)算機(jī)作為一個(gè)整體支撐各種軟件應(yīng)用。當(dāng)然,有可能五層架構(gòu)的某個(gè)部分是客戶自研的,或者是友商的,例如大數(shù)據(jù)基礎(chǔ)平臺(tái)。我們的五層架構(gòu)是開放的,有對(duì)外的兼容性。金電聯(lián)行大概就是這樣一個(gè)產(chǎn)品和技術(shù)架構(gòu),我們認(rèn)為,這個(gè)架構(gòu)是建設(shè)決策支持系統(tǒng)(包括開發(fā)和運(yùn)維的全生命周期)的一條有效路徑。
在二十多年前讀書的時(shí)候,我曾經(jīng)學(xué)過一門課程,叫計(jì)算機(jī)輔助軟件工程,英文縮寫是CASE。如果大家都認(rèn)可,決策支持系統(tǒng)是一種特殊的IT系統(tǒng),大數(shù)據(jù)處理和分析軟件是一種特殊的軟件,那么我們的五層架構(gòu),特別是數(shù)據(jù)工程平臺(tái)和數(shù)據(jù)科學(xué)平臺(tái),不就是一種CASE工具、一種針對(duì)大數(shù)據(jù)軟件開發(fā)的特殊CASE工具么?這種特殊的CASE工具,目標(biāo)是讓計(jì)算機(jī)幫助人更優(yōu)質(zhì)、更高效地開發(fā)大數(shù)據(jù)應(yīng)用這種特殊的軟件。如何幫助人?關(guān)鍵的兩點(diǎn):一是智能化、二是工程化。所謂智能化,就是在工具中固化人的方法論和知識(shí)經(jīng)驗(yàn),就是讓工具使用最先進(jìn)、最智能的模型算法,就是讓工具的數(shù)據(jù)和知識(shí)產(chǎn)出更符合人的認(rèn)知方式和認(rèn)知習(xí)慣,使得數(shù)據(jù)處理、數(shù)據(jù)分析更加高效。所謂工程化,就是大數(shù)據(jù)應(yīng)用的開發(fā)維護(hù)要遵循軟件工程的基本原理,工具要支持設(shè)計(jì)和實(shí)現(xiàn)的一致性,工具要支持配置管理、軟件測(cè)試、持續(xù)集成等,軟件過程和軟件資產(chǎn)要受管受控,使得大數(shù)據(jù)應(yīng)用軟件更加優(yōu)質(zhì)。
融合了智能化和工程化的五層架構(gòu)整合到一塊,為金電聯(lián)行實(shí)現(xiàn)核心競(jìng)爭(zhēng)力從技術(shù)上提供了有力支撐。其效果就是:可以幫助客戶低成本、高質(zhì)量地建設(shè)決策支持系統(tǒng)。低成本是由于所有核心和基礎(chǔ)的軟件構(gòu)件開發(fā)工作都提前完成了,有各種預(yù)制件,包括實(shí)現(xiàn)數(shù)據(jù)處理的預(yù)制件、實(shí)現(xiàn)數(shù)據(jù)建模的預(yù)制件、實(shí)現(xiàn)數(shù)據(jù)展示的預(yù)制件等等,只是根據(jù)客戶需求做不同的編排組合,編碼層級(jí)的軟件開發(fā)工作量大大減少,省人省時(shí)。高質(zhì)量是由于大部分功能和流程都是預(yù)制件,而且是抽象層級(jí)很高的預(yù)制件,軟件質(zhì)量在預(yù)制過程中已經(jīng)確認(rèn),所以整個(gè)系統(tǒng)的質(zhì)量很高。比方說我們給某個(gè)政府機(jī)構(gòu)做一個(gè)重點(diǎn)企業(yè)監(jiān)測(cè)系統(tǒng),傳統(tǒng)建設(shè)方式要兩三個(gè)月,可我們使用五層架構(gòu),編排預(yù)制件,兩三周就高質(zhì)量交付了,獲得客戶好評(píng)。
事實(shí)上,我們給金融機(jī)構(gòu)、政府、產(chǎn)業(yè)等客戶交付的各種決策支持系統(tǒng),都是采用同樣的五層架構(gòu),只不過是不同的業(yè)務(wù)需求、不同的數(shù)據(jù)輸入、不同預(yù)制件的不同編排組合、不同的模型輸出、不同的用戶界面。這就類似于收音機(jī)的生產(chǎn)方式變革,最早是電子管的,后來是晶體管的,再后來是集成電路的,現(xiàn)在是智能手機(jī)里面的一個(gè)應(yīng)用程序,也被叫做軟件無線電;當(dāng)然智能手機(jī)里還有其他程序。決策支持系統(tǒng)建設(shè)也是如此,我們開始時(shí)模塊化,后來是縱向封裝,現(xiàn)在是五層架構(gòu)。我們稱其為大數(shù)據(jù)應(yīng)用能力的芯片級(jí)輸出、平臺(tái)級(jí)封裝。正是基于這種能力,金電聯(lián)行可以隨時(shí)切換應(yīng)用場(chǎng)景,以一套產(chǎn)品和技術(shù)體系架構(gòu),低成本和高質(zhì)量地滿足金融、政務(wù)、產(chǎn)業(yè)等不同領(lǐng)域,不同客戶的不同需求。這樣一種系統(tǒng)建設(shè)模式變化是革命性的,為客戶創(chuàng)造了價(jià)值,得到了市場(chǎng)認(rèn)可。
下面在五層架構(gòu)框架下,談?wù)剶?shù)據(jù)建模和數(shù)據(jù)科學(xué)平臺(tái),它們是大數(shù)據(jù)應(yīng)用能夠“從數(shù)據(jù)挖掘知識(shí),使用知識(shí)創(chuàng)造價(jià)值”的關(guān)鍵環(huán)節(jié)所在。
所謂數(shù)據(jù)建模,就是從數(shù)據(jù)中探尋客觀世界的真理。從本質(zhì)上講,數(shù)據(jù)建模體現(xiàn)了一種潛藏在人性深處的駕馭數(shù)據(jù)的需要,或者說是本能:從積極方面講,人類通過數(shù)據(jù)建模滿足好奇心;從消極方面講,人類通過數(shù)據(jù)建模尋求安全感。具體到我們的客戶,他們期望能夠通過數(shù)據(jù)建模,洞察業(yè)務(wù)特點(diǎn)規(guī)律,以支撐決策、防范風(fēng)險(xiǎn)。具體而言:
決策是數(shù)據(jù)建模的目標(biāo)。可以從兩個(gè)維度考察決策的特征:一個(gè)維度是決策的復(fù)雜性,一個(gè)維度是決策的風(fēng)險(xiǎn)性。決策的復(fù)雜性包括:決策的環(huán)境是否確定、決策的信息是否完備、決策的目標(biāo)是否單一、決策的時(shí)間是否充足等等,這些決定了決策的難易程度。單從環(huán)境是否確定、信息是否完備而言,AlphaGO做的是簡(jiǎn)單決策,股票投資做的是復(fù)雜決策。決策的風(fēng)險(xiǎn)可以分為低、中、高,它代表了決策的利害相關(guān)程度,例如投資是高風(fēng)險(xiǎn)決策,外部環(huán)境越不確定、投資額越大風(fēng)險(xiǎn)越大,當(dāng)然收益也越大;相對(duì)而言,商品推薦是低風(fēng)險(xiǎn)決策。
數(shù)據(jù)是數(shù)據(jù)建模的輸入。同樣可以從兩個(gè)維度考察數(shù)據(jù)的特征:一個(gè)維度是數(shù)據(jù)規(guī)模,一個(gè)維度是數(shù)據(jù)質(zhì)量。數(shù)據(jù)規(guī)模可以分為小、中、大:小規(guī)模數(shù)據(jù)單機(jī)內(nèi)存就可以容納;中規(guī)模數(shù)據(jù)單機(jī)硬盤或者小規(guī)模計(jì)算機(jī)集群內(nèi)存可以容納;大規(guī)模數(shù)據(jù)大規(guī)模計(jì)算機(jī)集群內(nèi)存和硬盤才可以容納。數(shù)據(jù)質(zhì)量包括數(shù)據(jù)的完整性、數(shù)據(jù)的準(zhǔn)確性、數(shù)據(jù)的結(jié)構(gòu)化程度、數(shù)據(jù)的時(shí)效性、數(shù)據(jù)的持續(xù)性等等,它們決定了數(shù)據(jù)加工處理的難易程度。
模型是數(shù)據(jù)建模的輸出。可以從多個(gè)維度考察模型的特征,包括模型的準(zhǔn)確性、模型的可靠性、模型的安全性(即抗攻擊性)、模型的可解釋性、模型的時(shí)效性、模型的經(jīng)濟(jì)性、模型的公平性等。其中最重要的兩個(gè)維度是模型的準(zhǔn)確性和模型的可解釋性,簡(jiǎn)而言之,就是既要知其然、也要知其所以然。
金電聯(lián)行的客群主要集中于金融機(jī)構(gòu)、政府部門和大型企業(yè),我們要幫助他們構(gòu)建基于大數(shù)據(jù)的決策支持系統(tǒng)。對(duì)于這些客戶,從數(shù)據(jù)而言,通常是中大規(guī)模、中低質(zhì)量;從決策而言,通常是中高風(fēng)險(xiǎn)、復(fù)雜決策;從模型而言,通常要兼顧準(zhǔn)確性和可解釋性。需要特別強(qiáng)調(diào),這些客戶風(fēng)險(xiǎn)厭惡程度相對(duì)偏高。心理學(xué)有個(gè)著名的前景理論,講的是人都有所謂的“損失厭惡性”。這些客戶尤其如此。由于決策的利害相關(guān)性,永遠(yuǎn)是合規(guī)第一、安全第一、可控第一,可以不使用大數(shù)據(jù)模型、不獲得大數(shù)據(jù)模型帶來的收益,但是不可以因?yàn)槭褂么髷?shù)據(jù)模型,而產(chǎn)生不可預(yù)測(cè)的風(fēng)險(xiǎn),即便是相對(duì)小的發(fā)生概率。大數(shù)據(jù)模型必須要有助于防范風(fēng)險(xiǎn),而不是帶來未知風(fēng)險(xiǎn)。在很多應(yīng)用場(chǎng)景下,客戶不會(huì)接受由成千上萬特征和成千上萬規(guī)則構(gòu)成的黑盒機(jī)器學(xué)習(xí)模型,必須把黑盒模型打開成白盒模型。客戶要的是:在業(yè)務(wù)知識(shí)規(guī)律約束下的大數(shù)據(jù)模型,也就是可以把控的大數(shù)據(jù)模型,當(dāng)然成本要盡可能低、性價(jià)比要盡可能高。這就是我們面對(duì)的市場(chǎng)。
基于這樣的市場(chǎng)認(rèn)知,金電聯(lián)行研發(fā)了“全智”數(shù)據(jù)科學(xué)平臺(tái),幫助客戶低成本、高質(zhì)量、工程化地構(gòu)建“既知其然、也知其所以然”的大數(shù)據(jù)模型。除了常規(guī)數(shù)據(jù)科學(xué)平臺(tái)的共性之外,“全智”數(shù)據(jù)科學(xué)平臺(tái)的特色在于實(shí)踐了以人為本、人機(jī)融合的建模理念,既依靠人,又服務(wù)人。所謂依靠人,就是通過知識(shí)圖譜、因果推斷、機(jī)器教學(xué)等技術(shù)途徑,在建模平臺(tái)中固化業(yè)務(wù)專家以及建模專家的方法論和知識(shí)經(jīng)驗(yàn),同時(shí)結(jié)合最先進(jìn)的自動(dòng)建模算法,使得建模過程更規(guī)范、更高效、更智能、更經(jīng)濟(jì)。所謂服務(wù)人,就是使用模型可視化、白盒模型構(gòu)建、黑盒模型解釋等技術(shù)途徑,使得建模成果能夠以方便人理解使用的方式輸出,不僅向人輸出模型,而且向人輸出模型解釋,以幫助人實(shí)現(xiàn)業(yè)務(wù)洞察。實(shí)踐表明,“全智”數(shù)據(jù)科學(xué)平臺(tái)的技術(shù)理念是務(wù)實(shí)的,適合了市場(chǎng)需求,得到了客戶肯定,對(duì)于大數(shù)據(jù)和人工智能技術(shù)在各領(lǐng)域、各行業(yè)落地實(shí)施,發(fā)揮了技術(shù)引領(lǐng)和推動(dòng)的作用。
謝謝大家!