電信行業(yè)大數(shù)據(jù)發(fā)展及平臺(tái)技術(shù)演進(jìn)分析
魏進(jìn)武的演講主要分為兩部分,部分介紹中國聯(lián)通的大數(shù)據(jù)平臺(tái)技術(shù)和下一步演進(jìn)思路。另一部分介紹聯(lián)通圍繞平臺(tái)開放合作的想法。
以下是演講實(shí)錄:
共有三個(gè)方面,一個(gè)是我們圍繞大數(shù)據(jù)的一些思考,確定發(fā)展目標(biāo)。另外一塊就是圍繞這個(gè)目標(biāo),我們當(dāng)前發(fā)展到了什么地步。第三塊就是一個(gè)開放合作的想法。從這個(gè)背景上來講,目前配合咱們大會(huì)的主題和產(chǎn)業(yè)的發(fā)展來看,開放和合作也是整個(gè)大數(shù)據(jù)產(chǎn)業(yè)化發(fā)展的一個(gè)基礎(chǔ),從開放這一塊,我們13年就已經(jīng)定了開放和合作的想法。我們把它分為三個(gè)圈來看,內(nèi)部可能是一個(gè)大數(shù)據(jù)的核心圈,主要是由擁有大數(shù)據(jù)的人來主持,主要這一塊有內(nèi)層的數(shù)據(jù)的基礎(chǔ)平臺(tái),還有一些開放的能力來構(gòu)成。中間這一塊可能是我們一些結(jié)果數(shù)據(jù),或者能夠開放給行業(yè),供行業(yè)融合數(shù)據(jù)的一個(gè)供給圈。外層也就是輻射出去之后,能夠向產(chǎn)業(yè)融合之后,提供圍繞著數(shù)據(jù)增值化這一塊的數(shù)據(jù)增值圈,大數(shù)據(jù)產(chǎn)業(yè)要有基于開放 合作,大數(shù)據(jù)整個(gè)產(chǎn)業(yè)經(jīng)歷這么一個(gè)過程。
前幾年大家集中做核心圈這種事情,都在建自己大數(shù)據(jù)平臺(tái)的能力,做各種各樣的數(shù)據(jù)采集工作。現(xiàn)在也在做一些數(shù)據(jù)能力的開放,下一步我認(rèn)為在開放和共享這個(gè)環(huán)節(jié)上,可能會(huì)重點(diǎn)促進(jìn)供給圈的工作,把擁有數(shù)據(jù)的,以能力的方式,以結(jié)構(gòu)數(shù)據(jù)的方式,脫敏數(shù)據(jù)的方式開放出來,尋求面向各個(gè)行業(yè)和產(chǎn)業(yè)增值化的服務(wù),可能是我們下一個(gè)階段主要的任務(wù)。在這個(gè)過程當(dāng)中,我們發(fā)現(xiàn)整個(gè)通訊行業(yè)也在發(fā)生變化。搞通訊的都知道,我們通訊基本上過程是這樣的,我們有網(wǎng)源設(shè)備,完成了端到端的信息交互。隨著OTT技術(shù)的發(fā)展,隨著3G、4G的技術(shù),可能不是端到端了,而是從端到數(shù)據(jù)中心,就完成了這種交換。也就是說把整個(gè)端到端的通信劈成了兩塊,先由端到數(shù)據(jù)中心,再由數(shù)據(jù)中心到另外一個(gè)端,在這種情況下,我們認(rèn)為以端到端的管道化的通信模式,可能在向以IDC數(shù)據(jù)中心為核心的方式來轉(zhuǎn)變。云計(jì)算和大數(shù)據(jù)也是我們IDC的一個(gè)主要承載的內(nèi)容,在這種模式之下,IDC以大數(shù)據(jù)和云計(jì)算為核心的,可能會(huì)支撐下一步整個(gè)通信網(wǎng)絡(luò)的變革。這是兩個(gè)背景。
在這兩個(gè)背景的考量之下,我們要圍繞這個(gè)來考慮我們大數(shù)據(jù)平臺(tái)整個(gè)開放合作的體系。我們聯(lián)通這一塊有四種大數(shù)據(jù)合作模式,其中一種就是大數(shù)據(jù)創(chuàng)新實(shí)驗(yàn)室的合作模式。在這個(gè)體系里面,我們首先要構(gòu)建為滿足未來兩級IDC核心的一個(gè)基礎(chǔ)框架下的大數(shù)據(jù)能力開放,我們這一塊是把大數(shù)據(jù)和云計(jì)算整合起來發(fā)展。一級這一塊重點(diǎn)是提供能力和資源,二級這一塊重點(diǎn)是提供應(yīng)用和能力接入的,這么一個(gè)思路在做開放的基礎(chǔ)創(chuàng)新體系。
在這個(gè)體系里面,我們希望和產(chǎn)業(yè)界的合作伙伴形成一個(gè)開放的,架構(gòu)新的,技術(shù)全的,樣本數(shù)據(jù)維度全的一個(gè)開放創(chuàng)新的孵化環(huán)境,能夠在孵化這個(gè)環(huán)節(jié)上盡可能促進(jìn)整個(gè)跨行業(yè)的樣本數(shù)據(jù)的融合和場景的融合。這是我們圍繞創(chuàng)新體系這一塊,我們平臺(tái)想支撐起來的一件事情。另外一塊就是圍繞應(yīng)用這一塊,我們目前已經(jīng)做到的有這么一些應(yīng)用體系。比如面向征信的,面向金融營銷的,面向各種行業(yè)發(fā)展指數(shù)的,還有就是能力開放的四個(gè)產(chǎn)品體系。經(jīng)過前兩年的探索,我們也發(fā)展了一些合作對象,合作內(nèi)容。圍繞這四類,基本涵蓋了整個(gè)互聯(lián)網(wǎng)金融,涵蓋了我們一些政府,涵蓋了一些銀行、保險(xiǎn)這樣一些行業(yè),在做這個(gè)數(shù)據(jù)能力的開放的嘗試。
從開放的模式上來說,從我們生產(chǎn)開放模式這塊主要有四類模式,一類模式就是數(shù)據(jù)特區(qū)的這種模式。就是我們提供一個(gè)資源和數(shù)據(jù)的特區(qū),大家來加工。另外一塊可能就是實(shí)時(shí)接口的模式,第三塊就是提供營銷服務(wù)的模式,還有一塊就是共建實(shí)驗(yàn)室的模式。下面我們給大家重點(diǎn)講的是共建實(shí)驗(yàn)室的模式,要支持這種共建實(shí)驗(yàn)室的模式,又要考慮到支撐未來通信行業(yè)IDC的變革,我們平臺(tái)這一塊也要向兩極化發(fā)展。一級重點(diǎn)是提供大數(shù)據(jù)基礎(chǔ)能力的,目前我們能提供的資源的供給能力、數(shù)據(jù)的存儲(chǔ)能力、數(shù)據(jù)的加工能力還有數(shù)據(jù)開放挖掘能力,以及合規(guī)審核能力這么五大類基本的能力。在二級這一塊,可能要完成一個(gè)大數(shù)據(jù)的產(chǎn)品化運(yùn)營管理平臺(tái)的東西,由平臺(tái)能力提供變成產(chǎn)品的制作,大數(shù)據(jù)產(chǎn)品的制作和大數(shù)據(jù)產(chǎn)品的運(yùn)營計(jì)量,而且這一塊要實(shí)現(xiàn)一個(gè)異地的接入和物理分散的一個(gè)部署。在這個(gè)大規(guī)模部署的情況下,再開展更廣域的合作應(yīng)用,這是我們圍繞開放創(chuàng)新平臺(tái)的一個(gè)目標(biāo)架構(gòu)。
圍繞這個(gè),我們聯(lián)通做到什么程度呢?聯(lián)通從2000年就開始在做數(shù)據(jù),真正大數(shù)據(jù)時(shí)代從2001年來做。經(jīng)歷的過程來看,一開始我們做的全網(wǎng)全域的數(shù)據(jù)集中,目前聯(lián)通已經(jīng)做到了全網(wǎng)全域的數(shù)據(jù)一點(diǎn)集中,這是區(qū)別于其他地方的一個(gè)基礎(chǔ)。目前這一塊數(shù)據(jù)規(guī)模上已經(jīng)達(dá)到了21個(gè)PB以上,兩千多臺(tái)節(jié)點(diǎn)的處理,大概月增量在600個(gè)TB以上。還有日處理的上網(wǎng)記錄、通話記錄大概都是上億條,千億條。從服務(wù)能力這塊來講,截止去年12月份的數(shù)據(jù),我們現(xiàn)在支持一萬個(gè)以上的數(shù)據(jù)并發(fā),自然利用率達(dá)到30%以上,能識別八萬多個(gè)終端型號,APP識別率也達(dá)到了90%以上,這是我們目前大數(shù)據(jù)能達(dá)到的規(guī)模和能力。
平臺(tái)這一塊,我們大數(shù)據(jù)在集團(tuán)內(nèi)部也不是孤立存在的,我們是放在一個(gè)大的IT架構(gòu)里面來考量這件事情的。底層我們有統(tǒng)一的系統(tǒng)來保障,中間是一個(gè)基礎(chǔ)的數(shù)據(jù)加工的平臺(tái),上面是一個(gè)數(shù)據(jù)的能力開放平臺(tái),是這么一個(gè)方式,來構(gòu)建我們聯(lián)通的一級大數(shù)據(jù)能力平臺(tái)。開放技術(shù)架構(gòu)這一塊,面向五層的開放,包括底層數(shù)據(jù)的存儲(chǔ)加工,中間的數(shù)據(jù)建模,上層的數(shù)據(jù)應(yīng)用。數(shù)據(jù)加工這一塊包括了我們的建模,包括多租戶的管理,包括數(shù)據(jù)的挖掘,包括我們結(jié)果數(shù)據(jù)的輸出和行業(yè)應(yīng)用融合的合規(guī)審核這種基礎(chǔ)。這是目前已經(jīng)具備這方面的能力了,所以總結(jié)一下,從聯(lián)通大數(shù)據(jù)來看,我們可能有這么幾個(gè)優(yōu)勢。
個(gè)優(yōu)勢,全網(wǎng)全域,數(shù)據(jù)是一點(diǎn)集中的,另外一個(gè)優(yōu)勢,就是數(shù)據(jù)加工是由統(tǒng)一平臺(tái)來承載一體化加工。第三從運(yùn)營這塊,經(jīng)過兩年的嘗試,這塊積累了一定產(chǎn)品化運(yùn)營的經(jīng)驗(yàn)。第四個(gè),就是數(shù)據(jù)質(zhì)量和數(shù)據(jù)管控體系上來看,從12年開始,我們就在做全集團(tuán)的統(tǒng)一的原數(shù)據(jù)和數(shù)據(jù)質(zhì)量的管控體系。這是聯(lián)通大數(shù)據(jù)平臺(tái),我認(rèn)為相對于其他的基本的四個(gè)優(yōu)勢。
圍繞這一塊已經(jīng)取得的成果和下一步能支撐數(shù)據(jù)通信網(wǎng)絡(luò)的變遷,以及開放創(chuàng)新體系這一塊來說,下一步這個(gè)平臺(tái)還要朝四個(gè)方面來做繼續(xù)的演進(jìn)。個(gè),剛才IBM的專家也講了,我們這一塊也要充分引進(jìn)和運(yùn)用微服務(wù)架構(gòu),能夠?qū)崿F(xiàn)我們大數(shù)據(jù)平臺(tái)應(yīng)用能力在物理上的一個(gè)分布,能力實(shí)現(xiàn)一個(gè)集中的運(yùn)營,滿足兩級數(shù)據(jù)開放運(yùn)營體系。聯(lián)通雖然我們數(shù)據(jù)是一點(diǎn)集中的,全部物理集中在北京,但是集中起來之后,發(fā)現(xiàn)我們的開放成了一個(gè)難題。我們數(shù)據(jù)在集中了之后,能力怎么開放出來,讓全國的或者不同地域的專屬應(yīng)用能夠訪問得到,這是我們現(xiàn)在面臨的一個(gè)問題。第二個(gè),也要構(gòu)建基于容器 資源和能力兩層調(diào)度的新的體系,促進(jìn)云和大數(shù)據(jù)的融合。在2.0的框架之下,實(shí)現(xiàn)能力訪問的跨域接入,實(shí)現(xiàn)能力的集中運(yùn)營,從而在屬地化運(yùn)營和我們統(tǒng)一運(yùn)營上實(shí)現(xiàn)協(xié)同化的發(fā)展,這是第二塊。
第三塊,從數(shù)據(jù)本質(zhì)上來說,也會(huì)引入認(rèn)知計(jì)算,使得計(jì)算能夠滲透在大數(shù)據(jù)應(yīng)用當(dāng)中各個(gè)環(huán)節(jié)。為什么這么講?因?yàn)楝F(xiàn)在我們的數(shù)據(jù)分析或者數(shù)據(jù)應(yīng)用大部分還停留在可視化這個(gè)環(huán)節(jié),停留在知道這個(gè)環(huán)節(jié)。但是我們可能對數(shù)據(jù)的期望不僅僅是知道,而是知道了,你下一步該干什么,或者在知道它有問題的情況下,提前采取什么樣的措施來規(guī)避不好的情況出現(xiàn),這可能是我們想引入過程計(jì)算的一個(gè)思想和出發(fā)點(diǎn)。
第四就是充分利用機(jī)器學(xué)習(xí),來開發(fā)非傳統(tǒng)經(jīng)驗(yàn)的算法。為什么這么講?因?yàn)樵瓉砦覀冊谕鏀?shù)據(jù)游戲,我們都從概念模型出發(fā),后通過數(shù)據(jù)來證實(shí)了一下這個(gè)概念模式。非傳統(tǒng)經(jīng)驗(yàn),我們希望從數(shù)據(jù)事實(shí)來出發(fā),通過數(shù)據(jù)的事實(shí),通過算法的計(jì)算,發(fā)現(xiàn)某些事實(shí)。有些事實(shí)用物理概念能解釋,有些事實(shí)用物理概念解釋不了,我們在現(xiàn)有的基礎(chǔ)上,在平臺(tái)和數(shù)據(jù)本身上進(jìn)一步發(fā)展演進(jìn)的方向。
圍繞開放合作,我們現(xiàn)在會(huì)以聯(lián)通的樣本數(shù)據(jù)或者聯(lián)通的自有數(shù)據(jù)開放出來,和各個(gè)行業(yè)來實(shí)現(xiàn)國內(nèi)的跨行業(yè)的合作。從模式上來說,剛才有四種模式,圍繞著開放創(chuàng)新實(shí)驗(yàn)室這種模式,可能會(huì)圍繞三方面來做合作。一個(gè)就是平臺(tái)技術(shù),第二個(gè)就是應(yīng)用孵化,第三就是具體的建模算法。深度的一個(gè)合作,也希望和大家能聯(lián)合起來做合作研發(fā)的工作。