開源與閉源的融合有利于構(gòu)建大數(shù)據(jù)分析生態(tài)
但目前B2B數(shù)據(jù)分析整個市場總量還很小,而且對數(shù)據(jù)分析的要求更高。因為單一平臺不能解決大數(shù)據(jù)的所有問題,這也有了開源與閉源技術(shù)的混合需求,構(gòu)建大數(shù)據(jù)分析的生態(tài)系統(tǒng),在IoT數(shù)據(jù)大量爆發(fā)的時代為各行各業(yè)提供對應(yīng)的分析能力。
IoT數(shù)據(jù)分析需要7大支撐
IoT的快速發(fā)展讓數(shù)據(jù)分析也要更進一步,因為IoT的數(shù)據(jù)量是傳統(tǒng)數(shù)據(jù)的100倍,這就需要強大可擴展的數(shù)據(jù)平臺來存儲和處理這些數(shù)據(jù);IoT的地理空間數(shù)據(jù)比例非常大,需要擁有先進的地理空間分析能力;IoT中有大量基于時間序列的時間數(shù)據(jù)需要分析,傳統(tǒng)SQL并不善于處理。
數(shù)據(jù)量、地理空間數(shù)據(jù)、時間序列數(shù)據(jù)三方面都是IoT數(shù)據(jù)相比于傳統(tǒng)數(shù)據(jù)的不同之處。Teradata天睿公司技術(shù)官寶立明提到,隨著IoT數(shù)據(jù)的可分析也標志著我們已經(jīng)真的進入了“萬物皆可分析”的時代,通過傳感器采集到的數(shù)據(jù)終于可以發(fā)揮其價值。
構(gòu)建大數(shù)據(jù)分析生態(tài)實現(xiàn)開源與閉源的融合
其實在2015年TeradataPartners大會上,Teradata就提出了“萬物皆可分析”的概念。但基于傳感器的數(shù)據(jù)應(yīng)用更多集中在制造業(yè)層面,所以Teradata的一個業(yè)務(wù)重點便是要向制造業(yè)轉(zhuǎn)移。當然萬物皆可分析也包含了來自各行各業(yè)的數(shù)據(jù),如電信行業(yè)收集手機的地理位置信息,醫(yī)療行業(yè)醫(yī)療設(shè)備收集的身體指標數(shù)據(jù)等等。
在Teradata提供的產(chǎn)品中對于IoT數(shù)據(jù)的分析可以分為七類,、TeradataListener框架,以實時的方式把海量的數(shù)據(jù)導(dǎo)入到Teradata系統(tǒng);第二、利用RESTfulAPI實現(xiàn)各種技術(shù)平臺的對接;第三、可靠、高可伸縮的數(shù)據(jù)傳輸技術(shù);第四、存儲技術(shù);第五、可兼容技術(shù);第六、壓縮技術(shù);第七、即將推出TeradataIntelliFlex一體機產(chǎn)品,采用下一代海量并行處理(MPP)架構(gòu),能以非常高的經(jīng)濟性,有效地進行海量數(shù)據(jù)的處理。
除了剛剛說到的七部分,Teradata實現(xiàn)萬物皆可分析的基礎(chǔ)還是統(tǒng)一數(shù)據(jù)架構(gòu)(UDA),其結(jié)合了Teradata的技術(shù)、開源技術(shù)、數(shù)據(jù)湖等技術(shù)。
“我們可以將數(shù)據(jù)先放到數(shù)據(jù)湖中存儲,經(jīng)過Aster進一步處理,導(dǎo)入到數(shù)據(jù)倉庫為BI使用。”寶立明說道,UDA中的Aster是一個非常適合處理傳感器數(shù)據(jù)的平臺,而且已經(jīng)被移植到Hadoop上,既可以在文件系統(tǒng)上去執(zhí)行,也可以在開源的數(shù)據(jù)庫上應(yīng)用。
從跳高演變看技術(shù)整合
正如UDA的架構(gòu),開源和閉源已經(jīng)實現(xiàn)融合,而這在之前是不可想象的。寶立明用跳高姿勢的演變舉例,在之前跳高的姿勢都是剪刀腿,而到了80年代跳高遇到了一個轉(zhuǎn)型期,背越式的出現(xiàn)比剪刀腿能取得更好的成績。
這也使得越來越多的選手開始采用背越式,當然選手可以依然待在安全區(qū),但你終不會成為贏家。通過12年的發(fā)展背越式完全取代了剪刀腿,這就如同采用新技術(shù)也是一個痛苦的過程一樣,企業(yè)需要實現(xiàn)商業(yè)技術(shù)和開源技術(shù)的整合。
在15年前,Teradata就已經(jīng)把數(shù)據(jù)庫產(chǎn)品跑在Unix、Linux開源的版本之上,一直到今天也是如此。
在UDA的組合中不僅有開源Hadoop,寶立明還特別提到同F(xiàn)acebook合作研發(fā)的開源分布式SQL查詢引擎Presto,以及運行在Presto上面的QueryGrid,其可以在Hadoop平臺發(fā)起并完成跨平臺查詢,所以UDA已經(jīng)是一個商業(yè)技術(shù)和開源技術(shù)融合的開放架構(gòu)。
同時Teradata也為機器學(xué)習(xí)提供一個具有高可延展性的大數(shù)據(jù)平臺,把機器學(xué)習(xí)的算法,像R、Ruby內(nèi)嵌到平臺之上,供Teradata的數(shù)據(jù)科學(xué)家做各種各樣的實驗和探索,更好地找到一些成熟可商用的技術(shù),整合到解決方案中。
在云計算戰(zhàn)略上,為了和企業(yè)的應(yīng)用趨勢匹配,數(shù)據(jù)分析的重心也正在向云中轉(zhuǎn)移,尤其是現(xiàn)在企業(yè)的業(yè)務(wù)系統(tǒng)逐漸前移到云端,分析也將轉(zhuǎn)移到云端。
Teradata的原則是給客戶提供同類佳技術(shù)的選擇,AWS是目前宣布的家公有云合作伙伴,未來在MicrosoftAzure、谷歌云上都會提供服務(wù),目標是在不同云平臺上都可以提供同樣的數(shù)據(jù)分析能力。