“科云”數(shù)據(jù)采集系統(tǒng)支持對(duì)結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、網(wǎng)頁互聯(lián)網(wǎng)數(shù)據(jù)的抓取/抽取、清洗、轉(zhuǎn)換、集成并加載到數(shù)據(jù)倉庫中進(jìn)行統(tǒng)一處理,實(shí)現(xiàn)從高速、海量、多樣、無序的數(shù)據(jù)中提取有價(jià)值的信息,并發(fā)現(xiàn)其主要特征,將數(shù)據(jù)轉(zhuǎn)換成后續(xù)可用的信息。
1.集群化:采用多節(jié)點(diǎn)冗余設(shè)計(jì),集群服務(wù)間自動(dòng)監(jiān)視并進(jìn)行主從備份,支持動(dòng)態(tài)服務(wù)節(jié)點(diǎn)的添加。
2.跨平臺(tái):支持Linux、windows、unix等主流操作系統(tǒng),支持國產(chǎn)平臺(tái)。
3.高并發(fā):支持將用戶爬蟲任務(wù)進(jìn)行分片,在集群服務(wù)進(jìn)行分片任務(wù)處理后進(jìn)行。
4.多樣化:支持對(duì)結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、網(wǎng)頁互聯(lián)網(wǎng)數(shù)據(jù)的統(tǒng)一處理。