概述
隨著互聯(lián)網(wǎng)的普及,民超過3.38億大網(wǎng)家,網(wǎng)絡的重要性凸顯,而網(wǎng)絡熱點也層出不窮,上海市戶籍新政、陜西神木縣醫(yī)療……都是通過網(wǎng)絡進行時間傳播,互聯(lián)網(wǎng)已經(jīng)成為政府了解民情的直接渠道,也是新形勢下政府的重要陣地。因此,網(wǎng)絡一旦被錯誤地控制和引導,將成為影響社會穩(wěn)定的重大隱患。如何應對網(wǎng)絡輿情,目前正在考驗著我國各級政府。
網(wǎng)絡復雜化,互聯(lián)網(wǎng)言論空間在2010年繼續(xù)擴大,特別是“微博”的崛起,網(wǎng)絡議題得到傳統(tǒng)媒體的響應和深入挖掘,而傳統(tǒng)媒體的報道也經(jīng)常在網(wǎng)上被迅速發(fā)酵、放大成全部分網(wǎng)民開始以一些溫和的網(wǎng)下行動干預現(xiàn)實。政府對網(wǎng)絡民意的應答提速,并把網(wǎng)絡舉報列為黨紀、政紀和司法監(jiān)督新渠道,追究激起民怨的官員責任。同時,由于一些突發(fā)事件中對抗性增加,某些地方容易把限制網(wǎng)絡信息流動作為控制局勢的優(yōu)先選擇,而另一些地方政府則大膽探索應對和突發(fā)事件處理的新機制
多數(shù)據(jù)源采集融合問題,目前新聞、論壇、博客、微博客、視頻網(wǎng)站等多種輿情信息傳播渠道,同一個輿情信息可散布在不同傳播渠道中,造成了數(shù)據(jù)監(jiān)測系統(tǒng)對不同來源數(shù)據(jù)的處理不一致、標準不統(tǒng)一的問題,為了保證監(jiān)管的效率,需要對監(jiān)管系統(tǒng)的元信息進行數(shù)據(jù)標準化和數(shù)據(jù)集成,形成一個統(tǒng)一的互聯(lián)網(wǎng)輿情信息基礎數(shù)據(jù)庫
多維度監(jiān)測問題,輿情監(jiān)測要求對多數(shù)據(jù)源進行多維度分析,根據(jù)不同用戶的需要進行不同的維度的分析與展現(xiàn)。
分析結果關聯(lián)與融合問題,現(xiàn)有監(jiān)測系統(tǒng)對輿情信息傳播的分析功能的實現(xiàn)還比較少,只有簡單的輿情信息文本內容分析,因此對于多種傳播渠道新聞、論壇、博客、微博客傳播方式和相關信息的綜合分析目前還沒有相應的系統(tǒng)和技術,導致分析關聯(lián)能力不足,對潛在熱點發(fā)現(xiàn)能力不足,需要有效的解決方案
海量數(shù)據(jù)處理問題,互聯(lián)網(wǎng)數(shù)據(jù)數(shù)以億計,每天都產生TB以上規(guī)模的數(shù)據(jù),如何對海量的數(shù)據(jù)進行存儲,如何對海量數(shù)據(jù)及時有效的處理,如何使系統(tǒng)的架構能夠隨著數(shù)據(jù)規(guī)模增大而自動擴展,都是海量數(shù)據(jù)處理面臨的挑戰(zhàn)性問題。
系統(tǒng)特點
一是采集靈活性,網(wǎng)頁探索器作的網(wǎng)頁分析工具,可以按照網(wǎng)頁視覺特征精確定位并分析網(wǎng)頁任意一部分的源碼結構,節(jié)點結構,CSS 特性;對任何復雜的頁面布局都可以靈活處理,內置幾十種數(shù)據(jù)處理方式,輕松支持從任意半結構化數(shù)據(jù)中抽取結構化數(shù)據(jù);
二是采集時效性,分布式搜索、元搜索、垂直搜索互為補充,搜索引擎采用分布式、并行負載平衡技術,當服務器出現(xiàn)運行負載失衡的狀態(tài),系統(tǒng)可根據(jù)事先設定的調節(jié)機制,自動調節(jié)服務器和網(wǎng)絡設備的負載,充分利用既有資源,確保系統(tǒng)穩(wěn)定運行,提高運行效率,從而達到我們快速搜索數(shù)據(jù)采集目標;
三是可定制性,即能夠根據(jù)用戶的自定義需求,對重點對象、話題進行聚焦監(jiān)測;
四是持續(xù)性,即能追蹤已知話題的后續(xù)各類互聯(lián)網(wǎng)媒體相關報道、轉載、評論數(shù),掌握其發(fā)展范圍、動態(tài)、趨勢;
五是全面性,對于針對不同技術形態(tài)建立的系統(tǒng)數(shù)據(jù)進行整合、分析處理,確保管轄范圍內數(shù)據(jù)的全面性。