隨著互聯(lián)網(wǎng)規(guī)模的日益發(fā)展,其產(chǎn)生的數(shù)據(jù)量也在的成倍增加,,企業(yè)數(shù)據(jù)本身就蘊藏著價值,從各類數(shù)據(jù)中快速獲得有價值的信息就是大數(shù)據(jù),由此大數(shù)據(jù)分析孕育而生;但是將有用的數(shù)據(jù)與沒有價值的數(shù)據(jù)進行區(qū)分確實是一個棘手的問題,尤其是在處理能力在萬兆級的電信網(wǎng)絡(luò)環(huán)境中,這個目標的實現(xiàn)更是難上加難,如何從眾多數(shù)據(jù)中快速獲得有用的信息一直是制約大數(shù)據(jù)發(fā)展的瓶頸所在。
Panabit對于大數(shù)據(jù)流量的處理分析已有十年之久,其日志分析系統(tǒng)前端引入探針收集數(shù)據(jù),后端統(tǒng)計分析數(shù)據(jù)日志,單板載可實時處理20Gbps的流量,滿足低端到各種網(wǎng)絡(luò)環(huán)境;可實現(xiàn)對所轄區(qū)域范圍內(nèi)的所有行為進行分析和管理。
Panabit將互聯(lián)網(wǎng)數(shù)據(jù)劃分為11個大類,各個大類有進一步細分為多個子類,子類又可分為多個超子類,總計1000余種常見互聯(lián)網(wǎng)協(xié)議,對于這些應(yīng)用信息,Panabit在萬兆環(huán)境中可輕松獲取得到。
Panabit大數(shù)據(jù)網(wǎng)絡(luò)分析系統(tǒng)部署說明:
由圖所示:為了提高網(wǎng)絡(luò)的可靠性,通過旁路的方式進行部署分析。
首先,在骨干鏈路中引入“分光器”,“分光器”將數(shù)據(jù)進行復(fù)制,然后下發(fā)到下層的“分流器”,分流器對接收到的數(shù)據(jù)進行采集分析,然后將完整的會話數(shù)據(jù)傳輸給Panabit;
其次,Panabit會對這些信息進一步處理,在這里,Panabit主要完成了兩個角色的功能:審計和日志摘要的下發(fā):
1. 實現(xiàn)安全的審計功能:Panabit同IPS審計類設(shè)備配合完成內(nèi)容的安全審計(同傳統(tǒng)的分光器、分流器比較,優(yōu)點在于可選擇的“應(yīng)用協(xié)議”的數(shù)據(jù)包鏡像給安全審計設(shè)備)將數(shù)據(jù)進一步處理產(chǎn)生;
2. 大數(shù)據(jù)信息的基石:Panabit進一步分析處理數(shù)據(jù),抽取具有價值的數(shù)據(jù),將其生成以syslog為格式的日志摘要信息,存儲到Panalog日志系統(tǒng)里(Panalog硬盤容量的預(yù)估:以10G鏈路產(chǎn)生的日志數(shù)據(jù)摘要為例,一天預(yù)估為300G)。
最終,在大數(shù)據(jù)分析的Hadoop集群系統(tǒng)中,Hadoop將根據(jù)Panabit產(chǎn)生的日志摘要信息和自身的“用戶信息系統(tǒng)”相計算,產(chǎn)生有價值的“大數(shù)據(jù)”。
大數(shù)據(jù)的處理的基石在于能夠在萬兆的大網(wǎng)絡(luò)環(huán)境下處理數(shù)據(jù)游刃有余:
Panabit大數(shù)據(jù)流量處理的核心技術(shù):
1. DPI
傳統(tǒng)的IP包流量識別和QoS控制技術(shù),僅對IP包頭中的“5Tuples”,即“五元組”信息進行分析,來確定當前流量的基本信息,傳統(tǒng)IP路由器也正是通過這一系列信息來實現(xiàn)一定程度的流量識別和QoS保障的,但其僅僅分析IP包的四層以下的內(nèi)容,包括源地址、目的地址、源端口、目的端口以及協(xié)議類型,隨著網(wǎng)上應(yīng)用類型的不斷豐富,僅通過第四層端口信息已經(jīng)不能真正判斷流量中的應(yīng)用類型,更不能應(yīng)對基于開放端口、隨機端口甚至采用加密方式進行傳輸?shù)膽?yīng)用類型。要準確識別網(wǎng)絡(luò)應(yīng)用,需要借助復(fù)雜的第7層識別技術(shù)。現(xiàn)在大量的網(wǎng)絡(luò)應(yīng)用包括P2P、即時通訊、網(wǎng)絡(luò)游戲等等,都具備了跳躍端口、隨機端口、自定義端口,甚至或者盜用一些常用服務(wù)的協(xié)議端口進行通信傳輸,所以通過對端口對它們進行識別顯然是遠遠不夠,傳統(tǒng)的流量限速設(shè)備無能為力。所以,網(wǎng)絡(luò)數(shù)據(jù)包必須在應(yīng)用層面(Application Layer)上進行檢查,即對傳輸協(xié)議如TCP協(xié)議的載荷(Payload)部分進行檢查,以判斷它們是否符合代表某種應(yīng)用的特征簽名。Dpi——Deep Packet Inspection,深度包檢測技術(shù),DPI將網(wǎng)絡(luò)上的數(shù)據(jù)報文根據(jù)五元組分為若干個的應(yīng)用流,并通過識別技術(shù)對應(yīng)用流中的特定的數(shù)據(jù)報文進行探測,從而確定應(yīng)用流對應(yīng)的應(yīng)用或者用戶動作。
Panabit的DPI引擎,將傳統(tǒng)DPI技術(shù)中的基于“特征字”的識別技術(shù)、應(yīng)用層網(wǎng)關(guān)識別技術(shù)、行為模式識別技術(shù)有機的整合起來,有效的靈活的識別網(wǎng)絡(luò)上的各類應(yīng)用,目前,產(chǎn)品支持1000多種協(xié)議和應(yīng)用的自動識別,從而為用戶提供全面的、有效的、靈活的大數(shù)據(jù)處理基石。
2. DFI
DFI——Dynamic Flow Inspection,動態(tài)流檢測技術(shù),DFI采用的是一種基于流量行為的應(yīng)用識別技術(shù),即不同的應(yīng)用類型體現(xiàn)在會話連接或數(shù)據(jù)流上的狀態(tài)各有不同。例如,網(wǎng)上IP語音流量體現(xiàn)在流狀態(tài)上的特征就非常明顯:RTP流的包長相對固定,一般在130~220byte,連接速率較低,為20~84kbit/s,同時會話持續(xù)時間也相對較長;而基于P2P下載應(yīng)用的流量模型的特點為平均包長都在450byte以上、下載時間長、連接速率高、傳輸層協(xié)議為TCP等。DFI技術(shù)正是基于這一系列流量的行為特征,建立流量特征模型,通過分析會話連接流的包長、連接速率、傳輸字節(jié)量、包與包之間的間隔等信息來與流量模型對比,從而實現(xiàn)鑒別應(yīng)用類型。DFI技術(shù)通過行為特征鑒定一個基于會話的應(yīng)用,比較適合用戶檢測加密應(yīng)用協(xié)議。
3. PSDL
PSDL ——Protocol Signature Description Language,協(xié)議特征描述語言,使得維護協(xié)議特征庫更加及時方便快捷,通過微編譯器和引擎,確保協(xié)議數(shù)量的可擴展性和靈活性。
一. 網(wǎng)絡(luò)審計的分類和特點
目前,網(wǎng)絡(luò)審計主要分為兩類:基于行為的審計和基于內(nèi)容的審計。行為審計,分析記錄用戶的上網(wǎng)行為,以此作為判斷用戶習(xí)慣、定位網(wǎng)絡(luò)問題和提取關(guān)鍵安全數(shù)據(jù);內(nèi)容審計,還原記錄用戶上網(wǎng)的內(nèi)容,常見的包括:郵件、網(wǎng)頁和IM內(nèi)容等,經(jīng)常配合在用戶內(nèi)容中使用關(guān)鍵字匹配等技術(shù),對用戶的上網(wǎng)內(nèi)容進行監(jiān)控。
行為審計和內(nèi)容審計兩者應(yīng)用的趨勢:
1. 大數(shù)據(jù)環(huán)境下的部署:
行為審計的信息主要來自于數(shù)據(jù)重組后提取的日志摘要信息,這些日志的數(shù)據(jù)量已非常龐大,產(chǎn)生的數(shù)據(jù)存儲和管理已接近大數(shù)據(jù)處理的極限,而內(nèi)容的審計相較行為審計在還原內(nèi)容上需要耗用更多的存儲空間和系統(tǒng)資源,后臺更是無法負擔(dān),所以,在大數(shù)據(jù)環(huán)境中主要以行為審計為主。
2. 用戶的認同度:
我想沒有多少用戶愿意將隱私*的暴露出來給別人窺視,尊重用戶的隱私是行為類審計基本的原則,這也是為什么市場主要以行為審計產(chǎn)品為主,相反,實施內(nèi)容審計由于內(nèi)容上的*透明化可能在無形當中給員工產(chǎn)生壓力,做事瞻前顧后,降低生產(chǎn)效率。
3. 技術(shù)上的可行性:
內(nèi)容審計的方法依賴于客戶的網(wǎng)絡(luò)協(xié)議是明文,或者是可以逆向破解的協(xié)議。隨著互聯(lián)網(wǎng)的發(fā)展,明文協(xié)議正在迅速減少,取而代之的是大量的加密協(xié)議和私有協(xié)議,這些協(xié)議都是內(nèi)容審計無能為力的。以QQ為例,早期QQ版本內(nèi)容非加密,客戶記錄都可以記錄,而現(xiàn)在的QQ協(xié)議為全程加密,目前對于此類加密內(nèi)容還原只能依靠“網(wǎng)關(guān)+客戶端”的模式進行,沒有其他辦法解決加密的內(nèi)容還原。因此,內(nèi)容審計的道路,在企業(yè)端和ISP端,基本已經(jīng)失去了光輝。
4. 審計市場的需求:
網(wǎng)絡(luò)審計主要應(yīng)用在網(wǎng)絡(luò)故障的診斷(網(wǎng)絡(luò)卡頓等疑難問題)、運營商下用戶行為的大數(shù)據(jù)分析(用戶退網(wǎng)預(yù)警,個人寬帶私售政企用戶,聚類客戶分析(家庭主婦、游戲玩家等))、部門IP落地(對NAT后的內(nèi)網(wǎng)做IP落地,對URL/QQ/Weibo/taobao等信息進行IP定位和落地,配合網(wǎng)絡(luò)安全等工作),而在這些領(lǐng)域行為審計在性能的處理上做的更為出色,內(nèi)容將逐漸淡出市場。
二. Panabit行為審計
Panabit大數(shù)據(jù)網(wǎng)絡(luò)分析系統(tǒng)是專門針對網(wǎng)絡(luò)上的行為分析而設(shè)計開發(fā)的一款管理工具,配以*的管理控制引擎和靈活多樣的管理控制策略,實時分析網(wǎng)絡(luò)活動,匹配管控策略,并生成豐富的統(tǒng)計報表,能夠滿足企事業(yè)單位、、金融電信、學(xué)校教育行業(yè)等各種Internet互聯(lián)網(wǎng)使用單位的網(wǎng)絡(luò)行為審計需求。旨在幫助管理者全面了解網(wǎng)絡(luò)的狀況和使用情況,提高網(wǎng)絡(luò)使用效率和工作效率,避免不當行為帶來的潛在風(fēng)險和損失。
Panabit審計日志的主要內(nèi)容有:
1. 流量會話日志
流量會話日志是用來統(tǒng)計分析每個IP下的具體信息(比如:上下行流量的流向問題、速率以及該IP下的等具體應(yīng)用)。該日志在運營商里可幫助其進行流量流向的統(tǒng)計分析和具體應(yīng)用的歸屬,判別本地資源是否被有效的利用提供依據(jù),從而根據(jù)具體內(nèi)容進行網(wǎng)絡(luò)優(yōu)化,降低本地出口成本。在企業(yè)里環(huán)境里,可以根據(jù)不同應(yīng)用所占的比例分析計算工作效率的損失計算。
2. NAT日志
NAT是將內(nèi)部一組私有IP地址轉(zhuǎn)換為可供訪問Internet的外部公有地址,解決了IPv4地址枯竭的問題,但這樣導(dǎo)致了內(nèi)網(wǎng)地址和外網(wǎng)地址的不一致,網(wǎng)絡(luò)提供商經(jīng)常被監(jiān)管部門要求提供相關(guān)的日志信息,典型的場景是監(jiān)管部門通過內(nèi)容服務(wù)或應(yīng)用服務(wù)查到相關(guān)的互聯(lián)網(wǎng)IP地址,IM帳號,訪問URL等信息,在通過這些信息來反查訪問者內(nèi)網(wǎng)IP地址,以便鎖定。Panabit日志審計系統(tǒng)采用高性能的探針收集并處理數(shù)據(jù)給管理日志平臺,使日志審計可以毫無壓力的處理各種大小環(huán)境。
3. URL日志
URL的日志既是審計部門常用的審計手段,又是作為一個公司衡量辦公效率的依據(jù)。Panabit日志審計具有準確完善的URL分類庫,這些分類庫是根據(jù)國內(nèi)用戶當前情況進行的合理采集和分類,符合我國用戶的網(wǎng)絡(luò)使用環(huán)境的需求,分類結(jié)果較為準確,基本覆蓋了在國內(nèi)用戶中有一定訪問量的URL地址。
4. 帳號日志 (QQ/weibo/taobao/POP3)
帳號日志的審計是網(wǎng)絡(luò)安全審查和取證的一個的重要環(huán)節(jié)。尤其是在部門的審查活動中,帳號登錄查詢已是審計的常態(tài)之一,保證登錄信息的完整性已是刻不容緩的任務(wù),然而在大網(wǎng)絡(luò)環(huán)境當中,在SMB市場中大放異彩的UTM審計設(shè)備已失去原有的價值,大環(huán)境需配備專業(yè)的日志審計系統(tǒng),Panabit的數(shù)據(jù)處理性能解決了這一問題,為審計取證有據(jù)可依。
5. DNS日志
對于運營商來說可能沒有比維護DNS服務(wù)更為重要的事情了,因為在Internet當中的大小服務(wù)都是依靠DNS為基礎(chǔ)運營的,可以毫不夸張的說DNS是Internet的中樞神經(jīng),所以,相對運營商來講分析統(tǒng)計DNS是很有必要的事情,DNS的分布可以很好的反映當前網(wǎng)絡(luò)運營的效果。
三. 產(chǎn)品部署
Panabit大數(shù)據(jù)網(wǎng)絡(luò)分析系統(tǒng)可以采用路由、網(wǎng)橋、旁路三種方式靈活部署,通過分析處理流入和流出的數(shù)據(jù)包,可有效的實現(xiàn)對網(wǎng)絡(luò)數(shù)據(jù)的監(jiān)控審計。
1. 路由模式和網(wǎng)橋模式都屬于串聯(lián)式的部署模式,都是通過將審計系統(tǒng)直接串接在用戶網(wǎng)絡(luò)鏈路中實現(xiàn)的。網(wǎng)橋模式可以實現(xiàn)對內(nèi)網(wǎng)數(shù)據(jù)監(jiān)控、控制和管理功能,主要適用于不希望更改網(wǎng)絡(luò)結(jié)構(gòu)、路由配置、IP配置的用戶使用;路由模式可以實現(xiàn)對所有數(shù)據(jù)的審計、控制和攔截功能,適用于對網(wǎng)絡(luò)拓撲的更改不敏感的用戶使用;
2. 旁路部署模式,是采用與交換機的鏡像端口相連,通過抓包的方式,實現(xiàn)對網(wǎng)絡(luò)數(shù)據(jù)的審計。它的優(yōu)點是可靠性高,安全性好,不增加網(wǎng)絡(luò)延遲,設(shè)備故障時不影響整個網(wǎng)絡(luò)運行。
四. 總結(jié)
簡而言之,從各種各樣類型的數(shù)據(jù)中快速或得有價值信息的能力就是大數(shù)據(jù)技術(shù)。Panabit大數(shù)據(jù)網(wǎng)絡(luò)分析系統(tǒng)以的探針識別和處理能力為基礎(chǔ),為網(wǎng)絡(luò)服務(wù)提供統(tǒng)計分析處理功能,大到電信運營商,小到SMB市場,為高速發(fā)展的網(wǎng)絡(luò)市場注入新鮮的活力,以做新一代網(wǎng)絡(luò)大數(shù)據(jù)行為分析系統(tǒng)為目標面向廣大用戶,為其提供服務(wù),并贏得了用戶的高度信任和肯定!