二、何謂數(shù)據(jù)挖掘?
1、 定義:數(shù)據(jù)挖掘是從大量的、不*的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、事先不知道的、但又是潛在有用的信息和知識(shí)的過程;
2、 目的:數(shù)據(jù)挖掘的目的就是從數(shù)據(jù)中淘金,就是從數(shù)據(jù)中獲取智能的過程。從商業(yè)角度來看,數(shù)據(jù)挖掘則是指一種新的商業(yè)信息處理技術(shù),其主要特點(diǎn)是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。簡而言之,數(shù)據(jù)挖掘就是一類深層次的數(shù)據(jù)分析方法?,F(xiàn)在商家分析這些數(shù)據(jù)已不再是單純?yōu)榱搜芯康男枰饕菫樯虡I(yè)決策提供真正有價(jià)值的信息,進(jìn)而獲得更多的利潤和優(yōu)勢、*。
3、 數(shù)據(jù)挖掘過程:數(shù)據(jù)挖掘過程大致可分為5個(gè)步驟:數(shù)據(jù)取樣、數(shù)據(jù)探索、模式發(fā)現(xiàn)、預(yù)測建模和模型評估。
4、 數(shù)據(jù)挖掘的數(shù)據(jù)源:大部分情況下,數(shù)據(jù)挖掘的分析數(shù)據(jù)源可以是數(shù)據(jù)倉庫或數(shù)據(jù)挖掘數(shù)據(jù)集市。因?yàn)閷?dǎo)入到數(shù)據(jù)倉庫的數(shù)據(jù)已經(jīng)經(jīng)過了大量的數(shù)據(jù)清理和轉(zhuǎn)換工作,減少數(shù)據(jù)挖掘的數(shù)據(jù)清理過程。
5、 數(shù)據(jù)挖掘的主要技術(shù):
(1)、分類分析——用于預(yù)測數(shù)據(jù)對象的離散類別(Categorical Label);涉及的算法有決策樹、 KNN法(K-Nearest Neighbor) 即K最近鄰法、SVM法即支持向量機(jī)(Support Vector Machine)法、VSM法即向量空間模型(Vector Space Model)法、Bayes法、神經(jīng)網(wǎng)絡(luò)。
(2)、聚類分析——聚類分析是在沒有給定劃分類的情況下,根據(jù)信息相似度進(jìn)行信息聚類的一種方法,又稱為無指導(dǎo)的學(xué)習(xí),聚類的目的是根據(jù)一定規(guī)則將數(shù)據(jù)分為一系列有意義的子集,同一聚類中,個(gè)體之間的差距較小,不同聚類中,個(gè)體之間的距離偏大。聚類除了將樣本分類外,它還可以完成孤立點(diǎn)挖掘,如將其應(yīng)用于欺詐探測中。
(3)、關(guān)聯(lián)分析——關(guān)聯(lián)分析能尋找數(shù)據(jù)庫中大量數(shù)據(jù)的相關(guān)聯(lián)系,常用的兩種技術(shù)為關(guān)聯(lián)規(guī)則和序列模式。關(guān)聯(lián)規(guī)則是發(fā)現(xiàn)一個(gè)事物與其他事物間的相互關(guān)聯(lián)性或相互依賴性,可用于如分析客戶在超市買牙刷的同時(shí)又買牙膏的可能性;序列模式分析將重點(diǎn)放在分析數(shù)據(jù)之間的前后因果關(guān)系。
(4)、時(shí)序分析——是描述基于時(shí)間或其他序列的經(jīng)常發(fā)生的規(guī)律或趨勢,并對其建模。與回歸一樣,它也是用已知的數(shù)據(jù)預(yù)測未來的值,但這些數(shù)據(jù)的區(qū)別是變量所處時(shí)間的不同。序列模式將關(guān)聯(lián)模式和時(shí)間序列模式結(jié)合起來,重點(diǎn)考慮數(shù)據(jù)之間在時(shí)間維上的關(guān)聯(lián)性。
(5)、偏差檢測——偏差檢測是用來發(fā)現(xiàn)與正常情況不同的異常和變化,并進(jìn)一步分析這種變化是否是有意的行為,還是正常的變化。如果是異常行為,則需提示預(yù)防措施,盡早防范。偏差是對差異和特例的表述,如分類中的反常實(shí)例、聚類外的離群值、不滿足規(guī)則的特例等。大部分?jǐn)?shù)據(jù)挖掘方法都將這種差異信息視為噪聲而丟棄,然而在一些應(yīng)用中,罕見的數(shù)據(jù)可能比正常的數(shù)據(jù)更有用。偏差檢測的基本方法是尋找觀測結(jié)果與參照之間的差別。
6、 典型的應(yīng)用:(1)、企業(yè)可利用采用數(shù)據(jù)挖掘技術(shù)來判斷哪些是價(jià)值客戶、重整產(chǎn)品推廣策略;(2)、電信公司使用數(shù)據(jù)挖掘檢測話費(fèi)欺詐行為;(3)、銀行使用數(shù)據(jù)挖掘檢測欺詐行為;(4)、做完市場調(diào)查后,來預(yù)測哪些客戶群會(huì)對新產(chǎn)品感興趣;(5)、數(shù)據(jù)挖掘能自動(dòng)從龐大的數(shù)據(jù)中找到預(yù)測客戶購買行為的模式,進(jìn)行數(shù)據(jù)挖掘后,可以用來為*活動(dòng)選擇的客戶群,把結(jié)果輸入到*活動(dòng)管理軟件中,可以大大提高*的效果;(6)、能幫助銷售人員更準(zhǔn)確地定位活動(dòng),并使活動(dòng)緊密結(jié)合現(xiàn)有客戶和潛在客戶的需求、愿望和狀態(tài),提高活動(dòng)的響應(yīng)率;同時(shí)數(shù)據(jù)挖掘得出的可能流失客戶名單,通過客服中心對客戶進(jìn)行關(guān)懷訪問留住客戶;(7)、可根據(jù)價(jià)格的波動(dòng)情況,將分成不同的類,總共可以分成幾類,各類包含每一類的特征是什么,這對投資者、尤其對投資基金來說,可能就是很重要的信息;(8)、銀行客戶分類、企業(yè)客戶級別自動(dòng)分類、文本文件自動(dòng)分類、安全軟件入侵檢測自動(dòng)分類;(9)、分析買了電腦的顧客是否會(huì)在3個(gè)月內(nèi)買殺毒軟件,網(wǎng)上書店書籍自動(dòng)推薦,即關(guān)聯(lián)性分析;(10)、電力公司對未來電力負(fù)荷的預(yù)測,以備電力生產(chǎn)與運(yùn)送,即基于時(shí)間的時(shí)序性預(yù)測;(11)個(gè)人信用評級、大壩安全監(jiān)控預(yù)報(bào)、生產(chǎn)資源、銷售預(yù)測、病理診斷治療、水產(chǎn)健康養(yǎng)殖環(huán)境動(dòng)態(tài)分析、污染檢測、員工行為分析、心理分析、投資風(fēng)險(xiǎn)預(yù)測等。
7、 數(shù)據(jù)挖掘與OLAP的區(qū)別與互補(bǔ):數(shù)據(jù)挖掘和OLAP是兩種*不同的工具,他們的用途不同,基于的技術(shù)也大相徑庭。OLAP是驗(yàn)證式的工具,告訴用戶下一步會(huì)怎么樣(What next),如果采取這樣的措施又會(huì)怎么樣(What if)。OLAP分析過程是一個(gè)演繹推理的過程,用戶首先建立一個(gè)假設(shè),然后用OLAP工具瀏覽數(shù)據(jù)來驗(yàn)證假設(shè)。如果一個(gè)分析涉及到的變量達(dá)到幾十或上百個(gè),那么用OLAP手動(dòng)分析驗(yàn)證這些假設(shè)將是一件非常困難的事情。數(shù)據(jù)挖掘與OLAP不同的地方是,數(shù)據(jù)挖掘不是用于驗(yàn)證某個(gè)假定的模型的正確性,而是在數(shù)據(jù)庫中自己尋找模型。數(shù)據(jù)挖掘過程是一個(gè)歸納的過程。如果一個(gè)分析師打算用數(shù)據(jù)挖掘工具分析用戶的欠費(fèi)風(fēng)險(xiǎn),數(shù)據(jù)挖掘工具可能會(huì)幫助分析師發(fā)現(xiàn)一些從來沒有想過的影響因素。數(shù)據(jù)挖掘比OLAP更自動(dòng)化、更深入,分析結(jié)果更難被理解。數(shù)據(jù)挖掘和OLAP具有一定的互補(bǔ)性,在利用數(shù)據(jù)挖掘工具挖掘出來的結(jié)論采取行動(dòng)之前,你也許要用OLAP驗(yàn)證一下如果采取這樣的行動(dòng)會(huì)給企業(yè)帶來什么樣的影響。將OLAP和DataMining技術(shù)結(jié)合起來形成了一個(gè)新的體系OLAM(On-Line Analytical Mining)。在OLAP中挖掘多層、多維的關(guān)聯(lián)規(guī)則是一個(gè)很有效果的過程,可以挖掘到一些新的規(guī)則。
8、 數(shù)據(jù)挖掘與AI、統(tǒng)計(jì)的區(qū)別與關(guān)系:統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘有同樣的目標(biāo):發(fā)現(xiàn)數(shù)據(jù)中的結(jié)構(gòu),所以有人認(rèn)為數(shù)據(jù)挖掘是統(tǒng)計(jì)學(xué)的分支,這是一個(gè)不切合實(shí)際的結(jié)論,有兩個(gè)原因說明這個(gè)問題:一是數(shù)據(jù)挖掘更多的是應(yīng)用其它領(lǐng)域的思想、工具和方法,尤其是數(shù)據(jù)庫技術(shù)和機(jī)器學(xué)習(xí)等計(jì)算機(jī)學(xué)科分支;二是由于統(tǒng)計(jì)學(xué)的數(shù)學(xué)背景和追求精確的方法,在采用一個(gè)方法之前先要進(jìn)行充分的證明,而不是類似計(jì)算機(jī)科學(xué)和機(jī)器學(xué)習(xí)那樣注重于經(jīng)驗(yàn)。神經(jīng)元網(wǎng)絡(luò)、遺傳算法和機(jī)器學(xué)習(xí)等知識(shí)發(fā)現(xiàn)技術(shù),在足夠多的數(shù)據(jù)和計(jì)算能力下,可以自動(dòng)完成許多有價(jià)值的計(jì)算,關(guān)于數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)的關(guān)系,有很多人認(rèn)為數(shù)據(jù)挖掘是知識(shí)發(fā)現(xiàn)過程的一個(gè)步驟,一些人則把數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)等同起來,數(shù)據(jù)挖掘利用統(tǒng)計(jì)和人工智能的技術(shù),把這些高深復(fù)雜的技術(shù)封裝起來,使用戶不用掌握這些技術(shù)也能完成同樣的功能,從而更加專注于自己所要解決的問題。
三、系統(tǒng)簡介
DMS由兩大子系統(tǒng)構(gòu)成:預(yù)測建模子系統(tǒng)(PMS)和智能管理子系統(tǒng)(IMS)。系統(tǒng)覆蓋的功能范圍從底層的特征提取、預(yù)測建模,到業(yè)務(wù)層的模型調(diào)用、智能控制,最后通過信息發(fā)布,用戶可方便地將結(jié)果及相關(guān)信息發(fā)布到網(wǎng)站或相關(guān)報(bào)表。
1、預(yù)測建模子系統(tǒng)(PMS)
預(yù)測建模子系統(tǒng)(PMS)主要完成數(shù)據(jù)的建模過程,主要功能包括:模型管理、數(shù)據(jù)探索、預(yù)測建模、模型評估等;在建模過程中,考慮到各行各業(yè)應(yīng)用的廣泛性,系統(tǒng)已經(jīng)按行業(yè)預(yù)置了幾十種行業(yè)的應(yīng)用模型,考慮到擴(kuò)展性問題,該子系統(tǒng)還內(nèi)置了國內(nèi)堪稱的近50種數(shù)據(jù)挖掘的算法,可擴(kuò)展性*,可用于各種行業(yè)的預(yù)測建模和數(shù)據(jù)挖掘分析,包括企業(yè)、學(xué)校和政府機(jī)構(gòu),也適合高校建立數(shù)據(jù)挖掘?qū)嶒?yàn)室。
借助近50種預(yù)測算法,可讓使用者任意選擇,快速建構(gòu)出所需的數(shù)據(jù)挖掘模型,并方便訓(xùn)練和驗(yàn)證所生成的網(wǎng)絡(luò)模型,系統(tǒng)同時(shí)兼具數(shù)據(jù)探索及模型評估功能,最終實(shí)現(xiàn)有效的預(yù)測建模及個(gè)性化數(shù)據(jù)挖掘應(yīng)用;如果第三方程序(如ERP)需要調(diào)用數(shù)據(jù)挖掘的模式,系統(tǒng)還提供外部應(yīng)用程序調(diào)用。
(定義方案與建模模式)
(豐富的算法)
(數(shù)據(jù)采集與分析)
(建模訓(xùn)練參數(shù))
(模型評估與檢測)
(結(jié)果正誤率檢驗(yàn))
(結(jié)果輸出)
2、智能管理子系統(tǒng)(IMS)
智能管理子系統(tǒng)(IMS)是DMS的管理系統(tǒng),整體結(jié)構(gòu)分為五個(gè)部分:知識(shí)庫管理、樣本管理、智能預(yù)測、智能控制、信息發(fā)布;該子系統(tǒng)負(fù)責(zé)維護(hù)的基礎(chǔ)數(shù)據(jù),并將數(shù)據(jù)傳遞給預(yù)測建模子系統(tǒng),同時(shí)調(diào)用來自預(yù)測建模子系統(tǒng)已經(jīng)建好的預(yù)測模型,并進(jìn)行智能預(yù)測和分析,最后通過信息發(fā)布方式,將結(jié)果展示到報(bào)表或前臺(tái)頁面。
四、特色與優(yōu)勢
1、強(qiáng)大的平臺(tái)功能——DMS提供了構(gòu)建大型數(shù)據(jù)挖掘應(yīng)用常用的功能,包括系統(tǒng)管理、模型管理、知識(shí)庫維護(hù)、智能控制、任務(wù)調(diào)度、日志管理等,DMS支持 CRISP-DM 流程所需的主要過程,完成包括對數(shù)據(jù)進(jìn)行預(yù)處理(包括空值處理、降維處理、離散處理),主成分分析、抽樣、過濾等,創(chuàng)建、訓(xùn)練、評估模型,預(yù)測,修改模型參數(shù),誤差分析等一系列功能。*區(qū)分于插件式、固定的、分離式的數(shù)據(jù)挖掘工具軟件。
2、*的體系結(jié)構(gòu)——基于大型數(shù)據(jù)挖掘應(yīng)用需要,系統(tǒng)采用J2EE企業(yè)應(yīng)用架構(gòu),應(yīng)用框架的設(shè)計(jì)應(yīng)用SOA的思想來規(guī)劃,使得應(yīng)用之間的調(diào)用穩(wěn)定且方便。系統(tǒng)提供一套基于行業(yè)標(biāo)準(zhǔn)的編程接口及常用的數(shù)據(jù)挖掘算法,它可用于開發(fā)各類智能應(yīng)用程序,從簡單的腳本到龐大的集成系統(tǒng);數(shù)據(jù)引擎可由JDBC和XML訪問分析行業(yè)標(biāo)準(zhǔn)數(shù)據(jù)挖掘API。系統(tǒng)提供靈活的配置功能,用戶幾乎無需編寫一行代碼就可快速構(gòu)建出大型企業(yè)級數(shù)據(jù)挖掘應(yīng)用系統(tǒng),以適應(yīng)各種復(fù)雜的應(yīng)用。
3、技術(shù)*、算法豐富——支持分類與回歸、聚類分析、時(shí)間模式、關(guān)聯(lián)規(guī)則、偏差檢測等各類數(shù)據(jù)挖掘應(yīng)用。DMS提供了幾乎所有的數(shù)據(jù)挖掘模型所需算法,提供的模型算法包括:BP神經(jīng)網(wǎng)絡(luò)、RBF神經(jīng)網(wǎng)絡(luò)、模糊神經(jīng)網(wǎng)絡(luò)、小波神經(jīng)網(wǎng)絡(luò)、自組織特征映射、決策樹、決策表、貝葉斯、懶惰算法、支持向量機(jī)、K均值聚類、指數(shù)平滑、季節(jié)移動(dòng)平均,等等,運(yùn)用這些模型可實(shí)現(xiàn)函數(shù)逼近、數(shù)據(jù)聚類、模式分類、優(yōu)化計(jì)算等功能。
4、自適應(yīng)與自學(xué)習(xí)策略——DMS能根據(jù)其應(yīng)用的環(huán)境,或的實(shí)際數(shù)據(jù),進(jìn)行模型參數(shù)的自動(dòng)調(diào)整,達(dá)到更好的預(yù)測效果;也就是說,DMS能根據(jù)預(yù)測的偏差不斷調(diào)整模型的結(jié)構(gòu)與參數(shù),構(gòu)成一個(gè)閉環(huán)的反饋。
5、自動(dòng)運(yùn)行和滾動(dòng)預(yù)測——在正常情況下,DMS無需人工干預(yù),可以連續(xù)不斷地根據(jù)獲取的數(shù)據(jù)進(jìn)行周期性的滾動(dòng)預(yù)測,只有當(dāng)預(yù)測誤差較大,需要人工處理時(shí),才由預(yù)測人員進(jìn)行調(diào)整。
6、無縫集合和結(jié)果共享——由于DMS的數(shù)據(jù)來源和結(jié)果輸出可以是文本文件、EXCEL電子表格、URL和JDBC數(shù)據(jù)源,所以它能非常方便地與企業(yè)應(yīng)用程序和其他統(tǒng)計(jì)工具無縫結(jié)合,快速讀取源自等第三方應(yīng)用程序的數(shù)據(jù)。
7、可擴(kuò)展的模型庫——針對一個(gè)具體的應(yīng)用,可以利用DMS建立多個(gè)預(yù)測模型供當(dāng)前方案進(jìn)行選擇和調(diào)用,以實(shí)現(xiàn)基于復(fù)雜的應(yīng)用選擇的解決方案。
8、版本豐富——DMS提供企業(yè)版、嵌入式開發(fā)版、教研版、個(gè)人版等四種版本,可以滿足不同的應(yīng)用需要。
五、實(shí)施與服務(wù)
1、培訓(xùn)支持:采用案例式教學(xué)為主,我們將按客戶不同的行業(yè)特點(diǎn)和需求,制定合理、有效的培訓(xùn)計(jì)劃,設(shè)計(jì)針對性的培訓(xùn)內(nèi)容,配備專業(yè)的培訓(xùn)人員,實(shí)現(xiàn)培訓(xùn)效果;
2、輔助建模:數(shù)據(jù)挖掘幫助分析師和決策人員更深入、更容易的分析數(shù)據(jù)。為了保證數(shù)據(jù)挖掘結(jié)果的價(jià)值,實(shí)施工程師將幫助用戶*了解自己的數(shù)據(jù),并且了解數(shù)據(jù)挖掘工具是如何工作的,了解不同的技術(shù)和算法對模型的準(zhǔn)確度和模型生成速度的影響,并輔助完成數(shù)據(jù)探索、預(yù)處理數(shù)據(jù)、挖掘算法配置優(yōu)化、建模與訓(xùn)練檢測、模型評估及優(yōu)化。
3、系統(tǒng)優(yōu)化與長期跟蹤:包括輔助接口程序的對接,挖掘效果的優(yōu)化,數(shù)據(jù)源的優(yōu)化,新需求的持續(xù)性支持等,對于專項(xiàng)的咨詢需要,我們也將實(shí)時(shí)解答,以幫助客戶享受更為專業(yè)的服務(wù)。
六、相關(guān)案例:
客戶有廣州金發(fā)科技、廣東省電信規(guī)劃設(shè)計(jì)院、立信集團(tuán)從興電子、廣東省等,應(yīng)用領(lǐng)域有鰻鱺養(yǎng)殖數(shù)據(jù)挖掘?qū)<蚁到y(tǒng)(09年廣東省工業(yè)攻關(guān)項(xiàng)目)、 企業(yè)信息智能預(yù)測開發(fā)平臺(tái)(09年廣東省工業(yè)攻關(guān)項(xiàng)目)、 水產(chǎn)主導(dǎo)品種數(shù)據(jù)化專家系統(tǒng)(863科技項(xiàng)目)、 水產(chǎn)健康養(yǎng)殖專家系統(tǒng)(珠江水產(chǎn)研究所)、 養(yǎng)殖水質(zhì)智能系統(tǒng)(上海漁業(yè)機(jī)械儀器研究所)、 反漏竊電系統(tǒng)(立信集團(tuán)從興電子)、銷售系統(tǒng)(廣州金發(fā)科技)、 個(gè)人資信評估管理系統(tǒng)(廣東匯通卡)、電信資源系統(tǒng)(廣州電信規(guī)劃設(shè)計(jì)院)、孤立性肺結(jié)節(jié)診斷治療專家系統(tǒng)、 地溫分布預(yù)測及埋管系統(tǒng)工作性能系統(tǒng)、 地表水質(zhì)預(yù)測評價(jià)系統(tǒng)等。
數(shù)據(jù)挖掘體驗(yàn)平臺(tái): /login.jsp (用戶名:test,密碼:tipdm)