国产强伦姧在线观看无码,中文字幕99久久亚洲精品,国产精品乱码在线观看,色桃花亚洲天堂视频久久,日韩精品无码观看视频免费

      正在閱讀:解讀:數(shù)據(jù)科學含義及把數(shù)據(jù)變成產品的方法

      解讀:數(shù)據(jù)科學含義及把數(shù)據(jù)變成產品的方法

      2016-05-13 09:04:10來源:數(shù)據(jù)觀 原標題:深解讀丨什么是數(shù)據(jù)科學?如何把數(shù)據(jù)變成產品? 關鍵詞:數(shù)據(jù)科學數(shù)據(jù)分析數(shù)據(jù)平臺閱讀量:33085

      導讀:據(jù)哈爾?瓦里安說,統(tǒng)計學家是下一個性感的工作。五年前,在《什么是Web2.0》里蒂姆?奧萊利說“數(shù)據(jù)是下一個Intel Inside”。
        【中國智能制造網 學術論文】據(jù)哈爾•瓦里安說,統(tǒng)計學家是下一個性感的工作。五年前,在《什么是Web2.0》里蒂姆•奧萊利說“數(shù)據(jù)是下一個Intel Inside”。但是這句話到底是什么意思?為什么我們突然間開始關注統(tǒng)計學和數(shù)據(jù)?在這篇文章里,我會檢視數(shù)據(jù)科學的各個方面,技術、企業(yè)和獨特技能集合。
        解讀:數(shù)據(jù)科學含義及把數(shù)據(jù)變成產品的方法
       
        互聯(lián)網上充斥著“數(shù)據(jù)驅動的應用”。幾乎任何的電子商務應用都是數(shù)據(jù)驅動的應用。這里面前端的頁面靠背后的數(shù)據(jù)庫來支持,它們兩者之間靠中間件來連接其他的數(shù)據(jù)庫和數(shù)據(jù)服務(信用卡公司、銀行等等)。但是僅僅使用數(shù)據(jù)并不是我們所說的真正的“數(shù)據(jù)科學”。一個數(shù)據(jù)應用從數(shù)據(jù)里獲取價值,同時創(chuàng)造更多的數(shù)據(jù)作為產出。它不只是帶有數(shù)據(jù)的一個應用,它就是一個數(shù)據(jù)產品。而數(shù)據(jù)科學則是能創(chuàng)建這樣的數(shù)據(jù)產品。
        
        互聯(lián)網上早期的數(shù)據(jù)產品之一就是CDDB數(shù)據(jù)庫。CDDB數(shù)據(jù)庫的意識到基于CD(音頻光盤)里面的每首歌曲的確切長度,任何CD都有一個的數(shù)字簽名。Gracenote公司創(chuàng)建了一個數(shù)據(jù)庫,記錄著歌曲的長度,并和專輯的元數(shù)據(jù)(歌曲名稱、歌手和專輯名稱)數(shù)據(jù)庫關聯(lián)。如果你曾經使用iTunes來找CD,你就是在使用這個數(shù)據(jù)庫服務。iTunes會先獲取每首歌的長度,然后發(fā)給CDDB,從而得到歌曲的名稱。如果你有一些CD(比如你自制的CD)在數(shù)據(jù)庫里沒有記錄,你也可以在CDDB里創(chuàng)造一個無名專輯的題目。盡管看起來很簡單,但這是革命性的。CDDB把音樂看成是數(shù)據(jù),而不僅僅是聲音,并從中創(chuàng)造了新的價值。他們的商業(yè)模式和傳統(tǒng)的銷售音樂、共享音樂或者分析音樂口味等業(yè)務的模式截然不同,盡管這些業(yè)務也可以是“數(shù)據(jù)產品”。CDDB完全是視音樂的問題為數(shù)據(jù)的問題。
        
        谷歌是創(chuàng)造數(shù)據(jù)產品的專家,這里列幾個例子
        
        谷歌的創(chuàng)新是在于其意識到搜索引擎可以使用入鏈接而不是網頁上的文字。谷歌的PageRank算法是早一批使用網頁以外的數(shù)據(jù)的算法之一,特別是網頁的入鏈接數(shù),即其他網頁指向某網頁的數(shù)量。記錄鏈接讓谷歌的搜索引擎比其他的引擎更好,而PageRank則是谷歌的成功因素中非常關鍵的一條。
        
        拼寫檢查不是一個非常難的任務,但是通過在用戶輸入搜索關鍵詞時,向錯誤拼寫推薦正確的用法并查看用戶是如何回應推薦,谷歌讓拼寫檢查的準確率大幅提高。他們還建立起了常見錯誤拼寫的字典,其中還包括對應的正確拼寫以及錯誤拼寫常見的上下文。
        
        語音識別也是一個非常艱難的任務,而且也還沒有完全被解決。但谷歌通過使用自己收集的語音數(shù)據(jù),已經開始了針對這個難題的一個宏大的嘗試。并已把語音搜索集成到了核心搜索引擎里。
        
        在2009年豬流感的傳播期,谷歌能夠通過跟蹤與流感相關的搜索來跟蹤這次豬流感的爆發(fā)和傳播過程。
        
        通過分析搜索跟流感相關的用戶在不同地區(qū)的情況,谷歌能夠比美國國家疾病控制中心提前兩周發(fā)現(xiàn)豬流感的爆發(fā)和傳播趨勢。
        
        谷歌并不是一家知道如何使用數(shù)據(jù)的公司。臉書和領英都是用朋友關系來建議用戶他們可能認識或應該認識的其他人。亞馬遜會保存你的搜素關鍵詞,并使用別人的搜索詞來關聯(lián)你的搜索,從而能令人驚訝地做出恰當?shù)纳唐吠扑]。這些推薦就是數(shù)據(jù)產品,能幫助推進亞馬遜的傳統(tǒng)的零售業(yè)務。所有這些都是因為亞馬遜明白書不僅僅是書,而相機也不僅僅是相機,用戶也不僅僅就是一個用戶。用戶會產生一連串“數(shù)據(jù)排氣”,挖據(jù)它并使用它,那么相機就變成了一堆數(shù)據(jù)可以用來和用戶的行為進行關聯(lián)。每次用戶訪問他們的網站就會留下數(shù)據(jù)。
        
        把所有這些應用聯(lián)系到一起的紐帶就是從用戶那里采集的數(shù)據(jù)來提供附加價值。無論這個數(shù)據(jù)是搜索關鍵詞、語音樣本或者產品評價,現(xiàn)在用戶已經成為他們所使用的產品的反饋環(huán)中重要的一環(huán)。這就是數(shù)據(jù)科學的開端。
        
        在過去的幾年里,可用的數(shù)據(jù)量呈爆炸性的增長。不管是網頁日志數(shù)據(jù)、推特流、在線交易數(shù)據(jù)、“公民科學”、傳感器數(shù)據(jù)、政府數(shù)據(jù)或其他什么數(shù)據(jù),現(xiàn)在找到數(shù)據(jù)已經不再是問題,如何使用這些數(shù)據(jù)才是關鍵。不僅僅是企業(yè)在使用它自己的數(shù)據(jù)或者用戶貢獻的數(shù)據(jù)。越來越常見的是把來自多個數(shù)據(jù)源的數(shù)據(jù)進行“聚合”?!对赗里進行數(shù)據(jù)聚合》分析了費城郡的房屋抵押贖回權的情況。它從郡長辦公室獲得了房屋抵押贖回權的公開記錄,抽取了其中的地址信息,再使用雅虎把地址信息轉換成了經緯度。然后使用這些地理位置信息把房屋抵押贖回權的情況繪制在地圖上(另外一個數(shù)據(jù)源)。再把它們按社區(qū)、房屋估值、社區(qū)人均收入和其他社會—-經濟因素進行分組。
        
        現(xiàn)在每個企業(yè)、創(chuàng)業(yè)公司、非營利組織或項目網站,當他們想吸引某個社群的時候所面臨的問題是,如何有效的使用數(shù)據(jù)。不僅僅是他們自己的數(shù)據(jù),還包括所有可用的和相關的數(shù)據(jù)。有效的使用數(shù)據(jù)需要與傳統(tǒng)的統(tǒng)計不同的技能。傳統(tǒng)的穿職業(yè)西裝的精算師們進行著神秘但其實是早已明確定義的分析。而數(shù)據(jù)科學與統(tǒng)計的不同是數(shù)據(jù)科學是一種全盤考慮的方法。我們越來越多的在非正規(guī)的渠道里找到數(shù)據(jù),數(shù)據(jù)科學正隨著數(shù)據(jù)的不斷收集、把數(shù)據(jù)轉換為可處理的形式、讓數(shù)據(jù)自己講故事以及把故事展現(xiàn)給別人不斷演進。
        
        為了能感受到什么樣的技術是數(shù)據(jù)科學需要的,讓我們首先看看數(shù)據(jù)的生命周期:數(shù)據(jù)從哪里來,如何使用,以及數(shù)據(jù)到哪里去。
        
        數(shù)據(jù)從哪里來
        
        數(shù)據(jù)無處不在,政府、網站、商業(yè)伙伴、甚至你自己的身體。雖然我們不是完全淹沒在數(shù)據(jù)的海洋里,但可以看到幾乎所有的東西都可以(甚至已經)被測量了。在O’Reilly傳媒公司,我們經常會把來自Nielsen Book Scan的行業(yè)數(shù)據(jù)和我們自己的銷售數(shù)據(jù)、公開的亞馬遜數(shù)據(jù)、甚至就業(yè)數(shù)據(jù)組合起來研究出版行業(yè)發(fā)生了什么。一些網站,比如Infochimps和Factual,可以提供很多大型數(shù)據(jù)集的連接,包括天氣數(shù)據(jù)、MySpace的活動流數(shù)據(jù)、體育活動比賽記錄等。Factual網站還招募用戶來更新和改進它的數(shù)據(jù)集。這些數(shù)據(jù)集覆蓋了從內分泌學家到徒步小道等的廣泛內容。
        
        很多我們現(xiàn)在所用的數(shù)據(jù)都是Web2.0的產物,也遵守摩爾定律。Web讓人們花更多的時間在線,同時也留下了他們的瀏覽軌跡。移動端應用則留下了更豐富的數(shù)據(jù)軌跡,因為很多應用都被標注了地理位置信息或附帶著音頻和視頻。這些數(shù)據(jù)都可以被挖據(jù)。結帳點設備和經常購物者購物卡使得獲取消費者的所有交易信息(不光是在線信息)成為可能。如果我們不能存儲這些數(shù)據(jù),那么所有這些數(shù)據(jù)就將沒有用處。這里就是摩爾定律起作用的地方。自80年代早期開始,處理器的速度就從10Mhz增加到了3.6GHz,增加了360倍(這還沒考慮處理位數(shù)和核數(shù)的增加)。但是我們看到存儲能力的增加則更為巨大。內存價格從1000美元每兆字節(jié)降到25美元每吉字節(jié),幾乎是40000倍的降低。這還沒考慮內存尺寸的減少和速途的增加。日立公司在1982年制造了個吉字節(jié)的硬盤,重大概250磅?,F(xiàn)在千吉字節(jié)級別的硬盤已經是普通消費品,而32吉字節(jié)的微存儲卡只有半克重。無論是每克重的比特數(shù)、每美元比特數(shù)或者總存儲量,存儲能力的提升已經超過了CPU速度的增幅。
        
        摩爾定律應用于數(shù)據(jù)的重要性不僅是極客的技巧。數(shù)據(jù)的增長總是能填充滿你的存儲。硬盤容量越大,也就能找到更多的數(shù)據(jù)把它填滿。瀏覽網頁后留下的“數(shù)據(jù)排氣”、在臉書上添加某人為朋友或是在本地超市買東西,這些數(shù)據(jù)都被仔細的收集下來并進行分析。數(shù)據(jù)存儲的增加就要求有更精致的分析來使用這些數(shù)據(jù)。這就是數(shù)據(jù)科學的基石。
      我要評論
      版權與免責聲明:

      凡本站注明“來源:智能制造網”的所有作品,均為浙江興旺寶明通網絡有限公司-智能制造網合法擁有版權或有權使用的作品,未經本站授權不得轉載、摘編或利用其它方式使用上述作品。已經本網授權使用作品的,應在授權范圍內使用,并注明“來源:智能制造網”。違反上述聲明者,本站將追究其相關法律責任。

      本站轉載并注明自其它來源(非智能制造網)的作品,目的在于傳遞更多信息,并不代表本站贊同其觀點或和對其真實性負責,不承擔此類作品侵權行為的直接責任及連帶責任。如其他媒體、平臺或個人從本站轉載時,必須保留本站注明的作品第一來源,并自負版權等法律責任。如擅自篡改為“稿件來源:智能制造網”,本站將依法追究責任。

      鑒于本站稿件來源廣泛、數(shù)量較多,如涉及作品內容、版權等問題,請與本站聯(lián)系并提供相關證明材料:聯(lián)系電話:0571-89719789;郵箱:1271141964@qq.com。

      不想錯過行業(yè)資訊?

      訂閱 智能制造網APP

      一鍵篩選來訂閱

      信息更豐富

      推薦產品/PRODUCT 更多
      智造商城:

      PLC工控機嵌入式系統(tǒng)工業(yè)以太網工業(yè)軟件金屬加工機械包裝機械工程機械倉儲物流環(huán)保設備化工設備分析儀器工業(yè)機器人3D打印設備生物識別傳感器電機電線電纜輸配電設備電子元器件更多

      我要投稿
      • 投稿請發(fā)送郵件至:(郵件標題請備注“投稿”)1271141964.qq.com
      • 聯(lián)系電話0571-89719789
      工業(yè)4.0時代智能制造領域“互聯(lián)網+”服務平臺
      智能制造網APP

      功能豐富 實時交流

      智能制造網小程序

      訂閱獲取更多服務

      微信公眾號

      關注我們

      抖音

      智能制造網

      抖音號:gkzhan

      打開抖音 搜索頁掃一掃

      視頻號

      智能制造網

      公眾號:智能制造網

      打開微信掃碼關注視頻號

      快手

      智能制造網

      快手ID:gkzhan2006

      打開快手 掃一掃關注
      意見反饋
      我要投稿
      我知道了