直播推薦
企業(yè)動態(tài)
- 智造范式革命,新能源汽車全產(chǎn)業(yè)鏈技術(shù)耦合重塑百年生產(chǎn)邏輯
- 電費憑空消失一半?海爾AWE館內(nèi)建起一棟節(jié)能示范樓
- 華測儀器塞貝克系數(shù)電阻測試儀新產(chǎn)品上市
- AI賦能新一代工業(yè)軟件,第四屆工業(yè)軟件創(chuàng)新應(yīng)用大賽頒獎典禮圓滿舉辦
- 智能增長引擎:紛享銷客ShareAI產(chǎn)品白皮書(2025版)正式發(fā)布!
- 精度vs成本 摩方精密微納3D打印助推工業(yè)制造向新發(fā)展
- 商用少費電,家用幾乎0電費!海爾熱泵零碳采暖來了
- 從自動化到智能化,線束加工企業(yè)如何智領(lǐng)市場主流?
推薦展會
大數(shù)據(jù)技術(shù)從2004年開始誕生到現(xiàn)在已經(jīng)發(fā)展15年了,2008年進入中國,從此以后在中國落地生根,成為了互聯(lián)網(wǎng)公司和科技企業(yè)的技術(shù)新寵。Hadoop到目前已經(jīng)是第四代技術(shù),當前是的Hadoop 3.X的架構(gòu),但目前而言國內(nèi)應(yīng)用的企業(yè)并不多。本文將詳細介紹Hadoop發(fā)展情況,Hadoop各代技術(shù)之間的功能特性以及對比細節(jié),揭開Hadoop 3.X這塊神秘的面紗。
首先,先回顧一下Hadoop技術(shù)架構(gòu)的發(fā)展史:
Hadoop總共經(jīng)歷了Hadoop 0.x, Hadoop 1.X, Hadoop 2.x以及目前的3.X四個階段:
Hadoop 0.X目前個可追溯的版本(開放版)為0.14.1,推出時間為2007年9月4日。
個版本為0.23.11版,推出時間為2014年1月7日。
Hadoop 1.X是以Hadoop 0.20的版本進行代碼分支延伸出來的,個版本為1.0.0,推出時間為2011年12月27日。
個版本為1.2.1,于2013年8月1日推出。
Hadoop2.X開始,個推出的版本開始有了alpha/beta release以及GA release的差別。通常來說,alpha/beta release為測試版本,GA release為正式版本。
Hadoop2.X是在Hadoop 0.23.1的版本上進行代碼分支延伸出來的,個alpha版本是2.0.0,推出時間是2012年5月23日,由于要從1.X換到新的2.X架構(gòu),代碼要調(diào)整的內(nèi)容實在太多,因此正式放出GA release的時間到了一年后,即2013年10月15日,個GA release版本為2.2.0。
當前的版本為2.9.2,推出時間為2018年11月19日,至今已有近一年未更新了,也許這是Hadoop 2.X的個版本。
目前市場上用的最多的版本為2.6.0,該版本于2014年11月18日推出。
Hadoop 3.X在Hadoop2.7.0的版本上進行代碼分支延伸出來的,個alpha版本3.0.0,推出時間是2016年9月3日,正式推出GA版本也是到了一年以后,即2017年12月13日,正式的GA release版本為3.0.0.
當前的版本為3.2.1,于2019年9月22日推出。
而和Hadoop發(fā)展史相對應(yīng)的,當前市場情況為:
Hadoop 0.X目前國內(nèi)用戶幾乎沒有。
Hadoop1.X是壽命最短的一代技術(shù)架構(gòu),存活了還不到2年,因此用戶很少;
Hadoop 2.X技術(shù)發(fā)展周期最長,歷時了六年多,加上這六年正好是國內(nèi)大數(shù)據(jù)浪潮掀起的六年,因此目前幾乎90%以上的用戶都選擇使用了Hadoop 2.X技術(shù)架構(gòu)。
Hadoop 3.X來勢洶洶,但畢竟推出晚,目前積累的客戶量太少,不過必將成為未來主流趨勢。
Hadoop既然目前已經(jīng)是第四代技術(shù),那么每代技術(shù)的差異點是什么呢?
Hadoop 0.X是代Hadoop技術(shù)架構(gòu),功能設(shè)計很簡單,這個版本bug非常多,所以非常不好用。而Hadoop 1.X對此進行了一些功能豐富,可用性強了一些,具體來說,有以下區(qū)別:
Hadoop 0.X為純源碼包,必須經(jīng)過編譯后才能使用,另外由于bug較多,編譯過程也比較繁瑣。
Hadoop 1.X既提供了源碼包又提供了編譯好的二進制包,為部分用戶節(jié)約了編譯成本,增加了使用友好度。
Hadoop 0.X只有hdfs與mapreduce兩個模塊功能。
Hadoop 1.X 除了hdfs與mapreduce模塊以外,增加了對HBase整合支持,使得Hbase可以將數(shù)據(jù)存儲在hdfs上,并利用mapreduce進行計算。
Hadoop 1.X增加了對安全性模塊的支持。
CDH2/CDH3均由Hadoop1.0.0版本衍生而來。
Hadoop 1.X已經(jīng)為Hadoop技術(shù)商用提供了可能性,但是因為其功能的局限性,在Hadoop 2.X推出后就迅速銷聲匿跡了。兩者相比,有以下區(qū)別:
Hadoop 1.X 僅支持jdk6的運行環(huán)境。
Hadoop 2.X 則要求jd6或jdk7+的運行環(huán)境,并且在2.7以后的版本不再支持JDK6。
Hadoop 1.X 之前同一集群HDFS服務(wù)中只能支持一個NameNode, 不僅擴展受限,而且容易形成單點故障。
HDFS 1.X架構(gòu)
Hadoop 2.X 則增加HA架構(gòu)和HDFS Federation機制,即數(shù)據(jù)聯(lián)邦機制,這使得在一個集群的HDFS服務(wù)中,可以同時運行兩個NameNode,增加了可用性。同時數(shù)據(jù)聯(lián)邦機制讓大量DataNode同時服務(wù)于多個集群的HDFS服務(wù),提高存儲資源的利用效率,也增加了橫向擴展的能力。
HDFS2.X架構(gòu)
Hadoop 1.X 的mapreduce由TaskTracker與JobTracker兩個服務(wù)組成,由一個JobTracker同時管理多個TaskTracker。這樣的架構(gòu)有幾個問題:由于只有一個JobTracker,容易形成單點故障;容錯性與穩(wěn)定性不足,TaskTracker與JobTracker通信故障易造成兩方都僵死;同時缺乏對計算資源的有效管理。
mapreduce1.0架構(gòu)
Hadoop 2.X引入了YARN框架,并將原來的mapreduce計算框架加以改進形成穩(wěn)定性更好,計算性能更優(yōu)秀,具備高可用能力的MRv2計算框架,原有的TaskTracker與JobTracker替代為ResourceManager與NodeManager,并內(nèi)置到Y(jié)ARN中;除此之外YARN還有資源調(diào)度和管理能力,做到了把資源和計算整合到了一起。
YARN架構(gòu)
Hadoop 2.4以后支持HDFS滾動升級。
Hadoop 2.5以后YARN開始支持Rest API。
Hadoop 2.5以后YARN支持Kerberos集成。
Hadoop 2.5以后YARN支持隊列資源管理(CDH動態(tài)資源池的實現(xiàn)前提)。
CDH4由Hadoop 2.0.0版本衍生而來。
CDH5由Hadoop 2.3.0版本開始衍化,并有以下的對應(yīng)關(guān)系:
Hadoop3.0.0的GA release到目前已經(jīng)推出一年多了,雖然國內(nèi)用戶不多,但是其代表了Hadoop當前的發(fā)展趨勢,已經(jīng)逐漸被很多企業(yè)小規(guī)模試用。Hadoop 2.X與Hadoop 3.X兩者相比,有以下區(qū)別:
Hadoop 2.X 可以運行在jd6或jdk7+的運行環(huán)境,以2.7版本為分界線。
Hadoop 3.X 則從個版本3.0.0開始,只支持jdk8。
Hadoop以多冗余副本的機制保障數(shù)據(jù)的可靠性。在Hadoop 2.X及之前,通常要設(shè)立3副本來實現(xiàn),這個設(shè)計的問題在于數(shù)據(jù)量增加到一定程度后,存儲空間冗余特別嚴重,達到200%。
Hadoop 3.X開始引入了EC機制(Erasure Code糾刪碼機制),利用數(shù)據(jù)塊與奇偶校驗塊計算來保障數(shù)據(jù)的可用性,EC碼目前有五種策略,包括RS-3-2-1024k,RS-6-3-1024k,RS-10-4-1024k,RS-LEGACY-6-3-1024k,XOR-2-1- 1024k。
通常情況下使用XOR-2-1- 1024k策略,即兩個數(shù)據(jù)塊+1個校驗塊即可,存儲冗余量為50%,相較于Hadoop 2.X的200%,整體上節(jié)約了一半空間。
異或操作(XOR-2-1- 1024k策略)
當然糾刪碼和數(shù)據(jù)冗余的問題還有很多細節(jié)需要討論,會在后續(xù)文章中進行展開,請持續(xù)關(guān)注。
Hadoop 2.X當前只支持雙NameNode的HA模式,即一個Active NameNode+一個Standby NameNode。
Hadoop 3.X開始支持NameNode多活模式,即一個Active NameNode+多個Standby NameNode,進一步提升了HDFS服務(wù)的可靠性。
Hadoop 3.2以后YARN支持定義節(jié)點屬性,可以在節(jié)點上標記多個標簽,并根據(jù)這些標簽來放置運行任務(wù)的Container。這在以前的版本中都是由YARN自身隨機決定的,無法進行人工干預(yù)。
其他產(chǎn)品
CDH6由Hadoop3.0.0版本衍生而來。
隨著Hadoop技術(shù)的繼續(xù)發(fā)展,Hadoop 3.X必將加入更多的新特性,是不是有些躍躍欲試了?可是技術(shù)門檻太高,國內(nèi)案例又不多,團隊培養(yǎng)又太慢,跟不上業(yè)務(wù)需求怎么辦?
上海派拉軟件股份有限公司是國內(nèi)的大數(shù)據(jù)集成服務(wù)商,和Hadoop技術(shù)Cloudera長期保持戰(zhàn)略伙伴關(guān)系,連續(xù)兩年被授予國內(nèi)合作伙伴稱號。
派拉軟件立足于客戶實際需求,結(jié)合多年的行業(yè)經(jīng)驗,提供多維度的大數(shù)據(jù)技術(shù)服務(wù),派拉軟件的大數(shù)據(jù)業(yè)務(wù)包含:
派拉軟件的大數(shù)據(jù)技術(shù)團隊遍布北京、上海、廣州、武漢、長春等地,服務(wù)范圍輻射至全國。
如果您有任何大數(shù)據(jù)相關(guān)的需求,歡迎聯(lián)系,派拉軟件一定為您提供圓滿的解決方案。
免責(zé)聲明
- 凡本網(wǎng)注明"來源:智能制造網(wǎng)"的所有作品,版權(quán)均屬于智能制造網(wǎng),轉(zhuǎn)載請必須注明智能制造網(wǎng),http://towegas.com。違反者本網(wǎng)將追究相關(guān)法律責(zé)任。
- 企業(yè)發(fā)布的公司新聞、技術(shù)文章、資料下載等內(nèi)容,如涉及侵權(quán)、違規(guī)遭投訴的,一律由發(fā)布企業(yè)自行承擔(dān)責(zé)任,本網(wǎng)有權(quán)刪除內(nèi)容并追溯責(zé)任。
- 本網(wǎng)轉(zhuǎn)載并注明自其它來源的作品,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點或證實其內(nèi)容的真實性,不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。其他媒體、網(wǎng)站或個人從本網(wǎng)轉(zhuǎn)載時,必須保留本網(wǎng)注明的作品來源,并自負版權(quán)等法律責(zé)任。
- 如涉及作品內(nèi)容、版權(quán)等問題,請在作品發(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。
2025第21屆鄭州工業(yè)自動化展
展會城市:鄭州市展會時間:2025-05-09