重慶慧都科技有限公司
參考價: | 面議 |
- 產(chǎn)品型號
- 品牌
- 其他 廠商性質
- 所在地
訪問次數(shù):41更新時間:2022-03-19 15:48:35
功能描述
需要培訓、定制、外包?
請聯(lián)系我們!:800018081
慧都專業(yè)技術團隊幫助您提高效率,節(jié)省成本,降低風險!
* 關于本產(chǎn)品的分類與介紹僅供參考,精準產(chǎn)品資料以介紹為準,如需購買請先行測試。
特點:
可以通過Hadoop的Mapreduce把數(shù)據(jù)從關系型數(shù)據(jù)庫導入數(shù)據(jù)到HDFS。
原理(以import為例):
Sqoop在import時,需要制定split-by參數(shù)。Sqoop根據(jù)不同的split-by參數(shù)值來進行切分,然后將切分出來的區(qū)域分配到不同map中。每個map中再處理數(shù)據(jù)庫中獲取的一行一行的值,寫入到HDFS中。同時split-by根據(jù)不同的參數(shù)類型有不同的切分方法,如比較簡單的int型,Sqoop會取和最小split-by字段值,然后根據(jù)傳入的num-mappers來確定劃分幾個區(qū)域。 比如select max(split_by),min(split-by) from得到的max(split-by)和min(split-by)分別為1000和1,而num-mappers為2的話,則會分成兩個區(qū)域(1,500)和(501-100),同時也會分成2個sql給2個map去進行導入操作,分別為select XXX from table where split-by>=1 and split-by<500和select XXX from table where split-by>=501 and split-by<=1000。最后每個map各自獲取各自SQL中的數(shù)據(jù)進行導入工作。

