




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第5章云計(jì)算的開源實(shí)現(xiàn)Hadoop25.1Hadoop概述以MapReduce框架和Hadoop分布式文件系統(tǒng)(HDFS)為核心。同時(shí)包含Hive、HBase、Pig、Common、Avro、Chukwa等多個(gè)子項(xiàng)目的大數(shù)據(jù)處理平臺(tái)。目前基本上已成為MapReduce實(shí)現(xiàn)的產(chǎn)業(yè)標(biāo)準(zhǔn)。在互聯(lián)網(wǎng)領(lǐng)域得到了廣泛的應(yīng)用:Yahoo!百度:搜索日志的分析和網(wǎng)頁數(shù)據(jù)的挖掘工作淘寶:存儲(chǔ)并處理電子商務(wù)交易的相關(guān)數(shù)據(jù)35.2Hadoop在云計(jì)算和大數(shù)據(jù)
的位置和關(guān)系Hadoop是構(gòu)建云計(jì)算環(huán)境的一種分布式框架
HDFS采用了分布式存儲(chǔ)方式,提高了讀寫速度。MapReduce
用以整合分布式文件系統(tǒng)上的數(shù)據(jù)。采用存儲(chǔ)冗余數(shù)據(jù)的方式保證了數(shù)據(jù)的安全性。工業(yè)界大數(shù)據(jù)領(lǐng)域的事實(shí)標(biāo)準(zhǔn)業(yè)界的使用和改進(jìn)迭代進(jìn)一步完善并推動(dòng)了Hadoop的發(fā)展。45.3Hadoop生態(tài)系統(tǒng)底層以HDFS和MapReduce為核心,上層為各種存儲(chǔ)、計(jì)算、分析等應(yīng)用系統(tǒng),包括Common、Avro、Chukwa、Hive、HBase、Pig等。5Hadoop生態(tài)系統(tǒng)HDFS:Hadoop分布式文件系統(tǒng),用以實(shí)現(xiàn)分布式存儲(chǔ),是GFS的Java開源實(shí)現(xiàn),運(yùn)行在大型商業(yè)機(jī)集群。MapReduce:分布式數(shù)據(jù)處理模型和執(zhí)行環(huán)境,運(yùn)行在大型商業(yè)機(jī)集群,能夠處理T級(jí)別及以上的數(shù)據(jù)。Hbase:分布式、按列存儲(chǔ)的數(shù)據(jù)庫。HBase使用HDFS作為底層存儲(chǔ),同時(shí)支持MapReuce的批量式計(jì)算和隨機(jī)讀取。Hive:是為提供簡(jiǎn)單的數(shù)據(jù)操作而設(shè)計(jì)的分布式數(shù)據(jù)倉庫。Hive管理HDFS中存儲(chǔ)的數(shù)據(jù),提供了一種類似SQL語法的HiveQL語言進(jìn)行數(shù)據(jù)查詢(由運(yùn)行時(shí)引擎翻譯成MapReduce作業(yè))。Pig:大數(shù)據(jù)流處理系統(tǒng),運(yùn)行在HDFS和MapReduce的集群上,用來執(zhí)行并行計(jì)算,檢索大型數(shù)據(jù)集。6Hadoop生態(tài)系統(tǒng)Mahout:基于MapReduce的大規(guī)模數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)算法庫。Zookeeper:分布式協(xié)調(diào)系統(tǒng),是GoogleChubby的Java開源實(shí)現(xiàn),是一種可靠的分布式協(xié)同(coordination)系統(tǒng),可以用來構(gòu)建分布式應(yīng)用。Flume:一個(gè)分布式、可用性高的海量日志收集和傳輸系統(tǒng)。Sqoop:數(shù)據(jù)轉(zhuǎn)換系統(tǒng),Hadoop環(huán)境下連接關(guān)系數(shù)據(jù)庫和Hadoop存儲(chǔ)系統(tǒng)的橋梁:可以將一個(gè)關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)導(dǎo)入非關(guān)系型數(shù)據(jù)庫中,也可以將非關(guān)系型的數(shù)據(jù)導(dǎo)入關(guān)系型數(shù)據(jù)庫中。Ambari:Hadoop分布式集群配置管理工具,支持Hadoop集群的供應(yīng)、管理和監(jiān)控。Ambari充分利用一些已有的優(yōu)秀開源軟件,在分布式環(huán)境中實(shí)現(xiàn)集群式服務(wù)管理、監(jiān)控和展示。7分布式文件系統(tǒng)HDFS主從架構(gòu)模型系統(tǒng),一個(gè)HDFS集群由一個(gè)Master節(jié)點(diǎn)和多個(gè)Slave節(jié)點(diǎn)構(gòu)成。Master節(jié)點(diǎn):稱為NameNode,用以管理整個(gè)文件系統(tǒng)命名空間和客戶端對(duì)文件的訪問Slave節(jié)點(diǎn):稱為DataNode,用于真正存儲(chǔ)數(shù)據(jù)。HDFS的副本存放策略將3個(gè)數(shù)據(jù)塊副本(默認(rèn)配置下)中的兩個(gè)存放在同一個(gè)機(jī)架的不同節(jié)點(diǎn)上,另一個(gè)存放在另外一個(gè)機(jī)架的一個(gè)節(jié)點(diǎn)上。在讀取數(shù)據(jù)時(shí),HDFS會(huì)盡量讀取離客戶端最近的副本。8分布式數(shù)據(jù)處理MapReduce一種并行計(jì)算模型,用于大規(guī)模數(shù)據(jù)集的并行運(yùn)算。Map函數(shù)把一個(gè)輸入的鍵值對(duì)<key,value>映射成同樣為<key,value>形式的中間結(jié)果把具有相同key值的value歸納起來形成一個(gè)value列表(這個(gè)過程稱為Shuffle)并傳遞給reduce函數(shù)reduce函數(shù)對(duì)這個(gè)value列表進(jìn)行處理,輸出形式為<key,value>的最終結(jié)果。9分布式數(shù)據(jù)庫HBase構(gòu)建在HDFS之上的面向列的分布式數(shù)據(jù)庫系統(tǒng)。利用HDFS作為其文件存儲(chǔ)系統(tǒng)采用MapReduce框架處理海量數(shù)據(jù)通過ZooKeeper進(jìn)行集群管理。HBase有別于關(guān)系數(shù)據(jù)庫?;诹械挠成鋽?shù)據(jù)庫,表示簡(jiǎn)單的鍵-數(shù)據(jù)的映射關(guān)系只有簡(jiǎn)單的字符串類型只提供插入、刪除、查詢、清空等簡(jiǎn)單操作,沒有復(fù)雜的表和表之間的關(guān)聯(lián)基于列存儲(chǔ),每一列單獨(dú)存放,數(shù)據(jù)就是索引數(shù)據(jù)更新是通過時(shí)間戳增加了新的數(shù)據(jù)版本,歷史數(shù)據(jù)仍然會(huì)保留可伸縮性,通過簡(jiǎn)單的增加節(jié)點(diǎn)進(jìn)行水平擴(kuò)展10數(shù)據(jù)倉庫Hive一個(gè)基于Hadoop文件系統(tǒng)的開源數(shù)據(jù)倉庫架構(gòu)。定義了類SQL的語言(HQL),通過HQL實(shí)現(xiàn)和SQL相似的操作。對(duì)存儲(chǔ)在HDFS中的大規(guī)模數(shù)據(jù)進(jìn)行查詢和分析。Hive有別于關(guān)系數(shù)據(jù)庫。Hive的數(shù)據(jù)存儲(chǔ)在HDFS中Hive沒有定義專門的數(shù)據(jù)格式,只需在定義表的時(shí)候指明數(shù)據(jù)中的列分隔符和行分隔符即可Hive不支持對(duì)數(shù)據(jù)的改寫和添加,所有數(shù)據(jù)在加載時(shí)就確定好Hive中的數(shù)據(jù)查詢是把HQL語句解析,最終轉(zhuǎn)換成MapReduce任務(wù)進(jìn)行處理Hive具有高擴(kuò)展性11Hive、HBase、HDFS比較125.4Hadoop的行業(yè)應(yīng)用Hadoop在百度的應(yīng)用領(lǐng)域:大數(shù)據(jù)挖掘與分析日志分析平臺(tái)數(shù)據(jù)倉庫系統(tǒng)用戶行為分析系統(tǒng)廣告平臺(tái)等百度的Hadoop集群規(guī)模:超過數(shù)十個(gè)集群?jiǎn)渭汗?jié)點(diǎn)數(shù)目超過5000臺(tái)每天處理的數(shù)據(jù)量超過8000TB。開發(fā)了HCE(HadoopC++ExtendSysterm)系統(tǒng)通過HCE對(duì)Streaming作業(yè)的排序、壓縮、解壓縮、內(nèi)存控制進(jìn)行了優(yōu)化,并提供了C++版的MapReduce接口。13Hadoop的行業(yè)應(yīng)用Hadoop在阿里的應(yīng)用領(lǐng)域:數(shù)據(jù)平臺(tái)系統(tǒng)、搜索支撐、廣告系統(tǒng)、數(shù)據(jù)魔方、量子統(tǒng)計(jì)、淘數(shù)據(jù)、推薦引擎系統(tǒng)等。阿里的Hadoop集群-“云梯”所有數(shù)據(jù)都在云梯上,在集群模式下實(shí)現(xiàn)數(shù)據(jù)共享,避免了重復(fù)的存儲(chǔ)和計(jì)算。自主研發(fā)的數(shù)據(jù)傳輸組件實(shí)時(shí)傳輸數(shù)據(jù)到Hadoop集群“云梯”,實(shí)現(xiàn)數(shù)據(jù)同步。自主研發(fā)了iStream(流式計(jì)算引擎)、iCall(基于Thrift的分布式RPC服務(wù))iStream可以自動(dòng)感知流處理的進(jìn)度快慢,智能調(diào)整計(jì)算節(jié)點(diǎn)的數(shù)量。iStream承擔(dān)了流式數(shù)據(jù)處理的角色,為搜索引擎提供實(shí)時(shí)增量數(shù)據(jù)。MapReduce承擔(dān)了全量或者批量數(shù)據(jù)處理的角色,為搜索引擎提供全量數(shù)據(jù)。14Hadoop的行業(yè)應(yīng)用Hadoop在中國聯(lián)通的應(yīng)用:構(gòu)建了全國集中的海量數(shù)據(jù)存儲(chǔ)和查詢系統(tǒng)各個(gè)省份采集數(shù)據(jù)實(shí)時(shí)傳送到北京的數(shù)據(jù)中心,實(shí)現(xiàn)移動(dòng)通信用戶上網(wǎng)記錄集中查詢與分析。Hadoop在中國移動(dòng)的應(yīng)用-“大云”使用BC-Hadoop在PaaS層部署大數(shù)據(jù)存儲(chǔ)與分析平臺(tái)“大云”并行數(shù)據(jù)挖掘工具(BC-PDM)支持SaaS模式的海量數(shù)據(jù)并行處理、分析與挖掘,適用于經(jīng)營決策、用戶行為分析、精
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 幾何圖形初步認(rèn)識(shí)-2023年中考數(shù)學(xué)一輪復(fù)習(xí)高頻考點(diǎn)
- 吉林省吉林市2025年中考語文一模試卷(含答案)
- 2025至2030年中國熱塑性預(yù)浸材料行業(yè)市場(chǎng)發(fā)展監(jiān)測(cè)及投資前景展望報(bào)告
- 2025至2030年中國包裝產(chǎn)業(yè)園區(qū)行業(yè)發(fā)展前景及投資戰(zhàn)略咨詢報(bào)告
- 2025至2030年中國丙稀酸樹脂行業(yè)發(fā)展全景監(jiān)測(cè)及投資方向研究報(bào)告
- 2025至2030年中國普寧市服裝行業(yè)市場(chǎng)調(diào)查研究及發(fā)展戰(zhàn)略規(guī)劃報(bào)告
- 學(xué)生復(fù)學(xué)審批表
- 2025至2030年中國自動(dòng)變速箱油行業(yè)市場(chǎng)深度分析及未來發(fā)展趨勢(shì)預(yù)測(cè)報(bào)告
- 2025至2030年中國原膠原木刨花板行業(yè)發(fā)展前景預(yù)測(cè)及投資戰(zhàn)略咨詢報(bào)告
- MySQL數(shù)據(jù)庫應(yīng)用實(shí)戰(zhàn)教程(慕課版)(第2版)實(shí)訓(xùn)指導(dǎo)-3-5 字段操作
- 礦區(qū)水文地質(zhì)工程地質(zhì)勘探規(guī)范
- 腫瘤轉(zhuǎn)移相關(guān)信號(hào)通路-深度研究
- 2024西門子消防火災(zāi)自動(dòng)報(bào)警及消防聯(lián)動(dòng)控制系統(tǒng)產(chǎn)品手冊(cè)
- 公司管理規(guī)章制度范本模板
- 江蘇省徐州市2024-2025學(xué)年九年級(jí)上學(xué)期1月期末化學(xué)試題(含答案)
- 2025年上半年銀行工作總結(jié)標(biāo)準(zhǔn)版本(8篇)
- 病理切片授權(quán)委托書
- 2024年安徽省包河區(qū)中考一模數(shù)學(xué)試題
- 2025“才聚齊魯成就未來”山東建勘集團(tuán)限公司招聘68名高頻重點(diǎn)提升(共500題)附帶答案詳解
- 硬膜外麻手術(shù)后護(hù)理
- 船廠安全用電培訓(xùn)課件
評(píng)論
0/150
提交評(píng)論