




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
2021.6.15基于Hadoop的大數(shù)據(jù)處置關(guān)鍵技術(shù)綜述大數(shù)據(jù)背景引見ContentHadoop定義、特點大數(shù)據(jù)對系統(tǒng)的需求、大數(shù)據(jù)和云計算的關(guān)系大數(shù)據(jù)市場分析大數(shù)據(jù)處置的技術(shù)關(guān)鍵12Hadoop原理、優(yōu)點Hadoop體系架構(gòu)Hadoop中心設(shè)計:MapReduce、HDFS大數(shù)據(jù)背景引見1定義為了更為經(jīng)濟(jì)的從高頻率獲取的、大容量的、不同構(gòu)造和類型的數(shù)據(jù)中獲取價值,而設(shè)計的新一代架構(gòu)和技術(shù)特點大數(shù)據(jù)對系統(tǒng)的需求大數(shù)據(jù)和云計算的關(guān)系Highperformance–高并發(fā)讀寫的需求 高并發(fā)、實時動態(tài)獲取和更新數(shù)據(jù)HugeStorage–海量數(shù)據(jù)的高效率存儲和訪問的需求 類似SNS網(wǎng)站,海量用戶信息的高效率實時存儲和查詢HighScalability&&HighAvailability–高可擴(kuò)展性和高可用性的需求 需求擁有快速橫向擴(kuò)展才干、提供7*24小時不延續(xù)效力云計算改動了IT,而大數(shù)據(jù)那么改動了業(yè)務(wù)云計算是大數(shù)據(jù)的IT根底,大數(shù)據(jù)須有云計算作為根底架構(gòu),才干高效運轉(zhuǎn)經(jīng)過大數(shù)據(jù)的業(yè)務(wù)需求,為云計算的落地找到了實踐運用大數(shù)據(jù)市場分析2021年是中國大數(shù)據(jù)市場元年,一些大數(shù)據(jù)產(chǎn)品曾經(jīng)推出,部分行業(yè)也有大數(shù)據(jù)運用案例的產(chǎn)生。2021年-2021年,將迎來大數(shù)據(jù)市場的飛速開展。2021年中國大數(shù)據(jù)市場規(guī)模到達(dá)4.7億元,2021年大數(shù)據(jù)市場將迎來增速為.3%的飛躍,到2021年,整個市場規(guī)模逼近百億。政府、互聯(lián)網(wǎng)、電信、金融的大數(shù)據(jù)市場規(guī)模較大,四個行業(yè)將占據(jù)一半市場份額。由于各個行業(yè)都存在大數(shù)據(jù)運用需求,潛在市場空間非??捎^。大數(shù)據(jù)處置的技術(shù)關(guān)鍵分析技術(shù):數(shù)據(jù)處置:自然言語處置技術(shù);統(tǒng)計和分析:地域占比,文本情感分析,A/Btest,topN排行榜;數(shù)據(jù)發(fā)掘:建模,聚類,分類,排名;模型預(yù)測:預(yù)測模型,機(jī)器學(xué)習(xí),建模擬真。存儲技術(shù):構(gòu)造化數(shù)據(jù):海量數(shù)據(jù)查詢、統(tǒng)計、更新等操作效率低非構(gòu)造化數(shù)據(jù):圖片、視頻、word、pdf、ppt等文件存儲,不利于檢索,存儲和查詢半構(gòu)造化數(shù)據(jù):轉(zhuǎn)換為構(gòu)造化數(shù)據(jù)或者按照非構(gòu)造化存儲。大數(shù)據(jù)技術(shù):數(shù)據(jù)采集:ETL工具;數(shù)據(jù)存?。宏P(guān)系數(shù)據(jù)庫,NoSQL,NewSQL,等根底架構(gòu)支持:云存儲,分布式文件系統(tǒng)等;計算結(jié)果展現(xiàn):云計算,標(biāo)簽云,關(guān)系圖等。處理方案:Hadoop〔MapReduce技術(shù)〕、MongoDB、流計算〔twitter的strom和yahoo!的S4〕Hadoop大數(shù)據(jù)主要運用技術(shù)——Hadoop2Hadoop最先是由Apache公司在2005年引入的,來源于google開發(fā)的MapReduce和GoogleFileSystem〔GFS〕工程。Hadoop作為新一代的架構(gòu)和技術(shù),由于有利于并行分布處置“大數(shù)據(jù)〞而備受注重。ApacheHadoop是一個用java言語實現(xiàn)的軟件框架,在由大量計算機(jī)組成的集群中運轉(zhuǎn)海量數(shù)據(jù)的分布式計算,它可以讓運用程序支持上千個節(jié)點和PB級別的數(shù)據(jù)。Hadoop是工程的總稱,主要是由分布式存儲〔HDFS〕、分布式計算〔MapReduce〕等組成。Hadoop原理Hadoop原理假設(shè)系統(tǒng)每秒處置4000個文件處置4千萬個文件=10000秒約為2.7小時處置4千萬個文件處置400萬個文件處置400萬個文件處置400萬個文件……切分成十臺機(jī)器處置約為17分鐘=約為17分鐘=約為17分鐘=結(jié)果合并輸出優(yōu)點可擴(kuò)展:不論是存儲的可擴(kuò)展還是計算的可擴(kuò)展都是Hadoop的設(shè)計根本。經(jīng)濟(jì):框架可以運轉(zhuǎn)在任何普通的PC上??煽浚悍植际轿募到y(tǒng)的備份恢復(fù)機(jī)制以及MapReduce的義務(wù)監(jiān)控保證了分布式處置的可靠性。高效:分布式文件系統(tǒng)的高效數(shù)據(jù)交互實現(xiàn)以及MapReduce結(jié)合LocalData處置的方式,為高效處置海量的信息作了根底預(yù)備。不適宜存儲小文件〔不建議〕大量的隨機(jī)讀〔不建議〕對文件的修正〔不支持〕運用方式為:write-once-read-many存取方式Hadoop體系架構(gòu)MapReduceHBasePigChuKwaHivePig是一個基于Hadoop的大規(guī)模數(shù)據(jù)分析平臺,Pig為復(fù)雜的海量數(shù)據(jù)并行計算提供了一個簡易的操作和編程接口hive是基于Hadoop的一個工具,提供完好的sql查詢功能,可以將sql語句轉(zhuǎn)換為MapReduce義務(wù)進(jìn)展運轉(zhuǎn)Chukwa是基于Hadoop的集群監(jiān)控系統(tǒng),由yahoo奉獻(xiàn)ZooKeeper:高效的,可擴(kuò)展的協(xié)調(diào)系統(tǒng),存儲和協(xié)調(diào)關(guān)鍵共享形狀HBase是一個開源的,基于列存儲模型的分布式數(shù)據(jù)庫MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集〔大于1TB〕的并行運算HDFS是一個分布式文件系統(tǒng)。有著高容錯性的特點,并且設(shè)計用來部署在低廉的硬件上,適宜那些有著超大數(shù)據(jù)集的運用程序ZooKeeperMapReduceMap:義務(wù)的分解Reduce:結(jié)果的匯總兩大中心設(shè)計HDFSNameNode:文件管理DataNode:文件存儲Client:文件獲取Hadoop中心設(shè)計MapReduce——映射、化簡編程模型〔分而治之〕1.根據(jù)輸入數(shù)據(jù)的大小和參數(shù)的設(shè)置把數(shù)據(jù)分成splits,每個split對于一個map線程。2.Split中的數(shù)據(jù)作為Map的輸入,Map的輸出一定在Map端。3.Map的輸出到Reduce的輸入的過程(shuffle過程): 第一階段:在map端完成內(nèi)存->排序->寫入磁盤->復(fù)制第二階段:在reduce端完成映射到reduce端分區(qū)->合并->排序4.Reduce的輸入到Reduce的輸出最后排好序的key/value作為Reduce的輸入MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集的并行運算。Map〔映射〕和Reduce〔化簡〕,采用分而治之思想,先把義務(wù)分發(fā)到集群多個節(jié)點上,并行計算,然后再把計算結(jié)果合并,從而得到最終計算結(jié)果。多節(jié)點計算,所涉及的義務(wù)調(diào)度、負(fù)載平衡、容錯處置等,都由MapReduce框架完成,不需求編程人員關(guān)懷這些內(nèi)容。HDFS——分布式文件系統(tǒng)什么是分布式文件系統(tǒng)?分布式文件系統(tǒng)是指文件系統(tǒng)管理的物理存儲資源不一定直接在本地節(jié)點上,而是經(jīng)過計算機(jī)網(wǎng)絡(luò)與節(jié)點相連。分布式文件系統(tǒng)設(shè)計基于客戶機(jī)/效力器方式,一個典型的網(wǎng)絡(luò)能夠包括多個供用戶訪問的效力器。用戶可以在恣意一臺客戶機(jī)上訪問其他機(jī)器的文件系統(tǒng)。為什么需求分布式文件系統(tǒng)?高擴(kuò)展才干:HDFS采用元數(shù)據(jù)中心化管理,然后經(jīng)過客戶端暫存數(shù)據(jù)分布減小元數(shù)據(jù)的訪問壓力;高可用性:一是整個文件系統(tǒng)的可用性,二是數(shù)據(jù)的完好和一致性。數(shù)據(jù)完好性經(jīng)過文件的鏡像和文件自動修復(fù)來處理;彈性存儲:可以根據(jù)業(yè)務(wù)需求靈敏地添加或縮減數(shù)據(jù)存儲以及增刪存儲池中的資源,而不需求中斷系統(tǒng)運轉(zhuǎn);HDFS——分布式文件系統(tǒng)NameNode 可以看作是分布式文件系統(tǒng)中的管理者,存儲文件系統(tǒng)的meta-data,主要擔(dān)任管理文件系統(tǒng)的命名空間,集群配置信息,存儲塊的復(fù)制。DataNode 是文件存儲的根本單元。它存儲文件塊在本地文件系統(tǒng)中,保管了文件塊的meta-data,同時周期性的發(fā)送一切存在的文件塊的報告給NameNode。Client 就是需求獲取分布式文件系統(tǒng)文件的運用程序。
HDFS是一個高度容錯性的分布式文件系統(tǒng),能提供高吞吐量的數(shù)據(jù)訪問,非常適宜大規(guī)模數(shù)據(jù)集上的運用。HDFS的高可用性NameNode掛了怎樣辦?系統(tǒng)采用雙NameNode節(jié)點分布管理設(shè)計方案,支持分布式的元數(shù)據(jù)效力器,支持元數(shù)據(jù)自動日志功能,實現(xiàn)用戶數(shù)據(jù)和元數(shù)據(jù)的備份和自動恢復(fù),當(dāng)一臺效力器發(fā)生宕機(jī)時,其管理功能可以有另外的效力器接納,系統(tǒng)可以正常運轉(zhuǎn),對外提供效力。NameNodeNameNode是用來管理文件系統(tǒng)命名空間的組件一個HDFS集群只需一臺active的NameNode一個HDFS集群只需一個命名空間,一個根目錄NameNode上存放了HDFS的元數(shù)據(jù)元數(shù)據(jù)保管在NameNode的內(nèi)存當(dāng)中,以便快速查詢1G內(nèi)存大致可以存放1,000,000個塊對應(yīng)的元數(shù)據(jù)信息按缺省每塊64M計算,大致對應(yīng)64T實踐數(shù)據(jù)Datanode?一個數(shù)據(jù)塊在DataNode以文件存儲在磁盤上,包括兩個文件,一個是數(shù)據(jù)本身,一個是元數(shù)據(jù)包括數(shù)據(jù)塊的長度,塊數(shù)據(jù)的校驗和,以及時間戳。?DataNode啟動后向NameNode注冊,經(jīng)過后,周期性〔1小時〕的向NameNode上報一切的塊信息。?心跳是每3秒一次,心跳前往結(jié)果帶有NameNode給該DataNode的命令如復(fù)制塊數(shù)據(jù)到另一臺機(jī)器,或刪除某個數(shù)據(jù)塊。假設(shè)超越10分鐘沒有收到某個DataNode的心跳,那么以為該節(jié)點不可用。添加DataNode節(jié)點后?系統(tǒng)平臺添加新節(jié)點之后,系統(tǒng)自動在一切節(jié)點之間平衡數(shù)據(jù)。系統(tǒng)后臺根據(jù)忙閑程度,自動發(fā)起,占用很少系統(tǒng)資源,無需人工干涉,實現(xiàn)數(shù)據(jù)平衡分布。HDFS詳細(xì)操作文件寫入:1.Client向NameNode發(fā)起文件寫入的懇求2.NameNode根據(jù)文件大小和文件塊配置情況,前往給Client它所管理部分DataNode的信息。3.Client將文件劃分為多個文件塊,根據(jù)DataNode的地址信息,按順序?qū)懭氲矫恳粋€DataNode塊中。
文件讀?。?.
Client向NameNode發(fā)起文件讀取的懇求2.
NameNode前往文件存儲的DataNode的信息。3.Client讀取文件信息。Client1Client2DataNode節(jié)點NameNode1NameNode2NFS效力器正常運轉(zhuǎn)形狀單點失效形狀HBASE——分布
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年物業(yè)管理員(中級)職業(yè)技能鑒定試卷:物業(yè)管理信息化系統(tǒng)
- 2025年事業(yè)單位招聘考試綜合類無領(lǐng)導(dǎo)小組討論面試真題模擬試卷:時事熱點模擬題庫
- 2025年退役軍人公務(wù)員錄用考試公安專業(yè)科目全真模擬試題
- 醫(yī)療技術(shù)進(jìn)步與教育品牌建設(shè)
- 打造智慧課堂遠(yuǎn)程教育的關(guān)鍵技術(shù)與工具
- 贛州市南康區(qū)初中學(xué)校選調(diào)筆試真題2024
- 2026屆新疆生產(chǎn)建設(shè)兵團(tuán)一師高中化學(xué)高一第一學(xué)期期末復(fù)習(xí)檢測試題含解析
- 2025年環(huán)境工程專業(yè)資格考試試卷及答案
- 2025年公司安全培訓(xùn)考試試題附答案(模擬題)
- 供電應(yīng)急管理知識培訓(xùn)課件
- 雙方簽定協(xié)議書
- 2024-2025學(xué)年八年級數(shù)學(xué)下冊期末培優(yōu)卷(北師大版)含答案
- 2025福建福州市鼓樓區(qū)國有資產(chǎn)投資發(fā)展集團(tuán)有限公司副總經(jīng)理公開招聘1人筆試參考題庫附帶答案詳解(10套)
- 2025年12345熱線考試題庫
- 多余物控制管理辦法
- 2025年衛(wèi)生健康行業(yè)經(jīng)濟(jì)管理領(lǐng)軍人才試題
- 河南省洛陽市2024-2025學(xué)年高一下學(xué)期期末質(zhì)量檢測物理試卷
- 雅思介紹課件
- 《電商直播運營》教案-任務(wù)1 直播平臺與崗位認(rèn)知
- 反邪教宣講課件
- 2025年重慶市高考物理試卷(含答案解析)
評論
0/150
提交評論