




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 hdfs原理,以及各個(gè)模塊的職責(zé)答:HadoopDistributedFileSystem即:Hadoop分布式文件系統(tǒng),就是把數(shù)據(jù)劃分成不同的Block分別存儲(chǔ)在不同節(jié)點(diǎn)的設(shè)備上。它分為兩個(gè)部分:NameNode和DateNode,NameNode相當(dāng)于一個(gè)領(lǐng)導(dǎo),將文件系統(tǒng)的Meta-data存儲(chǔ)在內(nèi)存中,這些信息主要包括了文件信息、每一個(gè)文件對(duì)應(yīng)的文件塊的信息和每一個(gè)文件塊在DataNode的信息等。它管理集群內(nèi)的DataNode,當(dāng)客戶發(fā)送請(qǐng)求過來后,NameNode會(huì)根據(jù)Meta-data指定存儲(chǔ)到哪些DataNode上,而其本身并不存儲(chǔ)真實(shí)的數(shù)據(jù)。2、 mr的工作原理答:當(dāng)客戶提交作業(yè)后,MapReduce庫(kù)先把任務(wù)splits不同的塊,然后根據(jù)“移動(dòng)計(jì)算比移動(dòng)數(shù)據(jù)更明智”的思想,把任務(wù)分發(fā)到各個(gè)DataNode上。在不同的DataNode上分別執(zhí)行Map操作,產(chǎn)生鍵值對(duì),然后通過shuffle重新洗牌,把鍵值相同的鍵值對(duì)傳給同一個(gè)reduce,把鍵值不同的鍵值對(duì)傳給不同的reduce進(jìn)行處理,最后輸出結(jié)果。這些按照時(shí)間順序包括:輸入分片(inputsplit)、map階段、combiner階段、shuffle階段和reduce階段。(5個(gè)階段)3、map方法是如何調(diào)用reduce方法的答:Shuffle過程是MapReduce的核心,也被稱為奇跡發(fā)生的地方,Hadoop的shuffle過程就是從map端輸出到reduce端輸入之間的過程。map過程的輸出是寫入本地磁盤而不是HDFS,但是一開始數(shù)據(jù)并不是直接寫入磁盤而是緩沖在內(nèi)存中,緩存的好處就是減少磁盤I/O的開銷,提高合并和排序的速度。默認(rèn)的內(nèi)存緩沖大小是100M(可以配置),所以在書寫map函數(shù)的時(shí)候要盡量減少內(nèi)存的使用,為shuffle過程預(yù)留更多的內(nèi)存,因?yàn)樵撨^程是最耗時(shí)的過程。當(dāng)緩沖的內(nèi)存大小使用超過一定的閾值(默認(rèn)80%),一個(gè)后臺(tái)的線程就會(huì)啟動(dòng)把緩沖區(qū)中的數(shù)據(jù)寫入(spill)到磁盤中,往內(nèi)存中寫入的線程繼續(xù)寫入知道緩沖區(qū)滿,緩沖區(qū)滿后線程阻塞直至緩沖區(qū)被清空。在數(shù)據(jù)spill到磁盤的過程中會(huì)有一些額外的處理,調(diào)用partition函數(shù)、combine函數(shù)(如果設(shè)置)、對(duì)數(shù)據(jù)進(jìn)行排序(按key排序九如果發(fā)生多次磁盤的溢出寫,會(huì)在磁盤上形成幾個(gè)溢出寫文件,在map過程結(jié)束時(shí),要將這些文件進(jìn)行合并生成一個(gè)大的分區(qū)的排序的文件。reduce端可能從n多map的結(jié)果中獲取數(shù)據(jù),而這些map的執(zhí)行速度不盡相同,當(dāng)其中一個(gè)map運(yùn)行結(jié)束時(shí),reduce就會(huì)從jobtractor中獲取該信息。map運(yùn)行結(jié)束后tasktractor會(huì)得到消息,進(jìn)而將消息匯報(bào)給jobtractor,reduce定時(shí)從jobtractor獲取該信息,reduce端默認(rèn)有5個(gè)線程從map端拖拉數(shù)據(jù)。4、 shell如何判斷文件是否存在,如果不存在該如何處理?if[!-f"$file"];thentouch"$file"fi不存在就創(chuàng)建一個(gè)吧。5、 fsimage和edit的區(qū)別?答:fsimage保存了最新的元數(shù)據(jù)檢查點(diǎn),edits保存自最新檢查點(diǎn)后的命名空間的變化。從最新檢查點(diǎn)后,hadoop將對(duì)每個(gè)文件的操作都保存在edits中,為避免edits不斷增大,secondarynamenode就會(huì)周期性合并fsimage和edits成新的fsimage,edits再記錄新的變化,這種機(jī)制有個(gè)問題:因edits存放在Namenode中,當(dāng)Namenode掛掉,edits也會(huì)丟失,導(dǎo)致利用secondarynamenode恢
復(fù)Namenode時(shí),會(huì)有部分?jǐn)?shù)據(jù)丟失。6、hadoop1和hadoop2的區(qū)別?答:Hadoop2相比較于Hadoop1.x來說,HDFS的架構(gòu)與MapReduce的都有較大的變化,且速度上和可用性上都有了很大的提高,Hadoop2中有兩個(gè)重要的變更:首先HDFS的NameNodes可以以集群的方式布署,增強(qiáng)了NameNodes的水平擴(kuò)展能力和可用性,可以同時(shí)部署多個(gè)NameNode,這些NameNodes之間是相互獨(dú)立,也就是說他們不需要相互協(xié)調(diào),DataNode同時(shí)在所有NameNodes注冊(cè),做為他們共有的存儲(chǔ)節(jié)點(diǎn),并定時(shí)向所有的這些NameNodes發(fā)送心跳塊使用情況的報(bào)告,并處理所有NameNodes向其發(fā)送的指令。再者M(jìn)apReduce將JobTracker中的資源管理及任務(wù)生命周期管理(包括定時(shí)觸發(fā)及監(jiān)控),拆分成兩個(gè)獨(dú)立的組件,并更名為YARN(YetAnotherResourceNegotiator□MapReduce在Hadoop2中稱為MR2或YARN,將JobTracker中的資源管理及任務(wù)生命周期管理(包括定時(shí)觸發(fā)及監(jiān)控),拆分成兩個(gè)獨(dú)立的服務(wù),用于管理全部資源的ResourceManager以及管理每個(gè)應(yīng)用的ApplicationMaster,ResourceManager用于管理向應(yīng)用程序分配計(jì)算資源,每個(gè)ApplicationMaster用于管理應(yīng)用程序、調(diào)度以及協(xié)調(diào)。筆試:1、hdfs中的block默認(rèn)保存幾份?1、答:默認(rèn)3份,可以確保塊、磁盤和機(jī)器發(fā)生故障后數(shù)據(jù)不丟失。機(jī)架不同的機(jī)器上和不同的機(jī)架上。2、哪個(gè)程序通常與nn在一個(gè)節(jié)點(diǎn)啟動(dòng)?并做分析2、答:jobtracker和namenode通常在一個(gè)節(jié)點(diǎn)上啟動(dòng)。用戶代碼提交到集群以后,由JobTracker決定哪個(gè)文件將被處理,并且為不同的task分配節(jié)點(diǎn)。而文件存儲(chǔ)信息的管理者是nameNode,所以jobtracker一般要和nn在同一個(gè)節(jié)點(diǎn)啟動(dòng)。(同時(shí),它還監(jiān)控所有的task,一旦某個(gè)task失敗了,JobTracker就會(huì)自動(dòng)重新開啟這個(gè)task,在大多數(shù)情況下這個(gè)task會(huì)被放在不用的節(jié)點(diǎn)上。每個(gè)Hadoop集群只有一個(gè)JobTracker,一般運(yùn)行在集群的Master節(jié)點(diǎn)上。3、列舉幾個(gè)配置文件優(yōu)化?3、答:(1)默認(rèn)值:/tmp說明:盡量手動(dòng)配置這個(gè)選項(xiàng),否則的話都默認(rèn)存在了里系統(tǒng)的默認(rèn)臨時(shí)文件/tmp里。并且手動(dòng)配置的時(shí)候,如果服務(wù)器是多磁盤的,每個(gè)磁盤都設(shè)置一個(gè)臨時(shí)文件目錄,這樣便于mapreduce或者h(yuǎn)dfs等使用的時(shí)候提高磁盤IO效率。(2)默認(rèn)值:(3)說明:reduce階段用戶合并map輸出的內(nèi)存限制。這里設(shè)置(3)dfs.blocksize默認(rèn)值:67108864(4)說明:這個(gè)就是hdfs里一個(gè)文件塊的大小了,默認(rèn)64M,這里設(shè)置134217728,即128M,太大的話會(huì)有較少map同時(shí)計(jì)算,太小的話也浪費(fèi)可用map個(gè)數(shù)資源,而且文件太小(4)M默認(rèn)值:10說明:JobTracker可以啟動(dòng)的線程數(shù),一般為tasktracker節(jié)點(diǎn)的4%。4、 寫出你對(duì)zookeeper的理解ZooKeeper提供了一個(gè)簡(jiǎn)化并支持特定功能的分布式文件系統(tǒng)接口,加上數(shù)據(jù)同步,變更通知,客戶端Cache等輔助機(jī)制。實(shí)際上zookeeper是很適合做集群節(jié)點(diǎn)都具有相同配置文件或相同配置信息的管理同步工具,可以設(shè)置權(quán)限及觸發(fā)功能。比如集群中每一個(gè)加點(diǎn)安裝部署zookeeper,構(gòu)成zookeeper集群,配置好相應(yīng)的watcher及觸發(fā)運(yùn)行腳本,在集群中任何一臺(tái)的節(jié)點(diǎn)上修改配置文件,都會(huì)觸發(fā)watcher,然后執(zhí)行相應(yīng)的配置信息同步腳本,更新所有其他節(jié)點(diǎn)上得配置信息,實(shí)現(xiàn)了配置的統(tǒng)一管理。集群的配置(文件)管理(配置修改之后,zookeeper監(jiān)控到自動(dòng)更新同步到其他客戶端,實(shí)現(xiàn)配置的統(tǒng)一管理)。5、 datanode首次加入cluster的時(shí)候,如果log報(bào)告不兼容文件版本,那需要namenode執(zhí)行格式化操作,這樣處理的原因是?添加了一個(gè)新的標(biāo)識(shí)符ClusterlD用于標(biāo)識(shí)集群中所有的節(jié)點(diǎn)。當(dāng)格式化一個(gè)Namenode,需要提供這個(gè)標(biāo)識(shí)符或者自動(dòng)生成。這個(gè)ID可以被用來格式化加入集群的其他Namenode。6、 談?wù)剶?shù)據(jù)傾斜,如何發(fā)生的,并給出優(yōu)化方案主要原因:1)、key分布不均勻;2)、業(yè)務(wù)數(shù)據(jù)本身的特性;3)、建表時(shí)考慮不周;4)、某些SQL語句本身就有數(shù)據(jù)傾斜。優(yōu)化方案:1)、參數(shù)調(diào)節(jié):=true;2)、SQL語句調(diào)節(jié)。7、 介紹一下hbase過濾器HBase為篩選數(shù)據(jù)提供了一組過濾器,通過這個(gè)過濾器可以在HBase中的數(shù)據(jù)的多個(gè)維度(行,列,數(shù)據(jù)版本)上進(jìn)行對(duì)數(shù)據(jù)的篩選操作,也就是說過濾器最終能夠篩選的數(shù)據(jù)能夠細(xì)化到具體的一個(gè)存儲(chǔ)單元格上(由行鍵,列名,時(shí)間戳定位)。RowFilter、PrefixFilter。。。8、 mapreduce基本執(zhí)行過程首先對(duì)輸入數(shù)據(jù)源進(jìn)行切片master調(diào)度worker執(zhí)行map任務(wù)worker讀取輸入源片段worker執(zhí)行map任務(wù),將任務(wù)輸出保存在本地master調(diào)度worker執(zhí)行reduce任務(wù),reduceworker讀取map任務(wù)的輸出文件執(zhí)行reduce任務(wù),將任務(wù)輸出保存到HDFS9、 談?wù)刪adoop1和hadoop2的區(qū)別10、 hbase集群安裝注意事項(xiàng)11、 記錄包含值域F和值域G,要分別統(tǒng)計(jì)相同G值的記錄中不同的F值的數(shù)目,簡(jiǎn)單編寫過程。信息技術(shù)有限公司1、 你們的集群規(guī)模?2、 你們的數(shù)據(jù)是用什么導(dǎo)入到數(shù)據(jù)庫(kù)的?導(dǎo)入到什么數(shù)據(jù)庫(kù)?3、 你們業(yè)務(wù)數(shù)據(jù)量多大?有多少行數(shù)據(jù)?(面試了三家,都問這個(gè)問題)4、 你們處理數(shù)據(jù)是直接讀數(shù)據(jù)庫(kù)的數(shù)據(jù)還是讀文本數(shù)據(jù)?5、 你們寫hive的hql語句,大
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年高壓電工復(fù)審考試練習(xí)題模擬題庫(kù)及解析答案
- 2025年行政強(qiáng)制法模擬試題及參考答案
- 成考專升本教育理論基礎(chǔ)題型練習(xí)及答案
- 2024上半年數(shù)據(jù)庫(kù)系統(tǒng)工程師真題及答案解析
- 骨科緊急情況護(hù)理人力資源調(diào)配預(yù)案腳本
- 品牌認(rèn)知度提升路徑-洞察與解讀
- 制藥企業(yè)培訓(xùn)考試題及答案
- 前置胎盤的護(hù)理查房
- 2025年護(hù)理員急救常識(shí)試題庫(kù)及答案
- 地鐵車站擋水坎施工方案
- 武漢天河機(jī)場(chǎng)招聘筆試題及答案
- 濕陷性黃土濕陷量計(jì)算表
- 在課堂教學(xué)中尋找發(fā)展學(xué)生科學(xué)思維的生長(zhǎng)點(diǎn)課件
- 因離婚給孩子申請(qǐng)改姓協(xié)議書
- 大眾蔚攬保養(yǎng)手冊(cè)
- 用車登記表(標(biāo)準(zhǔn)模版)
- 中共一大會(huì)址
- 01第一章-稻谷的加工匯總課件
- 六年級(jí)LOGO小海龜編程
- 駐足思考-瞬間整理思路并有力表達(dá)
- 【QC成果】提高預(yù)制梁吊裝一次就位合格率2018
評(píng)論
0/150
提交評(píng)論