




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
三、數(shù)據(jù)分析3.1Hive簡介什么是Hive?ApacheHive是一款建立在Hadoop之上的開源數(shù)據(jù)倉庫系統(tǒng),可以將存儲在Hadoop文件中的結構化、半結構化數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,基于表提供了一種類似SQL的查詢模型,稱為Hive查詢語言(HQL),用于訪問和分析存儲在Hadoop文件中的大型數(shù)據(jù)集。1.1Hive的概念什么是Hive?Hive核心是將HQL轉換為MapReduce程序,然后將程序提交到Hadoop群集執(zhí)行。Hive由Facebook實現(xiàn)并開源。1.2Hive的作用為什么使用Hive?使用HadoopMapReduce直接處理數(shù)據(jù)所面臨的問題人員學習成本太高需要掌握java語言MapReduce實現(xiàn)復雜查詢邏輯開發(fā)難度太大使用Hive處理數(shù)據(jù)的好處操作接口采用類SQL語法,提供快速開發(fā)的能力(簡單、容易上手)避免直接寫MapReduce,減少開發(fā)人員的學習成本支持自定義函數(shù),功能擴展很方便背靠Hadoop,擅長存儲分析海量數(shù)據(jù)集1.3Hive和Hadoop的關系從功能來說,數(shù)據(jù)倉庫軟件,至少需要具備下述兩種能力:
存儲數(shù)據(jù)的能力、分析數(shù)據(jù)的能力ApacheHive作為一款大數(shù)據(jù)時代的數(shù)據(jù)倉庫軟件,當然也具備上述兩種能力。只不過Hive并不是自己實現(xiàn)了上述兩種能力,而是借助Hadoop。Hive利用HDFS存儲數(shù)據(jù),利用MapReduce查詢分析數(shù)據(jù)。這樣突然發(fā)現(xiàn)Hive沒啥用,不過是套殼Hadoop罷了。其實不然,Hive的最大的魅力在于用戶專注于編寫HQL,Hive幫您轉換成為MapReduce程序完成對數(shù)據(jù)的分析。思考如果讓您設計Hive這款軟件,要求能夠實現(xiàn)用戶只編寫sql語句,Hive自動將sql轉換MapReduce程序,處理位于HDFS上的結構化數(shù)據(jù)。如何實現(xiàn)?場景設計:如何模擬實現(xiàn)Hive功能?案例如何模擬實現(xiàn)ApacheHive的功能在HDFS文件系統(tǒng)上有一個文件,路勁為/data/student.csv;需求:假設分數(shù)≥90分為優(yōu)秀,
統(tǒng)計一下優(yōu)秀的學生有多少個?1,zhangsan,男,902,lisi,女,803,wangwu,男,874,zhaoliu,男,975,zhouba,女,926,chenjiu,男,100/data/student.csv1.4模擬實現(xiàn)Hive功能場景目的重點理解下面兩點:Hive能將數(shù)據(jù)文件映射成為一張表,這個映射是指什么?Hive軟件本身到底承擔了什么功能職責?映射信息記錄映射在數(shù)學上稱之為一種對應關系,比如y=x+1,對于每一個x的值都有與之對應的y的值。在hive中能夠寫sql處理的前提是針對表,而不是針對文件,因此需要將文件和表之間的對應關系描述記錄清楚。映射信息專業(yè)的叫法稱之為元數(shù)據(jù)信息(元數(shù)據(jù)是指用來描述數(shù)據(jù)的數(shù)據(jù)metadata)。映射關系1,zhangsan,男,902,lisi,女,803,wangwu,男,874,zhaoliu,男,975,zhouba,女,926,chenjiu,男,100hdfs://data/student.csvHadoopHDFS映射信息記錄具體來看,要記錄的元數(shù)據(jù)信息包括:表對應著哪個文件(位置信息)表的列對應著文件哪一個字段(順序信息)文件字段之間的分隔符是什么映射關系1,zhangsan,男,902,lisi,女,803,wangwu,男,874,zhaoliu,男,975,zhouba,女,926,chenjiu,男,100hdfs://data/student.csvHadoopHDFS1.4模擬實現(xiàn)Hive功能SQL語法解析、編譯用戶寫完sql之后,hive需要針對sql進行語法校驗,并且根據(jù)記錄的元數(shù)據(jù)信息解讀sql背后的含義,制定執(zhí)行計劃并且把執(zhí)行計劃轉換成MapReduce程序來具體執(zhí)行,把執(zhí)行的結果封裝返回給用戶對Hive的理解Hive能將數(shù)據(jù)文件映射成為一張表,這個映射是指什么?Hive軟件本身到底承擔了
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 勇氣戰(zhàn)勝困難的鑰匙記事作文6篇
- 2025安徽固鎮(zhèn)縣連城鎮(zhèn)招聘村級后備人才3人考前自測高頻考點模擬試題附答案詳解(突破訓練)
- 2025-2026學年黑龍江省雞西市某中學高二上學期開學考試英語試卷(解析版)
- 2025年河北衡水市第三人民醫(yī)院招聘見習人員49名考前自測高頻考點模擬試題及答案詳解(各地真題)
- 2025黑龍江齊齊哈爾市富??h富海鎮(zhèn)招聘公益性崗位人員2人模擬試卷及答案詳解(考點梳理)
- 2025年河北外國語學院人才招聘考前自測高頻考點模擬試題及答案詳解參考
- 2025貴州省計量測試院參加第十三屆貴州人才博覽會引才4人模擬試卷及答案詳解(有一套)
- 2025河南省水利廳廳屬事業(yè)單位招聘47人模擬試卷及答案詳解一套
- 江蘇省常州市2024-2025學年高三上學期1月期末質量調研地理試題(解析版)
- 2025湖北襄陽市中醫(yī)醫(yī)院(襄陽市中醫(yī)藥研究所)招聘急需專業(yè)技術人才55人考前自測高頻考點模擬試題附答案詳解(模擬題)
- 初中九年級化學課件元素周期表“衡水賽”一等獎
- 投標貨物質量標準的詳細描述
- 《大學生軍事理論教程》第五章
- 中國建筑色卡
- 北師大九年級物理上冊 (組裝電路)簡單電路 課件
- 2023年普通高中學業(yè)水平合格性考試音樂試卷
- 第八章世紀美國政治思想
- 起重機司機Q2(限橋式起重機)題庫題庫(1727道)
- 木質纖維素的生物分解及其轉化技術
- 冠寓運營管理手冊正式版
- GB/T 39473-2020北斗衛(wèi)星導航系統(tǒng)公開服務性能規(guī)范
評論
0/150
提交評論