Hadoop 3大數(shù)據(jù)部署與數(shù)據(jù)分析實戰(zhàn) 課件03-01-Hive簡介_第1頁
Hadoop 3大數(shù)據(jù)部署與數(shù)據(jù)分析實戰(zhàn) 課件03-01-Hive簡介_第2頁
Hadoop 3大數(shù)據(jù)部署與數(shù)據(jù)分析實戰(zhàn) 課件03-01-Hive簡介_第3頁
Hadoop 3大數(shù)據(jù)部署與數(shù)據(jù)分析實戰(zhàn) 課件03-01-Hive簡介_第4頁
Hadoop 3大數(shù)據(jù)部署與數(shù)據(jù)分析實戰(zhàn) 課件03-01-Hive簡介_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

三、數(shù)據(jù)分析3.1Hive簡介什么是Hive?ApacheHive是一款建立在Hadoop之上的開源數(shù)據(jù)倉庫系統(tǒng),可以將存儲在Hadoop文件中的結構化、半結構化數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,基于表提供了一種類似SQL的查詢模型,稱為Hive查詢語言(HQL),用于訪問和分析存儲在Hadoop文件中的大型數(shù)據(jù)集。1.1Hive的概念什么是Hive?Hive核心是將HQL轉換為MapReduce程序,然后將程序提交到Hadoop群集執(zhí)行。Hive由Facebook實現(xiàn)并開源。1.2Hive的作用為什么使用Hive?使用HadoopMapReduce直接處理數(shù)據(jù)所面臨的問題人員學習成本太高需要掌握java語言MapReduce實現(xiàn)復雜查詢邏輯開發(fā)難度太大使用Hive處理數(shù)據(jù)的好處操作接口采用類SQL語法,提供快速開發(fā)的能力(簡單、容易上手)避免直接寫MapReduce,減少開發(fā)人員的學習成本支持自定義函數(shù),功能擴展很方便背靠Hadoop,擅長存儲分析海量數(shù)據(jù)集1.3Hive和Hadoop的關系從功能來說,數(shù)據(jù)倉庫軟件,至少需要具備下述兩種能力:

存儲數(shù)據(jù)的能力、分析數(shù)據(jù)的能力ApacheHive作為一款大數(shù)據(jù)時代的數(shù)據(jù)倉庫軟件,當然也具備上述兩種能力。只不過Hive并不是自己實現(xiàn)了上述兩種能力,而是借助Hadoop。Hive利用HDFS存儲數(shù)據(jù),利用MapReduce查詢分析數(shù)據(jù)。這樣突然發(fā)現(xiàn)Hive沒啥用,不過是套殼Hadoop罷了。其實不然,Hive的最大的魅力在于用戶專注于編寫HQL,Hive幫您轉換成為MapReduce程序完成對數(shù)據(jù)的分析。思考如果讓您設計Hive這款軟件,要求能夠實現(xiàn)用戶只編寫sql語句,Hive自動將sql轉換MapReduce程序,處理位于HDFS上的結構化數(shù)據(jù)。如何實現(xiàn)?場景設計:如何模擬實現(xiàn)Hive功能?案例如何模擬實現(xiàn)ApacheHive的功能在HDFS文件系統(tǒng)上有一個文件,路勁為/data/student.csv;需求:假設分數(shù)≥90分為優(yōu)秀,

統(tǒng)計一下優(yōu)秀的學生有多少個?1,zhangsan,男,902,lisi,女,803,wangwu,男,874,zhaoliu,男,975,zhouba,女,926,chenjiu,男,100/data/student.csv1.4模擬實現(xiàn)Hive功能場景目的重點理解下面兩點:Hive能將數(shù)據(jù)文件映射成為一張表,這個映射是指什么?Hive軟件本身到底承擔了什么功能職責?映射信息記錄映射在數(shù)學上稱之為一種對應關系,比如y=x+1,對于每一個x的值都有與之對應的y的值。在hive中能夠寫sql處理的前提是針對表,而不是針對文件,因此需要將文件和表之間的對應關系描述記錄清楚。映射信息專業(yè)的叫法稱之為元數(shù)據(jù)信息(元數(shù)據(jù)是指用來描述數(shù)據(jù)的數(shù)據(jù)metadata)。映射關系1,zhangsan,男,902,lisi,女,803,wangwu,男,874,zhaoliu,男,975,zhouba,女,926,chenjiu,男,100hdfs://data/student.csvHadoopHDFS映射信息記錄具體來看,要記錄的元數(shù)據(jù)信息包括:表對應著哪個文件(位置信息)表的列對應著文件哪一個字段(順序信息)文件字段之間的分隔符是什么映射關系1,zhangsan,男,902,lisi,女,803,wangwu,男,874,zhaoliu,男,975,zhouba,女,926,chenjiu,男,100hdfs://data/student.csvHadoopHDFS1.4模擬實現(xiàn)Hive功能SQL語法解析、編譯用戶寫完sql之后,hive需要針對sql進行語法校驗,并且根據(jù)記錄的元數(shù)據(jù)信息解讀sql背后的含義,制定執(zhí)行計劃并且把執(zhí)行計劃轉換成MapReduce程序來具體執(zhí)行,把執(zhí)行的結果封裝返回給用戶對Hive的理解Hive能將數(shù)據(jù)文件映射成為一張表,這個映射是指什么?Hive軟件本身到底承擔了

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論