




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、典型云計算平臺架構(gòu)開源成熟的hadoop生態(tài)體系 從企業(yè)的技術(shù)選型角度,hadoop能滿足大數(shù)據(jù)場景下絕打多數(shù)需求,同時在技術(shù)可行性與成本上,具有無可比擬額優(yōu)勢。 1、 Hadoop是架構(gòu)在廉價的硬件服務(wù)器上,不需要非常昂貴的硬件做支撐。2、 開源的產(chǎn)品,免費的,基于開源協(xié)議,可以自由修改,可控性更大。3、因為屬于二次開發(fā),同時因為有非?;钴S的社區(qū)討論,對開發(fā)人員的能力要求相對不高,工程師的學(xué)習(xí)成本也并不高。4、當集群規(guī)模非常大時,開發(fā)成本和維護成本會凸顯出來。但是相對于自研系統(tǒng)來說的話,還是便宜的很多。 hadoop的整個生態(tài)體系,涵蓋了系統(tǒng)數(shù)據(jù)存儲、數(shù)據(jù)收集、數(shù)據(jù)導(dǎo)入導(dǎo)出到關(guān)系數(shù)據(jù)庫、并行
2、計算框架、數(shù)據(jù)序列化處理與任務(wù)調(diào)度、數(shù)據(jù)挖掘和機器學(xué)習(xí)、列式存儲在線數(shù)據(jù)庫、元數(shù)據(jù)中心、工作流控制、系統(tǒng)部署配置監(jiān)控、可視化處理等等方方面面。大數(shù)據(jù)分析平臺一、海量數(shù)據(jù)存儲及擴展能力 基于分布式HDFS文件系統(tǒng)存儲,HA高可用配置, 數(shù)據(jù)多副本,異地備份容災(zāi)能力,以最經(jīng)濟的硬件成本支持海量數(shù)據(jù)存儲和擴容。二、高負載和海量數(shù)據(jù)處理能力 基于yarn之上的資源管控與調(diào)度模型,支持資源的動態(tài)配置與熱啟動,公平科學(xué)的任務(wù)調(diào)度算法,達到資源利用的最大化、合理化。優(yōu)先分配就近的運算節(jié)點,盡可能降低網(wǎng)絡(luò)帶寬。高容錯能力,支持任務(wù)重試和資源預(yù)估,不受個別越算節(jié)點故障影響。支持動態(tài)擴充運算資源。能在海量的服務(wù)器
3、集群中執(zhí)行高復(fù)雜度、高資源需求、高運算密集型的任務(wù)。三、靈活快速的平臺搭建及全面運營監(jiān)控指標體系 一鍵式的平臺搭建,支持快速搭建集群環(huán)境。靈活方便的配置界面,可針對集群、單機進行系統(tǒng)配置及調(diào)優(yōu)。 提供自定義的服務(wù)模塊安裝、資源分配、權(quán)限管理。指標體系全面的監(jiān)控管理、良好的可視化界面,提供自定義腳本的預(yù)警與處理。四、多平臺、多結(jié)構(gòu)的數(shù)據(jù)接入與處理 支持各種格式、多數(shù)據(jù)源的數(shù)據(jù)導(dǎo)入。從系統(tǒng)日志、數(shù)據(jù)庫、第三方數(shù)據(jù)源等導(dǎo)入數(shù)據(jù)到集群環(huán)境,進行快速地數(shù)據(jù)清洗、轉(zhuǎn)化、建模、固化,提供各業(yè)務(wù)模塊進行運算處理。良好的模板配置,支持多ETL任務(wù)自動生成、運行。代碼規(guī)范統(tǒng)一。五、體驗良好的交互式展示界面及報表工
4、具 除了展示各個常規(guī)指標及運算記過。通過專業(yè)的統(tǒng)計數(shù)據(jù)分析系統(tǒng)設(shè)計方法,理清海量數(shù)據(jù)指標與維度,按主題、成體系呈現(xiàn)復(fù)雜數(shù)據(jù)背后的聯(lián)系;將多個視圖整合,展示同一數(shù)據(jù)在不同維度下呈現(xiàn)的數(shù)據(jù)背后的規(guī)律,幫助用戶從不同角度分析數(shù)據(jù)、縮小答案的范圍、展示數(shù)據(jù)的不同影響。具備顯示結(jié)果的形象化和使用過程的互動性,便于用戶及時捕捉其關(guān)注的數(shù)據(jù)信息。Hadoop大數(shù)據(jù)分析平臺解決方案說明簡介本文檔描述本公司Hadoop大數(shù)據(jù)分析平臺解決方案的具體實現(xiàn)細節(jié)。本平臺采用開源Hadoop組件搭建為一個通用目的的大數(shù)據(jù)分析平臺,可用于各領(lǐng)域,包括:教育、醫(yī)療、電信、銀行等大數(shù)據(jù)應(yīng)用客戶。平臺具備如下特點:1. 一鍵安裝
5、2. 可視化運行維護3. 自由的擴展性4. 完全開源,并于最新的穩(wěn)定版本同步5. 無縫集成Hadoop生態(tài)領(lǐng)域的各個數(shù)據(jù)分析組件6. 可視化大數(shù)據(jù)實驗環(huán)境方案采用的Hadoop模塊列表ü HDFS,用于大規(guī)模數(shù)據(jù)存儲ü Yarn,系統(tǒng)資源管理ü Hive,基于Mapreduce的SQL數(shù)據(jù)訪問ü Pig,腳本式數(shù)據(jù)處理ü Storm,流式數(shù)據(jù)處理ü Spark/Spark Streaming,內(nèi)存計算框架ü HBase,Key-Value數(shù)據(jù)存儲ü MapReduce,離線批處理計算框架ü Kafka,消
6、息隊列式流失數(shù)據(jù)接入ü HCatlog,元數(shù)據(jù)管理ü Ambari,Hadoop平臺監(jiān)控、管理界面ü ZooKeeper,保證系統(tǒng)無單點運行ü Oozie,工作流式任務(wù)調(diào)度方案的硬件方案本方案對于硬件沒用特別要求,平臺可以部署在Amazon等云服務(wù)上,可以部署在實體物理PC服務(wù)器構(gòu)成的集群上,也可以部署在基于OpenStack等其他虛擬節(jié)點上。大數(shù)據(jù)平臺功能列表在開源Hadoop模塊的基礎(chǔ)上,本公司的hadoop大數(shù)據(jù)平臺對各模塊做了整合,從而形成一個通用的、企業(yè)級的數(shù)據(jù)平臺。系統(tǒng)結(jié)構(gòu)圖平臺功能模塊系統(tǒng)管理系統(tǒng)管理模塊提供如下功能:1. 節(jié)點管理,負責集
7、群節(jié)點控制,可以增加、停用、啟用或者移除節(jié)點。2. 服務(wù)管理,對節(jié)點上每個服務(wù)進行管理,如HDFS,Yarn,HBase等,包括停止,啟動,重啟。3. 對象管理,Hive、HBase、HDFS數(shù)據(jù)對象的增刪改查。4. 日志審計,操作日志記錄了所有改變系統(tǒng)配置的操作,通過日志的查詢審計,發(fā)現(xiàn)不當操作,保證系統(tǒng)安全穩(wěn)定運行。多租戶管理多租戶管理模塊提供如下功能:1. 用戶管理,負責用戶的增刪改查。2. 角色管理,負責角色的增刪改查。3. 權(quán)限管理,負責授權(quán)和取消授權(quán)。4. 隊列管理,負責Yarn隊列管理。5. 資源使用規(guī)則管理,負責資源使用規(guī)則的增刪改查。系統(tǒng)監(jiān)控系統(tǒng)監(jiān)控提供如下功能:1. 集群監(jiān)
8、控,顯示集群cpu、內(nèi)存、網(wǎng)絡(luò)、IO使用情況。2. 節(jié)點監(jiān)控,顯示節(jié)點上每個組件服務(wù)的狀態(tài)及運行情況;顯示節(jié)點cpu、內(nèi)存、網(wǎng)絡(luò)、IO使用情況。3. 任務(wù)監(jiān)控,監(jiān)控節(jié)點上每個作業(yè)的完成情況。調(diào)度管理Prospector大數(shù)據(jù)平臺提供所有類型的任務(wù)調(diào)度管理。Prospector大數(shù)據(jù)平臺的任務(wù)類型包括:數(shù)據(jù)集成任務(wù)、數(shù)據(jù)預(yù)處理任務(wù)和數(shù)據(jù)分析任務(wù)三類。Prospector大數(shù)據(jù)平臺可以對所有類型任務(wù)實線以下類型調(diào)度:Ø 一次性執(zhí)行Ø 定期執(zhí)行Ø 條件執(zhí)行數(shù)據(jù)集成 (Data Integrator)數(shù)據(jù)集成理模塊負責將外部數(shù)據(jù)源導(dǎo)入到Prospector大數(shù)據(jù)平臺,同時
9、也負責將數(shù)據(jù)分享到其他的外部數(shù)據(jù)存儲。睿帆Data Integrator用于將外部數(shù)據(jù)源的數(shù)據(jù)集成到Hadoop大數(shù)據(jù)平臺。Data Integrator支持三大類數(shù)據(jù)源:1 數(shù)據(jù)庫、NoSQL系統(tǒng)2 文件系統(tǒng)(FTP、HDFS)3 消息隊列(Kafka、ActiveMQ)數(shù)據(jù)庫、NoSQL系統(tǒng)數(shù)據(jù)源l DB2l Oraclel Teradatal MySQLl Netezzal PostgreSQLl Sybase IQl Vertical Greenpluml Hivel HBase文件系統(tǒng)與文件格式l Apache Logl CSV/TSVl HTML/XMLl JSONl AVROl
10、Parquetl Binaryl Key, Valuel ORC消息隊列數(shù)據(jù)源l Kafkal ActiveMQ數(shù)據(jù)治理(Data Governor)數(shù)據(jù)治理模塊負責對導(dǎo)入到大數(shù)據(jù)平臺中的數(shù)據(jù)進行處理,對數(shù)據(jù)進行清洗、轉(zhuǎn)換、過濾、聚合、脫敏等,將數(shù)據(jù)轉(zhuǎn)化成有意義的數(shù)據(jù)供分析人員使用。數(shù)據(jù)治理模塊同時負責數(shù)據(jù)質(zhì)量管理。數(shù)據(jù)質(zhì)量1 數(shù)據(jù)質(zhì)量評估。提供全方位數(shù)據(jù)質(zhì)量評估能力,如數(shù)據(jù)的重復(fù)性、關(guān)聯(lián)性、正確性、完全性、一致性、合規(guī)性等,對數(shù)據(jù)進行全面體檢。2 數(shù)據(jù)質(zhì)量檢核和執(zhí)行。提供配置化的度量規(guī)則和檢核方法生成能力,提供檢核腳本的定時調(diào)度執(zhí)行和第三方調(diào)度工具的調(diào)度執(zhí)行功能。3 數(shù)據(jù)質(zhì)量監(jiān)控。系統(tǒng)提供報
11、警機制,對檢核規(guī)則或方法進行閥值設(shè)置,對超出閥值的規(guī)則進行不同級別的告警和通知。4 定制化數(shù)據(jù)質(zhì)量報告。系統(tǒng)提供了豐富的API可進行定制化數(shù)據(jù)質(zhì)量包括開發(fā),另外系統(tǒng)內(nèi)置了常用質(zhì)量報告。5 強大的數(shù)據(jù)質(zhì)量問題分析能力。 提供多種問題分析能力,包括血統(tǒng)分析,影響分析,全鏈分析,定位問題產(chǎn)生的根源。數(shù)據(jù)整理與轉(zhuǎn)換1 數(shù)據(jù)整理。包括數(shù)據(jù)過濾、數(shù)據(jù)合并、數(shù)據(jù)拆分、數(shù)據(jù)復(fù)制、數(shù)據(jù)排序等數(shù)據(jù)預(yù)處理功能。2 數(shù)據(jù)轉(zhuǎn)換。計算產(chǎn)生新變量、重新賦值、統(tǒng)計匯總、Rank、生成隨機數(shù)、替換缺失值、空值處理、Lookup等數(shù)據(jù)轉(zhuǎn)換功能。數(shù)據(jù)分析(Data Analyzer)數(shù)據(jù)分析模塊提供應(yīng)用開發(fā)環(huán)境、集成簡化機器學(xué)習(xí)算
12、法、提供圖形化的拖拽界面供數(shù)據(jù)分析使用。應(yīng)用開發(fā)用戶通過可視化方式定義工作流完成下數(shù)據(jù)分析:統(tǒng)計報表、數(shù)據(jù)挖掘、機器學(xué)習(xí)、文本挖掘。拖拽式可視化開發(fā)環(huán)境企業(yè)數(shù)據(jù)分析用戶通過可視化開發(fā)環(huán)境定義數(shù)據(jù)分析的邏輯,Data Analyzer將其轉(zhuǎn)化成對底層數(shù)據(jù)分析算法的調(diào)用,并提供任務(wù)執(zhí)行、任務(wù)調(diào)度和任務(wù)管理功能。Data Analyzer樣例企業(yè)數(shù)據(jù)分析師可以同過Data Analyzer完成一系列數(shù)據(jù)分析。聚類通過聚類算法,Data Analyzer可以把企業(yè)客戶分成相似但不相同的、又無直接關(guān)聯(lián)關(guān)系的客戶群體,顯而易見是聚類結(jié)果可以幫企業(yè)客戶分群。決策樹通過決策樹算法,Data Analyzer可
13、以把客戶根據(jù)不同屬性的取值劃分到固定的類別,例如高收入、高潛力、高風險等。而這些通過屬性的分類規(guī)律很可能隱藏在數(shù)據(jù)中而從未被發(fā)現(xiàn)。屬性關(guān)聯(lián)通過屬性關(guān)聯(lián)算法,Data Analyzer可以發(fā)現(xiàn)客戶年齡、學(xué)歷等屬性與收入、信用記錄之間的潛在關(guān)聯(lián)關(guān)系,從而幫助企業(yè)制定有針對性的客戶發(fā)展計劃。預(yù)測推薦通過關(guān)聯(lián)算法,Data Analyzer可以根據(jù)客戶信息預(yù)測他/她在某方面(音樂、電影)的興趣度,從而協(xié)助企業(yè)的精準營銷。數(shù)據(jù)可視化(Data Viewer)Prospector采用Graph Viz, D3 Javascripts和Google Charts的技術(shù)框架實現(xiàn)如下數(shù)據(jù)的可視化:結(jié)構(gòu)化數(shù)據(jù)、柱狀圖、非結(jié)構(gòu)化數(shù)據(jù)、網(wǎng)絡(luò)圖、序列圖等。平臺運維本公司對于Hadoop大數(shù)據(jù)分析平臺方案提供升級服務(wù)和Hadoop/
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 【正版授權(quán)】 ISO 4517:2025 EN Physical vapor deposition (PVD) coatings - Contact angle measurement of metallic hydrophobic PVD coatings
- 【正版授權(quán)】 ISO 1135-4:2025 EN Transfusion equipment for medical use - Part 4: Transfusion sets for single use,gravity feed
- 【正版授權(quán)】 ISO 10516:2025 EN Railway applications - Vehicle reference masses
- 針法灸法考試試題及答案
- 鉗工國家考試試題及答案
- 樂理1級試題及答案
- 口語啟蒙測試題及答案
- 保密培訓(xùn)試題及答案
- 數(shù)學(xué)考查試題及答案
- 肺栓塞考試題及答案
- 皮膚醫(yī)美行業(yè)分析
- 2025年信息技術(shù)實習(xí)生培訓(xùn)協(xié)議
- ESD防靜電知識培訓(xùn)
- SJG 71-2020 橋梁工程設(shè)計標準
- 綠化養(yǎng)護手冊
- 阿里云培訓(xùn)課件
- 《隧道抗震韌性評價標準》標準文本附編制說明
- 初一新生家長會(共27張課件)
- 頌缽療愈師培訓(xùn)
- 2024至2030年中國齒科應(yīng)用技術(shù)數(shù)據(jù)監(jiān)測研究報告
- 《健康管理職業(yè)導(dǎo)論》高職健康管理專業(yè)全套教學(xué)課件
評論
0/150
提交評論