版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
大數(shù)據(jù)分布式計算框架簡介2/1/20231各種名詞云平臺數(shù)據(jù)中心集群超級計算機分布式計算并行計算云計算集群計算高性能計算超級計算網(wǎng)格計算分布式系統(tǒng)并行系統(tǒng)2/1/20232不一定準(zhǔn)確的理解互聯(lián)網(wǎng)連接的計算機低速互聯(lián)網(wǎng)絡(luò),通用硬件,分布分散服務(wù)器的集合高速互聯(lián)網(wǎng)絡(luò),通用硬件,分布集中超級計算機超高速互聯(lián)網(wǎng)絡(luò),專門定制的硬件,分布集中云平臺數(shù)據(jù)中心集群超級計算機分布式計算并行計算云計算集群計算高性能計算超級計算網(wǎng)格計算分布式系統(tǒng)并行系統(tǒng)以上名詞都可以對應(yīng)到左邊三類系統(tǒng)上2/1/20233各種名詞在線處理,離線處理流處理(流式處理),批處理(批量處理)實時處理,流數(shù)據(jù),批量數(shù)據(jù)2/1/20234數(shù)據(jù)存儲技術(shù)數(shù)據(jù)處理技術(shù)數(shù)據(jù)存儲通信統(tǒng)計分析機器學(xué)習(xí)Hadoop起源DougCutting
LuceneHadoop這個名字不是一個縮寫,而是一個虛構(gòu)的名字,是Doug的孩子給一個棕黃色的大象玩具的命名GoogleLab的三篇論文GFS,MapReduce,BigTable——HDFS,MapReduce,HBase商業(yè)公司Cloudera,MapR,Hortonworks開發(fā)語言Java2/1/20235Hadoop2/1/20236Hadoop2/1/20237HadoopHadoop框架中最核心設(shè)計是HDFS和MapReduce。HDFS,即為分布式文件系統(tǒng),提供了對大規(guī)模數(shù)據(jù)的存儲;MapReduce則提供了對數(shù)據(jù)的分布式計算。2/1/202382/1/20239MahoutMahout是Apache旗下的一個開源項目,是一個很強大的數(shù)據(jù)挖掘工具及分布式機器學(xué)習(xí)算法的集合,提供一些可擴展的機器學(xué)習(xí)領(lǐng)域經(jīng)典算法的實現(xiàn),旨在幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應(yīng)用程序。Mahout包含的算法實現(xiàn)主要有:推薦(Recommendation),聚類(Clustering),分類(Classification),頻繁子項挖掘等。Mahout用MapReduce實現(xiàn)了部分數(shù)據(jù)挖掘算法,解決了并行挖掘的問題。這里說的“解決”是一個初步的概念,很多算法由于各種原因是無法用map-reduce并行實現(xiàn)的。2/1/202310SparkBerkeleyDataAnalyticsStack(BDAS)BDAS是UCBerkeleyAMPLab開源的通用并行計算框架開發(fā)語言ScalaScala是一種函數(shù)式面向?qū)ο笳Z言,它融匯了許多前所未有的特性,而同時又運行于JVM之上。Scala運行于Java平臺(Java虛擬機),并兼容現(xiàn)有的Java程序。它也能運行于JavaME,CLDC(JavaPlatform,MicroEditionConnectedLimitedDeviceConfiguration)上。還有另一.NET平臺的實現(xiàn),不過該版本更新有些滯后。商業(yè)公司Databricks2/1/202311Spark2/1/202312MLBaseMLBase是Spark生態(tài)圈的一部分,專注于機器學(xué)習(xí),包含三個組件:MLlib、MLI、MLOptimizer。MLlib是Spark的分布式機器學(xué)習(xí)庫。MLI提供特征提取和算法開發(fā)的API,引入更高層次的機器學(xué)習(xí)編程抽象。MLOptimizer致力于實現(xiàn)機器學(xué)習(xí)流水線建立任務(wù)的自動化。優(yōu)化器解決了對包含在MLI和MLlib中的特征提取和機器學(xué)習(xí)算法的搜索問題。目前,MLOptimizer正在積極的開發(fā)過程中。2/1/202313SparkRSparkR是AMPLab發(fā)布的一個R開發(fā)包,為ApacheSpark提供了輕量的前端。SparkR提供了Spark中彈性分布式數(shù)據(jù)集(RDD)的API,用戶可以在集群上通過Rshell交互性的運行job。SparkR應(yīng)該被看作是R版Spark的輕量級前端,這意味著它不會擁有像Scala或Java那樣廣泛的API,但它還是能夠在R里運行Spark任務(wù)和操作數(shù)據(jù)。除了常見的RDD函數(shù)式算子reduce、reduceByKey、groupByKey和collect之外,SparkR也支持利用lapplyWithPartition對每個RDD的分區(qū)進行操作。AMPLab團隊已經(jīng)表現(xiàn)出了今后在SparkR中集成Spark
MLlib機器學(xué)習(xí)類庫的濃厚興趣,這樣一來,算法可以無縫地并行運行而無需特別手動設(shè)定哪一部分的算法可以并行運行2/1/202314Storm起源Storm是Twitter開源的一個的實時數(shù)據(jù)處理框架,它原來是由BackType開發(fā),后BackType被Twitter收購,將Storm作為Twitter的實時數(shù)據(jù)分析系統(tǒng)。開發(fā)語言Clojure。Clojure是Lisp語言的一種現(xiàn)代方言。類似于Lisp,Clojure支持一種功能性編程風(fēng)格,但Clojure還引入了一些特性來簡化多線程編程(一種對創(chuàng)建Storm很有用的特性)。Clojure是一種基于虛擬機(VM)的語言,在Java虛擬機上運行。2/1/202315StormDAG計算模型Tuple:數(shù)據(jù)處理單元,一個Tuple由多個Field組成Stream:持續(xù)的Tuple流Spout:從外部獲取數(shù)據(jù),輸出原始TupleBolt:接收Spout/Bolt輸出的Tuple,處理,輸出新Tuple2/1/202316一個普通的Storm拓撲結(jié)構(gòu)的概念性架構(gòu)MapReduce功能的簡單Storm拓撲結(jié)構(gòu)GraphLab起源GraphLab是一個基于圖像處理模型的開源圖計算框架,由卡內(nèi)基梅隆大學(xué)的Select實驗室在2010年提出的。2015年1月8日GraphLab籌得1850萬美金,并改名為Dato,以顯示在大數(shù)據(jù)時代,該計算框架不僅可以建立圖表模型,還能夠分析和處理數(shù)據(jù)。GraphLab提供了一個完整的平臺,讓機構(gòu)能使用可擴展的機器學(xué)習(xí)系統(tǒng)進行大數(shù)據(jù)分析,該平臺客戶包括Zillow、Adobe、Zynga、Pandora等,它們從其它應(yīng)用程序中抓取數(shù)據(jù),通過推薦系統(tǒng)、情感及社交網(wǎng)絡(luò)分析系統(tǒng)等將大數(shù)據(jù)理念轉(zhuǎn)換為可以使用的預(yù)測應(yīng)用程序。開發(fā)語言C++2/1/202317GraphLab2/1/202318Petuum起源卡內(nèi)基梅隆大學(xué)ICML2014程序主席邢波開發(fā)語言C++2/1/202319PetuumEricXing指出,一方面,很多機器學(xué)習(xí)學(xué)者由于本身訓(xùn)練局限或者習(xí)慣思維的緣故,對系統(tǒng)知識通常并不了解,他們看到一百臺機器跟一臺機器的差別只不過乘了一百,中間的代價或者機器的失效幾率他們可以都不太考慮,所以他們的算法主要是針對數(shù)學(xué)上的正確性或者是迭代算法迭代次數(shù)的減少性,但是他們不會鉆研算法到底在一個真實的機器群上怎么運作。另一方面,系統(tǒng)工程師對機器學(xué)習(xí)或者統(tǒng)計學(xué)習(xí)原理、技術(shù)并不見得非常精通,他們所需要實現(xiàn)的目標(biāo)是盡可能實現(xiàn)極高的迭代輸出,修正由于機器造成的一些損耗,所以他們會發(fā)展一些非??煽俊⒎浅8咄ǖ募夹g(shù),而忽視了機器學(xué)習(xí)的特點。2/1/202320Petuum這里用容錯性對機器學(xué)習(xí)程序與普通程序的區(qū)別做一個比較。我們對一組數(shù)進行排序,這個過程是不能容錯的,必須精密到按步驟進行實現(xiàn),一步都不能錯。這是傳統(tǒng)計算機程序的普遍特點。機器學(xué)習(xí)不是精密實現(xiàn)設(shè)定好的計劃,而是通常實現(xiàn)一個數(shù)學(xué)優(yōu)化問題。這如同爬山,可以從這條路爬,也可以從那條路爬,所以有一種容錯性,有容錯性就給了新的機會。走錯了以后也不一定要走回去重走。2/1/202321Petuum設(shè)計可以有兩種極端,一端是同步協(xié)議,Hadoop和Spark都是這樣做的,這在數(shù)學(xué)上可證明是對的,但也會造成效率的損失。另一端是完全不同步,這對程序的收斂性和正確性沒有任何保障。在這兩端往往可以做一個權(quán)衡。Petuum采取中間路線,使用一種半同步的技術(shù),讓機器在有限的窗口里做局部運算,用參數(shù)值的局部版本做運算,不與其他節(jié)點通信。當(dāng)這個窗口被突破的時候,就必須停下來等待同步。每一個線程到達窗口邊界的時間是隨機的,所以最后結(jié)果是所有線程都可以在最大程度上使用窗口做運算。2/1/202322Petuum對數(shù)據(jù)和模型的并行計算進行區(qū)別對待對于系統(tǒng)工程師,數(shù)據(jù)和模型并沒有什么區(qū)別,它都是在內(nèi)存中的一些數(shù)字而已當(dāng)數(shù)據(jù)被并行時,它們之間是不相關(guān)的,所以不需要在它們之間進行協(xié)調(diào);而當(dāng)模型被并行的時候,中間結(jié)果實際是相關(guān)的,所以不在過程中進行協(xié)調(diào),最后結(jié)果就會出錯。這種情況下我們會發(fā)現(xiàn),對數(shù)據(jù)和模型的并行需要做不同的通訊和系統(tǒng)設(shè)計。2/1/202323PDMiner中國科學(xué)院計算技術(shù)研究所開發(fā)了基于Hadoop的并行分布式數(shù)據(jù)挖掘平臺PDMiner,這是一個集成各種并行算法的數(shù)據(jù)挖掘工具平臺,包括數(shù)據(jù)預(yù)處理(ETL)、數(shù)據(jù)挖掘算法、結(jié)果展示等功能。并行ETL算法達到了線性加速比;可實現(xiàn)TB級海量數(shù)據(jù)的預(yù)處理及之后的并行挖掘分析處理,且挖掘算法隨節(jié)點數(shù)線性增加,加速比隨之增加。其中的并行計算模式不僅包括算法之間的并行,而且包括算法內(nèi)部的并行。該系統(tǒng)具有運行穩(wěn)定,容錯能力強,擴展性好等特點。目前已用于中國移動通信企業(yè)TB級實際數(shù)據(jù)的挖掘2/1/202324小結(jié)Hadoop Apache Yahoo!MahoutRHdoopSpar
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 電力企業(yè)設(shè)備維護與故障排查流程
- 三年級下冊英語詞匯專項訓(xùn)練題匯編
- 2025年主題酒店行業(yè)當(dāng)前市場規(guī)模及未來五到十年發(fā)展趨勢報告
- 2025年冰雪產(chǎn)業(yè)行業(yè)當(dāng)前市場規(guī)模及未來五到十年發(fā)展趨勢報告
- 2025年二維碼行業(yè)當(dāng)前競爭格局與未來發(fā)展趨勢分析報告
- 2025年戶外廣告行業(yè)當(dāng)前發(fā)展現(xiàn)狀及增長策略研究報告
- 2025年重點城市物聯(lián)網(wǎng)行業(yè)當(dāng)前發(fā)展趨勢與投資機遇洞察報告
- 2025年預(yù)拌商品混凝土行業(yè)當(dāng)前發(fā)展趨勢與投資機遇洞察報告
- 2025年血壓監(jiān)測器行業(yè)當(dāng)前發(fā)展現(xiàn)狀及增長策略研究報告
- 跨境支付鏈在2025年對中小企業(yè)跨境電商支付成本的影響報告
- 2025年3到6歲幼兒發(fā)展指南考試試題及答案
- 翻越您的浪浪山新學(xué)期開學(xué)第一課+課件
- 宏圖煤礦防突設(shè)計2025.9.8
- 貴州航空產(chǎn)業(yè)城集團股份有限公司,貴州安立航空材料有限公司招聘筆試題庫2025
- 2024年西藏貢覺縣衛(wèi)生系統(tǒng)招聘考試(護理學(xué)專業(yè)知識)題含答案
- 奇瑞購銷協(xié)議書范本
- 社區(qū)模擬試題和答案
- 第四屆全國會計知識大賽模擬題庫及答案
- 中西醫(yī)結(jié)合腫瘤醫(yī)院員工手冊
- GB∕T 12703.2-2021 紡織品 靜電性能試驗方法 第2部分:手動摩擦法
- 某某食堂改造施工組織設(shè)計
評論
0/150
提交評論