《大數(shù)據(jù)應(yīng)用部署與調(diào)優(yōu)》電子教學(xué)課件_第1頁
《大數(shù)據(jù)應(yīng)用部署與調(diào)優(yōu)》電子教學(xué)課件_第2頁
《大數(shù)據(jù)應(yīng)用部署與調(diào)優(yōu)》電子教學(xué)課件_第3頁
《大數(shù)據(jù)應(yīng)用部署與調(diào)優(yōu)》電子教學(xué)課件_第4頁
《大數(shù)據(jù)應(yīng)用部署與調(diào)優(yōu)》電子教學(xué)課件_第5頁
已閱讀5頁,還剩432頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)應(yīng)用部署與調(diào)優(yōu)第一章大數(shù)據(jù)導(dǎo)論1.1大數(shù)據(jù)的概念1.2大數(shù)據(jù)的特征1.3大數(shù)據(jù)關(guān)鍵技術(shù)1.4大數(shù)據(jù)應(yīng)用場景習(xí)題1.1大數(shù)據(jù)的概念第一章大數(shù)據(jù)導(dǎo)論1.1.1大數(shù)據(jù)來源互聯(lián)網(wǎng)時(shí)代,大數(shù)據(jù)的來源除了專業(yè)機(jī)構(gòu)產(chǎn)生的數(shù)據(jù),如CERN(歐洲核子研究組織)離子對(duì)撞機(jī)每秒產(chǎn)生高達(dá)40TB的數(shù)據(jù),我們每個(gè)人也都是數(shù)據(jù)產(chǎn)生者,同時(shí)也是使用者。人類自從發(fā)明文字開始,就記錄著各種數(shù)據(jù),早起數(shù)據(jù)保存的介質(zhì)一般是紙張,而且難以分析、加工。隨著計(jì)算機(jī)與存儲(chǔ)技術(shù)的發(fā)展,以及萬物互聯(lián)的過程,數(shù)據(jù)爆發(fā)的趨勢(shì)勢(shì)不可擋。1、互聯(lián)網(wǎng)大數(shù)據(jù)。2、傳統(tǒng)行業(yè)大數(shù)據(jù)。3、音頻、視頻數(shù)據(jù)。4、移動(dòng)設(shè)備的實(shí)時(shí)記錄與跟蹤。1.1大數(shù)據(jù)的概念第一章大數(shù)據(jù)導(dǎo)論互聯(lián)網(wǎng)大數(shù)據(jù):每一分鐘,全世界會(huì)上傳超過5億張圖片,每分鐘就有20小時(shí)時(shí)長的視頻被分享。一分鐘內(nèi),微博、Twitter上新發(fā)的數(shù)據(jù)量超過10萬條。1.1.2大數(shù)據(jù)的分類1.1大數(shù)據(jù)的概念第一章大數(shù)據(jù)導(dǎo)論金融行業(yè)產(chǎn)生的數(shù)據(jù)集中在銀行資本的運(yùn)作、股票、證券、期貨、貨幣等市場。傳統(tǒng)行業(yè)通常指一些固定的企業(yè),如電信、銀行、金融、醫(yī)藥、教育、電力等行業(yè)。銀行業(yè)產(chǎn)生的數(shù)據(jù)集中在用戶存款交易、風(fēng)險(xiǎn)貸款抵押、利率市場投放、業(yè)務(wù)管理等。教育行業(yè)產(chǎn)生的數(shù)據(jù)分兩類:一類是常規(guī)的結(jié)構(gòu)化數(shù)據(jù),如成績、學(xué)籍、就業(yè)率、出勤記錄等;另一類是非結(jié)構(gòu)化數(shù)據(jù),如圖片、視頻、教案、教學(xué)軟件、學(xué)習(xí)游戲等。電網(wǎng)業(yè)務(wù)數(shù)據(jù)大致可分為生產(chǎn)數(shù)據(jù)(如發(fā)電量、電壓穩(wěn)定性等數(shù)據(jù))、運(yùn)營數(shù)據(jù)(如交易電價(jià)、售電量、用電客戶等數(shù)據(jù))和管理數(shù)據(jù)(如ERP、一體化平臺(tái)、協(xié)同辦公等數(shù)據(jù))。1.1.2大數(shù)據(jù)的分類1.1大數(shù)據(jù)的概念第一章大數(shù)據(jù)導(dǎo)論音頻、視頻數(shù)據(jù)是隱藏著大數(shù)據(jù)的核心。這些數(shù)據(jù)結(jié)構(gòu)松散,數(shù)量巨大,但很難從中挖掘有意義的結(jié)論和有用的信息。是我們最容易忽略的數(shù)據(jù)來源,而這些恰恰才是真正大數(shù)據(jù)的來源,分析、挖掘這些資訊可能引發(fā)更大的資源與信息。1.1.2大數(shù)據(jù)的分類1.1大數(shù)據(jù)的概念第一章大數(shù)據(jù)導(dǎo)論實(shí)時(shí)跟蹤器運(yùn)用在航天飛機(jī)、氣象監(jiān)測(cè)、汽車等領(lǐng)域?,F(xiàn)在移動(dòng)可穿戴設(shè)備的廣泛應(yīng)用,企業(yè)可以從這些數(shù)據(jù)中提取非常有用的數(shù)據(jù)從而獲得價(jià)值。1.1.2大數(shù)據(jù)的分類1.1大數(shù)據(jù)的概念第一章大數(shù)據(jù)導(dǎo)論1.1.2大數(shù)據(jù)的分類根據(jù)數(shù)據(jù)類型,按特定方向分析大數(shù)據(jù)的特征會(huì)給我們帶來一定的幫助。我們站在不同的角度對(duì)大數(shù)據(jù)進(jìn)行分類,大體分為以下幾種劃分形態(tài)。1、按數(shù)據(jù)來源劃分。2、按數(shù)據(jù)形式劃分。1.1大數(shù)據(jù)的概念第一章大數(shù)據(jù)導(dǎo)論傳統(tǒng)企業(yè)數(shù)據(jù)機(jī)器和傳感器數(shù)據(jù)社交數(shù)據(jù)傳統(tǒng)企業(yè)數(shù)據(jù)(TraditionalEnterpriseData):包括MIS系統(tǒng)的數(shù)據(jù)、傳統(tǒng)的ERP數(shù)據(jù)、庫存數(shù)據(jù)以及財(cái)務(wù)賬目數(shù)據(jù)等。機(jī)器和傳感器數(shù)據(jù)(Machine-generated/sensorData):包括呼叫記錄(CallDetailRecords)、智能儀表、工業(yè)設(shè)備傳感器、設(shè)備日志、交易數(shù)據(jù)等。

社交數(shù)據(jù)(SocialData):包括用戶行為記錄、反饋數(shù)據(jù)等,如微信,QQ,Twitter、Facebook這樣的社交媒體平臺(tái)。1.1.2大數(shù)據(jù)的分類1.1大數(shù)據(jù)的概念第一章大數(shù)據(jù)導(dǎo)論結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)由二維表結(jié)構(gòu)來邏輯表達(dá)和實(shí)現(xiàn)的數(shù)據(jù),嚴(yán)格地遵循數(shù)據(jù)格式與長度規(guī)范,主要通過關(guān)系型數(shù)據(jù)庫進(jìn)行存儲(chǔ)和管理能夠用數(shù)據(jù)或統(tǒng)一的結(jié)構(gòu)加以表示。半結(jié)構(gòu)化數(shù)據(jù)它并不符合關(guān)系型數(shù)據(jù)庫或其他數(shù)據(jù)表的形式關(guān)聯(lián)起來的數(shù)據(jù)模型結(jié)構(gòu),但包含相關(guān)標(biāo)記,用來分隔語義元素以及對(duì)記錄和字段進(jìn)行分層。JSON格式的數(shù)據(jù)就屬于半結(jié)構(gòu)化數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù),與結(jié)構(gòu)化數(shù)據(jù)相對(duì)的,是不適合以二維表結(jié)構(gòu)來表現(xiàn)的數(shù)據(jù),包括各種格式的辦公文檔、XML、HTML、各類報(bào)表、圖片和咅頻、視頻信息等。1.1.2大數(shù)據(jù)的分類第一章大數(shù)據(jù)導(dǎo)論1.1大數(shù)據(jù)的概念1.2大數(shù)據(jù)的特征1.3大數(shù)據(jù)關(guān)鍵技術(shù)1.4大數(shù)據(jù)應(yīng)用場景習(xí)題1.2大數(shù)據(jù)的特征第一章大數(shù)據(jù)導(dǎo)論4V特征數(shù)量大(Volume)從2013年至2020年,人類的數(shù)據(jù)規(guī)模將擴(kuò)大50倍,且每年18個(gè)月翻一番。多樣性(Variety)數(shù)據(jù)類型繁多,隨著傳感器、智能設(shè)備以及社交協(xié)作技術(shù)的飛速發(fā)展,數(shù)據(jù)也變的更加復(fù)雜。速度快(Velocity)在數(shù)據(jù)處理速度方面,有一個(gè)著名的“1秒定律”,即要在秒級(jí)時(shí)間范圍內(nèi)給出分析結(jié)果,超出這個(gè)時(shí)間,數(shù)據(jù)就失去價(jià)值。

價(jià)值高(Value)追求高質(zhì)量的數(shù)據(jù)。大數(shù)據(jù)時(shí)代數(shù)據(jù)的價(jià)值就像大浪淘金。第一章大數(shù)據(jù)導(dǎo)論1.1大數(shù)據(jù)的概念1.2大數(shù)據(jù)的特征1.3大數(shù)據(jù)關(guān)鍵技術(shù)1.4大數(shù)據(jù)應(yīng)用場景習(xí)題1.3大數(shù)據(jù)關(guān)鍵技術(shù)第一章大數(shù)據(jù)導(dǎo)論1.3.1大數(shù)據(jù)存儲(chǔ)技術(shù)010203第一種是采用MPP架構(gòu)的新型數(shù)據(jù)庫集群,重點(diǎn)面向行業(yè)大數(shù)據(jù),采用SharedNothing架構(gòu),通過列存儲(chǔ)、粗粒度索引等多項(xiàng)大數(shù)據(jù)處理技術(shù),再結(jié)合MPP架構(gòu)高效的分布式計(jì)算模式,完成對(duì)分析類應(yīng)用的支撐。第二種是基于Hadoop的技術(shù)擴(kuò)展和封裝,圍繞Hadoop衍生出相關(guān)的大數(shù)據(jù)技術(shù),應(yīng)對(duì)傳統(tǒng)關(guān)系型數(shù)據(jù)庫較難處理的數(shù)據(jù)和場景,例如針對(duì)非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)和計(jì)算等,充分利用Hadoop開源的優(yōu)勢(shì),伴隨相關(guān)技術(shù)的不斷進(jìn)步,其應(yīng)用場景也將逐步擴(kuò)大,目前典型的應(yīng)用場景就是通過擴(kuò)展和封裝Hadoop來實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)大數(shù)據(jù)存儲(chǔ)、分析的支撐。

第三種是大數(shù)據(jù)一體機(jī),這是一種專為大數(shù)據(jù)的分析處理而設(shè)計(jì)的軟、硬件結(jié)合的產(chǎn)品,由一組集成的服務(wù)器、存儲(chǔ)設(shè)備、操作系統(tǒng)、數(shù)據(jù)庫管理系統(tǒng)以及為數(shù)據(jù)查詢、處理、分析用途而特別預(yù)先安裝及優(yōu)化的軟件組成,高性能大數(shù)據(jù)一體機(jī)具有良好的穩(wěn)定性和縱向擴(kuò)展性。1.3大數(shù)據(jù)關(guān)鍵技術(shù)第一章大數(shù)據(jù)導(dǎo)論1.3.2并行計(jì)算技術(shù)所謂并行計(jì)算(ParallelComputing)是指同時(shí)使用多種計(jì)算資源解決計(jì)算問題的過程,是提高計(jì)算機(jī)系統(tǒng)計(jì)算速度和處理能力的一種有效手段。其基本思想是采用多個(gè)處理器來協(xié)同解決問題,即將被求解的問題分解成若干個(gè)部分,各部分均由一個(gè)獨(dú)立的處理機(jī)來并行計(jì)算。1.3大數(shù)據(jù)關(guān)鍵技術(shù)第一章大數(shù)據(jù)導(dǎo)論1.3.3數(shù)據(jù)分析技術(shù)由于大數(shù)據(jù)復(fù)雜多變的特殊屬性,目前還沒有公認(rèn)的大數(shù)據(jù)分析方法體系,不同的學(xué)者對(duì)大數(shù)據(jù)分析方法的看法各異。總結(jié)起來,包括3種方法體系,如下:面向數(shù)據(jù)視角的大數(shù)據(jù)分析方法。面向流程視角的大數(shù)據(jù)分析方法。面向信息技術(shù)視角的大數(shù)據(jù)分析方法。1.3大數(shù)據(jù)關(guān)鍵技術(shù)第一章大數(shù)據(jù)導(dǎo)論1.3.4數(shù)據(jù)可視化技術(shù)數(shù)據(jù)可視化主要旨在借助于圖形化手段,清晰有效地傳達(dá)與溝通信息。數(shù)據(jù)可視化技術(shù)包含以下幾個(gè)基本概念。數(shù)據(jù)空間數(shù)據(jù)可視化數(shù)據(jù)分析數(shù)據(jù)開發(fā)是由n維屬性和m個(gè)元素組成的數(shù)據(jù)集所構(gòu)成的多維信息空間。是指利用一定的算法和工具對(duì)數(shù)據(jù)進(jìn)行定量的推演和計(jì)算。

指對(duì)多維數(shù)據(jù)進(jìn)行切片、塊、旋轉(zhuǎn)等動(dòng)作剖析數(shù)據(jù),從而能多角度多側(cè)面觀察數(shù)據(jù)。是指將大型數(shù)據(jù)集中的數(shù)據(jù)以圖形圖像形式表示,并利用數(shù)據(jù)分析和開發(fā)工具發(fā)現(xiàn)其中未知信息的處理過程。1.3大數(shù)據(jù)關(guān)鍵技術(shù)第一章大數(shù)據(jù)導(dǎo)論1.3.5數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。第一章大數(shù)據(jù)導(dǎo)論1.1大數(shù)據(jù)的概念1.2大數(shù)據(jù)的特征1.3大數(shù)據(jù)關(guān)鍵技術(shù)習(xí)題1.4大數(shù)據(jù)應(yīng)用場景1.4大數(shù)據(jù)應(yīng)用場景第一章大數(shù)據(jù)導(dǎo)論電商行業(yè)大數(shù)據(jù)應(yīng)用工業(yè)大數(shù)據(jù)應(yīng)用金融行業(yè)大數(shù)據(jù)應(yīng)用醫(yī)療行業(yè)大數(shù)據(jù)應(yīng)用教育行業(yè)大數(shù)據(jù)應(yīng)用農(nóng)業(yè)大數(shù)據(jù)應(yīng)用環(huán)境大數(shù)據(jù)應(yīng)用智慧城市大數(shù)據(jù)應(yīng)用第一章大數(shù)據(jù)導(dǎo)論1.1大數(shù)據(jù)的概念1.2大數(shù)據(jù)的特征1.3大數(shù)據(jù)關(guān)鍵技術(shù)習(xí)題1.4大數(shù)據(jù)應(yīng)用場景1.什么是大數(shù)據(jù)?2.大數(shù)據(jù)的主要特征有哪些?3.大數(shù)據(jù)有哪些來源4.?dāng)?shù)據(jù)按其形式劃分有哪幾種?習(xí)題:第二章基礎(chǔ)云架構(gòu)2.1云計(jì)算簡介2.2云計(jì)算與大數(shù)據(jù)的關(guān)系2.3私有云平臺(tái)OpenStack2.4公有云平臺(tái)阿里云習(xí)題2.1云計(jì)算簡介第二章基礎(chǔ)云架構(gòu)云計(jì)算是一種商業(yè)計(jì)算模型。它將計(jì)算任務(wù)分布在大量計(jì)算機(jī)構(gòu)成的資源池上,使各種應(yīng)用系統(tǒng)能夠根據(jù)需要獲取計(jì)算力、存儲(chǔ)空間和信息服務(wù)。短定義是:“云計(jì)算是通過網(wǎng)絡(luò)按需提供可動(dòng)態(tài)伸縮的廉價(jià)計(jì)算服務(wù)”。2.1.1云計(jì)算的概念2.1云計(jì)算簡介第二章基礎(chǔ)云架構(gòu)云計(jì)算按照服務(wù)類型大致可以分為三類:基礎(chǔ)設(shè)施即服務(wù)(IaaS)、平臺(tái)即服務(wù)(PaaS)和軟件即服務(wù)(SaaS)。2.1.1云計(jì)算的概念2.1云計(jì)算簡介第二章基礎(chǔ)云架構(gòu)由于云計(jì)算是多種技術(shù)混合演進(jìn)的結(jié)果,其成熟度較高,又有大公司推動(dòng),發(fā)展極為迅速,谷歌、亞馬遜、微軟和阿里等大公司是云計(jì)算的先行者。2.1.2云計(jì)算發(fā)展現(xiàn)狀2.1云計(jì)算簡介第二章基礎(chǔ)云架構(gòu)虛擬化機(jī)制,它通過對(duì)物理資源抽象、映射和展現(xiàn),將實(shí)際物理資源隱藏在其后,為上層系統(tǒng)提供統(tǒng)一的設(shè)備使用形式。2.1.3云計(jì)算實(shí)現(xiàn)機(jī)制01海量數(shù)據(jù)分布式存儲(chǔ)管理機(jī)制,云計(jì)算系統(tǒng)由大量服務(wù)器組成,同時(shí)為大量用戶服務(wù),為保證高可用、高可靠和經(jīng)濟(jì)性,云計(jì)算采用分布式存儲(chǔ)的方式來存儲(chǔ)數(shù)據(jù)。020304分布式計(jì)算機(jī)制,所謂分布式計(jì)算就是把一個(gè)需要非常巨大的計(jì)算能力才能解決的問題分成許多小的部分,交給許多相互獨(dú)立的計(jì)算機(jī)協(xié)同處理,實(shí)現(xiàn)云計(jì)算。最后是Web2.0界面交互機(jī)制,web2.0也是目前互聯(lián)網(wǎng)的熱門詞匯之一,它相對(duì)于傳統(tǒng)Web1.0,基于XML、A2JAX等技術(shù),更注重用戶的交互作用。2.1云計(jì)算簡介第二章基礎(chǔ)云架構(gòu)2.1.4云計(jì)算部署模型私有云(PrivateCloud)是為一個(gè)客戶單獨(dú)使用而構(gòu)建的,因而提供對(duì)數(shù)據(jù)、安全性和服務(wù)質(zhì)量的最有效控制。私有云擁有基礎(chǔ)設(shè)施,并可以控制在此基礎(chǔ)設(shè)施上部署應(yīng)用程序的方式。即可以部署在企業(yè)數(shù)據(jù)中心的防火墻內(nèi),也可以將它們部署在一個(gè)安全的物理服務(wù)器托管場景,私有云的核心屬性是專有資源。私有云服務(wù)提供了計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)的資源服務(wù),包括硬件虛擬化、集中管理、彈性資源調(diào)度等。2.1云計(jì)算簡介第二章基礎(chǔ)云架構(gòu)2.1.4云計(jì)算部署模型公有云(PublicCloud)通常指第三方提供商為用戶提供的能夠使用的云,一般可通過Internet訪問使用。公有云有許多實(shí)例,可在整個(gè)開放的公有網(wǎng)絡(luò)中提供服務(wù),其最大意義是能夠以低廉的價(jià)格,提供有吸引力的服務(wù)給最終用戶,創(chuàng)造新的業(yè)務(wù)價(jià)值。作為一個(gè)支撐平臺(tái),能夠整合上游的服務(wù)(如增值業(yè)務(wù),廣告)提供者和下游最終用戶,打造新的價(jià)值鏈和生態(tài)系統(tǒng)。2.1云計(jì)算簡介第二章基礎(chǔ)云架構(gòu)2.1.4云計(jì)算部署模型混合云(HybridCloud)是公有云和私有云兩種服務(wù)方式的結(jié)合體。由于安全原因,并非企業(yè)都能在公有云上部署服務(wù),大部分都是將應(yīng)用部署在混合云模式上?;旌显茷閺椥孕枨筇峁┝艘粋€(gè)很好的基礎(chǔ),比如災(zāi)難恢復(fù)。即私有云把公有云作為災(zāi)難轉(zhuǎn)移的平臺(tái),并在需要的時(shí)候去使用它?;旌显频睦砟钍?,使用公有云作為一個(gè)選擇性的平臺(tái),同時(shí)選擇其他的公有云作為災(zāi)難轉(zhuǎn)移平臺(tái),以達(dá)到數(shù)據(jù)安全的保護(hù)。第二章基礎(chǔ)云架構(gòu)2.1云計(jì)算簡介2.2云計(jì)算與大數(shù)據(jù)的關(guān)系2.3私有云平臺(tái)OpenStack2.4公有云平臺(tái)阿里云習(xí)題2.2云計(jì)算與大數(shù)據(jù)的關(guān)系第二章基礎(chǔ)云架構(gòu)2.2.1云計(jì)算與大數(shù)據(jù)的關(guān)系

云計(jì)算是技術(shù)發(fā)展的趨勢(shì),技術(shù)的發(fā)展帶動(dòng)了電子信息社會(huì)的快速發(fā)展。這就導(dǎo)致了大數(shù)據(jù)現(xiàn)象的出現(xiàn),而大數(shù)據(jù)的快速增長是電子信息社會(huì)發(fā)展可能面臨的問題。云計(jì)算與大數(shù)據(jù)可以結(jié)合在一起,大數(shù)據(jù)需要使用到云中巨大的計(jì)算和存儲(chǔ)資源。因此,云計(jì)算通過為大數(shù)據(jù)應(yīng)用提供計(jì)算能力,刺激和加速云計(jì)算的發(fā)展,云計(jì)算與大數(shù)據(jù)相輔相成。云計(jì)算中的分布式存儲(chǔ)技術(shù)有助于管理大數(shù)據(jù)。2.2云計(jì)算與大數(shù)據(jù)的關(guān)系第二章基礎(chǔ)云架構(gòu)節(jié)省時(shí)間和大量金錢提高效率和靈活性安全和隱患購買和管理一個(gè)大到足以進(jìn)行有效的大數(shù)據(jù)分析的數(shù)據(jù)中心可能非常昂貴,更不用說與維護(hù)相關(guān)的無數(shù)技術(shù)難題了本地服務(wù)器的安裝和執(zhí)行可能需要幾周的時(shí)間,然后考慮一下存儲(chǔ)和數(shù)據(jù)管理技術(shù)的迅速過時(shí),這些技術(shù)需要不斷更新,從而導(dǎo)致其他低效率。在大數(shù)據(jù)的收集和分析方面,安全和隱私是最微妙和棘手的問題。更強(qiáng)大的云計(jì)算服務(wù)提供商每天都在解決這些問題,對(duì)個(gè)別公司給予無與倫比的關(guān)注。2.2.2云計(jì)算與大數(shù)據(jù)相結(jié)合的優(yōu)勢(shì)第二章基礎(chǔ)云架構(gòu)2.1云計(jì)算簡介2.3私有云平臺(tái)OpenStack2.2云計(jì)算與大數(shù)據(jù)的關(guān)系2.4公有云平臺(tái)阿里云習(xí)題2.3私有云OpenStack第二章基礎(chǔ)云架構(gòu)2.3.1

OpenStack背景介紹OpenStack既是一個(gè)社區(qū),也是一個(gè)項(xiàng)目和一個(gè)開源軟件,提供了一個(gè)部署云的操作平臺(tái)或工具集。用OpenStack易于構(gòu)建虛擬計(jì)算或存儲(chǔ)服務(wù)的云,既可以為公有云、私有云,也可以為大云、小云提供可擴(kuò)展、靈活的云計(jì)算。2.3私有云OpenStack第二章基礎(chǔ)云架構(gòu)OpenStack的主要服務(wù)計(jì)算服務(wù)Nova網(wǎng)絡(luò)管理服務(wù)Neutron身份認(rèn)證服務(wù)Keystone存儲(chǔ)管理服務(wù)Cinder對(duì)象存儲(chǔ)存儲(chǔ)Swift鏡像服務(wù)Glance儀表盤Horizon第二章基礎(chǔ)云架構(gòu)2.1云計(jì)算簡介2.2云計(jì)算與大數(shù)據(jù)的關(guān)系2.4公有云平臺(tái)阿里云習(xí)題2.3私有云平臺(tái)OpenStack2.4公有云平臺(tái)阿里云第二章基礎(chǔ)云架構(gòu)2.4.1阿里云簡介阿里云在全球18個(gè)地域開放了42個(gè)可用區(qū),為全球數(shù)十億用戶提供可靠的云計(jì)算支持。2017年1月阿里云成為奧運(yùn)會(huì)全球指定云服務(wù)商,同年8月阿里巴巴財(cái)報(bào)數(shù)據(jù)顯示,阿里云付費(fèi)用戶超過100萬。阿里云為全球客戶部署200多個(gè)飛天數(shù)據(jù)中心,通過底層統(tǒng)一的飛天操作系統(tǒng),為客戶提供全球獨(dú)有的混合云體驗(yàn)。其中,飛天(Apsara)是誕生于2009年2月,由阿里云自主研發(fā)、服務(wù)全球的超大規(guī)模通用計(jì)算操作系統(tǒng),目前為全球200多個(gè)國家和地區(qū)的創(chuàng)新創(chuàng)業(yè)企業(yè)、政府、機(jī)構(gòu)等提供服務(wù)。它可以將遍布全球的百萬級(jí)服務(wù)器連成一臺(tái)超級(jí)計(jì)算機(jī),以在線公共服務(wù)的方式為社會(huì)提供計(jì)算能力,從PC互聯(lián)網(wǎng)到移動(dòng)互聯(lián)網(wǎng)到萬物互聯(lián)網(wǎng),成為世界新的基礎(chǔ)設(shè)施。2.4公有云平臺(tái)阿里云第二章基礎(chǔ)云架構(gòu)阿里云的核心系統(tǒng)是底層的大規(guī)模分布式計(jì)算系統(tǒng)(飛天)、分布式文件系統(tǒng)以及資源管理和任務(wù)調(diào)度。2.4.1阿里云簡介2.4公有云平臺(tái)阿里云第二章基礎(chǔ)云架構(gòu)彈性計(jì)算服務(wù)ECS開放式數(shù)據(jù)處理服務(wù)ODPS開式結(jié)構(gòu)化數(shù)據(jù)服務(wù)OTS對(duì)象存儲(chǔ)服務(wù)OOS關(guān)系型數(shù)據(jù)庫RDS2.4.1阿里云簡介2.4公有云平臺(tái)阿里云第二章基礎(chǔ)云架構(gòu)2.4.2計(jì)算服務(wù)ECS云服務(wù)器ECS(ElasticComputeService)是阿里云提供的性能卓越、穩(wěn)定可靠、彈性擴(kuò)展的IaaS(InfrastructureasaService)級(jí)別云計(jì)算服務(wù)。云服務(wù)器ECS免去了客戶采購IT硬件的前期準(zhǔn)備,讓客戶像使用水、電、天然氣等公共資源一樣便捷、高效地使用服務(wù)器,實(shí)現(xiàn)計(jì)算資源的即開即用和彈性伸縮。實(shí)例鏡像塊存儲(chǔ)快照安全ECS主要組件:2.4公有云平臺(tái)阿里云第二章基礎(chǔ)云架構(gòu)2.4.3存儲(chǔ)服務(wù)阿里云提供針對(duì)各種存儲(chǔ)資源(塊、文件和對(duì)象)的低成本、高可靠、高可用的存儲(chǔ)服務(wù),涵蓋數(shù)據(jù)備份、歸檔、容災(zāi)等場景。本文介紹阿里云各類存儲(chǔ)服務(wù)及特性的適用場景、性能、安全、接口和費(fèi)用模型等,幫助您選擇最適合您業(yè)務(wù)場景和需求的云存儲(chǔ)服務(wù)。2.4公有云平臺(tái)阿里云第二章基礎(chǔ)云架構(gòu)對(duì)象存儲(chǔ)OOS塊存儲(chǔ)文件存儲(chǔ)NAS文件存儲(chǔ)CPFS表格存儲(chǔ)云存儲(chǔ)網(wǎng)關(guān)文件存儲(chǔ)HDFS2.4.3存儲(chǔ)服務(wù)2.4公有云平臺(tái)阿里云第二章基礎(chǔ)云架構(gòu)142563存儲(chǔ)類型(StorageClass)存儲(chǔ)空間(Bucket)對(duì)象(Object)訪問密鑰(Accesskey)訪問域名(Endpoint)地域(Region)2.4.3存儲(chǔ)服務(wù)2.4公有云平臺(tái)阿里云第二章基礎(chǔ)云架構(gòu)2.4.4網(wǎng)絡(luò)服務(wù)VPC專有網(wǎng)絡(luò)VPC全稱VirtualPrivateCloud,是用戶基于阿里云創(chuàng)建的自定義私有網(wǎng)絡(luò),不同的專有網(wǎng)絡(luò)之間二層邏輯隔離,用戶可以在自己創(chuàng)建的專有網(wǎng)絡(luò)內(nèi)創(chuàng)建和管理云產(chǎn)品實(shí)例。每個(gè)VPC都由一個(gè)路由器、至少一個(gè)私網(wǎng)網(wǎng)段和至少一個(gè)交換機(jī)組成,如下圖所示。第二章基礎(chǔ)云架構(gòu)2.1云計(jì)算簡介2.2云計(jì)算與大數(shù)據(jù)的關(guān)系2.3私有云平臺(tái)OpenStack習(xí)題2.3公有云平臺(tái)阿里云1.云計(jì)算有哪些特點(diǎn)?2.云計(jì)算技術(shù)體系結(jié)構(gòu)可以分為哪幾層?3.云計(jì)算按照部署模型可以分為哪幾類?4.OpenStack是什么?5.OpenStack有哪些核心服務(wù)?各服務(wù)的功能是什么?6.簡單列舉目前市場主流的公有云平臺(tái)。7.概述阿里云的體系結(jié)構(gòu)及核心服務(wù)。習(xí)題:第三章大數(shù)據(jù)業(yè)務(wù)流程3.1數(shù)據(jù)采集3.2數(shù)據(jù)預(yù)處理ETL3.3大數(shù)據(jù)存儲(chǔ)3.5大數(shù)據(jù)應(yīng)用場景3.4大數(shù)據(jù)處理習(xí)題3.1數(shù)據(jù)采集第三章大數(shù)據(jù)業(yè)務(wù)流程3.1.1數(shù)據(jù)采集的概念數(shù)據(jù)采集(DAQ)又稱數(shù)據(jù)獲取,是大數(shù)據(jù)生命周期中的第一個(gè)環(huán)節(jié),通過RFID射頻數(shù)據(jù)、傳感器數(shù)據(jù)、社交網(wǎng)絡(luò)數(shù)據(jù)、移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)等方式獲得各種類型的結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化的海量數(shù)據(jù)。3.1

數(shù)據(jù)采集第三章大數(shù)據(jù)業(yè)務(wù)流程3.1.1數(shù)據(jù)采集研究的分類智能感知層智能感知層包括數(shù)據(jù)傳感體系、網(wǎng)絡(luò)通信體系、傳感適配體系、智能識(shí)別體系及軟硬件資源接入系統(tǒng),實(shí)現(xiàn)對(duì)結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的海量數(shù)據(jù)的智能化識(shí)別、定位、跟蹤、接入、傳輸、信號(hào)轉(zhuǎn)換、監(jiān)控、初步處理和管理等?;A(chǔ)支撐層基礎(chǔ)支撐層提供大數(shù)據(jù)服務(wù)平臺(tái)所需的虛擬服務(wù)器,結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)庫及物聯(lián)網(wǎng)絡(luò)資源等基礎(chǔ)支撐環(huán)境。3.1

數(shù)據(jù)采集第三章大數(shù)據(jù)業(yè)務(wù)流程3.1.1“全而細(xì)”的采集準(zhǔn)則“全”是指各類數(shù)據(jù)都要采集到?!凹?xì)”則是說在采集階段要盡可能的采集到每一個(gè)數(shù)據(jù)。3.1

數(shù)據(jù)采集第三章大數(shù)據(jù)業(yè)務(wù)流程3.1.2數(shù)據(jù)采集的工具3.1

數(shù)據(jù)采集第三章大數(shù)據(jù)業(yè)務(wù)流程Event在Flume中表示數(shù)據(jù)傳輸?shù)囊粋€(gè)最小單位。參照右圖可以看得出Agent就是Flume的一個(gè)部署實(shí)例,一個(gè)完整的Agent中包含了三個(gè)組件Source、Channel和Sink,Source是指數(shù)據(jù)的來源和方式,Channel是一個(gè)數(shù)據(jù)的緩沖池,Sink定義了數(shù)據(jù)輸出的方式和目的地。3.1.2數(shù)據(jù)采集的工具3.1

數(shù)據(jù)采集第三章大數(shù)據(jù)業(yè)務(wù)流程3.1.2數(shù)據(jù)采集的工具3.1

數(shù)據(jù)采集第三章大數(shù)據(jù)業(yè)務(wù)流程1、Source接收事件,交給其Channel處理器處理事件。2、處理器通過攔截器Interceptor,對(duì)事件一些處理,比如壓縮解碼,正則攔截,時(shí)間戳攔截,分類等。3、經(jīng)過攔截器處理過的事件再傳給Channel選擇器,將事件寫入相應(yīng)的Channel。4、最后由Sink處理器處理各個(gè)Channel的事件。3.1.2數(shù)據(jù)采集的工具3.1

數(shù)據(jù)采集第三章大數(shù)據(jù)業(yè)務(wù)流程高穩(wěn)定性:通過O(1)的磁盤數(shù)據(jù)結(jié)構(gòu)提供消息的持久化。高吞吐量:即便是非常普通的硬件Kafka也可以支持每秒鐘數(shù)百萬的消息。支持通過Kafka服務(wù)器和消費(fèi)機(jī)集群對(duì)消息進(jìn)行劃分。支持Hadoop并行數(shù)據(jù)加載。3.1.2數(shù)據(jù)采集的工具3.1

數(shù)據(jù)采集第三章大數(shù)據(jù)業(yè)務(wù)流程3.1.2數(shù)據(jù)采集的工具3.1

數(shù)據(jù)采集第三章大數(shù)據(jù)業(yè)務(wù)流程Producer:Producer的任務(wù)是向Broker發(fā)送數(shù)據(jù)。Broker:Broker采取許多不同的策略提高數(shù)據(jù)處理的效率。Consumer:Consumer可以將日志信息加載到中央存儲(chǔ)系統(tǒng)中。3.1.2數(shù)據(jù)采集的工具3.1

數(shù)據(jù)采集第三章大數(shù)據(jù)業(yè)務(wù)流程生產(chǎn)者定期向主題發(fā)送消息消費(fèi)者會(huì)定期請(qǐng)求Kafka需要新的消息添加標(biāo)題消費(fèi)者訂閱特定主題隊(duì)列消息/用戶組的工作流3.1.2數(shù)據(jù)采集的工具3.1

數(shù)據(jù)采集第三章大數(shù)據(jù)業(yè)務(wù)流程3.1.3數(shù)據(jù)采集的方法系統(tǒng)日志采集方法網(wǎng)絡(luò)數(shù)據(jù)采集方法數(shù)據(jù)庫采集3.1

數(shù)據(jù)采集第三章大數(shù)據(jù)業(yè)務(wù)流程“網(wǎng)絡(luò)數(shù)據(jù)采集”是利用互聯(lián)網(wǎng)搜索引擎技術(shù)對(duì)數(shù)據(jù)進(jìn)行針對(duì)性、行業(yè)性、精準(zhǔn)性的抓取,并按照一定規(guī)則和篩選標(biāo)準(zhǔn)將數(shù)據(jù)進(jìn)行歸類,形成數(shù)據(jù)庫文件的一個(gè)過程。3.1.3數(shù)據(jù)采集的方法3.1

數(shù)據(jù)采集第三章大數(shù)據(jù)業(yè)務(wù)流程企業(yè)會(huì)使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫MySQL和Oracle等來存儲(chǔ)數(shù)據(jù)。這些數(shù)據(jù)庫中存儲(chǔ)的海量數(shù)據(jù),相對(duì)來說結(jié)構(gòu)化更強(qiáng),也是大數(shù)據(jù)的主要來源之一。3.1.3數(shù)據(jù)采集的方法3.1

數(shù)據(jù)采集第三章大數(shù)據(jù)業(yè)務(wù)流程采集方法支持異構(gòu)數(shù)據(jù)庫之間的實(shí)時(shí)數(shù)據(jù)同步和復(fù)制,基于的理論是對(duì)各種數(shù)據(jù)庫的Log日志文件進(jìn)行分析,然后進(jìn)行復(fù)制。3.1.3數(shù)據(jù)采集的方法第三章大數(shù)據(jù)業(yè)務(wù)流程3.1數(shù)據(jù)采集3.2數(shù)據(jù)預(yù)處理ETL3.3大數(shù)據(jù)存儲(chǔ)3.5大數(shù)據(jù)應(yīng)用場景3.4大數(shù)據(jù)處理習(xí)題3.2

數(shù)據(jù)預(yù)處理ETL第三章大數(shù)據(jù)業(yè)務(wù)流程3.2.1數(shù)據(jù)清洗數(shù)據(jù)清洗是發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識(shí)別的錯(cuò)誤的最后一道程序,包括對(duì)數(shù)據(jù)一致性的檢查、無效值和缺失值得處理。3.2

數(shù)據(jù)預(yù)處理ETL第三章大數(shù)據(jù)業(yè)務(wù)流程3.2.1數(shù)據(jù)清洗2.錯(cuò)誤數(shù)據(jù)這一類錯(cuò)誤產(chǎn)生的原因往往是業(yè)務(wù)系統(tǒng)不夠健全,在接收輸入信息后沒有進(jìn)行判斷直接將數(shù)據(jù)寫入后臺(tái)數(shù)據(jù)庫導(dǎo)致的。1.殘缺數(shù)據(jù)這一類數(shù)據(jù)主要是因?yàn)椴糠中畔⑷笔?,如公司的名稱、客戶的區(qū)域信息等數(shù)據(jù)。3.重復(fù)數(shù)據(jù)這一類數(shù)據(jù)多出現(xiàn)在維護(hù)表中,是將重復(fù)數(shù)據(jù)記錄的所有字段導(dǎo)出來,讓客戶確認(rèn)并整理。3.2

數(shù)據(jù)預(yù)處理ETL第三章大數(shù)據(jù)業(yè)務(wù)流程3.2.1數(shù)據(jù)清洗01缺失的值必須要用手工來進(jìn)行清理。當(dāng)然,某些缺失值可以從它本身數(shù)據(jù)源或其他數(shù)據(jù)源中推導(dǎo)出來,可以用平均值、最大值或更為復(fù)雜的概率估計(jì)代替缺失的值,從而達(dá)到清理的目的。02用統(tǒng)計(jì)分析的方法識(shí)別錯(cuò)誤值或異常值,如數(shù)據(jù)偏差、識(shí)別不遵守分布的值,也可以用簡單規(guī)則庫檢查數(shù)據(jù)值,或使用不同屬性間的約束來檢測(cè)和清理數(shù)據(jù)。03數(shù)據(jù)庫中屬性值相同的情況被認(rèn)定為是重復(fù)記錄。通過判斷記錄間的屬性值是否相同來檢測(cè)記錄是否相等,相等的記錄合并為一條記錄。填充缺失值修改錯(cuò)誤值消除重復(fù)記錄3.2

數(shù)據(jù)預(yù)處理ETL第三章大數(shù)據(jù)業(yè)務(wù)流程3.2.2數(shù)據(jù)集成概念將不同應(yīng)用系統(tǒng)、不同數(shù)據(jù)形式,在原應(yīng)用系統(tǒng)不做任何改變的條件下,進(jìn)行數(shù)據(jù)采集、轉(zhuǎn)換好儲(chǔ)存的數(shù)據(jù)整合過程。目的解決多重?cái)?shù)據(jù)儲(chǔ)存或合并時(shí)所產(chǎn)生的數(shù)據(jù)不一致、數(shù)據(jù)重復(fù)或冗余的問題,以提高后續(xù)數(shù)據(jù)分析的精確度和速度。3.2

數(shù)據(jù)預(yù)處理ETL第三章大數(shù)據(jù)業(yè)務(wù)流程異構(gòu)性集成的數(shù)據(jù)模型異構(gòu),其主要表現(xiàn)在數(shù)據(jù)語義及數(shù)據(jù)源的使用環(huán)境等。分布性數(shù)據(jù)源是異地分布的,依賴網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)的傳輸,網(wǎng)絡(luò)在傳輸過程中對(duì)網(wǎng)絡(luò)質(zhì)量和安全性是個(gè)挑戰(zhàn)。自治性數(shù)據(jù)源可以在不通知集成系統(tǒng)的前提下改變自身的結(jié)構(gòu)和數(shù)據(jù)。3.2.2數(shù)據(jù)集成3.2

數(shù)據(jù)預(yù)處理ETL第三章大數(shù)據(jù)業(yè)務(wù)流程3.2.3數(shù)據(jù)轉(zhuǎn)換概念數(shù)據(jù)轉(zhuǎn)換(DataTransfer)時(shí)采用線性或非線性的數(shù)學(xué)變換方法將多維數(shù)據(jù)壓縮成較少維的數(shù)據(jù),消除它們?cè)跁r(shí)間、空間、屬性及精度等特征表現(xiàn)方面的差異。實(shí)際上就是將數(shù)據(jù)從一種表示形式變?yōu)榱硪环N表現(xiàn)形式的過程。

原因因?yàn)槊恳粋€(gè)軟件對(duì)與之對(duì)應(yīng)的數(shù)據(jù)庫的架構(gòu)與數(shù)據(jù)的存儲(chǔ)形式是不一樣的,因此就需要數(shù)據(jù)轉(zhuǎn)換。由于數(shù)據(jù)量在不斷地增加,原來數(shù)據(jù)構(gòu)架的不合理,不能滿足各方面的要求,問題日漸暴露,也會(huì)產(chǎn)生數(shù)據(jù)轉(zhuǎn)換。3.2

數(shù)據(jù)預(yù)處理ETL第三章大數(shù)據(jù)業(yè)務(wù)流程概念數(shù)據(jù)歸約是指在盡可能保持?jǐn)?shù)據(jù)原貌的前提下,最大限度地精簡數(shù)據(jù)量保持?jǐn)?shù)據(jù)的原始狀態(tài)。3.2.4數(shù)據(jù)規(guī)約3.2

數(shù)據(jù)預(yù)處理ETL第三章大數(shù)據(jù)業(yè)務(wù)流程特征歸約特征歸約是將不重要的或不相關(guān)的特征從原有特征中刪除,或者通過對(duì)特征進(jìn)行重組和比較來減少個(gè)數(shù)。樣本歸約樣本歸約就是從數(shù)據(jù)集中選出一個(gè)有代表性的子集作為樣本。特征值歸約特征值歸約是特征值離散化技術(shù),它將連續(xù)型特征的值離散化,使之成為少量的區(qū)間,每個(gè)區(qū)間映射到一個(gè)離散符號(hào)。3.2.4數(shù)據(jù)規(guī)約3.2

數(shù)據(jù)預(yù)處理ETL第三章大數(shù)據(jù)業(yè)務(wù)流程對(duì)數(shù)據(jù)的描述,特征的挑選,歸約或轉(zhuǎn)換決定了數(shù)據(jù)挖掘方案的質(zhì)量。在實(shí)踐中,特征的數(shù)量可達(dá)到數(shù)百萬計(jì),如果我們?cè)趯?duì)數(shù)據(jù)進(jìn)行分析的時(shí)候,只需要上白條樣本,就需要進(jìn)行維歸約,以挖掘出可靠的模型;另外,高維度引起的數(shù)據(jù)超負(fù),會(huì)使一些數(shù)據(jù)挖掘算法不實(shí)用,唯一的方法也就是進(jìn)行維歸約。在進(jìn)行數(shù)據(jù)挖掘準(zhǔn)備時(shí)進(jìn)行標(biāo)準(zhǔn)數(shù)據(jù)歸約操作,計(jì)算時(shí)間、預(yù)測(cè)/描述精度和數(shù)據(jù)挖掘模型的描述將讓我們清楚地知道這些操作中將得到和失去的信息。3.2.4數(shù)據(jù)規(guī)約3.2

數(shù)據(jù)預(yù)處理ETL第三章大數(shù)據(jù)業(yè)務(wù)流程ETL(Extract-Transform-Load)是一種數(shù)據(jù)倉庫技術(shù),即數(shù)據(jù)抽?。‥xtract)、轉(zhuǎn)換(Transform)、裝載(Load)的過程,它的本質(zhì)是數(shù)據(jù)流動(dòng)的過程,使不同異構(gòu)數(shù)據(jù)源流向統(tǒng)一的目標(biāo)數(shù)據(jù)。ETL負(fù)責(zé)將關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等分布式、異構(gòu)數(shù)據(jù)源的數(shù)據(jù)提取到臨時(shí)中間層后進(jìn)行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集中,成為在線分析處理和數(shù)據(jù)挖掘的基礎(chǔ),是構(gòu)建數(shù)據(jù)倉庫的重要環(huán)節(jié)。3.2.5常用ETL工具3.2

數(shù)據(jù)預(yù)處理ETL第三章大數(shù)據(jù)業(yè)務(wù)流程3.2.5常用ETL工具3.2

數(shù)據(jù)預(yù)處理ETL第三章大數(shù)據(jù)業(yè)務(wù)流程(1)可以分擔(dān)數(shù)據(jù)庫系統(tǒng)的負(fù)載。(2)相對(duì)于ELT架構(gòu)可以實(shí)現(xiàn)更為復(fù)雜的數(shù)據(jù)轉(zhuǎn)化邏輯。(3)采用單獨(dú)的硬件服務(wù)器。(4)與底層的數(shù)據(jù)庫數(shù)據(jù)存儲(chǔ)無關(guān)。3.2.5常用ETL工具3.2

數(shù)據(jù)預(yù)處理ETL第三章大數(shù)據(jù)業(yè)務(wù)流程3.2.5常用ETL工具3.2

數(shù)據(jù)預(yù)處理ETL第三章大數(shù)據(jù)業(yè)務(wù)流程B

Talend可同步數(shù)據(jù)倉庫的數(shù)據(jù)到數(shù)據(jù)庫中,并且提供基于EclipseRCP的圖形操作界面。C

Scriptella是一個(gè)開源并采用Java開發(fā)的ETL(抽取-轉(zhuǎn)換-加載)工具和一個(gè)腳本執(zhí)行工具。Scriptella可以在單個(gè)的ETL文件中與多個(gè)數(shù)據(jù)源運(yùn)行。AKettle是一款國外開源的ETL工具,純Java編寫,并且無須安裝,數(shù)據(jù)抽取高效穩(wěn)定。3.2.5常用ETL工具第三章大數(shù)據(jù)業(yè)務(wù)流程3.1數(shù)據(jù)采集3.2數(shù)據(jù)預(yù)處理ETL3.3大數(shù)據(jù)存儲(chǔ)3.5大數(shù)據(jù)應(yīng)用場景3.4大數(shù)據(jù)處理習(xí)題3.3

大數(shù)據(jù)存儲(chǔ)第三章大數(shù)據(jù)業(yè)務(wù)流程面對(duì)大數(shù)據(jù)的爆炸式增長,且具有大數(shù)據(jù)量、異構(gòu)型、高時(shí)效性的需求時(shí),數(shù)據(jù)的存儲(chǔ)不僅僅有存儲(chǔ)容量的壓力,還給系統(tǒng)的存儲(chǔ)性能、數(shù)據(jù)管理乃至大數(shù)據(jù)的應(yīng)用方面帶來了挑戰(zhàn)。為了應(yīng)對(duì)大數(shù)據(jù)對(duì)存儲(chǔ)系統(tǒng)的挑戰(zhàn),數(shù)據(jù)存儲(chǔ)系統(tǒng)能力的提升主要有以下3個(gè)方面:1提升系統(tǒng)存儲(chǔ)容量2提升系統(tǒng)的吞吐量3系統(tǒng)的容錯(cuò)性3.3.1大數(shù)據(jù)存儲(chǔ)困境3.3

大數(shù)據(jù)存儲(chǔ)第三章大數(shù)據(jù)業(yè)務(wù)流程DASNASsAN設(shè)備直連的模式DAS直連式存儲(chǔ)通過高速的網(wǎng)絡(luò)交換機(jī)連接存儲(chǔ)設(shè)備和服務(wù)器主機(jī)NAS網(wǎng)絡(luò)接入存儲(chǔ)提供格式統(tǒng)一的、數(shù)據(jù)塊級(jí)訪問能力的一種專用局域網(wǎng)絡(luò)SAN存儲(chǔ)區(qū)域網(wǎng)絡(luò)云通過分布式集群及服務(wù)器虛擬化等技術(shù)將海量設(shè)備構(gòu)建成共享存儲(chǔ)資源池,并提供服務(wù)云存儲(chǔ)3.3.1大數(shù)據(jù)存儲(chǔ)困境3.3

大數(shù)據(jù)存儲(chǔ)第三章大數(shù)據(jù)業(yè)務(wù)流程將一些基礎(chǔ)的數(shù)據(jù)操作功能(如檢索、更新等)在單獨(dú)的專用硬件上實(shí)現(xiàn),而將通用計(jì)算資源和I/O通道釋放出來用于其他復(fù)雜處理,從而實(shí)現(xiàn)高效的數(shù)據(jù)訪問。逐步實(shí)現(xiàn)了用于支持大規(guī)模高速數(shù)據(jù)庫訪問的專用計(jì)算機(jī)和硬件系統(tǒng),即數(shù)據(jù)庫機(jī)(DatabaseMachine)。3.3.1大數(shù)據(jù)存儲(chǔ)困境3.3

大數(shù)據(jù)存儲(chǔ)第三章大數(shù)據(jù)業(yè)務(wù)流程基于集群的數(shù)據(jù)容錯(cuò)在多個(gè)節(jié)點(diǎn)中,對(duì)數(shù)據(jù)進(jìn)冗余儲(chǔ)存,從而確保單單個(gè)節(jié)點(diǎn)故障不會(huì)影響到系統(tǒng)的正常運(yùn)行磁盤雙工技術(shù)采用了兩個(gè)獨(dú)立的磁盤控制器分別控制兩個(gè)磁盤磁盤鏡像和磁盤雙工基于RAID的磁盤容錯(cuò)通過多塊硬盤組成硬盤陣列,并通過分散數(shù)據(jù)存儲(chǔ)的設(shè)計(jì),使數(shù)據(jù)存儲(chǔ)容錯(cuò)性變高。3.3.1大數(shù)據(jù)存儲(chǔ)困境3.3

大數(shù)據(jù)存儲(chǔ)第三章大數(shù)據(jù)業(yè)務(wù)流程將虛擬資源請(qǐng)求均勻地分配到節(jié)點(diǎn)上,然后進(jìn)行節(jié)點(diǎn)內(nèi)部設(shè)備級(jí)別的資源映射存儲(chǔ)資源管理方法將有限數(shù)量的資源按需求動(dòng)態(tài)共享給多個(gè)用戶使用支持多用戶使用和環(huán)境隔離的資源機(jī)制通過HDFS建立在大型集群分布式的文件系統(tǒng)在通過Hive和HBase實(shí)現(xiàn)數(shù)據(jù)的查詢和處理基于Hadoop的大數(shù)據(jù)存儲(chǔ)機(jī)制3.3.1大數(shù)據(jù)存儲(chǔ)困境3.3

大數(shù)據(jù)存儲(chǔ)第三章大數(shù)據(jù)業(yè)務(wù)流程結(jié)構(gòu)化數(shù)據(jù)由二維表結(jié)構(gòu)來邏輯表達(dá)和實(shí)現(xiàn)的數(shù)據(jù),嚴(yán)格地遵循數(shù)據(jù)格式與長度規(guī)范,主要通過關(guān)系型數(shù)據(jù)庫進(jìn)行存儲(chǔ)和管理。非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,沒有預(yù)定義的數(shù)據(jù)模型,不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù)。半結(jié)構(gòu)化數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù)的一種形式,雖不符合關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)模型結(jié)構(gòu),但具有一定的結(jié)構(gòu)性,相比結(jié)構(gòu)化數(shù)據(jù)相比更靈活。3.3.2大數(shù)據(jù)存儲(chǔ)中的數(shù)據(jù)結(jié)構(gòu)3.3

大數(shù)據(jù)存儲(chǔ)第三章大數(shù)據(jù)業(yè)務(wù)流程結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)主鍵/ID課程/NAME類型/TYPE1Oracle關(guān)系型數(shù)據(jù)庫2Hadoop分布式架構(gòu)3Java編程語言3.3.2大數(shù)據(jù)存儲(chǔ)中的數(shù)據(jù)結(jié)構(gòu)分布式系統(tǒng)是用多臺(tái)計(jì)算機(jī)來解決單個(gè)計(jì)算機(jī)無法解決的計(jì)算、存儲(chǔ)等問題。分布式系統(tǒng)是獨(dú)立計(jì)算機(jī)的集合,這些計(jì)算機(jī)對(duì)用戶來說就像一個(gè)單獨(dú)的相關(guān)系統(tǒng)。3.3

大數(shù)據(jù)存儲(chǔ)第三章大數(shù)據(jù)業(yè)務(wù)流程3.3.3分布式系統(tǒng)3.3

大數(shù)據(jù)存儲(chǔ)第三章大數(shù)據(jù)業(yè)務(wù)流程分布式系統(tǒng)中常見的數(shù)據(jù)分布方式有以下四種方式。0102030404一致性哈希通過哈希函數(shù)來計(jì)算數(shù)據(jù)或數(shù)據(jù)特征的哈希值,使它的輸出值成為封閉的環(huán)。03按數(shù)據(jù)量分布根據(jù)按數(shù)據(jù)量分布數(shù)據(jù)。02按數(shù)據(jù)范圍分布根據(jù)特征值的范圍將數(shù)據(jù)劃分為不同的區(qū)間,使集群中的每個(gè)服務(wù)器(組)可以在不同的區(qū)間處理數(shù)據(jù)。01哈希方式根據(jù)數(shù)據(jù)的某個(gè)特征計(jì)算出哈希值并與集群中的服務(wù)器建立映射關(guān)系,從而將數(shù)據(jù)分布到不同的機(jī)器中。3.3.3分布式系統(tǒng)3.3

大數(shù)據(jù)存儲(chǔ)第三章大數(shù)據(jù)業(yè)務(wù)流程某個(gè)一致性哈希函數(shù)值域?yàn)椋?,10),系統(tǒng)有3個(gè)節(jié)點(diǎn)A、B、C,這3個(gè)節(jié)點(diǎn)處于的一致性哈希的位置分別為1、4、9,則節(jié)點(diǎn)A負(fù)責(zé)的值域范圍為[1,4),節(jié)點(diǎn)B負(fù)責(zé)的范圍為[4,9),節(jié)點(diǎn)C負(fù)責(zé)的范圍為[9,10)和[0,1)。若某數(shù)據(jù)的哈希值為3,則該數(shù)據(jù)應(yīng)由節(jié)點(diǎn)A負(fù)責(zé)處理。假設(shè)需要在左圖中增加一個(gè)新節(jié)點(diǎn)D,為D分配的哈希位置為3,則首先將節(jié)點(diǎn)A中[3,4)的數(shù)據(jù)從節(jié)點(diǎn)A復(fù)制到節(jié)點(diǎn)D,然后加入節(jié)點(diǎn)D即可。3.3.3分布式系統(tǒng)3.3

大數(shù)據(jù)存儲(chǔ)第三章大數(shù)據(jù)業(yè)務(wù)流程3.3.3分布式系統(tǒng)3.3

大數(shù)據(jù)存儲(chǔ)第三章大數(shù)據(jù)業(yè)務(wù)流程鍵值存儲(chǔ)臨時(shí)性永久性兩者兼具01面向文檔的數(shù)據(jù)庫不定義表結(jié)構(gòu)可以使用復(fù)雜的查詢條件02面向列的數(shù)據(jù)庫善于讀取列中的數(shù)據(jù)高擴(kuò)展性033.3.4NoSQL數(shù)據(jù)庫3.3

大數(shù)據(jù)存儲(chǔ)第三章大數(shù)據(jù)業(yè)務(wù)流程MongoDB是一個(gè)介于關(guān)系數(shù)據(jù)庫和非關(guān)系數(shù)據(jù)庫之間的產(chǎn)品,是非關(guān)系數(shù)據(jù)庫當(dāng)中功能最豐富,最像關(guān)系數(shù)據(jù)庫的。它支持的數(shù)據(jù)結(jié)構(gòu)非常松散,是類似json的bson格式,因此可以存儲(chǔ)比較復(fù)雜的數(shù)據(jù)類型。MongoDB所謂的“面向集合”(Collection-Oriented)存儲(chǔ),意思是數(shù)據(jù)被分組存儲(chǔ)在數(shù)據(jù)集中。每個(gè)集合在數(shù)據(jù)庫中都有一個(gè)唯一的標(biāo)識(shí)名,并且可以包含無限數(shù)目的文檔。集合的概念類似關(guān)系型數(shù)據(jù)庫(RDBMS)里的表(table),不同的是它不需要定義任何模式(schema)。集合中的文檔被存儲(chǔ)為鍵-值對(duì)的形式。鍵用于唯一標(biāo)識(shí),而值則可以是各種復(fù)雜的文件類型。我們稱這種存儲(chǔ)形式為BSON。3.3.4NoSQL數(shù)據(jù)庫3.3

大數(shù)據(jù)存儲(chǔ)第三章大數(shù)據(jù)業(yè)務(wù)流程事務(wù)支持高可用高性能靈活模型可擴(kuò)展索引支持支持單文檔事務(wù)JSON格式存儲(chǔ)最接近真實(shí)對(duì)象模型高可用復(fù)制集滿足數(shù)據(jù)高可靠、服務(wù)高可用的需求,運(yùn)維簡單,故障自動(dòng)切換可擴(kuò)展分片集群,海量數(shù)據(jù)存儲(chǔ),服務(wù)能力水平擴(kuò)展mmapv1、wiredtiger、mongorocks(rocksdb)、in-memory等多引擎支持滿足各種場景需求地理位置索引可用于構(gòu)建各種O2O應(yīng)用、文本索引解決搜索的需求、TTL索引解決歷史數(shù)據(jù)自動(dòng)過期的需求文件存儲(chǔ)數(shù)據(jù)分析Gridfs解決文件存儲(chǔ)的需求mapreduce解決數(shù)據(jù)分析場景需求,用戶可以自己寫查詢語句或腳本,將請(qǐng)求都分發(fā)到MongoDB上完成3.3.4NoSQL數(shù)據(jù)庫3.3

大數(shù)據(jù)存儲(chǔ)第三章大數(shù)據(jù)業(yè)務(wù)流程HBase是HadoopDatabase的簡稱。HBase是分布式、面向列的開源數(shù)據(jù)庫(其實(shí)準(zhǔn)確的說是面向列族)。HDFS為HBase提供可靠的底層數(shù)據(jù)存儲(chǔ)服務(wù)。MapReduce為HBase提供高性能的計(jì)算能力。Zookeeper為HBase提供穩(wěn)定服務(wù)和Failover機(jī)制。因此HBase是一個(gè)通過大量廉價(jià)的機(jī)器解決海量數(shù)據(jù)的高速存儲(chǔ)和讀取的分布式數(shù)據(jù)庫解決方案。3.3.4NoSQL數(shù)據(jù)庫3.3

大數(shù)據(jù)存儲(chǔ)第三章大數(shù)據(jù)業(yè)務(wù)流程命名空間是對(duì)表的邏輯分組,不同的命名空間類似于數(shù)據(jù)庫中的不同的Database數(shù)據(jù)庫。行由一個(gè)RowKey和多個(gè)列族組成,一個(gè)行有一個(gè)RowKey,用來唯一標(biāo)示。每一行由若干列族組成,每個(gè)列族下可包含多個(gè)列。列族是列共性的一些體現(xiàn)。物理上,同一列族的數(shù)據(jù)存儲(chǔ)在一起的。行由一個(gè)RowKey和多個(gè)列族組成,一個(gè)行有一個(gè)RowKey,用來唯一標(biāo)示。列由列族和列限定符唯一指定,像如上的name、age即是ImployeeBasicInfoCLF列族的列限定符。單元格由RowKey、列族、列限定符唯一定位,單元格之中存放一個(gè)值(Value)和一個(gè)版本號(hào)。命名空間行列族表列限定符單元格3.3.4NoSQL數(shù)據(jù)庫3.3

大數(shù)據(jù)存儲(chǔ)第三章大數(shù)據(jù)業(yè)務(wù)流程01海量存儲(chǔ)HBase適合存儲(chǔ)PB級(jí)別的海量數(shù)據(jù),在PB級(jí)別的數(shù)據(jù)場景下,能在幾十到百毫秒內(nèi)返回?cái)?shù)據(jù)。正式因?yàn)镠Base良好的擴(kuò)展性,才為海量數(shù)據(jù)的存儲(chǔ)提供了便利。02HBase是根據(jù)列族來存儲(chǔ)數(shù)據(jù)的。列族下面可以有非常多的列,列族在創(chuàng)建表的時(shí)候就必須指定。03極易擴(kuò)展HBase的擴(kuò)展性主要體現(xiàn)在兩個(gè)方面,一個(gè)是基于上層處理能力(RegionServer)的擴(kuò)展,一個(gè)是基于存儲(chǔ)的擴(kuò)展(HDFS)。04高并發(fā),在并發(fā)的情況下,HBase的單個(gè)IO延遲下降并不多。能獲得高并發(fā)、低延遲的服務(wù)。05稀疏稀疏主要是針對(duì)HBase列的靈活性,在列族中,你可以指定任意多的列,在列數(shù)據(jù)為空的情況下,是不會(huì)占用存儲(chǔ)空間的。列式存儲(chǔ)高并發(fā)3.3.4NoSQL數(shù)據(jù)庫3.3

大數(shù)據(jù)存儲(chǔ)第三章大數(shù)據(jù)業(yè)務(wù)流程什么是云存儲(chǔ)?云存儲(chǔ)是指通過網(wǎng)絡(luò)技術(shù)、分布式文件系統(tǒng)、服務(wù)器虛擬化、集群應(yīng)用等技術(shù)將網(wǎng)絡(luò)中海量的異構(gòu)存儲(chǔ)設(shè)備構(gòu)成可彈性擴(kuò)張、低成本、低能耗的共享存儲(chǔ)資源池,并提供數(shù)據(jù)存儲(chǔ)訪問、處理功能的系統(tǒng)服務(wù)。3.3.5云存儲(chǔ)3.3

大數(shù)據(jù)存儲(chǔ)第三章大數(shù)據(jù)業(yè)務(wù)流程公共云供應(yīng)商可以低成本地提供大量的文件存儲(chǔ),并可以保持每個(gè)客戶的存儲(chǔ)、應(yīng)用都是獨(dú)立私有的。國內(nèi)比較突出的代表有百度云盤、華為網(wǎng)盤、騰訊微云等。內(nèi)部云內(nèi)部云存儲(chǔ)跟私有云存儲(chǔ)比較類似,唯一的不同點(diǎn)在于它在企業(yè)的防火墻內(nèi)部。目前可提供私有云的平臺(tái)主要有Eucalyptus、3ACloud、聯(lián)想網(wǎng)盤等。混合云混合云存儲(chǔ)把公共云、內(nèi)部云或私有云結(jié)合在一起。主要用于按客戶要求的訪問,從公共云上劃出一部分容量配置一種內(nèi)部云或私有云。3.3.5云存儲(chǔ)3.3

大數(shù)據(jù)存儲(chǔ)第三章大數(shù)據(jù)業(yè)務(wù)流程安全性低成本大容量存儲(chǔ)可伸縮性高可靠性高可用性服務(wù)模式對(duì)象存儲(chǔ)文件存儲(chǔ)塊存儲(chǔ)3.3.5云存儲(chǔ)第三章大數(shù)據(jù)業(yè)務(wù)流程3.1數(shù)據(jù)采集3.2數(shù)據(jù)預(yù)處理ETL3.3大數(shù)據(jù)存儲(chǔ)3.5大數(shù)據(jù)應(yīng)用場景3.4大數(shù)據(jù)處理習(xí)題3.4

大數(shù)據(jù)處理第三章大數(shù)據(jù)業(yè)務(wù)流程根據(jù)對(duì)處理數(shù)據(jù)的形式和得到結(jié)果的時(shí)效性分類,數(shù)據(jù)處理框架可分為批處理系統(tǒng)和流處理系統(tǒng)以及混合處理系統(tǒng)三類。流處理系統(tǒng)會(huì)對(duì)隨時(shí)進(jìn)入系統(tǒng)的數(shù)據(jù)進(jìn)行計(jì)算。流處理方式是對(duì)通過系統(tǒng)傳輸?shù)拿總€(gè)數(shù)據(jù)項(xiàng)執(zhí)行操作。批處理框架批處理是一種大規(guī)模數(shù)據(jù)集處理的方法。批處理的過程包括1.劃分任務(wù)為較小的任務(wù)2.在集群中的每臺(tái)設(shè)備上進(jìn)行計(jì)算3.根據(jù)中間結(jié)果計(jì)算并組合出最終結(jié)果。流處理框架框架可以同時(shí)進(jìn)行批處理和流處理。混合處理框架3.4.1大數(shù)據(jù)處理框架3.4

大數(shù)據(jù)處理第三章大數(shù)據(jù)業(yè)務(wù)流程MapReduce是一種分布式計(jì)算模型,主要用于搜索領(lǐng)域,可以用來解決海量數(shù)據(jù)的計(jì)算問題。MapReduce的核心,就是對(duì)一個(gè)需要計(jì)算的任務(wù)進(jìn)行拆分,然后并行處理。MapReduce合并了兩種經(jīng)典函數(shù):映射(Mapping)對(duì)集合里的每個(gè)目標(biāo)應(yīng)用同一個(gè)操作?;啔w約(Reducing)遍歷集合中的元素來返回一個(gè)綜合的結(jié)果。3.4.1大數(shù)據(jù)處理框架3.4

大數(shù)據(jù)處理第三章大數(shù)據(jù)業(yè)務(wù)流程Client向JobTracker提交一個(gè)任務(wù)。JobTracker將任務(wù)分配到一個(gè)或者多個(gè)TaskTracker進(jìn)行處理。不同的TaskTracker上,有的運(yùn)行的是Map階段的任務(wù),有的運(yùn)行是Reduce階段的任務(wù)。對(duì)于map階段,首先對(duì)輸入的內(nèi)容進(jìn)行分割(InputSplit),不同Mapper任務(wù)負(fù)責(zé)各自的分割后的內(nèi)容的映射。對(duì)于Reduce階段,接受多個(gè)Mapper的輸出,進(jìn)行歸一后,得到最終的輸出。3.4.1大數(shù)據(jù)處理框架3.4

大數(shù)據(jù)處理第三章大數(shù)據(jù)業(yè)務(wù)流程MRAppMaster將M分成許多小份(數(shù)據(jù)切片,MapReduce中稱為:FileSplit),然后每一個(gè)數(shù)據(jù)切片指派給一個(gè)MapTask來處理;MapReduce處理完后,將自己所負(fù)責(zé)的數(shù)據(jù)切片的處理結(jié)果傳給ReduceTask;ReduceTask統(tǒng)計(jì)匯總各個(gè)MAPTASK傳過來的結(jié)果,得到最后任務(wù)的結(jié)果。當(dāng)然這是最簡單的描述,實(shí)際上MRAppMaster的任務(wù)分配過程非常復(fù)雜,會(huì)考慮任務(wù)時(shí)間、任務(wù)是否出錯(cuò)、網(wǎng)絡(luò)通訊負(fù)擔(dān)等諸多問題,這里就不作詳述。3.4.1大數(shù)據(jù)處理框架3.4

大數(shù)據(jù)處理第三章大數(shù)據(jù)業(yè)務(wù)流程舉例來說,統(tǒng)計(jì)一個(gè)local.log日志的行數(shù)據(jù)詞頻。文檔數(shù)量規(guī)模很大,有300萬行數(shù)據(jù),英文單詞的總數(shù)可能只有2000(常用的)。于是:使用300臺(tái)PC服務(wù)器運(yùn)行MapTask,100臺(tái)PC服務(wù)器運(yùn)行ReduceTask。每個(gè)MapTask做100萬行的詞頻統(tǒng)計(jì),完成之后將中間結(jié)果分發(fā)給100個(gè)ReduceTask做匯總。3.4.1大數(shù)據(jù)處理框架3.4

大數(shù)據(jù)處理第三章大數(shù)據(jù)業(yè)務(wù)流程HDFS為分布式計(jì)算存儲(chǔ)提供了底層支持。HDFS采用master/slave架構(gòu)。一個(gè)HDFS集群包含一個(gè)單獨(dú)的NameNode和多個(gè)DataNode。Namenode管理文件系統(tǒng)的元數(shù)據(jù),而Datanode存儲(chǔ)了實(shí)際的數(shù)據(jù)。NameNodeNameNode作為master服務(wù),負(fù)責(zé)1.管理文件系統(tǒng)的命名空間和客戶端對(duì)文件的訪問。2.會(huì)保存文件系統(tǒng)的具體信息,包括文件信息、文件被分割成具體block塊的信息等。DataNodeDataNode作為slave服務(wù),在集群中可以存在多個(gè)。1.DataNode負(fù)責(zé)管理節(jié)點(diǎn)上它們擁有的存儲(chǔ)。2.它將存儲(chǔ)劃分為多個(gè)block塊,管理block塊信息。3.周期性的將其所有的block塊信息發(fā)送給NameNode。3.4.2批處理系統(tǒng)1.客戶端帶著讀取路徑向NameNode發(fā)送讀取請(qǐng)求。2.NameNode會(huì)先判斷是否有權(quán)限是否存在等。發(fā)送節(jié)點(diǎn)位置給部分或者全部DataNode。3.客戶端得存儲(chǔ)的位置,去讀取數(shù)據(jù)。4.先去校驗(yàn)數(shù)據(jù)是否正確,不正確則去下一個(gè)存放該block塊的DataNode節(jié)點(diǎn)上讀取。5.讀取完NameNode發(fā)送的所有的block塊調(diào)用close方法,并將讀取文件合并成一個(gè)大文件。3.4

大數(shù)據(jù)處理第三章大數(shù)據(jù)業(yè)務(wù)流程讀流程寫流程1.客戶端會(huì)帶著文件路徑向NameNode發(fā)送寫入請(qǐng)求。2.NameNode會(huì)去判斷是否有權(quán)限是否存在等,發(fā)送寫入的請(qǐng)求返回給客戶端。3.客戶端會(huì)將文件進(jìn)行切分,然后上傳block。4.NameNode根據(jù)DataNode的存儲(chǔ)空間還有機(jī)架感知原理等返回block塊存儲(chǔ)的位置ABC。5.客戶端會(huì)去ABC三個(gè)節(jié)點(diǎn)上建立pipeline,建立完成后將結(jié)果返回客戶端。6.開始往A寫入,寫入完后依次寫入其他block塊,全部完成后將完成的信息返回給NameNode。7.NameNode存儲(chǔ)該文件的各個(gè)block塊的元數(shù)據(jù)信息。3.4.2批處理系統(tǒng)3.4

大數(shù)據(jù)處理第三章大數(shù)據(jù)業(yè)務(wù)流程3.4.2批處理系統(tǒng)3.4

大數(shù)據(jù)處理第三章大數(shù)據(jù)業(yè)務(wù)流程SparkStreaming是Spark核心API的一個(gè)擴(kuò)展,可以實(shí)現(xiàn)高吞吐量的、具備容錯(cuò)機(jī)制的實(shí)時(shí)流數(shù)據(jù)的處理。SparkStreaming支持從多種數(shù)據(jù)源獲取數(shù)據(jù),包括Kafka、Flume、Twitter、ZeroMQ、Kinesis以及TCPSockets。從數(shù)據(jù)源獲取數(shù)據(jù)之后,可以使用諸如map、reduce、join和window等高級(jí)函數(shù)進(jìn)行復(fù)雜算法的處理,最后還可以將處理結(jié)果存儲(chǔ)到文件系統(tǒng)、數(shù)據(jù)庫和現(xiàn)場儀表盤中。3.4.3流處理系統(tǒng)3.4

大數(shù)據(jù)處理第三章大數(shù)據(jù)業(yè)務(wù)流程RDD(ResilientDistributedDataset)叫做彈性分布式數(shù)據(jù)集,是Spark中最基本的數(shù)據(jù)抽象,Spark的所有的操作都是針對(duì)RDD。分區(qū)并行操作不可變RDD上三個(gè)特點(diǎn)3.4.3流處理系統(tǒng)3.4

大數(shù)據(jù)處理第三章大數(shù)據(jù)業(yè)務(wù)流程RDD上的Operation分為轉(zhuǎn)換(transformantion)動(dòng)作(action)。3.4.3流處理系統(tǒng)3.4

大數(shù)據(jù)處理第三章大數(shù)據(jù)業(yè)務(wù)流程SparkStreaming使用離散化流(discretizedstream)作為抽象表示,叫作DStream。DStream是隨時(shí)間推移而收到的數(shù)據(jù)的序列。創(chuàng)建出來的DStream支持兩種操作,一種是轉(zhuǎn)化操作(transformation),會(huì)生成一個(gè)新的DStream,另一種是輸出操作(outputoperation),可以把數(shù)據(jù)寫入外部系統(tǒng)中。3.4.3流處理系統(tǒng)3.4

大數(shù)據(jù)處理第三章大數(shù)據(jù)業(yè)務(wù)流程01020304一個(gè)時(shí)間段。系統(tǒng)支持對(duì)一個(gè)窗口內(nèi)的數(shù)據(jù)進(jìn)行計(jì)算窗口一個(gè)時(shí)間片內(nèi)所包含的流數(shù)據(jù),表示成一個(gè)RDD。批數(shù)據(jù)拆分流數(shù)據(jù)的時(shí)間單元,一般為500毫秒或1秒。批處理時(shí)間間隔內(nèi)部持續(xù)的實(shí)時(shí)數(shù)據(jù)流的抽象描述,即處理的一個(gè)實(shí)時(shí)數(shù)據(jù)流,在SparkStreaming中對(duì)應(yīng)于一個(gè)DStream實(shí)例。離散流3.4.3流處理系統(tǒng)3.4

大數(shù)據(jù)處理第三章大數(shù)據(jù)業(yè)務(wù)流程ApacheFlink是由Apache軟件基金會(huì)開發(fā)的開源流處理框架,其核心是用Java和Scala編寫的分布式流數(shù)據(jù)流引擎。Flink以數(shù)據(jù)并行和流水線方式執(zhí)行任意流數(shù)據(jù)程序,F(xiàn)link的流水線運(yùn)行時(shí)系統(tǒng)可以執(zhí)行批處理和流處理程序。Flink作為一款分布式的計(jì)算引擎,既可以用來做批處理,即處理靜態(tài)的數(shù)據(jù)集、歷史的數(shù)據(jù)集;也可以用來做流處理,即實(shí)時(shí)地處理一些實(shí)時(shí)數(shù)據(jù)流,實(shí)時(shí)地產(chǎn)生數(shù)據(jù)的結(jié)果。3.4.3流處理系統(tǒng)3.4

大數(shù)據(jù)處理第三章大數(shù)據(jù)業(yè)務(wù)流程任務(wù)管理器(TaskManager)執(zhí)行數(shù)據(jù)流的task,task通過設(shè)置并行度,可能會(huì)有多個(gè)subtask。主要負(fù)責(zé)在獨(dú)立的線程執(zhí)行的operator。其中能執(zhí)行多少個(gè)operator取決于每個(gè)taskManager指定的slots數(shù)量。作業(yè)管理器(JobManager)主要負(fù)責(zé)調(diào)度task,協(xié)調(diào)checkpoint已經(jīng)錯(cuò)誤恢復(fù)等。將打包好的任務(wù)提交到JobManager之后,JobManager根據(jù)注冊(cè)的TaskManager資源信息分配并啟動(dòng)運(yùn)行任務(wù)。TaskManger從JobManager獲取task信息,然后使用slot資源運(yùn)行task。3.4.3流處理系統(tǒng)3.4

大數(shù)據(jù)處理第三章大數(shù)據(jù)業(yè)務(wù)流程3.4.3流處理系統(tǒng)3.4

大數(shù)據(jù)處理第三章大數(shù)據(jù)業(yè)務(wù)流程無界流有定義流的開始,但沒有定義流的結(jié)束。它們會(huì)無休止地產(chǎn)生數(shù)據(jù)。無界流的數(shù)據(jù)必須持續(xù)處理,即數(shù)據(jù)被攝取后需要立刻處理。有界流有定義流的開始,也有定義流的結(jié)束。有界流可以在攝取所有數(shù)據(jù)后再進(jìn)行計(jì)算。有界流所有數(shù)據(jù)可以被排序,所以并不需要有序攝取。3.4.3流處理系統(tǒng)3.4

大數(shù)據(jù)處理第三章大數(shù)據(jù)業(yè)務(wù)流程有界流及無界流圖解3.4.3流處理系統(tǒng)3.4

大數(shù)據(jù)處理第三章大數(shù)據(jù)業(yè)務(wù)流程快速、通用、可擴(kuò)展的大數(shù)據(jù)分析引擎?;趦?nèi)存的計(jì)算框架。多種計(jì)算模式、調(diào)度模式。包含多個(gè)子項(xiàng)目的集合。高級(jí)編程語言Scala編寫。支持多語言開發(fā)。3.4.4混合理系統(tǒng)3.4

大數(shù)據(jù)處理第三章大數(shù)據(jù)業(yè)務(wù)流程3.4.4混合理系統(tǒng)3.4

大數(shù)據(jù)處理第三章大數(shù)據(jù)業(yè)務(wù)流程SparkCoreSparkStreamingSparkSQLSparkMLlib集群管理器SparkGraphXSparkCore:實(shí)現(xiàn)了Spark的基本功能,包含任務(wù)調(diào)度、內(nèi)存管理、錯(cuò)誤恢復(fù)、與存儲(chǔ)系統(tǒng)交互等模塊。SparkSQL:是Spark用來操作結(jié)構(gòu)化數(shù)據(jù)的程序包。SparkStreaming:是Spark提供的對(duì)實(shí)時(shí)數(shù)據(jù)進(jìn)行流式計(jì)算的組件。SparkMLlib:提供常見的機(jī)器學(xué)習(xí)功能的程序庫。包括分類、回歸、聚類、協(xié)同過濾等。SparkGraphX:主要用于圖形并行計(jì)算和圖挖掘系統(tǒng)的組件。集群管理器:Spark支持在各種集群管理器(ClusterManager)上運(yùn)行,包括HadoopYARN、ApacheMesos,以及Spark自帶的獨(dú)立調(diào)度器。3.4.4混合理系統(tǒng)3.4

大數(shù)據(jù)處理第三章大數(shù)據(jù)業(yè)務(wù)流程基本的原理是將Stream數(shù)據(jù)分成小的時(shí)間片段(幾秒),以類似batch批量處理的方式來處理這小部分?jǐn)?shù)據(jù)。小批量處理的方式使得它可以同時(shí)兼容批量和實(shí)時(shí)數(shù)據(jù)處理的邏輯和算法。方便了一些需要?dú)v史數(shù)據(jù)和實(shí)時(shí)數(shù)據(jù)聯(lián)合分析的特定應(yīng)用場合。3.4.4混合理系統(tǒng)3.4

大數(shù)據(jù)處理第三章大數(shù)據(jù)業(yè)務(wù)流程高效性:運(yùn)行速度快,基于內(nèi)存計(jì)算易用性:支持多種語言開發(fā),提供多種操作API通用性:

提供了統(tǒng)一的解決方案兼容性:非常方便地與其他的開源產(chǎn)品進(jìn)行融合3.4.4混合理系統(tǒng)3.4

大數(shù)據(jù)處理第三章大數(shù)據(jù)業(yè)務(wù)流程需要注意的是,在當(dāng)前的企業(yè)應(yīng)用中,ApacheSpark應(yīng)該是當(dāng)之無愧的王者。在批處理領(lǐng)域,雖然Spark與MapReduce的市場占有率不相上下,但Spark穩(wěn)定上升,而MapReduce在穩(wěn)定下降。在流處理領(lǐng)域,SparkStreaming和另一個(gè)大的流處理系統(tǒng)ApacheStorm一起占據(jù)了大部分市場,而Flink則潛力巨大,被稱為“下一代數(shù)據(jù)處理框架”。3.4.4混合理系統(tǒng)第三章大數(shù)據(jù)業(yè)務(wù)流程3.1數(shù)據(jù)采集3.2數(shù)據(jù)預(yù)處理ETL3.3大數(shù)據(jù)存儲(chǔ)3.5大數(shù)據(jù)應(yīng)用場景3.4大數(shù)據(jù)處理習(xí)題3.5大數(shù)據(jù)應(yīng)用場景第三章大數(shù)據(jù)業(yè)務(wù)流程電商行業(yè)大數(shù)據(jù)應(yīng)用有兩個(gè)層面,一個(gè)層面是零售行業(yè)可以了解客戶的消費(fèi)喜好和趨勢(shì),進(jìn)行商品的精準(zhǔn)營銷,降低營銷成本。另一個(gè)層面是依據(jù)客戶購買的產(chǎn)品,為客戶提供可能購買的其他產(chǎn)品,擴(kuò)大銷售額,也屬于精準(zhǔn)營銷范疇。電商行業(yè)大數(shù)據(jù)應(yīng)用3.5大數(shù)據(jù)應(yīng)用場景第三章大數(shù)據(jù)業(yè)務(wù)流程醫(yī)療行業(yè)擁有大量的病例、病理報(bào)告、治愈方案、藥物報(bào)告等,通過對(duì)這些數(shù)據(jù)進(jìn)行整理和分析將會(huì)極大地輔助醫(yī)生提出治療方案,幫助病人早日康復(fù)。醫(yī)療行業(yè)大數(shù)據(jù)應(yīng)用3.5大數(shù)據(jù)應(yīng)用場景第三章大數(shù)據(jù)業(yè)務(wù)流程氣象對(duì)社會(huì)的影響涉及方方面面,傳統(tǒng)上依賴氣象的主要是農(nóng)業(yè)、林業(yè)和水運(yùn)等行業(yè)部門,而如今借助于大數(shù)據(jù)技術(shù),天氣預(yù)報(bào)的準(zhǔn)確性和實(shí)效性將會(huì)大大提高,預(yù)報(bào)的及時(shí)性將會(huì)大大提升,同時(shí)對(duì)于重大自然災(zāi)害如龍卷風(fēng),通過大數(shù)據(jù)計(jì)算平臺(tái),人們將會(huì)更加準(zhǔn)確地預(yù)測(cè)自然災(zāi)害的趨勢(shì)。環(huán)境大數(shù)據(jù)應(yīng)用第三章大數(shù)據(jù)業(yè)務(wù)流程3.1數(shù)據(jù)采集3.2數(shù)據(jù)預(yù)處理ETL3.3大數(shù)據(jù)存儲(chǔ)3.5大數(shù)據(jù)應(yīng)用場景3.4大數(shù)據(jù)處理習(xí)題1.?dāng)?shù)據(jù)采集的準(zhǔn)則包括哪兩方面?2.大數(shù)據(jù)存儲(chǔ)目前面臨著哪些挑戰(zhàn)?面對(duì)這些挑戰(zhàn)有什么樣的應(yīng)對(duì)措施?3.大數(shù)據(jù)存儲(chǔ)的方式有哪些?4.分布式系統(tǒng)是什么?在分布式系統(tǒng)中有哪些常見的數(shù)據(jù)分布方式?5.請(qǐng)簡述NoSQL數(shù)據(jù)庫的含義。常見的鍵值存儲(chǔ)、面向文檔的數(shù)據(jù)庫、面向列的數(shù)據(jù)庫的特點(diǎn)分別是什么?6.什么是云存儲(chǔ),云存儲(chǔ)的分類、特點(diǎn)是什么?7.大數(shù)據(jù)處理框架有哪些,主要是按照什么進(jìn)行分類的?習(xí)題:第四章系統(tǒng)安裝部署4.1安裝部署的概念4.2安裝部署分布式系統(tǒng)4.3升級(jí)管理習(xí)題4.1安裝部署的概念第四章系統(tǒng)安裝部署4.1.1軟件安裝概述軟件部署首先要基于一個(gè)操作系統(tǒng)。操作系統(tǒng)則又基于硬件環(huán)境。我們可以通過各種不同的方式獲取這個(gè)操作系統(tǒng),只要操作系統(tǒng)相同,那么最終我們進(jìn)行安裝時(shí)的操作也不會(huì)有什么不同。4.1安裝部署的概念第四章系統(tǒng)安裝部署4.1.1軟件安裝概述1.通過現(xiàn)有的物理機(jī)創(chuàng)建虛擬機(jī)以進(jìn)行軟件系統(tǒng)的部署在使用物理機(jī)創(chuàng)建虛擬機(jī)進(jìn)行軟件部署時(shí),我們要通過虛擬軟件對(duì)系統(tǒng)進(jìn)行虛擬化。windows系統(tǒng)常用VMwareworkstation、Virtualbox等軟件,macOS系統(tǒng)建議使用VMwarefusion軟件。通過這種方式,我們可以簡單快捷的獲得一個(gè)或多個(gè)用于部署軟件的操作系統(tǒng),但是使用虛擬機(jī)的方法獲取集群,實(shí)際上不能發(fā)揮出大數(shù)據(jù)組件的優(yōu)勢(shì),通常在企業(yè)中也不這么使用,僅僅是在練習(xí)的時(shí)候這么使用。4.1安裝部署的概念第四章系統(tǒng)安裝部署4.1.1軟件安裝概述2.通過部署服務(wù)器的方式進(jìn)行軟件部署從物理服務(wù)器上組裝系統(tǒng),然后在系統(tǒng)上部署大數(shù)據(jù)軟件,這是一般企業(yè)采用的方式。通過這種方式,我們可以獲取自己需要數(shù)目的機(jī)器,機(jī)器性能也可以自己指定,而且能夠保證企業(yè)的數(shù)據(jù)安全性,但是會(huì)有機(jī)器價(jià)格昂貴、靈活性差等等一系列問題。4.1安裝部署的概念第四章系統(tǒng)安裝部署4.1.1軟件安裝概述3.通過云服務(wù)的方式進(jìn)行軟件部署通過購買公有云(如阿里云)或私有云(如OpenStack),將大數(shù)據(jù)軟件部署在云上,通過這種方式,我們可以實(shí)現(xiàn)在相對(duì)更低的預(yù)算下獲取更多的收益,但考慮到在云上部署不可避免的要使數(shù)據(jù)進(jìn)入云運(yùn)營商的網(wǎng)絡(luò),因此安全性相比于部署物理服務(wù)器會(huì)差一些。4.1安裝部署的概念第四章系統(tǒng)安裝部署4.1.2大數(shù)據(jù)部署概述現(xiàn)階段,Hadoop的HDFS與YARN是大數(shù)據(jù)組件的基礎(chǔ),在接下來的章節(jié)中詳細(xì)講解Hadoop的搭建。而在Hadoop外的大數(shù)據(jù)計(jì)算中,我們會(huì)經(jīng)常使用到Spark作為分布式計(jì)算框架,因此Spark也是一個(gè)相對(duì)重要的部署重點(diǎn)。4.1安裝部署的概念第四章系統(tǒng)安裝部署4.1.2大數(shù)據(jù)部署概述大數(shù)據(jù)組件的基本內(nèi)容第四章系統(tǒng)安裝部署4.1安裝部署的概念4.2安裝部署分布式系統(tǒng)4.3升級(jí)管理習(xí)題4.2安裝部署分布式系統(tǒng)第四章系統(tǒng)安裝部署4.2.1Hadoop安裝部署1.單節(jié)點(diǎn)部署(1)基礎(chǔ)知識(shí)要學(xué)習(xí)和使用Hadoop,需要熟悉Linux基本命令,比如下載文件、使用vi/vim編輯文件、創(chuàng)建文件和創(chuàng)建目錄等。并且要能夠配置網(wǎng)絡(luò)參數(shù),比如修改主機(jī)名、配置靜態(tài)IP地址、配置DNS和配置本地域名解析等。4.2安裝部署分布式系統(tǒng)第四章系統(tǒng)安裝部署4.2.1Hadoop安裝部署1.單節(jié)點(diǎn)部署(2)軟硬件環(huán)境Hadoop可以運(yùn)行在Windows平臺(tái)和Linux平臺(tái),推薦在64位Linux系統(tǒng)上運(yùn)行。我們使用的Linux

CentOs7.0。一般學(xué)習(xí)和工作使用Windows系統(tǒng),推薦在Windows中使用虛擬機(jī)來運(yùn)行Linux。虛擬機(jī)可以選擇VirutalBox或者VMwareWorkstation。我們使用

Hadoop

2.7.3版本,它是一個(gè)穩(wěn)定的正式版本。Hadoop2.6以及以前的版本只支持JDK6,從Hadoop2.7開始需要JDK7以上版本。推薦使用OpenJDK7。4.2安裝部署分布式系統(tǒng)第四章系統(tǒng)安裝部署4.2.1Hadoop安裝部署1.單節(jié)點(diǎn)部署(3)安裝步驟主要包括以下幾點(diǎn):在虛擬機(jī)中安裝CentOs7。安裝ssh。安裝rsync。安裝openjdk。確認(rèn)jdk版本。下載Hadoop的安裝包。4.2安裝部署分布式系統(tǒng)第四章系統(tǒng)安裝部署4.2.1Hadoop安裝部署1.單節(jié)點(diǎn)部署(3)安裝步驟主要包括以下幾點(diǎn)解壓。在Hadoop的配置文件中增加環(huán)境變量JAVA_HOME。驗(yàn)證配置是否正確。運(yùn)行MapReduce任務(wù)。4.2安裝部署分布式系統(tǒng)第四章系統(tǒng)安裝部署4.2.1Hadoop安裝部署2.集群部署Hadoop

的集群有多種架構(gòu),常見的有:傳統(tǒng)的NameNode加SecondaryNameNode方式、ActiveNamenode加StandbyNamenode方式即HighAvailability方式以及HighAvailability加Federation方式,如下圖所示。4.2安裝部署分布式系統(tǒng)第四章系統(tǒng)安裝部署4.2.1Hadoop安裝部署2.集群部署相比于Hadoop1.0,Hadoop2.0中的HDFS增加了兩個(gè)重大特性:HA和Federaion。HA即為HighAvailability,用于解決NameNode單點(diǎn)故障問題,該特性通過熱備的方式為主NameNode提供一個(gè)備用者,當(dāng)主NameNode故障時(shí),可以迅速切換至備用SecondaryNameNode,從而實(shí)現(xiàn)不間斷對(duì)外提供服務(wù)。

Federation即為“聯(lián)邦”,該特性允許一個(gè)HDFS集群中存在多個(gè)NameNode同時(shí)對(duì)外提供服務(wù),這些NameNode分管一部分目錄(水平切分),彼此之間相互隔離,但共享底層的DataNode存儲(chǔ)資源,進(jìn)一步提升集群的性能和可靠性。建議初學(xué)者先學(xué)習(xí)傳統(tǒng)方式的配置。4.2安裝部署分布式系統(tǒng)第四章系統(tǒng)安裝部署4.2.1Hadoop安裝部署2.集群部署集群部署主要包括以下幾點(diǎn):集群規(guī)劃做好準(zhǔn)備工作驗(yàn)證準(zhǔn)備工作配置Hadoop參數(shù)啟動(dòng)集群4.2安裝部署分布式系統(tǒng)第四章系統(tǒng)安裝部署4.2.1Hadoop安裝部署3.Hadoop其他組件部署在進(jìn)行了Hadoop部署的同時(shí),也有一些其他的軟件值得我們了解它們的部署方式,這些軟件和Hadoop有著一定的依賴關(guān)系。(1)ZookeeperZookeeper的安裝,只需要修改一些配置,主要是規(guī)定Zookeeper的各個(gè)節(jié)點(diǎn)的端口號(hào),以及在myid里規(guī)定每臺(tái)機(jī)器的id號(hào),然后一個(gè)個(gè)啟動(dòng)節(jié)點(diǎn)機(jī)器即可。4.2安裝部署分布式系統(tǒng)第四章系統(tǒng)安裝部署4.2.1Hadoop安裝部署3.Hadoop其他組件部署(2)Hive進(jìn)行Hive的安裝相對(duì)比較簡單,只需要在hive-env.sh中填寫Hadoop_Home即可,然后打開在hive目錄下的bin文件夾,在文件夾下有二進(jìn)制文件hive,直接訪問,就能進(jìn)入hive命令行執(zhí)行hive操作。(3)HBaseHBase的安裝需要前置部署Zookeeper與Hadoop,之后只需要在HBase中配置Hadoop和Zookeeper位置,并在reginserver中規(guī)定HBase的從節(jié)點(diǎn)即可啟動(dòng)HBase。4.2安裝部署分布式系統(tǒng)第四章系統(tǒng)安裝部署4.2.2Spark部署

選擇部署Spark到Linux系統(tǒng)上,可以使用物理機(jī)、虛擬機(jī)或者云服務(wù)來部署。Linux的版本可以選擇CentOs、Ubuntu等穩(wěn)定版本。初學(xué)者學(xué)習(xí)體驗(yàn)Spark可以先選擇單節(jié)點(diǎn)部署,而要使用Spark進(jìn)行大數(shù)據(jù)處理或者大規(guī)模計(jì)算則需要選擇集群部署。單節(jié)點(diǎn)部署只需準(zhǔn)備一臺(tái)Linux機(jī)器,而集群部署須要準(zhǔn)備多臺(tái)Linux機(jī)器,并且各臺(tái)機(jī)器能通過網(wǎng)絡(luò)互連。4.2安裝部署分布式系統(tǒng)第四章系統(tǒng)安裝部署4.2.2Spark部署1.準(zhǔn)備工作安裝JDKSpark運(yùn)行需要JAVA環(huán)境,并要求Java7及以上版本。在實(shí)際的部署中基本會(huì)和Hadoop一并部署,可以選擇JDK1.7或JDK1.8安裝。下載SparkSpark的官方下載地址為:/downloads.html。4.2安裝部署分布式系統(tǒng)第四章系統(tǒng)安裝部署4.2.2Spark部署2.Spark集群部署Spark集群部署是指把Spark部署到多臺(tái)網(wǎng)絡(luò)互通的機(jī)器上,構(gòu)成分布式系統(tǒng)。集群部署的好處是可以利用多臺(tái)機(jī)器的計(jì)算、內(nèi)存、磁盤資源,有效地運(yùn)行大數(shù)據(jù)處理程序,能夠處理的數(shù)據(jù)量或計(jì)算量遠(yuǎn)遠(yuǎn)大于使用單臺(tái)電腦部署的Spark。同時(shí)集群還提供了資源調(diào)度、高可用性、高可靠性等功能,可使Spark程序的運(yùn)行穩(wěn)定、可靠、高效。4.2安裝部署分布式系統(tǒng)第四章系統(tǒng)安裝部署4.2.2Spark部署2.

Spark集群部署Spark集群依照所使用的集群管理器被分為三種模式:StandaloneSparkonYarnSparkonMesos4.2安裝部署分布式系統(tǒng)第四章系統(tǒng)安裝部署4.2.2Spark部署3.搭建Standalone模式集群搭建集群之前首先要規(guī)劃好集群的規(guī)模及角色分配。Spark集群中的機(jī)器角色可以人為地分為主節(jié)點(diǎn)和從節(jié)點(diǎn)。通常把部署了Master角色的機(jī)器稱為主節(jié)點(diǎn),部署了Slave角色的機(jī)器稱為從節(jié)點(diǎn)。主節(jié)點(diǎn)擔(dān)任調(diào)度管理的角色,而從節(jié)點(diǎn)則擔(dān)任任務(wù)計(jì)算及數(shù)據(jù)處理的工作。4.2安裝部署分布式系統(tǒng)第四章系統(tǒng)安裝部署4.2.2Spark部署3.搭建Standalone模式集群我們將節(jié)點(diǎn)分成Master節(jié)點(diǎn)和Slave節(jié)點(diǎn),具體規(guī)劃如下圖所示。4.2安裝部署分布式系統(tǒng)第四章系統(tǒng)安裝部署4.2.2Spark部署3.搭建Standalone模式集群集群搭建詳細(xì)步驟如下:3臺(tái)Linux機(jī)器,分別配置好機(jī)器名和IP地址,并確保每臺(tái)機(jī)器間的網(wǎng)絡(luò)能夠相互連通。默認(rèn)配置下spark會(huì)占用8080、8081、6066、7077等端口,若防火墻開啟,這些端口可能無法連通,所以需要停掉每臺(tái)機(jī)器的防火墻。為每臺(tái)機(jī)器創(chuàng)建一個(gè)用戶(如dtadmin),此用戶具有管理員權(quán)限,后續(xù)登錄每臺(tái)機(jī)器均使用此用戶。配

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論