大數(shù)據(jù)基礎(chǔ)知識培訓(xùn)課件_第1頁
大數(shù)據(jù)基礎(chǔ)知識培訓(xùn)課件_第2頁
大數(shù)據(jù)基礎(chǔ)知識培訓(xùn)課件_第3頁
大數(shù)據(jù)基礎(chǔ)知識培訓(xùn)課件_第4頁
大數(shù)據(jù)基礎(chǔ)知識培訓(xùn)課件_第5頁
已閱讀5頁,還剩53頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)基礎(chǔ)知識培訓(xùn)課件口大數(shù)據(jù)的定義-廣義的定義(哲學(xué))

:大數(shù)據(jù),是指物理世界到數(shù)字世界的映射和提煉。通過發(fā)現(xiàn)其中的數(shù)據(jù)特征,從而做出

提升效率的決策行為。-

狹義的定義(技術(shù))

:大數(shù)據(jù),是通過獲取、存儲、分析,從大容量數(shù)據(jù)中挖掘價值的一種全新的技術(shù)架構(gòu)?!龃髷?shù)據(jù)基本概念口數(shù)據(jù)的級別1KB=1024B(KB-kilobyte)

TXT文本文件1

MB=1024

KB

(MB-megabyte)一

份Word文件或一首音樂1GB=1024

MB

(GB-gigabyte)一部電影1TB=1024GB

(TB-terabyte)普通硬盤為1TB/2TB/4TB1

PB=1024

TB

(PB-petabyte)

大約2個機(jī)柜的存儲設(shè)備

大數(shù)據(jù)級別1EB=1024PB(EB-exabyte)

大約2000個機(jī)柜的存儲設(shè)備1ZB=1024EB(ZB-zettabyte)全球電子設(shè)備存儲的所有數(shù)據(jù),在數(shù)十ZB

級別■大數(shù)據(jù)基本概念-1輛自動駕駛車每天可以產(chǎn)生的數(shù)據(jù):

60

TB

;-1個智慧工廠每天可以產(chǎn)出的數(shù)據(jù):

1

PB

;-1座智慧城市每天可以產(chǎn)出的數(shù)據(jù):

2.5

PB

;一大型強(qiáng)子對撞機(jī)實(shí)驗(yàn)每年產(chǎn)出的數(shù)據(jù):25

PB

;一谷歌搜索引擎的數(shù)據(jù)總規(guī)模(2021年)為:

62

PB

;

一全球數(shù)據(jù)量同比增速維持在25%

左右;-預(yù)計到2025年,全球數(shù)據(jù)量將達(dá)到175

ZB??跀?shù)據(jù)的級別口數(shù)據(jù)的主要來源一傳統(tǒng)企業(yè)數(shù)據(jù)(Traditional

enterprise

data):包括CRM用戶數(shù)據(jù)、ERP

數(shù)據(jù)、庫存數(shù)據(jù)、人事數(shù)據(jù)、財務(wù)數(shù)據(jù)等。一機(jī)器和傳感器數(shù)據(jù)

(Machine-generated

/sensor

data):包括設(shè)備日志、智能儀表、工業(yè)傳感器、環(huán)境傳感器、攝像頭等。一社交數(shù)據(jù)

(Social

data)

:包括用戶行為記錄、訪問記錄、UGC內(nèi)容、反饋數(shù)據(jù)等?!鯏?shù)據(jù)的類型(按結(jié)構(gòu))一結(jié)構(gòu)化數(shù)據(jù)

(Structured

Data)

:以關(guān)系數(shù)據(jù)庫表形式管理的數(shù)據(jù),例如企業(yè)ERP

、OA

、HR里的數(shù)據(jù)。一非結(jié)構(gòu)化數(shù)據(jù)

(Unstructured

Data):數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,沒有預(yù)定義的數(shù)據(jù)模型,不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù),例如Word、PDF、PPT

及各種格式的圖片、視頻等。一半結(jié)構(gòu)化數(shù)據(jù)

(Semi-structured

Data)

:非關(guān)系模型的、有基本固定結(jié)構(gòu)模式的數(shù)據(jù),例如日志文件、XML

文檔、JSON

文檔、E-mail等?!鯏?shù)據(jù)的類型(按訪問頻率)一冷數(shù)據(jù)

(Cold

Data,占比80%):指訪問頻率較低、對業(yè)務(wù)和應(yīng)用不太重要的數(shù)據(jù),例如備份數(shù)據(jù)、日志數(shù)據(jù)等。一熱數(shù)據(jù)

(Hot

Data,占

5

%

)

:指訪問頻率高、對業(yè)務(wù)和應(yīng)用關(guān)鍵的數(shù)據(jù),例如用戶、設(shè)備的狀態(tài)信息,以及瀏覽和交。一

(Warm

Data,占比15%)

:指訪問頻率適中、對業(yè)務(wù)和應(yīng)用有一定重要性的數(shù)據(jù)?!龃髷?shù)據(jù)基本概念口數(shù)據(jù)的價值挖掘通信技術(shù)

云計算技術(shù)大數(shù)據(jù)技術(shù)存儲技術(shù)云計算技術(shù)大數(shù)據(jù)技術(shù)人工智能技術(shù)

芯片技術(shù)傳感器技術(shù)攝像頭技術(shù)

圖像識別技術(shù)數(shù)據(jù)產(chǎn)生數(shù)據(jù)計算數(shù)據(jù)存儲數(shù)據(jù)傳輸口大數(shù)據(jù)、數(shù)據(jù)分析、數(shù)據(jù)挖掘一大數(shù)據(jù)是互聯(lián)網(wǎng)的海量數(shù)據(jù)挖掘;一數(shù)據(jù)挖掘更多是針對企業(yè)行業(yè)小眾化的數(shù)據(jù)挖掘;一數(shù)據(jù)分析就是進(jìn)行做出針對性的分析和診斷;一大數(shù)據(jù)需要分析的是趨勢和發(fā)展,數(shù)據(jù)挖掘主要發(fā)現(xiàn)的是問題和診斷。規(guī)模性

(Volume)高速性

(Velocity)多樣性

(Variety)價值性(Value)真實(shí)性

(Veracity)口大數(shù)據(jù)的特征(5個“V”)C

大數(shù)據(jù)口規(guī)模性(Volume)·

廣泛的數(shù)據(jù)來源,決定了大數(shù)據(jù)形式的龐大體量。□高速性

(Velocity)·

從數(shù)據(jù)的生成到消耗,時間窗口非常小。數(shù)據(jù)的變化速率,還有處理過程,越來越快。口多樣性

(Variety)·

數(shù)據(jù)的形式是多種多樣的,包含了結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)??趦r值性

(Value)·

大數(shù)據(jù)的數(shù)據(jù)量很大,但是價值密度很低。數(shù)據(jù)中真正有價值的,只是其中的很少一部分?!跽鎸?shí)性

(Veracity)·

大量數(shù)據(jù)帶來不完整性和不一致性,因此產(chǎn)生了準(zhǔn)確性?!龃髷?shù)據(jù)基本概念傳統(tǒng)數(shù)據(jù)大數(shù)據(jù)數(shù)據(jù)規(guī)模PB以下PB以上(含)增長速度數(shù)據(jù)量穩(wěn)定,增長緩慢持續(xù)實(shí)時生產(chǎn)數(shù)據(jù)多樣化主要為結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化、非結(jié)構(gòu)化;多維數(shù)據(jù)數(shù)據(jù)源集中的分布式的價值統(tǒng)計和報表數(shù)據(jù)挖掘、預(yù)測分析■大數(shù)據(jù)基本概念口大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)的對比口大數(shù)據(jù)、云計算、人工智能的關(guān)系-云計算關(guān)注資源的分配和利用,側(cè)重于實(shí)現(xiàn)計算設(shè)備的資源虛擬化,從而實(shí)現(xiàn)更高效的資源利用;

一而大數(shù)據(jù)是指海量數(shù)據(jù)的高效處理,主要處理龐大的數(shù)據(jù);一云計算給大數(shù)據(jù)提供了有力的工具,大數(shù)據(jù)為云計算提供了數(shù)據(jù)能力上的支撐;-大數(shù)據(jù)和云計算為人工智能提供了強(qiáng)大的數(shù)據(jù)存儲和計算能力,服務(wù)于人工智能所需要的海量數(shù)據(jù)。■大數(shù)據(jù)基本概念PART

大數(shù)據(jù)的發(fā)展演進(jìn)口大數(shù)據(jù)的發(fā)展(國際)·

1980年,美國作家阿爾文·托夫勒在《第三次浪潮》書中,將“大數(shù)據(jù)”稱為“第三次浪潮的某著名企業(yè)樂章”。·

1997年,美國宇航局研究員邁克爾·考克斯和大衛(wèi)·埃爾斯沃斯首次使用“大數(shù)據(jù)”這一術(shù)語來描述海量數(shù)據(jù)帶來的挑戰(zhàn)。數(shù)據(jù)之大,超出了存儲器的承載能力,稱之為“大數(shù)據(jù)問題”?!?002年“911”襲擊后,美國政府曾計劃整合現(xiàn)有政府的數(shù)據(jù)集,組建一個用于篩選通信、犯罪、教育、金融、醫(yī)療和旅行等記錄來識別可疑人的大數(shù)據(jù)庫,后來停止了這一項(xiàng)目。·2006年,云計算出現(xiàn)。2007-2008年,社交網(wǎng)絡(luò)激增,刺激了大數(shù)據(jù)技術(shù)的發(fā)展?!?010年,肯尼斯庫克爾發(fā)表大數(shù)據(jù)專題報告《數(shù)據(jù),無所不在的數(shù)據(jù)》?!?011年6月,麥肯錫發(fā)布報告,正式定義了大數(shù)據(jù)的概念,后逐漸受到了各行各業(yè)關(guān)注?!?012年,英國科學(xué)家維克托路邁爾-舍恩伯格及肯尼斯路庫克爾的《大數(shù)據(jù)時代》一書出版。·2012年1月瑞士達(dá)沃斯召開的世界經(jīng)濟(jì)論壇上,大數(shù)據(jù)是主題之一,會上發(fā)布的報告《大數(shù)據(jù),大影響》宣稱,數(shù)據(jù)已經(jīng)成為一種新的經(jīng)濟(jì)資產(chǎn)類別?!?014年4月,世界經(jīng)濟(jì)論壇以“大數(shù)據(jù)的回報與風(fēng)險”主題發(fā)布了《全球信息技術(shù)報告(第13版)》。

大數(shù)據(jù)的發(fā)展演進(jìn)□大數(shù)據(jù)的發(fā)展(國內(nèi))·2011年12月,工信部發(fā)布的物聯(lián)網(wǎng)十二五規(guī)劃上,把信息處理技術(shù)作為4項(xiàng)關(guān)鍵技術(shù)創(chuàng)新工程之一被提出來,其中包括了海量數(shù)據(jù)存儲、數(shù)據(jù)挖掘、圖像視頻智能分析,這些是大數(shù)據(jù)的重要組成部分?!?012年7月,為挖掘大數(shù)據(jù)的價值,阿里巴巴在管理層設(shè)立“首席數(shù)據(jù)官”一職,負(fù)責(zé)全面推進(jìn)“數(shù)據(jù)分享平臺”戰(zhàn)略,并推出大型的數(shù)據(jù)分享平臺——“聚石塔”,為電商及電商服務(wù)商等提供數(shù)據(jù)云服務(wù)?!?014年,“大數(shù)據(jù)”首次出現(xiàn)在當(dāng)年的《政府工作報告》中。《報告》中指出,要設(shè)立新興產(chǎn)業(yè)創(chuàng)業(yè)創(chuàng)新平臺,在大數(shù)據(jù)等方面趕超先進(jìn),引領(lǐng)未來產(chǎn)業(yè)發(fā)展?!?014年,國務(wù)院通過《企業(yè)信息公示暫行條例(草案)》,要求在企業(yè)部門間建立互聯(lián)共享信息平臺,運(yùn)用大數(shù)據(jù)等手段提升監(jiān)管水平,“大數(shù)據(jù)”成為國內(nèi)熱議詞匯。·2015年,大數(shù)據(jù)上升到國家戰(zhàn)略層面,我國政府于2015年8月通過了《關(guān)于促進(jìn)大數(shù)據(jù)發(fā)展的行動綱要》。·2015年10月26日至29日,黨的十八屆五中全會召開,公報提出要實(shí)施“國家大數(shù)據(jù)戰(zhàn)略”,這是大數(shù)據(jù)第一次寫入黨的全會決議,標(biāo)志著大數(shù)據(jù)戰(zhàn)略正式上升為國家戰(zhàn)略,五中全會開啟了大數(shù)據(jù)建設(shè)的新篇章?!龃髷?shù)據(jù)的發(fā)展演進(jìn)2014-2022年中國大數(shù)據(jù)重點(diǎn)法律法規(guī)和產(chǎn)業(yè)政策脈絡(luò)時間文件2014年3月大數(shù)據(jù)首次寫入政府工作報告2015年8月《促進(jìn)大數(shù)據(jù)發(fā)展的行動綱要》2016年3月《十三五規(guī)劃綱要》2016年12月《大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃(2016-2020年)》2017年10月十九大報告提出”推動大數(shù)據(jù)與實(shí)體經(jīng)濟(jì)深度融合“2017年12月中央政治局就實(shí)施國家大數(shù)據(jù)戰(zhàn)略進(jìn)行集體學(xué)習(xí)2019年3月大數(shù)據(jù)連續(xù)6年寫入工作報告2019年10月十九屆四中全會首次公開提出”數(shù)據(jù)可作為生產(chǎn)要素按貢獻(xiàn)參與分配“2020年4月《關(guān)于構(gòu)建更加完善的要素市場化配置體質(zhì)機(jī)制的意見》2020年5月《關(guān)于新時代加快完善社會主義市場經(jīng)濟(jì)體制的意見》2021年3月《十三屆全國人大四次會議政府工作報告》2021年3月《國民經(jīng)濟(jì)和社會發(fā)展第十四個五年規(guī)劃和2035年遠(yuǎn)景目標(biāo)綱要》2021年10月《國家標(biāo)準(zhǔn)化發(fā)展綱要》2021年11月《“十四五”軟件和信息技術(shù)服務(wù)業(yè)發(fā)展規(guī)劃》2021年11月《“十四五”大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃》2022年1月《“十四五”數(shù)字經(jīng)濟(jì)發(fā)展規(guī)劃》2022年3月《2022年國務(wù)院政府工作報告》2022年10月《全國一體化政務(wù)大數(shù)據(jù)體系建設(shè)指南》2022年10月《關(guān)于數(shù)字經(jīng)濟(jì)發(fā)展情況的報告》■大數(shù)據(jù)的發(fā)展演進(jìn)口大數(shù)據(jù)的發(fā)展(國內(nèi)政策文件)□數(shù)據(jù)的發(fā)展階段一起步階段·

數(shù)據(jù)庫被發(fā)明之后,使得數(shù)據(jù)管理的復(fù)雜度大大降低。各行各業(yè)開始產(chǎn)生了數(shù)據(jù),從而被記錄在數(shù)據(jù)庫中。

·這個階段的數(shù)據(jù),以結(jié)構(gòu)化數(shù)據(jù)為主。數(shù)據(jù)的產(chǎn)生方式,也是被動的。一轉(zhuǎn)變階段·伴隨著互聯(lián)網(wǎng)2.0時代出現(xiàn)的?;ヂ?lián)網(wǎng)2.0的最重要標(biāo)志,就是用戶原創(chuàng)內(nèi)容?!るS著互聯(lián)網(wǎng)和某著名企業(yè)通信設(shè)備的普及,人們開始使用博客、臉書、微博、QQ

空間等社交網(wǎng)絡(luò),從而主動產(chǎn)生了大量的數(shù)據(jù)。-

段·

是萬物互聯(lián)和數(shù)字化轉(zhuǎn)型階段。隨著物聯(lián)網(wǎng)的發(fā)展,各種各樣的感知層節(jié)點(diǎn)(傳感器、攝像頭等)開始自動產(chǎn)生大量的數(shù)據(jù),

實(shí)現(xiàn)物理世界向數(shù)字世界的映射。

大數(shù)據(jù)的發(fā)展演進(jìn)第一階段(1960s開始)第二階段(1990s開始)第三階段(2015s開始)數(shù)據(jù)源業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫數(shù)據(jù)倉庫數(shù)據(jù)湖+外部數(shù)據(jù)數(shù)據(jù)與業(yè)務(wù)關(guān)系隨機(jī)、離散常態(tài)化、體系化、外掛式全域、敏捷、嵌入式分析方法圖表統(tǒng)計BI分析BI+Al對決策的影響輔助決策增強(qiáng)決策自動決策

大數(shù)據(jù)的發(fā)展演進(jìn)口大數(shù)據(jù)應(yīng)用的三大階段來源:中國信息通信研究院口大數(shù)據(jù)面臨的挑戰(zhàn)一、需求模糊業(yè)務(wù)部門需求模糊,企業(yè)處于觀望狀態(tài),擔(dān)心投入回報。二、數(shù)據(jù)孤島政府部門或企業(yè)數(shù)據(jù)碎片化,無法相互打通,沒有進(jìn)行關(guān)聯(lián)和整合,無法發(fā)揮數(shù)據(jù)價值。三、數(shù)據(jù)流失企業(yè)保存數(shù)據(jù)的成本較高,導(dǎo)致大量的有價值歷史數(shù)據(jù)被遺棄,數(shù)據(jù)資產(chǎn)流失。四

、數(shù)據(jù)質(zhì)量差企業(yè)忽視了大數(shù)據(jù)的預(yù)處理階段,導(dǎo)致數(shù)據(jù)處理很不規(guī)范,影響了數(shù)據(jù)的準(zhǔn)確率和可用性。五

、數(shù)據(jù)安全隱患安全威脅日益增加,對系統(tǒng)和數(shù)據(jù)進(jìn)行保護(hù)的難度也隨之增加。六、隱私保護(hù)隱私權(quán)益保護(hù)的法律法規(guī)越來越嚴(yán)格,企業(yè)需要進(jìn)行合規(guī)審計,合理合法地進(jìn)行數(shù)據(jù)收集和利用。七、人才缺乏大數(shù)據(jù)相關(guān)人才的欠缺,對大數(shù)據(jù)技術(shù)和市場發(fā)展形成了一定阻礙。

大數(shù)據(jù)的發(fā)展演進(jìn)口大數(shù)據(jù)的未來趨勢·

資產(chǎn)化大數(shù)據(jù)價值不斷提升,在企業(yè)和社會層面成為重要的戰(zhàn)略資源、無形資產(chǎn)?!?/p>

智能化大數(shù)據(jù)將更加智能化,可以自動進(jìn)行數(shù)據(jù)處理和分析,提高數(shù)據(jù)處理效率和質(zhì)量?!?/p>

個性化大數(shù)據(jù)將更加關(guān)注用戶需求,實(shí)現(xiàn)個性化服務(wù)和定制化產(chǎn)品?!?/p>

可視化大數(shù)據(jù)將更加注重數(shù)據(jù)可視化,通過圖表、報表等方式將數(shù)據(jù)呈現(xiàn)給用戶,以實(shí)現(xiàn)用戶對數(shù)據(jù)的直觀理解。·

安全性大數(shù)據(jù)將更加注重數(shù)據(jù)安全,采用更加嚴(yán)格的數(shù)據(jù)保護(hù)措施,確保數(shù)據(jù)的安全性和隱私性。

大數(shù)據(jù)的發(fā)展演進(jìn)PART

大數(shù)據(jù)的產(chǎn)業(yè)鏈聚合數(shù)據(jù)

分析數(shù)據(jù)企業(yè)自身

企業(yè)自身獨(dú)立數(shù)據(jù)聚合商

第三方分析服務(wù)提供商存儲提供商/存儲服務(wù)提供商商業(yè)智能、搜索的軟件/服務(wù)供應(yīng)商■大數(shù)據(jù)的產(chǎn)業(yè)鏈口數(shù)據(jù)的價值鏈消費(fèi)數(shù)據(jù)企業(yè)自身政府用戶行業(yè)用戶消費(fèi)者用戶生產(chǎn)數(shù)據(jù)數(shù)據(jù)源外部數(shù)據(jù)源價值鏈大數(shù)據(jù)平臺數(shù)據(jù)中臺數(shù)據(jù)采集

數(shù)據(jù)存儲數(shù)據(jù)集成數(shù)據(jù)處理數(shù)據(jù)分析數(shù)據(jù)可視化基礎(chǔ)硬件

存儲

網(wǎng)絡(luò)基礎(chǔ)軟件

數(shù)據(jù)庫中間件操作系統(tǒng)數(shù)據(jù)源企業(yè)數(shù)據(jù)

政府?dāng)?shù)據(jù)行業(yè)聯(lián)盟數(shù)據(jù)

第三方數(shù)據(jù)數(shù)據(jù)交易■大數(shù)據(jù)的產(chǎn)業(yè)鏈行業(yè)應(yīng)用通用應(yīng)用口大數(shù)據(jù)的產(chǎn)業(yè)鏈銀行證券產(chǎn)品研發(fā)商業(yè)零售廣告營銷政務(wù)治理市場調(diào)研工業(yè)制造客戶服務(wù)教育醫(yī)療資源管理應(yīng)

技術(shù)層

礎(chǔ)

層方法和工具:數(shù)據(jù)采集、數(shù)據(jù)分析(流處理、交互查句,批處理、機(jī)器學(xué)習(xí)、人工智能、隱私計算)云計算資源管理平臺IT軟件及云平臺

IT硬件基礎(chǔ)設(shè)施■大數(shù)據(jù)的產(chǎn)業(yè)鏈口

大數(shù)據(jù)的產(chǎn)業(yè)鏈企業(yè)預(yù)處理和加工

數(shù)據(jù)分析和治理數(shù)據(jù)資源價值評估數(shù)據(jù)確權(quán)數(shù)據(jù)定價數(shù)據(jù)交易安全保障安全管理安全服務(wù)安全邊界安全計算政府?dāng)?shù)據(jù)可視化消費(fèi)者數(shù)據(jù)采集來源:大數(shù)據(jù)產(chǎn)業(yè)聯(lián)盟,賽迪顧問等數(shù)據(jù)應(yīng)用

數(shù)據(jù)服務(wù)

基礎(chǔ)支撐價值個數(shù)據(jù)應(yīng)用融合數(shù)據(jù)數(shù)據(jù)流通高質(zhì)量數(shù)據(jù)局部數(shù)據(jù)

數(shù)據(jù)管理低質(zhì)量數(shù)據(jù)數(shù)據(jù)存儲與計算

數(shù)據(jù)源(文件、視頻、音頻、文字.)口大數(shù)據(jù)的產(chǎn)業(yè)價值核心領(lǐng)域數(shù)據(jù)安全領(lǐng)域潛在作用與價值制造業(yè)產(chǎn)品故障診斷與預(yù)測、改進(jìn)生產(chǎn)工藝,優(yōu)化生產(chǎn)過程能耗、優(yōu)化供應(yīng)鏈等。電商行業(yè)掌握消費(fèi)者需求,進(jìn)行精準(zhǔn)營銷,提升銷售業(yè)績。金融行業(yè)進(jìn)行風(fēng)險預(yù)測和客戶分析,提高風(fēng)險控制和客戶服務(wù)水平。交通領(lǐng)域通過交通數(shù)據(jù)分析,合理的規(guī)則出行道路,分析人流高峰,調(diào)控信息燈,提高運(yùn)行能力。教育領(lǐng)域可以收集學(xué)生的學(xué)習(xí)數(shù)據(jù),優(yōu)化教學(xué)過程和方法,從而實(shí)現(xiàn)個性化教學(xué),提高成績。某著名企業(yè)行業(yè)利用大數(shù)據(jù)技術(shù)實(shí)現(xiàn)客戶離網(wǎng)分析,及時掌握客戶離網(wǎng)傾向,出臺客戶挽留措施。能源行業(yè)分析用戶用電模式,可以改進(jìn)某著名企業(yè)運(yùn)行,合理設(shè)計電力需求響應(yīng)系統(tǒng),確保某著名企業(yè)運(yùn)行安全。物流行業(yè)利用大數(shù)據(jù)優(yōu)化物流網(wǎng)絡(luò),提高物流效率,降低物流成本。生物醫(yī)學(xué)進(jìn)行流行病預(yù)測、智慧醫(yī)療、健康管理,提升醫(yī)療系統(tǒng)效率。安全領(lǐng)域構(gòu)建安全保障體系,抵御網(wǎng)絡(luò)攻擊,加強(qiáng)系統(tǒng)防御能力。體育娛樂尋找薄弱環(huán)節(jié),幫助訓(xùn)練隊員,提升競技運(yùn)動成績。■大數(shù)據(jù)的產(chǎn)業(yè)鏈口大數(shù)據(jù)的應(yīng)用領(lǐng)域醫(yī)療健康庫口大數(shù)據(jù)的市場規(guī)模-2022年,我國大數(shù)據(jù)產(chǎn)業(yè)規(guī)模達(dá)到1.57萬億元,同比增長18%,成為推動數(shù)字經(jīng)濟(jì)發(fā)展的重要力量。-預(yù)計未來三年保持15%以上的年均增速,到2023年底產(chǎn)業(yè)規(guī)模超過10000億元。-其中,基礎(chǔ)設(shè)施市場規(guī)模約為3000億元左右,占比約為19%;數(shù)據(jù)服務(wù)市場規(guī)模約為5000億元左右,占比

約為32%;融合應(yīng)用市場規(guī)模約為7200億元左右,占比約為49%。-2022年,我國互聯(lián)網(wǎng)大數(shù)據(jù)市場規(guī)模達(dá)到2887.4億元,占整個大數(shù)據(jù)產(chǎn)業(yè)規(guī)模的45.2%,是最大的應(yīng)用領(lǐng)域。

-2022年,我國政府大數(shù)據(jù)市場規(guī)模達(dá)到926億元,占整個大數(shù)據(jù)產(chǎn)業(yè)規(guī)模的14.5%,是第二大應(yīng)用領(lǐng)域。-2022年,我國金融大數(shù)據(jù)市場規(guī)模達(dá)到601.6億元,占整個大數(shù)據(jù)產(chǎn)業(yè)規(guī)模的9.4%,是第三大應(yīng)用領(lǐng)域。數(shù)據(jù)來源:尚普咨詢PART

大數(shù)據(jù)的關(guān)鍵技術(shù)■大數(shù)據(jù)的關(guān)鍵技術(shù)口大數(shù)據(jù)的技術(shù)演進(jìn)197019801998關(guān)系型數(shù)據(jù)庫

MPP

構(gòu)

NoSQL少量行業(yè)信息化

互聯(lián)網(wǎng)興起

某著名企業(yè)互聯(lián)網(wǎng)興起數(shù)據(jù)存儲與計算領(lǐng)域技術(shù)發(fā)展歷程來源:中國信息通信研究院2010

20132014jStorm

Spark

Flink

Streaming2003-20062006

2009GFS

Hadoop

SparkMapReduceBigTable2017-2019Delta

Lake、Hudi、Icebery2013-2017云原生

一體化數(shù)據(jù)平臺2020湖倉一體2010數(shù)據(jù)湖概念2006

數(shù)據(jù)湖云計算2010分布式流處理1980-1991數(shù)據(jù)倉庫理論2000分布式

批處理數(shù)據(jù)庫1960少量、結(jié)構(gòu)化數(shù)據(jù)的

分析處理大量、非結(jié)構(gòu)化數(shù)據(jù)

的高效分析處理大量、非結(jié)構(gòu)化數(shù)據(jù)

的分析處理口大數(shù)據(jù)的技術(shù)演進(jìn)·

1960年代,能夠統(tǒng)一管理和共享數(shù)據(jù)的數(shù)據(jù)庫管理系統(tǒng)(DBMS)

誕生;·

1990年代,為滿足企業(yè)數(shù)據(jù)分析的訴求,數(shù)據(jù)倉庫誕生;·

2000年代,以Hadoop為代表的大數(shù)據(jù)技術(shù)體系誕生,大數(shù)據(jù)研究框架成型;·2010年代,在云技術(shù)的帶動下,云上純托管的存儲系統(tǒng)逐步取代HDFS,

開始出現(xiàn)數(shù)據(jù)湖;

·2020年代,開始逐漸走向“云湖共生”、“湖倉一體”。

大數(shù)據(jù)的關(guān)鍵技術(shù)數(shù)據(jù)抽取、轉(zhuǎn)換、裝載過程數(shù)據(jù)相互轉(zhuǎn)移海量結(jié)構(gòu)化存儲系統(tǒng)海量非結(jié)構(gòu)化存儲系統(tǒng)分布式文件系統(tǒng)機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、語義搜索動態(tài)圖表、可視化數(shù)據(jù)采集數(shù)據(jù)預(yù)處理

大數(shù)據(jù)的關(guān)鍵技術(shù)口大數(shù)據(jù)的處理過程數(shù)據(jù)分析挖掘結(jié)果展現(xiàn)數(shù)據(jù)存儲口數(shù)據(jù)預(yù)處理與存儲大數(shù)據(jù)的預(yù)處理環(huán)節(jié)包括:·

數(shù)據(jù)清理主要就是初步對數(shù)據(jù)進(jìn)行,不一致檢測、噪聲數(shù)據(jù)識別、數(shù)據(jù)過濾、修正等,進(jìn)一步提高數(shù)據(jù)的準(zhǔn)確性、真實(shí)性、可用性等

·

數(shù)據(jù)集成就是將多個數(shù)據(jù)源的數(shù)據(jù)進(jìn)行集成,從而形成集中、統(tǒng)一的數(shù)據(jù)庫·

數(shù)據(jù)歸約是指在不損害分析結(jié)果準(zhǔn)確性的前提下,通過維歸約、數(shù)量歸約、數(shù)據(jù)抽樣等技術(shù),提高大數(shù)據(jù)存儲的價值性

·數(shù)據(jù)轉(zhuǎn)換處理通過轉(zhuǎn)換實(shí)現(xiàn)數(shù)據(jù)統(tǒng)一、這一過程有利于提升大數(shù)據(jù)的一致性和可用性大數(shù)據(jù)存儲主要是利用分布式文件系統(tǒng)、數(shù)據(jù)倉庫、關(guān)系數(shù)據(jù)庫、NoSql數(shù)據(jù)庫、云數(shù)據(jù)庫等實(shí)現(xiàn)對結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化海量數(shù)據(jù)的存儲和管理

大數(shù)據(jù)的關(guān)鍵技術(shù)Oozie(作業(yè)流調(diào)度系統(tǒng))Hive(數(shù)據(jù)倉庫)實(shí)時分布式MapReduce(分布式計算框架)YARN(集群資源管理系統(tǒng))(日志收集工具)HDFS

(分布式文件系統(tǒng))Ambari(安裝、部署、配置和管理工具)Zookeeper

分布式

協(xié)作服務(wù)■大數(shù)據(jù)的關(guān)鍵技術(shù)口大數(shù)據(jù)的技術(shù)架構(gòu)Spark

SQL(結(jié)構(gòu)化數(shù)據(jù))Spark(內(nèi)存計算框架)Storm(流式計算框架)Tez(DAG

計算框架)Pig(數(shù)據(jù)流處理)Sqoop(數(shù)據(jù)庫ETL工具)Mahout(數(shù)據(jù)挖掘庫)數(shù)據(jù)庫HbaseFlume■大數(shù)據(jù)的關(guān)鍵技術(shù)口大數(shù)據(jù)的技術(shù)起源GoogleHadoopGFSHDFSMapReduce

MapReduceBigTable

HBaseHDFS分布式文件系統(tǒng)MapReduce分布式計算框架HBase實(shí)時分布式數(shù)據(jù)庫java,python,scala....Linuxflume、kafka、logstash、filebeat..HDFS、hbase、redis...hive

、sparksql

、presto

、kylin

、impala

、durid

、clickhouse

、greeplum.storm、spark

stream、flink..分布式協(xié)調(diào)器—

—zookeeper資源管理器

—yarn

、mesos調(diào)度管理器

0ozie、azkaban、airflow、dalphineschduler基礎(chǔ)能力數(shù)據(jù)采集數(shù)據(jù)存儲數(shù)據(jù)查詢數(shù)據(jù)計算其它

大數(shù)據(jù)的關(guān)鍵技術(shù)口大數(shù)據(jù)的技術(shù)棧大數(shù)據(jù)技術(shù)?!?/p>

Hadoop-Hadoop是一個開發(fā)和運(yùn)行處理大規(guī)模數(shù)據(jù)的軟件平臺。-它

是Apache的一個用java語言實(shí)現(xiàn)開源軟件框架,實(shí)現(xiàn)在大量計算機(jī)組成的集群中對海量數(shù)據(jù)進(jìn)

行分布式計算。-Hadoop框架中的核心:HDFS和MapReduce?!DFS提供了海量數(shù)據(jù)的存儲;

大數(shù)據(jù)的關(guān)鍵技術(shù)·MapReduce提供了對數(shù)據(jù)的計算?!?/p>

Hadoop的優(yōu)點(diǎn)-

高可靠性:Hadoop

的基因來自Google

。Google最擅長的事情,就是“垃圾利用”。Google起家的時候就是窮,買不起高端服務(wù)器,所以,特別喜歡在普通電腦上部署這種大型系統(tǒng)。雖然硬件不可靠,但是系統(tǒng)非??煽?。-

高擴(kuò)展性:Hadoop

是在可用的計算機(jī)集群間分配數(shù)據(jù)并完成計算任務(wù)的,這些集群可以方便地進(jìn)行擴(kuò)展。說白了,

想變大很容易。-

:Hadoop能夠在節(jié)點(diǎn)之間動態(tài)地某著名企業(yè)數(shù)據(jù),并保證各個節(jié)點(diǎn)的動態(tài)平衡,因此處理速度非常快。-

高容錯性:Hadoop能夠自動保存數(shù)據(jù)的多個副本,并且能夠自動將失敗的任務(wù)重新分配。這個其實(shí)也算是高可靠性。-

低成本:Hadoop是開源的,依賴于社區(qū)服務(wù),使用成本比較低。

大數(shù)據(jù)的關(guān)鍵技術(shù)□HDFS(HadoopDistributed

FileSystem)-HDFS

是Hadoop項(xiàng)目的核心子項(xiàng)目,是分布式計算中數(shù)據(jù)存儲管理的基礎(chǔ),是基于流數(shù)據(jù)模式訪

問和處理超大文件的需求而開發(fā)的,可以運(yùn)行于廉價的商用服務(wù)器上。-HDFS

源于

Google在2003年10月份發(fā)表的GFS(Google

FileSystem)

論文。它其實(shí)就是

GFS

的一個克隆版本。

大數(shù)據(jù)的關(guān)鍵技術(shù)□

HDFS(Hadoop

Distributed

FileSystem)NameNode:

是Master節(jié)點(diǎn)(主節(jié)點(diǎn)),可以看作是分布式文件系統(tǒng)中的管理者,主要負(fù)責(zé)管理文件系統(tǒng)的命名空間、集群配置信息和存儲塊

復(fù)

。NameNode

會將文件系統(tǒng)的Meta-data

存儲在內(nèi)存中,這些信息主要包括了文件信息、每一個文件對應(yīng)的文件塊的信息和每一個文件塊

在DataNode

的信息等。·DataNode:

是Slave節(jié)點(diǎn)(從節(jié)點(diǎn)),是文件存儲的基本單元,它將Block存儲在本地文件系統(tǒng)中,保存了Block的Meta-data,同時周期性地將

所有存在的Block

信息發(fā)送給NameNode?!lient:

切分文件;訪問HDFS;與

NameNode

交互,獲得文件位置信息;與DataNode

交互,讀取和寫入數(shù)據(jù)。ClientNameNodeNetworkingDataNode

DataNode-整個HDFS有三個重要角色:NameNode

(名稱節(jié)點(diǎn))、DataNode(數(shù)據(jù)節(jié)點(diǎn))和Client(客戶機(jī))。·

大數(shù)據(jù)的關(guān)鍵技術(shù)DataNodeDataNodeTCPIP1用戶向Client

(客戶機(jī))提出請求。例如,需要寫入200MB的數(shù)據(jù)。2Client制定計劃:將數(shù)據(jù)按照64MB為塊,進(jìn)行切割;所有的塊都保存三份。3Client將大文件切分成塊

(block)。4針對第一個塊,Client告訴NameNode

(主控節(jié)點(diǎn)),請幫助我,將64MB

的塊復(fù)制三份。5

NameNode告訴Client三個DataNode(數(shù)據(jù)節(jié)點(diǎn))的地址,并且將它們根據(jù)到Client的距離,進(jìn)行了排序。6Client把數(shù)據(jù)和清單發(fā)給第一個DataNode。7第

一個DataNode將數(shù)據(jù)復(fù)制給第二個DataNode。8第二個DataNode將數(shù)據(jù)復(fù)制給第三個DataNode。9如果某一個塊的所有數(shù)據(jù)都已寫入,就會向NameNode

反饋已完成。

②③10對第二個Block,

也進(jìn)行相同的操作。11所有Block都完成后,關(guān)閉文件。NameNode會將數(shù)據(jù)持久化到磁盤上。

大數(shù)據(jù)的關(guān)鍵技術(shù)□

HDFS寫入流程⑧DataNode2⑦DataNode1⑨

⑨?NameNode··

·

·

·

·

·

·

·

·

·Client⑩④⑤⑥①□

HDFS讀取流程·

1用戶向Client提出讀取請求?!?/p>

2Client向NameNode請求這個文件的所有信息?!?NameNode將給Client這個文件的塊列表,以及存儲各個塊的數(shù)據(jù)節(jié)點(diǎn)清單(按照和客戶端的距離排序)。

·

4Client從距離最近的數(shù)據(jù)節(jié)點(diǎn)下載所需的塊。④

④DataNode1

DataNode2DataNode3■大數(shù)據(jù)的關(guān)鍵技術(shù)②③NameNodeClient①□

MapReduce-MapReduce

是一個使用簡單的軟件框架,基于它寫出來的應(yīng)用程序能夠運(yùn)行在由上千個商用機(jī)器組成的大型集群上,并以一種可靠容錯式并行處理TB

級別的數(shù)據(jù)集。-MapReduce

是面向大規(guī)模數(shù)據(jù)并行處理的計算模型、框架和平臺,包含如下3個層面的含義:

·MapReduce

是一個并行程序的設(shè)計模型與方法;·MapReduce是一個并行程序運(yùn)行的軟件框架;·MapReduce是一個基于集群的高性能并行計算平臺。

大數(shù)據(jù)的關(guān)鍵技術(shù)□

MapReduce-MapReduce

其實(shí)是一種編程模型。這個模型的核心步驟主要分兩部分:Map

(映射)和Reduce

(歸約)。-當(dāng)

你向MapReduce框架提交一個計算作業(yè)時,它會首先把計算作業(yè)拆分成若干個Map任務(wù),然后分配到不同的節(jié)點(diǎn)上去執(zhí)行,每一個Map

任務(wù)處理輸入數(shù)據(jù)中的一部分,當(dāng)Map任務(wù)完成后,它會生成一些中間文件,這些中間文件將會作為Reduce

任務(wù)的輸入數(shù)據(jù)。Reduce

任務(wù)的主要目標(biāo)就是把前面若干個Map

的輸出匯總到一起并輸出。

大數(shù)據(jù)的關(guān)鍵技術(shù)mergeReduceReduce輸出region0

region1

region2

region3region4輸入region0region1region2region3

region4MapMapMap■大數(shù)據(jù)的關(guān)鍵技術(shù)□

MapReducecopysort□HBase-HBase

是構(gòu)建在HDFS

之上的分布式列存儲數(shù)據(jù)庫-HBase

是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng)。一

利用HBase技術(shù),可以在廉價PCServer上搭建起大規(guī)模結(jié)構(gòu)化存儲集群。-HBase

是GoogleBigtable的開源實(shí)現(xiàn),利用HadoopMapReduce來處理HBase中的海量數(shù)據(jù),利用Zookeeper作為協(xié)同服務(wù)。大數(shù)據(jù)的關(guān)鍵技術(shù)□

YARN-YARN是

Hadoop2.x

版本新引入的資源管理系統(tǒng),直接從MR1演化而來。-YARN是一種新的Hadoop

資源管理器,它是一個通用資源管理系統(tǒng),可為上層應(yīng)用提供統(tǒng)一的資源管理和調(diào)度。-YARN的引入,大大改進(jìn)了集群的利用率、資源統(tǒng)一管理和數(shù)據(jù)共享等方面。-YARN

的核心思想:將MR1中JobTracker的資源管理和作業(yè)調(diào)度兩個功能分開,由以下進(jìn)程實(shí)現(xiàn):·ResourceManager:

負(fù)責(zé)整個集群的資源管理和調(diào)度?!pplicationMaster:負(fù)責(zé)應(yīng)用程序相關(guān)的事務(wù),比如任務(wù)調(diào)度、任務(wù)監(jiān)控和容錯等。大數(shù)據(jù)的關(guān)鍵技術(shù)□ZooKeeper-ZooKeeper是一種為分布式應(yīng)用所設(shè)計的高可用、高性能且一致的開源協(xié)調(diào)服務(wù)。-ZooKeeper

提供了分布式鎖服務(wù),在此基礎(chǔ)上,又提供了配置維護(hù)、組服務(wù)、分布式消息隊列、分布

式通知/協(xié)調(diào)等。-ZooKeeper

的目標(biāo):封裝好復(fù)雜的關(guān)鍵服務(wù),將簡單接口和性能高效、功能穩(wěn)定的系統(tǒng)提供給用戶。

大數(shù)據(jù)的關(guān)鍵技術(shù)□

Hive一由FaceBook開源,最初用于解決海量結(jié)構(gòu)化的日志數(shù)據(jù)統(tǒng)計問題,可以作為ETL工具。

一它是構(gòu)建在Hadoop

之上的數(shù)據(jù)倉庫。一它定義了一種類SQL

的查詢語言——HQL。一它適合離線數(shù)據(jù)處理。一它是將HQL轉(zhuǎn)換為MR

的語言翻譯器。

大數(shù)據(jù)的關(guān)鍵技術(shù)□

Sqoop-Sqoop

名字的來源:SQL-to-Hadoop。-Sqoop

是連接傳統(tǒng)數(shù)據(jù)庫和Hadoop的橋梁。·把關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)導(dǎo)入hadoop或者與其相關(guān)的系統(tǒng)比如HDFS

、hive

、HBase。

·把hadoop中的數(shù)據(jù)抽取出來,導(dǎo)入到關(guān)系型數(shù)據(jù)庫中。-Sqoop的設(shè)計思想:利用MapReduce加快數(shù)據(jù)傳輸速度。

大數(shù)據(jù)的關(guān)鍵技術(shù)□

Flume-Flume

是Cloudera提供的一個高可用的、高可靠的、分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng)。

-Flume支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);-Flume提供對數(shù)據(jù)進(jìn)行簡單處理并寫到各種數(shù)據(jù)接受方的能力。

大數(shù)據(jù)的關(guān)鍵技術(shù)□

Spark-Spark

是一種通用的大數(shù)據(jù)計算框架。-Spark

基于內(nèi)存進(jìn)行計算,速度可以達(dá)到MapReduce

的數(shù)倍甚至數(shù)十倍。-Spark主要用于大數(shù)據(jù)的計算,而Hadoop

主要用于大數(shù)據(jù)的存儲(HDFS),

以及資源調(diào)度

(Yarn)。一在實(shí)際工作中,

一般都會把S

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論