




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
大數(shù)據(jù)基礎(chǔ)知識培訓(xùn)課件口大數(shù)據(jù)的定義-廣義的定義(哲學(xué))
:大數(shù)據(jù),是指物理世界到數(shù)字世界的映射和提煉。通過發(fā)現(xiàn)其中的數(shù)據(jù)特征,從而做出
提升效率的決策行為。-
狹義的定義(技術(shù))
:大數(shù)據(jù),是通過獲取、存儲、分析,從大容量數(shù)據(jù)中挖掘價值的一種全新的技術(shù)架構(gòu)?!龃髷?shù)據(jù)基本概念口數(shù)據(jù)的級別1KB=1024B(KB-kilobyte)
TXT文本文件1
MB=1024
KB
(MB-megabyte)一
份Word文件或一首音樂1GB=1024
MB
(GB-gigabyte)一部電影1TB=1024GB
(TB-terabyte)普通硬盤為1TB/2TB/4TB1
PB=1024
TB
(PB-petabyte)
大約2個機(jī)柜的存儲設(shè)備
大數(shù)據(jù)級別1EB=1024PB(EB-exabyte)
大約2000個機(jī)柜的存儲設(shè)備1ZB=1024EB(ZB-zettabyte)全球電子設(shè)備存儲的所有數(shù)據(jù),在數(shù)十ZB
級別■大數(shù)據(jù)基本概念-1輛自動駕駛車每天可以產(chǎn)生的數(shù)據(jù):
60
TB
;-1個智慧工廠每天可以產(chǎn)出的數(shù)據(jù):
1
PB
;-1座智慧城市每天可以產(chǎn)出的數(shù)據(jù):
2.5
PB
;一大型強(qiáng)子對撞機(jī)實(shí)驗(yàn)每年產(chǎn)出的數(shù)據(jù):25
PB
;一谷歌搜索引擎的數(shù)據(jù)總規(guī)模(2021年)為:
62
PB
;
一全球數(shù)據(jù)量同比增速維持在25%
左右;-預(yù)計到2025年,全球數(shù)據(jù)量將達(dá)到175
ZB??跀?shù)據(jù)的級別口數(shù)據(jù)的主要來源一傳統(tǒng)企業(yè)數(shù)據(jù)(Traditional
enterprise
data):包括CRM用戶數(shù)據(jù)、ERP
數(shù)據(jù)、庫存數(shù)據(jù)、人事數(shù)據(jù)、財務(wù)數(shù)據(jù)等。一機(jī)器和傳感器數(shù)據(jù)
(Machine-generated
/sensor
data):包括設(shè)備日志、智能儀表、工業(yè)傳感器、環(huán)境傳感器、攝像頭等。一社交數(shù)據(jù)
(Social
data)
:包括用戶行為記錄、訪問記錄、UGC內(nèi)容、反饋數(shù)據(jù)等?!鯏?shù)據(jù)的類型(按結(jié)構(gòu))一結(jié)構(gòu)化數(shù)據(jù)
(Structured
Data)
:以關(guān)系數(shù)據(jù)庫表形式管理的數(shù)據(jù),例如企業(yè)ERP
、OA
、HR里的數(shù)據(jù)。一非結(jié)構(gòu)化數(shù)據(jù)
(Unstructured
Data):數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,沒有預(yù)定義的數(shù)據(jù)模型,不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù),例如Word、PDF、PPT
及各種格式的圖片、視頻等。一半結(jié)構(gòu)化數(shù)據(jù)
(Semi-structured
Data)
:非關(guān)系模型的、有基本固定結(jié)構(gòu)模式的數(shù)據(jù),例如日志文件、XML
文檔、JSON
文檔、E-mail等?!鯏?shù)據(jù)的類型(按訪問頻率)一冷數(shù)據(jù)
(Cold
Data,占比80%):指訪問頻率較低、對業(yè)務(wù)和應(yīng)用不太重要的數(shù)據(jù),例如備份數(shù)據(jù)、日志數(shù)據(jù)等。一熱數(shù)據(jù)
(Hot
Data,占
比
5
%
)
:指訪問頻率高、對業(yè)務(wù)和應(yīng)用關(guān)鍵的數(shù)據(jù),例如用戶、設(shè)備的狀態(tài)信息,以及瀏覽和交。一
(Warm
Data,占比15%)
:指訪問頻率適中、對業(yè)務(wù)和應(yīng)用有一定重要性的數(shù)據(jù)?!龃髷?shù)據(jù)基本概念口數(shù)據(jù)的價值挖掘通信技術(shù)
云計算技術(shù)大數(shù)據(jù)技術(shù)存儲技術(shù)云計算技術(shù)大數(shù)據(jù)技術(shù)人工智能技術(shù)
芯片技術(shù)傳感器技術(shù)攝像頭技術(shù)
圖像識別技術(shù)數(shù)據(jù)產(chǎn)生數(shù)據(jù)計算數(shù)據(jù)存儲數(shù)據(jù)傳輸口大數(shù)據(jù)、數(shù)據(jù)分析、數(shù)據(jù)挖掘一大數(shù)據(jù)是互聯(lián)網(wǎng)的海量數(shù)據(jù)挖掘;一數(shù)據(jù)挖掘更多是針對企業(yè)行業(yè)小眾化的數(shù)據(jù)挖掘;一數(shù)據(jù)分析就是進(jìn)行做出針對性的分析和診斷;一大數(shù)據(jù)需要分析的是趨勢和發(fā)展,數(shù)據(jù)挖掘主要發(fā)現(xiàn)的是問題和診斷。規(guī)模性
(Volume)高速性
(Velocity)多樣性
(Variety)價值性(Value)真實(shí)性
(Veracity)口大數(shù)據(jù)的特征(5個“V”)C
大數(shù)據(jù)口規(guī)模性(Volume)·
廣泛的數(shù)據(jù)來源,決定了大數(shù)據(jù)形式的龐大體量。□高速性
(Velocity)·
從數(shù)據(jù)的生成到消耗,時間窗口非常小。數(shù)據(jù)的變化速率,還有處理過程,越來越快。口多樣性
(Variety)·
數(shù)據(jù)的形式是多種多樣的,包含了結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)??趦r值性
(Value)·
大數(shù)據(jù)的數(shù)據(jù)量很大,但是價值密度很低。數(shù)據(jù)中真正有價值的,只是其中的很少一部分?!跽鎸?shí)性
(Veracity)·
大量數(shù)據(jù)帶來不完整性和不一致性,因此產(chǎn)生了準(zhǔn)確性?!龃髷?shù)據(jù)基本概念傳統(tǒng)數(shù)據(jù)大數(shù)據(jù)數(shù)據(jù)規(guī)模PB以下PB以上(含)增長速度數(shù)據(jù)量穩(wěn)定,增長緩慢持續(xù)實(shí)時生產(chǎn)數(shù)據(jù)多樣化主要為結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化、非結(jié)構(gòu)化;多維數(shù)據(jù)數(shù)據(jù)源集中的分布式的價值統(tǒng)計和報表數(shù)據(jù)挖掘、預(yù)測分析■大數(shù)據(jù)基本概念口大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)的對比口大數(shù)據(jù)、云計算、人工智能的關(guān)系-云計算關(guān)注資源的分配和利用,側(cè)重于實(shí)現(xiàn)計算設(shè)備的資源虛擬化,從而實(shí)現(xiàn)更高效的資源利用;
一而大數(shù)據(jù)是指海量數(shù)據(jù)的高效處理,主要處理龐大的數(shù)據(jù);一云計算給大數(shù)據(jù)提供了有力的工具,大數(shù)據(jù)為云計算提供了數(shù)據(jù)能力上的支撐;-大數(shù)據(jù)和云計算為人工智能提供了強(qiáng)大的數(shù)據(jù)存儲和計算能力,服務(wù)于人工智能所需要的海量數(shù)據(jù)。■大數(shù)據(jù)基本概念PART
大數(shù)據(jù)的發(fā)展演進(jìn)口大數(shù)據(jù)的發(fā)展(國際)·
1980年,美國作家阿爾文·托夫勒在《第三次浪潮》書中,將“大數(shù)據(jù)”稱為“第三次浪潮的某著名企業(yè)樂章”。·
1997年,美國宇航局研究員邁克爾·考克斯和大衛(wèi)·埃爾斯沃斯首次使用“大數(shù)據(jù)”這一術(shù)語來描述海量數(shù)據(jù)帶來的挑戰(zhàn)。數(shù)據(jù)之大,超出了存儲器的承載能力,稱之為“大數(shù)據(jù)問題”?!?002年“911”襲擊后,美國政府曾計劃整合現(xiàn)有政府的數(shù)據(jù)集,組建一個用于篩選通信、犯罪、教育、金融、醫(yī)療和旅行等記錄來識別可疑人的大數(shù)據(jù)庫,后來停止了這一項(xiàng)目。·2006年,云計算出現(xiàn)。2007-2008年,社交網(wǎng)絡(luò)激增,刺激了大數(shù)據(jù)技術(shù)的發(fā)展?!?010年,肯尼斯庫克爾發(fā)表大數(shù)據(jù)專題報告《數(shù)據(jù),無所不在的數(shù)據(jù)》?!?011年6月,麥肯錫發(fā)布報告,正式定義了大數(shù)據(jù)的概念,后逐漸受到了各行各業(yè)關(guān)注?!?012年,英國科學(xué)家維克托路邁爾-舍恩伯格及肯尼斯路庫克爾的《大數(shù)據(jù)時代》一書出版。·2012年1月瑞士達(dá)沃斯召開的世界經(jīng)濟(jì)論壇上,大數(shù)據(jù)是主題之一,會上發(fā)布的報告《大數(shù)據(jù),大影響》宣稱,數(shù)據(jù)已經(jīng)成為一種新的經(jīng)濟(jì)資產(chǎn)類別?!?014年4月,世界經(jīng)濟(jì)論壇以“大數(shù)據(jù)的回報與風(fēng)險”主題發(fā)布了《全球信息技術(shù)報告(第13版)》。
大數(shù)據(jù)的發(fā)展演進(jìn)□大數(shù)據(jù)的發(fā)展(國內(nèi))·2011年12月,工信部發(fā)布的物聯(lián)網(wǎng)十二五規(guī)劃上,把信息處理技術(shù)作為4項(xiàng)關(guān)鍵技術(shù)創(chuàng)新工程之一被提出來,其中包括了海量數(shù)據(jù)存儲、數(shù)據(jù)挖掘、圖像視頻智能分析,這些是大數(shù)據(jù)的重要組成部分?!?012年7月,為挖掘大數(shù)據(jù)的價值,阿里巴巴在管理層設(shè)立“首席數(shù)據(jù)官”一職,負(fù)責(zé)全面推進(jìn)“數(shù)據(jù)分享平臺”戰(zhàn)略,并推出大型的數(shù)據(jù)分享平臺——“聚石塔”,為電商及電商服務(wù)商等提供數(shù)據(jù)云服務(wù)?!?014年,“大數(shù)據(jù)”首次出現(xiàn)在當(dāng)年的《政府工作報告》中。《報告》中指出,要設(shè)立新興產(chǎn)業(yè)創(chuàng)業(yè)創(chuàng)新平臺,在大數(shù)據(jù)等方面趕超先進(jìn),引領(lǐng)未來產(chǎn)業(yè)發(fā)展?!?014年,國務(wù)院通過《企業(yè)信息公示暫行條例(草案)》,要求在企業(yè)部門間建立互聯(lián)共享信息平臺,運(yùn)用大數(shù)據(jù)等手段提升監(jiān)管水平,“大數(shù)據(jù)”成為國內(nèi)熱議詞匯。·2015年,大數(shù)據(jù)上升到國家戰(zhàn)略層面,我國政府于2015年8月通過了《關(guān)于促進(jìn)大數(shù)據(jù)發(fā)展的行動綱要》。·2015年10月26日至29日,黨的十八屆五中全會召開,公報提出要實(shí)施“國家大數(shù)據(jù)戰(zhàn)略”,這是大數(shù)據(jù)第一次寫入黨的全會決議,標(biāo)志著大數(shù)據(jù)戰(zhàn)略正式上升為國家戰(zhàn)略,五中全會開啟了大數(shù)據(jù)建設(shè)的新篇章?!龃髷?shù)據(jù)的發(fā)展演進(jìn)2014-2022年中國大數(shù)據(jù)重點(diǎn)法律法規(guī)和產(chǎn)業(yè)政策脈絡(luò)時間文件2014年3月大數(shù)據(jù)首次寫入政府工作報告2015年8月《促進(jìn)大數(shù)據(jù)發(fā)展的行動綱要》2016年3月《十三五規(guī)劃綱要》2016年12月《大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃(2016-2020年)》2017年10月十九大報告提出”推動大數(shù)據(jù)與實(shí)體經(jīng)濟(jì)深度融合“2017年12月中央政治局就實(shí)施國家大數(shù)據(jù)戰(zhàn)略進(jìn)行集體學(xué)習(xí)2019年3月大數(shù)據(jù)連續(xù)6年寫入工作報告2019年10月十九屆四中全會首次公開提出”數(shù)據(jù)可作為生產(chǎn)要素按貢獻(xiàn)參與分配“2020年4月《關(guān)于構(gòu)建更加完善的要素市場化配置體質(zhì)機(jī)制的意見》2020年5月《關(guān)于新時代加快完善社會主義市場經(jīng)濟(jì)體制的意見》2021年3月《十三屆全國人大四次會議政府工作報告》2021年3月《國民經(jīng)濟(jì)和社會發(fā)展第十四個五年規(guī)劃和2035年遠(yuǎn)景目標(biāo)綱要》2021年10月《國家標(biāo)準(zhǔn)化發(fā)展綱要》2021年11月《“十四五”軟件和信息技術(shù)服務(wù)業(yè)發(fā)展規(guī)劃》2021年11月《“十四五”大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃》2022年1月《“十四五”數(shù)字經(jīng)濟(jì)發(fā)展規(guī)劃》2022年3月《2022年國務(wù)院政府工作報告》2022年10月《全國一體化政務(wù)大數(shù)據(jù)體系建設(shè)指南》2022年10月《關(guān)于數(shù)字經(jīng)濟(jì)發(fā)展情況的報告》■大數(shù)據(jù)的發(fā)展演進(jìn)口大數(shù)據(jù)的發(fā)展(國內(nèi)政策文件)□數(shù)據(jù)的發(fā)展階段一起步階段·
數(shù)據(jù)庫被發(fā)明之后,使得數(shù)據(jù)管理的復(fù)雜度大大降低。各行各業(yè)開始產(chǎn)生了數(shù)據(jù),從而被記錄在數(shù)據(jù)庫中。
·這個階段的數(shù)據(jù),以結(jié)構(gòu)化數(shù)據(jù)為主。數(shù)據(jù)的產(chǎn)生方式,也是被動的。一轉(zhuǎn)變階段·伴隨著互聯(lián)網(wǎng)2.0時代出現(xiàn)的?;ヂ?lián)網(wǎng)2.0的最重要標(biāo)志,就是用戶原創(chuàng)內(nèi)容?!るS著互聯(lián)網(wǎng)和某著名企業(yè)通信設(shè)備的普及,人們開始使用博客、臉書、微博、QQ
空間等社交網(wǎng)絡(luò),從而主動產(chǎn)生了大量的數(shù)據(jù)。-
加
速
階
段·
是萬物互聯(lián)和數(shù)字化轉(zhuǎn)型階段。隨著物聯(lián)網(wǎng)的發(fā)展,各種各樣的感知層節(jié)點(diǎn)(傳感器、攝像頭等)開始自動產(chǎn)生大量的數(shù)據(jù),
實(shí)現(xiàn)物理世界向數(shù)字世界的映射。
大數(shù)據(jù)的發(fā)展演進(jìn)第一階段(1960s開始)第二階段(1990s開始)第三階段(2015s開始)數(shù)據(jù)源業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫數(shù)據(jù)倉庫數(shù)據(jù)湖+外部數(shù)據(jù)數(shù)據(jù)與業(yè)務(wù)關(guān)系隨機(jī)、離散常態(tài)化、體系化、外掛式全域、敏捷、嵌入式分析方法圖表統(tǒng)計BI分析BI+Al對決策的影響輔助決策增強(qiáng)決策自動決策
大數(shù)據(jù)的發(fā)展演進(jìn)口大數(shù)據(jù)應(yīng)用的三大階段來源:中國信息通信研究院口大數(shù)據(jù)面臨的挑戰(zhàn)一、需求模糊業(yè)務(wù)部門需求模糊,企業(yè)處于觀望狀態(tài),擔(dān)心投入回報。二、數(shù)據(jù)孤島政府部門或企業(yè)數(shù)據(jù)碎片化,無法相互打通,沒有進(jìn)行關(guān)聯(lián)和整合,無法發(fā)揮數(shù)據(jù)價值。三、數(shù)據(jù)流失企業(yè)保存數(shù)據(jù)的成本較高,導(dǎo)致大量的有價值歷史數(shù)據(jù)被遺棄,數(shù)據(jù)資產(chǎn)流失。四
、數(shù)據(jù)質(zhì)量差企業(yè)忽視了大數(shù)據(jù)的預(yù)處理階段,導(dǎo)致數(shù)據(jù)處理很不規(guī)范,影響了數(shù)據(jù)的準(zhǔn)確率和可用性。五
、數(shù)據(jù)安全隱患安全威脅日益增加,對系統(tǒng)和數(shù)據(jù)進(jìn)行保護(hù)的難度也隨之增加。六、隱私保護(hù)隱私權(quán)益保護(hù)的法律法規(guī)越來越嚴(yán)格,企業(yè)需要進(jìn)行合規(guī)審計,合理合法地進(jìn)行數(shù)據(jù)收集和利用。七、人才缺乏大數(shù)據(jù)相關(guān)人才的欠缺,對大數(shù)據(jù)技術(shù)和市場發(fā)展形成了一定阻礙。
大數(shù)據(jù)的發(fā)展演進(jìn)口大數(shù)據(jù)的未來趨勢·
資產(chǎn)化大數(shù)據(jù)價值不斷提升,在企業(yè)和社會層面成為重要的戰(zhàn)略資源、無形資產(chǎn)?!?/p>
智能化大數(shù)據(jù)將更加智能化,可以自動進(jìn)行數(shù)據(jù)處理和分析,提高數(shù)據(jù)處理效率和質(zhì)量?!?/p>
個性化大數(shù)據(jù)將更加關(guān)注用戶需求,實(shí)現(xiàn)個性化服務(wù)和定制化產(chǎn)品?!?/p>
可視化大數(shù)據(jù)將更加注重數(shù)據(jù)可視化,通過圖表、報表等方式將數(shù)據(jù)呈現(xiàn)給用戶,以實(shí)現(xiàn)用戶對數(shù)據(jù)的直觀理解。·
安全性大數(shù)據(jù)將更加注重數(shù)據(jù)安全,采用更加嚴(yán)格的數(shù)據(jù)保護(hù)措施,確保數(shù)據(jù)的安全性和隱私性。
大數(shù)據(jù)的發(fā)展演進(jìn)PART
大數(shù)據(jù)的產(chǎn)業(yè)鏈聚合數(shù)據(jù)
分析數(shù)據(jù)企業(yè)自身
企業(yè)自身獨(dú)立數(shù)據(jù)聚合商
第三方分析服務(wù)提供商存儲提供商/存儲服務(wù)提供商商業(yè)智能、搜索的軟件/服務(wù)供應(yīng)商■大數(shù)據(jù)的產(chǎn)業(yè)鏈口數(shù)據(jù)的價值鏈消費(fèi)數(shù)據(jù)企業(yè)自身政府用戶行業(yè)用戶消費(fèi)者用戶生產(chǎn)數(shù)據(jù)數(shù)據(jù)源外部數(shù)據(jù)源價值鏈大數(shù)據(jù)平臺數(shù)據(jù)中臺數(shù)據(jù)采集
數(shù)據(jù)存儲數(shù)據(jù)集成數(shù)據(jù)處理數(shù)據(jù)分析數(shù)據(jù)可視化基礎(chǔ)硬件
計
算
存儲
網(wǎng)絡(luò)基礎(chǔ)軟件
數(shù)據(jù)庫中間件操作系統(tǒng)數(shù)據(jù)源企業(yè)數(shù)據(jù)
政府?dāng)?shù)據(jù)行業(yè)聯(lián)盟數(shù)據(jù)
第三方數(shù)據(jù)數(shù)據(jù)交易■大數(shù)據(jù)的產(chǎn)業(yè)鏈行業(yè)應(yīng)用通用應(yīng)用口大數(shù)據(jù)的產(chǎn)業(yè)鏈銀行證券產(chǎn)品研發(fā)商業(yè)零售廣告營銷政務(wù)治理市場調(diào)研工業(yè)制造客戶服務(wù)教育醫(yī)療資源管理應(yīng)
用
層
技術(shù)層
基
礎(chǔ)
層方法和工具:數(shù)據(jù)采集、數(shù)據(jù)分析(流處理、交互查句,批處理、機(jī)器學(xué)習(xí)、人工智能、隱私計算)云計算資源管理平臺IT軟件及云平臺
IT硬件基礎(chǔ)設(shè)施■大數(shù)據(jù)的產(chǎn)業(yè)鏈口
大數(shù)據(jù)的產(chǎn)業(yè)鏈企業(yè)預(yù)處理和加工
數(shù)據(jù)分析和治理數(shù)據(jù)資源價值評估數(shù)據(jù)確權(quán)數(shù)據(jù)定價數(shù)據(jù)交易安全保障安全管理安全服務(wù)安全邊界安全計算政府?dāng)?shù)據(jù)可視化消費(fèi)者數(shù)據(jù)采集來源:大數(shù)據(jù)產(chǎn)業(yè)聯(lián)盟,賽迪顧問等數(shù)據(jù)應(yīng)用
數(shù)據(jù)服務(wù)
基礎(chǔ)支撐價值個數(shù)據(jù)應(yīng)用融合數(shù)據(jù)數(shù)據(jù)流通高質(zhì)量數(shù)據(jù)局部數(shù)據(jù)
數(shù)據(jù)管理低質(zhì)量數(shù)據(jù)數(shù)據(jù)存儲與計算
數(shù)據(jù)源(文件、視頻、音頻、文字.)口大數(shù)據(jù)的產(chǎn)業(yè)價值核心領(lǐng)域數(shù)據(jù)安全領(lǐng)域潛在作用與價值制造業(yè)產(chǎn)品故障診斷與預(yù)測、改進(jìn)生產(chǎn)工藝,優(yōu)化生產(chǎn)過程能耗、優(yōu)化供應(yīng)鏈等。電商行業(yè)掌握消費(fèi)者需求,進(jìn)行精準(zhǔn)營銷,提升銷售業(yè)績。金融行業(yè)進(jìn)行風(fēng)險預(yù)測和客戶分析,提高風(fēng)險控制和客戶服務(wù)水平。交通領(lǐng)域通過交通數(shù)據(jù)分析,合理的規(guī)則出行道路,分析人流高峰,調(diào)控信息燈,提高運(yùn)行能力。教育領(lǐng)域可以收集學(xué)生的學(xué)習(xí)數(shù)據(jù),優(yōu)化教學(xué)過程和方法,從而實(shí)現(xiàn)個性化教學(xué),提高成績。某著名企業(yè)行業(yè)利用大數(shù)據(jù)技術(shù)實(shí)現(xiàn)客戶離網(wǎng)分析,及時掌握客戶離網(wǎng)傾向,出臺客戶挽留措施。能源行業(yè)分析用戶用電模式,可以改進(jìn)某著名企業(yè)運(yùn)行,合理設(shè)計電力需求響應(yīng)系統(tǒng),確保某著名企業(yè)運(yùn)行安全。物流行業(yè)利用大數(shù)據(jù)優(yōu)化物流網(wǎng)絡(luò),提高物流效率,降低物流成本。生物醫(yī)學(xué)進(jìn)行流行病預(yù)測、智慧醫(yī)療、健康管理,提升醫(yī)療系統(tǒng)效率。安全領(lǐng)域構(gòu)建安全保障體系,抵御網(wǎng)絡(luò)攻擊,加強(qiáng)系統(tǒng)防御能力。體育娛樂尋找薄弱環(huán)節(jié),幫助訓(xùn)練隊員,提升競技運(yùn)動成績。■大數(shù)據(jù)的產(chǎn)業(yè)鏈口大數(shù)據(jù)的應(yīng)用領(lǐng)域醫(yī)療健康庫口大數(shù)據(jù)的市場規(guī)模-2022年,我國大數(shù)據(jù)產(chǎn)業(yè)規(guī)模達(dá)到1.57萬億元,同比增長18%,成為推動數(shù)字經(jīng)濟(jì)發(fā)展的重要力量。-預(yù)計未來三年保持15%以上的年均增速,到2023年底產(chǎn)業(yè)規(guī)模超過10000億元。-其中,基礎(chǔ)設(shè)施市場規(guī)模約為3000億元左右,占比約為19%;數(shù)據(jù)服務(wù)市場規(guī)模約為5000億元左右,占比
約為32%;融合應(yīng)用市場規(guī)模約為7200億元左右,占比約為49%。-2022年,我國互聯(lián)網(wǎng)大數(shù)據(jù)市場規(guī)模達(dá)到2887.4億元,占整個大數(shù)據(jù)產(chǎn)業(yè)規(guī)模的45.2%,是最大的應(yīng)用領(lǐng)域。
-2022年,我國政府大數(shù)據(jù)市場規(guī)模達(dá)到926億元,占整個大數(shù)據(jù)產(chǎn)業(yè)規(guī)模的14.5%,是第二大應(yīng)用領(lǐng)域。-2022年,我國金融大數(shù)據(jù)市場規(guī)模達(dá)到601.6億元,占整個大數(shù)據(jù)產(chǎn)業(yè)規(guī)模的9.4%,是第三大應(yīng)用領(lǐng)域。數(shù)據(jù)來源:尚普咨詢PART
大數(shù)據(jù)的關(guān)鍵技術(shù)■大數(shù)據(jù)的關(guān)鍵技術(shù)口大數(shù)據(jù)的技術(shù)演進(jìn)197019801998關(guān)系型數(shù)據(jù)庫
MPP
架
構(gòu)
NoSQL少量行業(yè)信息化
互聯(lián)網(wǎng)興起
某著名企業(yè)互聯(lián)網(wǎng)興起數(shù)據(jù)存儲與計算領(lǐng)域技術(shù)發(fā)展歷程來源:中國信息通信研究院2010
20132014jStorm
Spark
Flink
Streaming2003-20062006
2009GFS
Hadoop
SparkMapReduceBigTable2017-2019Delta
Lake、Hudi、Icebery2013-2017云原生
一體化數(shù)據(jù)平臺2020湖倉一體2010數(shù)據(jù)湖概念2006
數(shù)據(jù)湖云計算2010分布式流處理1980-1991數(shù)據(jù)倉庫理論2000分布式
批處理數(shù)據(jù)庫1960少量、結(jié)構(gòu)化數(shù)據(jù)的
分析處理大量、非結(jié)構(gòu)化數(shù)據(jù)
的高效分析處理大量、非結(jié)構(gòu)化數(shù)據(jù)
的分析處理口大數(shù)據(jù)的技術(shù)演進(jìn)·
1960年代,能夠統(tǒng)一管理和共享數(shù)據(jù)的數(shù)據(jù)庫管理系統(tǒng)(DBMS)
誕生;·
1990年代,為滿足企業(yè)數(shù)據(jù)分析的訴求,數(shù)據(jù)倉庫誕生;·
2000年代,以Hadoop為代表的大數(shù)據(jù)技術(shù)體系誕生,大數(shù)據(jù)研究框架成型;·2010年代,在云技術(shù)的帶動下,云上純托管的存儲系統(tǒng)逐步取代HDFS,
開始出現(xiàn)數(shù)據(jù)湖;
·2020年代,開始逐漸走向“云湖共生”、“湖倉一體”。
大數(shù)據(jù)的關(guān)鍵技術(shù)數(shù)據(jù)抽取、轉(zhuǎn)換、裝載過程數(shù)據(jù)相互轉(zhuǎn)移海量結(jié)構(gòu)化存儲系統(tǒng)海量非結(jié)構(gòu)化存儲系統(tǒng)分布式文件系統(tǒng)機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、語義搜索動態(tài)圖表、可視化數(shù)據(jù)采集數(shù)據(jù)預(yù)處理
大數(shù)據(jù)的關(guān)鍵技術(shù)口大數(shù)據(jù)的處理過程數(shù)據(jù)分析挖掘結(jié)果展現(xiàn)數(shù)據(jù)存儲口數(shù)據(jù)預(yù)處理與存儲大數(shù)據(jù)的預(yù)處理環(huán)節(jié)包括:·
數(shù)據(jù)清理主要就是初步對數(shù)據(jù)進(jìn)行,不一致檢測、噪聲數(shù)據(jù)識別、數(shù)據(jù)過濾、修正等,進(jìn)一步提高數(shù)據(jù)的準(zhǔn)確性、真實(shí)性、可用性等
·
數(shù)據(jù)集成就是將多個數(shù)據(jù)源的數(shù)據(jù)進(jìn)行集成,從而形成集中、統(tǒng)一的數(shù)據(jù)庫·
數(shù)據(jù)歸約是指在不損害分析結(jié)果準(zhǔn)確性的前提下,通過維歸約、數(shù)量歸約、數(shù)據(jù)抽樣等技術(shù),提高大數(shù)據(jù)存儲的價值性
·數(shù)據(jù)轉(zhuǎn)換處理通過轉(zhuǎn)換實(shí)現(xiàn)數(shù)據(jù)統(tǒng)一、這一過程有利于提升大數(shù)據(jù)的一致性和可用性大數(shù)據(jù)存儲主要是利用分布式文件系統(tǒng)、數(shù)據(jù)倉庫、關(guān)系數(shù)據(jù)庫、NoSql數(shù)據(jù)庫、云數(shù)據(jù)庫等實(shí)現(xiàn)對結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化海量數(shù)據(jù)的存儲和管理
大數(shù)據(jù)的關(guān)鍵技術(shù)Oozie(作業(yè)流調(diào)度系統(tǒng))Hive(數(shù)據(jù)倉庫)實(shí)時分布式MapReduce(分布式計算框架)YARN(集群資源管理系統(tǒng))(日志收集工具)HDFS
(分布式文件系統(tǒng))Ambari(安裝、部署、配置和管理工具)Zookeeper
分布式
協(xié)作服務(wù)■大數(shù)據(jù)的關(guān)鍵技術(shù)口大數(shù)據(jù)的技術(shù)架構(gòu)Spark
SQL(結(jié)構(gòu)化數(shù)據(jù))Spark(內(nèi)存計算框架)Storm(流式計算框架)Tez(DAG
計算框架)Pig(數(shù)據(jù)流處理)Sqoop(數(shù)據(jù)庫ETL工具)Mahout(數(shù)據(jù)挖掘庫)數(shù)據(jù)庫HbaseFlume■大數(shù)據(jù)的關(guān)鍵技術(shù)口大數(shù)據(jù)的技術(shù)起源GoogleHadoopGFSHDFSMapReduce
—
MapReduceBigTable
HBaseHDFS分布式文件系統(tǒng)MapReduce分布式計算框架HBase實(shí)時分布式數(shù)據(jù)庫java,python,scala....Linuxflume、kafka、logstash、filebeat..HDFS、hbase、redis...hive
、sparksql
、presto
、kylin
、impala
、durid
、clickhouse
、greeplum.storm、spark
stream、flink..分布式協(xié)調(diào)器—
—zookeeper資源管理器
—yarn
、mesos調(diào)度管理器
—
—
0ozie、azkaban、airflow、dalphineschduler基礎(chǔ)能力數(shù)據(jù)采集數(shù)據(jù)存儲數(shù)據(jù)查詢數(shù)據(jù)計算其它
大數(shù)據(jù)的關(guān)鍵技術(shù)口大數(shù)據(jù)的技術(shù)棧大數(shù)據(jù)技術(shù)?!?/p>
Hadoop-Hadoop是一個開發(fā)和運(yùn)行處理大規(guī)模數(shù)據(jù)的軟件平臺。-它
是Apache的一個用java語言實(shí)現(xiàn)開源軟件框架,實(shí)現(xiàn)在大量計算機(jī)組成的集群中對海量數(shù)據(jù)進(jìn)
行分布式計算。-Hadoop框架中的核心:HDFS和MapReduce?!DFS提供了海量數(shù)據(jù)的存儲;
大數(shù)據(jù)的關(guān)鍵技術(shù)·MapReduce提供了對數(shù)據(jù)的計算?!?/p>
Hadoop的優(yōu)點(diǎn)-
高可靠性:Hadoop
的基因來自Google
。Google最擅長的事情,就是“垃圾利用”。Google起家的時候就是窮,買不起高端服務(wù)器,所以,特別喜歡在普通電腦上部署這種大型系統(tǒng)。雖然硬件不可靠,但是系統(tǒng)非??煽?。-
高擴(kuò)展性:Hadoop
是在可用的計算機(jī)集群間分配數(shù)據(jù)并完成計算任務(wù)的,這些集群可以方便地進(jìn)行擴(kuò)展。說白了,
想變大很容易。-
高
效
性
:Hadoop能夠在節(jié)點(diǎn)之間動態(tài)地某著名企業(yè)數(shù)據(jù),并保證各個節(jié)點(diǎn)的動態(tài)平衡,因此處理速度非常快。-
高容錯性:Hadoop能夠自動保存數(shù)據(jù)的多個副本,并且能夠自動將失敗的任務(wù)重新分配。這個其實(shí)也算是高可靠性。-
低成本:Hadoop是開源的,依賴于社區(qū)服務(wù),使用成本比較低。
大數(shù)據(jù)的關(guān)鍵技術(shù)□HDFS(HadoopDistributed
FileSystem)-HDFS
是Hadoop項(xiàng)目的核心子項(xiàng)目,是分布式計算中數(shù)據(jù)存儲管理的基礎(chǔ),是基于流數(shù)據(jù)模式訪
問和處理超大文件的需求而開發(fā)的,可以運(yùn)行于廉價的商用服務(wù)器上。-HDFS
源于
Google在2003年10月份發(fā)表的GFS(Google
FileSystem)
論文。它其實(shí)就是
GFS
的一個克隆版本。
大數(shù)據(jù)的關(guān)鍵技術(shù)□
HDFS(Hadoop
Distributed
FileSystem)NameNode:
是Master節(jié)點(diǎn)(主節(jié)點(diǎn)),可以看作是分布式文件系統(tǒng)中的管理者,主要負(fù)責(zé)管理文件系統(tǒng)的命名空間、集群配置信息和存儲塊
的
復(fù)
制
等
。NameNode
會將文件系統(tǒng)的Meta-data
存儲在內(nèi)存中,這些信息主要包括了文件信息、每一個文件對應(yīng)的文件塊的信息和每一個文件塊
在DataNode
的信息等。·DataNode:
是Slave節(jié)點(diǎn)(從節(jié)點(diǎn)),是文件存儲的基本單元,它將Block存儲在本地文件系統(tǒng)中,保存了Block的Meta-data,同時周期性地將
所有存在的Block
信息發(fā)送給NameNode?!lient:
切分文件;訪問HDFS;與
NameNode
交互,獲得文件位置信息;與DataNode
交互,讀取和寫入數(shù)據(jù)。ClientNameNodeNetworkingDataNode
DataNode-整個HDFS有三個重要角色:NameNode
(名稱節(jié)點(diǎn))、DataNode(數(shù)據(jù)節(jié)點(diǎn))和Client(客戶機(jī))。·
大數(shù)據(jù)的關(guān)鍵技術(shù)DataNodeDataNodeTCPIP1用戶向Client
(客戶機(jī))提出請求。例如,需要寫入200MB的數(shù)據(jù)。2Client制定計劃:將數(shù)據(jù)按照64MB為塊,進(jìn)行切割;所有的塊都保存三份。3Client將大文件切分成塊
(block)。4針對第一個塊,Client告訴NameNode
(主控節(jié)點(diǎn)),請幫助我,將64MB
的塊復(fù)制三份。5
NameNode告訴Client三個DataNode(數(shù)據(jù)節(jié)點(diǎn))的地址,并且將它們根據(jù)到Client的距離,進(jìn)行了排序。6Client把數(shù)據(jù)和清單發(fā)給第一個DataNode。7第
一個DataNode將數(shù)據(jù)復(fù)制給第二個DataNode。8第二個DataNode將數(shù)據(jù)復(fù)制給第三個DataNode。9如果某一個塊的所有數(shù)據(jù)都已寫入,就會向NameNode
反饋已完成。
②③10對第二個Block,
也進(jìn)行相同的操作。11所有Block都完成后,關(guān)閉文件。NameNode會將數(shù)據(jù)持久化到磁盤上。
大數(shù)據(jù)的關(guān)鍵技術(shù)□
HDFS寫入流程⑧DataNode2⑦DataNode1⑨
⑨
⑨?NameNode··
·
·
·
·
·
·
·
·
·Client⑩④⑤⑥①□
HDFS讀取流程·
1用戶向Client提出讀取請求?!?/p>
2Client向NameNode請求這個文件的所有信息?!?NameNode將給Client這個文件的塊列表,以及存儲各個塊的數(shù)據(jù)節(jié)點(diǎn)清單(按照和客戶端的距離排序)。
·
4Client從距離最近的數(shù)據(jù)節(jié)點(diǎn)下載所需的塊。④
④
④DataNode1
DataNode2DataNode3■大數(shù)據(jù)的關(guān)鍵技術(shù)②③NameNodeClient①□
MapReduce-MapReduce
是一個使用簡單的軟件框架,基于它寫出來的應(yīng)用程序能夠運(yùn)行在由上千個商用機(jī)器組成的大型集群上,并以一種可靠容錯式并行處理TB
級別的數(shù)據(jù)集。-MapReduce
是面向大規(guī)模數(shù)據(jù)并行處理的計算模型、框架和平臺,包含如下3個層面的含義:
·MapReduce
是一個并行程序的設(shè)計模型與方法;·MapReduce是一個并行程序運(yùn)行的軟件框架;·MapReduce是一個基于集群的高性能并行計算平臺。
大數(shù)據(jù)的關(guān)鍵技術(shù)□
MapReduce-MapReduce
其實(shí)是一種編程模型。這個模型的核心步驟主要分兩部分:Map
(映射)和Reduce
(歸約)。-當(dāng)
你向MapReduce框架提交一個計算作業(yè)時,它會首先把計算作業(yè)拆分成若干個Map任務(wù),然后分配到不同的節(jié)點(diǎn)上去執(zhí)行,每一個Map
任務(wù)處理輸入數(shù)據(jù)中的一部分,當(dāng)Map任務(wù)完成后,它會生成一些中間文件,這些中間文件將會作為Reduce
任務(wù)的輸入數(shù)據(jù)。Reduce
任務(wù)的主要目標(biāo)就是把前面若干個Map
的輸出匯總到一起并輸出。
大數(shù)據(jù)的關(guān)鍵技術(shù)mergeReduceReduce輸出region0
region1
region2
region3region4輸入region0region1region2region3
region4MapMapMap■大數(shù)據(jù)的關(guān)鍵技術(shù)□
MapReducecopysort□HBase-HBase
是構(gòu)建在HDFS
之上的分布式列存儲數(shù)據(jù)庫-HBase
是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng)。一
利用HBase技術(shù),可以在廉價PCServer上搭建起大規(guī)模結(jié)構(gòu)化存儲集群。-HBase
是GoogleBigtable的開源實(shí)現(xiàn),利用HadoopMapReduce來處理HBase中的海量數(shù)據(jù),利用Zookeeper作為協(xié)同服務(wù)。大數(shù)據(jù)的關(guān)鍵技術(shù)□
YARN-YARN是
Hadoop2.x
版本新引入的資源管理系統(tǒng),直接從MR1演化而來。-YARN是一種新的Hadoop
資源管理器,它是一個通用資源管理系統(tǒng),可為上層應(yīng)用提供統(tǒng)一的資源管理和調(diào)度。-YARN的引入,大大改進(jìn)了集群的利用率、資源統(tǒng)一管理和數(shù)據(jù)共享等方面。-YARN
的核心思想:將MR1中JobTracker的資源管理和作業(yè)調(diào)度兩個功能分開,由以下進(jìn)程實(shí)現(xiàn):·ResourceManager:
負(fù)責(zé)整個集群的資源管理和調(diào)度?!pplicationMaster:負(fù)責(zé)應(yīng)用程序相關(guān)的事務(wù),比如任務(wù)調(diào)度、任務(wù)監(jiān)控和容錯等。大數(shù)據(jù)的關(guān)鍵技術(shù)□ZooKeeper-ZooKeeper是一種為分布式應(yīng)用所設(shè)計的高可用、高性能且一致的開源協(xié)調(diào)服務(wù)。-ZooKeeper
提供了分布式鎖服務(wù),在此基礎(chǔ)上,又提供了配置維護(hù)、組服務(wù)、分布式消息隊列、分布
式通知/協(xié)調(diào)等。-ZooKeeper
的目標(biāo):封裝好復(fù)雜的關(guān)鍵服務(wù),將簡單接口和性能高效、功能穩(wěn)定的系統(tǒng)提供給用戶。
大數(shù)據(jù)的關(guān)鍵技術(shù)□
Hive一由FaceBook開源,最初用于解決海量結(jié)構(gòu)化的日志數(shù)據(jù)統(tǒng)計問題,可以作為ETL工具。
一它是構(gòu)建在Hadoop
之上的數(shù)據(jù)倉庫。一它定義了一種類SQL
的查詢語言——HQL。一它適合離線數(shù)據(jù)處理。一它是將HQL轉(zhuǎn)換為MR
的語言翻譯器。
大數(shù)據(jù)的關(guān)鍵技術(shù)□
Sqoop-Sqoop
名字的來源:SQL-to-Hadoop。-Sqoop
是連接傳統(tǒng)數(shù)據(jù)庫和Hadoop的橋梁。·把關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)導(dǎo)入hadoop或者與其相關(guān)的系統(tǒng)比如HDFS
、hive
、HBase。
·把hadoop中的數(shù)據(jù)抽取出來,導(dǎo)入到關(guān)系型數(shù)據(jù)庫中。-Sqoop的設(shè)計思想:利用MapReduce加快數(shù)據(jù)傳輸速度。
大數(shù)據(jù)的關(guān)鍵技術(shù)□
Flume-Flume
是Cloudera提供的一個高可用的、高可靠的、分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng)。
-Flume支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);-Flume提供對數(shù)據(jù)進(jìn)行簡單處理并寫到各種數(shù)據(jù)接受方的能力。
大數(shù)據(jù)的關(guān)鍵技術(shù)□
Spark-Spark
是一種通用的大數(shù)據(jù)計算框架。-Spark
基于內(nèi)存進(jìn)行計算,速度可以達(dá)到MapReduce
的數(shù)倍甚至數(shù)十倍。-Spark主要用于大數(shù)據(jù)的計算,而Hadoop
主要用于大數(shù)據(jù)的存儲(HDFS),
以及資源調(diào)度
(Yarn)。一在實(shí)際工作中,
一般都會把S
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 養(yǎng)護(hù)人員管理辦法
- 養(yǎng)老補(bǔ)貼管理辦法
- 獸藥分類管理辦法
- 內(nèi)部分配管理辦法
- 內(nèi)部電話管理辦法
- 冒名登記管理辦法
- 軍工認(rèn)定管理辦法
- 農(nóng)業(yè)展會管理辦法
- 農(nóng)技人員管理辦法
- 農(nóng)村產(chǎn)業(yè)管理辦法
- 變電站設(shè)備巡視課件
- 貨運(yùn)司機(jī)勞動合同范文5篇
- 藥品不良反應(yīng)與藥害事件報告、處置流程圖
- 貴州省公民文明手冊
- GB/T 28137-2011農(nóng)藥持久起泡性測定方法
- 青藍(lán)工程師徒結(jié)對師傅總結(jié)9篇
- GB 4696-2016中國海區(qū)水上助航標(biāo)志
- 超限超載危害及法律責(zé)任課件
- 高空作業(yè)安全培訓(xùn)課程課件
- 農(nóng)業(yè)行政處罰中違法所得實(shí)務(wù)分析課件
- 傳染病疫情演練腳本
評論
0/150
提交評論