數(shù)據(jù)湖倉(cāng)基礎(chǔ)知識(shí)_第1頁(yè)
數(shù)據(jù)湖倉(cāng)基礎(chǔ)知識(shí)_第2頁(yè)
數(shù)據(jù)湖倉(cāng)基礎(chǔ)知識(shí)_第3頁(yè)
數(shù)據(jù)湖倉(cāng)基礎(chǔ)知識(shí)_第4頁(yè)
數(shù)據(jù)湖倉(cāng)基礎(chǔ)知識(shí)_第5頁(yè)
已閱讀5頁(yè),還剩49頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)湖倉(cāng)基礎(chǔ)知識(shí)2025年5月26日

R1.0

版數(shù)據(jù)倉(cāng)庫(kù)

數(shù)據(jù)湖

數(shù)據(jù)湖倉(cāng)目

錄CONTENTSPART

數(shù)據(jù)倉(cāng)庫(kù)上世紀(jì)70年代,關(guān)系數(shù)據(jù)庫(kù)(傳統(tǒng)數(shù)據(jù)庫(kù)的主要類(lèi)型)剛剛崛起時(shí),美國(guó)康奈比爾

·恩門(mén)

(Bill

Innmon,

也有譯為比爾·

因蒙)就開(kāi)始定義和討論數(shù)據(jù)倉(cāng)庫(kù)這一術(shù)語(yǔ)。1988年,

IBM研究人員巴里

·德夫林

(BarryDevlin)

和鮑爾

·

(PaulMurphy),聯(lián)合發(fā)表了文章《商業(yè)和信息系統(tǒng)的架構(gòu)》,其中引入了“商業(yè)數(shù)據(jù)倉(cāng)庫(kù)”一詞。他們還開(kāi)發(fā)了一種叫做“業(yè)務(wù)數(shù)據(jù)倉(cāng)庫(kù)”的系統(tǒng)。幾年后,1990年,美國(guó)科學(xué)家拉爾夫

·金博爾

(RalphKimball)創(chuàng)立了Red

Brick

Systems

公司,推出專(zhuān)門(mén)用于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)庫(kù)管理系統(tǒng)Red

Brick

Warehouse。1991年,

比爾

·恩門(mén)創(chuàng)立了PrismSolutions公司,推出用于開(kāi)發(fā)數(shù)據(jù)倉(cāng)庫(kù)的軟件PrismWarehouseManager。同年,比爾

·恩門(mén)正式出版了數(shù)據(jù)倉(cāng)庫(kù)的經(jīng)典著作——《構(gòu)建數(shù)據(jù)庫(kù)倉(cāng)庫(kù)》,標(biāo)志著數(shù)據(jù)倉(cāng)

庫(kù)概念的正式確立。他也被譽(yù)為“數(shù)據(jù)倉(cāng)庫(kù)之父”?!鯏?shù)據(jù)倉(cāng)庫(kù)的誕生比爾

·

恩門(mén)□數(shù)據(jù)倉(cāng)庫(kù)的定義數(shù)據(jù)倉(cāng)庫(kù),英文全稱(chēng)Data

Warehouse,簡(jiǎn)稱(chēng)DW

或DWH。比爾·恩門(mén)在《構(gòu)建數(shù)據(jù)庫(kù)倉(cāng)庫(kù)》書(shū)中給出的數(shù)據(jù)倉(cāng)庫(kù)的定義——·數(shù)據(jù)倉(cāng)庫(kù),是一個(gè)面向主題的

(Subject

Oriented)、集成的(Integrated)

、

相對(duì)穩(wěn)定的

(Non-Volatile)

、

反映歷史變化

(TimeVariant)

的數(shù)據(jù)集合,用于支持管理決策

(DecisionMakingSupport)?!鯏?shù)據(jù)倉(cāng)庫(kù)的特征支持管理決策·

描述:簡(jiǎn)單來(lái)說(shuō),傳統(tǒng)數(shù)據(jù)庫(kù)主要是員工使用,支撐某項(xiàng)具體的工作(例如收銀系統(tǒng)等)。而數(shù)據(jù)倉(cāng)庫(kù)主

要是管理層使用,用于掌握宏觀(guān)情況,以便做出更合理的決策?!?/p>

總結(jié):數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)戰(zhàn)略級(jí)的工具。它通常用于商業(yè)智能

(Business

Intelligence,簡(jiǎn)

稱(chēng)BI)和決策支

持,可以幫助企業(yè)從大量數(shù)據(jù)中獲得有價(jià)值的信息,增加洞察能力?!?/p>

目的:增加收入、提升效率、降低成本。□數(shù)據(jù)倉(cāng)庫(kù)的特征面向主題·

描述:傳統(tǒng)數(shù)據(jù)庫(kù),圍繞具體的工作(應(yīng)用)來(lái)組織數(shù)據(jù),用于一個(gè)明確的事務(wù)。例如進(jìn)銷(xiāo)存數(shù)據(jù)庫(kù)、考

勤數(shù)據(jù)庫(kù)、財(cái)務(wù)數(shù)據(jù)庫(kù)等。而數(shù)據(jù)倉(cāng)庫(kù),是按照主題來(lái)組織數(shù)據(jù)的。所謂主題,是一個(gè)特定的業(yè)務(wù)領(lǐng)域,

或者一個(gè)明確的分析目標(biāo),例如銷(xiāo)售分析主題、員工敬業(yè)度主題,學(xué)生在校表現(xiàn)主題等等。主題的范圍更大

,level

(層級(jí))更高?!?/p>

總結(jié):數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù),是多個(gè)傳統(tǒng)數(shù)據(jù)庫(kù)的集合和“拉通”。它把不同數(shù)據(jù)庫(kù)表單的信息挑選整合在一起,

提供了一個(gè)更全面的數(shù)據(jù)呈現(xiàn)?!?/p>

目的:適合支持管理者做決策和分析?!鯏?shù)據(jù)倉(cāng)庫(kù)的特征集成·描述:數(shù)據(jù)倉(cāng)庫(kù)可以整合來(lái)自多個(gè)不同數(shù)據(jù)源(企業(yè)數(shù)據(jù)庫(kù)、供應(yīng)商數(shù)據(jù)庫(kù)、渠道商數(shù)據(jù)庫(kù)等)的數(shù)據(jù)?!た偨Y(jié):數(shù)據(jù)倉(cāng)庫(kù)可以包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)等,但主要還是以結(jié)構(gòu)化數(shù)據(jù)為主。·

目的:提供一個(gè)更全面的視角,以便服務(wù)于分析和決策。架構(gòu)化數(shù)據(jù)非架構(gòu)化數(shù)據(jù)半架構(gòu)化數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)□數(shù)據(jù)倉(cāng)庫(kù)的特征相對(duì)穩(wěn)定·

描述:數(shù)據(jù)一旦被加載到數(shù)據(jù)倉(cāng)庫(kù)中,通常不會(huì)更新或修改,確保了數(shù)據(jù)的穩(wěn)定性和用于長(zhǎng)期分析的可靠性?!?/p>

總結(jié):數(shù)據(jù)倉(cāng)庫(kù)所涉及的操作,主要是數(shù)據(jù)查詢(xún),而不是修改。數(shù)據(jù)查詢(xún)數(shù)據(jù)修改□數(shù)據(jù)倉(cāng)庫(kù)的特征反映歷史變化·描述:傳統(tǒng)數(shù)據(jù)庫(kù),一般都是數(shù)據(jù)更新。寫(xiě)入新數(shù)據(jù),替換舊數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)不一樣,它保存了大量的歷史

數(shù)

據(jù)

?!つ?/p>

業(yè)

時(shí)

度,

業(yè)

務(wù)

發(fā)

勢(shì)

。OrderyPaymenaDatawarehouseContactPoaduc■

數(shù)據(jù)倉(cāng)庫(kù)□數(shù)據(jù)倉(cāng)庫(kù)的參考架構(gòu)原始數(shù)據(jù)層

(ODS,Operation

Data

Store):也叫數(shù)據(jù)引入層、操作數(shù)據(jù)層、數(shù)據(jù)準(zhǔn)備層或貼源層,用于采集和存儲(chǔ)原始數(shù)據(jù)。數(shù)據(jù)公共層

(CDMmon

Data

Model)

:又分為基礎(chǔ)層/明細(xì)層

(DWD,DW

Detail)、匯總層/服務(wù)層(DWS,DW

Service)、公共維度層

(DIM)

。DWD

對(duì)源數(shù)據(jù)進(jìn)行清洗以便將其加載到數(shù)據(jù)倉(cāng)庫(kù)中。DWS將經(jīng)過(guò)清洗和轉(zhuǎn)換后的數(shù)據(jù)并輕度匯總。DIW

用于保存維度信息,用于建模。數(shù)據(jù)應(yīng)用層

(ADS,Application

Data

Service):主要功能是保存結(jié)果數(shù)據(jù),為外部系統(tǒng)提供查詢(xún)接口,用于滿(mǎn)足特定的商業(yè)智能、數(shù)據(jù)挖掘和報(bào)表應(yīng)用。數(shù)據(jù)應(yīng)用BI

報(bào)表展示

數(shù)據(jù)挖掘ADS

數(shù)據(jù)應(yīng)用層CDM

層DWS

數(shù)據(jù)匯總層DWD

數(shù)據(jù)明細(xì)層ODS

原始數(shù)據(jù)層ETL過(guò)程數(shù)據(jù)源企業(yè)數(shù)據(jù)

供應(yīng)商數(shù)據(jù)數(shù)據(jù)產(chǎn)品元數(shù)據(jù)管理DIM公共維度層數(shù)據(jù)安全運(yùn)營(yíng)運(yùn)維數(shù)據(jù)倉(cāng)庫(kù)公共數(shù)據(jù)……從不同的數(shù)據(jù)源系統(tǒng)中抽取數(shù)據(jù)。定期進(jìn)行的(例如每天或每周)。提高數(shù)據(jù)質(zhì)量和一致性。清洗包括修正錯(cuò)誤、去除重復(fù)項(xiàng)、處理缺失值等。轉(zhuǎn)換則是將數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一

的格式,以便在數(shù)據(jù)倉(cāng)庫(kù)中進(jìn)行有效存儲(chǔ)和查詢(xún)。采用特定的數(shù)據(jù)模型,對(duì)數(shù)據(jù)進(jìn)行組織和存儲(chǔ),設(shè)計(jì)數(shù)據(jù)表。選擇合適的模型,可以簡(jiǎn)化數(shù)據(jù)查詢(xún)和分析過(guò)程,提高查詢(xún)性能。通常采用大容量、高性能的存儲(chǔ)系統(tǒng),以滿(mǎn)足大量數(shù)據(jù)的存儲(chǔ)和查詢(xún)需求。數(shù)據(jù)倉(cāng)庫(kù)的存

儲(chǔ)結(jié)構(gòu)通常針對(duì)查詢(xún)性能進(jìn)行了優(yōu)化,如列式存儲(chǔ)、索引等。ETL后

數(shù)

據(jù)

會(huì)

數(shù)

據(jù)

倉(cāng)

庫(kù)

。

。根據(jù)需要

,

還可能會(huì)進(jìn)一步加工

,

例如聚合

摘要和索引創(chuàng)建

,

以?xún)?yōu)化查詢(xún)性能

。支持各種數(shù)據(jù)分析和報(bào)表工具,如商業(yè)智能、SQL

詢(xún)

、OLAP

、

數(shù)據(jù)挖掘等。用戶(hù)可以通過(guò)這些工具,對(duì)數(shù)據(jù)進(jìn)行深入分析,找到其中的規(guī)律和趨勢(shì)。需要注意數(shù)據(jù)安全和訪(fǎng)問(wèn)控制。確保數(shù)據(jù)的安全性和合規(guī)性,防止數(shù)據(jù)和濫用。數(shù)據(jù)抽取數(shù)據(jù)清洗和轉(zhuǎn)換數(shù)據(jù)建模數(shù)據(jù)存儲(chǔ)數(shù)據(jù)加載數(shù)據(jù)訪(fǎng)問(wèn)與分析數(shù)據(jù)安全和訪(fǎng)問(wèn)控制□數(shù)據(jù)倉(cāng)庫(kù)的工作流□數(shù)據(jù)倉(cāng)庫(kù)的工作流——數(shù)據(jù)建模數(shù)據(jù)倉(cāng)庫(kù)建模中,比較有代表性的兩類(lèi)方法論是Ralph

Kimball的建模方法論和Bill

Inmon建模方法論。Ralph

Kimball的維度建模方法論:是一種常用的數(shù)據(jù)倉(cāng)庫(kù)建模方法,它強(qiáng)調(diào)使用星型模型、雪花模型、星座模型來(lái)設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)。Bill

Inmon的建模方法論:認(rèn)為企業(yè)數(shù)據(jù)倉(cāng)庫(kù)應(yīng)為原子數(shù)據(jù)的集成倉(cāng)庫(kù),應(yīng)用第三范式和ER

模型而非維度建模的事實(shí)表、維度表來(lái)建模。星型模型

雪花模型產(chǎn)品表產(chǎn)品ID產(chǎn)品名稱(chēng)

產(chǎn)品類(lèi)別

產(chǎn)品價(jià)格

產(chǎn)品顏色客戶(hù)ID客戶(hù)名稱(chēng)

客戶(hù)電話(huà)

客戶(hù)年齡

客戶(hù)性別顧

表產(chǎn)

表產(chǎn)品ID

產(chǎn)品名稱(chēng)

產(chǎn)品類(lèi)別

產(chǎn)品價(jià)格

產(chǎn)品顏色客戶(hù)ID客戶(hù)名稱(chēng)

客戶(hù)電話(huà)

客戶(hù)年齡

客戶(hù)性別顧

表供

應(yīng)

表產(chǎn)品ID供應(yīng)商名稱(chēng)

供應(yīng)商位置

供應(yīng)商規(guī)模產(chǎn)品ID產(chǎn)品原料

產(chǎn)品產(chǎn)地日

表時(shí)間ID日期月份年份商店ID

商店地址

商店面積

商店類(lèi)型商

表日

表時(shí)間ID日期月份年份商店ID商店地址

商店面積

商店類(lèi)型商

表□數(shù)據(jù)倉(cāng)庫(kù)的工作流——數(shù)據(jù)建模時(shí)間ID

商店ID

產(chǎn)品ID客戶(hù)ID銷(xiāo)售額

支付方式事

實(shí)

表時(shí)間ID商店ID產(chǎn)品ID客戶(hù)ID銷(xiāo)售額

支付方式事

實(shí)

表□數(shù)據(jù)倉(cāng)庫(kù)的工作流——數(shù)據(jù)建模元數(shù)據(jù):·

元數(shù)據(jù)是描述數(shù)據(jù)的數(shù)據(jù)?!?/p>

元數(shù)據(jù)中包括了數(shù)據(jù)存儲(chǔ)位置、數(shù)據(jù)格式、數(shù)據(jù)模式、數(shù)據(jù)分布等信息?!?/p>

它用以描述數(shù)據(jù)倉(cāng)庫(kù)內(nèi)數(shù)據(jù)的結(jié)構(gòu)、位置和建立方法,便于數(shù)據(jù)倉(cāng)庫(kù)的管理和使用。□數(shù)據(jù)倉(cāng)庫(kù)的工作流——數(shù)據(jù)加載

ETL

的定義:·抽取

(Extract):主要負(fù)責(zé)從各種數(shù)據(jù)源(如關(guān)系型數(shù)據(jù)庫(kù)、文件、API

接口等)中捕獲和收集數(shù)據(jù)。在這個(gè)過(guò)程中,需要考慮到數(shù)據(jù)的完整性、一致性和準(zhǔn)確性,確保抽取到的數(shù)據(jù)是可靠且有效的?!まD(zhuǎn)換

(Transform)

:在數(shù)據(jù)抽取完成后,接下來(lái)就是對(duì)數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)換和整合。這個(gè)過(guò)程包括了對(duì)數(shù)據(jù)的去重、格式轉(zhuǎn)換、錯(cuò)誤修正、

數(shù)據(jù)關(guān)聯(lián)、計(jì)算等操作,以確保數(shù)據(jù)符合目標(biāo)數(shù)據(jù)倉(cāng)庫(kù)的規(guī)范和要求?!?/p>

加載

(Load):主要將經(jīng)過(guò)轉(zhuǎn)換處理后的數(shù)據(jù)加載到目標(biāo)數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中。在這個(gè)過(guò)程中,需要考慮到數(shù)據(jù)的加載效率、數(shù)據(jù)的完

整性和安全性等因素?!鯏?shù)據(jù)倉(cāng)庫(kù)的工作流——數(shù)據(jù)加載

ETL的發(fā)展階段:·手工化階段:在早期階段,主要通過(guò)開(kāi)發(fā)人員手動(dòng)編寫(xiě)代碼來(lái)實(shí)現(xiàn)數(shù)據(jù)的抽取、轉(zhuǎn)換和加載。這種方式雖然靈活,但效率低下,且難以維護(hù)和擴(kuò)展?!すぞ呋A段:隨著技術(shù)的某省市面上出現(xiàn)了ETL

工具,如Informatica、OracleDataIntegrator、Talend等。這些工具提供了圖形化界面和豐富的功能,大大降低了開(kāi)發(fā)人員的工作量,提高了ETL

過(guò)程的效率和可維護(hù)性。·

自動(dòng)化與智能化階段:近年來(lái),隨著大數(shù)據(jù)和人工智能技術(shù)的興起,

ETL過(guò)程也在向自動(dòng)化和智能化方向發(fā)展。一些先進(jìn)的ETL

工具已經(jīng)能夠自動(dòng)識(shí)別數(shù)據(jù)源中的模式和規(guī)律,實(shí)現(xiàn)數(shù)據(jù)的智能抽取和轉(zhuǎn)換。也能夠通過(guò)自動(dòng)化工具實(shí)現(xiàn)ETL

任務(wù)的調(diào)度、監(jiān)控和告警等功能,進(jìn)一步提高了ETL

過(guò)程的效率和穩(wěn)定性。對(duì)比維度傳統(tǒng)數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)方式面向事務(wù)的設(shè)計(jì)面向主題的設(shè)計(jì)設(shè)計(jì)目的支持業(yè)務(wù)操作和日常事務(wù)處理支持企業(yè)數(shù)據(jù)分析和決策數(shù)據(jù)特點(diǎn)當(dāng)前數(shù)據(jù)、細(xì)節(jié)化、短期存儲(chǔ)歷史數(shù)據(jù)、聚合、長(zhǎng)期存儲(chǔ)主要應(yīng)用場(chǎng)景OLTP在線(xiàn)事務(wù)處理OLAP在線(xiàn)分析處理時(shí)效性實(shí)時(shí)性要求高實(shí)時(shí)性要求低操作特點(diǎn)數(shù)據(jù)更新修改較多不做數(shù)據(jù)更新成本建設(shè)和維護(hù)成本低建設(shè)和維護(hù)成本高■

數(shù)據(jù)倉(cāng)庫(kù)□數(shù)據(jù)倉(cāng)庫(kù)和傳統(tǒng)數(shù)據(jù)庫(kù)的對(duì)比□某省市

(Data

Mart)

的定義某省市可以認(rèn)為是數(shù)據(jù)倉(cāng)庫(kù)的子集,是專(zhuān)用于特定業(yè)務(wù)部門(mén)或功能的數(shù)據(jù)系統(tǒng)。某省市的數(shù)據(jù)是從數(shù)據(jù)倉(cāng)庫(kù)中提取并進(jìn)一步加工得到的。數(shù)

據(jù)

數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)應(yīng)用報(bào)表展示數(shù)據(jù)分析數(shù)據(jù)挖掘數(shù)據(jù)查詢(xún)操作數(shù)據(jù)存儲(chǔ)數(shù)據(jù)倉(cāng)庫(kù)某省市ODSDWDM1

DM2ETL抽取(Extract)轉(zhuǎn)換(Transform)

裝載(Load)外部數(shù)據(jù)數(shù)據(jù)日志數(shù)據(jù)元數(shù)據(jù)管理□某省市

(Data

Mart)

的優(yōu)點(diǎn)·

規(guī)模小:

由于只包含與特定主題相關(guān)的數(shù)據(jù),因此某省市的規(guī)模相對(duì)較小,建和維護(hù)?!?/p>

數(shù)據(jù)深:

某省市可以滿(mǎn)足特定部門(mén)或用戶(hù)的需求,提供更加詳細(xì)和深入的數(shù)據(jù)支持。·

響應(yīng)快:

因?yàn)樗臄?shù)據(jù)量相對(duì)較小且針對(duì)特定需求進(jìn)行了優(yōu)化,所以能夠提供更快的查詢(xún)響應(yīng)時(shí)間。·

建設(shè)周期短:

數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)周期較長(zhǎng),

一般需要數(shù)個(gè)月甚至一年以上。某省市由于規(guī)模較小且面向特

定需求,所以建設(shè)周期通常較短,可以快速實(shí)現(xiàn)并投入使用?!れ`活性高:某省市的數(shù)據(jù)模型和結(jié)構(gòu)可以根據(jù)特定需求進(jìn)行調(diào)整,具有較高的靈活性?!?/p>

成本低:

某省市的實(shí)現(xiàn)成本相對(duì)較低,因?yàn)槠鋽?shù)據(jù)量和復(fù)雜度較數(shù)據(jù)倉(cāng)庫(kù)低?!鯏?shù)據(jù)倉(cāng)庫(kù)的發(fā)展趨勢(shì)·發(fā)展早期,數(shù)據(jù)倉(cāng)庫(kù)基本上就是基于傳統(tǒng)數(shù)據(jù)庫(kù)產(chǎn)品(例如Oracle)進(jìn)行構(gòu)建。數(shù)據(jù)倉(cāng)庫(kù)最早也是離線(xiàn)的,數(shù)據(jù)源通過(guò)離線(xiàn)方

式導(dǎo)入到離線(xiàn)數(shù)據(jù)倉(cāng)庫(kù)中。·

進(jìn)入21世紀(jì),有了大數(shù)據(jù)技術(shù)(Hadoop、Spark

等)。就開(kāi)始將這些技術(shù)引入到數(shù)據(jù)倉(cāng)庫(kù),通過(guò)MapReduce、Hive、SparkSQL

等離線(xiàn)計(jì)算引擎進(jìn)行數(shù)據(jù)處理,處理效率有了明顯提升?!?/p>

2010年左右,發(fā)展出了Lambda

架構(gòu)(離線(xiàn)+實(shí)時(shí)結(jié)合)和Kappa

架構(gòu)(批流

一體)。·近年,發(fā)展出了基于MPP

數(shù)據(jù)庫(kù)和數(shù)據(jù)湖的實(shí)時(shí)數(shù)倉(cāng)架構(gòu)。這些架構(gòu)支持高性能并行處理,支持復(fù)雜查詢(xún)。在處理能力和效率上已經(jīng)今非昔比,能夠幫助企業(yè)更及時(shí)、更準(zhǔn)確地進(jìn)行決策。從部署方面來(lái)看,數(shù)據(jù)倉(cāng)庫(kù)也有變化。以前是本地單機(jī)部署,后來(lái)是分布式部署,再后來(lái),云計(jì)算崛起,就是云部署?!つ?/p>

發(fā)

:Al與數(shù)據(jù)系統(tǒng)的深度結(jié)合。讓數(shù)據(jù)倉(cāng)庫(kù)能夠更智能地處理和分析數(shù)據(jù),提高數(shù)據(jù)的準(zhǔn)確性和可靠性。PART

數(shù)據(jù)湖□數(shù)據(jù)湖的定義數(shù)據(jù)湖,英文名叫做Data

Lake。數(shù)據(jù)湖和數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)一樣,是一種存儲(chǔ)和處理數(shù)據(jù)的平臺(tái)。更準(zhǔn)確來(lái)說(shuō),數(shù)據(jù)湖是一個(gè)技術(shù)體系。它不是某一個(gè)具體的產(chǎn)品,而是一種架構(gòu),包括了很多的技術(shù)和組件。□數(shù)據(jù)湖的誕生背景2010年10月,在紐約的Hadoop

World大會(huì)上,Pentaho公司創(chuàng)始人及CTO

詹姆斯

·迪克森(James

Dixon)

率先提出了數(shù)據(jù)湖的概念。詹姆斯·迪克森之所以提出數(shù)據(jù)湖,主要是為了推廣自家的Pentaho

產(chǎn)品。Pentaho

是一個(gè)BI(BusinessIntelligence,商業(yè)智能)分析組件,嘗試將當(dāng)時(shí)新興的Hadoop

技術(shù)應(yīng)用于數(shù)據(jù)倉(cāng)庫(kù),以此解決數(shù)據(jù)倉(cāng)庫(kù)

的能力不足問(wèn)題?!鯏?shù)據(jù)湖的誕生背景數(shù)據(jù)倉(cāng)庫(kù)正式誕生于1990年左右,到2010年,已經(jīng)無(wú)法跟上時(shí)代。數(shù)據(jù)倉(cāng)庫(kù)(包括某省市)會(huì)對(duì)來(lái)自數(shù)據(jù)源的數(shù)據(jù)進(jìn)行預(yù)處理和篩選。所以,在進(jìn)行數(shù)據(jù)分析和數(shù)據(jù)價(jià)值

挖掘時(shí),會(huì)面臨幾個(gè)問(wèn)題:·數(shù)據(jù)被預(yù)處理過(guò),只保留了指定的屬性。分析時(shí),只能回答之前預(yù)設(shè)的問(wèn)題。·數(shù)據(jù)被篩選過(guò),很多底層的細(xì)節(jié)被篩除了。分析時(shí),無(wú)法獲得這些信息。·隨著當(dāng)時(shí)互聯(lián)網(wǎng)的高速發(fā)展,非結(jié)構(gòu)化數(shù)據(jù)以及半結(jié)構(gòu)化數(shù)據(jù)迅猛增長(zhǎng)。數(shù)據(jù)倉(cāng)庫(kù)主要以處理結(jié)構(gòu)化的數(shù)據(jù)為主,無(wú)法很好地滿(mǎn)足需求。換言之,數(shù)據(jù)倉(cāng)庫(kù)是把所有數(shù)據(jù)源的數(shù)據(jù),按一開(kāi)始制定的規(guī)則,進(jìn)行了處理,變成了產(chǎn)品,缺乏靈活性?!鯏?shù)據(jù)湖的誕生背景數(shù)據(jù)湖解決了以下問(wèn)題:數(shù)據(jù)湖中的數(shù)據(jù)接近原生,內(nèi)容齊全,屬性完整。應(yīng)用層在使用數(shù)據(jù)時(shí),可以基于需求,進(jìn)行靈活設(shè)計(jì)。

數(shù)據(jù)信息未被篩選,底層細(xì)節(jié)都在,可以盡可能還原業(yè)務(wù)(也是為了更好地分析)。結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化,所有數(shù)據(jù)都能保存和處理,滿(mǎn)足互聯(lián)網(wǎng)時(shí)代發(fā)展的需要。數(shù)據(jù)孤島問(wèn)題。企業(yè)各個(gè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)都放在一起了,當(dāng)然也就沒(méi)有孤島了,可以開(kāi)發(fā)橫跨多個(gè)系

統(tǒng)的數(shù)據(jù)應(yīng)用。□數(shù)據(jù)湖的誕生背景2011年,CITO

Research網(wǎng)站的CTO

和作家丹·

伍德斯(Dan

Woods)

也力推數(shù)據(jù)湖的概念。他指出:“如果我們把數(shù)據(jù)比作大自然的水,那么各個(gè)江川河流的水加工,源源不斷地匯聚到數(shù)據(jù)湖中?!睘槭裁唇小皵?shù)據(jù)湖”?而不是“數(shù)據(jù)池”、“數(shù)據(jù)河”、“數(shù)據(jù)?!?·

“數(shù)據(jù)池”太小,體現(xiàn)不出數(shù)據(jù)的大量。·

“數(shù)據(jù)河”是流動(dòng)的,數(shù)據(jù)無(wú)法保存。·

“數(shù)據(jù)?!睕](méi)有邊界。數(shù)據(jù)湖是屬于企業(yè)的,需要邊界,需要注意隱私和安全?!?/p>

數(shù)據(jù)湖的主要特征·

數(shù)據(jù)的多樣性:數(shù)據(jù)湖可以存儲(chǔ)多種類(lèi)型的數(shù)據(jù),包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。這符

合了物聯(lián)網(wǎng)、社交媒體和某著名企業(yè)互聯(lián)網(wǎng)的時(shí)代需求。數(shù)據(jù)湖有利于企業(yè)發(fā)展A業(yè)務(wù),例如機(jī)器學(xué)習(xí)、生成式

人工智能等?!?/p>

處理的實(shí)時(shí)性:數(shù)據(jù)湖采用的是讀時(shí)模式

(Schema-On-Read)。只需加載原始數(shù)據(jù),然后,當(dāng)準(zhǔn)備使用

數(shù)據(jù)時(shí),再定義它?!?/p>

容量更大:數(shù)據(jù)湖具有海量的數(shù)據(jù)存儲(chǔ)能力。數(shù)據(jù)湖基于分布式存儲(chǔ)系統(tǒng)構(gòu)建,能夠靈活擴(kuò)展,可以輕松

應(yīng)對(duì)PB

級(jí)甚至EB

級(jí)的數(shù)據(jù)量?!?/p>

成本更低:數(shù)據(jù)湖往往基于開(kāi)源軟件和廉價(jià)硬件構(gòu)建,而且部署在云環(huán)境中,成本大幅下降,減少了企業(yè)

的投資?!?/p>

應(yīng)用的多樣化:

企業(yè)用戶(hù)可以進(jìn)行批處理分析、實(shí)時(shí)流處理分析和交互式分析,滿(mǎn)足不同業(yè)務(wù)場(chǎng)景的需求。數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)湖優(yōu)點(diǎn)·

數(shù)據(jù)體系嚴(yán)格,提前建模·

數(shù)據(jù)治理容易·

向特定引擎開(kāi)放,高度優(yōu)化·

靈活性較高·

數(shù)據(jù)種類(lèi)豐富(結(jié)構(gòu)/半結(jié)構(gòu)/非結(jié)構(gòu))·

成本較低缺點(diǎn)·

靈活性較低·

數(shù)據(jù)種類(lèi)單一(結(jié)構(gòu)化為主)·

成本較高·

數(shù)據(jù)體系松散,事后建?!?/p>

數(shù)據(jù)治理困難·

向所有引擎開(kāi)放,各引擎有限優(yōu)化主要作用·面向成熟數(shù)據(jù)的企業(yè)級(jí)分析與處理·面向異構(gòu)數(shù)據(jù)的科學(xué)探查與價(jià)值挖掘■

數(shù)據(jù)湖□數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)源

ETL數(shù)據(jù)源BI分析報(bào)表查詢(xún)BI分析報(bào)表查詢(xún)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)湖某省市按需□數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)特征數(shù)據(jù)湖數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)類(lèi)型結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化主要是結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)原始數(shù)據(jù)存儲(chǔ),等待被查詢(xún)和分析時(shí)加工經(jīng)過(guò)加工的數(shù)據(jù),符合預(yù)先定義的架構(gòu)處理方式ELT(提取、加載、轉(zhuǎn)換)ETL(提取、轉(zhuǎn)換、加載)靈活性高,可以存儲(chǔ)任何形式的數(shù)據(jù),不需要預(yù)先定義架構(gòu)較低,需要預(yù)先定義數(shù)據(jù)架構(gòu)目標(biāo)用戶(hù)數(shù)據(jù)科學(xué)家、分析師、開(kāi)發(fā)人員業(yè)務(wù)分析師、決策者分析目的探素性分析、機(jī)器學(xué)習(xí)、大數(shù)據(jù)處理標(biāo)準(zhǔn)報(bào)告、業(yè)務(wù)智能、績(jī)效指標(biāo)分析數(shù)據(jù)治理與質(zhì)量相對(duì)較松,依賴(lài)用戶(hù)對(duì)數(shù)據(jù)的掌握程度較為嚴(yán)格,確保數(shù)據(jù)質(zhì)量和一致性數(shù)據(jù)模式模式在讀(Schema-on-Read)模式在寫(xiě)(Schema-on-Write)可擴(kuò)展性高,容數(shù)據(jù)量的增長(zhǎng)受到架構(gòu)和設(shè)計(jì)的限制成本通常成本較低,尤其在初期存儲(chǔ)大量原始數(shù)據(jù)時(shí)高,由于需要大量預(yù)處理和維護(hù)預(yù)定義的架構(gòu)查詢(xún)性能可能需要更多的處理時(shí)間,因?yàn)閿?shù)據(jù)在查詢(xún)時(shí)才進(jìn)行

加工,但適合復(fù)雜分析快速,數(shù)據(jù)已經(jīng)過(guò)優(yōu)化以支持快速查詢(xún)□數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)□數(shù)據(jù)湖面對(duì)的挑戰(zhàn)·

性能數(shù)據(jù)湖的數(shù)據(jù)量很大,數(shù)據(jù)格式也很雜。缺乏一致的數(shù)據(jù)結(jié)構(gòu)和ACID(原子性、

一致性、隔離性和持久性)

事務(wù)支持,導(dǎo)致數(shù)據(jù)湖在滿(mǎn)足報(bào)告和分析需求時(shí)性能不佳?!?/p>

數(shù)據(jù)治理數(shù)據(jù)治理是數(shù)據(jù)湖的最核心要素(沒(méi)有之一),指對(duì)企業(yè)中數(shù)據(jù)的可用性、完整性和安全性的全面管理,以提升數(shù)據(jù)的質(zhì)量和可用性?!鯏?shù)據(jù)湖面對(duì)的挑戰(zhàn)——數(shù)據(jù)治理·我們可以將數(shù)據(jù)源的數(shù)據(jù)“倒入”數(shù)據(jù)湖,無(wú)需進(jìn)行處理。但是,“不處理”并不代表“不治理”、“不管理”?!?/p>

數(shù)據(jù)湖擁有海量數(shù)據(jù),管理元數(shù)據(jù)顯得更為重要。數(shù)據(jù)湖會(huì)建立一個(gè)數(shù)據(jù)目錄。數(shù)據(jù)目錄是元數(shù)據(jù)的集合,

可以理解為是一張“數(shù)據(jù)清單”。通過(guò)數(shù)據(jù)目錄,用戶(hù)可以搜索和發(fā)現(xiàn)數(shù)據(jù)湖中的數(shù)據(jù),提高數(shù)據(jù)的可訪(fǎng)問(wèn)

性和可發(fā)現(xiàn)性?!鯏?shù)據(jù)湖面對(duì)的挑戰(zhàn)——數(shù)據(jù)治理數(shù)據(jù)治理還需要關(guān)注數(shù)據(jù)質(zhì)量和數(shù)據(jù)合規(guī)。·

數(shù)據(jù)質(zhì)量:數(shù)據(jù)湖存儲(chǔ)的數(shù)據(jù),具有不同的質(zhì)量和精度,可能導(dǎo)致分析結(jié)果不準(zhǔn)確、不可靠。因此,需要

建立數(shù)據(jù)質(zhì)量系統(tǒng),確保數(shù)據(jù)的完整性、準(zhǔn)確性、

一致性以及標(biāo)準(zhǔn)化?!?/p>

數(shù)據(jù)合規(guī):

數(shù)據(jù)存儲(chǔ)和使用必須符合法律法規(guī),例如GDPR

(通用數(shù)據(jù)保護(hù)條例)、HIPAA

(健康保險(xiǎn)便

利和責(zé)任法案)等。數(shù)據(jù)合規(guī)一旦出問(wèn)題,可能導(dǎo)致數(shù)據(jù)、法律訴訟或巨額罰款,損害企業(yè)的聲譽(yù),

也帶來(lái)經(jīng)濟(jì)上的損失?!鯏?shù)據(jù)湖面對(duì)的挑戰(zhàn)——數(shù)據(jù)治理·

如果數(shù)據(jù)湖沒(méi)有得到妥善的治理,就會(huì)變成龐大的“數(shù)據(jù)沼澤”?!?/p>

數(shù)據(jù)沼澤是一種設(shè)計(jì)不良、未充分歸檔或未有效維護(hù)的數(shù)據(jù)湖。這些缺陷損害了檢索數(shù)據(jù)的能力,用戶(hù)無(wú)法

有效地分析和利用數(shù)據(jù)。盡管數(shù)據(jù)已經(jīng)存在,但如果沒(méi)有上下文元數(shù)據(jù),數(shù)據(jù)沼澤就無(wú)法檢索數(shù)據(jù)。·

數(shù)據(jù)沼澤無(wú)法發(fā)揮數(shù)據(jù)的價(jià)值,反而變成企業(yè)的累贅,浪費(fèi)資源?!?/p>

數(shù)據(jù)湖的架構(gòu)不同的方案提供商,會(huì)提出不同的數(shù)據(jù)湖架構(gòu)。但是,基本上都包括四個(gè)主要層次:·

數(shù)據(jù)攝取層(數(shù)據(jù)采集層)

:負(fù)責(zé)從各種數(shù)據(jù)源收集數(shù)據(jù),并將其傳輸?shù)綌?shù)據(jù)湖中。·

數(shù)據(jù)存儲(chǔ)層:

以原始格式存儲(chǔ)大規(guī)模的數(shù)據(jù)?!?/p>

數(shù)據(jù)管理層:

對(duì)數(shù)據(jù)進(jìn)行管理和組織,包括數(shù)據(jù)的分類(lèi)、編目、索引等功能。還要負(fù)責(zé)數(shù)據(jù)的安全和合規(guī)?!?/p>

數(shù)據(jù)訪(fǎng)問(wèn)層(數(shù)據(jù)分析層):提供各種工具和框架,支持用戶(hù)對(duì)數(shù)據(jù)湖中的數(shù)據(jù)進(jìn)行查詢(xún)、統(tǒng)計(jì)分析、機(jī)

器學(xué)習(xí)等操作?!?/p>

數(shù)據(jù)湖□數(shù)據(jù)湖的架構(gòu)數(shù)據(jù)源結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)非架構(gòu)化數(shù)據(jù)前

端工具與應(yīng)用大數(shù)據(jù)管理交互式查詢(xún)運(yùn)營(yíng)分析.計(jì)算引擎批處理流計(jì)算交互式機(jī)器學(xué)習(xí)任務(wù)管理目錄管理數(shù)據(jù)接入質(zhì)量管理更新集中式存儲(chǔ)流程編排數(shù)據(jù)溯源權(quán)限管理萃

淀數(shù)據(jù)湖數(shù)據(jù)湖管理用戶(hù)功能方向典型工具和組件數(shù)據(jù)存儲(chǔ)對(duì)象存儲(chǔ):

Amazon

S3、Azure

Data

Lake

Storage、Google

Cloud

Storage、阿里云OSS分布式文件系統(tǒng):HDFS數(shù)據(jù)處理與計(jì)算引擎批處理:Apache

Spark:支持大規(guī)模數(shù)據(jù)處理、SQL、機(jī)器學(xué)習(xí)的通用引擎。Apache

Hive:基于Hadoop的數(shù)據(jù)倉(cāng)庫(kù)工具,支持SQL查詢(xún)。流處理:Apache

Flink:低延遲的流處理框架,支持事件時(shí)間語(yǔ)義。Apache

Kafka

Streams:輕量級(jí)流處理庫(kù),與Kafka深度集成。交互式查詢(xún):Presto/Trino:分布式SQL查詢(xún)引擎,支持跨數(shù)據(jù)源快速分析。Dremio:基于數(shù)據(jù)湖的查詢(xún)加速引擎。數(shù)據(jù)湖表格式Apache

Iceberg:面向分析場(chǎng)景的表格式,支持事務(wù)、模式變更和時(shí)間旅行。Delta

Lake:Databricks開(kāi)源的表格式,深度集成Spark.Apache

Hudi:支持增量更新和刪除,適合流批一體場(chǎng)景。元數(shù)據(jù)管理AWS

Glue

Data

Catalog:云托管的元數(shù)據(jù)服務(wù),兼容Hive

Metastore.Apache

Hive

Metastore:傳統(tǒng)的元數(shù)據(jù)存儲(chǔ)服務(wù),常用于Hadoop生態(tài)。Nessie:支持Git-like分支和版本控制的元數(shù)據(jù)管理工具。數(shù)據(jù)治理與安全Apache

Atlas:元數(shù)據(jù)治理框架,支持?jǐn)?shù)據(jù)血緣和分類(lèi)。AWS

Lake

Formation:云上數(shù)據(jù)湖治理工具,統(tǒng)一權(quán)限和元數(shù)據(jù)管理。Open

Policy

Agent(OPA):統(tǒng)一策略管理工具,控制數(shù)據(jù)訪(fǎng)問(wèn)權(quán)限。Apache

Ranger:Hadoop生態(tài)的權(quán)限控制工具,支持細(xì)粒度訪(fǎng)問(wèn)控制。數(shù)據(jù)集成與攝取Apache

Kafka:實(shí)時(shí)數(shù)據(jù)管道,用于流式數(shù)據(jù)攝取。

Debezium:CDC(變更數(shù)據(jù)捕獲)工具,捕獲數(shù)據(jù)庫(kù)變更。AWS

DMS/Azure

Data

Factory:云服務(wù)的數(shù)據(jù)遷移和ETL工具?!鯏?shù)據(jù)湖的工具和組件□數(shù)據(jù)湖的架構(gòu)圍繞數(shù)據(jù)湖的技術(shù)組件和產(chǎn)品,一般來(lái)自四類(lèi)廠(chǎng)商:·

開(kāi)源解決方案·

云服務(wù)商(如亞馬遜AWS、華為云等)·

專(zhuān)業(yè)數(shù)據(jù)庫(kù)出身的廠(chǎng)商·

一些初創(chuàng)企業(yè)或團(tuán)隊(duì)PART

數(shù)據(jù)湖倉(cāng)□

數(shù)據(jù)湖倉(cāng)的定義數(shù)據(jù)湖倉(cāng)

(Data

Lakehouse),也被稱(chēng)為湖倉(cāng)一體。數(shù)據(jù)湖倉(cāng)是一種將數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖打通的新型開(kāi)放式架構(gòu)。數(shù)據(jù)湖倉(cāng)既具備數(shù)據(jù)湖的靈活性,也具備數(shù)據(jù)倉(cāng)庫(kù)的高性能及管理能力,為企業(yè)進(jìn)行數(shù)據(jù)治理帶來(lái)了更大的便利和更高的效率。數(shù)

據(jù)

湖數(shù)據(jù)湖倉(cāng)數(shù)據(jù)倉(cāng)庫(kù)□數(shù)據(jù)湖倉(cāng)的誕生數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖各有優(yōu)缺點(diǎn),有企業(yè)開(kāi)始考慮將兩者進(jìn)行結(jié)合。主要思路包括兩種:一種是讓數(shù)據(jù)倉(cāng)庫(kù)支持對(duì)數(shù)據(jù)湖的訪(fǎng)問(wèn)。還有一種,是讓數(shù)據(jù)湖具備數(shù)據(jù)倉(cāng)庫(kù)的一些能力。·前者比較有代表性的,是2017年Redshift推出的RedshiftSpectrum。它支持Redsit數(shù)據(jù)倉(cāng)庫(kù)用戶(hù)訪(fǎng)問(wèn)AWS

S3數(shù)據(jù)湖的數(shù)據(jù)?!ず笳哂写硇缘谋容^多,包括2017年Hortonworks

孵化出的Apache

Atlas和Ranger項(xiàng)目,2018年Nexflix開(kāi)源的增強(qiáng)版本元數(shù)據(jù)服務(wù)系統(tǒng)lceberg。2018-2019

,Uber

和Databricks相繼推出了ApacheHudi和DeltaLake,推出增量文件格式,用以

支持Update/lnsert、事務(wù)等數(shù)據(jù)倉(cāng)庫(kù)功能。所有這些嘗試和努力,都多多少少存在一些缺陷(數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖存在本質(zhì)的區(qū)別,整合難度很大),并不算成功?!?/p>

數(shù)據(jù)湖倉(cāng)的誕生2020年,數(shù)據(jù)智能獨(dú)角獸企業(yè)Databricks

(提出DeltaLake的公司,數(shù)據(jù)湖的代表企業(yè))正式提出了數(shù)據(jù)湖倉(cāng)

(Data

Lakehouse)

概念。Databricks聯(lián)合創(chuàng)始人兼首席執(zhí)行官阿里

·戈德西

(AliGhodsi)表示:“從長(zhǎng)遠(yuǎn)來(lái)看,所有數(shù)據(jù)倉(cāng)庫(kù)都將被納入數(shù)

據(jù)湖倉(cāng),這不會(huì)在一夜之間發(fā)生——這些東西會(huì)共存一段時(shí)間——在價(jià)格和性能上,數(shù)據(jù)湖倉(cāng)完勝數(shù)據(jù)倉(cāng)庫(kù)。”■

數(shù)據(jù)湖倉(cāng)□數(shù)據(jù)湖倉(cāng)的誕生數(shù)據(jù)倉(cāng)庫(kù)DataWarehouse1990-2010數(shù)據(jù)湖倉(cāng)Data

Lakehouse2020-現(xiàn)在數(shù)據(jù)湖Data

Lake2010-2020□數(shù)據(jù)湖倉(cāng)的特點(diǎn)數(shù)據(jù)湖倉(cāng)的特點(diǎn),其實(shí)就是數(shù)據(jù)倉(cāng)庫(kù)的優(yōu)點(diǎn)+數(shù)據(jù)湖的優(yōu)點(diǎn)。在數(shù)據(jù)存儲(chǔ)方面:繼承了數(shù)據(jù)湖的優(yōu)勢(shì),支持多樣化數(shù)據(jù),且以HDFS

或云對(duì)象存儲(chǔ)為基礎(chǔ),實(shí)現(xiàn)了低成本、高可用。在數(shù)據(jù)一致性方面:

供ACID

(原子性、一致性、隔離性、持久性)保證,確保數(shù)據(jù)寫(xiě)入的一致性,保證了多方同時(shí)讀取或?qū)懭霐?shù)據(jù)時(shí)的數(shù)據(jù)準(zhǔn)確性。在數(shù)據(jù)管理方面:數(shù)據(jù)湖倉(cāng)實(shí)現(xiàn)了統(tǒng)一的元數(shù)據(jù)管理,支持全鏈路血緣,提供統(tǒng)一的命名空間、全局的數(shù)據(jù)目錄。無(wú)論數(shù)據(jù)

存儲(chǔ)在何處,使用何種計(jì)算引擎,用戶(hù)都能通過(guò)統(tǒng)一的API進(jìn)行快速檢索、理解與訪(fǎng)問(wèn)數(shù)據(jù)。數(shù)據(jù)治理,變得非常高效。在數(shù)據(jù)安全方面:數(shù)據(jù)湖倉(cāng)一般還支持多租戶(hù)和庫(kù)表列級(jí)數(shù)據(jù)權(quán)限,能夠很好地進(jìn)行租戶(hù)隔離和數(shù)據(jù)權(quán)限管控,確保了數(shù)據(jù)的安全性和隱私性。維度數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)湖數(shù)據(jù)湖倉(cāng)(湖倉(cāng)一體)數(shù)據(jù)類(lèi)型結(jié)構(gòu)化數(shù)據(jù)為主任意類(lèi)型(原始數(shù)據(jù))結(jié)構(gòu)化+半結(jié)構(gòu)化存儲(chǔ)成本較高低中等處理模式Schema-on-WriteSchema-on-Read混合模式ACID符合不符合符合核心優(yōu)勢(shì)高性能分析、事務(wù)一致性靈活性、低成本存儲(chǔ)湖+倉(cāng)能力融合典型場(chǎng)景BI、報(bào)表機(jī)器學(xué)習(xí)、數(shù)據(jù)探索混合負(fù)載分析□數(shù)據(jù)湖倉(cāng)的特點(diǎn)□數(shù)據(jù)湖倉(cāng)的參考架構(gòu)早期是數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖獨(dú)立建設(shè)。后來(lái)逐漸形成了“湖上建倉(cāng)”與“倉(cāng)外掛湖”兩種實(shí)踐路徑:·

湖上建倉(cāng):是指基于數(shù)據(jù)湖架構(gòu),或者以數(shù)據(jù)湖作為數(shù)據(jù)存儲(chǔ)中間層,實(shí)現(xiàn)多源異構(gòu)數(shù)據(jù)的統(tǒng)一存儲(chǔ)。然后,以統(tǒng)一調(diào)

用接口方式調(diào)用計(jì)算引擎,最終實(shí)現(xiàn)上下結(jié)構(gòu)的湖倉(cāng)一體架構(gòu)?!?/p>

倉(cāng)外掛湖:是指以MPP數(shù)據(jù)庫(kù)為基礎(chǔ),使用可插拔架構(gòu),通過(guò)開(kāi)放接口對(duì)接外部存儲(chǔ),實(shí)現(xiàn)統(tǒng)一存儲(chǔ)。上層應(yīng)用

商業(yè)智能湖倉(cāng)數(shù)據(jù)治理安全管理數(shù)據(jù)湖數(shù)據(jù)源

結(jié)構(gòu)化數(shù)據(jù)分析統(tǒng)一湖倉(cāng)血緣統(tǒng)一元數(shù)據(jù)管理計(jì)算流動(dòng)半結(jié)構(gòu)化數(shù)據(jù)看板統(tǒng)一數(shù)據(jù)管理數(shù)據(jù)倉(cāng)庫(kù)非結(jié)構(gòu)化□數(shù)據(jù)湖倉(cāng)的參考架構(gòu)廠(chǎng)商數(shù)據(jù)湖倉(cāng)解決方案國(guó)外廠(chǎng)商亞馬

遜AWSRedshiftSpectrum某著名企業(yè)AzureAzureDatabricksDatabricksDatabricksLakehouseSnowflakeIceberg+Polaris國(guó)內(nèi)廠(chǎng)商阿里云Mapute+DataWorks騰訊云TCHouse+DLCServerlessSpark華為云Fusion

Insight星環(huán)科技TDH+ArgoDB鏡舟科技StarRocks+Paimon滴普科技FastData□數(shù)據(jù)湖倉(cāng)的參考架構(gòu)□數(shù)據(jù)湖倉(cāng)的參考架構(gòu)科杰的數(shù)據(jù)湖倉(cāng)架構(gòu):

企業(yè)級(jí)湖倉(cāng)一體解決方案平臺(tái)安全與監(jiān)控?cái)?shù)據(jù)源

統(tǒng)一存儲(chǔ)

批處理Hudi/Delta/lceberg

ETLHDFSERPCRMS3

實(shí)時(shí)處理Ganglia數(shù)據(jù)科學(xué)家數(shù)據(jù)分析師業(yè)務(wù)人員SaaS

服務(wù)API調(diào)用-C科本大數(shù)據(jù)圖片來(lái)自網(wǎng)絡(luò)Keberos

LDAPStaged30LSQL機(jī)器學(xué)習(xí)/人工智能AITensorflow

Spark

ML服務(wù)數(shù)據(jù)開(kāi)發(fā)管理

平臺(tái)數(shù)據(jù)資產(chǎn)目錄實(shí)時(shí)計(jì)算平臺(tái)數(shù)據(jù)科學(xué)平臺(tái)數(shù)據(jù)服務(wù)平臺(tái)圖形/視頻/音頻OSSIOT

設(shè)備EventStreamAnalysiseoNCETMATIa

oN

Si0ATA

sOLuTIONAzure

的數(shù)據(jù)湖倉(cāng)架構(gòu):

IngestAzu

u

entspaikbsEvHre■

數(shù)據(jù)湖倉(cāng)□數(shù)據(jù)湖倉(cāng)的參考架構(gòu)ServeAzure

Machine

LearningAzureDatabnicksSQLAnalyticsPower

BIProcessAzureDatabricksmlflowAzureSynapse

AnalyticsDELTALAKEStoreAzure

DataFactoryBrOnze

Sitver

GoldAzureDevOpsAzureKeyVaultAzure

Active

DirectoryMonitorand

governAzure

MonitorAzureCost

Managementand

Billing圖片來(lái)自網(wǎng)絡(luò)AzureKubenetesServicesAzureDataLake

StorageMicrosoft

AzureAzurePurview數(shù)據(jù)消費(fèi)層AthenaEMR

Glue數(shù)據(jù)處理層

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論