




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)湖數(shù)據(jù)湖是一個(gè)中央存儲(chǔ)庫(kù),可以大量存儲(chǔ)所有數(shù)據(jù)(結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù))。數(shù)據(jù)通常以原始格式存儲(chǔ),無(wú)需首先進(jìn)行處理或結(jié)構(gòu)化。在這種情況下,它可以針對(duì)手頭的目的進(jìn)行優(yōu)化和處理,無(wú)論是交互式分析、下游機(jī)器學(xué)習(xí)或分析應(yīng)用程序的儀表板??梢赃@樣想,數(shù)據(jù)湖就像一個(gè)大水體,比如說(shuō)一個(gè)處于自然狀態(tài)的湖。數(shù)據(jù)湖是使用來(lái)自各種來(lái)源的數(shù)據(jù)流創(chuàng)建的,然后,多個(gè)用戶可以來(lái)到湖中對(duì)其進(jìn)行檢查并取樣。數(shù)據(jù)湖的美妙之處在于每個(gè)人都在查看和操作相同的數(shù)據(jù)。消除多個(gè)數(shù)據(jù)源并在數(shù)據(jù)湖中擁有一個(gè)可引用的“黃金”數(shù)據(jù)集來(lái)保障組織內(nèi)的一致性,因?yàn)橛糜谠L問(wèn)組織中智能的任何其他下游存儲(chǔ)庫(kù)或技術(shù)都將同步。這很關(guān)鍵。使用這種集中的數(shù)據(jù)源,就不會(huì)從不同的孤島中提取數(shù)據(jù);組織中的每個(gè)人都有一個(gè)單一的事實(shí)來(lái)源。該模式為公司的分析生命周期提供了近乎無(wú)限的能力:攝?。簲?shù)據(jù)以任何原始格式到達(dá)并存儲(chǔ)以供將來(lái)分析或?yàn)?zāi)難恢復(fù)。公司通常會(huì)根據(jù)隱私、生產(chǎn)訪問(wèn)以及將利用傳入信息的團(tuán)隊(duì)來(lái)劃分多個(gè)數(shù)據(jù)湖。
存儲(chǔ):數(shù)據(jù)湖允許企業(yè)管理和組織幾乎無(wú)限量的信息。云對(duì)象存儲(chǔ)以較低的成本為大數(shù)據(jù)計(jì)算提供高可用性訪問(wèn)。
流程:借助云計(jì)算,基礎(chǔ)設(shè)施現(xiàn)在只需一個(gè)API調(diào)用即可。這是從數(shù)據(jù)湖中的原始狀態(tài)獲取數(shù)據(jù)并格式化以與其他信息一起使用的時(shí)候。這些數(shù)據(jù)也經(jīng)常使用高級(jí)算法進(jìn)行聚合、合并或分析。然后將數(shù)據(jù)推回?cái)?shù)據(jù)湖以供商業(yè)智能或其他應(yīng)用程序存儲(chǔ)和進(jìn)一步使用。
消費(fèi):當(dāng)我們談?wù)撟灾?wù)數(shù)據(jù)湖時(shí),消費(fèi)通常是生命周期中的階段。此時(shí),數(shù)據(jù)可供業(yè)務(wù)和客戶根據(jù)需要進(jìn)行分析。根據(jù)復(fù)雜用例的類型,最終用戶還可以間接或直接以預(yù)測(cè)(預(yù)測(cè)天氣、財(cái)務(wù)、運(yùn)動(dòng)表現(xiàn)等)或感知分析(推薦引擎、欺詐檢測(cè)、基因組測(cè)序、ETC)。
數(shù)據(jù)湖支持原生流,數(shù)據(jù)流在其中被處理并在到達(dá)時(shí)可用于分析。數(shù)據(jù)管道在從數(shù)據(jù)流接收數(shù)據(jù)時(shí)轉(zhuǎn)換數(shù)據(jù),并觸發(fā)分析所需的計(jì)算。數(shù)據(jù)湖的原生流式傳輸特性使其非常適合流式分析。數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)發(fā)明于1980年底,專為業(yè)務(wù)應(yīng)用程序生成的高度結(jié)構(gòu)化數(shù)據(jù)而設(shè)計(jì)。它將組織的所有數(shù)據(jù)集中在一起并以結(jié)構(gòu)化方式存儲(chǔ)。它通常用于連接和分析來(lái)自異構(gòu)來(lái)源的數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)依賴于數(shù)據(jù)結(jié)構(gòu)來(lái)支持高性能的SQL(結(jié)構(gòu)化查詢語(yǔ)言)操作。數(shù)據(jù)倉(cāng)庫(kù)是專門為基于SQL的訪問(wèn)而構(gòu)建和優(yōu)化的,以支持商業(yè)智能,但為流分析和機(jī)器學(xué)習(xí)提供有限的功能。它們受到ETL要求的限制,需要在存儲(chǔ)數(shù)據(jù)之前對(duì)其進(jìn)行預(yù)處理。
數(shù)據(jù)倉(cāng)庫(kù)在數(shù)據(jù)用于分析之前需要順序ETL攝取和轉(zhuǎn)換數(shù)據(jù),因此它們對(duì)于流式分析效率低下。一些數(shù)據(jù)倉(cāng)庫(kù)支持“微批處理”以經(jīng)常以小增量收集數(shù)據(jù)。它支持順序ETL操作,其中數(shù)據(jù)以瀑布模型從原始數(shù)據(jù)格式流向完全轉(zhuǎn)換的集合,并針對(duì)快速性能進(jìn)行了優(yōu)化。
數(shù)據(jù)倉(cāng)庫(kù)以專有格式存儲(chǔ)數(shù)據(jù)。一旦數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中,對(duì)該數(shù)據(jù)的訪問(wèn)僅限于SQL和數(shù)據(jù)倉(cāng)庫(kù)提供的自定義驅(qū)動(dòng)程序。一些較新的數(shù)據(jù)倉(cāng)庫(kù)支持半結(jié)構(gòu)化數(shù)據(jù),例如JSON、Parquet和XML文件;與結(jié)構(gòu)化數(shù)據(jù)集相比,它們對(duì)此類數(shù)據(jù)集的支持有限且性能下降。數(shù)據(jù)倉(cāng)庫(kù)不能完全支持存儲(chǔ)非結(jié)構(gòu)化數(shù)據(jù)。
數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)之間的區(qū)別
數(shù)據(jù)倉(cāng)庫(kù)和商業(yè)智能工具支持歷史數(shù)據(jù)的報(bào)告和分析,而數(shù)據(jù)湖支持利用數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)、預(yù)測(cè)和實(shí)時(shí)分析的新用例。雖然一些數(shù)據(jù)倉(cāng)庫(kù)擴(kuò)展了基于SQL的訪問(wèn)以提供機(jī)器學(xué)習(xí)功能,但它們不提供原生支持來(lái)運(yùn)行廣泛可用的程序化數(shù)據(jù)處理框架,例如ApacheSpark、Tensorflow等。
相比之下,數(shù)據(jù)湖是機(jī)器學(xué)習(xí)用例的理想選擇。它們不僅提供基于SQL的數(shù)據(jù)訪問(wèn),還通過(guò)Python、Scala、Java等語(yǔ)言為ApacheSpark和Tensorflow等編程分布式數(shù)據(jù)處理框架提供原生支持。
數(shù)據(jù)倉(cāng)庫(kù)需要在數(shù)據(jù)用于分析之前順序ETL攝取和轉(zhuǎn)換數(shù)據(jù),因此它們對(duì)于流式分析效率低下。一些數(shù)據(jù)倉(cāng)庫(kù)支持“微批處理”以經(jīng)常以小增量收集數(shù)據(jù)。這種流到批處理的轉(zhuǎn)換增加了數(shù)據(jù)到達(dá)與用于分析之間的時(shí)間,使得數(shù)據(jù)倉(cāng)庫(kù)不適用于多種形式的流分析。數(shù)據(jù)湖支持本地流式傳輸,其中數(shù)據(jù)流在到達(dá)時(shí)被處理并可供分析。數(shù)據(jù)管道在從數(shù)據(jù)流接收數(shù)據(jù)時(shí)轉(zhuǎn)換數(shù)據(jù),并觸發(fā)分析所需的計(jì)算。數(shù)據(jù)湖的原生流式傳輸特性使其非常適合流式分析。
數(shù)據(jù)倉(cāng)庫(kù)支持順序ETL操作,其中數(shù)據(jù)以瀑布模型從原始數(shù)據(jù)格式流向完全轉(zhuǎn)換的集合,并針對(duì)快速性能進(jìn)行了優(yōu)化。相比之下,對(duì)于需要持續(xù)數(shù)據(jù)工程的用例,數(shù)據(jù)湖異常強(qiáng)大。在數(shù)據(jù)湖中,ETL的瀑布方法被迭代和連續(xù)的數(shù)據(jù)工程所取代??梢酝ㄟ^(guò)SQL和編程接口迭代地訪問(wèn)和轉(zhuǎn)換數(shù)據(jù)湖中的原始數(shù)據(jù),以滿足用例不斷變化的需求。這種對(duì)持續(xù)數(shù)據(jù)工程的支持對(duì)于交互式分析和機(jī)器學(xué)習(xí)至關(guān)重要。揭穿關(guān)于數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)的三大神話讓我們解決一些關(guān)于兩種流行的數(shù)據(jù)存儲(chǔ)類型的常見(jiàn)誤解:誤區(qū)一:只需要數(shù)據(jù)湖或數(shù)據(jù)倉(cāng)庫(kù)中的一個(gè)如今,經(jīng)常聽(tīng)到人們談?wù)摂?shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù),好像企業(yè)必須選擇其中一個(gè)。但現(xiàn)實(shí)情況是,數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)服務(wù)于不同的目的。雖然兩者都提供數(shù)據(jù)存儲(chǔ),但它們使用不同的結(jié)構(gòu),支持不同的格式,并針對(duì)不同的用途進(jìn)行了優(yōu)化。通常,公司可能會(huì)從使用數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖中受益。
數(shù)據(jù)倉(cāng)庫(kù)最適合希望為商業(yè)智能分析操作系統(tǒng)數(shù)據(jù)的企業(yè)。數(shù)據(jù)倉(cāng)庫(kù)在這方面工作得很好,因?yàn)榇鎯?chǔ)的數(shù)據(jù)是結(jié)構(gòu)化、清理和準(zhǔn)備分析的。同時(shí),數(shù)據(jù)湖允許企業(yè)以任何格式存儲(chǔ)數(shù)據(jù)以用于幾乎任何用途,包括機(jī)器學(xué)習(xí)(ML)模型和大數(shù)據(jù)分析。
誤區(qū)2:數(shù)據(jù)湖是流行趨勢(shì),數(shù)據(jù)倉(cāng)庫(kù)不是
人工智能(AI)和ML代表了一些增長(zhǎng)最快的云工作負(fù)載,組織越來(lái)越多地轉(zhuǎn)向數(shù)據(jù)湖來(lái)幫助確保這些項(xiàng)目的成功。由于數(shù)據(jù)湖允許存儲(chǔ)幾乎任何類型的數(shù)據(jù)(結(jié)構(gòu)化和非結(jié)構(gòu)化)而無(wú)需事先準(zhǔn)備或清理,因此組織能夠保留盡可能多的潛在價(jià)值以供將來(lái)使用,未指定使用。此設(shè)置非常適合更復(fù)雜的工作負(fù)載,例如尚未確定具體數(shù)據(jù)類型和用途的機(jī)器學(xué)習(xí)模型。
數(shù)據(jù)倉(cāng)庫(kù)可能是這兩種選擇中更為人所知的一種,但數(shù)據(jù)湖和類似類型的存儲(chǔ)基礎(chǔ)設(shè)施可能會(huì)隨著數(shù)據(jù)工作負(fù)載的趨勢(shì)而繼續(xù)流行。數(shù)據(jù)倉(cāng)庫(kù)適用于某些類型的工作負(fù)載和用例,而數(shù)據(jù)湖代表了服務(wù)于其他類型工作負(fù)載的另一種選擇。
誤區(qū)三:數(shù)據(jù)倉(cāng)庫(kù)易于使用,而數(shù)據(jù)湖很復(fù)雜
數(shù)據(jù)湖需要數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)家的特定技能來(lái)分類和利用其中存儲(chǔ)的數(shù)據(jù)。數(shù)據(jù)的非結(jié)構(gòu)化性質(zhì)使得那些不了解數(shù)據(jù)湖如何工作的人更不容易訪問(wèn)它。
但是,一旦數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師構(gòu)建了數(shù)據(jù)模型或管道,業(yè)務(wù)用戶通常可以利用與流行業(yè)務(wù)工具的集成(自定義或預(yù)構(gòu)建)來(lái)探索數(shù)據(jù)。同樣,大多數(shù)業(yè)務(wù)用戶通過(guò)連接的商業(yè)智能(BI)工具訪問(wèn)存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)。在第三方BI工具的幫助下,業(yè)務(wù)用戶應(yīng)該能夠訪問(wèn)和分析數(shù)據(jù),無(wú)論該數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)還是數(shù)據(jù)湖中。
構(gòu)建現(xiàn)代數(shù)據(jù)平臺(tái)的原則
盡量減少數(shù)據(jù)平臺(tái)中人員、網(wǎng)絡(luò)和磁盤操作的影響。雖然人類永遠(yuǎn)無(wú)法像計(jì)算機(jī)一樣快,但網(wǎng)絡(luò)和磁盤操作是客觀問(wèn)題。為了減少這些問(wèn)題的影響,避免在各處復(fù)制數(shù)據(jù),加強(qiáng)平臺(tái)讀取和處理來(lái)自不同位置的數(shù)據(jù)的能力,包括事務(wù)性、發(fā)布/子系統(tǒng)和數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng),而無(wú)需當(dāng)天移動(dòng)。構(gòu)建現(xiàn)代數(shù)據(jù)平臺(tái)的原則是:
把事情簡(jiǎn)單化,不要過(guò)度架構(gòu)或過(guò)度設(shè)計(jì);
為正確的工作使用正確的工具;
讓用例決定你應(yīng)該使用什么;
使用云進(jìn)行擴(kuò)展;
將數(shù)據(jù)與上下文分開(kāi),這將使數(shù)據(jù)能夠用于多個(gè)用例。數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù):用例DataLake已經(jīng)成為一個(gè)強(qiáng)大的平臺(tái),企業(yè)可以使用它來(lái)管理、挖掘大量非結(jié)構(gòu)化數(shù)據(jù)并將其貨幣化,以獲得競(jìng)爭(zhēng)優(yōu)勢(shì)。因此,公司對(duì)數(shù)據(jù)湖平臺(tái)的采用率急劇增加。在這種利用大數(shù)據(jù)的熱潮中,一直存在一種誤解,即DataLake旨在取代數(shù)據(jù)倉(cāng)庫(kù),而實(shí)際上,DataLake旨在補(bǔ)充傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)(RDBMS)。
數(shù)據(jù)倉(cāng)庫(kù)適用于某些類型的工作負(fù)載和用例,而數(shù)據(jù)湖代表了服務(wù)于其他類型工作負(fù)載的另一種選擇。
用例應(yīng)該驅(qū)動(dòng)數(shù)據(jù)平臺(tái)架構(gòu)。如果您的用例需要速度、具有已知的數(shù)據(jù)模型、完全結(jié)構(gòu)化或非常接近它,那么SQL數(shù)據(jù)倉(cāng)庫(kù)就足夠了。但是,如果您需要及時(shí)靈活地對(duì)數(shù)據(jù)進(jìn)行建模并將其用于多種工作負(fù)載,您應(yīng)該使用數(shù)據(jù)湖。
組織將依靠多種技術(shù)的最佳解決方案,包括數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖。最終,組織的選擇需要平衡管理多種技術(shù)的復(fù)雜性和TCO與以高性能和經(jīng)濟(jì)高效的方式運(yùn)行更多種類的工作負(fù)載的能力。
未來(lái)該如何選擇我們現(xiàn)在處于這樣一個(gè)階段,我們不僅可以使用數(shù)據(jù)來(lái)回顧過(guò)去,還可以了解現(xiàn)在,甚至可以預(yù)測(cè)未來(lái)。數(shù)據(jù)和工具將不斷發(fā)展,以幫助我們幾乎實(shí)時(shí)地到達(dá)那里。將數(shù)據(jù)與上下文分開(kāi)。進(jìn)來(lái)的數(shù)據(jù)不一定有你想用它的上下文。所以,在弄清楚你想用它做什么之前,把將數(shù)據(jù)獲取到一個(gè)位置的想法分開(kāi)。因?yàn)閷?shí)際上,您將對(duì)該數(shù)據(jù)進(jìn)行多種用途。因此,您永遠(yuǎn)不知道您可以將這些數(shù)據(jù)用于什么用途。因此,如果您首先獲取數(shù)據(jù),然后弄清楚您想用它做什么,通常會(huì)導(dǎo)致使用這些數(shù)據(jù)產(chǎn)生更積極的結(jié)果。
數(shù)據(jù)倉(cāng)庫(kù)供應(yīng)商正在逐漸從他們現(xiàn)有的模型轉(zhuǎn)向數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖模型的融合。同樣,數(shù)據(jù)湖
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 漢堡店安全知識(shí)培訓(xùn)課件
- 永濟(jì)市交通安全知識(shí)培訓(xùn)課件
- 水輪機(jī)蝶閥課件
- 建筑工程合同管理方案
- 施工人員勞動(dòng)保護(hù)與安全防護(hù)方案
- 人教版PEP四年級(jí)上冊(cè) Unit 2 My schoolbag 單元測(cè)試提升B卷(含答案)
- 圖形圖像處理數(shù)碼照片處理之?dāng)z影基礎(chǔ)84課件
- 陶瓷造型工藝36課件
- 消防系統(tǒng)應(yīng)急反應(yīng)方案
- 水電維修基礎(chǔ)知識(shí)培訓(xùn)課件
- 插板機(jī)安全操作規(guī)程
- 銘復(fù)樂(lè)IV期臨床方案介紹
- ks-9000氣體報(bào)警控制器使用說(shuō)明書(shū)
- 《SPC統(tǒng)計(jì)過(guò)程控制》課件
- GB/T 14153-1993硬質(zhì)塑料落錘沖擊試驗(yàn)方法通則
- (完整版)人教版八年級(jí)下冊(cè)《道德與法治》期末測(cè)試卷及答案【新版】
- 并購(gòu)貸款業(yè)務(wù)培訓(xùn)
- 北京大學(xué)人民醫(yī)院-醫(yī)療知情同意書(shū)匯編
- 建設(shè)集團(tuán)有限公司安全生產(chǎn)管理制度匯編
- 牙體牙髓病最全課件
- 交通信號(hào)控制系統(tǒng)檢驗(yàn)批質(zhì)量驗(yàn)收記錄表
評(píng)論
0/150
提交評(píng)論