




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
從統(tǒng)一數(shù)據(jù)治理到下一代企業(yè)級Data
Agent的實踐與創(chuàng)新01020304目錄AI時代的數(shù)據(jù)需求現(xiàn)有技術(shù)的挑戰(zhàn)統(tǒng)一數(shù)據(jù)治理的價值企業(yè)級RAG和Data
Agent統(tǒng)一數(shù)據(jù)管理最佳實踐05AI時代的數(shù)據(jù)需求AI技術(shù)的應(yīng)用激發(fā)企業(yè)對數(shù)據(jù)的旺盛需求AI
的應(yīng)用重度依賴于數(shù)據(jù);沒有數(shù)據(jù),AI
會成為無源之水、無本之木根據(jù)IDC估計,全世界的數(shù)據(jù)量將從2018年的33
ZB,增長到2025年的175
ZB。數(shù)據(jù)–AI應(yīng)用的核心輸入數(shù)據(jù)加工數(shù)據(jù)集模型向量提示詞數(shù)據(jù)貫穿于AI
應(yīng)用的整個鏈路數(shù)據(jù)治理–AI應(yīng)用中不可或缺的部分數(shù)據(jù)發(fā)現(xiàn)數(shù)據(jù)血緣數(shù)據(jù)治理數(shù)據(jù)安全不同組織之間分享和發(fā)現(xiàn)數(shù)據(jù)集、模型等數(shù)據(jù)之間的生成依賴關(guān)系等權(quán)限控制、加密策略、訪問審計等數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)生命周期等優(yōu)秀的數(shù)據(jù)治理對AI
的成功應(yīng)用至關(guān)重要AI
is
Only
asGood
as
your
Data
management
is
GoodGarbage
in,
garbage
out!現(xiàn)有數(shù)據(jù)管理技術(shù)的挑戰(zhàn)數(shù)據(jù)被鎖定在不同的數(shù)據(jù)源中數(shù)據(jù)湖數(shù)據(jù)倉庫消息隊列向量數(shù)據(jù)庫分布式文件系統(tǒng)傳統(tǒng)大數(shù)據(jù)時代GenAI
時代結(jié)構(gòu)化、半結(jié)構(gòu)化為主非結(jié)構(gòu)化為主數(shù)據(jù)被地域分割企業(yè)由單云單域架構(gòu)向多云多域架構(gòu)邁進數(shù)據(jù)合規(guī)的限制不可避免的數(shù)據(jù)分割跨云數(shù)據(jù)的傳輸成本GDPR、CCPA
等要求中心化的數(shù)據(jù)納管已不現(xiàn)實數(shù)據(jù)被組織分割SensitiveInformationBusiness
AKafka
+
AWS-ESOrderPaymentMysqlBusiness
BKafka
+
RedisData
EngineerInfraEngineerAI
EngineerBusiness
CKafka
+
Redis數(shù)據(jù)被孤立到不同部門擁有的數(shù)據(jù)平臺中新業(yè)務(wù)和LLM需要一種統(tǒng)一的方式來訪問所有數(shù)據(jù)。隱藏在數(shù)據(jù)底層的問題數(shù)據(jù)發(fā)現(xiàn)Automatically
find,
classify,
and
mapall
of
your
data
-
everywhere.數(shù)據(jù)連接Connect
to
the
Data
ThatMatters
Most.數(shù)據(jù)分類Automatically
classifymoretypes
ofdata
in
more
places.數(shù)據(jù)生命周期管理Simplifyand
automate
datalifecyclemanagement
from
collection
to
destruction.IPDataTechnical
&
Business
DataLegalHoldData3rd
Party
DataPII
&
PI
DataCredentials元數(shù)據(jù)語義Enrich
technical
metadata
withbusiness
andoperational
metadata
for
fullvisibility.數(shù)據(jù)主權(quán)Automate
end-to-end
datarights
requests
and
reporting.多種因素帶來的數(shù)據(jù)管理的挑戰(zhàn)帶來的挑戰(zhàn)決策信息不完整缺乏統(tǒng)一的數(shù)據(jù)視圖,導(dǎo)致沒有全面的決策依據(jù),錯失商業(yè)機會資源浪費基礎(chǔ)設(shè)施重復(fù)建設(shè)和重復(fù)投入,增加企業(yè)運營成本合規(guī)風(fēng)險數(shù)據(jù)分散和不統(tǒng)一管理可能導(dǎo)致數(shù)據(jù)不一致、數(shù)據(jù)泄露等風(fēng)險影響合規(guī)阻礙業(yè)務(wù)創(chuàng)新發(fā)展限制企業(yè)內(nèi)部數(shù)據(jù)的流通與共享,阻礙數(shù)據(jù)價值最大化組織壁壘技術(shù)壁壘安全壁壘管理壁壘DataSilosBusinessIntelligenceDataWarehouseStreamingAnalyticsDataScience/AIDataOrchestrationCSPCCSPACSPB統(tǒng)一數(shù)據(jù)治理的價值統(tǒng)一數(shù)據(jù)治理,實現(xiàn)全方位數(shù)據(jù)管理統(tǒng)一數(shù)據(jù)/元數(shù)據(jù)管理視圖Data
Lake?支持多租戶和權(quán)限認證?兼容HMS,與大數(shù)據(jù)生態(tài)天然融合統(tǒng)一權(quán)限管控?集中權(quán)限管控,全域無縫訪問?精細化權(quán)限控制,安全合規(guī)無憂?權(quán)限與Ranger生態(tài)互通?調(diào)優(yōu)全托管,優(yōu)化可觀測,大幅提升性能并降低管理成本?支持多種觸發(fā)方式(周期/按需/條件)數(shù)據(jù)智能調(diào)優(yōu)Unified
Catalog統(tǒng)一數(shù)據(jù)管控面,旨在幫助用戶快速構(gòu)建和管理湖倉架構(gòu),實現(xiàn)全方位湖倉管理Apache
Gravitino:統(tǒng)一數(shù)據(jù)/AI目錄數(shù)據(jù)湖數(shù)據(jù)倉庫實時消息AI模型HiveMetastoreDW
CatalogSchemaRegistryModelRegistry目標(biāo):數(shù)據(jù)統(tǒng)一視圖從元數(shù)據(jù)層面上達到SSOT統(tǒng)一訪問和治理Next-Gen
Data
Catalog
is
the
Core
in
New
Open
Data
Architecture/文本、圖片、視頻等FilesetApache
Gravitino核心架構(gòu)MetadataStorageFunctionality
layerInterface
layerCore
with
objectmodelConnection
LayerUnified
REST
APIsIceberg
REST
APIsUnified
ProcessingUnified
GoverningMetalakeCatalogSchemaTableConnectionCatalogSchemaFilesetConnectionCatalogSchemaModelConnectionCatalogSchemaTopicConnection統(tǒng)一數(shù)據(jù)的訪問Tabular
dataNon-tabular
dataUnified
Tabular
APICreateLoadAlterDropSchema:
{name:
stringcomment:
stringproperties:
map<string,
string>…}Table:
{name:
stringcolumns:
Colum[]partitioning:
Transform[]distribution:
DistributionsortOrder:
SortOrder[]indexes:
Index[]….}TransformDistributionTypeSortOrderIndexConnectorsGravitino
Virtual
FileSystemArrowFileSystemUnified
Non-tabular
APISchema:
{name:
stringcomment:
stringproperties:
map<string,
string>…}Fileset:
{name:
stringstorageLocation:
stringtype:
Type….}CreateLoadAlterDropS3HDFSADLSGCS統(tǒng)一數(shù)據(jù)的權(quán)限管控Unified
Access
ControlAPI數(shù)據(jù)工程師和AI團隊更高效地協(xié)同工作Data
IngestionSparkStructuredDataUnstructuredDataTechnologyCommunicationDataInternet
ofthingsAutomationNetworkingData
EngineerHDFSClientS3
SDKData
ScientistAIEngineerGravitinoModel
TrainingTensorflowPytorchRayTraining
/Checkpoint
/Metrics
/
ModelDataGravitinoPython
libGravitino
DatasetGravitino
ACLWrite
DataUnifiedAccess
ControlETLData
IngestionSparkStructuredDataUnstructuredDataTechnologyCommunicationDataInternet
ofthingsAutomationNetworkingData
EngineerHDFSClientS3
SDKData
ScientistAIEngineerModel
TrainingTensorflowPytorchRayETLUnstructuredDataRead
Data統(tǒng)一元數(shù)據(jù)治理后統(tǒng)一數(shù)據(jù)查找和訪問;統(tǒng)一安全模型和數(shù)據(jù)訪問統(tǒng)一元數(shù)據(jù)治理前數(shù)據(jù)導(dǎo)出容易造成信息泄漏;數(shù)據(jù)使用無法跟蹤CopyWrite
Data企業(yè)RAG和Data
agentRAG
的幾種形態(tài)Multi-modular
RAG意圖理解更準(zhǔn)確,知識內(nèi)容更豐富,準(zhǔn)確度更高由決策引擎選擇RAG方法;使用多種數(shù)據(jù)源/知識庫Advanced
RAG個性化的回答,以及提升的質(zhì)量和準(zhǔn)確性結(jié)合關(guān)鍵字和語義檢索的結(jié)果;檢索前后進行一定預(yù)處理;Basic
RAG效果一般基于向量的檢索;易于實現(xiàn),有限的數(shù)據(jù),缺少對查詢和結(jié)果進行校驗RAG(檢索增強生成)是一種人工智能框架,它將傳統(tǒng)信息檢索系統(tǒng)(如搜索和數(shù)據(jù)庫)的優(yōu)勢與生成式大語言模型(LLM)的功能相結(jié)合。什么是Basic
RAG概要:較為基本的數(shù)據(jù)準(zhǔn)備(歷史資料、KB等)較為簡單的檢索(基于語義的檢索)用戶主要聚焦在技術(shù)選擇上:框架(LangChain,LlamaIndex等)基礎(chǔ)模型/Embedding
模型向量庫/存儲挑戰(zhàn):信息來源單一,可能不準(zhǔn)確不能提供針對某個用戶的準(zhǔn)確信息沒有邏輯推導(dǎo)什么是Advanced
RAGRe-rankingLLM在Retrieval前:識別用戶意圖設(shè)置圍欄TextToSQL(或其它查詢語法)改寫問題(通過LLM)Vector
searchContextrecognizationDB
or
keywordsearch在Retrieval后:對查詢結(jié)果進行re-ranking內(nèi)容總結(jié)(通過LLM)優(yōu)點:提供個性化結(jié)果提供更多的上下文信息和一定的推理什么是Multi-modular
RAGHybrid
searchGraphRAGText2SQL/QLKnowledgeBases?Pre-retrievalDecision
engine更進一步,在Retrieval前進行查詢路由:在不同KB
之間選擇在不同retrieve
方式之間選擇實現(xiàn)方法:基于規(guī)則、條件的判斷使用LLM
判斷構(gòu)建企業(yè)級Multi-modular
RAG系統(tǒng)在RAG框架中為每個數(shù)據(jù)庫、每種數(shù)據(jù)源開發(fā)連接器/reader、獲取其描述信息、獲得prompt模版、進行NL2SQL/QL、查詢數(shù)據(jù)、輸入給LLM缺點:每個數(shù)據(jù)源/存儲都需要在程序中接入配置復(fù)雜度高開發(fā)效率低安全性差無法復(fù)用更好的方案:統(tǒng)一結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)接入的RAG使用統(tǒng)一元數(shù)據(jù)平臺管理各類數(shù)據(jù),獲取數(shù)據(jù)內(nèi)容描述、數(shù)據(jù)結(jié)構(gòu)、訪問方式等信息、借助大模型生成查詢指令,并統(tǒng)一進行查詢、結(jié)果返回、模型傳遞等優(yōu)點:適配簡單,開發(fā)效率高統(tǒng)一數(shù)據(jù)訪問、統(tǒng)一權(quán)限管控易于擴展統(tǒng)一元數(shù)據(jù)管理最佳實踐實踐1:某先進制造企業(yè)Data+AI一體化的新挑戰(zhàn)非結(jié)構(gòu)化數(shù)據(jù)
海量數(shù)據(jù)“資產(chǎn)化”資產(chǎn)地圖與資產(chǎn)治理對接機器學(xué)習(xí)框架傳統(tǒng)機器學(xué)習(xí)大模型預(yù)訓(xùn)練/微調(diào)流程打通、產(chǎn)品打通DataOps/MLOps/LLMOps管理好AI資產(chǎn)支持好業(yè)務(wù)場景實現(xiàn)Data
AI一體化新一代數(shù)據(jù)管理方案基于Gravitino的統(tǒng)一元數(shù)據(jù)利用Fileset管理非表格數(shù)據(jù)打通數(shù)據(jù)開發(fā)與AI開發(fā)實現(xiàn)AI資產(chǎn)的治理存量數(shù)據(jù)納管AI數(shù)據(jù)納管存量數(shù)據(jù)掛載至External
Fileset支持設(shè)置TTL與TTV上下游遷移解耦,不強制遷移存儲無感搬遷支持掛載多種存儲類型對業(yè)務(wù)透明的數(shù)據(jù)搬遷Data+AI一體化開發(fā)統(tǒng)一AI資產(chǎn)管理資產(chǎn)列表數(shù)據(jù)血緣數(shù)據(jù)權(quán)限業(yè)務(wù)案例①:納管后數(shù)據(jù)降本降本測算某業(yè)務(wù)納管存量數(shù)據(jù)后大幅度降本數(shù)十PB
存量數(shù)據(jù)、大量HDFS
路徑,難以管理納管后識別出血緣根據(jù)血緣推薦TTL、TTV冷備和清理無用數(shù)據(jù)實現(xiàn)降本業(yè)務(wù)案例②:基于統(tǒng)一元數(shù)據(jù)的MLOps某業(yè)務(wù)部門的推薦工作流過去數(shù)據(jù)流與訓(xùn)練流割裂大量使用文件,難管理、難分析現(xiàn)在基于統(tǒng)一元數(shù)據(jù)打通流程數(shù)據(jù)加工直接產(chǎn)生Fileset基于Fileset實現(xiàn)特征分析與訓(xùn)練升級后簡化工作流統(tǒng)一元數(shù)據(jù)的使用業(yè)務(wù)案例③:基于統(tǒng)一元數(shù)據(jù)的LLMOps
(WIP)某業(yè)務(wù)部門的LLM微調(diào)工作流過去下載語料數(shù)據(jù),再上傳至大模型平臺手動選取線上語料進行效果驗證未來在線加工微調(diào)數(shù)據(jù)自動化的模型測試統(tǒng)一元數(shù)據(jù)的使用LLMOps
by
Databricks實踐2:某互聯(lián)網(wǎng)社交平臺元數(shù)據(jù)管理的痛點業(yè)務(wù)側(cè)耦合度高:元數(shù)據(jù)使用方調(diào)用異構(gòu)數(shù)據(jù)源方式多種多樣數(shù)據(jù)治理能力有限:無法提供統(tǒng)一的審計、權(quán)限管理、TTL能力半結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)源缺乏管理跨源數(shù)據(jù)Sc
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年個人網(wǎng)約車租賃合同
- 2025車輛買賣意向合同
- 2025年上海市商品房預(yù)售合同ae
- 公園急救知識培訓(xùn)課件
- 搬運工安全知識培訓(xùn)內(nèi)容課件
- 公司職業(yè)風(fēng)險知識培訓(xùn)課件
- 揭陽安全知識培訓(xùn)課件
- 揠苗助長課件
- 感染科崗位招聘面試題解析:臨床醫(yī)學(xué)知識與應(yīng)用能力
- 插班生試驗課件
- 2025-2030中國工業(yè)用地開發(fā)與產(chǎn)業(yè)升級分析報告
- 2025年醫(yī)療器械不良事件培訓(xùn)考試試題(有答案)
- 第1課 互聯(lián)網(wǎng)和物聯(lián)網(wǎng) 課件 2025-2026學(xué)年七年級下冊信息技術(shù)浙教版
- 信息技術(shù)在課堂教學(xué)中的應(yīng)用
- 江蘇省宿遷市沭陽縣如東實驗學(xué)校2024-2025學(xué)年七年級下學(xué)期期末數(shù)學(xué)試卷(含答案)
- 2025年湖南省高考真題卷政治和答案
- 聚焦2025年醫(yī)藥企業(yè)研發(fā)外包(CRO)模式的知識產(chǎn)權(quán)保護報告
- 2024年河北省孟村回族自治縣事業(yè)單位公開招聘工作人員考試題含答案
- 額葉膠質(zhì)瘤護理查房
- 農(nóng)行招聘薪酬管理辦法
- 2025至2030中國膜行業(yè)產(chǎn)業(yè)運行態(tài)勢及投資規(guī)劃深度研究報告
評論
0/150
提交評論