




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數(shù)據(jù)架構管方案數(shù)據(jù)架構有多種不同理解由于出發(fā)點和立場的不同,不同的組織對數(shù)據(jù)架構有著不同的理解,并賦予其不同的內涵。以下列舉了DAMA
、華為和DCMM等組織對于數(shù)據(jù)架構的定義。我們不必糾結于比較哪個定義描述更為準確,重要的是分析數(shù)據(jù)架構的應用場景,并根據(jù)實際需求
來確定數(shù)據(jù)架構的內涵。DCMM·
通過組織級數(shù)據(jù)模型定義數(shù)據(jù)
需求,指導對數(shù)據(jù)資產(chǎn)的分布
控制和整合,部署數(shù)據(jù)的共享
和應用環(huán)境,以及元數(shù)據(jù)管理
的
規(guī)
范
。數(shù)據(jù)治理:工業(yè)企業(yè)數(shù)字化轉型之道·
將企業(yè)業(yè)務實體抽象為信息對象,將企業(yè)的業(yè)
務運作模式抽象為信息對象的屬性和方法,建
立面向對象的企業(yè)數(shù)據(jù)模型,數(shù)據(jù)架構實現(xiàn)從
業(yè)務模式向數(shù)據(jù)模型的轉變,業(yè)務需求向信息
功能的映射,企業(yè)基礎數(shù)據(jù)向企業(yè)信息的抽象。識別企業(yè)的數(shù)據(jù)需求,并設計
和維護總藍圖以滿足這些需求。
使用總藍圖來指導數(shù)據(jù)集成、控制數(shù)據(jù)資產(chǎn),并使數(shù)據(jù)投資
與業(yè)務戰(zhàn)略保持一致。企業(yè)數(shù)據(jù)模型數(shù)據(jù)流設計·
企業(yè)級信息架構是指以結構化
的方式描述在業(yè)務運作和管理
決策中所需要的各類信息及其
關系的一套整體組件規(guī)范,包
括數(shù)據(jù)資產(chǎn)目錄、數(shù)據(jù)標準、
企業(yè)數(shù)據(jù)模型和數(shù)據(jù)分布四個
組
件
。數(shù)據(jù)模型數(shù)據(jù)分布數(shù)據(jù)集成與共享
元數(shù)據(jù)管理定
義數(shù)據(jù)模型數(shù)據(jù)分布數(shù)據(jù)資產(chǎn)目錄數(shù)據(jù)標準DAMA華為數(shù)據(jù)之道數(shù)據(jù)主題域數(shù)據(jù)關聯(lián)關系數(shù)據(jù)模型數(shù)據(jù)分布所含組件·面向交易的數(shù)據(jù)架構(簡稱為交易型數(shù)據(jù)架構)面向分析的數(shù)據(jù)架構(簡稱為分析型數(shù)據(jù)架構)業(yè)
務
目
的面向交易的數(shù)據(jù)架構,其主要目的是支持公司業(yè)務的正常、高效開
展,并為相應IT系統(tǒng)的建設和落地提供支撐。面向分析的數(shù)據(jù)架構,其主要目的是支持公司的數(shù)據(jù)分析場景,提
升管理決策的支撐能力。主
要
關
注
點·
如何支持多種不同的業(yè)務?·
如何支持跨系統(tǒng)的端到端業(yè)務流程?·
如何提升業(yè)務流程的效率?·如何保障業(yè)務數(shù)據(jù)在上下游流程中的準確傳遞?
··
如何支持各種數(shù)據(jù)分析、決策場景?·
如何讓數(shù)據(jù)分析人員能夠找到所需要的數(shù)據(jù)?·如何提升數(shù)據(jù)分析人員的數(shù)據(jù)加工處理的效率?·
如何支持企業(yè)的數(shù)據(jù)管理工作?·CRM等業(yè)務系統(tǒng)的數(shù)據(jù)架構管理,通過良好的數(shù)據(jù)架構設計,來支
持企業(yè)多種不同的業(yè)務模式。·數(shù)據(jù)中臺的數(shù)據(jù)架構管理,通過良好的數(shù)據(jù)架構設計,來滿足各類
數(shù)據(jù)分析、挖掘等數(shù)據(jù)應用場景。面向兩類不同場景的數(shù)據(jù)架構企業(yè)數(shù)據(jù)主要分布在兩類系統(tǒng)之上,
一類是業(yè)務系統(tǒng),用于支持企業(yè)的業(yè)務流程和管理流程;另一類是分析系統(tǒng)(數(shù)據(jù)倉庫、數(shù)
據(jù)中臺等),用于支持企業(yè)的分析和管理決策。由于這兩類系統(tǒng)的應用場景和需求不同,因此也延伸出兩類數(shù)據(jù)架構,分別是面
向交易的數(shù)據(jù)架構和面向分析的數(shù)據(jù)架構,這兩類數(shù)據(jù)架構的目的和關注點存在較大的差別。典
型
場
景...華為面向“業(yè)務交易”的數(shù)據(jù)架構實踐(1/2)《華為數(shù)據(jù)之道》中的信息架構(數(shù)據(jù)架構)是面向“業(yè)務交易”的信息架構,而不是面向分析場景的。華為信息架構包括數(shù)據(jù)資產(chǎn)目錄、數(shù)據(jù)標準、企業(yè)級數(shù)據(jù)模型和數(shù)據(jù)分布四個組件。3.
數(shù)據(jù)模型·
通過E-R建模實現(xiàn)對數(shù)
據(jù)及其關系的描述·
指導IT開發(fā),是應用系
統(tǒng)實現(xiàn)的基礎信息架構4.
數(shù)據(jù)分布1.
數(shù)據(jù)資產(chǎn)目錄·
通過分層架構表達·
對數(shù)據(jù)的分類和定義·
厘清數(shù)據(jù)資產(chǎn)·
建立數(shù)據(jù)模型的輸入2
.數(shù)據(jù)標準數(shù)據(jù)模型客戶機會點
客戶合同數(shù)據(jù)分布組件數(shù)據(jù)分層結構主題域分組主題域業(yè)務對象邏輯數(shù)據(jù)實體屬性數(shù)據(jù)標準組件·
數(shù)據(jù)在業(yè)務流程和IT系
統(tǒng)上流動的全景視圖·
識別數(shù)據(jù)的“來龍去脈”·
定位數(shù)據(jù)問題的導航業(yè)務術語業(yè)務對象在企業(yè)
內的統(tǒng)一定義數(shù)據(jù)標準企業(yè)內需共同遵守的數(shù)據(jù)含義和業(yè)務規(guī)則·
業(yè)務定義的規(guī)范·
統(tǒng)一語言,消除歧義·
為數(shù)據(jù)資產(chǎn)梳理提供標
準的業(yè)務含義和規(guī)則表達數(shù)據(jù)在業(yè)務
流的流轉表達數(shù)據(jù)在IT系
統(tǒng)的流轉定義數(shù)據(jù)產(chǎn)生的
源頭信息鏈數(shù)據(jù)流數(shù)據(jù)源業(yè)
務術
語
準據(jù)標數(shù)L1L2L3
L4L5線索華為數(shù)據(jù)之道中數(shù)據(jù)資產(chǎn)目錄包含了主題域分組、主題域、業(yè)務對象、邏輯數(shù)據(jù)實體和屬性五個層級,其數(shù)據(jù)架構的建設治理圍繞著業(yè)務對象開展,業(yè)務對象是業(yè)務領域重要的人、事、物。華為面向“業(yè)務交易”的數(shù)據(jù)架構實踐(2/2)定義L4
邏輯數(shù)據(jù)實體
邏輯數(shù)據(jù)實體是具有一定邏輯關系的數(shù)據(jù)屬性的集合
報價單頭
報價單行L2
主題域
主題域是互不重疊數(shù)據(jù)的高層面的分類,用于管理其下一級的業(yè)務對象機會點
客戶合同主題域分組是公司頂層信息分類,通過數(shù)據(jù)視角體現(xiàn)公司最高層面關注
的業(yè)務領域業(yè)務對象是業(yè)務領域重要的人、事、物,承載了業(yè)務運作和管理涉及的
重要信息數(shù)據(jù)分層結構屬性是描述所屬業(yè)務對象的性質和特征,反映信息管理最小粒度報價單號
金額
Part編碼
數(shù)量L5
屬性客戶合同基本信息機會點
投標書主題域分組線索到回款業(yè)務對象舉例報價單L3L1分析型數(shù)據(jù)架構管理的四大目標數(shù)據(jù)架構管理的主要目的是解決企業(yè)數(shù)據(jù)找得到、看得懂、用得好、管得好的問題,助力數(shù)據(jù)使用人員能夠快速發(fā)現(xiàn)、準確理解
和高效使用數(shù)據(jù),同時助力數(shù)據(jù)治理人員能夠更好地開展數(shù)據(jù)管理工作。一
、找得到
二
、看得懂
三、用得好
四、管得好在大型企業(yè)中,數(shù)據(jù)通常分散在數(shù)
百個甚至上千個IT系統(tǒng)之中,使用
者想要全面掌握企業(yè)到底有哪些數(shù)
據(jù)面臨巨大的挑戰(zhàn)。數(shù)據(jù)架構管理的第一個目的是實現(xiàn)企業(yè)數(shù)據(jù)的全局可視,讓使用者找得到所需數(shù)據(jù),提升數(shù)據(jù)的可發(fā)現(xiàn)性,確保使用人
員能夠快速發(fā)現(xiàn)并獲取所需數(shù)據(jù)。企業(yè)在元數(shù)據(jù)管理方面可能存在不足,如業(yè)務表、字段描述不完整,枚舉值缺失等,導致使用人員看不懂數(shù)據(jù),數(shù)據(jù)無法使用。數(shù)據(jù)架構管理的第二個目的是需要讓使用者看得懂數(shù)據(jù),提升數(shù)據(jù)的可理解性,確保使用人員能夠準確理解并有效
使用數(shù)據(jù)。企業(yè)數(shù)據(jù)分析場景具有復雜性和多
樣性特征,既涉及到跨流程、跨系統(tǒng)數(shù)據(jù)的融合分析,也涉及到不同
時間跨度、不同顆粒度的數(shù)據(jù)分析,如何很好地滿足數(shù)據(jù)分析場景挑戰(zhàn)巨大。數(shù)據(jù)架構管理的第三個目的
是建立適用于分析場景的數(shù)據(jù)模型
體系,提升數(shù)據(jù)分析和應用的效率。企業(yè)的數(shù)據(jù)規(guī)模龐大,如何對數(shù)據(jù)進行有效治理是一項極其復雜的事情,例如當某項數(shù)據(jù)的質量出現(xiàn)問
題時誰應該負責解決,當需要某項數(shù)據(jù)時如何實現(xiàn)快速匯聚如何,數(shù)
據(jù)是否可以共享開放等。數(shù)據(jù)架構
管理的第四個目的是為數(shù)據(jù)治理提供基礎,助力更好地管理數(shù)據(jù)。數(shù)據(jù)發(fā)現(xiàn)方面
數(shù)據(jù)理解方面
數(shù)據(jù)應用方面
數(shù)據(jù)治理方面數(shù)據(jù)架構的四大核心組件基于華為數(shù)據(jù)架構框架,數(shù)據(jù)架構包括數(shù)據(jù)目錄、數(shù)據(jù)模型、數(shù)據(jù)標準和數(shù)據(jù)分布四大核心組件,共同支撐實現(xiàn)企業(yè)數(shù)據(jù)找得到、看得懂、用得好、管得好的四大目標。數(shù)據(jù)目錄是按照某種分類索引和
條目格式要求,對組織內數(shù)據(jù)的
特征進行系統(tǒng)化描述的一個目錄。
它類似于圖書館的圖書目錄,完
整地反映了一個組織的數(shù)據(jù)全景,
旨在幫助組織更好地發(fā)現(xiàn)、理解、
使用和管理其數(shù)據(jù)。數(shù)據(jù)模型是基于特定業(yè)務需求,從數(shù)據(jù)視角對現(xiàn)實世界特征的模
擬和抽象,它描述了業(yè)務對象的
特征及其相互關系。在面向分析
的業(yè)務場景中,優(yōu)秀的數(shù)據(jù)模型
設計能夠降低數(shù)據(jù)加工處理的復
雜度,顯著提升數(shù)據(jù)分析的效率。數(shù)據(jù)標準是企業(yè)范圍內需要共同遵守的關于數(shù)據(jù)的統(tǒng)一規(guī)范和規(guī)
則,是企業(yè)層面對于某個數(shù)據(jù)的
共同理解,目的是實現(xiàn)數(shù)據(jù)的可
理解性以及相互協(xié)作的效率。數(shù)據(jù)分布是數(shù)據(jù)在企業(yè)內不同系
統(tǒng)或層級的分布情況,以及數(shù)據(jù)
之間的相互流動關系。在面向分
析的業(yè)務場景中,優(yōu)秀的數(shù)據(jù)分
布設計能夠提升數(shù)據(jù)的分析處理
效率并保障數(shù)據(jù)質量。四大核心組件數(shù)據(jù)目錄數(shù)據(jù)模型數(shù)據(jù)標準數(shù)據(jù)分布找得到、看得懂、管得好看得懂、管得好三大數(shù)據(jù)目錄的定義一個企業(yè)通常包括數(shù)據(jù)資源目錄、數(shù)據(jù)資產(chǎn)目錄和數(shù)據(jù)開放目錄三大目錄。數(shù)據(jù)資源目錄反映了企業(yè)所擁有的原始數(shù)據(jù);數(shù)據(jù)資
產(chǎn)目錄反映了對數(shù)據(jù)資源進行處理和管理之后,對企業(yè)具有價值的數(shù)據(jù);數(shù)據(jù)開放目錄是數(shù)據(jù)資產(chǎn)目錄的一個子集,反映了可以
內部共享或對外開放的數(shù)據(jù)。數(shù)據(jù)資產(chǎn)目錄對數(shù)據(jù)資源進行處理和管理之后,能夠為企業(yè)帶來
價值的數(shù)據(jù)稱之為數(shù)據(jù)資產(chǎn),對數(shù)據(jù)資產(chǎn)進行編目
之后形成的目錄稱為數(shù)據(jù)資產(chǎn)目錄。實際應用中,
通常將從業(yè)務系統(tǒng)采集后,經(jīng)過清洗、加工之后進
入數(shù)據(jù)倉庫或數(shù)據(jù)底座的數(shù)據(jù)為數(shù)據(jù)資產(chǎn)。數(shù)據(jù)開放目錄數(shù)據(jù)資產(chǎn)中可以用于企業(yè)內部共享和對外開放的數(shù)
據(jù)形成的目錄為數(shù)據(jù)開放目錄。并不是所有的數(shù)據(jù)
資產(chǎn)都適合對外共享和開放,通常數(shù)據(jù)開放目錄是
數(shù)據(jù)資產(chǎn)目錄的一個子集。數(shù)據(jù)資源目錄數(shù)據(jù)資源是指分布于各業(yè)務系統(tǒng)上的原始數(shù)據(jù),對
這些原始數(shù)據(jù)按照一定格式編目后形式的目錄稱之
為數(shù)據(jù)資源目錄。數(shù)據(jù)資源目錄反映了企業(yè)所擁有的原始數(shù)據(jù),是一個企業(yè)的“數(shù)據(jù)家底”。數(shù)據(jù)服務層API服務ADS數(shù)據(jù)集服務ETLODSETL數(shù)據(jù)消費可視化類決策支持類一線生產(chǎn)類業(yè)務系統(tǒng)IT系統(tǒng)1IT系統(tǒng)2IT系統(tǒng)3IT系統(tǒng)4數(shù)據(jù)中臺/數(shù)據(jù)底座CDM(公共數(shù)據(jù)層)DWSDWD數(shù)據(jù)資源目錄
數(shù)據(jù)開放目錄
數(shù)據(jù)資產(chǎn)目錄三大數(shù)據(jù)目錄之間的關系數(shù)據(jù)資源、數(shù)據(jù)資產(chǎn)和數(shù)據(jù)開放三大目錄的關系如下圖所示,數(shù)據(jù)資源目錄和數(shù)據(jù)資產(chǎn)目錄是相交關系(部分重疊關系),數(shù)據(jù)
資產(chǎn)目錄中的數(shù)據(jù)除了部分來自數(shù)據(jù)資源之外,同時還包括了對數(shù)據(jù)資源進行各種加工、融合處理之后新產(chǎn)生的數(shù)據(jù);數(shù)據(jù)資產(chǎn)目錄和數(shù)據(jù)開放目錄則是包含的關系,開放目錄是資產(chǎn)目錄的
一
個子集。數(shù)據(jù)資源目錄·
并不是所有的數(shù)據(jù)資源都是有價值的,例如業(yè)務系
統(tǒng)中的臨時表,存在嚴重質量問題的數(shù)據(jù)(例如關鍵字段缺失、數(shù)據(jù)不完整等)、缺乏元數(shù)據(jù)描述的數(shù)據(jù)等。數(shù)據(jù)資源目錄·
數(shù)據(jù)資產(chǎn)目錄中的數(shù)據(jù)來源于兩部分,一部分來源
于數(shù)據(jù)資源,經(jīng)過清洗、轉換處理之后成為數(shù)據(jù)資產(chǎn)。另一部分是對數(shù)據(jù)資源進行各種關聯(lián)、匯總處
理之后形成新的數(shù)據(jù)資產(chǎn)。數(shù)據(jù)資源目錄·
數(shù)據(jù)開放目錄是數(shù)據(jù)資產(chǎn)目錄的一個子集,剔除了
部分不適合對外共享和開放的數(shù)據(jù)資產(chǎn)。例如涉及
用戶隱私、高度敏感的數(shù)據(jù)。三大目錄之間的關系如何建設數(shù)據(jù)目錄?數(shù)據(jù)目錄的建設主要包括制定數(shù)據(jù)目錄標準、編制數(shù)據(jù)目錄、數(shù)據(jù)目錄運營管理三大步驟,首先是確定數(shù)據(jù)目錄和分類框架和元
數(shù)據(jù)標準,其次根據(jù)標準開展數(shù)據(jù)目錄的編制工作,最后是對數(shù)據(jù)目錄開展持續(xù)的運營管理。一
、制定數(shù)據(jù)目錄標準
二
、編制數(shù)據(jù)目錄
三、數(shù)據(jù)目錄運營管理·
首先要制定數(shù)據(jù)目錄的標準,明確數(shù)據(jù)目錄按照
什么樣的格式和要求來編制,主要包括數(shù)據(jù)目錄
的分類框架和數(shù)據(jù)元數(shù)據(jù)標準的確定?!?/p>
根據(jù)數(shù)據(jù)目錄的標準和要求,組織開展數(shù)據(jù)資
源目錄、數(shù)據(jù)資產(chǎn)目錄、數(shù)據(jù)開放目錄的編制
工作,形成最終的數(shù)據(jù)目錄?!?/p>
編制一次數(shù)據(jù)目錄容易,但是要開展常態(tài)化
的運營,真正管理和維護好數(shù)據(jù)目錄卻不是容易的事。元數(shù)據(jù)標準確定數(shù)據(jù)的業(yè)務、技
術和管理元數(shù)據(jù)描述
屬性和要求。數(shù)據(jù)分類標準確定數(shù)據(jù)層級化的分
類體系,涉及多種分
類方法。數(shù)據(jù)目錄責任機制數(shù)據(jù)資源目錄數(shù)據(jù)資產(chǎn)目錄數(shù)據(jù)開放目錄常態(tài)化盤點機制元數(shù)據(jù)維護機制制定數(shù)據(jù)目錄標準:幾種主要的數(shù)據(jù)分類方法在制定數(shù)據(jù)目錄的分類框架時,可以有多種方法對企業(yè)的數(shù)據(jù)進行分類,常見的包括面向業(yè)務流程、面向業(yè)務主題、面向系統(tǒng)的數(shù)據(jù)分類框架。企業(yè)應該從自身實際情況出發(fā),選擇適合自己特點的數(shù)據(jù)分類框架。面向系統(tǒng)的分類框架·
從技術的視角對數(shù)據(jù)進行分類,根據(jù)數(shù)據(jù)所產(chǎn)
生的系統(tǒng)進行分類。例如運營商企業(yè)中,
CRM系統(tǒng)下可進一步細分為客戶子中心、訂單子中
心
等
。CRM系統(tǒng)訂單中心BOSS系統(tǒng)信控中心·
以企業(yè)內的業(yè)務流程為中心,圍繞業(yè)務流程來
對數(shù)據(jù)進行分類,將支撐業(yè)務流程而產(chǎn)生的數(shù)
據(jù)歸到該業(yè)務流程之下。例如華為的面向交易
的數(shù)據(jù)目錄就是面向業(yè)務流程來設計數(shù)據(jù)分類
框架的。線索到回款·
以業(yè)務領域為中心,根據(jù)數(shù)據(jù)產(chǎn)生所在的業(yè)務領域對數(shù)據(jù)進行分類。例如《金融數(shù)據(jù)資源目
錄編制指南中》,將金融企業(yè)按照業(yè)務分為零
售業(yè)務、對公業(yè)務、信貸業(yè)務等。面向業(yè)務主題的分類框架信貸業(yè)務對公業(yè)務監(jiān)管統(tǒng)計零售業(yè)務客戶信息面向業(yè)務流程的分類框架客戶合同計費中心產(chǎn)品中心賬務中心客戶中心機會點元數(shù)據(jù)類型屬性名稱屬性描述元數(shù)據(jù)類型屬性名稱屬性描述業(yè)務元數(shù)據(jù)數(shù)據(jù)資源/資產(chǎn)編號數(shù)據(jù)資源/資產(chǎn)的唯一標識技術元數(shù)據(jù)更新周期實時、日、月、年等數(shù)據(jù)資源/資產(chǎn)名稱數(shù)據(jù)資源/資產(chǎn)的名稱保存周期如保存7天、30天、1年等業(yè)務含義描述業(yè)務含義說明記錄數(shù)表的記錄數(shù)量業(yè)務口徑或規(guī)則描述業(yè)務口徑或規(guī)則管理元數(shù)據(jù)數(shù)據(jù)所有部門數(shù)據(jù)歸哪個部門所有業(yè)務主題一級分類歸屬的業(yè)務主題一級分類業(yè)務責任人數(shù)據(jù)所屬部門的管理責任人業(yè)務主題二級分類歸屬的業(yè)務主題二級分類技術責任人技術支撐部門責任人業(yè)務主題三級分類歸屬的業(yè)務主題三級分類數(shù)據(jù)分類安全視角的數(shù)據(jù)分類技術元數(shù)據(jù)數(shù)據(jù)表英文名數(shù)據(jù)庫中的表英文名數(shù)據(jù)分級如數(shù)據(jù)敏感級別等數(shù)據(jù)表中文名對應的中文名開放類型可開放、不可開放等數(shù)據(jù)表所屬系統(tǒng)所屬的T系統(tǒng)名稱創(chuàng)新時間創(chuàng)建的時間所屬數(shù)據(jù)庫名所屬的數(shù)據(jù)庫名更新時間更新的時間例如在業(yè)務元數(shù)據(jù)中,需要對數(shù)據(jù)的業(yè)務含義、業(yè)務口徑或規(guī)則進行描述,在技術元數(shù)據(jù)中,需要對數(shù)據(jù)的更新周期、保存周期進行描述,在管理元數(shù)據(jù)中,需要對數(shù)據(jù)的分類分級進行描述等,這些信息對于分析人員正確理解數(shù)據(jù)、正確使用數(shù)據(jù)至關重要。制定數(shù)據(jù)目錄標準:確定元數(shù)據(jù)標準數(shù)據(jù)架構管理的其中一個目標是“數(shù)據(jù)看得懂”,元數(shù)據(jù)正是確保數(shù)據(jù)可理解性,正確使用數(shù)據(jù)的關鍵。在制定元數(shù)據(jù)標準時,通常需要包括業(yè)務元數(shù)據(jù)、技術元數(shù)據(jù)、管理元數(shù)據(jù)三類元數(shù)據(jù),明確每類元數(shù)據(jù)需要包含的信息及填寫要求。編制數(shù)據(jù)目錄:數(shù)據(jù)資源目錄編制流程數(shù)據(jù)資源目錄的編制主要包括數(shù)據(jù)盤點、數(shù)據(jù)價值識別、元數(shù)據(jù)補全和審核發(fā)布四個環(huán)節(jié)。通過數(shù)據(jù)盤點來排摸和發(fā)現(xiàn)業(yè)務系統(tǒng)
中的原始數(shù)據(jù),并從中識別和篩選出有潛在價值的數(shù)據(jù),對價值數(shù)據(jù)的元數(shù)據(jù)信息進行補充完整,最后經(jīng)過相關人員的審核確認
之后正式發(fā)布到數(shù)據(jù)資源目錄。建立審核機制,由數(shù)據(jù)擁有方和目錄管理方對數(shù)據(jù)資源的信息進行確認,經(jīng)過確認之后發(fā)布到數(shù)據(jù)資源目錄。對業(yè)務系統(tǒng)上的數(shù)據(jù)進行盤點,摸清有哪些原始數(shù)據(jù)。優(yōu)先采用
系統(tǒng)自動盤點方式,不具備條件
的情況下采用手工盤點方式。從業(yè)務系統(tǒng)采集過來的元數(shù)據(jù)可能是不完整,需要對照資源目錄的元數(shù)據(jù)標準,補充相應的元數(shù)據(jù)信息。1、數(shù)據(jù)盤點
2、數(shù)據(jù)價值識別
3、元數(shù)據(jù)補全
4、審核發(fā)布臨時數(shù)據(jù)
重復數(shù)據(jù)失效數(shù)據(jù)
不完整數(shù)據(jù)幾種無價值的數(shù)據(jù)針對盤點得到的原始數(shù)據(jù)進行價
值的判斷,識別出有潛在價值的數(shù)據(jù),將其納入資源目錄范圍。自動補全
手工補錄元數(shù)據(jù)補錄方式數(shù)據(jù)擁有方審核目錄管理方審核資源信息審核系統(tǒng)自動
盤點盤點方式手工盤點編制數(shù)據(jù)目錄:數(shù)據(jù)資產(chǎn)和開放目錄編制流程數(shù)據(jù)資產(chǎn)目錄一部分繼承自數(shù)據(jù)資源目錄,
一份則是基于數(shù)據(jù)資源構建的新的數(shù)據(jù)模型,這部分新建數(shù)據(jù)模型在完成元數(shù)據(jù)的錄
入和補充之后納入數(shù)據(jù)資產(chǎn)目錄。數(shù)據(jù)開放目錄則是數(shù)據(jù)資產(chǎn)目錄的一個子集,相關元數(shù)據(jù)信息繼承自數(shù)據(jù)資產(chǎn)目錄。數(shù)據(jù)資源目錄
新增數(shù)據(jù)資產(chǎn)數(shù)據(jù)資產(chǎn)目錄①從數(shù)據(jù)資產(chǎn)目錄中篩選出可以開放的數(shù)據(jù)②繼承數(shù)據(jù)資產(chǎn)目錄中的元數(shù)據(jù)數(shù)據(jù)開放目錄①篩選資源目錄中已匯聚至
數(shù)據(jù)中臺的數(shù)據(jù)②繼承數(shù)據(jù)資源目錄中的元
數(shù)據(jù)①新建數(shù)據(jù)模型②錄入元數(shù)據(jù)信息③審核確認之后納入資產(chǎn)目錄數(shù)據(jù)目錄運營管理:建立三大運營機制在數(shù)據(jù)目錄的日常運營管理中,需重點建立責任機制、常態(tài)化盤點機制和元數(shù)據(jù)維護機制。首先要明確數(shù)據(jù)目錄的管理責任,指
定專人來負責數(shù)據(jù)目錄的管理工作,其次是要定期開展數(shù)據(jù)盤點,及時識別新增或變更的數(shù)據(jù),同時要做好元數(shù)據(jù)的日常維護。數(shù)據(jù)目錄責任機制·
明確“數(shù)據(jù)擁有者”和“目錄運營者”兩類重
要角色及其工作職責,兩類角色相互協(xié)作,共同
維護和運營好企業(yè)的數(shù)據(jù)目錄。目錄運營者·負責數(shù)據(jù)目錄的整體
運營,包括組織開展
新增數(shù)據(jù)的盤點,發(fā)
現(xiàn)元數(shù)據(jù)質量問題等。·
在數(shù)據(jù)目錄使用的過程中,最為常見的問題是由
于元數(shù)據(jù)的不完整導致數(shù)據(jù)看不懂、不會用,因
此建立高效的元數(shù)據(jù)維護機制至關重要。常見的元數(shù)據(jù)相關的問題·這張表里面的數(shù)據(jù)到底是什么業(yè)務含義?·這個屬性的業(yè)務含義是什么?·屬性的各個枚舉值分別代表什么意思?·要分析某個業(yè)務場景,需要限定哪些屬性?
·……·
由于業(yè)務系統(tǒng)中的數(shù)據(jù)不斷在變化,需要建立常
態(tài)化的數(shù)據(jù)盤點機制,及時識別新增、發(fā)生變更
的數(shù)據(jù)資源,并同步更新數(shù)據(jù)目錄。常態(tài)化盤盤點更新數(shù)據(jù)擁有者·負責所擁有數(shù)據(jù)的元
數(shù)據(jù)的質量管理,包
括元數(shù)據(jù)錄入、修訂
和更新等。常態(tài)化盤點機制元數(shù)據(jù)維護機制數(shù)據(jù)資源目錄變更數(shù)據(jù)
失效數(shù)據(jù)新增數(shù)據(jù)27.8
151.4萬
?5786
81776蓋國慶|山河崢嶸家國同夢
路上(坐車開車旅游時一級
推薦)客戶滿意度
分析場景數(shù)據(jù)模型4…數(shù)據(jù)目錄管理的主要挑戰(zhàn):數(shù)據(jù)分類如何更貼近業(yè)務?前面提到了面向流程、主題、系統(tǒng)等多種數(shù)據(jù)分類方法,但在實際應用中,往往會同時用到不同流程、主題、系統(tǒng)下的數(shù)據(jù)。對
于使用者來說,如何快速、方便地找到所需的數(shù)據(jù)成為了巨大的挑戰(zhàn),很多時候需要到處找人去問,自己所需的數(shù)據(jù)表到底是哪
個,在哪個類別之下,所花費的時間和精力是巨大的。e4方
新2年實所內革命紅色典(國懷相圖Me一個人東我門效剪八季第十一19我
匯
2
的
相B0220Xlh.荻和段的機國中來樂團會編田我和線的相國A
a
李
格
一我和線的相國(Lim)艾
臨
A
R
/
防
陵
生
/
大
伸
/
5
/
此
續(xù)
/
沛
監(jiān)
兒
單
劉我和我的袒國n
王
年電形《玩和8的P主邱n攀
部成家巨款泄點
戶nea
次G
F8網(wǎng)價
螂
頭動
單e
Part
數(shù)
量數(shù)級分震結構主超分旭星公層也息分類,通過數(shù)據(jù)德角體取公司最高層面關注
的業(yè)務家址主愿域是三不系數(shù)照的商展置的分奘,用于管理其下一廈的05對象業(yè)商對象還業(yè)務體城審要的人事,物,敢了業(yè)務運作多及的聲要信想避請散據(jù)實體品具有一起正留關荔的散提演性的菜合屬性是碎迷斯屬業(yè)務對象的性教和暢征,反信思管理奶小融度傳統(tǒng)模式以網(wǎng)易云音樂來類比的話,傳統(tǒng)的基于業(yè)務流程的數(shù)據(jù)分類也好,基于業(yè)務
主題也好,就像按照歌手、專輯來檢索歌曲一樣,是最為傳統(tǒng)和基礎的方法。我和我的祖國n指意犯下,我3DB兩單班綜合
單曲
歌
單
歌
手
聲
音
插
客
歌
詞
專
輯
M
Y
用
戶創(chuàng)新模式但是網(wǎng)易云音樂同時提供了以用戶需求為導向的歌曲分類體系,以用戶聽歌的各種場景來對歌曲進
行分類,例如路上開車場景、學習工作場景、下雨天懷舊場景等等。對于數(shù)據(jù)目錄而言,同樣需要
按照應用場景來進行分類,例如產(chǎn)品潛在用戶挖掘、業(yè)務發(fā)展情況分析等各類應用場景。業(yè)務發(fā)展情況
分析場景數(shù)據(jù)模型2產(chǎn)品潛在用戶挖掘場景數(shù)據(jù)模型1存量客戶維系
分析場景數(shù)據(jù)模型3為咖啡店收藏高逼格歐美
背景音樂。公路之歌|自駕大西北自由感BGM主超過助
對課體跟籃主據(jù)過分組定
文L415131112數(shù)據(jù)目錄管理的主要挑戰(zhàn):如何做好元數(shù)據(jù)的維護?元數(shù)據(jù)信息的準確性和完整性決定了數(shù)據(jù)的可用性,可以采用人工和智能化工具等多種手段,實現(xiàn)數(shù)據(jù)目錄中元數(shù)據(jù)信息的高效維護
。實體業(yè)務含義大模型應用大模型基底模型提出元數(shù)據(jù)維護需求元數(shù)據(jù)維護專員目錄管理員審核確認報表、數(shù)據(jù)模型上線環(huán)節(jié)元數(shù)據(jù)維護目錄管理員審核確認對于生產(chǎn)任務中用到的數(shù)據(jù)
表和字段,必然會掌握元數(shù)
據(jù)信息,在這個環(huán)節(jié)將知識
沉淀下來是合理。將生產(chǎn)任務用到的數(shù)據(jù)表和
字段的元數(shù)據(jù)維護到數(shù)據(jù)目
錄。數(shù)據(jù)目錄管理員對維護的元
數(shù)據(jù)信息進行審核確認。·
在日常報表、取數(shù)等生產(chǎn)性工作中,這個過程
中會用到、學習到數(shù)據(jù)模型的元數(shù)據(jù)信息,但
是由于缺乏有效的管理,很多知識停留在開發(fā)
人員頭腦中,或者在代碼中,缺乏這些高價值
知識的有效管理。針對數(shù)據(jù)使用過程中遇
到的元數(shù)據(jù)問題,提出
維護需求。由元數(shù)據(jù)維護專員來處
理和響應需求。數(shù)據(jù)目錄管理員對需求
的處理質量審核確認,
確保解決實際問題?!?/p>
除了人工維護元數(shù)據(jù)信息之外,更為智能化的手
段是利用大數(shù)據(jù)技術,來智能產(chǎn)生相應的元數(shù)據(jù)
信息?!?/p>
針對數(shù)據(jù)使用過程中遇到的看不懂等元數(shù)據(jù)問
題,建立元數(shù)據(jù)需求響應流程,設立專員來處
理和響應數(shù)據(jù)使用者的述求。二、嵌入生產(chǎn)流程的元數(shù)據(jù)管理機制一
、元數(shù)據(jù)需求人工響應機制三、基于大模型的元數(shù)據(jù)智能生成多種手段組合使用,維護好數(shù)據(jù)目錄中的元數(shù)據(jù)信息,確保數(shù)據(jù)被正確理解和使用。屬性
名稱實體
名稱..數(shù)據(jù)模型的基本概念數(shù)據(jù)模型是對現(xiàn)實世界的數(shù)據(jù)特征的抽象描述,通常包括實體、關系、屬性、域等四個組件。以現(xiàn)實世界中的學校為例,有學生、
有老師、有教學樓,學生參加某位老師的課程。在數(shù)字世界中,想要準確描述這些人、事、物,需要用數(shù)據(jù)模型來描述和刻畫?!?/p>
如何描述一個學生?·
如何描述一個老師?·
如何描述學生上某個老師的課這樣的關系?典型場景:學生在學校里上某位老師的課程,學期
結束參加考試獲得成績和
學
分
。--數(shù)據(jù)模型現(xiàn)實世界
數(shù)字世界編
號年
齡姓
名學號…年齡姓名教師學生)數(shù)據(jù)模型組件不論采用什么樣的數(shù)據(jù)建模方法,數(shù)據(jù)模型通常會包括實體、關系、屬性和域四大基本組件。實體是承載數(shù)據(jù)信息的主體,關系是對實體與實體之間相互關系的描述,屬性是對實體或關系的特征的描述,域是屬性的約束規(guī)則集合?!?/p>
實體是承載數(shù)據(jù)信息的主體,代
表了現(xiàn)實世界中的對象,它可以
是具體的人、事、物,也可以是
抽象的概念?!?/p>
關系是實體與實體之間的相互關
聯(lián)或交互,包括1對1,1對多,多
對多三種關系類型?!?/p>
屬性是對實體或者關系某些方面
特征的
一
種定義、描述或度量,
包括標識屬性、描述屬性和關系
屬性三種類型?!?/p>
域是屬性的約束規(guī)則集合,是對
屬性的取值范圍、數(shù)據(jù)類型、數(shù)
據(jù)格式等要求的規(guī)范化定義。標識屬性唯一標識實體實例,例如客戶編號、學生編號
等。描述屬性描述實體的詳細特征,例如客戶姓名、客戶年
齡,學生姓名等。關系屬性描述關系本身的特征,僅存在于關系中,例如
產(chǎn)品訂購關系中的訂購時間等。1對1關系實體之間存在——對應的關系,例如1個班級
對應1個班主任,1個班主任只負責1個班級。1對多關系實體間存在1對多的關系,例如1個客戶以有
多個訂單,每個訂單只會對應到1個客戶。多對多關系實體間存在多對多關系,例如1個客戶可收藏
多個商品,同1個商品也可被多個客戶收藏。取值范圍限定數(shù)值或字符的合
法取值范圍,例如年
齡不能為負數(shù)等業(yè)務規(guī)則定義屬性的業(yè)務規(guī)則
例如用戶狀態(tài)用1表
示正常,0表示銷戶數(shù)據(jù)類型定義屬性的數(shù)據(jù)類型
例如用戶年齡要求是
整數(shù)型等。數(shù)據(jù)格式定義數(shù)據(jù)的格式規(guī)則
例如手機號必須為11位等。事例如訂單、話單等抽象概念例如套餐、角色等。人例如客戶、學生等。物例如商品、設備等。屬性(Attribute)
域(Domain)實
體(Entity)關
系(RelationShip)業(yè)務視角抽象級別高概念模型概念模型首先從業(yè)務需求出發(fā),通過對業(yè)務需求的分析來識別核心實體,并對實
體間的關系進行描述。概念模型是最高層次的抽象,不涉及技術細節(jié),與采用什
么樣的數(shù)據(jù)庫技術(如mysql
、oracle
等)無關。技術視角抽象級別中邏輯模型邏輯模型是對概念模型的進一步拓展,從技術視角將概念模型轉化為詳
細的數(shù)據(jù)結構,包括數(shù)據(jù)表、屬性、關系和約束規(guī)則等。邏輯模型階段
仍與具體的數(shù)據(jù)庫技術無關。具體技術實現(xiàn)抽象級別低物理模型由于數(shù)據(jù)模型承載于特定的數(shù)據(jù)庫系統(tǒng)之上,物理模型需要從
技術層面與數(shù)據(jù)庫技術進行匹配,例如索引、分區(qū)等細節(jié)。數(shù)據(jù)模型的三個層次(1/2)數(shù)據(jù)模型一般分為概念模型、邏輯模型和物理模型三個層次。概念模型是最高層次的業(yè)務抽象,主要解決核心實體和實體間關系的識別。邏輯模型是對概念模型的進一
步拓展和豐富,它在概念模型的基礎上補充明確數(shù)據(jù)表、屬性等信息。物理模型抽象級別
最低,它從技術層面與特定的數(shù)據(jù)庫技術進行匹配。學校學生
大學志愿申請·
識別關鍵實體:包括學校、學生、志愿申請等實體·
描述實體間關系:學校和學生是1對多的關系,1個
學??梢杂泻芏鄬W生;學生和大學志愿申請也是1對
多的關系,1個學生可以有多個申請志愿。學校學校編號:整數(shù)學校名稱:字符串·豐富實體屬性:例如學校有
學校編號、名稱等屬性?!へS富約束規(guī)則:例如學校編
號要求是整數(shù),學校名稱用
字符串表示。邏輯模型階段與技術實現(xiàn)無關學生STU_ID:intSTU_NAME:varchar(20)SCH_ID:int大學志愿申請APPJD:intSTUJD:intAPP_Date:date學生編號:整數(shù)姓名:字符串歸屬學校編號:整數(shù)大學志愿申請申請編號:整數(shù)學生編號:整數(shù)申請時間:日期學校SCHLJD:intSCH_NAME:varchar(50)匹配具體的技術,假如
用oracle數(shù)據(jù)庫來實現(xiàn),
那么將學校名稱的數(shù)據(jù)
類型進一步明確為varchar(50)數(shù)據(jù)模型的三個層次(2/2)三、物理模型一、概念模型二
、邏輯模型以一個學校管理系統(tǒng)例子來說明概念模型、邏輯模型和物理模型三者的區(qū)別:·關系建模維度建模面向對象建模非關系建模定義·
關系建模的核心思想是通過二維表和表間關聯(lián)來結構化表示數(shù)據(jù)?!?/p>
關系建模要求滿足一定的規(guī)范
化條件,從而確保數(shù)據(jù)的完整
性和一致性?!?/p>
維度建模的核心思想是將數(shù)據(jù)分為事實表和維度表,通過星
型或者雪花模型來組織數(shù)據(jù)?!?/p>
以對象為核心的建模方法,通過將數(shù)據(jù)(屬性)和行為(方法)封裝在對象中,模擬現(xiàn)實世界的實體及其交互?!?/p>
不同于傳統(tǒng)關系型數(shù)據(jù)庫的數(shù)
據(jù)組織方式,專為處理非結構化、半結構化或動態(tài)變化的數(shù)據(jù)而設計,包括文檔建模、鍵值建模、圖建模等方法。適用場景·
單個事務處理性能高,數(shù)據(jù)一
致性高,適用于高并發(fā)的、面
向事務處理的業(yè)務場景,例如
CRM、銀行交易系統(tǒng)等?!?/p>
為數(shù)據(jù)倉庫建模提出的方法,海量數(shù)據(jù)的分析查詢性能高,適用于面向數(shù)據(jù)分析的業(yè)務場景?!みm合業(yè)務邏輯復雜、需求頻繁
變更的業(yè)務系統(tǒng)?!?/p>
靈活性和可擴展性強,適合超
高并發(fā)讀寫、數(shù)據(jù)結構多變、
屬性不固定等業(yè)務場景。常見的數(shù)據(jù)建模方法數(shù)據(jù)建模方法有多種,常見的包括關系建模、維度建模、面向對象建模、非關系建模等,每一種數(shù)據(jù)建模方法都有各自的特點和
適用的場景,需要根據(jù)實際情況選擇適合的建模方法。在面向數(shù)據(jù)分析的場景中,維度建模是最為常用的建模方法。星型模型維度建模中包括事實表和維度表兩種核心表結構,事實表和維度表的不同組織方式構成了星型模型和雪花模型兩類模型。事實表是對業(yè)務過程的量化描述(通常為數(shù)據(jù)值型指標),維度代表了分析事實的各種環(huán)境。以電商中的訂單過程為例,訂單事實表中
的
商
品
數(shù)
量
、
訂
單
金
額
、
優(yōu)
惠
金
額
、
支
付
金
額
等
是
訂
單
這
一
事
件
的
度
量
,
客
戶ID
、商
品ID等
則
代
表
了
分
析
的
維
度
。星型模型和雪花模型的區(qū)別是維度表的設計,針對有多個層級的維度,星型模型是完全非規(guī)范化的,既各層級的維度均包含在一張維度表中。而雪花模型會將層級結構
拆分為多張維度表。訂單事實表訂單ID客戶ID商品ID賣家ID店鋪ID下單時間商品數(shù)量訂單金額優(yōu)惠金額實際支付金額客戶維表客戶ID
客戶姓名
客戶年齡客戶性別商品維表商品ID商品名稱商品類目ID類目名稱行業(yè)ID行業(yè)名稱賣家維表賣家ID賣家名稱店鋪維表店鋪ID店鋪名稱店鋪級別開店時間·星型模型中的商品維度表進行了反規(guī)范化設計(維
度退化),將商品相關的類目及行業(yè)信息統(tǒng)一整合到商品維表中。而雪花模型則采用規(guī)范化設計,同
時設計了類目維表、行業(yè)維表,在使用時需要多張
維度表的相互關聯(lián)。客戶維表客戶ID客戶姓名客戶年齡客戶性別訂單事實表訂單ID客戶ID商品ID賣家ID店鋪ID賣家維表賣家ID賣家名稱行業(yè)維表行業(yè)ID行業(yè)名稱行業(yè)特征類目維表類目ID類目名稱行業(yè)ID商品維表商品ID商品名稱下單時間商品數(shù)量訂單金額優(yōu)惠金額實際支付金額店鋪維表店鋪ID店鋪名稱
店鋪級別
開店時間雪花模型雪花模型與星型模型的區(qū)別是在維度表的設計上,雪花模型在維度表的設計上會采用規(guī)范化的設計,涉及到多張維度表的相互關聯(lián)。數(shù)據(jù)標準分類標準說明示例數(shù)據(jù)命名標準明確數(shù)據(jù)表、屬性字段的命名規(guī)則和規(guī)范,提升數(shù)據(jù)的可識別性、可理解性及協(xié)作效率。例如將數(shù)據(jù)倉庫的數(shù)據(jù)表命名規(guī)則為:【數(shù)據(jù)層級】_【主題域縮寫】
【主題子域縮寫】_
【實體自定義】示例:D_PCU_BUSI_CUST數(shù)據(jù)定義標準對企業(yè)內關鍵數(shù)據(jù)的業(yè)務含義進行定義,確保企業(yè)范圍內對同
一數(shù)據(jù)的有相同的理解。例如對于“個人用戶”、“家庭用戶”的業(yè)務含義進行統(tǒng)一定義,避免口徑上的差異。數(shù)據(jù)編碼與值域標準對于關鍵的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 家電公司設備報廢管理細則
- 天津叉車理論考試試題及答案
- 五級驗光員考試試題及答案
- 邢臺一模語文試題及答案
- 體育項目應試題及答案
- 模擬暴雨考試題及答案
- 醫(yī)生看診面試題及答案
- 商場服裝銷售工作總結
- 家電公司招標公告管理辦法
- 2020-2025年監(jiān)理工程師之交通工程目標控制能力檢測試卷A卷附答案
- 咨詢行業(yè)流程管理制度
- JG/T 210-2018建筑內外墻用底漆
- 2025叉車理論考試試題及答案
- 2024-2025年度建筑施工項目管理評審計劃
- 2025年中國不銹鋼寬幅網(wǎng)市場調查研究報告
- 《支氣管鏡檢查技術》課件
- 解讀2025年金融行業(yè)的重要事件試題及答案
- 建筑吊籃培訓課件
- 企業(yè)差旅費管理制度
- 成都鹽道街中學實驗學校數(shù)學新初一分班試卷含答案
- 門式滿堂腳手架施工方案
評論
0/150
提交評論