




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
ICS35.240.01
CCSL70
5227
黔南州地方標(biāo)準(zhǔn)
DB5227/T112—2022
智慧黔南數(shù)據(jù)質(zhì)量評(píng)價(jià)規(guī)范
Smartqiannan-Dataqualityevaluationstandard
2022-12-16發(fā)布2023-04-01實(shí)施
黔南布依族苗族自治州市場(chǎng)監(jiān)督管理局??發(fā)布
DB5227/T112—2022
目次
前言..................................................................................II
1范圍................................................................................1
2規(guī)范性引用文件......................................................................1
3術(shù)語(yǔ)和定義..........................................................................1
4數(shù)據(jù)質(zhì)量評(píng)價(jià)總體流程................................................................2
5數(shù)據(jù)質(zhì)量評(píng)價(jià)要求....................................................................3
5.1確定業(yè)務(wù)目標(biāo)和要求..............................................................3
5.2剖析待評(píng)價(jià)數(shù)據(jù)..................................................................4
5.3明確數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)............................................................5
5.4設(shè)計(jì)質(zhì)量校驗(yàn)規(guī)則................................................................5
5.5配置質(zhì)量校驗(yàn)規(guī)則................................................................9
5.6評(píng)估數(shù)據(jù)質(zhì)量并輸出報(bào)告..........................................................9
6整改問(wèn)題數(shù)據(jù).......................................................................11
7數(shù)據(jù)共享開放工作流程...............................................................11
附錄A(資料性)表級(jí)計(jì)算得分示例.....................................................12
附錄B(資料性)部門級(jí)計(jì)算得分示例...................................................13
附錄C(資料性)數(shù)據(jù)質(zhì)量報(bào)告樣例.....................................................14
C.1數(shù)據(jù)質(zhì)量情況分析...............................................................14
C.2數(shù)據(jù)質(zhì)量得分及排名對(duì)比.........................................................14
C.3數(shù)據(jù)異常響應(yīng)問(wèn)題變化趨勢(shì).......................................................15
C.4問(wèn)題數(shù)據(jù)整改建議...............................................................15
附錄D(規(guī)范性)黔南州數(shù)據(jù)共享開放工作流程...........................................17
參考文獻(xiàn)..............................................................................18
I
DB5227/T112—2022
前言
本文件按照GB/T1.12020《標(biāo)準(zhǔn)化工作導(dǎo)則第1部分:標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定
起草。
請(qǐng)注意本文件的某些內(nèi)容可能涉及專利。本文件的發(fā)布機(jī)構(gòu)不承擔(dān)識(shí)別專利的責(zé)任
本文件由黔南州大數(shù)據(jù)發(fā)展管理局提出。
本文件由黔南州大數(shù)據(jù)發(fā)展管理局歸口。
本文件起草單位:黔南州大數(shù)據(jù)發(fā)展管理局、黔南州市場(chǎng)監(jiān)督管理局、都勻市大數(shù)據(jù)發(fā)展服務(wù)中心、
廣西大學(xué)計(jì)算機(jī)與電子信息學(xué)院、黔南民族師范學(xué)院、北京東方國(guó)信科技股份有限公司、中國(guó)電信股份
有限公司黔南分公司。
本文件主要起草人:潘志刊、楊宗俊、顏家遠(yuǎn)、劉超、黃子吉、何曉慧、陳文濤、宋俊、李怡青、
董婧、殷文輝、左為、韋廣柱、劉峻、李明江、周錦程、張永麗、胡嘉斌、宋佳南、楊森、傳洪波。
II
DB5227/T112—2022
智慧黔南數(shù)據(jù)質(zhì)量評(píng)價(jià)規(guī)范
1范圍
本文件規(guī)定了智慧黔南數(shù)據(jù)質(zhì)量評(píng)價(jià)規(guī)范的全流程,包括數(shù)據(jù)質(zhì)量評(píng)價(jià)總體流程、數(shù)據(jù)質(zhì)量評(píng)價(jià)要
求、整改問(wèn)題數(shù)據(jù)、數(shù)據(jù)共享開放工作流程。
本文件適用于智慧黔南數(shù)據(jù)質(zhì)量評(píng)價(jià)規(guī)范的具體實(shí)施工作,為各行業(yè)各部門評(píng)價(jià)數(shù)據(jù)質(zhì)量提供參考。
2規(guī)范性引用文件
下列文件中的內(nèi)容通過(guò)文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,
僅該日期對(duì)應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本
文件。
GB/T5271.1信息技術(shù)詞匯第1部分:基本術(shù)語(yǔ)
GB/T5271.17信息技術(shù)詞匯第17部分:數(shù)據(jù)庫(kù)
GB/T36344信息技術(shù)數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)
3術(shù)語(yǔ)和定義
GB/T5271、GB/T36344界定的以及下列術(shù)語(yǔ)和定義適用于本文件。
3.1
數(shù)據(jù)
關(guān)于數(shù)據(jù)或數(shù)據(jù)元素的數(shù)據(jù)(可能包括其數(shù)據(jù)描述),以及關(guān)于數(shù)據(jù)擁有權(quán)、存取路徑、訪問(wèn)權(quán)和
數(shù)據(jù)易變性的數(shù)據(jù)。
[來(lái)源:GB/T5271.17—2010,17.06.05]
3.2
元數(shù)據(jù)
關(guān)于數(shù)據(jù)或數(shù)據(jù)元素的數(shù)據(jù)(可能包括其數(shù)據(jù)描述),以及關(guān)于數(shù)據(jù)擁有權(quán)、存取路徑、訪問(wèn)權(quán)和
數(shù)據(jù)易變性的數(shù)據(jù)。
[來(lái)源:GB/T5271.17—2010,17.06.05]
3.3
數(shù)據(jù)質(zhì)量
在指定條件下使用時(shí),數(shù)據(jù)的特性滿足明確的和隱含的要求的程度。
[來(lái)源:GB/T36344—2018,2.3]
3.4
原始數(shù)據(jù)
終端用戶所存儲(chǔ)使用的各種未經(jīng)過(guò)處理或簡(jiǎn)化的數(shù)據(jù)。
[來(lái)源:GB/T36344—2018,2.4]
1
DB5227/T112—2022
3.5
數(shù)據(jù)集
具有一定主題,可以標(biāo)識(shí)并可以被計(jì)算機(jī)化處理的數(shù)據(jù)集合。
[來(lái)源:GB/T36344—2018,2.6]
3.6
數(shù)據(jù)質(zhì)量校驗(yàn)
對(duì)數(shù)據(jù)質(zhì)量進(jìn)行校對(duì)、核查的過(guò)程。
3.7
數(shù)據(jù)質(zhì)量評(píng)價(jià)
指以原始數(shù)據(jù)為基礎(chǔ),充分考慮數(shù)據(jù)之間的相關(guān)性、匹配性、邏輯性,采用科學(xué)方法對(duì)數(shù)據(jù)的規(guī)范
性、完整性、準(zhǔn)確性、一致性、時(shí)效性、可訪問(wèn)性進(jìn)行判斷和分析,對(duì)可能存在的數(shù)據(jù)質(zhì)量問(wèn)題進(jìn)行追
溯和核實(shí),對(duì)數(shù)據(jù)進(jìn)行確認(rèn)的過(guò)程。
3.8
數(shù)據(jù)標(biāo)準(zhǔn)
數(shù)據(jù)的命名、定義、結(jié)構(gòu)和取值范圍方面的規(guī)則和基準(zhǔn)。
[來(lái)源:GB/T36344—2018,2.8]
3.9
數(shù)據(jù)剖析
用適當(dāng)?shù)慕y(tǒng)計(jì)、分析等方法對(duì)原始數(shù)據(jù)進(jìn)行分析,對(duì)其特征加以匯總和理解,以求最大化地開發(fā)數(shù)
據(jù)的功能,發(fā)揮數(shù)據(jù)的作用。
4數(shù)據(jù)質(zhì)量評(píng)價(jià)總體流程
數(shù)據(jù)質(zhì)量評(píng)價(jià)流程可保證數(shù)據(jù)質(zhì)量評(píng)價(jià)整個(gè)過(guò)程的有序及有效進(jìn)行,具體流程如圖1所示:
2
DB5227/T112—2022
圖1數(shù)據(jù)質(zhì)量評(píng)價(jià)流程
5數(shù)據(jù)質(zhì)量評(píng)價(jià)要求
5.1確定業(yè)務(wù)目標(biāo)和要求
內(nèi)容包括但不限于:
——項(xiàng)目的背景、計(jì)劃和目標(biāo);
——數(shù)據(jù)存在的具體問(wèn)題;
——問(wèn)題數(shù)據(jù)的產(chǎn)生,例如流程、組織、技術(shù)等;
3
DB5227/T112—2022
——問(wèn)題數(shù)據(jù)解決的優(yōu)先次序。
5.2剖析待評(píng)價(jià)數(shù)據(jù)
內(nèi)容包括但不限于:
——數(shù)據(jù)的元數(shù)據(jù)信息,例如數(shù)據(jù)名稱、數(shù)據(jù)格式、數(shù)據(jù)類型、數(shù)據(jù)精度等。
——數(shù)據(jù)值的分布信息,例如主鍵唯一性、缺失值、取值范圍、異常符號(hào)等。
——設(shè)定字段的級(jí)別,按業(yè)務(wù)重要性程度和數(shù)據(jù)問(wèn)題的嚴(yán)重性程度對(duì)原始數(shù)據(jù)進(jìn)行業(yè)務(wù)影響分級(jí),
分為一級(jí)、二級(jí)、三級(jí)。三級(jí)級(jí)別最高,重要程度分類方式如下:
三級(jí):業(yè)務(wù)主鍵;
二級(jí):數(shù)值型、日期型、文本類表示的日期字段,短文本類字段(如名稱、地址、代碼、
類型等特征字段),權(quán)威數(shù)據(jù)來(lái)源字段;
4
DB5227/T112—2022
一級(jí):空值率大于80%、其他類型字段,如:源業(yè)務(wù)系統(tǒng)字段、長(zhǎng)文本描述類型字段。
5.3明確數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)
數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)劃分為:完整性、一致性、準(zhǔn)確性、合理性、唯一性與及時(shí)性六個(gè)維度。其中,
完整性、一致性、準(zhǔn)確性應(yīng)符合GB/T36344的規(guī)定。
5.4設(shè)計(jì)質(zhì)量校驗(yàn)規(guī)則
5.4.1制定校驗(yàn)規(guī)則
概述
根據(jù)質(zhì)量評(píng)價(jià)指標(biāo)制定12項(xiàng)質(zhì)量校驗(yàn)規(guī)則,對(duì)數(shù)據(jù)質(zhì)量進(jìn)行計(jì)算、評(píng)分,質(zhì)量評(píng)價(jià)指標(biāo)和校驗(yàn)規(guī)則
的對(duì)應(yīng)關(guān)系見(jiàn)表1。
表1質(zhì)量評(píng)價(jià)指標(biāo)對(duì)應(yīng)的質(zhì)量校驗(yàn)規(guī)則表
序號(hào)質(zhì)量評(píng)價(jià)指標(biāo)質(zhì)量校驗(yàn)規(guī)則
字段完整性校驗(yàn)
1
空值校驗(yàn)
完整性
2記錄數(shù)校驗(yàn)
3參照校驗(yàn)-雙向校驗(yàn)
4一致性一致性校驗(yàn)
5值域校驗(yàn)
6準(zhǔn)確性格式校驗(yàn)
7參照校驗(yàn)-單向校驗(yàn)
8邏輯校驗(yàn)
9合理性波動(dòng)性校驗(yàn)
10關(guān)系校驗(yàn)
11唯一性重復(fù)校驗(yàn)
12及時(shí)性記錄數(shù)校驗(yàn)
完整性
5
DB5227/T112—2022
按照數(shù)據(jù)規(guī)則要求,數(shù)據(jù)元素被賦予數(shù)值的程度,包括數(shù)據(jù)元素的完整性和數(shù)據(jù)記錄的完整性。對(duì)
應(yīng)的規(guī)則為:字段完整性校驗(yàn)、空值校驗(yàn)、記錄數(shù)校驗(yàn)、參照校驗(yàn)-雙向校驗(yàn),完整性評(píng)價(jià)指標(biāo)見(jiàn)表2。
表2完整性校驗(yàn)規(guī)則
序號(hào)一級(jí)指標(biāo)二級(jí)指標(biāo)指標(biāo)描述計(jì)算公式
字段完整性對(duì)業(yè)務(wù)表的字段完整性校驗(yàn),檢查A
1A=數(shù)據(jù)內(nèi)容不符合字段完整性的數(shù)據(jù)記錄條數(shù)
校驗(yàn)字段個(gè)數(shù)和字段名稱是否完整。X=(1?B)×100%
B=數(shù)據(jù)記錄總數(shù)
對(duì)非空字段檢查填充率是否為A
2空值校驗(yàn)A=數(shù)據(jù)內(nèi)容為空的數(shù)據(jù)記錄條數(shù)
100%,數(shù)據(jù)內(nèi)容是否完整。X=(1?B)×100%
B=數(shù)據(jù)記錄總數(shù)
通過(guò)當(dāng)前校驗(yàn)表中的記錄數(shù)是否
完整性記錄條數(shù)在設(shè)定的范圍內(nèi)得滿分100,不在范圍內(nèi)
3記錄數(shù)校驗(yàn)在預(yù)先設(shè)定的范圍內(nèi),來(lái)驗(yàn)證數(shù)據(jù)
得0分
記錄的完整性。
驗(yàn)證校驗(yàn)數(shù)據(jù)包含在參照數(shù)據(jù)中
A
參照校驗(yàn)-的程度,以及參照數(shù)據(jù)包含在驗(yàn)證A=數(shù)據(jù)內(nèi)容與參照數(shù)據(jù)相互不包含的數(shù)據(jù)記錄條
4X=(1?B)×100%
雙向校驗(yàn)數(shù)據(jù)中的程度,即檢驗(yàn)校驗(yàn)數(shù)據(jù)和數(shù)
參照數(shù)據(jù)相互包含的程度。B=數(shù)據(jù)記錄總數(shù)
注:X代表數(shù)據(jù)質(zhì)量評(píng)價(jià)值
一致性
數(shù)據(jù)與其他特定上下文中使用的數(shù)據(jù)無(wú)矛盾的程度,包括相同數(shù)據(jù)一致性和關(guān)聯(lián)數(shù)據(jù)一致性。對(duì)應(yīng)
的規(guī)則為一致性校驗(yàn),一致性評(píng)價(jià)指標(biāo)見(jiàn)表3。
表3一致性校驗(yàn)規(guī)則
序號(hào)一級(jí)指標(biāo)二級(jí)指標(biāo)指標(biāo)描述計(jì)算公式
單表單行校驗(yàn):
A
A=校驗(yàn)列中與參照列中數(shù)據(jù)內(nèi)容不一致的數(shù)據(jù)記
X=(1?B)×100%
錄條數(shù)
對(duì)分布在不同庫(kù)表中的相同數(shù)據(jù)
B=數(shù)據(jù)記錄總數(shù)
項(xiàng)進(jìn)行一致性檢查,包括對(duì)照原始
數(shù)據(jù)和目標(biāo)數(shù)據(jù),檢查在數(shù)據(jù)遷移單表匯總校驗(yàn):校驗(yàn)列數(shù)據(jù)匯總值和參照列數(shù)據(jù)
1一致性一致性校驗(yàn)過(guò)程中是否存在數(shù)據(jù)錯(cuò)誤、丟失。匯總值一致得滿分100,不一致得0分
一致性檢查包括:?jiǎn)伪韱涡行r?yàn)、雙表匯總校驗(yàn):校驗(yàn)表與參照表關(guān)聯(lián)后校驗(yàn)列數(shù)
單表匯總校驗(yàn)、雙表匯總校驗(yàn)和雙據(jù)匯總值和參照列數(shù)據(jù)匯總值一致得滿分100,不
表單行校驗(yàn)四種。一致得0分
雙表單行校驗(yàn):
A
A=校驗(yàn)表與參照表關(guān)聯(lián)后校驗(yàn)列數(shù)據(jù)和參照列數(shù)
X=(1?B)×100%
6
DB5227/T112—2022
序號(hào)一級(jí)指標(biāo)二級(jí)指標(biāo)指標(biāo)描述計(jì)算公式
據(jù)內(nèi)容不一致的數(shù)據(jù)記錄條數(shù)
B=數(shù)據(jù)記錄總數(shù)
注:X代表數(shù)據(jù)質(zhì)量評(píng)價(jià)值
準(zhǔn)確性
數(shù)據(jù)準(zhǔn)確性表示其所描述的真實(shí)實(shí)體(實(shí)際對(duì)象)真實(shí)值的程度,包括數(shù)據(jù)內(nèi)容正確性、數(shù)據(jù)格式
合規(guī)性、臟數(shù)據(jù)出現(xiàn)率。對(duì)應(yīng)的規(guī)則為:值域校驗(yàn)、格式校驗(yàn)、參照校驗(yàn)-單向校驗(yàn),準(zhǔn)確性評(píng)價(jià)指標(biāo)
見(jiàn)表4。
表4準(zhǔn)確性校驗(yàn)規(guī)則
序號(hào)一級(jí)指標(biāo)二級(jí)指標(biāo)指標(biāo)描述計(jì)算公式
校驗(yàn)數(shù)據(jù)的值是否在預(yù)設(shè)的范圍
A
1值域校驗(yàn)內(nèi),數(shù)據(jù)內(nèi)容是否是預(yù)期數(shù)據(jù)。例A=數(shù)據(jù)內(nèi)容不在預(yù)設(shè)的范圍內(nèi)的數(shù)據(jù)記錄條數(shù)
X=(1?B)×100%
如人的年齡是否在合理范圍內(nèi)。B=數(shù)據(jù)記錄總數(shù)
對(duì)字段值的格式進(jìn)行校驗(yàn),主要包
括編碼格式校驗(yàn),日期、時(shí)間格式
校驗(yàn)(YYYY-MM、YYYY-MM-DD、A
2格式校驗(yàn)A=數(shù)據(jù)內(nèi)容不符合規(guī)范格式的數(shù)據(jù)記錄條數(shù)
準(zhǔn)確性YYYY-MM-DDHH:MI:SS),電話格X=(1?B)×100%
B=數(shù)據(jù)記錄總數(shù)
式校驗(yàn)(手機(jī)號(hào)格式、固定電話格
式)等。
校驗(yàn)數(shù)據(jù)在參照數(shù)據(jù)中的包含程A
參照性校驗(yàn)A=數(shù)據(jù)內(nèi)容不包含在參照數(shù)據(jù)的范圍內(nèi)的數(shù)據(jù)記
3度,度量數(shù)據(jù)中是否包含無(wú)效的數(shù)X=(1?B)×100%
-單向校驗(yàn)錄條數(shù)
據(jù)。
B=數(shù)據(jù)記錄總數(shù)
注:X代表數(shù)據(jù)質(zhì)量評(píng)價(jià)值
合理性
根據(jù)數(shù)據(jù)之間的業(yè)務(wù)邏輯合理的程度,對(duì)應(yīng)的規(guī)則為:邏輯校驗(yàn)、波動(dòng)性校驗(yàn)、關(guān)系校驗(yàn),合理性
評(píng)價(jià)指標(biāo)見(jiàn)表5。
表5合理性校驗(yàn)規(guī)則
序號(hào)一級(jí)指標(biāo)二級(jí)指標(biāo)指標(biāo)描述計(jì)算公式
單行邏輯校驗(yàn):
邏輯校驗(yàn)檢查數(shù)據(jù)是否滿足一定條
件的要求,判斷所得結(jié)果是否合理。A
A=數(shù)據(jù)內(nèi)容不符合的邏輯關(guān)系的數(shù)據(jù)記錄條數(shù)
X=(1?B)×100%
1合理性邏輯校驗(yàn)邏輯校驗(yàn)檢查數(shù)據(jù)是否滿足一定條
B=數(shù)據(jù)記錄總數(shù)
件的要求。分為單行邏輯、維度匯
維度匯總統(tǒng)計(jì)校驗(yàn):維度匯總結(jié)果存在得滿分
總統(tǒng)計(jì)和維度統(tǒng)計(jì)記錄數(shù)三種。
100,不存在得0分
7
DB5227/T112—2022
序號(hào)一級(jí)指標(biāo)二級(jí)指標(biāo)指標(biāo)描述計(jì)算公式
維度統(tǒng)計(jì)記錄數(shù)校驗(yàn):維度匯總結(jié)果個(gè)數(shù)大于0
得滿分100,等于0得0分
同比校驗(yàn):
A?B
A=本統(tǒng)計(jì)周期數(shù)據(jù)之和
C=B
B=歷史同一統(tǒng)計(jì)周期數(shù)據(jù)之和
C=同比值
當(dāng)C超出預(yù)先設(shè)定的閾值得0分,未超出得滿分
100
統(tǒng)計(jì)周期:
年:某年度數(shù)據(jù)與上一年度數(shù)據(jù)波動(dòng)校驗(yàn)
季:某季度數(shù)據(jù)與上一年同一季度數(shù)據(jù)波動(dòng)校
月:某月數(shù)據(jù)與上一年同一個(gè)月數(shù)據(jù)波動(dòng)校驗(yàn)
日:某日數(shù)據(jù)與上一年同一日數(shù)據(jù)波動(dòng)校驗(yàn)
環(huán)比校驗(yàn):
波動(dòng)校驗(yàn)通過(guò)對(duì)兩段不同時(shí)期數(shù)據(jù)
A?B
波動(dòng)性校的比較,檢驗(yàn)數(shù)據(jù)波動(dòng)情況是否合A=本統(tǒng)計(jì)周期數(shù)據(jù)之和
2C=B
驗(yàn)理。波動(dòng)校驗(yàn)分同比校驗(yàn)、環(huán)比校B=上一個(gè)統(tǒng)計(jì)周期的數(shù)據(jù)之和
驗(yàn)和占比校驗(yàn)三種子校驗(yàn)。C=環(huán)比值
當(dāng)C超出預(yù)先設(shè)定的閾值得0分,未超出得滿分
100
統(tǒng)計(jì)周期與本文件第章節(jié)“同比校驗(yàn)”
中統(tǒng)計(jì)周期劃分一致
占比校驗(yàn):
A
A=校驗(yàn)數(shù)據(jù)某一周期維度值下的校驗(yàn)數(shù)據(jù)之和
C=B
B=校驗(yàn)數(shù)據(jù)總和
C=占比值
當(dāng)C超出預(yù)先設(shè)定的閾值得0分,未超出得滿分
100
統(tǒng)計(jì)周期與本文件第章節(jié)“同比校驗(yàn)”
中統(tǒng)計(jì)周期劃分一致
檢查具有業(yè)務(wù)關(guān)聯(lián)關(guān)系的數(shù)據(jù)之間A
A=校驗(yàn)列數(shù)據(jù)不符合參照列數(shù)據(jù)兩者關(guān)聯(lián)關(guān)系
3關(guān)系校驗(yàn)的聯(lián)系是否合理,是否具有與業(yè)務(wù)X=(1?B)×100%
運(yùn)算的數(shù)據(jù)記錄條數(shù)
規(guī)則一致的聯(lián)系。
B=數(shù)據(jù)記錄總數(shù)
注:X代表數(shù)據(jù)質(zhì)量評(píng)價(jià)值
唯一性
8
DB5227/T112—2022
特定字段、記錄、文件或數(shù)據(jù)集唯一性的度量。對(duì)應(yīng)的規(guī)則為:重復(fù)校驗(yàn),唯一性評(píng)價(jià)指標(biāo)見(jiàn)表6。
表6唯一性校驗(yàn)規(guī)則
序號(hào)一級(jí)指標(biāo)二級(jí)指標(biāo)指標(biāo)描述計(jì)算公式
校驗(yàn)?zāi)骋换蚨鄠€(gè)校驗(yàn)列數(shù)據(jù)是否有
A
1唯一性重復(fù)校驗(yàn)重復(fù)數(shù)據(jù),對(duì)不能重復(fù)的數(shù)據(jù)進(jìn)行的A=數(shù)據(jù)內(nèi)容重復(fù)的數(shù)據(jù)記錄條數(shù)
X=(1?B)×100%
唯一性檢查B=數(shù)據(jù)記錄總數(shù)
注:X代表數(shù)據(jù)質(zhì)量評(píng)價(jià)值
及時(shí)性
數(shù)據(jù)的加工是否滿足時(shí)效性要求。對(duì)應(yīng)的規(guī)則為:記錄數(shù)校驗(yàn),及時(shí)性評(píng)價(jià)指標(biāo)見(jiàn)表7。
表7及時(shí)性校驗(yàn)規(guī)則
序號(hào)一級(jí)指標(biāo)二級(jí)指標(biāo)指標(biāo)描述計(jì)算公式
校驗(yàn)?zāi)骋桓轮芷趦?nèi)數(shù)據(jù)量是否
在更新周期內(nèi)數(shù)據(jù)量有變化得滿分100,無(wú)變化得
1及時(shí)性記錄數(shù)校驗(yàn)變化,以此來(lái)判斷數(shù)據(jù)的推送是否
0分
及時(shí)。
5.4.2定義規(guī)則權(quán)重
定義規(guī)則權(quán)重根據(jù)數(shù)據(jù)剖析階段確定的字段的重要程度來(lái)定,由高到低分別為3、2、1,重要程度
越高的字段權(quán)重越高,即三級(jí)字段權(quán)重為3,二級(jí)字段權(quán)重為2,一級(jí)字段權(quán)重為1。其中,同一字段的
所有規(guī)則的權(quán)重都相同,如果是多個(gè)字段關(guān)聯(lián)的規(guī)則取權(quán)重低的作為此規(guī)則的權(quán)重。
5.5配置質(zhì)量校驗(yàn)規(guī)則
將三級(jí)和二級(jí)字段與已有的數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行映射,查看是否有對(duì)應(yīng)的標(biāo)準(zhǔn):
——對(duì)已有數(shù)據(jù)標(biāo)準(zhǔn)的字段,按標(biāo)準(zhǔn)配置稽核規(guī)則;
——對(duì)沒(méi)有數(shù)據(jù)標(biāo)準(zhǔn)的字段,根據(jù)剖析階段得出的字段的數(shù)據(jù)特征設(shè)計(jì)稽核規(guī)則。
將校驗(yàn)規(guī)則配置至系統(tǒng)平臺(tái)中,其中應(yīng)注意:
——宜對(duì)數(shù)據(jù)清洗前和數(shù)據(jù)清洗后的數(shù)據(jù)表配置校驗(yàn)規(guī)則,以便通過(guò)對(duì)清洗前后校驗(yàn)結(jié)果進(jìn)行分
析和改進(jìn);
——當(dāng)有多個(gè)校驗(yàn)規(guī)則時(shí),每一個(gè)字段配置一個(gè)校驗(yàn)規(guī)則;
——通過(guò)設(shè)置權(quán)重,優(yōu)化校驗(yàn)結(jié)果;
——在時(shí)間充足的情況下,宜配置規(guī)則說(shuō)明。
5.6評(píng)估數(shù)據(jù)質(zhì)量并輸出報(bào)告
5.6.1概述
數(shù)據(jù)質(zhì)量評(píng)價(jià)分3個(gè)層次:規(guī)則級(jí)、表級(jí)、部門級(jí)。
5.6.2制定評(píng)分規(guī)則
9
DB5227/T112—2022
規(guī)則級(jí)計(jì)算公式
各類數(shù)據(jù)質(zhì)量校驗(yàn)規(guī)則得分的計(jì)算公式,應(yīng)符合5.4.1的規(guī)定。
表級(jí)計(jì)算公式
表級(jí)得分均遵循下列計(jì)算公式進(jìn)行計(jì)算得出:
··················································(1)
W
T=