TCPRA 2102.2-2024 中華文化素材庫技術(shù)要求 第2部分:圖片類書籍?dāng)?shù)據(jù)質(zhì)量要求_第1頁
TCPRA 2102.2-2024 中華文化素材庫技術(shù)要求 第2部分:圖片類書籍?dāng)?shù)據(jù)質(zhì)量要求_第2頁
TCPRA 2102.2-2024 中華文化素材庫技術(shù)要求 第2部分:圖片類書籍?dāng)?shù)據(jù)質(zhì)量要求_第3頁
TCPRA 2102.2-2024 中華文化素材庫技術(shù)要求 第2部分:圖片類書籍?dāng)?shù)據(jù)質(zhì)量要求_第4頁
TCPRA 2102.2-2024 中華文化素材庫技術(shù)要求 第2部分:圖片類書籍?dāng)?shù)據(jù)質(zhì)量要求_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

ICS35.240.01CCSL70團 體 標 準T/CPRA2102.2—2024中華文化素材庫技術(shù)要求2部分:圖片類書籍?dāng)?shù)據(jù)質(zhì)量要求TechnicalrequirementsformaterialdatabaseofChineseculturePart2:Dataqualityrequirementsforimage-basedbooks2024-12-13發(fā)布 2024-12-13實施中國公共關(guān)系協(xié)會文化大數(shù)據(jù)產(chǎn)業(yè)委員會 發(fā)布T/CPRA2102.2-2024T/CPRA2102.2-2024II目 次前 言 II范圍 1規(guī)范性引用文件 1術(shù)語和定義 1中華文化素材庫 1文化數(shù)字內(nèi)容 1文化資源數(shù)據(jù) 2總體要求 2數(shù)據(jù)范圍 2數(shù)據(jù)入庫格式 2數(shù)據(jù)命名原則 3圖片類書籍?dāng)?shù)據(jù)入庫流程 3入庫流程 3數(shù)據(jù)要求 5平面數(shù)據(jù) 5文本數(shù)據(jù) 6表格數(shù)據(jù) 6書籍?dāng)?shù)據(jù) 6數(shù)據(jù)屬性要求 6屬性基本要求 6屬性數(shù)據(jù)結(jié)構(gòu)要求 6T/CPRA2102.2-2024T/CPRA2102.2-2024IIII前 言GB/T1請注意本文件的某些內(nèi)容可能涉及專利。本文件的發(fā)布機構(gòu)不承擔(dān)識別專利的責(zé)任。本文件由中國公共關(guān)系協(xié)會文化大數(shù)據(jù)產(chǎn)業(yè)委員會提出并歸口。本文件起草單位:北京郵電大學(xué)、北京玖揚科技有限公司、伏羲云(北京)文化科技有限公司。本文件主要起草人:徐坤、高凱、趙海英、薛曉鵬、尹暉、侯小剛、徐鵬舉、曹明煒、周月、張煉、崔義娜、陳磊、劉志軍、李媛媛。T/CPRA2102.2-2024T/CPRA2102.2-2024PAGEPAGE1中華文化素材庫技術(shù)要求第2部分:圖片類書籍?dāng)?shù)據(jù)質(zhì)量要求范圍本文件規(guī)定了中華文化素材庫中圖片類書籍?dāng)?shù)據(jù)的質(zhì)量要求,包括圖片類書籍?dāng)?shù)據(jù)的入庫數(shù)據(jù)類型、質(zhì)量標準、以及相關(guān)的入庫流程等內(nèi)容。本文件適用于中華文化素材庫構(gòu)建過程中對于圖片類書籍?dāng)?shù)據(jù)的采集、處理、存儲、管理和應(yīng)用。規(guī)范性引用文件下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用(包括所有的修改單)適用于本文件。GB/T1.1-20201部分:標準化文件的結(jié)構(gòu)和起草規(guī)則T/CPRA1-2021國家文化大數(shù)據(jù)標準體系T/CPRA300-2023文化數(shù)字內(nèi)容分類與代碼T/CPRA301-2023文化資源數(shù)據(jù)分類與代碼術(shù)語和定義下列術(shù)語和定義適用于本文件。中華文化素材庫materialdatabaseofchineseculture以文化資源數(shù)字化成果為原料,集成運用各種新技術(shù),萃取中華文化之要素,并分門別類標簽化,進而形成的可組合使用的素材庫。按照文化呈現(xiàn)要素中華文化素材庫可劃分為中華字庫、中華音庫、中華像庫、中華樂庫、中華舞庫、中華劇庫等。中華文化素材庫的來源是多元的,中國文化遺產(chǎn)標本庫和中華民族文化基因庫的數(shù)據(jù)是重要來源,文化企事業(yè)單位已建成的文化藝術(shù)、新聞出版、廣播電視、網(wǎng)絡(luò)視聽、電影等數(shù)據(jù)庫,也是重要來源。相關(guān)數(shù)據(jù)通過國家文化專網(wǎng)實現(xiàn)共享。[來源:T/CPRA301-2023定義3.1.4]文化數(shù)字內(nèi)容culturaldigitalcontent以數(shù)字形式存在的文化產(chǎn)品,一般以文字、圖片、音頻、視頻、多媒體和其他形式表現(xiàn)。通常包括傳統(tǒng)文化產(chǎn)品的數(shù)字化以及以數(shù)字形式存在的文化產(chǎn)品。國家文化大數(shù)據(jù)體系下文化數(shù)字內(nèi)容主要涵蓋中華優(yōu)秀傳統(tǒng)文化、革命文化和社會主義先進文化等。文化數(shù)字內(nèi)容作為數(shù)字化文化生產(chǎn)線的產(chǎn)出,由文化大數(shù)據(jù)服務(wù)平臺管理與分發(fā),并通過文化體驗設(shè)施和設(shè)備消費。通常情況下,文化數(shù)字內(nèi)容又稱為文化數(shù)字產(chǎn)品、文化數(shù)字內(nèi)容產(chǎn)品等。[來源:T/CPRA300-2023定義3.1.1]文化資源數(shù)據(jù)culturalresourcesdata對人類文化中傳承下來并可以傳播利用的文化(包括物質(zhì)的和非物質(zhì)的)進行數(shù)字化采集后,所得到的用于識別和展現(xiàn)文化的圖像、文字、聲音、動畫、影片、三維全景、三維模型等數(shù)據(jù)。國家文化大數(shù)據(jù)體系下文化資源數(shù)據(jù)主要包括中國文化遺產(chǎn)標本庫、中華民族文化基因庫、中華文化素材庫中的數(shù)據(jù)。[來源:T/CPRA301-2023定義3.1.1]總體要求數(shù)據(jù)范圍中華文化素材庫中,圖片類書籍?dāng)?shù)據(jù)的入庫范圍包括:圖片類書籍相關(guān)素材,涵蓋但不限于與中華字庫、中華像庫等具有圖像特性關(guān)聯(lián)的子庫內(nèi)容;中國文化遺產(chǎn)標本庫、中華民族文化基因庫中與圖片類書籍直接相關(guān)的數(shù)據(jù);文化企事業(yè)單位已建成的與圖片類書籍相關(guān)的數(shù)據(jù)資源,包括圖書館館藏的數(shù)字化書籍與期刊、文化研究機構(gòu)或高校出版的圖片類書籍與論文、電子書平臺的數(shù)字出版內(nèi)容,以及出版機構(gòu)或文化博物館等單位的圖書插圖、畫冊資源等。數(shù)據(jù)入庫格式平面數(shù)據(jù)表1平面數(shù)據(jù)格式數(shù)據(jù)類型數(shù)據(jù)格式圖像.jpg、.png、.tiff、.bmp、.svg矢量圖.eps、.pdf文本數(shù)據(jù)表2文本數(shù)據(jù)格式數(shù)據(jù)類型數(shù)據(jù)格式純文本.txt富文本.docx、.rtf排版數(shù)據(jù).tex、.pdf表格數(shù)據(jù)表3表格數(shù)據(jù)格式數(shù)據(jù)類型數(shù)據(jù)格式表格內(nèi)容.xls、.xlsx、.csv書籍?dāng)?shù)據(jù)表4書籍?dāng)?shù)據(jù)格式數(shù)據(jù)類型數(shù)據(jù)格式書籍文檔.docx、.pdf、.epub數(shù)據(jù)命名原則數(shù)據(jù)文件命名宜按照“數(shù)據(jù)類型+16char字符進行存5YYYY-MD-Number1。XXXXXXXX-XXXX-XXXXXXXX 數(shù)據(jù)文件命名代碼數(shù)據(jù)編號數(shù)據(jù)類型1命名編碼規(guī)則表5數(shù)據(jù)類型編碼對照表數(shù)據(jù)類型數(shù)據(jù)編碼平面數(shù)據(jù)PMSJ文本數(shù)據(jù)WBSJ表格數(shù)據(jù)BGSJ書籍?dāng)?shù)據(jù)SJSJ圖片類書籍?dāng)?shù)據(jù)入庫流程入庫流程圖片類書籍?dāng)?shù)據(jù)的入庫流程包括文化素材數(shù)據(jù)準備、數(shù)據(jù)類型與質(zhì)量校驗、數(shù)據(jù)修改與優(yōu)化,以及最終的數(shù)據(jù)錄入。入庫流程旨在確保圖片類書籍?dāng)?shù)據(jù)符合文化素材庫的數(shù)據(jù)管理規(guī)范,具體流程如圖2所示。文化素材數(shù)據(jù)準備文化素材數(shù)據(jù)準備修改入庫前類型校驗N合格Y入庫前質(zhì)量校驗N合格Y數(shù)據(jù)錄入2圖片類書籍?dāng)?shù)據(jù)入庫流程文化素材數(shù)據(jù)準備文化素材數(shù)據(jù)準備包括以下步驟:素材數(shù)據(jù)采集:從圖片類書籍中提取與內(nèi)容相關(guān)的圖片、文字、表格等數(shù)據(jù),確保素材完整性;數(shù)據(jù)整理與清洗:按照中華文化素材庫的設(shè)計要求,對采集的素材數(shù)據(jù)進行清理,包括刪除重復(fù)數(shù)據(jù)條目,避免冗余存儲;填補缺失值,確保數(shù)據(jù)的完整性;糾正異常值,確保數(shù)據(jù)的準確性與一致性等步驟;數(shù)據(jù)分類:根據(jù)圖片類書籍?dāng)?shù)據(jù)的屬性特征,將數(shù)據(jù)初步劃分為平面數(shù)據(jù)、文本數(shù)據(jù)、表格數(shù)據(jù)等類別,以便后續(xù)處理。入庫前類型校驗在素材數(shù)據(jù)入庫前,需進行嚴格的數(shù)據(jù)類型校驗,具體包括:數(shù)據(jù)類型驗證:依據(jù)素材的預(yù)期用途,對數(shù)據(jù)的格式和類型進行校驗,確保其符合數(shù)據(jù)庫4.2的相關(guān)內(nèi)容;不匹配數(shù)據(jù)處理:對于不符合類型規(guī)范的素材數(shù)據(jù),進行必要的轉(zhuǎn)換與調(diào)整,確保數(shù)據(jù)類型與標準一致;數(shù)據(jù)類型確認:校驗無誤后,確認素材數(shù)據(jù)的最終類型,以確保數(shù)據(jù)分類與數(shù)據(jù)庫需求一致。入庫前質(zhì)量校驗入庫前的質(zhì)量校驗旨在確保素材數(shù)據(jù)符合質(zhì)量要求,具體步驟包括:5.1.2的校驗結(jié)果,明確數(shù)據(jù)的類型屬性;質(zhì)量校驗內(nèi)容確定:按照素材數(shù)據(jù)的類型,制定具體的質(zhì)量校驗標準,如平面數(shù)據(jù)的分辨6;通過質(zhì)量校驗的數(shù)據(jù)進入后續(xù)流程。數(shù)據(jù)修改數(shù)據(jù)修改是對未通過質(zhì)量校驗的素材數(shù)據(jù)進行優(yōu)化和調(diào)整的關(guān)鍵步驟,具體包括以下內(nèi)容:問題定位與修正:識別數(shù)據(jù)中存在的具體問題(如圖像分辨率不足、文本內(nèi)容不完整或表格字段缺失),并依據(jù)質(zhì)量標準進行修正或補充;一致性檢查:確保修改后的數(shù)據(jù)在格式、內(nèi)容和結(jié)構(gòu)上與數(shù)據(jù)庫要求保持一致,例如統(tǒng)一命名規(guī)則、字符編碼和字段順序等;記錄與復(fù)核:對修改過程及結(jié)果進行記錄,并進行二次校驗,確保所有調(diào)整后的數(shù)據(jù)符合入庫質(zhì)量要求。數(shù)據(jù)錄入經(jīng)過類型校驗、質(zhì)量校驗和數(shù)據(jù)修改的圖片類書籍素材數(shù)據(jù),可進行正式錄入,具體要求包括:錄入數(shù)據(jù)標準化:按照平面數(shù)據(jù)、文本數(shù)據(jù)、表格數(shù)據(jù)的分類,分別存儲,并關(guān)聯(lián)其原始書籍;錄入元數(shù)據(jù)生成:生成包括數(shù)據(jù)標識符、格式、存儲地址等在內(nèi)的標準元數(shù)據(jù),元數(shù)據(jù)規(guī)7;數(shù)據(jù)存儲與備案:將錄入數(shù)據(jù)上傳至指定的存儲地址,并備案其入庫時間、修改記錄和版本信息,以便后續(xù)管理和追溯。數(shù)據(jù)要求平面數(shù)據(jù)6平面數(shù)據(jù)質(zhì)量要求級別峰值信噪比(PSNR)信號失真率結(jié)構(gòu)相似度(SSIM)高質(zhì)量圖像≥30dB≥0.8≥0.85中等質(zhì)量圖像≥20dB且<30dB≥0.5且<0.8≥0.6且<0.85低質(zhì)量圖像<20dB<0.5<0.6文本數(shù)據(jù)

7文本數(shù)據(jù)質(zhì)量要求級別缺失數(shù)據(jù)比率一致性檢驗通過率平均誤差率高<5%≥99%<5%一般≥5%且<10%≥95%且<99%≥5%且<10%差≥10%<95%≥10%表格數(shù)據(jù)

8表格數(shù)據(jù)質(zhì)量要求級別缺失數(shù)據(jù)比率單元格完整率表格格式一致性數(shù)據(jù)準確率高<5%≥98%≥95%≥99%一般≥5%且<10%≥95%且<98%≥90%且<95%≥95%且<99%差≥10%<95%<90%<95%書籍?dāng)?shù)據(jù)9表格數(shù)據(jù)質(zhì)量要求級別缺失數(shù)據(jù)比率元數(shù)據(jù)完整率格式一致性O(shè)CR識別準確率高<3%≥98%≥95%≥99%一般≥3%且<7%≥95%且<98%≥90%且<95%≥95%且<99%差≥7%<95%<90%<95%數(shù)據(jù)屬性要求屬性基本要求數(shù)據(jù)屬性的基本要求是:a)每個數(shù)據(jù)體應(yīng)包含完整的屬性信息,確??勺匪菪耘c準確性。詳細屬性信息要求見7.2。b)數(shù)據(jù)體樣本編號符合本標準定義,詳細定義見4.3。c)數(shù)據(jù)類型需匹配相應(yīng)的入庫格式(如圖像、文本等),并符合4.2提出的具體數(shù)據(jù)格式屬性數(shù)據(jù)結(jié)構(gòu)要求屬性結(jié)構(gòu)應(yīng)滿足表10、表11、表12、表13要求,如下表所示。10平面數(shù)據(jù)屬性結(jié)構(gòu)表設(shè)計序號字段名稱數(shù)據(jù)類型字段長度必填1名稱字符串300是2文化數(shù)據(jù)標識符字符串100是3來源書籍標識符字符串100是4來源書籍名稱字符串300是5描述字符串400是6服務(wù)類型字符串100自動獲取7貢獻者字符串300是8著作權(quán)人字符串100是9載體受控詞100是10登記者字符串100自動獲取11登記日期日期100自動獲取12標簽字符串100否13文件大小字符串100自動獲取14格式字符串100自動獲取15存儲地址字符串100自動獲取16分辨率字符串100自動獲取17文件MD5字符串100自動獲取18版權(quán)登記號字符串100否19版權(quán)歸屬字符串100否20版權(quán)開始時間日期100否21版權(quán)結(jié)束時間日期100否文本數(shù)據(jù)屬性結(jié)構(gòu)要求如下表所示。表11文本數(shù)據(jù)屬性結(jié)構(gòu)表設(shè)計序號字段名稱數(shù)據(jù)類型字段長度必填1名稱字符串300是2文化數(shù)據(jù)標識符字符串100是3來源書籍標識符字符串100是4來源書籍名稱字符串300是5描述字符串2000是6服務(wù)類型字符串100自動獲取7貢獻者字符串300是8著作權(quán)人字符串100是9載體受控詞100是10登記者字符串100自動獲取11登記日期日期100自動獲取12標簽字符串100否13文件大小字符串100自動獲取14格式字符串100自動獲取15語種受控詞100是16存儲地址字符串100自動獲取17文件MD5字符串100自動獲取18版權(quán)登記號字符串100否19版權(quán)歸屬字符串100否20版權(quán)開始時間日期100否21版權(quán)結(jié)束時間日期100否表格數(shù)據(jù)屬性結(jié)構(gòu)要求如下表所示。12表格數(shù)據(jù)屬性結(jié)構(gòu)表設(shè)計序號字段名稱數(shù)據(jù)類型字段長度必填1名稱字符串300是2文化數(shù)據(jù)標識符字符串100是3來源書籍標識符字符串100是4來源書籍名稱字符串300是5描述字符串400是6服務(wù)類型字符串100自動獲取7貢獻者字符串300是8著作權(quán)人字符串100是9載體受控詞100是10登記者字符串100自動獲取11登記日期日期100自動獲取12版本受控詞100是13文件大小字符串100自動獲取14格式字符串100自動獲取15存儲地址字符串100自動獲取16文件MD5字符串100自動獲取17版權(quán)登記號字符串100否18版權(quán)歸屬字符串100否19版權(quán)開始時間日期100否20版權(quán)結(jié)束時間日期100否書籍?dāng)?shù)據(jù)屬性結(jié)構(gòu)要求如下表所示。13書籍?dāng)?shù)據(jù)屬

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論