




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
ICS11.020
CCSC07
團體標(biāo)準(zhǔn)
T/LXLYXXX—2024
多模態(tài)老年共病數(shù)據(jù)集構(gòu)建方法
Constructionmethodofmultimodalelderlycomorbiditydataset
(征求意見稿)
在提交反饋意見時,請將您知道的相關(guān)專利連同支持性文件一并附上。
2024-XX-XX發(fā)布2024-XX-XX實施
中國老年學(xué)和老年醫(yī)學(xué)學(xué)會發(fā)布
T/LXLYXXX—2024
多模態(tài)老年共病數(shù)據(jù)集構(gòu)建方法
1范圍
本文件規(guī)定了多模態(tài)老年共病數(shù)據(jù)集構(gòu)建的構(gòu)建流程、構(gòu)建方法、質(zhì)量評估、安全和隱私。
本文件適用于醫(yī)療機構(gòu)、醫(yī)療數(shù)據(jù)科研機構(gòu)和應(yīng)用機構(gòu)等相關(guān)機構(gòu)和個人對多模態(tài)老年共病數(shù)據(jù)
集的構(gòu)建、研究、應(yīng)用和質(zhì)量控制。
2規(guī)范性引用文件
下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,
僅該日期對應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本
文件。
GB/T5271.31信息技術(shù)詞匯第31部分:人工智能機器學(xué)習(xí)
GB/T22239信息安全技術(shù)網(wǎng)絡(luò)安全等級保護基本要求
GB/T25069信息安全技術(shù)術(shù)語
GB/T39725信息安全技術(shù)健康醫(yī)療數(shù)據(jù)安全指南
GB/T42755人工智能面向機器學(xué)習(xí)的數(shù)據(jù)標(biāo)注規(guī)程
3術(shù)語和定義
GB/T5271.31、GB/T25069、GB/T39725界定的以及下列術(shù)語和定義適用于本文件。
多模態(tài)multimodal
多種類型(模態(tài))的數(shù)據(jù)或信息源。
示例:圖像、文本、音頻、視頻。
多模態(tài)老年共病數(shù)據(jù)集multimodalelderlycomorbiditydataset
從不同的老年共病醫(yī)療數(shù)據(jù)源采集到的多種類型的數(shù)據(jù)集。
示例:圖像、文本、生理參數(shù)。
老年共病elderlycomorbidity
2種或2種以上慢性健康問題同時發(fā)生在一個老年人個體,影響老年人個體健康狀況持續(xù)1年及以上
的情況。
注:慢性健康問題可以是臟器疾病、精神心理問題、老年綜合征,也可以是其他影響老年人健康的問題。
時間序列數(shù)據(jù)timeseriesdata
在不同時間收集到的數(shù)據(jù),反映某一事物、現(xiàn)象等隨時間的變化狀態(tài)或程度。
示例:患者的生命體征數(shù)據(jù)。
4構(gòu)建流程
1
T/LXLYXXX—2024
多模態(tài)老年共病數(shù)據(jù)集構(gòu)建流程見圖。
數(shù)各級醫(yī)院自建數(shù)據(jù)
據(jù)電子信息平臺采集平臺
……
來
中長期照護機構(gòu)
源智能養(yǎng)老設(shè)備
數(shù)據(jù)平臺
數(shù)
據(jù)老年共病臨床指標(biāo)、癥狀不良事件
標(biāo)患病情況及藥物使用情況發(fā)生情況
注
數(shù)
據(jù)
預(yù)數(shù)據(jù)清洗數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)整合
處
理
特
數(shù)值型文本型
征
提
取分級/分類型時間序列數(shù)據(jù)
特不良事件
基礎(chǔ)疾病信息基礎(chǔ)生命體征
征發(fā)生情況
構(gòu)
基礎(chǔ)老年
……
建基礎(chǔ)用藥信息
綜合征情況
特征融合
存儲和文檔化
圖1多模態(tài)老年共病數(shù)據(jù)集構(gòu)建流程圖
5構(gòu)建方法
2
T/LXLYXXX—2024
數(shù)據(jù)收集
5.1.1用于構(gòu)建多模態(tài)老年共病數(shù)據(jù)集的數(shù)據(jù),應(yīng)按相關(guān)規(guī)定進行數(shù)據(jù)的收集。數(shù)據(jù)來源可為各級醫(yī)
院電子信息平臺、自建數(shù)據(jù)采集平臺、中長期照護機構(gòu)數(shù)據(jù)平臺、智能養(yǎng)老設(shè)備等。
5.1.2數(shù)據(jù)應(yīng)為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)類型。數(shù)據(jù)應(yīng)包括但不限于表1規(guī)定的類型。
表1數(shù)據(jù)類型
數(shù)據(jù)類型范圍
基線資料性別、年齡、身高、體重、診斷、手術(shù)史、用藥史等
生命體征常規(guī)生理檢查數(shù)據(jù),包括體溫、心率、血糖、血壓、血氧等
目前癥狀和體征意識狀態(tài)、臨床體征、臨床癥狀等
體力狀態(tài)、日常生活能力、衰弱評估、營養(yǎng)評估、認知評估、疼痛評估、跌倒風(fēng)險
老年綜合評估
評估、視聽力障礙評估等
實驗室檢查血尿便常規(guī)、肝腎功能、電解質(zhì)、血脂、血糖、糖化血紅蛋白等
特殊操作或治療冠脈造影、動脈內(nèi)球囊反搏、起搏器植入、呼吸機輔助通氣、穿刺置管等
康復(fù)方案飲食模式、運動頻率、運動時間、運動強度等
輔助檢查肺功能、骨密度檢查等
新發(fā)不良事件肺炎、呼吸衰竭、急性冠脈綜合征、骨折、跌倒、消化道出血、再入院等
藥物治療處方藥及保健藥品等
疾病診斷/
其他模態(tài)心電圖、胸部CT、腹部超聲、超聲心動圖等
數(shù)據(jù)標(biāo)注
5.2.1對數(shù)據(jù)進行標(biāo)注,包括:
a)確定老年共病患病情況;
b)老年共病相關(guān)的臨床指標(biāo)、癥狀及藥物使用情況;
c)老年共病患者不良事件發(fā)生情況。
5.2.2數(shù)據(jù)標(biāo)注按GB/T42755的規(guī)定執(zhí)行。
數(shù)據(jù)預(yù)處理
5.3.1數(shù)據(jù)清洗
數(shù)據(jù)清洗應(yīng)遵循完整性、合法性、一致性、唯一性、權(quán)威性的原則,處理方式包括:
a)缺失值處理:
1)使用插補(均值、中位數(shù)等)或刪除缺失值較多的樣本;
2)人工核實后補充。
b)異常值處理:
1)邏輯錯誤:變量之間不符合邏輯關(guān)系,核實后修訂,且保留修訂記錄;
示例:出院時間早于入院時間。
2)自然離群值:采用穩(wěn)健統(tǒng)計方法進行分析;
3)人為離群值:人工核實后糾正。
c)重復(fù)值處理:
1)刪除完全重復(fù)的數(shù)據(jù);
3
T/LXLYXXX—2024
2)由于內(nèi)部標(biāo)識編碼重復(fù)導(dǎo)致數(shù)據(jù)重復(fù)時,人工核實后糾正。
5.3.2數(shù)據(jù)轉(zhuǎn)換
將非結(jié)構(gòu)化數(shù)據(jù)(如文本或圖像)轉(zhuǎn)換為結(jié)構(gòu)化格式,并統(tǒng)一格式。
5.3.3數(shù)據(jù)整合
將不同來源的數(shù)據(jù)進行融合,選擇老年患者標(biāo)識,并利用患者標(biāo)識合并、統(tǒng)一患者信息,再將患者
標(biāo)識映射成患者編號,將多模態(tài)數(shù)據(jù)整合為一個數(shù)據(jù)表。
特征提取
5.4.1根據(jù)不同類型數(shù)據(jù),選擇表2規(guī)定的方法進行特征提取,將特征值轉(zhuǎn)化為由數(shù)字和編碼組成的
混合矩陣。
表2數(shù)據(jù)特征提取方法
數(shù)據(jù)類型處理方法說明
單一型直接提取年齡、血壓、實驗室檢查
數(shù)值型
范圍型取均值數(shù)據(jù)等
藥物→ATC編碼
單一實體描述型
診斷、癥狀→ICD編碼
文本型診斷、手術(shù)史、用藥史等
固定類別型固定文本選擇題→Onehot編碼
多實體描述型NER模型→診斷文本和手術(shù)文本→診斷ICD和手術(shù)ICD編碼
分類型Onehot編碼性別等
分級/分類型
分級型根據(jù)級別總數(shù)分配級別,級別對應(yīng)指標(biāo)程度NYHA心功能分級等
注1:ATC:解剖學(xué)治療學(xué)及化學(xué)分類系統(tǒng)(AnatomicalTherapeuticChemical)。
注2:ICD:國際疾病分類(InternationalClassificationofDiseases)。
注3:NYHA:美國紐約心臟病學(xué)會(NewYorkHeartAssociation)。
5.4.2時間序列數(shù)據(jù)對應(yīng)患者編號,單獨整理為表格。
特征構(gòu)建
5.5.1為老年共病患者構(gòu)建特征,包括但不限于:
a)基礎(chǔ)疾病信息;
b)基礎(chǔ)生命體征;
c)基礎(chǔ)用藥信息;
d)基礎(chǔ)老年綜合征情況;
e)不良事件發(fā)生情況。
5.5.2檢查特征之間的相關(guān)性,去除冗余或高相關(guān)的特征,減少多重共線性。使用信息增益或特征重
要性等指標(biāo)評估特征對目標(biāo)變量的貢獻,剔除不重要或噪聲特征。
5.5.3對所有特征進行處理,確保不同模態(tài)的特征在同一尺度上。
特征融合
從不同模態(tài)提取的特征連接成單個高維特征向量。特征融合方法宜與特征提取方法相結(jié)合以剔除
冗余信息,如主成分分析、最大相關(guān)最小冗余算法、自動解碼器等。融合示意見圖2。
4
T/LXLYXXX—2024
特征提取特征融合
數(shù)值型特征提取
文本型特征提取
分級/分類型型特征提取
圖2特征融合示意圖
存儲和文檔化
選擇數(shù)據(jù)存儲格式,并編寫文檔記錄,內(nèi)容應(yīng)包括:
a)多模態(tài)老年共病數(shù)據(jù)集概述:
1)數(shù)據(jù)集名稱;
2)版本信息:記錄數(shù)據(jù)集的版本號和發(fā)布日期;
3)描述:概述數(shù)據(jù)集的目的、應(yīng)用場景和目標(biāo)用戶,如機器學(xué)習(xí);
4)數(shù)據(jù)來源:公開數(shù)據(jù)、調(diào)研、收集方式等;
5)模態(tài)種類:數(shù)據(jù)集中包含的模態(tài)類型,如圖像、文本、音頻。
b)數(shù)據(jù)描述:
1)數(shù)據(jù)結(jié)構(gòu):數(shù)據(jù)的具體組織方式,如文件夾結(jié)構(gòu)、每個數(shù)據(jù)文件的內(nèi)容描述、標(biāo)注格式等;
2)樣本數(shù)量:每種模態(tài)中的數(shù)據(jù)樣本數(shù)量;
3)數(shù)據(jù)格式:每種模態(tài)的數(shù)據(jù)格式,如圖像為JPEG/PNG,文本為TXT/CSV,音頻為WAV/MP3;
4)模態(tài)配對:說明各模態(tài)數(shù)據(jù)之間的關(guān)聯(lián)方式,如圖像與文本的對應(yīng)關(guān)系、時間對齊等。
c)數(shù)據(jù)收集與生成:
1)數(shù)據(jù)來源:數(shù)據(jù)集的來源,如哪些來自各級醫(yī)院電子信息平臺、自建數(shù)據(jù)采集平臺、中長
期照護機構(gòu)數(shù)據(jù)平臺、智能養(yǎng)老設(shè)備;
2)標(biāo)注過程:若數(shù)據(jù)集包含標(biāo)注信息,需說明標(biāo)注過程、標(biāo)注標(biāo)準(zhǔn)、標(biāo)注工具、標(biāo)注員培訓(xùn)
情況等。
d)數(shù)據(jù)預(yù)處理:
1)預(yù)處理步驟:詳細記錄對原始數(shù)據(jù)進行的預(yù)處理操作,如歸一化、去噪、數(shù)據(jù)增強等;
2)數(shù)據(jù)清洗:去除不合格數(shù)據(jù)樣本的標(biāo)準(zhǔn)和具體操作;
3)對齊和同步:跨模態(tài)數(shù)據(jù)的對齊方式,如不同模態(tài)之間的時間同步、空間對齊等。
e)數(shù)據(jù)使用:
1)使用方法:如何讀取和使用數(shù)據(jù)的說明,如代碼示例或腳本;
2)使用限制:數(shù)據(jù)集的版權(quán)聲明、許可協(xié)議、隱私和倫理問題。
5
T/LXLYXXX—2024
6質(zhì)量評估
評估原則
數(shù)據(jù)集質(zhì)量評估應(yīng)遵循以下原則:
a)科學(xué)性:反映老年共病狀態(tài)下的復(fù)雜狀況及對于機器學(xué)習(xí)應(yīng)用性能的影響;
b)客觀性:評估符合實際、客觀可信、過程可監(jiān)控;
c)系統(tǒng)性:在選擇評估指標(biāo)時考慮指標(biāo)的系統(tǒng)性和層級關(guān)系;
d)針對性:考慮機器學(xué)習(xí)應(yīng)用的需求,在指標(biāo)的權(quán)重和分值上予以區(qū)分,體現(xiàn)質(zhì)量評估對機器學(xué)
習(xí)應(yīng)用的針對性和導(dǎo)向作用;
e)引導(dǎo)性:以獲取有利于機器學(xué)習(xí)應(yīng)用的信息資源為導(dǎo)向。
評估方法
數(shù)據(jù)質(zhì)量評估方法包括:
a)定性評價法:根據(jù)評估目的、老年共病和機器學(xué)習(xí)應(yīng)用的需求,從主觀的角度對數(shù)據(jù)質(zhì)量進行
描述與評估,評估結(jié)果可以等級制、百分制或布爾表示;
b)定量評價法:采用確定的量化公式或計算方法作為評估準(zhǔn)則,提供客觀、直觀和具體的結(jié)果。
可采用數(shù)據(jù)質(zhì)量檢測軟件檢查數(shù)據(jù)質(zhì)量,也可通過輔助工具結(jié)合人工識別分析方法進行人工
檢查,一般可分為:
1)全數(shù)檢查:針對行業(yè)強制要求、特殊要求、其他可能導(dǎo)致嚴(yán)重影響的數(shù)據(jù)質(zhì)量項目進行;
2)抽樣檢查:針對質(zhì)量比較穩(wěn)定、數(shù)據(jù)量較大、檢查費用與時間有限的情況進行。
c)綜合方法:將定性和定量兩種方法有機地集合起來,從客觀和主觀兩個方面對數(shù)據(jù)質(zhì)量進行評
估。
7安全和隱私
數(shù)據(jù)安全和隱私保護應(yīng)符合以下要求:
a)符合GB/T22239對數(shù)據(jù)應(yīng)用安全的相關(guān)要求;
b)對傳輸?shù)臄?shù)據(jù)進行加密;
c)數(shù)據(jù)傳輸過程中使用安全協(xié)議;
d)數(shù)據(jù)集構(gòu)建過程中,使用匿名化或去標(biāo)識化技術(shù)處理個人身份信息;
e)對數(shù)據(jù)采集環(huán)境、設(shè)施和技術(shù)采取必要的安全管控措施;
f)對敏感數(shù)據(jù)進行加密存儲,防止未經(jīng)授權(quán)的訪問和數(shù)據(jù)泄露;
g)實施訪問控制措施,僅允許授權(quán)人員訪問數(shù)據(jù)集;
h)記錄對數(shù)據(jù)集的訪問和修改行為;
i)制定數(shù)據(jù)泄露響應(yīng)計劃;
j)定期備份。
6
T/LXLYXXX—2024
A
A
附錄A
(資料性)
多模態(tài)老年共病數(shù)據(jù)集構(gòu)建模型
多模態(tài)老年共病數(shù)據(jù)集構(gòu)建模型見圖A.1。
圖A.1多模態(tài)老年共病數(shù)據(jù)集構(gòu)建模型
7
T/LXLYXXX—2024
B
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 企業(yè)培訓(xùn)計劃與人才發(fā)展規(guī)劃指南
- 陜西省渭南市臨渭區(qū)2024-2025學(xué)年高一下學(xué)期期末地理試題(解析版)
- 2025-2026學(xué)年山西省忻州市部分學(xué)校高一上學(xué)期開學(xué)考試英語試題(解析版)
- 2025-2026學(xué)年湖南省長沙市部分高中高一上學(xué)期入學(xué)分班考試英語試題(解析版)
- 2025北京市大興區(qū)工商業(yè)聯(lián)合會招聘臨時輔助用工1人考前自測高頻考點模擬試題及答案詳解(歷年真題)
- 2025福建省二建建設(shè)集團有限公司招聘19人模擬試卷附答案詳解(模擬題)
- 最喜愛的學(xué)習(xí)物品寫物類文章(6篇)
- 描述四季的美景寫景作文8篇
- 2025江蘇鹽城市急救醫(yī)療中心招錄政府購買服務(wù)用工1人考前自測高頻考點模擬試題附答案詳解(模擬題)
- 2025貴州省衛(wèi)生中心第十三屆貴州人才博覽會引才1人模擬試卷及一套完整答案詳解
- 2025年全國中小學(xué)生天文知識競賽試題庫
- 2025年中煤職稱計算機考試題庫
- 氣象工程師(大氣探測)崗位面試問題及答案
- 橡膠制品生產(chǎn)工(橡膠硫化工)安全技術(shù)操作規(guī)程
- 成分制備情況介紹
- 綠色化學(xué)技術(shù)在精細化工中的應(yīng)用研究
- 腰大池管道的護理
- 項目管理課件培訓(xùn)
- 急性牙髓炎個案護理
- 2025至2030中國游戲陪玩行業(yè)市場發(fā)展分析及發(fā)展前景與投資報告
- 食管惡性腫瘤的健康教育講課件
評論
0/150
提交評論