《多模態(tài)老年共病數(shù)據(jù)集構(gòu)建方法》_第1頁
《多模態(tài)老年共病數(shù)據(jù)集構(gòu)建方法》_第2頁
《多模態(tài)老年共病數(shù)據(jù)集構(gòu)建方法》_第3頁
《多模態(tài)老年共病數(shù)據(jù)集構(gòu)建方法》_第4頁
《多模態(tài)老年共病數(shù)據(jù)集構(gòu)建方法》_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

ICS11.020

CCSC07

團體標(biāo)準(zhǔn)

T/LXLYXXX—2024

多模態(tài)老年共病數(shù)據(jù)集構(gòu)建方法

Constructionmethodofmultimodalelderlycomorbiditydataset

(征求意見稿)

在提交反饋意見時,請將您知道的相關(guān)專利連同支持性文件一并附上。

2024-XX-XX發(fā)布2024-XX-XX實施

中國老年學(xué)和老年醫(yī)學(xué)學(xué)會發(fā)布

T/LXLYXXX—2024

多模態(tài)老年共病數(shù)據(jù)集構(gòu)建方法

1范圍

本文件規(guī)定了多模態(tài)老年共病數(shù)據(jù)集構(gòu)建的構(gòu)建流程、構(gòu)建方法、質(zhì)量評估、安全和隱私。

本文件適用于醫(yī)療機構(gòu)、醫(yī)療數(shù)據(jù)科研機構(gòu)和應(yīng)用機構(gòu)等相關(guān)機構(gòu)和個人對多模態(tài)老年共病數(shù)據(jù)

集的構(gòu)建、研究、應(yīng)用和質(zhì)量控制。

2規(guī)范性引用文件

下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,

僅該日期對應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本

文件。

GB/T5271.31信息技術(shù)詞匯第31部分:人工智能機器學(xué)習(xí)

GB/T22239信息安全技術(shù)網(wǎng)絡(luò)安全等級保護基本要求

GB/T25069信息安全技術(shù)術(shù)語

GB/T39725信息安全技術(shù)健康醫(yī)療數(shù)據(jù)安全指南

GB/T42755人工智能面向機器學(xué)習(xí)的數(shù)據(jù)標(biāo)注規(guī)程

3術(shù)語和定義

GB/T5271.31、GB/T25069、GB/T39725界定的以及下列術(shù)語和定義適用于本文件。

多模態(tài)multimodal

多種類型(模態(tài))的數(shù)據(jù)或信息源。

示例:圖像、文本、音頻、視頻。

多模態(tài)老年共病數(shù)據(jù)集multimodalelderlycomorbiditydataset

從不同的老年共病醫(yī)療數(shù)據(jù)源采集到的多種類型的數(shù)據(jù)集。

示例:圖像、文本、生理參數(shù)。

老年共病elderlycomorbidity

2種或2種以上慢性健康問題同時發(fā)生在一個老年人個體,影響老年人個體健康狀況持續(xù)1年及以上

的情況。

注:慢性健康問題可以是臟器疾病、精神心理問題、老年綜合征,也可以是其他影響老年人健康的問題。

時間序列數(shù)據(jù)timeseriesdata

在不同時間收集到的數(shù)據(jù),反映某一事物、現(xiàn)象等隨時間的變化狀態(tài)或程度。

示例:患者的生命體征數(shù)據(jù)。

4構(gòu)建流程

1

T/LXLYXXX—2024

多模態(tài)老年共病數(shù)據(jù)集構(gòu)建流程見圖。

數(shù)各級醫(yī)院自建數(shù)據(jù)

據(jù)電子信息平臺采集平臺

……

中長期照護機構(gòu)

源智能養(yǎng)老設(shè)備

數(shù)據(jù)平臺

數(shù)

據(jù)老年共病臨床指標(biāo)、癥狀不良事件

標(biāo)患病情況及藥物使用情況發(fā)生情況

數(shù)

據(jù)

預(yù)數(shù)據(jù)清洗數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)整合

數(shù)值型文本型

取分級/分類型時間序列數(shù)據(jù)

特不良事件

基礎(chǔ)疾病信息基礎(chǔ)生命體征

征發(fā)生情況

構(gòu)

基礎(chǔ)老年

……

建基礎(chǔ)用藥信息

綜合征情況

特征融合

存儲和文檔化

圖1多模態(tài)老年共病數(shù)據(jù)集構(gòu)建流程圖

5構(gòu)建方法

2

T/LXLYXXX—2024

數(shù)據(jù)收集

5.1.1用于構(gòu)建多模態(tài)老年共病數(shù)據(jù)集的數(shù)據(jù),應(yīng)按相關(guān)規(guī)定進行數(shù)據(jù)的收集。數(shù)據(jù)來源可為各級醫(yī)

院電子信息平臺、自建數(shù)據(jù)采集平臺、中長期照護機構(gòu)數(shù)據(jù)平臺、智能養(yǎng)老設(shè)備等。

5.1.2數(shù)據(jù)應(yīng)為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)類型。數(shù)據(jù)應(yīng)包括但不限于表1規(guī)定的類型。

表1數(shù)據(jù)類型

數(shù)據(jù)類型范圍

基線資料性別、年齡、身高、體重、診斷、手術(shù)史、用藥史等

生命體征常規(guī)生理檢查數(shù)據(jù),包括體溫、心率、血糖、血壓、血氧等

目前癥狀和體征意識狀態(tài)、臨床體征、臨床癥狀等

體力狀態(tài)、日常生活能力、衰弱評估、營養(yǎng)評估、認知評估、疼痛評估、跌倒風(fēng)險

老年綜合評估

評估、視聽力障礙評估等

實驗室檢查血尿便常規(guī)、肝腎功能、電解質(zhì)、血脂、血糖、糖化血紅蛋白等

特殊操作或治療冠脈造影、動脈內(nèi)球囊反搏、起搏器植入、呼吸機輔助通氣、穿刺置管等

康復(fù)方案飲食模式、運動頻率、運動時間、運動強度等

輔助檢查肺功能、骨密度檢查等

新發(fā)不良事件肺炎、呼吸衰竭、急性冠脈綜合征、骨折、跌倒、消化道出血、再入院等

藥物治療處方藥及保健藥品等

疾病診斷/

其他模態(tài)心電圖、胸部CT、腹部超聲、超聲心動圖等

數(shù)據(jù)標(biāo)注

5.2.1對數(shù)據(jù)進行標(biāo)注,包括:

a)確定老年共病患病情況;

b)老年共病相關(guān)的臨床指標(biāo)、癥狀及藥物使用情況;

c)老年共病患者不良事件發(fā)生情況。

5.2.2數(shù)據(jù)標(biāo)注按GB/T42755的規(guī)定執(zhí)行。

數(shù)據(jù)預(yù)處理

5.3.1數(shù)據(jù)清洗

數(shù)據(jù)清洗應(yīng)遵循完整性、合法性、一致性、唯一性、權(quán)威性的原則,處理方式包括:

a)缺失值處理:

1)使用插補(均值、中位數(shù)等)或刪除缺失值較多的樣本;

2)人工核實后補充。

b)異常值處理:

1)邏輯錯誤:變量之間不符合邏輯關(guān)系,核實后修訂,且保留修訂記錄;

示例:出院時間早于入院時間。

2)自然離群值:采用穩(wěn)健統(tǒng)計方法進行分析;

3)人為離群值:人工核實后糾正。

c)重復(fù)值處理:

1)刪除完全重復(fù)的數(shù)據(jù);

3

T/LXLYXXX—2024

2)由于內(nèi)部標(biāo)識編碼重復(fù)導(dǎo)致數(shù)據(jù)重復(fù)時,人工核實后糾正。

5.3.2數(shù)據(jù)轉(zhuǎn)換

將非結(jié)構(gòu)化數(shù)據(jù)(如文本或圖像)轉(zhuǎn)換為結(jié)構(gòu)化格式,并統(tǒng)一格式。

5.3.3數(shù)據(jù)整合

將不同來源的數(shù)據(jù)進行融合,選擇老年患者標(biāo)識,并利用患者標(biāo)識合并、統(tǒng)一患者信息,再將患者

標(biāo)識映射成患者編號,將多模態(tài)數(shù)據(jù)整合為一個數(shù)據(jù)表。

特征提取

5.4.1根據(jù)不同類型數(shù)據(jù),選擇表2規(guī)定的方法進行特征提取,將特征值轉(zhuǎn)化為由數(shù)字和編碼組成的

混合矩陣。

表2數(shù)據(jù)特征提取方法

數(shù)據(jù)類型處理方法說明

單一型直接提取年齡、血壓、實驗室檢查

數(shù)值型

范圍型取均值數(shù)據(jù)等

藥物→ATC編碼

單一實體描述型

診斷、癥狀→ICD編碼

文本型診斷、手術(shù)史、用藥史等

固定類別型固定文本選擇題→Onehot編碼

多實體描述型NER模型→診斷文本和手術(shù)文本→診斷ICD和手術(shù)ICD編碼

分類型Onehot編碼性別等

分級/分類型

分級型根據(jù)級別總數(shù)分配級別,級別對應(yīng)指標(biāo)程度NYHA心功能分級等

注1:ATC:解剖學(xué)治療學(xué)及化學(xué)分類系統(tǒng)(AnatomicalTherapeuticChemical)。

注2:ICD:國際疾病分類(InternationalClassificationofDiseases)。

注3:NYHA:美國紐約心臟病學(xué)會(NewYorkHeartAssociation)。

5.4.2時間序列數(shù)據(jù)對應(yīng)患者編號,單獨整理為表格。

特征構(gòu)建

5.5.1為老年共病患者構(gòu)建特征,包括但不限于:

a)基礎(chǔ)疾病信息;

b)基礎(chǔ)生命體征;

c)基礎(chǔ)用藥信息;

d)基礎(chǔ)老年綜合征情況;

e)不良事件發(fā)生情況。

5.5.2檢查特征之間的相關(guān)性,去除冗余或高相關(guān)的特征,減少多重共線性。使用信息增益或特征重

要性等指標(biāo)評估特征對目標(biāo)變量的貢獻,剔除不重要或噪聲特征。

5.5.3對所有特征進行處理,確保不同模態(tài)的特征在同一尺度上。

特征融合

從不同模態(tài)提取的特征連接成單個高維特征向量。特征融合方法宜與特征提取方法相結(jié)合以剔除

冗余信息,如主成分分析、最大相關(guān)最小冗余算法、自動解碼器等。融合示意見圖2。

4

T/LXLYXXX—2024

特征提取特征融合

數(shù)值型特征提取

文本型特征提取

分級/分類型型特征提取

圖2特征融合示意圖

存儲和文檔化

選擇數(shù)據(jù)存儲格式,并編寫文檔記錄,內(nèi)容應(yīng)包括:

a)多模態(tài)老年共病數(shù)據(jù)集概述:

1)數(shù)據(jù)集名稱;

2)版本信息:記錄數(shù)據(jù)集的版本號和發(fā)布日期;

3)描述:概述數(shù)據(jù)集的目的、應(yīng)用場景和目標(biāo)用戶,如機器學(xué)習(xí);

4)數(shù)據(jù)來源:公開數(shù)據(jù)、調(diào)研、收集方式等;

5)模態(tài)種類:數(shù)據(jù)集中包含的模態(tài)類型,如圖像、文本、音頻。

b)數(shù)據(jù)描述:

1)數(shù)據(jù)結(jié)構(gòu):數(shù)據(jù)的具體組織方式,如文件夾結(jié)構(gòu)、每個數(shù)據(jù)文件的內(nèi)容描述、標(biāo)注格式等;

2)樣本數(shù)量:每種模態(tài)中的數(shù)據(jù)樣本數(shù)量;

3)數(shù)據(jù)格式:每種模態(tài)的數(shù)據(jù)格式,如圖像為JPEG/PNG,文本為TXT/CSV,音頻為WAV/MP3;

4)模態(tài)配對:說明各模態(tài)數(shù)據(jù)之間的關(guān)聯(lián)方式,如圖像與文本的對應(yīng)關(guān)系、時間對齊等。

c)數(shù)據(jù)收集與生成:

1)數(shù)據(jù)來源:數(shù)據(jù)集的來源,如哪些來自各級醫(yī)院電子信息平臺、自建數(shù)據(jù)采集平臺、中長

期照護機構(gòu)數(shù)據(jù)平臺、智能養(yǎng)老設(shè)備;

2)標(biāo)注過程:若數(shù)據(jù)集包含標(biāo)注信息,需說明標(biāo)注過程、標(biāo)注標(biāo)準(zhǔn)、標(biāo)注工具、標(biāo)注員培訓(xùn)

情況等。

d)數(shù)據(jù)預(yù)處理:

1)預(yù)處理步驟:詳細記錄對原始數(shù)據(jù)進行的預(yù)處理操作,如歸一化、去噪、數(shù)據(jù)增強等;

2)數(shù)據(jù)清洗:去除不合格數(shù)據(jù)樣本的標(biāo)準(zhǔn)和具體操作;

3)對齊和同步:跨模態(tài)數(shù)據(jù)的對齊方式,如不同模態(tài)之間的時間同步、空間對齊等。

e)數(shù)據(jù)使用:

1)使用方法:如何讀取和使用數(shù)據(jù)的說明,如代碼示例或腳本;

2)使用限制:數(shù)據(jù)集的版權(quán)聲明、許可協(xié)議、隱私和倫理問題。

5

T/LXLYXXX—2024

6質(zhì)量評估

評估原則

數(shù)據(jù)集質(zhì)量評估應(yīng)遵循以下原則:

a)科學(xué)性:反映老年共病狀態(tài)下的復(fù)雜狀況及對于機器學(xué)習(xí)應(yīng)用性能的影響;

b)客觀性:評估符合實際、客觀可信、過程可監(jiān)控;

c)系統(tǒng)性:在選擇評估指標(biāo)時考慮指標(biāo)的系統(tǒng)性和層級關(guān)系;

d)針對性:考慮機器學(xué)習(xí)應(yīng)用的需求,在指標(biāo)的權(quán)重和分值上予以區(qū)分,體現(xiàn)質(zhì)量評估對機器學(xué)

習(xí)應(yīng)用的針對性和導(dǎo)向作用;

e)引導(dǎo)性:以獲取有利于機器學(xué)習(xí)應(yīng)用的信息資源為導(dǎo)向。

評估方法

數(shù)據(jù)質(zhì)量評估方法包括:

a)定性評價法:根據(jù)評估目的、老年共病和機器學(xué)習(xí)應(yīng)用的需求,從主觀的角度對數(shù)據(jù)質(zhì)量進行

描述與評估,評估結(jié)果可以等級制、百分制或布爾表示;

b)定量評價法:采用確定的量化公式或計算方法作為評估準(zhǔn)則,提供客觀、直觀和具體的結(jié)果。

可采用數(shù)據(jù)質(zhì)量檢測軟件檢查數(shù)據(jù)質(zhì)量,也可通過輔助工具結(jié)合人工識別分析方法進行人工

檢查,一般可分為:

1)全數(shù)檢查:針對行業(yè)強制要求、特殊要求、其他可能導(dǎo)致嚴(yán)重影響的數(shù)據(jù)質(zhì)量項目進行;

2)抽樣檢查:針對質(zhì)量比較穩(wěn)定、數(shù)據(jù)量較大、檢查費用與時間有限的情況進行。

c)綜合方法:將定性和定量兩種方法有機地集合起來,從客觀和主觀兩個方面對數(shù)據(jù)質(zhì)量進行評

估。

7安全和隱私

數(shù)據(jù)安全和隱私保護應(yīng)符合以下要求:

a)符合GB/T22239對數(shù)據(jù)應(yīng)用安全的相關(guān)要求;

b)對傳輸?shù)臄?shù)據(jù)進行加密;

c)數(shù)據(jù)傳輸過程中使用安全協(xié)議;

d)數(shù)據(jù)集構(gòu)建過程中,使用匿名化或去標(biāo)識化技術(shù)處理個人身份信息;

e)對數(shù)據(jù)采集環(huán)境、設(shè)施和技術(shù)采取必要的安全管控措施;

f)對敏感數(shù)據(jù)進行加密存儲,防止未經(jīng)授權(quán)的訪問和數(shù)據(jù)泄露;

g)實施訪問控制措施,僅允許授權(quán)人員訪問數(shù)據(jù)集;

h)記錄對數(shù)據(jù)集的訪問和修改行為;

i)制定數(shù)據(jù)泄露響應(yīng)計劃;

j)定期備份。

6

T/LXLYXXX—2024

A

A

附錄A

(資料性)

多模態(tài)老年共病數(shù)據(jù)集構(gòu)建模型

多模態(tài)老年共病數(shù)據(jù)集構(gòu)建模型見圖A.1。

圖A.1多模態(tài)老年共病數(shù)據(jù)集構(gòu)建模型

7

T/LXLYXXX—2024

B

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論