《基于機(jī)器學(xué)習(xí)胎兒健康預(yù)測的模型構(gòu)建研究》9600字【論文】_第1頁
《基于機(jī)器學(xué)習(xí)胎兒健康預(yù)測的模型構(gòu)建研究》9600字【論文】_第2頁
《基于機(jī)器學(xué)習(xí)胎兒健康預(yù)測的模型構(gòu)建研究》9600字【論文】_第3頁
《基于機(jī)器學(xué)習(xí)胎兒健康預(yù)測的模型構(gòu)建研究》9600字【論文】_第4頁
《基于機(jī)器學(xué)習(xí)胎兒健康預(yù)測的模型構(gòu)建研究》9600字【論文】_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

-9-基于機(jī)器學(xué)習(xí)胎兒健康預(yù)測的模型構(gòu)建研究摘要降低兒童死亡率反映在聯(lián)合國的若干可持續(xù)發(fā)展目標(biāo)中,這是人類進(jìn)步的關(guān)鍵指標(biāo)。隨著計(jì)劃生育的國策的推行,對(duì)胎兒的健康、以及疾病早期監(jiān)測是我們更加關(guān)注的指標(biāo)。鑒于上述情況,通過胎心宮縮監(jiān)護(hù)(CTG)是評(píng)估胎兒健康的一種簡單、最常見的選擇,允許醫(yī)療保健專業(yè)人員采取行動(dòng)以預(yù)防兒童和孕產(chǎn)婦死亡。設(shè)備通過發(fā)送超聲波脈沖并讀取其響應(yīng)來工作,其中胎兒心率信號(hào)是宮縮監(jiān)測的核心參數(shù)。由于對(duì)CTG信號(hào)預(yù)測的不準(zhǔn)確,做出不準(zhǔn)確的診斷。根據(jù)以上情況,應(yīng)用機(jī)器學(xué)習(xí)的理論知識(shí)及算法,建立預(yù)測胎兒健康模型實(shí)現(xiàn)智能評(píng)估。從kaggle數(shù)據(jù)集中下載2126條數(shù)據(jù),其中包括基線值、加速、胎動(dòng)、子宮收縮、減速、短期變化、異常長期變化等相關(guān)特征。本論文運(yùn)用Logistic回歸和K-鄰近(KNN)兩種機(jī)器學(xué)習(xí)算法構(gòu)建預(yù)測胎兒健康的模型,同時(shí),通過運(yùn)用數(shù)據(jù)集對(duì)模型的訓(xùn)練,使用歷遍方法找到更優(yōu)的參數(shù),從而得到評(píng)估兩種模型的對(duì)胎兒健康預(yù)測的準(zhǔn)確性。其中Logistic回歸模型預(yù)測的準(zhǔn)確值為0.8985215053763441;KNN模型預(yù)測胎兒健康的準(zhǔn)確值為0.9086021505376345。綜上所述:使用機(jī)器學(xué)習(xí)構(gòu)建的KNN模型預(yù)測的胎兒健康的準(zhǔn)確更高一些,更值得去使用此方法研究,應(yīng)用到臨床醫(yī)學(xué)。關(guān)鍵詞:機(jī)器學(xué)習(xí);Logistic回歸,KNN算法;預(yù)測模型;胎兒健康目錄TOC\o"1-3"\h\u摘要 1Abstract 21緒論 51.1胎兒健康研究意義 51.2胎兒宮縮圖參數(shù) 61.2.1胎心率基線 61.2.2胎心率變異 61.2.3子宮收縮 61.3胎兒健康國內(nèi)研究綜述 61.4胎兒健康國外研究綜述 72機(jī)器學(xué)習(xí)理論及技術(shù) 82.1機(jī)器學(xué)習(xí)的理論知識(shí)簡介 82.3機(jī)器學(xué)習(xí)的發(fā)展過程 82.3機(jī)器學(xué)習(xí)的應(yīng)用模型 92.3.1Logistic回歸模型 92.3.2K-鄰近(KNN)模型 93數(shù)據(jù)集預(yù)處理與模型評(píng)價(jià)指標(biāo) 103.1胎兒健康數(shù)據(jù)集 103.1.1數(shù)據(jù)集介紹 103.1.2模型評(píng)價(jià)指標(biāo) 113.2數(shù)據(jù)預(yù)處理 123.2.1缺失值處理 124模型構(gòu)建 134.1數(shù)據(jù)可視化 134.2數(shù)據(jù)歸一化 144.3數(shù)據(jù)劃分 154.4網(wǎng)格搜索 154.5混淆矩陣 165結(jié)論 19附錄1 231緒論1.1胎兒健康研究意義國家推出放開二胎的政策,在刺激人口增長方面,國家衛(wèi)生計(jì)生委還引入了優(yōu)生學(xué)的概念。為響應(yīng)國策,所以,減少缺陷胎兒的出生是最有效的手段。為了減少缺陷的胎兒出生,除了在胎兒具備一個(gè)健康的身體來進(jìn)行胎兒之外,最重要的是在于胎兒進(jìn)行孕育過程中,就要保證胎婦及其他胎兒身體的健康狀態(tài)從態(tài)。目前的情況而言,對(duì)于一個(gè)孕婦的健康,我們已經(jīng)擁有非常豐富的知識(shí)和經(jīng)驗(yàn),但在另外一個(gè)重要的方面,如胎兒生長發(fā)育過程,在目前的臨床醫(yī)學(xué)中,對(duì)于胎兒生長發(fā)育的監(jiān)測還是會(huì)存在一些困難及挑戰(zhàn)。在2017年,我國已經(jīng)全面加強(qiáng)了建設(shè)對(duì)于孕婦及其嬰幼兒的衛(wèi)生管理和服務(wù)體系。終于,在2020年,報(bào)告中指出孕產(chǎn)婦病例死亡率避免在18/10萬,5歲以下幼童病例死亡率避免在9.5‰,新生兒病例死亡率避免在7.5‰。有一些學(xué)者曾經(jīng)明確地指出,孕婦及其胎兒的身體衛(wèi)生是公共衛(wèi)生工作的根石。因此,進(jìn)行對(duì)胎兒健康監(jiān)護(hù)的主要目的之一就是,讓相關(guān)醫(yī)護(hù)人員能夠及早發(fā)現(xiàn)胎兒的健康狀況是否是處于窘迫狀態(tài),并且能夠發(fā)現(xiàn)潛在問題并做出正確診斷??萍疾粩嗟匕l(fā)展與進(jìn)步,胎兒監(jiān)測的手段越來越多。如今最為常見就是,胎心電子監(jiān)護(hù)。胎心率是反應(yīng)出胎兒健康狀態(tài)的最重要的指標(biāo),現(xiàn)在在臨床醫(yī)學(xué)中使用的胎心電子監(jiān)護(hù)方法是胎心宮縮監(jiān)護(hù)。醫(yī)護(hù)人員在進(jìn)行胎兒監(jiān)測時(shí),并且對(duì)胎心宮縮圖的記錄,其中記錄包含胎兒心率和子宮收縮。胎兒心率又稱胎心率,最終呈現(xiàn)是胎心率變化信號(hào)曲線,這是由于交感神經(jīng)和副交感神經(jīng)調(diào)節(jié)導(dǎo)致的。胎兒在子宮中的狀態(tài)會(huì)影響胎兒心率值偏高或偏低的現(xiàn)象。所以密切觀察胎兒在子宮中的心率變化,減少胎兒出現(xiàn)窘迫狀態(tài)而出現(xiàn)胎兒缺陷或死亡的問題。國際婦產(chǎn)科學(xué)聯(lián)盟簡稱是FIGO)[1]、國立兒童健康和人類發(fā)展研究所簡稱是NICHD[2]等多家相關(guān)組織制定了胎兒監(jiān)護(hù)指南,為醫(yī)護(hù)人員提供相關(guān)知識(shí)學(xué)習(xí)并要求醫(yī)護(hù)人員按照一定的標(biāo)準(zhǔn)對(duì)胎心宮縮進(jìn)行分析。機(jī)器學(xué)習(xí)在發(fā)展并且與各個(gè)領(lǐng)域相結(jié)合逐漸發(fā)展進(jìn)入了狂熱的狀態(tài),從而,自動(dòng)化分析也運(yùn)用在胎兒監(jiān)護(hù)中,利用計(jì)算機(jī)幫助醫(yī)護(hù)人員對(duì)胎心宮縮監(jiān)護(hù)信息的判讀。目前,信息判讀不夠理想,主要存在以下兩大原因:第一,對(duì)胎心宮縮監(jiān)護(hù)參數(shù)的提取的完整性,很多參數(shù)都是存在依互性,不能將某一個(gè)參數(shù)完全地剝離,從而進(jìn)行預(yù)測。第二,提取的胎心宮縮監(jiān)護(hù)特征參數(shù),通過對(duì)判讀的規(guī)則將參數(shù)進(jìn)行分類,預(yù)測胎兒健康。這往往過于理想,胎兒是一個(gè)不同又復(fù)雜的個(gè)體,簡簡單單只靠幾個(gè)參數(shù)對(duì)胎兒狀態(tài)進(jìn)行預(yù)測并不能全面地說明胎兒是否健康。必須根據(jù)整體的狀況,比如胎心率曲線形態(tài)等因素才能進(jìn)行預(yù)判?;诖吮尘?,本文選擇胎心宮縮信號(hào)參數(shù)提取的特征值,為了提高計(jì)算機(jī)自動(dòng)分析的準(zhǔn)確性,利用分析算法研究胎兒狀態(tài)的評(píng)價(jià)方法,以便更好地輔助醫(yī)務(wù)人員進(jìn)行臨床判斷和決策。1.2胎兒宮縮圖參數(shù)在分析胎心宮縮監(jiān)測信號(hào)的基礎(chǔ)上,找出胎心宮縮監(jiān)測的特點(diǎn),并根據(jù)規(guī)律進(jìn)行判斷,從而得出結(jié)論。所謂特征就是胎心和子宮收縮的監(jiān)測參數(shù)。許多研究機(jī)構(gòu)已經(jīng)確定了胎心和子宮收縮的監(jiān)測參數(shù)。1.2.1胎心率基線我國學(xué)者認(rèn)為在沒有胎動(dòng)、宮縮影響的情況下,曲線信號(hào)處于穩(wěn)定狀態(tài),5分鐘至一刻鐘以上胎心率的加和均衡值為基本胎心率,F(xiàn)IGO[3]表示5分鐘至一刻鐘曲線信號(hào)穩(wěn)定的胎心率的平均值為胎心率的起點(diǎn),加速度比胎心率高15-BPM。延遲是指胎心率比基線值低15BPM,持續(xù)時(shí)間小于120秒,120秒至300秒的持續(xù)時(shí)間適中,超過300秒的持續(xù)時(shí)間較重。1.2.2胎心率變異胎心率變異存在長變異和短變異,長變異定義為波動(dòng)較大的曲線,短變異是指上一跳心率和下一跳心率的差值。1.2.3子宮收縮在胎心宮縮監(jiān)護(hù)信號(hào)中,在子宮收縮期可以分為上升期、峰值期、下降期。正常的子宮收縮遵循特定的規(guī)律性,每次子宮收縮都由弱變強(qiáng),之后,由強(qiáng)變?nèi)?,維持一定的周期。1.3胎兒健康國內(nèi)研究綜述陸堯勝[4]等相關(guān)的國內(nèi)學(xué)者通過在對(duì)原先老舊的分類標(biāo)準(zhǔn)方法進(jìn)行了修正和優(yōu)化,從而提出了一種基于模糊理論和歐氏距離的新方法來確定胎兒心率信號(hào)對(duì)應(yīng)的胎兒狀態(tài)。FergusP[5]研究了利用機(jī)器學(xué)習(xí)算法預(yù)測胎兒分娩方式:陰道自然分娩和剖腹產(chǎn),并根據(jù)胎兒心率的變化監(jiān)測胎兒的健康狀況。同年,Georgoulas[6]計(jì)算了54個(gè)胎兒心率信號(hào)的線性和非線性特征,按曲線下面積(AUC)排序,選出最上面的特征函數(shù),然后用LS-SVM分類器對(duì)胎兒類別進(jìn)行診斷。li等相關(guān)學(xué)者[7]在研究中提出了基于卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetwork,cnn)的一種對(duì)胎兒健康狀態(tài)的分類研究方法,以一維胎心率的信號(hào)為主要輸入,并與其他傳統(tǒng)機(jī)器學(xué)習(xí)算法相結(jié)合進(jìn)行了對(duì)比。緊隨其后,comert[8]通過使用短時(shí)傅里葉變換(shorttermfouriertransform,stft)得到了二維影像,結(jié)合遷移學(xué)習(xí)和卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用來準(zhǔn)確預(yù)測孕婦的胎兒困難。1.4胎兒健康國外研究綜述sonicaid系統(tǒng)[9]:自上世紀(jì)80年代以來,英國牛津大學(xué)Dawes教授和Redman一直都在探索如何討論胎兒心率信號(hào)與對(duì)胎兒狀態(tài)進(jìn)行監(jiān)測的結(jié)果之間究竟有沒有特定關(guān)系。根據(jù)數(shù)據(jù)分析的結(jié)果,他們自己設(shè)計(jì)了一個(gè)電腦系統(tǒng),對(duì)26~42周孕婦妊娠期產(chǎn)前胎兒監(jiān)測數(shù)據(jù)進(jìn)行了分析,并建立了一套可以廣泛應(yīng)用于檢測和評(píng)估胎兒健康情況的標(biāo)準(zhǔn):dawes/redman標(biāo)準(zhǔn)。2CTG2系統(tǒng)[10]:上世紀(jì)末,意大利研究人員設(shè)計(jì)了2CTG2系統(tǒng),并于2007年推出了改進(jìn)版的2CTG2系統(tǒng),2CTG2系統(tǒng)主要計(jì)算兩類參數(shù):一類是標(biāo)準(zhǔn)化參數(shù),反映胎兒心率曲線形態(tài);第二個(gè)是與胎心率信號(hào)相關(guān)的時(shí)域參數(shù)。Krupa[11]提出了一種基于經(jīng)驗(yàn)?zāi)J椒纸猓‥MD)的胎心率特征提取方法,并利用向量支持向量機(jī)(SVM)將胎兒分為正常和異常兩種情況。spilka[12]通過對(duì)比較了一些胎兒的心率傳感器特點(diǎn)和其他傳統(tǒng)的特點(diǎn)對(duì)于這些胎兒進(jìn)行分類的影響和作用能力,證明了諸如復(fù)雜度、樣本熵等非線性的特點(diǎn)都是一種可以在很大幅度上提高其分類的特點(diǎn),而且這些非線性的傳統(tǒng)特點(diǎn)與非線性的特點(diǎn)相互組成的特點(diǎn)集已經(jīng)在國際上達(dá)到了最佳的分類特點(diǎn)。,靈敏度和特異性分別是73.4%和76.3%。Ocak等人[13]提出了一種自適應(yīng)神經(jīng)模糊推理系統(tǒng)(ANFIS),它可以根據(jù)胎兒心率和子宮收縮信號(hào)的特征來預(yù)測胎兒的狀態(tài)。2機(jī)器學(xué)習(xí)理論及技術(shù)2.1機(jī)器學(xué)習(xí)的理論知識(shí)簡介機(jī)器學(xué)習(xí)方法一般分為三類:有監(jiān)督學(xué)習(xí)方法、無監(jiān)督學(xué)習(xí)方法和半監(jiān)督學(xué)習(xí)方法[14]。用有監(jiān)督學(xué)習(xí)方法訓(xùn)練帶類標(biāo)簽的數(shù)據(jù),用無監(jiān)督學(xué)習(xí)方法訓(xùn)練一次無類標(biāo)簽的數(shù)據(jù),用半監(jiān)督學(xué)習(xí)方法訓(xùn)練一部分無類標(biāo)簽的數(shù)據(jù)。有監(jiān)督學(xué)習(xí)的方法是用一種類型標(biāo)記的數(shù)據(jù)訓(xùn)練一個(gè)模型,然后運(yùn)用預(yù)測模型對(duì)一些未識(shí)別的數(shù)據(jù)進(jìn)行分類。在無監(jiān)督學(xué)習(xí)中,這個(gè)過程主要是指利用無監(jiān)督學(xué)習(xí)算法對(duì)模型中沒有類型標(biāo)簽的數(shù)據(jù)進(jìn)行訓(xùn)練,研究數(shù)據(jù)的內(nèi)部結(jié)構(gòu)和相關(guān)性,進(jìn)而實(shí)現(xiàn)數(shù)據(jù)的采集和分類。半監(jiān)督學(xué)習(xí)是一種一般性學(xué)習(xí),它是指當(dāng)一個(gè)數(shù)據(jù)中的特征類別標(biāo)志數(shù)量少時(shí),首先利用已經(jīng)有標(biāo)志的數(shù)據(jù)訓(xùn)練一個(gè)模型,然后利用訓(xùn)練好的模型推斷出不屬于標(biāo)號(hào)數(shù)據(jù)的其他類別。最后,將推理數(shù)據(jù)與原始訓(xùn)練數(shù)據(jù)相結(jié)合,形成新的訓(xùn)練模型,用于訓(xùn)練模型的學(xué)習(xí)。本論文使用的胎兒健康信息是由相關(guān)技術(shù)人員使用和處理的,它們都是帶有類似標(biāo)簽的信息,。2.3機(jī)器學(xué)習(xí)的發(fā)展過程機(jī)器學(xué)習(xí)是計(jì)算機(jī)領(lǐng)域最熱點(diǎn)的話題之一。機(jī)器學(xué)習(xí)的歸納是由ArthurSamuel在1959年提出的,經(jīng)過多年的發(fā)展,計(jì)算機(jī)能夠從大量的算法數(shù)據(jù)中自動(dòng)分析和確定一定的規(guī)則,并能預(yù)測未知的數(shù)據(jù),這是機(jī)器學(xué)習(xí)的一個(gè)概括性定義。機(jī)器學(xué)習(xí)是人工智能的核心,是實(shí)現(xiàn)計(jì)算機(jī)完整性的根本途徑,在人工智能的研究中,機(jī)器學(xué)習(xí)是一個(gè)比較年輕的分支,其發(fā)展過程可分為以下四個(gè)階段[15]:第一階段是狂熱時(shí)期。在這一段時(shí)期,他們的主要任務(wù)就是是開發(fā)各種自組織和自適應(yīng)系統(tǒng)。第二階段是平靜期。在這一階段,對(duì)概念使用語義網(wǎng)絡(luò)和謂詞邏輯進(jìn)行符號(hào)化和模擬。第三階段是恢復(fù)時(shí)期。在這時(shí)期之前,人們只能學(xué)習(xí)一個(gè)概念,在這一時(shí)期可以學(xué)習(xí)多個(gè)概念,有了質(zhì)的飛越。第四階段:強(qiáng)勢(shì)發(fā)展階段。這一個(gè)時(shí)期是機(jī)器學(xué)習(xí)落地應(yīng)用的時(shí)期。將各類學(xué)習(xí)方法與大量專業(yè)知識(shí)融合到了當(dāng)中系統(tǒng),廣泛的應(yīng)用到了各個(gè)技術(shù)領(lǐng)域。2.3機(jī)器學(xué)習(xí)的應(yīng)用模型2.3.1Logistic回歸模型Logistic回歸[16]是一個(gè)經(jīng)典的分類模型,通過對(duì)單個(gè)或多個(gè)自變量的分析進(jìn)而對(duì)離散型因變量作出預(yù)測,常被用于解決二分類和多分類問題。Logistic

回歸模型簡單且計(jì)算量小,輸出值具有概率意義,使用隨機(jī)梯度下降法可以很方便進(jìn)行模型更新,但是它本質(zhì)是一個(gè)線性分類器,對(duì)多類相關(guān)特征的數(shù)據(jù)處Logistic回歸模型本身是一個(gè)線性回歸模型,之后,再加上了一個(gè)Sigmoid函數(shù),這句話就相當(dāng)于,Logistic回歸=線性函數(shù)+Sigmoid函數(shù)。線性函數(shù)是根據(jù)自變量和因變量假設(shè)出一條線性函數(shù)。Sigmoid函數(shù)再對(duì)回歸問題進(jìn)行轉(zhuǎn)化變成分類問題。將線性函數(shù)的結(jié)果值當(dāng)成sigmod函數(shù)的輸入值進(jìn)行轉(zhuǎn)化。這樣通過標(biāo)準(zhǔn)進(jìn)行劃分就可以將他們分為兩類或多類。線性回歸:a=cx+bSigmoid函數(shù):2.3.2K-鄰近(KNN)模型KNN[17]是K-近鄰是一種基于記憶的模型,根據(jù)給定的距離度量,通過當(dāng)前樣本與訓(xùn)練集中K個(gè)最近元素的相似性來進(jìn)行預(yù)測。KNN是一種模式識(shí)別的統(tǒng)計(jì)方法,也是機(jī)器學(xué)習(xí)中最簡單的分類算法。在KNN算法中,非常重要的主要是三個(gè)因素:K值的選擇:對(duì)于選擇k值的方法通常是根據(jù)樣本分布的情況選擇一個(gè)相對(duì)較小值,再進(jìn)行交叉驗(yàn)證從中選擇一個(gè)合適的點(diǎn)。如果選擇的K值較小,則表示用于預(yù)測訓(xùn)練誤差的較小,但模型復(fù)雜且易于觀察;如果選擇的K值較大,說明在較大區(qū)域內(nèi)使用樣本時(shí),訓(xùn)練誤差會(huì)增大,否則,模型很容易確定。距離的度量:p=1為曼哈頓距離;p=2歐式距離;本論文中經(jīng)過網(wǎng)格搜索使用的是曼哈頓距離。曼哈頓距離:d(x,y)=k=1n|xk-歐式距離:d(x,y)=k=1n(決策規(guī)則:分類模型主要采用加權(quán)多數(shù)法;回歸模型主要采用平均法或加權(quán)平均法。KNN算法是根據(jù)數(shù)據(jù)集的分類情況構(gòu)建模型,是一種非參數(shù)的算法,意思就是不會(huì)在建立模型之前對(duì)數(shù)據(jù)做出任何的假設(shè)。同時(shí)也是一種惰性算法,KNN不存在一個(gè)對(duì)數(shù)據(jù)訓(xùn)練的過程。這個(gè)算法建立的模型可能會(huì)更比較符合現(xiàn)實(shí)情況。KNN的優(yōu)點(diǎn)是比較靠近顯示情況,模型訓(xùn)練時(shí)間較短,使用方法比較簡單。KNN算法建立模型最明顯的缺點(diǎn)就是當(dāng)數(shù)據(jù)集樣本不均勻,其中一類的樣本占比較大,另一個(gè)較少時(shí)。KNN算法計(jì)算的是最靠近樣本的臨近樣本。這樣就會(huì)導(dǎo)致計(jì)算分類結(jié)果出現(xiàn)誤差。所以為了數(shù)據(jù)集分類不影響預(yù)測結(jié)果,就需要使用加權(quán)值法避免。3數(shù)據(jù)集預(yù)處理與模型評(píng)價(jià)指標(biāo)3.1胎兒健康數(shù)據(jù)集3.1.1數(shù)據(jù)集介紹本論文使用的數(shù)據(jù)來源于安東尼·高德布盧姆在墨爾本創(chuàng)立的機(jī)器學(xué)習(xí)競賽平臺(tái)Kaggle,是一個(gè)從心電圖檢查中提取的2126條特征記錄的數(shù)據(jù)集名叫fetal_health。在fetal_health數(shù)據(jù)集中存在的胎兒相關(guān)特征,相關(guān)特征名詞解釋(如圖3-1所示)圖3-1特征名詞解釋圖fetal_health數(shù)據(jù)集中共有22個(gè)特征,最后一列為胎兒屬性。在fetal_health數(shù)據(jù)集中專家使用1、2、3三個(gè)標(biāo)記值來標(biāo)記胎兒的狀態(tài),其中1代表的是胎兒處于健康狀態(tài),2表示胎兒處于異常狀態(tài),3表示胎兒處于病理狀態(tài)。對(duì)fetal_health數(shù)據(jù)集進(jìn)行分類分析時(shí),要確認(rèn)特征值是否存在缺失值,對(duì)于fetal_heath數(shù)據(jù)集在上傳到Kaggle平臺(tái)時(shí),已經(jīng)將它處理成一個(gè)可以進(jìn)行分析計(jì)算的狀態(tài)。各個(gè)特征值存在的缺失值相關(guān)實(shí)驗(yàn)學(xué)者已經(jīng)對(duì)數(shù)據(jù)集進(jìn)行填充。其中,在數(shù)據(jù)集中我們對(duì)fetal_health這一列數(shù)據(jù)進(jìn)行分析,此前健康、異常、病理的狀態(tài)已經(jīng)使用標(biāo)記值進(jìn)行標(biāo)記,利用餅狀圖對(duì)三種特征的胎兒數(shù)量在數(shù)據(jù)集中的分布情況進(jìn)行展示(如圖3-2所示)。從中我們可以看到,在此數(shù)據(jù)集中健康的胎兒占比為56.6%,異常的胎兒占比為23.16%,病理的胎兒占比為20.24%。在此數(shù)據(jù)集中3種特征數(shù)量分布不均勻,健康胎兒占大多數(shù),為了避免構(gòu)建模型不準(zhǔn)確的情況,后面會(huì)對(duì)數(shù)據(jù)做歸一化的處理。圖3-2胎兒類型分布圖在論文的數(shù)據(jù)集中,健康的胎兒為1655例,異常的胎兒為295例患病的胎兒為176例,使用柱狀圖顯示(如圖3-3所示)。圖3-2胎兒類型分布圖3.1.2模型評(píng)價(jià)指標(biāo)評(píng)估是機(jī)器學(xué)習(xí)中非常重要的一步,學(xué)習(xí)模型是否適合當(dāng)前任務(wù),是否能有效解決當(dāng)前問題,根據(jù)機(jī)器學(xué)習(xí)目標(biāo)不同,評(píng)價(jià)指標(biāo)也不同。對(duì)于監(jiān)督學(xué)習(xí)中的分類任務(wù),常用的評(píng)價(jià)指標(biāo)有錯(cuò)誤率、混淆矩陣、準(zhǔn)確度、召回率、F1值、ROC曲線等[18]。準(zhǔn)確率、錯(cuò)誤率、混淆矩陣都是經(jīng)常使用的評(píng)估模型標(biāo)準(zhǔn)的概念。準(zhǔn)確率是最常用的分類性能指標(biāo),正確預(yù)測的正反例數(shù)/總數(shù)表示準(zhǔn)確率。其中,在公式中將真實(shí)與預(yù)測結(jié)果將樣本分成四個(gè)類型:實(shí)際樣本是模型預(yù)測的正樣本(TP);模型預(yù)測為陽性的假陽性樣本、陰性樣本(FP);模型預(yù)測為陰性的假陰性樣本、陽性樣本(FN);真陰性,模型預(yù)測為陰性的陰性樣本(TN)。準(zhǔn)確度是指正確預(yù)測的陽性樣本數(shù)而不是所有樣本數(shù),正確預(yù)測的陽性病例數(shù)和正確預(yù)測的陽性病例的總數(shù)之比。召回率是指分類器能夠預(yù)測的陽性樣本數(shù),正確預(yù)測的陽性病例數(shù)和實(shí)際陽性病例總數(shù)之比。使用精度和召回率的調(diào)和平均值表示F1值。F1值索引結(jié)合了精度和召回的輸出。F1值的范圍為0到1,1表示模型的最佳輸出,0表示模型的最差輸出。在logistic回歸中,對(duì)正例和負(fù)例,一般設(shè)置一個(gè)閾值。大于閾值的為正,小于閾值的為負(fù)。如果降低閾值,會(huì)有更多的樣本被識(shí)別為正類,提高了正類的識(shí)別率,但同時(shí)也會(huì)有更多的負(fù)類被誤識(shí)別為正類。為了反映出這種現(xiàn)象,引入了ROC。根據(jù)分類結(jié)果,計(jì)算ROC空間中的對(duì)應(yīng)點(diǎn),并進(jìn)行連接,形成ROC曲線。橫坐標(biāo)為假陽性率(FPR假陽性率,預(yù)測為陰性樣本的陽性樣本數(shù)/實(shí)際陽性樣本數(shù)),縱坐標(biāo)為真陽性率(TPR真陽性率,預(yù)測為陽性樣本的陽性樣本數(shù)/實(shí)際陽性樣本數(shù))。一般來說,曲線應(yīng)該在直線(0,0)和(1,1)上方。準(zhǔn)確值:accura精準(zhǔn)率:precisi召回率:recaF1-值:3.2數(shù)據(jù)預(yù)處理3.2.1缺失值處理在利用數(shù)據(jù)進(jìn)行訓(xùn)練構(gòu)建模型前,需要對(duì)獲取的數(shù)據(jù)集進(jìn)行初步處理,從而整理出能夠進(jìn)行統(tǒng)計(jì)分析的數(shù)據(jù)集。本實(shí)驗(yàn)使用的數(shù)據(jù)集存在的問題如下:1.由于人工處理記錄時(shí),某些特征值的缺少,或者該項(xiàng)檢查患者沒有進(jìn)行檢測;2.特征值存在不同格式的數(shù)據(jù)類型,不能直接參與計(jì)算,需要進(jìn)行統(tǒng)一格式轉(zhuǎn)化處理;通過針對(duì)以上存在的問題對(duì)數(shù)據(jù)進(jìn)行處理,獲取可以直接統(tǒng)計(jì)分析的數(shù)據(jù)。對(duì)數(shù)據(jù)集中特征值缺失處理,鑒于本論文獲取的數(shù)據(jù)不多,若舍棄存在缺失值的數(shù)據(jù),對(duì)訓(xùn)練模型會(huì)存在不準(zhǔn)確的情況,故,采用該特征值的均值進(jìn)行填充缺少的特征值。4模型構(gòu)建4.1數(shù)據(jù)可視化熱力圖是用于展示特征之間的相關(guān)性,其中,熱力圖統(tǒng)計(jì)的項(xiàng)必須是數(shù)值型的,所以在使用熱力圖展示的時(shí)候需要選擇數(shù)值型的特征。plt.figure()用于輸出圖像及設(shè)置圖像顯示的大小。corr()用于計(jì)算相關(guān)系數(shù)返回空矩陣。使用corrmat賦值存放數(shù)據(jù)集、square輸出形狀為正方形、linewidths為寬距、cmap表示顏色。在繪制出的熱力圖(如圖4-1所示)中可以通過顏色的深淺程度,觀察特征與胎兒健康之間的相關(guān)程度,在這存在21個(gè)特征較多,觀察時(shí)有些混亂,這時(shí),可以采用sort_values函數(shù)算法將特征相關(guān)性排列打印出來,更加便捷。從算法中,數(shù)值為正,表示特征和胎兒健康成正相關(guān),數(shù)值為負(fù),表示特征和胎兒健康成負(fù)相關(guān)。長時(shí)間減速、短期變異異常、異常長期變化的時(shí)間百分比的相關(guān)系數(shù)為0.48、0.471、0.426,以上三個(gè)特征是與胎兒健康高度相關(guān)(如圖4-2所示)。圖4-1熱力圖圖4-2特征相關(guān)性圖4.2數(shù)據(jù)歸一化在對(duì)特征進(jìn)行數(shù)字化后,由于數(shù)值不同,功能室內(nèi)采樣點(diǎn)的距離由單個(gè)附加值決定,由其他特征決定,為了對(duì)樣本產(chǎn)生相同的影響,需要對(duì)數(shù)據(jù)進(jìn)行歸一化處理。數(shù)據(jù)歸一化處理應(yīng)使特征室中的所有功能對(duì)樣本距離的影響相同,歸一化處理也是算法的一部分[19]。公式不能對(duì)測試數(shù)據(jù)集進(jìn)行歸一化處理,而是利用訓(xùn)練數(shù)據(jù)集的方差和均值對(duì)測試數(shù)據(jù)進(jìn)行歸一化處理。由于,在現(xiàn)實(shí)環(huán)境中,數(shù)據(jù)不斷地在增加,輸入模型當(dāng)中在,無法求出均值與方差對(duì)測試集進(jìn)行預(yù)測的時(shí)候,不能直接對(duì)測試數(shù)據(jù)集進(jìn)行歸一化處理,訓(xùn)練數(shù)據(jù)集是模擬現(xiàn)實(shí)環(huán)境的數(shù)據(jù),不能直接使用均值與方差,同時(shí),單個(gè)數(shù)據(jù)是無法進(jìn)行歸一化處理。此外,standardscaler()函數(shù)用于標(biāo)準(zhǔn)化數(shù)據(jù),以確保:單個(gè)維度數(shù)據(jù)的方差為1,平均值為0,因此測量結(jié)果不受某些維度自身值的控制。fit_transform()計(jì)算訓(xùn)練數(shù)據(jù)的均值和方差,在對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行變換方差最終將數(shù)據(jù)集轉(zhuǎn)換為正態(tài)標(biāo)準(zhǔn)分布。4.3數(shù)據(jù)劃分機(jī)器學(xué)習(xí)會(huì)將數(shù)據(jù)集分為三種類別,分別是用于訓(xùn)練、測試和驗(yàn)證的數(shù)據(jù)集,訓(xùn)練數(shù)據(jù)用于模型的訓(xùn)練和設(shè)計(jì);測試數(shù)據(jù)用于評(píng)估模型驗(yàn)證期間模型的有效性。網(wǎng)格參數(shù)設(shè)置使用驗(yàn)證數(shù)據(jù)。數(shù)據(jù)共享有三種方法:保留程序、交叉驗(yàn)證程序,留一(P)方法和一種分層交叉驗(yàn)證方法。保留方法包括將數(shù)據(jù)集直接劃分為兩個(gè)子組,通常比例為7:3。交叉驗(yàn)證方法包括將數(shù)據(jù)劃分為大小相似的k個(gè)子組。每次k-1子群的單位作為訓(xùn)練集,其余的作為測試集。經(jīng)過K次訓(xùn)練和考試后,返回K次測試結(jié)果的平均值,也稱為“K次交叉驗(yàn)證”。(P)方法包括從所有數(shù)據(jù)中選擇一個(gè)(P)樣本作為驗(yàn)證集,層次k-折疊交叉驗(yàn)證:首先,它屬于交叉驗(yàn)證的類型。分層意味著原始數(shù)據(jù)中每個(gè)類別的份額將保留在每個(gè)折衷方案中。train_test_split()函數(shù)是將樣本數(shù)據(jù)隨機(jī)劃分為訓(xùn)練集和測試;在論文中,train_data用于表示即將被劃分的樣本的數(shù)據(jù);test_size表示測試數(shù)據(jù)占樣本的比例;random_state表示隨機(jī)種子數(shù),如果不設(shè)置,則每次劃分的數(shù)據(jù)都不一樣。所以,為了每一次運(yùn)行預(yù)測結(jié)果都一致,我們給它指定一個(gè)數(shù)值。在論文中test_size的值為0.3則表示測試數(shù)據(jù)占整個(gè)數(shù)據(jù)樣本的百分之30,百分之70為訓(xùn)練數(shù)據(jù)。在通過測試0.2、0.3、0.4幾個(gè)參數(shù)劃分值時(shí),0.3時(shí)兩個(gè)模型區(qū)別最為明顯所以采用0.3參數(shù)劃分測試集和訓(xùn)練集在研究中數(shù)據(jù)一共有2126條,訓(xùn)練集為1488條,測試集為638條。4.4網(wǎng)格搜索在使用網(wǎng)格搜索進(jìn)行參數(shù)調(diào)優(yōu)之前,首先使用模型原本的參數(shù)進(jìn)行預(yù)測,Logistic回歸模型在訓(xùn)練集預(yù)測的準(zhǔn)確率為0.8934169278996865;KNN模型同樣使用模型原先所帶有的參數(shù)在測試集進(jìn)行預(yù)測,準(zhǔn)確率為0.8761755485893417。GridSearchCV[20]的名稱可以分為兩部分:Gridssearch和CV,即GridSearch和CrossValidation。這兩個(gè)名稱都很容易理解。在網(wǎng)格搜索中,搜索參數(shù),即在指定的參數(shù)范圍內(nèi),根據(jù)序列的步長調(diào)整參數(shù)。參數(shù)集用于訓(xùn)練學(xué)習(xí)者在所有參數(shù)的測試范圍內(nèi)找到精度最高的參數(shù)。這也是網(wǎng)格搜索的弊端,它需要跨越所有可能的參數(shù)組合,對(duì)于多個(gè)參數(shù)來說網(wǎng)格搜索非常耗時(shí)。以下是對(duì)算法的參數(shù)解釋,estimator=linear_model.LogisticRegression()是網(wǎng)格搜索時(shí)使用的分類器對(duì)象,param_grid=params_LR是網(wǎng)格搜索的參數(shù)范圍。n_jobs=-1表示機(jī)器有幾個(gè)cpu去就使用幾個(gè)cpu進(jìn)行運(yùn)算,提高運(yùn)算效率。使用網(wǎng)格調(diào)參,找到Logistic回歸模型的最佳參數(shù)是C=10,intercept_scaling=1,tol=0.0001,penalty="l2",solver="liblinear",random_state=42。KNN模型的最佳參數(shù)集是leaf_size=1,n_neighbors=3,p=1。找到最佳參數(shù)之后,Logistic回歸模型的預(yù)測準(zhǔn)確率為0.8985215053763441;KNN模型預(yù)測準(zhǔn)確率為0.9086021505376345。4.5混淆矩陣混淆矩陣[21]的每一列表示預(yù)測類別,單個(gè)列的總數(shù)表示作為類別預(yù)測的數(shù)據(jù)的數(shù)量;每行表示當(dāng)前數(shù)據(jù)類別,每行中的數(shù)據(jù)總數(shù)表示該類別中的數(shù)據(jù)實(shí)例數(shù)。另一種評(píng)估分類質(zhì)量的方法是ROC曲線和AUC,通過布線矩陣可以清楚地看出是非。以二進(jìn)制分類問題為例,記錄中有兩種類型的記錄:正記錄和負(fù)記錄,而分類模型可以給出兩類對(duì)記錄分類的判斷:肯定判斷(記錄屬于肯定范疇)或否定判斷(記錄屬于否定范疇)。以下四組記錄的數(shù)目:真正例、假反例、真反例和陰性例,混淆矩陣(如圖4-3所示)由四個(gè)數(shù)值組成,可用于計(jì)算錯(cuò)誤數(shù)。圖4-3混淆矩陣在研究中,是一個(gè)三分類問題,存在正常、異常、病理三類,所以Logistic回歸模型、KNN模型做出的混淆矩陣則是3×3的矩陣(如圖4-4、4-5所示)。圖4-4Logistic模型混淆矩陣圖圖4-5KNN模型混淆矩陣從圖中,我們還是可以觀察到兩個(gè)模型之間的預(yù)測還是存在差距的。在混淆矩陣中使用測試集638個(gè)胎兒樣本,在Logistic回歸模型中497個(gè)正常樣本中,存在26個(gè)為異常樣本,1個(gè)為病理樣本;88個(gè)異常樣本中,存在29個(gè)為正常樣本,1個(gè)為異常樣本;53個(gè)異常樣本中,存在4個(gè)為正常樣本,37個(gè)為病理樣本;在KNN模型中497個(gè)正常樣本,存在18個(gè)預(yù)測為異常樣本,1個(gè)為病理樣本;88個(gè)異常樣本中,存在26個(gè)為正常樣本,4個(gè)為病理樣本;53個(gè)異常樣本中,存在5個(gè)為正常樣本,36個(gè)為異常樣本。從混淆矩陣中也可以看出,Logistic回歸模型預(yù)測的準(zhǔn)確率約為0.8985215053763441,KNN模型預(yù)測的準(zhǔn)確率為0.9086021505376345。通過網(wǎng)格調(diào)參之后,KNN模型預(yù)測的結(jié)果比Logistic回歸模型預(yù)測更加準(zhǔn)確。在兩個(gè)模型通過網(wǎng)格搜索調(diào)參之后,輸出模型的評(píng)估值(如圖4-6、圖4-7所示)。圖4-6Logistic模型評(píng)價(jià)指標(biāo)值圖圖4-7KNN模型評(píng)價(jià)指標(biāo)值圖5結(jié)論在第一、第二章已經(jīng)講述過,不能只是考慮CTG參數(shù)中的幾個(gè)特征,而對(duì)胎兒健康狀態(tài)進(jìn)行預(yù)測,所以在預(yù)測的時(shí)候我們還是還輸入所有的特征值。首先,我們可以將需要預(yù)測的數(shù)據(jù)按照對(duì)應(yīng)的特征值輸入,使用已經(jīng)選擇最優(yōu)參數(shù)的數(shù)據(jù)模型,先對(duì)數(shù)據(jù)做一個(gè)歸一化的處理,然后將數(shù)據(jù)列傳入預(yù)測模型當(dāng)中,就可以獲得我們預(yù)測結(jié)果。本論文構(gòu)建兩個(gè)模型,通過兩個(gè)模型在訓(xùn)練集中的獲得的最優(yōu)的參數(shù),并使用測試集在模型中預(yù)測,計(jì)算模型在測試集中的準(zhǔn)確性。輸出混淆矩陣及precision,recall和F1-值評(píng)估指標(biāo)。對(duì)模型的預(yù)測準(zhǔn)確率判斷。在兩個(gè)模型評(píng)價(jià)指標(biāo)中可以看出KNN的預(yù)測準(zhǔn)確率是高于Logistic回歸模型的值。在輸入數(shù)據(jù)使用模型預(yù)測時(shí),預(yù)測結(jié)果還是存在誤差。同一個(gè)未知例使用不同的模型進(jìn)行預(yù)測,預(yù)測結(jié)果是存在差異的。我認(rèn)為,可能存在的原因是:第一:數(shù)據(jù)集較少、模型在使用分類器計(jì)算的參數(shù)還不是最優(yōu)的參數(shù),第二:在數(shù)據(jù)歸一化時(shí),使用的方差與均值構(gòu)建的模型過于擬合。在以后實(shí)驗(yàn)中,可以通過擴(kuò)充數(shù)據(jù)集、使用其他的分類器和算法訓(xùn)練優(yōu)化模型,提高模型的準(zhǔn)確率。并且需要更加準(zhǔn)確讀取胎兒監(jiān)護(hù)信號(hào)的數(shù)據(jù)。這一步也是機(jī)器學(xué)習(xí)需要實(shí)現(xiàn)優(yōu)化的關(guān)鍵環(huán)節(jié)。參考文獻(xiàn)[1]RoothG,HuchA,HuchR.FIGONews:guidelinesfortheuseoffetalmonitoring[J].IntJGynecolObstet,1987,25:159-67.[2]NationalCertificationCorporation.NICHDDefinitionsandClassifications:ApplicationtoElectronicFetalMonitoringInterpretation[J].NCCMonograph.2010,3(1):1-20.[3]Ayres-de-CamposD,SpongCY,ChandraharanE.FIGOconsensusguidelinesonintrapartumfetalmonitoring:Cardiotocography[J].InternationalJournalofGynecology&Obstetrics,2015,131(1):13-24.[4]陸堯勝.胎心宮縮圖計(jì)算機(jī)分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)《微計(jì)算機(jī)信息》.2010[5]FergusP,HussainA,AI-JumeilyD,etal.Classificationofcaesareansectionandnormalvaginaldeliveriesusingfoetalheartratesignalsandadvancedmachinelearningaigorithms[J].BioMedicalEngineeringOnLine,2017,16(1)[6]GeorgoulasG,KarvelisP,SpilkaJ,etal.InvestigatingpHbasedevaluationoffetalheartrate(FHR)recordings[J].HealthandTechnology,2017.[7]JianqiangliLHZS.AutomaticClassificationofFetalHeartRateBasedonConvolutionalNeuralNetwork[J].IEEEInternetofThingsJournal,2018:1[8]Comert

Z,Kocamaz

A

F.Fetal

Hypoxia

Detection

Based

onDeepConvolutional

Neural

Networkwith

Transfer

Learning

Approach[M

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論