




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
目錄摘要 [16]。在分類任務(wù)中,根據(jù)這k個鄰居的信息進(jìn)行預(yù)測,通常采用投票法確定最頻繁出現(xiàn)的類別作為預(yù)測結(jié)果;而在回歸任務(wù)中,可使用平均法將這k個鄰居的輸出標(biāo)記均值作為預(yù)測結(jié)果。此外,可根據(jù)距離加權(quán)平均或加權(quán)投票,賦予距離更近的樣本更大權(quán)重。相較于其他算法,k近鄰算法不存在顯式的訓(xùn)練過程,被視為“懶惰學(xué)習(xí)”的代表,僅簡單保存樣本,無需訓(xùn)練花費。只有在接收到測試樣本后才進(jìn)行處理和預(yù)測。在對樣本進(jìn)行學(xué)習(xí)處理的方法稱為“急切學(xué)習(xí)”??偟膩碚f,k近鄰算法是一種簡單易懂的監(jiān)督學(xué)習(xí)方法。其靈活性高,可以適應(yīng)各種數(shù)據(jù)類型和問題類型。然而,該算法也存在一些缺點,如計算復(fù)雜度較高、對數(shù)據(jù)量敏感等。因此,在實際應(yīng)用中,需要根據(jù)情況選擇合適的k值和距離度量方法,以提高算法的性能表現(xiàn)。優(yōu)點是準(zhǔn)確性高,對異常值和噪聲有較高的容忍度。缺點是計算量較大,對內(nèi)存的需求也較大。在knn算法中用到了兩種距離公式。(1)歐幾里得距離:歐幾里得距離是我們在平面幾何中最常用的距離計算方法,即兩點之間的直線距離。(2)曼哈頓距離:曼哈頓距離是計算兩點在一個網(wǎng)格上的路徑距離,與上述的直線距離不同,它只允許沿著網(wǎng)格的水平和垂直方向移動。2.4基因的特征選擇算法2.4.1特征選擇技術(shù)特征選擇技術(shù)是通過特征子集搜索算法,在數(shù)據(jù)特征組合的搜索空間中尋找與模式識別問題高度相關(guān)的特征子集,以提高學(xué)習(xí)算法的識別性能。根據(jù)特征相關(guān)性可劃分特征為完全不相關(guān)和噪聲特征、弱相關(guān)且冗余特征、弱相關(guān)且不冗余特征、強相關(guān)特征。最佳特征子集需包含弱相關(guān)且不冗余特征和強相關(guān)特征,后者對性能提升至關(guān)重要。特征可在單獨評估時表現(xiàn)為無關(guān),但與其他特征結(jié)合評估時可能表現(xiàn)為相關(guān),導(dǎo)致數(shù)據(jù)集存在多個相關(guān)特征子集,彼此相關(guān)性不高。理想特征選擇算法應(yīng)具備保留所有強相關(guān)和部分弱相關(guān)特征、剔除無關(guān)特征和噪聲特征的能力。2.4.2特征選擇的種類(1)根據(jù)訓(xùn)練數(shù)據(jù)類別信息區(qū)分特征選擇可根據(jù)訓(xùn)練樣本是否包含類別信息分為有監(jiān)督型、無監(jiān)督型和半監(jiān)督型。有監(jiān)督型處理包含類別信息的訓(xùn)練樣本,無監(jiān)督型處理不包含類別信息的訓(xùn)練樣本,半監(jiān)督型處理部分包含類別信息的訓(xùn)練樣本。不論是哪種類型的特征選擇算法,通常包括四個關(guān)鍵步驟:確定搜索方向、特征子集搜索、特征子集評價和特征子集驗證。特征選擇是循環(huán)迭代的過程,搜索策略用于找到候選子集,評價策略對其進(jìn)行評估。通過循環(huán)迭代搜索和評價直至滿足停止條件,得到最佳特征集。最后,驗證最優(yōu)特征集的效用需要在獨立的測試數(shù)據(jù)上完成。這些步驟組合確保了特征選擇的有效性和適用性。(2)根據(jù)特征子集評價策略區(qū)分特征選擇算法可根據(jù)特征子集評價策略劃分為5種主要類型:過濾式(Filter)、封裝式(Wrapper)、嵌入式(Embedded)、混合式(Hybrid),以及近年興起的集成式(Ensemble)。每種類型在特征選擇過程中具有不同的優(yōu)缺點和適用場景。2.4.3CFSSubsetEvalCFSSubsetEval,即基于相關(guān)性的特征子集選擇方法Correlation-basedFeatureSubsetSelection(CFS)Evaluation。作為經(jīng)典CFS算法的擴(kuò)展版本,用于評估特征子集的優(yōu)劣。特征選擇在機器學(xué)習(xí)領(lǐng)域至關(guān)重要,可削減特征空間維度,提高模型擬合效果,對高維數(shù)據(jù)處理有益。CFSSubsetEval算法基于特征子集相關(guān)性評估其質(zhì)量,找到最佳特征子集。通過分析特征之間的相關(guān)性,該算法能夠精確評估特征集的質(zhì)量,有助于選取對模型性能影響最大的特征子集。CFSSubsetEval方法的應(yīng)用,提升了特征選擇的準(zhǔn)確性和有效性,為數(shù)據(jù)分析和模式發(fā)現(xiàn)提供了有力支持。CFSSubsetEval算法的原理主要包括以下幾個方面:CFSSubsetEval算法是評估特征子集的相關(guān)性,主要通過計算特征之間的相關(guān)性。常用的相關(guān)性度量方法包括皮爾遜相關(guān)系數(shù)和克努爾相關(guān)系數(shù)。相關(guān)系數(shù)越大,表示特征相關(guān)性越高。在特征選擇任務(wù)中,我們通常傾向于選擇相關(guān)性較小的特征,因為這些特征提供更多獨立信息,有助于提升模型性能。特征子集的選擇是基于對其相關(guān)性和使用評價函數(shù)的評估,通過這一過程為每個特征子集確定評分。CFSSubsetEval算法使用這些評分來挑選最佳的特征子集,以在后續(xù)模型的訓(xùn)練和預(yù)測中應(yīng)用。這種方式幫助優(yōu)化特征選擇過程,并確保選取的特征子集能夠在后續(xù)任務(wù)中發(fā)揮最佳效用。CFSSubsetEval是一種基于特征相關(guān)性的特征子集選擇方法。該算法評估特征子集的相關(guān)性,通過評價函數(shù)評估,找到最佳特征子集。在實際機器學(xué)習(xí)中,CFSSubsetEval可降維、提升模型擬合效果,尤其對高維數(shù)據(jù)處理有益。算法具有顯著實用價值。特征選擇在機器學(xué)習(xí)中至關(guān)重要,有助于提升泛化能力、降低過擬合風(fēng)險,加速模型訓(xùn)練和預(yù)測。而CFSSubsetEval作為基于相關(guān)性的特征選擇方法,能有效找到最佳特征子集,提升模型性能。通過CFSSubsetEval的應(yīng)用,我們能夠在特征子集中挑選出對模型有關(guān)鍵影響的特征,以改善預(yù)測結(jié)果和提高模型準(zhǔn)確性,為數(shù)據(jù)分析和模型構(gòu)建提供有效支持。2.5本章小結(jié)本章主要介紹了腫瘤基因表達(dá)譜數(shù)據(jù)挖掘研究相關(guān)理論,包括腫瘤基因表達(dá)譜的特點和在實驗中對數(shù)據(jù)集使用的算法進(jìn)行詳細(xì)描述,包括算法原理和數(shù)學(xué)表達(dá)式。第3章基于機器學(xué)習(xí)的腫瘤基因表達(dá)譜數(shù)據(jù)挖掘研究3.1實驗環(huán)境與工具AMDRyzen74700UwithRadeonGraphics2.00GHzSAMSUNGMZVLB512HBJQ-00000Pycharm3.2實驗過程3.2.1腫瘤基因表達(dá)數(shù)據(jù)有影響力的生物信息類期刊,實驗中采用的數(shù)據(jù)均來自這些數(shù)據(jù)庫。實驗選取了三組不同類型的腫瘤數(shù)據(jù)集。它們分別為ColonTumor和DLBCL樣本數(shù)據(jù),具體的描述見表3-3。表3-3三組腫瘤基因表達(dá)數(shù)據(jù)2Colon6220002兩類別3.2.2特征處理為了提高分類任務(wù)的準(zhǔn)確性并節(jié)省時間和計算成本,我們需要從包含大量與分類不相關(guān)和冗余的因中篩選出與分類相關(guān)的基因。重是通過提取與腫瘤分類相關(guān)特征來實現(xiàn)更好的分類力。這樣做可以降低特征空間的維度,并消除對分類任務(wù)無用的信息。在分類之前,采用有效的CFSSubsetEval方法對這兩組腫瘤數(shù)據(jù)集先進(jìn)行預(yù)處理,丟棄對腫瘤分類相關(guān)性不大的基因。本文首先對數(shù)據(jù)進(jìn)行預(yù)處理,然后在WEKA中采用CFSSubsetEval進(jìn)行特征選擇,經(jīng)過約減后的數(shù)據(jù)信息見表3-4。表3-4特征選擇結(jié)果數(shù)據(jù)集原始基因數(shù)特征選擇后712993Colon200026如表所示,經(jīng)過特征選擇后,DLBCL和Colon這兩組癌癥數(shù)據(jù)的特征維度顯著減少。在DLBCL數(shù)據(jù)集,原本有7129個屬性的征被減少到僅有93個。而在Colon數(shù)據(jù)集中,原本有2000個特征的維度被減少到僅有26個。這一特征選擇的過程大大簡化了后續(xù)的分類任務(wù)。3.2.3分類對比本文將經(jīng)過特征約減后的兩組癌癥數(shù)據(jù)集用于三種分類器模型進(jìn)行分類,對比結(jié)果,選出一個相對較好的方法。表3-5不同分類方法的準(zhǔn)確率對比數(shù)據(jù)集KNN決策樹樸素貝葉斯DLBCL0.8750.81250.875Colon0.769230.846150.69231從上表中可以看出,在DLBCL數(shù)據(jù)集上,KNN算法和樸素貝葉斯算法的準(zhǔn)確率一樣,比決策樹算法好,但是在Colon數(shù)據(jù)集上,決策樹算法更好。召回率是衡量分類模型對正樣本識別能力的一個重要指標(biāo),召回率越高,說明模型對正樣本的識別能力越強。表3-6不同分類方法的召回率對比數(shù)據(jù)集KNN決策樹樸素貝葉斯DLBCL0.91670.91670.9167Colon0.750.8750.625從上表可知三個算法在處理DLBCL數(shù)據(jù)集上的結(jié)果一致,但在Colon數(shù)據(jù)集上決策樹算法更好。F1分?jǐn)?shù)是精確率和召回率的調(diào)和平均值,它綜合了這兩個指標(biāo)的信息。F1分?jǐn)?shù)越高,說明分類模型的區(qū)分正負(fù)樣本能力越強,模型越穩(wěn)健。表3-7不同分類方法的F1-Score對比數(shù)據(jù)集KNN決策樹樸素貝葉斯0.91670.880.9167Colon0.80.8750.71429從上表中可以看出,在DLBCL數(shù)據(jù)集上,KNN算法和樸素貝葉斯算法的F1分?jǐn)?shù)一樣,比決策樹算法好,但是在Colon數(shù)據(jù)集上,決策樹算法更好。ROC(ReceiverOperatingCharacteristic,接收者操作特性)曲線越高越好。具體來說,AUC(AreaUnderCurve,曲線下面積)的取值范圍在0.5到1之間,值越大表示模型性能越好。ROC曲線越接近左上角,表示模型性能越好;曲線越接近對角線,則表示模型性能越差。不同數(shù)據(jù)集的ROC曲線如下圖所示:圖3-2DCBCL數(shù)據(jù)集三種分類算法ROC曲線圖由上圖可知樸素貝葉斯算法的ROC值最高,決策樹最低。圖3-2Colon數(shù)據(jù)集三種分類算法ROC曲線圖由上圖可知樸素貝葉斯算法的ROC值最高,KNN算法最低。結(jié)合以上所有評價指標(biāo),KNN算法較好。3.3本章小結(jié)本章主要介紹了基于機器學(xué)習(xí)的腫瘤基因表達(dá)譜數(shù)據(jù)挖掘研究的實驗。首先介紹了實驗環(huán)境和工具,以及所用到的數(shù)據(jù)集。然后對數(shù)據(jù)集進(jìn)行特征處理,在進(jìn)行分類對比,最后得出結(jié)論,KNN算法相對較好。第4章展望與總結(jié)隨著工業(yè)化進(jìn)程不斷推進(jìn),生活環(huán)境污染加劇,疊加人口趨向老齡化,腫瘤已成為人們生活中常見的疾病之一,腫瘤發(fā)病率日漸提升。腫瘤疾病高發(fā),催生了腫瘤醫(yī)院及抗腫瘤藥物、器械廣闊的需求空間。因此攻克腫瘤這個難關(guān)任重而道遠(yuǎn)。在醫(yī)院中,很多腫瘤早期沒有多種具有醫(yī)學(xué)意義的特征,尤其是因為不同原因?qū)е碌陌Y狀不同,使得醫(yī)生更加難以觀察,難以得到有效信息進(jìn)行診斷。在很多偏遠(yuǎn)地區(qū)醫(yī)療技術(shù)并沒有那么發(fā)達(dá),極度缺這樣才能更方便后續(xù)的實驗進(jìn)行。2.本文嘗試的是腫瘤方面,未來也可以嘗試其他分類任務(wù),腦電信號、心電信號等。這些信號內(nèi)容,可以通過借鑒腫瘤基因表達(dá)知識圖譜研究的方法3.本實驗所采取的數(shù)據(jù)集均為二分類,因此,在下一步的工作中,我們會嘗試將使用其他類型的數(shù)據(jù),使實驗結(jié)果更加準(zhǔn)確可靠。同時,為了使算法更有利于實際問題的解決,在未來我們還將關(guān)注于結(jié)合多種類型的數(shù)據(jù),以實現(xiàn)更細(xì)致的分析。參考文獻(xiàn)熊月玲.基于代價敏感學(xué)習(xí)的腫瘤基因表達(dá)譜數(shù)據(jù)挖掘研究[D].皖南醫(yī)學(xué)院,2022.韓旭.基于機器學(xué)習(xí)算法的基因表達(dá)數(shù)據(jù)處理與分析[D].天津大學(xué),2018.劉健.基于機器學(xué)習(xí)的腫瘤基因表達(dá)譜數(shù)據(jù)分析方法研究[D].中國礦業(yè)大學(xué),2018.穆輝宇.腫瘤基因特征選擇方法研究[D].河南師范大學(xué),2018.高凌云.基于機器學(xué)習(xí)和智能優(yōu)化的腫瘤基因表達(dá)數(shù)據(jù)挖掘研究[D].皖南醫(yī)學(xué)院,2018.曹丹.基于腫瘤基因表達(dá)譜數(shù)據(jù)的分類算法研究[D].湖南大學(xué),2015.于洋.基于基因表達(dá)譜的腫瘤特征基因選取研究[D].昆明理工大學(xué),2012.HuangC,HuangX,FangY,etal.Sampleimbalancediseaseclassificationmodelbasedonassociationrulefeatureselection.PatternRecognitLett,2020,133(1):280-286.GhiwaA,H.RA,FadiK.IdentifyingtheOpportunitiesandChallengesofProjectBundling:ModelingandDiscoveringKeyPatternsUsingUnsupervisedMachineLearning[J].JournalofInfrastructureSystems,2024,30(1):XinyiC,XiangL,YukeW,etal.Researchrelatedtothediagnosisofprostatecancerbasedonmachinelearningmedicalimages:Areview.[J].Internationaljournalofmedicalinformatics,2023,181105279-105279.LuyangL,XianmeiY,XuemingC,etal.TheeffectsofBeauveriabassianainfectiononthegeneexpressionprofilesofDiaphorinacitriadults[J].BiologicalControl,2023,187宋健,孟凱強,沈舒文等.基于Python構(gòu)建機器學(xué)習(xí)探究中藥治療胃癌通路決策樹的規(guī)律性[J].世界中西醫(yī)結(jié)合雜志,2024,19(02):225-232.姜超,馮哲,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 體檢機構(gòu)客戶拓展?fàn)I銷方案
- 電子元器件采購條款標(biāo)準(zhǔn)模板
- 混凝土結(jié)構(gòu)施工質(zhì)量控制流程
- 活性炭生產(chǎn)工藝及效能計算指南
- 英語形容詞搭配常用詞匯大全
- 工廠生產(chǎn)驗收質(zhì)量控制流程
- 三方合作協(xié)議書撰寫范本集
- 變動成本法會計練習(xí)題及解析
- 酒店客戶服務(wù)流程優(yōu)化與質(zhì)量管理
- 兒童安全教育課件及教學(xué)設(shè)計
- 2025貴州黔西南州民政局公益性崗位招聘模擬試卷及答案詳解(典優(yōu))
- DHCP課件講述教學(xué)課件
- 一國兩制課件
- 隔震支座安裝施工方案
- 中藥生物安全培訓(xùn)內(nèi)容課件
- 2024年武漢商學(xué)院公開招聘輔導(dǎo)員筆試題含答案
- 捶草印花課件
- vin碼打印管理辦法
- 銀行反電詐培訓(xùn)課件
- tesol考試的樣卷及答案
- DB32-T 5156-2025 零碳園區(qū)建設(shè)指南
評論
0/150
提交評論