




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
醫(yī)學(xué)信息的管理數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘概念數(shù)據(jù)挖掘——從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。數(shù)據(jù)挖掘是從數(shù)據(jù)中自動(dòng)地抽取模式、關(guān)聯(lián)、變化、異常和有意義的結(jié)構(gòu);數(shù)據(jù)挖掘大部分的價(jià)值在于利用數(shù)據(jù)挖掘技術(shù)改善預(yù)測(cè)模型。數(shù)據(jù)挖掘系統(tǒng)礦山(數(shù)據(jù))挖掘工具(算法)金子(知識(shí))醫(yī)學(xué)數(shù)據(jù)挖掘系統(tǒng)數(shù)據(jù)庫(kù)管理模塊挖掘前處理模塊挖掘操作模塊模式評(píng)估模塊知識(shí)輸出模塊數(shù)據(jù)挖掘流程確定目標(biāo)對(duì)現(xiàn)有資源評(píng)估,確定問(wèn)題是否能夠通過(guò)數(shù)據(jù)挖掘來(lái)解決,確定數(shù)據(jù)挖掘的目標(biāo),制定數(shù)據(jù)挖掘計(jì)劃數(shù)據(jù)理解確定數(shù)據(jù)挖掘所需要的數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行描述,數(shù)據(jù)的初步探索,檢查數(shù)據(jù)的質(zhì)量數(shù)據(jù)準(zhǔn)備選擇數(shù)據(jù),清理數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行重建,調(diào)整數(shù)據(jù)格式使之適合建模數(shù)據(jù)挖掘流程確定方法和工具對(duì)各個(gè)模型進(jìn)行評(píng)價(jià),選擇數(shù)據(jù)挖掘模型,建立模型結(jié)果分析評(píng)估數(shù)據(jù)挖掘的結(jié)果,對(duì)整個(gè)數(shù)據(jù)挖掘過(guò)程的前面步驟進(jìn)行評(píng)估,確定下一步怎么辦?是發(fā)布模型?還是對(duì)數(shù)據(jù)挖掘過(guò)程進(jìn)行進(jìn)一步的調(diào)整,產(chǎn)生新的模型知識(shí)的運(yùn)用把數(shù)據(jù)挖掘模型的結(jié)果送到相應(yīng)的管理人員手中,對(duì)模型進(jìn)行日常的監(jiān)測(cè)和維護(hù),定期更新數(shù)據(jù)挖掘模型原始信息數(shù)據(jù)集成數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)挖掘目標(biāo)數(shù)據(jù)知識(shí)發(fā)現(xiàn)知識(shí)數(shù)據(jù)準(zhǔn)備數(shù)據(jù)挖掘結(jié)果表達(dá)可擴(kuò)展性的體系結(jié)構(gòu)管理信息系統(tǒng)HIS電子病歷EMRCIS階段社區(qū)居民健康檔案探索數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)挖掘算法庫(kù)模型庫(kù)醫(yī)學(xué)數(shù)據(jù)的分析行業(yè)應(yīng)用知識(shí)信息系統(tǒng)數(shù)據(jù)挖掘應(yīng)用服務(wù)器行業(yè)客戶端數(shù)據(jù)挖掘應(yīng)用平臺(tái)醫(yī)學(xué)數(shù)據(jù)在數(shù)據(jù)挖掘中的應(yīng)用數(shù)據(jù)挖掘在醫(yī)院管理部門(mén)的應(yīng)用數(shù)據(jù)挖掘在基礎(chǔ)醫(yī)學(xué)領(lǐng)域的應(yīng)用在疾病的臨床診斷和治療方面的應(yīng)用在流行病方面的預(yù)測(cè)在藥物研究開(kāi)發(fā)中的應(yīng)用醫(yī)學(xué)數(shù)據(jù)數(shù)據(jù)處理數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)挖掘結(jié)果分析是否滿意重新決定掘方法、方向療效評(píng)價(jià)知識(shí)YesNo醫(yī)學(xué)數(shù)據(jù)挖掘常用技術(shù)決策樹(shù)神經(jīng)網(wǎng)絡(luò)關(guān)聯(lián)規(guī)則OLAP聯(lián)機(jī)規(guī)則粗糙集理論傳統(tǒng)統(tǒng)計(jì)方法決策樹(shù)決策樹(shù)方法(decisiontree)是通過(guò)一系列規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類(lèi)的過(guò)程。尋找數(shù)據(jù)庫(kù)中具有最大信息量的屬性字段,建立決策樹(shù)的一個(gè)節(jié)點(diǎn),再根據(jù)該屬性字段的不同取值建立樹(shù)的分支,在每個(gè)分支子集中重復(fù)建立樹(shù)的下層節(jié)點(diǎn)和分支的過(guò)程。方塊代表決策節(jié)點(diǎn)從它引出的分枝叫方案分枝。每條分枝代表一個(gè)方案。圓圈代表方案的節(jié)點(diǎn),從它引出的概率分枝,每條概率分枝上標(biāo)明了自然狀態(tài)及其發(fā)生的概率。概率分枝數(shù)反映了該方案面對(duì)的可能的狀態(tài)數(shù)。123決策結(jié)點(diǎn)方案分枝方案分枝狀態(tài)節(jié)點(diǎn)狀態(tài)節(jié)點(diǎn)概率分枝概率分枝概率分枝概率分枝結(jié)果結(jié)果結(jié)果結(jié)果決策樹(shù)結(jié)構(gòu)圖1感染手術(shù)死亡存活完全康復(fù)0年0年3年10年6年6年P(guān)r=0.05手術(shù)存活不手術(shù)行動(dòng)不便行動(dòng)不便死亡Pr=0.95無(wú)感染Pr=0.05Pr=0.95Pr=0.05Pr=0.95Pr=0.6Pr=0.4決策樹(shù)應(yīng)用決策樹(shù)在犯罪分析中的應(yīng)用
有無(wú)固定職業(yè)家庭經(jīng)濟(jì)狀況年齡文化程度有無(wú)特長(zhǎng)社會(huì)關(guān)系犯罪記錄違法記錄家庭和睦狀況犯罪記錄次數(shù)是否經(jīng)常賭博犯罪程度無(wú)差30-40初中否有差有4是嚴(yán)重有中20-30中專(zhuān)否無(wú)差無(wú)0是較輕有差<20高中否無(wú)中無(wú)1否較輕無(wú)差30-40初中有無(wú)中有1是嚴(yán)重?zé)o差>40初中有有差無(wú)2是嚴(yán)重有差20-30高中有有中有6是嚴(yán)重有差20-30中專(zhuān)否無(wú)中有1否較輕有差30-40大專(zhuān)有有差無(wú)3是嚴(yán)重?zé)o中<20初中有無(wú)好有5是嚴(yán)重?zé)o差20-30初中否有差無(wú)0否嚴(yán)重有好<20高中否無(wú)差有1否較輕無(wú)差30-40初中有無(wú)中有0是嚴(yán)重?zé)o中30-40初中否無(wú)差有1是較輕有差>40小學(xué)否有中無(wú)2否嚴(yán)重?zé)o差>40初中否無(wú)差無(wú)0否嚴(yán)重?zé)o差30-40高中否無(wú)好無(wú)4否較輕無(wú)好20-30中專(zhuān)有無(wú)差有2否較輕犯罪潛在風(fēng)險(xiǎn)決策樹(shù)
常用挖掘技術(shù)——神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)模型
神經(jīng)網(wǎng)絡(luò)模型是一個(gè)在神經(jīng)網(wǎng)絡(luò)研究和應(yīng)用中經(jīng)常提到的概念。所謂神經(jīng)網(wǎng)絡(luò)模型,它是關(guān)于一個(gè)神經(jīng)網(wǎng)絡(luò)的綜合描述和整體概念,包括網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)、輸入輸出信號(hào)類(lèi)型、信息傳遞方式、神經(jīng)元特性函數(shù)、學(xué)習(xí)方式、學(xué)習(xí)算法等等。截止目前,人們已經(jīng)提出了上百種神經(jīng)網(wǎng)絡(luò)模型生物神經(jīng)元神經(jīng)元指神經(jīng)細(xì)胞,是生物神經(jīng)系統(tǒng)的最基本的單元。由細(xì)胞體、樹(shù)突和軸突組成。細(xì)胞體是神經(jīng)元的主體,由細(xì)胞核、細(xì)胞質(zhì)和細(xì)胞膜三部分構(gòu)成。從細(xì)胞體向外延伸出許多突起,其中大部分突起呈樹(shù)狀,稱(chēng)為樹(shù)突。樹(shù)突起感受作用,接受來(lái)自其他神經(jīng)元的傳遞信號(hào);由細(xì)胞體伸出的一條最長(zhǎng)的突起,用來(lái)傳出細(xì)胞體產(chǎn)生的輸出信號(hào),稱(chēng)為軸突;軸突末端形成許多細(xì)的分枝,叫做神經(jīng)末梢;每一條神經(jīng)末梢可以與其他神經(jīng)元形成功能性接觸,該接觸部位稱(chēng)為突觸。所謂功能性接觸是指并非永久性接觸,它是神經(jīng)元之間信息傳遞的奧秘之處。人工神經(jīng)元
對(duì)生物神經(jīng)元作以適當(dāng)?shù)慕Y(jié)構(gòu)簡(jiǎn)化和功能抽象,就得到所謂的人工神經(jīng)元。人工神經(jīng)元的結(jié)構(gòu)模型如圖所示。它是一個(gè)多輸入單輸出的非線性閾值器件。其中x1,x2,…xn表示神經(jīng)元的n個(gè)輸入信號(hào)量;w1,w2,…,wn表示對(duì)應(yīng)輸入的權(quán)值,它表示各信號(hào)源神經(jīng)元與該神經(jīng)元的連接強(qiáng)度;A表示神經(jīng)元的輸入總和,它相應(yīng)于生物神經(jīng)細(xì)胞的膜電位,稱(chēng)為激活函數(shù);y為神經(jīng)元的輸出;θ表示神經(jīng)元的閾值。神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)
學(xué)習(xí)(亦稱(chēng)訓(xùn)練)是神經(jīng)網(wǎng)絡(luò)的最重要特征之一。神經(jīng)網(wǎng)絡(luò)能夠通過(guò)學(xué)習(xí),改變其內(nèi)部狀態(tài),使輸入—輸出呈現(xiàn)出某種規(guī)律性。網(wǎng)絡(luò)學(xué)習(xí)一般是利用一組稱(chēng)為樣本的數(shù)據(jù),作為網(wǎng)絡(luò)的輸入(和輸出),網(wǎng)絡(luò)按照一定的訓(xùn)練規(guī)則(又稱(chēng)學(xué)習(xí)規(guī)則或?qū)W習(xí)算法)自動(dòng)調(diào)節(jié)神經(jīng)元之間的連接強(qiáng)度或拓?fù)浣Y(jié)構(gòu),當(dāng)網(wǎng)絡(luò)的實(shí)際輸出滿足期望的要求,或者趨于穩(wěn)定時(shí),則認(rèn)為學(xué)習(xí)成功。學(xué)習(xí)規(guī)則神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過(guò)程就是不斷調(diào)整網(wǎng)絡(luò)的連接權(quán)值,以獲得期望的輸出的過(guò)程。所以,學(xué)習(xí)規(guī)則就是權(quán)值修正規(guī)則。
BP(BackPropagation)網(wǎng)絡(luò)是應(yīng)用最廣泛的一種神經(jīng)網(wǎng)絡(luò)模型。若干層神經(jīng)元組成,有輸入層、中間層(又稱(chēng)隱層,可有一層或多層)和輸出層,各層順序連接;信息嚴(yán)格地按照從輸入層進(jìn),經(jīng)過(guò)中間層,從輸出層出的方向流動(dòng)。學(xué)習(xí)過(guò)程參數(shù)設(shè)置初始化權(quán)值和閾值訓(xùn)練周期數(shù)計(jì)算并保存各網(wǎng)絡(luò)層的輸出計(jì)算并保存?zhèn)鬟f誤差修正并保存權(quán)值和閾值是否滿足精度是否結(jié)論神經(jīng)網(wǎng)絡(luò)程序界面應(yīng)用樣例常用挖掘技術(shù)——關(guān)聯(lián)規(guī)則在兩個(gè)或多個(gè)變量之間存在著的相關(guān)關(guān)系規(guī)則,稱(chēng)為關(guān)聯(lián)性關(guān)聯(lián)分析用于發(fā)現(xiàn)隱藏在大型數(shù)據(jù)集中的令人感興趣的聯(lián)系關(guān)聯(lián)規(guī)則挖掘是從大量數(shù)據(jù)中挖掘出描述數(shù)據(jù)之間相互聯(lián)系的有價(jià)值的相關(guān)知識(shí)“尿布與啤酒”——典型關(guān)聯(lián)分析案例采用關(guān)聯(lián)模型比較典型的案例是“尿布與啤酒”的故事。在美國(guó),一些年輕的父親下班后經(jīng)常要到超市去買(mǎi)嬰兒尿布,超市也因此發(fā)現(xiàn)了一個(gè)規(guī)律,在購(gòu)買(mǎi)嬰兒尿布的年輕父親們中,有30%~40%的人同時(shí)要買(mǎi)一些啤酒。超市隨后調(diào)整了貨架的擺放,把尿布和啤酒放在一起,明顯增加了銷(xiāo)售額。同樣的,還可以根據(jù)關(guān)聯(lián)規(guī)則在商品銷(xiāo)售方面做各種促銷(xiāo)活動(dòng)。購(gòu)物籃分析在商店中所有商品的集合中,對(duì)每種商品都可以用一個(gè)布爾量來(lái)表示該商品是否被顧客購(gòu)買(mǎi),則每個(gè)購(gòu)物籃都可以用一個(gè)布爾向量表示;而通過(guò)分析布爾向量則可以得到商品被頻繁關(guān)聯(lián)或被同時(shí)購(gòu)買(mǎi)的模式,這些模式就可以用關(guān)聯(lián)規(guī)則表示關(guān)聯(lián)規(guī)則:?jiǎn)栴}描述為了簡(jiǎn)潔的表示商品銷(xiāo)售的關(guān)聯(lián)規(guī)則,用以下圖示表示:
{左邊商品集合}→{右邊商品集合}左邊商品集合又稱(chēng)為L(zhǎng)eftHandSet,簡(jiǎn)稱(chēng)LHS,類(lèi)似的,右邊商品集合又稱(chēng)為RightHandSet,簡(jiǎn)稱(chēng)RHS。例如:
{尿布}→{啤酒}
{啤酒、尿布}→{奶酪、巧克力}關(guān)聯(lián)規(guī)則:評(píng)判規(guī)則的標(biāo)準(zhǔn)支持度支持度(Support)指的是LHS和RHS所包括的商品都同時(shí)出現(xiàn)的概率。即:包含規(guī)則,LHS和RHS商品的交易次數(shù)/總的交易次數(shù)。置信度可信度(Confidence)是指在所有的購(gòu)買(mǎi)了左邊商品的交易中,同時(shí)又購(gòu)買(mǎi)了右邊商品的交易機(jī)率。即,包含規(guī)則兩邊商品的交易次數(shù)/包含規(guī)則左邊商品的交易次數(shù)。關(guān)聯(lián)規(guī)則:評(píng)判規(guī)則的標(biāo)準(zhǔn)提升度提升度指的是兩種可能性的比較:一種是在已知購(gòu)買(mǎi)了左邊商品情況下購(gòu)買(mǎi)右邊商品的可能性,另一種是任意情況下購(gòu)買(mǎi)右邊商品的可能性。兩種可能性比較方式可以定義為兩種可能性的概率之差值,或者兩種可能性的概率之比值。在SAS軟件中定義的提升度為兩種可能性的概率之比值。即規(guī)則的可信度/包含規(guī)則右邊商品的交易次數(shù)占總交易量的比例。關(guān)聯(lián)規(guī)則:評(píng)判規(guī)則的標(biāo)準(zhǔn)例:假設(shè)數(shù)據(jù)庫(kù)中銷(xiāo)售商品的交易次數(shù)為1000次,在這些交易中購(gòu)買(mǎi)尿布的交易量為200次,購(gòu)買(mǎi)啤酒的交易量為50次,同時(shí)購(gòu)買(mǎi)尿布和啤酒的交易量為20次。那么規(guī)則:{尿布}→{啤酒}的提升度是多少?(1)包含啤酒的交易次數(shù)占總交易次數(shù)的比例=50/1000=5%(2){尿布}→{啤酒}的信任度=20/200=10%(3)提升度=10%/5%=2總結(jié):提升度高于1意味著當(dāng)顧客購(gòu)買(mǎi)了尿布,他們有較高的可能性去購(gòu)買(mǎi)啤酒。如果提升度小于1意味著啤酒本身就是一個(gè)暢銷(xiāo)產(chǎn)品,并不是因?yàn)槟虿嫉匿N(xiāo)售促進(jìn)了其銷(xiāo)售量。關(guān)聯(lián)規(guī)則醫(yī)學(xué)應(yīng)用基因分析中DNA序列間相似搜索與比較用于識(shí)別同時(shí)出現(xiàn)的基因序列患者生理參數(shù)分析疾病相關(guān)因素分析疾病預(yù)測(cè)常用挖掘技術(shù)——OLAP聯(lián)機(jī)規(guī)則隨著數(shù)據(jù)庫(kù)技術(shù)的發(fā)展和應(yīng)用,數(shù)據(jù)庫(kù)存儲(chǔ)的數(shù)據(jù)量迅速增加用戶的查詢(xún)需求也越來(lái)越復(fù)雜,涉及的已不僅是查詢(xún)或操縱一張關(guān)系表中的一條或幾條記錄,而且要對(duì)多張表中千萬(wàn)條記錄的數(shù)據(jù)進(jìn)行數(shù)據(jù)分析和信息綜合關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)已不能全部滿足要求。軟件生產(chǎn)商推出:共享多維信息的、針對(duì)特定問(wèn)題的聯(lián)機(jī)數(shù)據(jù)訪問(wèn)和分析的快速軟件技術(shù)。
聯(lián)機(jī)分析處理
(OLAP)的概念最早是由關(guān)系數(shù)據(jù)庫(kù)之父E.F.Codd于1993年提出的,他同時(shí)提出了關(guān)于OLAP的12條準(zhǔn)則。
準(zhǔn)則1OLAP模型必須提供多維概念視圖
準(zhǔn)則2透明性準(zhǔn)則
準(zhǔn)則3存取能力推測(cè)
準(zhǔn)則4穩(wěn)定的報(bào)表能力
準(zhǔn)則5客戶/服務(wù)器體系結(jié)構(gòu)
準(zhǔn)則6維的等同性準(zhǔn)則
準(zhǔn)則7動(dòng)態(tài)的稀疏矩陣處理準(zhǔn)則
準(zhǔn)則8多用戶支持能力準(zhǔn)則
準(zhǔn)則9非受限的跨維操作
準(zhǔn)則10直觀的數(shù)據(jù)操縱
準(zhǔn)則11靈活的報(bào)表生成
準(zhǔn)則12不受限的維與聚集層次OLAP數(shù)據(jù)維描述不同的用戶可以根據(jù)需要從不同的角度去分析同樣的數(shù)據(jù)常用挖掘技術(shù)——粗糙集理論粗糙集(roughset)理論由Zdziskew
Pawlak在1982年提出,它是一種新的數(shù)學(xué)工具,用于處理含糊性和不確定性。大數(shù)據(jù)集、高效約簡(jiǎn)算法、并行計(jì)算以及混合算法研究是粗糙集在數(shù)據(jù)挖掘中探討的問(wèn)題。粗糙集理論的應(yīng)用前
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 艦艇通信應(yīng)急預(yù)案
- 2025年高二物理上學(xué)期運(yùn)算求解能力測(cè)試
- 2025年高二物理上學(xué)期物理與智慧城市試題
- 2025年氣候變化對(duì)農(nóng)業(yè)產(chǎn)出的影響預(yù)測(cè)
- 2025年高二物理上學(xué)期“探索物質(zhì)世界的波動(dòng)與粒子性”主題測(cè)試
- 2025年自動(dòng)駕駛技術(shù)的自動(dòng)駕駛安全性研究
- 2024年電磁功能材料精密加工輔助材料投資申請(qǐng)報(bào)告代可行性研究報(bào)告
- 商場(chǎng)冰雹應(yīng)急預(yù)案
- 2025年貴州綜合知識(shí)題庫(kù)及答案
- 技校招工考試題型及答案
- 2024年全國(guó)巾幗家政服務(wù)職業(yè)技能大賽(收納師)理論考試題庫(kù)(含答案)
- 部編版四年級(jí)語(yǔ)文上冊(cè)第六單元教學(xué)分析及全部備課教案(共6份教案)
- DB23T 3719-2024 火災(zāi)調(diào)查物證提取與管理
- 全國(guó)學(xué)科專(zhuān)業(yè)目錄及名稱(chēng)代碼表
- 項(xiàng)目安全管理考核表
- 食品生產(chǎn)企業(yè)安全檢查表含日管控、周排查及月調(diào)度檢查記錄表
- 單病種住院診療費(fèi)用控制表
- 2023年工業(yè)地產(chǎn)市場(chǎng)分析報(bào)告
- 老舊小區(qū)改造監(jiān)理實(shí)施細(xì)則
- 禮品售后服務(wù)承諾書(shū)
- 音樂(lè)治療和心理劇演出你內(nèi)心的音樂(lè)
評(píng)論
0/150
提交評(píng)論