




已閱讀5頁,還剩40頁未讀, 繼續(xù)免費閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第三講判別分析 0判別分析的問題 對于非度量 nonmetric 變量的研究 研究者對于預(yù)測和解釋一個對象所屬類別的關(guān)系感興趣 比如一家公司成功還是破產(chǎn) 1判別分析的基本思想 有時會遇到包含屬性解釋變量和幾個度量解釋變量的問題 這時需要選擇一種合適的分析方法 判別分析的假設(shè)條件 1 分組類型在兩組以上 在第一階段工作時每組案例的規(guī)模必須至少在一個以上 解釋變量必須是測量的 才能夠計算其平均值和方差 使其能夠合理的應(yīng)用與統(tǒng)計函數(shù) 2 每一個判別變量 解釋變量 不能是其他判別變量的線性組合 這時 為其他變量線性組合的判別變量不能提供新的信息 更重要的是在這種情況下無法估計判別函數(shù) 4 各判別變量之間具有多元正態(tài)分布 3 各組變量的協(xié)方差陣相等 判別分析最簡單和最常用的形式是線性判別函數(shù) 它們是判別變量的簡單線性組合 在各組協(xié)方差陣相等的假設(shè)條件下 可以用簡單的公式來計算判別函數(shù)和進(jìn)行顯著性檢驗 一兩總體情況 2距離判別分析 設(shè)有兩個總體G1和G2 x是一個p維樣品 若能定義兩總體G1和G2的距離d x G1 和d x G2 則可用如下的規(guī)則進(jìn)行判別 若樣品x到總體G1的距離小于到總體G2的距離 則認(rèn)為樣品屬于總體G1 反之 則以為樣品屬于總體G2 若樣品x到總體G1和G2的距離相等 則讓它待判 這個判別準(zhǔn)則的數(shù)學(xué)模型可做如下的描述 當(dāng)總體G1和G2為正態(tài)總體且協(xié)方差陣相等時 距離選用馬氏距離 即 分別為總體G1和G2的均值和 協(xié)方差陣 當(dāng)總體不是正態(tài)分布時 有時也可以用馬氏距離來描述樣本到總體的遠(yuǎn)近 于是判別規(guī)則為 這個規(guī)則取決于W x 的值 通常稱W x 為判別函數(shù) 由于它是線性函數(shù) 又稱為線性判別函數(shù) a為判別系數(shù) 類似于回歸系數(shù) 來自于G2的樣本 可以得到如下估計 其中 當(dāng)兩個總體協(xié)方差陣 1與 2不相等時 可用 作為判別函數(shù) 這時它是x的二次函數(shù) 二 多總體情況 1 協(xié)方差陣相同設(shè)有k個總體G1 Gk 它們的均值分別是 1 k 協(xié)方差陣均為 類似于兩總體的討論 判別函數(shù)為 i j 1 k 相應(yīng)的判別規(guī)則是 若 1 k 未知時 設(shè)從Ga中抽取的樣本為x1 a xna a a 1 k 則它們的估計為 2 協(xié)方差陣不相同 這時判別函數(shù)為 的估計是一致的 而 式中 Aa與協(xié)方差陣相同時的估計是一致 這時的判別規(guī)則為 例1從經(jīng)驗得知 可以用病人心電圖中的兩個指標(biāo)x1與x2來區(qū)分健康人 G1 主動脈硬化患者 G2 及冠心病患者 G3 三類人 其經(jīng)驗數(shù)據(jù)所示 見文件患者數(shù)據(jù) xls 一個病人的心電圖中x1 267 88 x2 10 66 該病人應(yīng)歸入哪一類 解 例2對破產(chǎn)的企業(yè)收集他們在破產(chǎn)前兩年的年度財務(wù)數(shù)據(jù) 同時對財務(wù)良好的企業(yè)也收集同一時期的數(shù)據(jù) 數(shù)據(jù)涉及四個變量 3Bayes判別 1貝葉斯統(tǒng)計的思想是 假定對研究的對象有一定的認(rèn)識 常用先驗概率分布來來描述這種認(rèn)識 然后得到一個樣本 用樣本來修正已有的認(rèn)識 先驗概率分布 得到后驗概率分布 各種統(tǒng)計推斷都通過后驗概率分布來進(jìn)行 將貝葉斯思想用于判別分析 就得到貝葉斯判別 設(shè)有k個總體G1 Gk 分別具有p維密度函數(shù) 已知出現(xiàn)這k個總體的先驗概率分布為q1 qk 建立相應(yīng)的判別函數(shù)和判別規(guī)則 例1設(shè)有和三個組 欲判別某樣品屬于何組 已知 現(xiàn)計算屬于各組的后驗概率 解 設(shè)有k個總體D1 Dk 分別具有Rp的一個劃分 即D1 Dk互不相交 且D1 Dk Rp 如果這個劃分取的適當(dāng) 正好對應(yīng)與k個總體 這時的判別規(guī)則可以采用如下方法 問題是如何得到這個劃分 用c j i 表示樣品來自于Gi而被誤判為Gj的損失 這一誤判的概率為 于是有以上判別規(guī)則 所帶來的平均損失為 2貝葉斯判別分析的基本方法 目的是求 使平均損失最小 假設(shè)有空間Rm 的平均損失 以貝葉斯判別的思想得到劃分D1 Dk為 當(dāng)抽取了一個未知總體的樣本值X 要判斷它屬于哪個總體 只要計算出k個按先驗分布加權(quán)的誤判平均損失 具體來說 在兩種劃分下的總平均損失達(dá)到極小 說明是貝葉斯判別的解 例3設(shè)有和三個組 欲判別某樣品屬于何組 已知 假定誤判損失矩陣為 4Fisher判別 Fisher判別的思想是投影 將k組p維數(shù)據(jù)投影到某一個方向 使得它們的投影組與組之間盡可能地分開 設(shè)從k個總體分別取得k組p維觀測值 令a為Rp中地任意向量 u x a x為x向以a為法線方向的投影 上述數(shù)據(jù)的投影為 正好組成方差分析的數(shù)據(jù) 其組間平方和為 組內(nèi)平方和 如果k組均值有差異 則 應(yīng)充分大 或者 應(yīng)充分大 所以可以求a 使得 a 達(dá)到最大 由于這個a不唯一 因為如果a使得 a 達(dá)到極大 則ca也使 a 達(dá)到極大 c為任意實數(shù) 由矩陣知識 a 的極大值為 1 它是 B E 0的最大特征根 l1 lr為相應(yīng)的特征向量 當(dāng)a l1 時 可使 a 達(dá)到最大 由于 a 的大小可衡量判別函數(shù)u x a x的效果 故稱 a 為判別效率 定理4 1費歇準(zhǔn)則下的線性判別函數(shù)u x a x的解a為方程 B E 0的最大特征根 1所對應(yīng)的特征向量l1 且相應(yīng)的判別效率為 1 1 在實際問題中 僅用一個線性判別函數(shù)不能很好的區(qū)別各個總體 可取 2對應(yīng)的特征向量l2 建立第二個判別函數(shù)l 2x 若u x l x為判別函數(shù) 則 u x 也為具有與u x 相同的判別函數(shù) 判別規(guī)則為 例3為研究一個城市的居民家庭 按有無割草機(jī)可以分為兩組 有割草機(jī)的一組記為1 無割草機(jī)的一組記為0 割草機(jī)工廠欲判斷一些家庭是否購買割草機(jī) 調(diào)查兩個指標(biāo) 家庭收入和房前屋后土地面積 試建立判別函數(shù) 割草機(jī) sav 5逐步判別 變量選擇的好壞直接影響判別的好壞 如果在某個判別問題中將主要的指標(biāo)忽略了 由此建立的判別函數(shù)其效果一定不好 在實際問題 事先并不十分清楚哪些指標(biāo)時是主要的 這時 是否將有關(guān)的指標(biāo)盡量的加入計算 理論和實踐證明 指標(biāo)太多 不僅帶來大量的計算而且許多對判別無用指標(biāo)反而會干擾我們的視線 因此適當(dāng)篩選變量就成為一個很重要的問題 凡具有篩選變量能力的判別方法稱為逐步判別法 逐步判別法的原則 在x1 xm 即m個自變量 中選出一個變量 它使 維爾克斯統(tǒng)計量達(dá)到最小 假定首先挑選的變量次序是按自然的次序 即第r步正好選中xr 第一步選中x1 如不顯著 則表明一個變量不選 不能用判別分析 如顯著 則進(jìn)入下一步 仿此 如已入選r個變量 不妨設(shè)為x1 xr 則在未選中 的變量中逐次選一個與它們進(jìn)行配合 計算 1i r l m 選擇使上式達(dá)到最小的變量作為第r 1個變量 進(jìn)行檢驗 配合的 1值 選擇使 1i達(dá)到最小的作為第二個變量 2 在未選中的變量中 計算它們與已選中的變量x1 3 在已選入的r個變量 要考慮較早選中的變量其重要性是否發(fā)生變化 應(yīng)及時把不能提供附加信息的變量剔除出去 4 最后即不能引進(jìn)變量也不能剔除變量 根據(jù)已選中的變量建立判別函數(shù) 6判別分析方法步驟 一 判別分析的對象 研究目的 1 確定在兩個或者更多事先定義的組上的一組變量的均值是否存在顯著性差異 2 確定哪些變量在兩個或更多組的平均得分剖面的的差異中解釋最多 3 在一組變量得分的基礎(chǔ)上 建立將對象分類的步驟 根據(jù)目的 對于組間差異或者正確地將個體進(jìn)行分類歸類感興趣 進(jìn)行判別分析 4 建立由這兩組變量形成的組與組之間判別維數(shù)的數(shù)目與構(gòu)成 二 判別分析的研究設(shè)計 1 解釋變量與被解釋變量的選擇 2 樣本容量 3 樣本的分割 三 判別分析的假定 四 估計判別模型和評估整體擬合 1 計算方法 2 統(tǒng)計顯著性 3 評估整體擬合 1 計算判別z得分 根據(jù)判別函數(shù) 可以建立判別z得分的值 式中 Zjk為對象k對判別函數(shù)j的判別得分 a為截距 Wi為解釋變量i的判別權(quán)重 Xik為對象k的解釋變量i 2 檢驗組的差異 一種評估整體擬合的方法式根據(jù)判別z得分 確定各組的差異大小 各組差異的綜合測量是比較組的重心 判別分析中每個觀測是通過它是否被正確歸類來評價的 考慮 利用分類矩陣的統(tǒng)計和實際的基本原理 分割點的確定 分類矩陣的構(gòu)造和評價分類精度的標(biāo)準(zhǔn) 判別函數(shù)的顯著性檢驗并沒有說明函數(shù)擬合有多好 如果判別檢驗顯示判別函數(shù)顯著通常構(gòu)造分類矩陣來提供判別函數(shù)的判別效力的更精確的估計 3 評價組關(guān)系預(yù)測的精度 首先臨界得分 每個觀測得分與臨界得分相比較來確定個體應(yīng)分到哪一類中 臨界得分 最優(yōu)臨界得分因各組大小是否相等而不同如果兩組是相同的大小 最優(yōu)臨界得分是兩組的重心的中點 臨界最優(yōu)得分定義為 各組不是相等的大小 但可假定可以代表總體部分 加權(quán)的組的重心可以為判別函數(shù)最優(yōu)臨界得分 所有計算臨界得分的公式都是假定正態(tài)分布和已知組的協(xié)方差結(jié)構(gòu) 可以用偏Q統(tǒng)計量來檢驗分類矩陣的判別效力 評估模型擬合的最后一個方法是在每個觀測的基礎(chǔ)上研究預(yù)測結(jié)果 目的是理解被錯判的觀測和不是該組代表的觀測 五 結(jié)果解釋 推薦用 1 標(biāo)準(zhǔn)化判別權(quán)重 2 判別載荷 3 偏F值 研究預(yù)測結(jié)果 目的是理解被錯判的觀測和不是該組代表的觀測 解釋問題 首先能簡化判別權(quán)重或載荷以利于刻畫判別函數(shù) 如何表示解釋變量對判別函數(shù)的影響 當(dāng)保留兩個或兩個以上的判別函數(shù)時需要一個綜合的量來描述一個變量對所有顯著函數(shù)的貢獻(xiàn) 能力指數(shù)是反映每個變量判別能力的相對指標(biāo) 它包括一個變量對判別函數(shù)的貢獻(xiàn) 判別載荷 又包含一個方程對整個解的相對貢獻(xiàn) 對方程特征根的相對測量 綜合指數(shù)只對有顯著性的判別函數(shù)上的個體能力指數(shù)之和 綜合指數(shù)僅當(dāng)每個變量的相對重要性時是有用的 能力指數(shù)計算 第一步 計算每個顯著的判別函數(shù)的能力值
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 商城會員注冊協(xié)議3篇
- 社區(qū)區(qū)域性工資專項集體合同3篇
- 遂寧市中心醫(yī)院醫(yī)藥產(chǎn)品廉潔購銷合同5篇
- 技術(shù)股東合作協(xié)議書樣本6篇
- 汽車修理廠承包維修合同書(標(biāo)準(zhǔn)版)8篇
- 002-大外研究生模板合同4篇
- 海南種植轉(zhuǎn)讓合同范本
- 采購家具合同范本6
- 租賃采購合同范本
- 廣告耗材訂購合同范本
- 2025年金鑰匙科技知識競賽試題及答案
- 居家養(yǎng)老服務(wù)方案投標(biāo)文件(技術(shù)方案)
- 2025年山西輔警面試題及答案
- AI 智能體運行安全測試標(biāo)準(zhǔn)(英文)
- 缺血性腦血管病護(hù)理常規(guī)
- 大學(xué)生新生入學(xué)心理健康指南
- 就業(yè)能力展示-宣講
- 革命人物介紹課件
- 神經(jīng)內(nèi)科常規(guī)用藥課件
- 傳染病處置規(guī)范與流程
- 乙肝dna檢測培訓(xùn)課件
評論
0/150
提交評論