Logistic回歸分析34273講課文檔_第1頁
Logistic回歸分析34273講課文檔_第2頁
Logistic回歸分析34273講課文檔_第3頁
Logistic回歸分析34273講課文檔_第4頁
Logistic回歸分析34273講課文檔_第5頁
已閱讀5頁,還剩34頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

Logistic回歸分析34273第1頁,共39頁。9.1Logistic回歸分析概述問題1:研究消費(fèi)者的不同特征如何影響是否購買小轎車時(shí),消費(fèi)者的年齡、年收入、職業(yè)、性別等因素將作為解釋變量,是否購買作為被解釋變量,此時(shí)的被解釋變量是一個(gè)二分類變量。問題2:在研究消費(fèi)者特征對某種商品的品牌選擇取向時(shí),品牌作為被解釋變量,由于候選品牌多樣,因此是一個(gè)多分類問題。2第2頁,共39頁。問題3:在流行病學(xué)的研究中,有一類常見問題是探索某疾病的危險(xiǎn)因素,同時(shí)根據(jù)危險(xiǎn)因素預(yù)測某疾病發(fā)生的概率。例如,想探討胃癌發(fā)生的危險(xiǎn)因素,選擇兩組人群,一組胃癌患者,另一組非胃癌患者,這形成了因變量。兩組人群肯定有不同的體征和生活方式,自變量可以包括很多,例如:年齡、性別、飲食習(xí)慣、幽門螺桿菌感染等。注:以上問題的共同點(diǎn)是因變量不是連續(xù)型變量,而是分類變量。3第3頁,共39頁。若因變量是被解釋變量,則一般線性模型會出現(xiàn)以下問題:對于任意給定的值,殘差也變成了離散型變量,不是正態(tài)分布,因此導(dǎo)致無法進(jìn)行相應(yīng)的統(tǒng)計(jì)推斷。對于任意給定的值,殘差也不再滿足即當(dāng)被解釋變量出現(xiàn)分類變量時(shí),如果建立普通的回歸模型會違背回歸模型的前提假設(shè)。此時(shí)采用的建模4第4頁,共39頁。方法是Logistic回歸分析。Logistic回歸分析二項(xiàng)Logistic回歸分析:Y為二分類多項(xiàng)Logistic回歸分析:Y為多分類5第5頁,共39頁。1967年TrueltJ,ConnifieldJ和KannelW在《JournalofChronicDisease》上發(fā)表了冠心病危險(xiǎn)因素的研究,較早將Logistic回歸用于醫(yī)學(xué)研究。6第6頁,共39頁。9.2二項(xiàng)Logistic回歸分析二項(xiàng)Logistic回歸方程:設(shè),稱為發(fā)生比(Odds)或相對風(fēng)險(xiǎn),則定義7第7頁,共39頁。模型的評價(jià):二項(xiàng)Logistic回歸模型很好的體現(xiàn)了概率P值和解釋變量之間的非線性關(guān)系。二項(xiàng)Logistic回歸模型本質(zhì)是一個(gè)二分類的線性概率模型。通過模型計(jì)算P(Y=1)和P(Y=0)的概率,經(jīng)過比較兩個(gè)概率的大小,可以對樣本進(jìn)行類別預(yù)測。8第8頁,共39頁。發(fā)生比(相對風(fēng)險(xiǎn),勝算,odds)的意義:Odds:

某事件發(fā)生概率與不發(fā)生概率之

比。例如:考上大學(xué)的概率為0.25,則考上大學(xué)的odds為0.25/0.75=0.3333:1=1:3,可以解釋為考上與考不上之比為1:3同理,可以計(jì)算考不上大學(xué)的odds為0.75/0.25=3:1,可以解釋為考不上與考上之比為1:39第9頁,共39頁。相對風(fēng)險(xiǎn)比(勝算比,oddsratio)的意義0ddsratio:在自變量處于不同的水平時(shí)的勝算,加以比較(兩個(gè)勝算的比值),稱為勝算比。例如:大公司成功經(jīng)營的概率為10/11,小公司成功經(jīng)營的概率為2/13,則大公司成功經(jīng)營的勝算為(10/11)/(1/11)=10小公司成功經(jīng)營的勝算為(2/13)/(11/13)=0.182即Oddsratio=10/0.182=55,即可以解釋為大公司的成功勝算為小公司成功勝算的55倍。10第10頁,共39頁。二項(xiàng)Logistic回歸方程系數(shù)的含義:

因?yàn)?,?dāng)自變量增加一個(gè)單位時(shí),則有于是:即表明:當(dāng)其它解釋條件不變時(shí),增加一個(gè)單位時(shí)所導(dǎo)致的相對風(fēng)險(xiǎn)是原來相對風(fēng)險(xiǎn)的倍。即控制其它變量不變時(shí),x增加一個(gè)單位的相對風(fēng)險(xiǎn)比即x在不同水平時(shí)的,二者的Oddsradio是。11第11頁,共39頁。二項(xiàng)Logistic回歸方程的參數(shù)估計(jì):一般的線性回歸模型適合于使用最小二乘法進(jìn)行估計(jì),但是,由于Logistic回歸模型中隨機(jī)擾動項(xiàng)并不滿足經(jīng)典假設(shè),所以需要使用極大似然法估計(jì)。估計(jì)就是使Ln(L)達(dá)到最大的。12第12頁,共39頁。二項(xiàng)Logistic回歸方程的檢驗(yàn)回歸方程的顯著性檢驗(yàn)?zāi)康模簷z驗(yàn)解釋變量全體與LogitP

的線性關(guān)系是否顯著,是否可以用線性模型擬合。檢驗(yàn)思想:設(shè)沒有引入任何解釋變量的回歸方程的似然函數(shù)為,引入解釋變量之后回歸方程的似然函數(shù)值為,則似然比為。顯然,,且越接近于1,則表明模型中的解釋變量對模型總體沒有顯著貢獻(xiàn);反之,越接近于0,則表明引入變量對模型具有顯著貢獻(xiàn)。13第13頁,共39頁。方法:似然比卡方檢驗(yàn)統(tǒng)計(jì)量的觀測值越大越好,或觀測值對應(yīng)的概率p值,p<a,拒絕原假設(shè),認(rèn)為回歸方程整體顯著;p>a,接受原假設(shè),認(rèn)為回歸方程整體不顯著。14第14頁,共39頁。回歸系數(shù)的顯著性檢驗(yàn)?zāi)康模盒枰獙γ總€(gè)回歸系數(shù)的顯著性進(jìn)行檢驗(yàn)。檢驗(yàn)思想:通過構(gòu)造Wald統(tǒng)計(jì)量進(jìn)行檢驗(yàn),Wald統(tǒng)計(jì)量和似然比統(tǒng)計(jì)量都是極大似然估計(jì)方法中常用的檢驗(yàn)統(tǒng)計(jì)量。方法:15第15頁,共39頁。模型擬合優(yōu)度的評價(jià)與檢驗(yàn)?zāi)康模旱谝?,回歸方程能夠解釋被解釋變量變差的程度,即線性回歸的部分能解釋LogitP的程度,這一點(diǎn)與一般線性回歸分析是相同的;第二,由回歸方程得到的概率進(jìn)行分別判別的準(zhǔn)確率。方法:第一目的:統(tǒng)計(jì)量和

統(tǒng)計(jì)量第二目的:混淆矩陣(錯(cuò)判矩陣)和

Hosmer-Lemeshow檢驗(yàn)16第16頁,共39頁。

統(tǒng)計(jì)量=,N為樣本容量。

該統(tǒng)計(jì)量類似于一般線性模型中的R方,統(tǒng)計(jì)量的值越大表明模型的擬合優(yōu)度越高。不足之處在于其取值范圍無法確定,不利于模型之間的比較。

統(tǒng)計(jì)量=該統(tǒng)計(jì)量的取值范圍為0~1,值越大表明模型擬合程度越高,越接近于0說明模型擬合優(yōu)度越低。17第17頁,共39頁?;煜仃嚕ㄥe(cuò)判矩陣)總體正確率代表了預(yù)測正確的樣本所占的比例,當(dāng)然該值越大表明預(yù)測能力越強(qiáng)。錯(cuò)判矩陣是一種常用的評價(jià)各種分類判別模型優(yōu)劣的方法。18第18頁,共39頁。Hosmer—Lemeshow檢驗(yàn):通過模型可以計(jì)算出給定解釋變量取值時(shí)被解釋變量取1的概率預(yù)測。如果模型擬合較好,則應(yīng)給實(shí)際值為1的樣本以較高的概率,給實(shí)際值為0的樣本以低的概率預(yù)測值。于是對概率預(yù)測值進(jìn)行分位數(shù)分組(通常為10分位數(shù),將樣本分為10組),預(yù)測概率大小分得的10組和實(shí)際觀測值0/1類別分組形成了交叉列聯(lián)表。由觀測頻數(shù)和期望頻數(shù)計(jì)算卡方統(tǒng)計(jì)量,即Hosmer—Lemeshow統(tǒng)計(jì)量,它服從自由度為n-2的卡方分布,n為組數(shù)。19第19頁,共39頁。20第20頁,共39頁。Hosmer—Lemeshow檢驗(yàn)的原假設(shè):觀測頻數(shù)的分布與期望頻數(shù)分布無顯著差異。Hosmer—Lemeshow統(tǒng)計(jì)量的值越小,p>a,擬合效果越好;反之,則擬合效果不好。21第21頁,共39頁。設(shè)置虛擬變量通常在線性回歸分析中,作為解釋變量的自變量是數(shù)值型變量,它對被解釋變量有線性解釋作用。在實(shí)際應(yīng)用中,尤其在二項(xiàng)Logistic回歸模型中,自變量也有可能是分類型的變量。由于分類型的變量各個(gè)類別之間是非等距的,通常不能像數(shù)值型那樣直接作為解釋變量進(jìn)入回歸方程,一般需要將其轉(zhuǎn)化為虛擬變量(也稱啞變量)后再參與分析。這樣可以更好的研究各類別對解釋變量影響的差異性。22第22頁,共39頁。虛擬變量:將分類的各個(gè)類別分別以0/1二值變量的形式重新編碼,用1表示屬于該類,1表示不屬于該類。例如:(1)“性別”需要一個(gè)虛擬變量,值1定義為“男”,則值0定義為“女”。(2)“滿意度”需要2個(gè)虛擬變量,兩個(gè)變量值為(1,0)定義為“高”,(0,1)定義為“中”,(0,0)定義為“低”。23第23頁,共39頁。注:對于具有n個(gè)類別的分類變量,需要n-1個(gè)虛擬變量即可。參照類別:虛擬變量值全部定義為0的類別是參照類別。例如上一個(gè)例子中的“女”,“低”。在Logistic回歸模型中各虛擬自變量回歸系數(shù)的含義是相對于參照類別,其它各類別對被解釋變量平均貢獻(xiàn)的差。進(jìn)而可以研究各類別間對被解釋變量的平均貢獻(xiàn)差異。24第24頁,共39頁。應(yīng)用舉例例:為研究和預(yù)測某商品消費(fèi)特點(diǎn)和趨勢,收集了以往的消費(fèi)數(shù)據(jù),變量有是否購買、年齡、性別和收入水平。除年齡外,其余變量都是分類變量。是否購買是被解釋變量,其余都是解釋變量。分析目標(biāo):建立客戶購買的預(yù)測模型,分析影響因素。25第25頁,共39頁。被解釋變量解釋變量欄可以產(chǎn)生交互項(xiàng)篩選變量策略26第26頁,共39頁。注:個(gè)人喜歡使用相對簡單明了的Indicator方法,至于哪一個(gè)類別作為參考類別,會因具體問題而定。27第27頁,共39頁。注:在Logistic回歸分析中,如果不關(guān)心迭代的歷史和篩選變量的過程,可以不做選擇。28第28頁,共39頁。注:在保存變量中一般最關(guān)心概率的預(yù)測值和類別的預(yù)測值。一般以0.5為分割點(diǎn),預(yù)測概率大于0.5,預(yù)測為Y=1;預(yù)測概率小于0.5,預(yù)測為Y=0。29第29頁,共39頁。注:因變量和啞變量的編碼是非常重要的信息,對于模型參數(shù)的解讀和模型的分析都非常中重要。30第30頁,共39頁。注:初始模型,一般從全模型開始。Age沒有通過檢驗(yàn),income這一類變量通過了,但是其中某一個(gè)啞變量沒有通過,經(jīng)驗(yàn)做法是這一類啞變量全部保留。31第31頁,共39頁。注:模型整體的線性沒通過檢驗(yàn),但是擬合指標(biāo)顯示,模型的擬合程度并不好。Logistic回歸模型的參數(shù)估計(jì)值是采用迭代算法獲得,因此需要迭代收斂32第32頁,共39頁。注:因?yàn)閜>a,所以認(rèn)為樣本實(shí)際值得到的分布與預(yù)測值得到的分布無顯著差異,模型擬合優(yōu)度較好。33第33頁,共39頁。注:模型整體的準(zhǔn)確度不高,對不購買人群的準(zhǔn)確率極高,對購買人群的準(zhǔn)確率很低。34第34頁,共39頁。注:預(yù)測類別圖上可以看出,預(yù)測概率在0.4附近的樣

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論