獨立性檢驗的基本思想及其應用_第1頁
獨立性檢驗的基本思想及其應用_第2頁
獨立性檢驗的基本思想及其應用_第3頁
獨立性檢驗的基本思想及其應用_第4頁
獨立性檢驗的基本思想及其應用_第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

獨立性檢驗的基本思想在現(xiàn)實生活中,會遇到各種各樣的變量,并需要研究它們之間的關系,觀察下面兩組變量,分析在取不同的“值”時表示的個體有何差異?

(1)國籍、宗教信仰、性別(2)成績、身高、年齡(1)中的變量每取不同的“值”時,表示不同的類別;(2)中的變量每取不同的“值”時,表示不同的個體。獨立性檢驗本節(jié)研究的是兩個分類變量的獨立性檢驗問題。在日常生活中,我們常常關心分類變量之間是否有關系:例如,吸煙是否與患肺癌有關系?性別是否對于喜歡數學課程有影響?等等。5月31日是世界無煙日,有關醫(yī)學研究表明,許多疾病,如:心臟病、癌癥、腦血管病、慢性阻塞性肺病等都與吸煙有關,吸煙已成為繼高血之后的第二號全球殺手。這些疾病與吸煙有關的結論是怎么得出的呢?我們來看下面的問題為調查吸煙是否對患肺癌有影響,某腫瘤研究所隨機地調查了9965人,得到如下結果(單位:人)不患肺癌患肺癌總計不吸煙7775427817吸煙2099492148總計9874919965那么吸煙是否對肺癌有影響?吸煙與患肺癌列聯(lián)表列出兩個分類變量的頻數表,稱為列聯(lián)表不患肺癌患肺癌總計不吸煙7775427817吸煙2099492148總計9874919965說明:吸煙者和不吸煙者患肺癌的可能性存在差異,吸煙者患肺癌的可能性大。通過圖形直觀判斷兩個分類變量是否相關:1.列聯(lián)表不患肺癌患肺癌總計不吸煙7775427817吸煙2099492148總計98749199652.等高條形圖y1y2總計x1aba+bx1cdc+d總計a+cb+da+b+c+d假設有兩個分類變量X和Y,它們的值域分別為{x1,x2}和{y1,y2},其樣本頻數列聯(lián)表和登高條形圖如下表所示,試說明如何根據圖表來判斷分類變量X和Y是否可能有關系?

上面我們通過分析數據和圖形,得到的直觀印象是吸煙和患肺癌有關,那么事實是否真的如此呢?這需要用統(tǒng)計觀點來考察這個問題。

現(xiàn)在想要知道能夠以多大的把握認為“吸煙與患肺癌有關”,為此先假設

H0:吸煙與患肺癌沒有關系.不患肺癌患肺癌總計不吸煙aba+b吸煙cdc+d總計a+cb+da+b+c+d把表中的數字用字母代替,得到如下用字母表示的列聯(lián)表用A表示不吸煙,B表示不患肺癌,則“吸煙與患肺癌沒有關系”等價于“吸煙與患肺癌獨立”,即假設H0等價于P(AB)=P(A)P(B).因此|ad-bc|越小,說明吸煙與患肺癌之間關系越弱;|ad-bc|越大,說明吸煙與患肺癌之間關系越強。不患肺癌患肺癌總計不吸煙aba+b吸煙cdc+d總計a+cb+da+b+c+d在表中,a恰好為事件AB發(fā)生的頻數;a+b和a+c恰好分別為事件A和B發(fā)生的頻數。由于頻率接近于概率,所以在H0成立的條件下應該有

為了使不同樣本容量的數據有統(tǒng)一的評判標準,基于上述分析,我們構造一個隨機變量-----卡方統(tǒng)計量(1)若H0成立,即“吸煙與患肺癌沒有關系”,則K2應很小。根據表3-7中的數據,利用公式(1)計算得到K2的觀測值為:那么這個值到底能告訴我們什么呢?(2)

獨立性檢驗在H0成立的情況下,統(tǒng)計學家估算出如下的概率

即在H0成立的情況下,K2的值大于6.635的概率非常小,近似于0.01。

也就是說,在H0成立的情況下,對隨機變量K2進行多次觀測,觀測值超過6.635的頻率約為0.01。思考

答:判斷出錯的概率為0.01。判斷是否成立的規(guī)則如果,就判斷不成立,即認為吸煙與患肺癌有關系;否則,就判斷成立,即認為吸煙與患肺癌有關系。獨立性檢驗的定義上面這種利用隨機變量K2來確定在多大程度上可以認為“兩個分類變量有關系”的方法,稱為兩個分類變量的獨立性檢驗。在該規(guī)則下,把結論“成立”錯判成“不成立”的概率不會差過即有99%的把握認為不成立。獨立性檢驗的基本思想(類似反證法)(1)假設結論不成立,即“兩個分類變量沒有關系”.(2)在此假設下我們所構造的隨機變量K2應該很小,如果由觀測數據計算得到K2的觀測值k很大,則在一定可信程度上說明不成立.即在一定可信程度上認為“兩個分類變量有關系”;如果k的值很小,則說明由樣本觀測數據沒有發(fā)現(xiàn)反對的充分證據。(3)根據隨機變量K2的含義,可以通過評價該假設不合理的程度,由實際計算出的,說明假設不合理的程度為1%,即“兩個分類變量有關系”這一結論成立的可信度為約為99%.怎樣判斷K2的觀測值k是大還是小呢?這僅需要確定一個正數,當時就認為K2的觀測值k大。此時相應于的判斷規(guī)則為:如果,就認為“兩個分類變量之間有關系”;否則就認為“兩個分類變量之間沒有關系”。----臨界值按照上述規(guī)則,把“兩個分類變量之間沒有關系”錯誤的判斷為“兩個分類變量之間有關系”的概率為P().在實際應用中,我們把解釋為有的把握認為“兩個分類變量之間有關系”;把解釋為不能以的把握認為“兩個分類變量之間有關系”,或者樣本觀測數據沒有提供“兩個分類變量之間有關系”的充分證據。表1-112x2聯(lián)表

一般地,假設有兩個分類變量X和Y,它們的值域分別為{x1,x2}和{y1,y2},其樣本頻數列聯(lián)表(稱為2x2列聯(lián)表)為:y1y2總計x1aba+bx2cdc+d總計a+cb+da+b+c+d在實際應用中,要在獲取樣本數據之前通過下表確定臨界值:0.500.400.250.150.100.4550.7081.3232.0722.7060.050.0250.0100.0050.0013.8415.0246.6367.87910.828具體作法是:(1)根據實際問題需要的可信程度確定臨界值;(2)利用公式(1),由觀測數據計算得到隨機變量的觀測值;(3)如果,就以的把握認為“X與Y有關系”;否則就說樣本觀測數據沒有提供“X與Y有關系”的充分證據。0.50.40.250.150.10.050.0250.010.0050.001xo0.4550.7081.3232.0722.7063.8415.0246.6357.87910.828卡方臨界值表:則有99.9%的把握認為“Ⅰ與Ⅱ有關系”;(1)若觀測值χ2>10.828.(3)若觀測值χ2>2.706,則(4)若觀測值χ2<2.706,則(2)若觀測值χ2>6.635,則有99%的把握認為“Ⅰ與Ⅱ有關系”;則有90%的把握認為“Ⅰ與Ⅱ有關系”;則沒有充分的證據顯示“Ⅰ與Ⅱ有關系”,但也不能作出結論“H0成立”,即Ⅰ與Ⅱ沒有關系。例1為了探究學生選報文、理科是否與對外語的興趣有關,某同學調查了361名高二在校學生,調查結果如下:理科對外語有興趣的有138人,無興趣的有98人,文科對外語有興趣的有73人,無興趣的有52人.試分析學生選報文、理科與對外語的興趣是否有關?【解】列出2×2列聯(lián)表獨立性檢驗理文合計有興趣13873211無興趣9852150合計236125361【名師點評】運用獨立檢驗的方法:(1)列出2×2列聯(lián)表,根據公式計算K2的觀測值k.(2)比較k與k0的大小作出結論.特別注意本題類型的無關問題.跟蹤訓練1.研究人員選取170名青年男女大學生作為樣本,對他們進行一種心理測驗,發(fā)現(xiàn)60名女生對該心理測驗中的最后一個題目的反應是:作肯定的有22名,作否定的有38名;男生110名在相同的題目上作肯定的有22名,作否定的有88名,問:性別與態(tài)度之間是否存在某種關系?試用獨立性檢驗的方法判斷.解:根據題意,得如下2×2列聯(lián)表:肯定否定合計男生2288110女生223860合計441261701.K2的計算公式中字母取值勿取錯;在2×2列聯(lián)表中,a,b,c,d是有順序的,因此在計算K2的值時容易取錯字母a,b,c,d的值.2.只有當K2的值大于或等于k0時,我們才說兩個變量“有關系”;否則就說“沒有充分的證據顯示兩個變量有關系”,即認為兩個變量無關系.方法感悟精彩推薦典例展示獨立性檢驗中的易誤點對196個接受心臟搭橋手術的病人和196個接受血管清障手術的病人進行了3年的跟蹤研究,調查他們是否又發(fā)作過心臟病,調查結果如下表所示:試根據上述數據,比較這兩種手術對病人又發(fā)作心臟病的影響有沒有差別.例2易錯警示又發(fā)作過心臟病未發(fā)作過心臟病合計心臟搭橋手術39157196血管清障手術29167196合計68324392【常見錯誤】

在獨立性檢驗中當K2≤2.706時,得出結論:“我們判定又發(fā)作過心臟病和他是否做過這兩種手術無關”,這里的錯誤主要是結論下的太過武斷.【防范措施】

在利用2×2列聯(lián)表進行獨立性檢驗時,如果K2≤2.706,并不是表示兩個分類變量沒有關系,只是沒有充分證據表明它們有關系而已,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論