




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、定量變量定量變量的取值一定是實數,它們的取值大小有特定的取值一定是實數,它們的取值大小有特定的含義,不同取值之間的運算也有特定的含義的含義,不同取值之間的運算也有特定的含義. .如身高、體重、考試成績、溫度等等如身高、體重、考試成績、溫度等等.變量變量定量變量定量變量分類變量分類變量兩個定量變量的相關關系分析:回歸分析(畫散點圖、兩個定量變量的相關關系分析:回歸分析(畫散點圖、相關指數相關指數R2、殘差分析)、殘差分析)(定性變量)(定性變量)對于性別變量,其取值為男和女兩種,這種變量的不對于性別變量,其取值為男和女兩種,這種變量的不同同“值值”表示個體所屬的不同類別,像這樣的變量稱表示個體所
2、屬的不同類別,像這樣的變量稱為為分類變量分類變量. .在日常生活中,主要考慮在日常生活中,主要考慮分類變量之間是否有關系分類變量之間是否有關系:如是否吸煙、宗教信仰、是否患肺癌、國籍等等如是否吸煙、宗教信仰、是否患肺癌、國籍等等. .例如,吸煙是否與患肺癌有關系?例如,吸煙是否與患肺癌有關系? 性別是否對于喜歡數學課程有影響?等等性別是否對于喜歡數學課程有影響?等等. .分類變量也稱為分類變量也稱為屬性變量屬性變量或或定性變量定性變量,它們的取值一,它們的取值一定是離散的,而且不同的取值僅表示個體所屬的類別,定是離散的,而且不同的取值僅表示個體所屬的類別,如性別變量,只取男、女兩個值如性別變量
3、,只取男、女兩個值兩個分類變量的相關關系的分析:兩個分類變量的相關關系的分析:通過圖形直觀判斷兩個分類變量是否相關;通過圖形直觀判斷兩個分類變量是否相關;獨立性檢驗獨立性檢驗.不患肺癌不患肺癌患肺癌患肺癌總計總計不吸煙不吸煙77757775424278177817吸煙吸煙20992099494921482148總計總計98749874919199659965由列聯表可以粗略估計出,在不吸煙者中,有由列聯表可以粗略估計出,在不吸煙者中,有0.54%0.54%患患有肺癌;在吸煙者中,有有肺癌;在吸煙者中,有2.28%2.28%患有肺癌。因此,直觀患有肺癌。因此,直觀上可以得到結論:上可以得到結論:
4、吸煙者和不吸煙者患肺癌的可能性吸煙者和不吸煙者患肺癌的可能性存在差異存在差異. .與表格相比,三維柱形圖和二維條形圖能更直觀地反與表格相比,三維柱形圖和二維條形圖能更直觀地反映出相關數據的總體狀況映出相關數據的總體狀況. .為調查吸煙是否對患肺癌有影響,某腫瘤研究所隨機為調查吸煙是否對患肺癌有影響,某腫瘤研究所隨機地調查了地調查了9965人,得到如下結果(單位:人):人,得到如下結果(單位:人):吸煙與患肺癌吸煙與患肺癌列聯表列聯表(列出兩個分類變量的頻數表):(列出兩個分類變量的頻數表):不患肺癌不患肺癌患肺癌患肺癌總計總計不吸煙不吸煙77757775424278177817吸煙吸煙2099
5、2099494921482148總計總計987498749191996599651 1、列聯表、列聯表2 2、三維柱形圖、三維柱形圖3 3、二維條形圖、二維條形圖不患肺癌患肺癌吸煙不吸煙不患肺癌患肺癌吸煙不吸煙080007000600050004000300020001000從三維柱形圖能清晰看出各從三維柱形圖能清晰看出各個頻數的相對大小個頻數的相對大小. .從二維條形圖能看出,吸煙者中從二維條形圖能看出,吸煙者中患肺癌的比例高于不患肺癌的比例患肺癌的比例高于不患肺癌的比例. .不吸煙吸煙00.10.20.30.40.50.60.70.80.91不吸煙不吸煙吸煙吸煙患肺癌比例不患肺癌比例4 4
6、、等高條形圖、等高條形圖等高條形圖更清晰地表達了兩種情況下患肺癌的比例等高條形圖更清晰地表達了兩種情況下患肺癌的比例.上面我們通過分析數據和圖形,得到的直觀印象是吸上面我們通過分析數據和圖形,得到的直觀印象是吸煙和患肺癌有關,那么事實是否真的如此呢?這需要煙和患肺癌有關,那么事實是否真的如此呢?這需要用用統計觀點統計觀點來考察這個問題來考察這個問題. .現在想要知道能夠以多大的把握認為現在想要知道能夠以多大的把握認為“吸煙與患肺癌吸煙與患肺癌有關有關”,為此先假設:,為此先假設:H H0 0:吸煙與患肺癌沒有關系:吸煙與患肺癌沒有關系不患肺癌不患肺癌患肺癌患肺癌總計總計不吸煙不吸煙a ab b
7、a+ba+b吸煙吸煙c cd dc+dc+d總計總計a+ca+cb+db+da+b+c+da+b+c+d把數字用字母代替,得到如下用字母表示的列聯表:把數字用字母代替,得到如下用字母表示的列聯表:不患肺癌不患肺癌患肺癌患肺癌總計總計不吸煙不吸煙a ab ba+ba+b吸煙吸煙c cd dc+dc+d總計總計a+ca+cb+db+da+b+c+da+b+c+d吸煙與患肺癌的列聯表:吸煙與患肺癌的列聯表:如果如果“吸煙與患肺癌沒有關系吸煙與患肺癌沒有關系”,則在吸煙者中不患,則在吸煙者中不患肺癌的比例應該與不吸煙者中相應的比例應差不多,肺癌的比例應該與不吸煙者中相應的比例應差不多,即即|ad-bc
8、|ad-bc|越小,說明吸煙與患肺癌之間關系越弱;越小,說明吸煙與患肺癌之間關系越弱;|ad-bc|ad-bc|越大,說明吸煙與患肺癌之間關系越強越大,說明吸煙與患肺癌之間關系越強. .為了使不同樣本容量的數據有統一的評判標準,基于為了使不同樣本容量的數據有統一的評判標準,基于上述分析,我們構造一個隨機變量上述分析,我們構造一個隨機變量 若若H H0 0成立,即成立,即“吸煙與患肺癌沒有關系吸煙與患肺癌沒有關系”,則,則K K2 2應很小應很小. .由列聯表中數據,利用公式(由列聯表中數據,利用公式(1 1)計算得)計算得K K2 2的觀測值為:的觀測值為:22()()()()()n adbc
9、Kab cdac bd (1 1)29965(7775 49422099)56.632.78172148 9874 91k 其中其中n=a+b+c+d為樣本容量為樣本容量.在在H0成立的情況下,統計學家估算出如下的概率:成立的情況下,統計學家估算出如下的概率:2(6.635)0.01P K 也就是說,在也就是說,在H H0 0成立的情況下,對隨機變量成立的情況下,對隨機變量K K2 2進行多次進行多次觀測,觀測值超過觀測,觀測值超過6.6356.635的頻率約為的頻率約為0.010.01,是一個小概,是一個小概率事件率事件. .現在現在K K2 2的觀測值為的觀測值為56.63256.632,
10、遠遠大于,遠遠大于6.6356.635,所,所以有理由斷定以有理由斷定H H0 0不成立不成立,即認為,即認為“吸煙與患肺癌有關系吸煙與患肺癌有關系” ” 56.632k 但這種判斷會犯錯誤,犯錯誤的概率不會超過但這種判斷會犯錯誤,犯錯誤的概率不會超過0.01,即,即我們有我們有99的把握認為的把握認為“吸煙與患肺癌有關系吸煙與患肺癌有關系”.利用隨機變量利用隨機變量K K2 2來確定在多大程度上可以認為來確定在多大程度上可以認為“兩個兩個分類變量有關系分類變量有關系”的方法稱為兩個分類變量的獨立性的方法稱為兩個分類變量的獨立性檢驗檢驗. .獨立性檢驗:獨立性檢驗:如果如果 ,就判斷,就判斷H
11、0不成立;否則就判斷不成立;否則就判斷H0成立成立.6.635k (6.635)0.01P k 獨立性檢驗的基本思想:獨立性檢驗的基本思想:類似于數學上的反證法,對類似于數學上的反證法,對“兩個分類變量有關系兩個分類變量有關系”這一結論成立的可信程度的判斷:這一結論成立的可信程度的判斷:(1 1)假設該結論不成立,即假設結論)假設該結論不成立,即假設結論“兩個分類變量兩個分類變量沒有關系沒有關系”成立成立. .(2 2)在假設條件下,計算構造的隨機變量)在假設條件下,計算構造的隨機變量K K2 2,如果由,如果由觀測數據計算得到的觀測數據計算得到的K K2 2很大,則在一定程度上說明假很大,則
12、在一定程度上說明假設不合理設不合理. .(3 3)根據隨機變量)根據隨機變量K K2 2的含義,可以通過(的含義,可以通過(2 2)式評價假)式評價假設不合理的程度,由實際計算出的設不合理的程度,由實際計算出的k6.635k6.635,說明假設,說明假設不合理的程度約為不合理的程度約為99%99%,即,即“兩個分類有關系兩個分類有關系”這一結這一結論成立的可信程度約為論成立的可信程度約為99%.99%.y y1 1y y2 2總計總計x x1 1a ab ba+ba+bx x2 2c cd dc+dc+d總計總計a+ca+cb+db+da+b+c+da+b+c+d一般地,假設有兩個分類變量一般
13、地,假設有兩個分類變量X X和和Y Y,它們的可能取值,它們的可能取值分別為分別為xx1 1,x,x2 2 和和yy1 1,y,y2 2,其樣本頻數列聯表(稱為其樣本頻數列聯表(稱為2x22x2列聯表)為:列聯表)為:利用獨立性檢驗來考察兩個分類變量是否有關系,能利用獨立性檢驗來考察兩個分類變量是否有關系,能較精確地給出這種判斷的可靠程度較精確地給出這種判斷的可靠程度. .具體作法是:具體作法是:(1 1)根據實際問題需要的可信程度確定臨界值)根據實際問題需要的可信程度確定臨界值k k0 0;(2)由觀測數據計算得到隨機變量)由觀測數據計算得到隨機變量K2的觀測值的觀測值k;(3)如果)如果k
14、6.635,就以,就以 1-P(K26.635)100%的的把握認為把握認為“X與與Y有關系有關系”;否則就說樣本觀測數據沒;否則就說樣本觀測數據沒有提供有提供“X與與Y有關系有關系”的充分證據的充分證據.10.8287.8796.6355.0243.8412.7062.0721.3230.7080.445 k0.0010.0050.0100.0250.050.100.150.50.400.502()P Kk(1 1)如果)如果k10.828k10.828,就有,就有99.9%99.9%的把握認為的把握認為“X X與與Y Y有關系有關系”;(2 2)如果)如果k7.879k7.879,就有,就
15、有99.5%99.5%的把握認為的把握認為“X X與與Y Y有關系有關系”;(3 3)如果)如果k6.635k6.635,就有,就有99%99%的把握認為的把握認為“X X與與Y Y有關系有關系”;(4 4)如果)如果k5.024k5.024,就有,就有97.5%97.5%的把握認為的把握認為“X X與與Y Y有關系有關系”;(5 5)如果)如果k3.841k3.841,就有,就有95%95%的把握認為的把握認為“X X與與Y Y有關系有關系”;(6 6)如果)如果k2.706k2.706,就有,就有90%90%的把握認為的把握認為“X X與與Y Y有關系有關系”;(7 7)如果)如果k=2.
16、706k=2.706,就認為沒有充分的證據顯示,就認為沒有充分的證據顯示 “ “X X與與Y Y有關系有關系”. .臨界值臨界值例例1 在某醫(yī)院,因為患心臟病而住院的在某醫(yī)院,因為患心臟病而住院的665名男名男性病人中,有性病人中,有214人禿頂;而另外人禿頂;而另外772名不是因名不是因為患心臟病而住院的男性病人中有為患心臟病而住院的男性病人中有175人禿頂。人禿頂。分別利用圖形和獨立性檢驗方法判斷禿頂與患分別利用圖形和獨立性檢驗方法判斷禿頂與患心臟病是否有關系?你所得的結論在什么范圍心臟病是否有關系?你所得的結論在什么范圍內有效?內有效?禿頭禿頭不禿頭不禿頭解:根據題目所給數據得到如下列聯
17、表1-13:患心臟病患心臟病 不患心臟不患心臟病病總計總計禿頂禿頂214175389不禿頂不禿頂4515971048總計總計6657721437 根據聯表根據聯表1-13中的數據,得到中的數據,得到221437 (214 597 175 451)16.3736.635.389 1048 665 772K所以有所以有99%的把握認為的把握認為“禿頂患心臟病有禿頂患心臟病有關關”。因為這組數據來自住院的病人,因此所得到的結論適合住院的病人群體例例2 為考察高中生的性別與是否喜歡數學課程之為考察高中生的性別與是否喜歡數學課程之間的關系,在某城市的某校高中生中隨機抽取間的關系,在某城市的某校高中生中隨機抽取300名學生,得到如下聯表:名學生,得到如下聯表:喜歡數學課喜歡數學課程程不喜歡數學不喜歡數學課程課程總計總計男男3785122女女35143178總計總計72228300由表中數據計算由表中數據計算K2的觀測值的觀測值k4.513。在。在多大程度上可以認為高中生的性別與是否喜多大程度上可以認為高中生的性別與是否喜歡數學課程之間有關系?
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 初三質量分析會班主任發(fā)言
- 電話銷售禮儀培訓
- 時政播報課件
- 2025版鍋爐改造工程設計與施工合同
- 二零二五年瓷磚產品進出口貿易合同
- 2025版電商數據分析與營銷托管合同范本
- 二零二五版家庭心理咨詢與輔導服務合同書
- 2025版股權投資與資產管理合作協議書
- 二零二五版跨境貿易實務:磋商與訂立合同操作指南及案例解析
- 2025版智能家電研發(fā)與市場推廣合作合同
- 消費品市場2025年消費者對綠色包裝認知及需求調研可行性研究報告
- 臺球廳消防知識培訓課件
- 2025便利店加盟的合同樣本
- 評職稱老師考試題目及答案
- 2025年醫(yī)療器械倉庫管理培訓試題及答案
- 成都市鹽道街中學語文新初一分班試卷含答案
- 中國特色社會主義思想概論 課件 第四章 堅持以人民為中心
- 淺談汽車4S店客戶關系管理
- 云南民族大學聽課記錄表和效果評價表-202203158163
- 中央空調檢驗批范例
- STOP 6 安全衛(wèi)生教育
評論
0/150
提交評論