




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第八章
成對數(shù)據(jù)的統(tǒng)計分析§8.1成對數(shù)據(jù)的統(tǒng)計相關(guān)性§8.2一元線性回歸模型及其應(yīng)用§8.3列聯(lián)表與獨(dú)立性檢驗(yàn)8.1.1變量的相關(guān)關(guān)系我們知道,如果變量y是變量x的函數(shù),那么由就可以唯一確定y。然而,現(xiàn)實(shí)世界中還存在這樣的情況:兩個變量之間有關(guān)系,但密切程度又達(dá)不到函數(shù)關(guān)系的程度。例如,人的體重與身高存在關(guān)系,一個人的體重與他的身高有關(guān)系。一般而言,個子高的人往往體重值較大,個子矮的人往往體重值較小。但身高并不是決定體重的唯一因素,例如生活中的飲食習(xí)慣、體育鍛煉、睡眠時間以及遺傳因素等也是影響體重的重要因素。像這樣,兩個變量有關(guān)系,但又沒有確切到可由其中的一個去精確地決定另一個的程度,這種關(guān)系稱為相關(guān)關(guān)系。兩個變量具有相關(guān)關(guān)系的事例在現(xiàn)實(shí)中大量存在。(1)子女身高y與父親身高x之間的關(guān)系。一般來說,父親的個子高,其子女的個子也會比較高;父親個子矮,其子女的個子也會比較矮。但影響子女身高的因素,除父親身高外還有其他因素,例如母親身高、飲食結(jié)構(gòu)、體育鍛煉等,因此父親身高又不能完全決定子女身高。(2)商品銷售收入y與廣告支出x之間的關(guān)系。一般來說,廣告支出越多,商品銷售收人越高。但廣告支出并不是決定商品銷售收人的唯一因素,商品銷售收人還與商品質(zhì)量、居民收入等因素有關(guān)。(3)空氣污染指數(shù)y與汽車保有量x之間的關(guān)系。一般來說,汽車保有量增加,空氣污染指數(shù)會上升。但汽車保有量并不是造成空氣污染的唯一因素,氣象條件、工業(yè)廢氣排放、居民生活和取暖、垃圾焚燒等都是影響空氣污染指數(shù)的因素。(4)糧食畝產(chǎn)量y與施肥量x之間的關(guān)系。在一定范圍內(nèi),施肥量越大,糧食畝產(chǎn)量就越高。但施肥量并不是決定糧食畝產(chǎn)量的唯一因素,糧食畝產(chǎn)量還要受到土壤質(zhì)量、降水量、田間管理水平等因素的影響。
因?yàn)樵谙嚓P(guān)關(guān)系中,變量y的值不能隨變量的值的確定而唯一確定,所以我們無法直接用函數(shù)去描述變量之間的這種關(guān)系。對上述各例中兩個變量之間的相關(guān)關(guān)系,我們往往會根據(jù)自己以往積累的經(jīng)驗(yàn)作出推斷?!敖?jīng)驗(yàn)之中有規(guī)律”,經(jīng)驗(yàn)的確可以為我們的決策提供一定的依據(jù),但僅憑經(jīng)驗(yàn)推斷又有不足。例如,不同經(jīng)驗(yàn)的人對同一情形可能會得出不同結(jié)論,不是所有的情形都有經(jīng)驗(yàn)可循等。
因此,在研究兩個變量之間的相關(guān)關(guān)系時,我們需要借助數(shù)據(jù)說話,即通過樣本數(shù)據(jù)分析,從數(shù)據(jù)中提取信息,并構(gòu)建適當(dāng)?shù)男?,再利用模型進(jìn)行估計或推斷?!咎骄俊吭趯θ梭w的脂肪含量和年齡之間關(guān)系的研究中,科研人員獲得了一些年齡和脂肪含量的簡單隨機(jī)樣本數(shù)據(jù),如下表所示。表中每個編號下的年齡和脂肪含量數(shù)據(jù)都是對同一個體的觀測結(jié)果,它們構(gòu)成了成對數(shù)據(jù)。根據(jù)以上數(shù)據(jù),你能推斷人體的脂肪含量與年齡之間存在怎樣的關(guān)系嗎?編號1234567年齡/歲23273941454950脂肪含量/%9.517.821.225.927.526.328.2編號891011121314年齡/歲53545657586061脂肪含量/%29.630.231.430.833.535.234.6通過表格我們可以發(fā)現(xiàn),隨著年齡的增長,人體脂肪含量相對也會增長。
為了更加直觀地描述上述成對樣本數(shù)據(jù)中脂肪含量與年齡之間的關(guān)系,類似于用直方圖描述單個變量樣本數(shù)據(jù)的分布特征,我們用圖形展示成對樣本數(shù)據(jù)的變化特征。用橫軸表示年齡,縱軸表示脂肪含量。
表中每個編號下的成對樣本數(shù)據(jù)都可用直角坐標(biāo)系中的點(diǎn)表示出來,由這些點(diǎn)組成了如圖所示的統(tǒng)計圖。我們把這樣的統(tǒng)計圖叫做散點(diǎn)圖。
觀察上圖,可以發(fā)現(xiàn),這些散點(diǎn)大致落在一條從左下角到右上角的直線附近,表明隨年齡值的增加,相應(yīng)的脂肪含量值呈現(xiàn)增加的趨勢。這樣,由成對樣本數(shù)據(jù)的分布規(guī)律,我們可以推斷脂肪含量變量和年齡變量之間存在著相關(guān)關(guān)系。
從整體上看,當(dāng)一個變量的值增加時,另一個變量的相應(yīng)值也呈現(xiàn)增加的趨勢,我們就稱這兩個變量正相關(guān);當(dāng)一個變量的值增加時,另一個變量的相應(yīng)值呈現(xiàn)減小的趨勢,則稱這兩個變量負(fù)相關(guān)。
由散點(diǎn)圖,能夠推斷脂肪含量與年齡這兩個變量正相關(guān)。
散點(diǎn)圖是描述成對數(shù)據(jù)之間關(guān)系的一種直觀方法。觀察上面的散點(diǎn)圖,從中我們不僅可以大致看出脂肪含量和年齡呈現(xiàn)正相關(guān),而且從整體上可以看出散點(diǎn)落在某條直線附近。
一般地,如果兩個變量的取值呈現(xiàn)正相關(guān)或負(fù)相關(guān),而且散點(diǎn)落在一條直線附近,我們就稱這兩個變量線性相關(guān)。
一般地,如果兩個變量具有相關(guān)性,但不是線性相關(guān),那么我們就稱這兩個變量非線性相關(guān)或曲線相關(guān)。觀察上面三幅散點(diǎn)圖,你有什么發(fā)現(xiàn)?它們是線性相關(guān)嗎?圖(1)中的散點(diǎn)落在某條曲線附近,而不是落在條直線附近,說明這兩個變量具有相關(guān)性,但不是線性相關(guān);圖(2)中的散點(diǎn)落在一條折線附近,這兩個變量也具有相關(guān)性,但它們既不是正相關(guān),也不是負(fù)相關(guān);圖(3)中的散點(diǎn)雜亂無章,無規(guī)律可言,看不出這兩個變量有什么相關(guān)性。8.1.2樣本相關(guān)系數(shù)
通過觀察散點(diǎn)圖中成對樣本數(shù)據(jù)的分布規(guī)律,我們可以大致推斷兩個變量是否存在相關(guān)關(guān)系、是正相關(guān)還是負(fù)相關(guān)、是線性相關(guān)還是非線性相關(guān)等。
散點(diǎn)圖雖然直觀,但無法確切地反映成對樣本數(shù)據(jù)的相關(guān)程度,也就無法量化兩個變量之間相關(guān)程度的大小。能否像引入均值、方差等數(shù)字特征對單個變量數(shù)據(jù)進(jìn)行分析那樣,引入一個適當(dāng)?shù)摹皵?shù)字特征”,對成對樣本數(shù)據(jù)的相關(guān)程度進(jìn)行定量分析呢?
為了刻畫每個變量的觀測數(shù)據(jù)相對其均值的增減情況,將每個變量的觀測數(shù)據(jù)減去其均值,并繪制散點(diǎn)圖。得到成對數(shù)據(jù)為
利用上述方法處理前面研究人體的脂肪含量和年齡之間關(guān)系的表中的數(shù)據(jù),得到上圖。我們發(fā)現(xiàn),這時的散點(diǎn)大多數(shù)分布在第一象限、第三象限,大多數(shù)散點(diǎn)的橫、縱坐標(biāo)同號。顯然,這樣的規(guī)律是由人體脂肪含量與年齡正相關(guān)所決定的。
一般地,如果變量x和y正相關(guān),那么關(guān)于均值平移后的大多數(shù)散點(diǎn)將分布在第象限、第三象限,對應(yīng)的成對數(shù)據(jù)同號的居多,如圖(1)所示;
如果變量x和y負(fù)相關(guān),那么關(guān)于均值平移后的大多數(shù)散點(diǎn)將分布在第二象限、第四象限,對應(yīng)的成對數(shù)據(jù)異號的居多,如圖(2)所示。
從上述討論得到啟發(fā),利用散點(diǎn)
的橫、縱坐標(biāo)是否同號,可以構(gòu)造一個量。
一般情形下,Lxy>0表明成對樣本數(shù)據(jù)正相關(guān);Lxy<0表明成對樣本數(shù)據(jù)負(fù)相關(guān)。
因?yàn)長xy的大小與數(shù)據(jù)的度量單位有關(guān),所以不宜直接用它度量成對樣本數(shù)據(jù)相關(guān)程度的大小。例如,在研究體重與身高之間的相關(guān)程度時,如果體重的單位不變,把身高的單位由米改為厘米,則相應(yīng)的Lxy將變?yōu)樵瓉淼?00倍,但單位的改變并不會導(dǎo)致體重與身高之間相關(guān)程度的改變。為了消除度量單位的影響,需要對數(shù)據(jù)作進(jìn)一步的“標(biāo)準(zhǔn)化”處理。我們用分別除
和為簡單起見,把上述“標(biāo)準(zhǔn)化”處理后的成對數(shù)據(jù)分別記為仿照Lxy的構(gòu)造,可以得到我們稱r為變量x和變量y的樣本相關(guān)系數(shù)。(1)當(dāng)r>0時,稱成對樣本數(shù)據(jù)正相關(guān)。這時,當(dāng)其中一個數(shù)據(jù)的值變小時,另一個數(shù)據(jù)的值通常也變?。划?dāng)其中一個數(shù)據(jù)的值變大時,另一個數(shù)據(jù)的值通常也變大。(2)當(dāng)r<0時,稱成對樣本數(shù)據(jù)負(fù)相關(guān)。這時,當(dāng)其中一個數(shù)據(jù)的值變小時,另一個數(shù)據(jù)的值通常會變大;當(dāng)其中一個數(shù)據(jù)的值變大時,另一個數(shù)據(jù)的值通常會變小。樣本相關(guān)系數(shù)r的取值范圍觀察r的結(jié)構(gòu),聯(lián)想到二維(平面)向量、三維(空間)向量數(shù)量積的坐標(biāo)表示,我們將向量的維數(shù)推廣到n維,n維向量a,b的數(shù)量積仍然定義為其中θ為向量a,b的夾角。類似于平面或空間向量的坐標(biāo)表示,對于向量a=(a1,a2,…,an)和b=(b1,b2,…,bn),我們有設(shè)“標(biāo)準(zhǔn)化”處理后的成對數(shù)據(jù)因?yàn)?/p>
,所以樣本相關(guān)系數(shù)為由此可見,樣本相關(guān)系數(shù)r的取值范圍為[-1,1]樣本相關(guān)系數(shù)r的絕對值大小可以反映成對樣本數(shù)據(jù)之間線性相關(guān)的程度:(1)當(dāng)|r|越接近1時,成對樣本數(shù)據(jù)的線性相關(guān)程度越強(qiáng);(2)當(dāng)|r|越接近0時,成對樣本數(shù)據(jù)的線性相關(guān)程度越弱。
綜上可知,兩個隨機(jī)變量的相關(guān)性可以通過成對樣本數(shù)據(jù)進(jìn)行分析,而樣本相關(guān)系數(shù)r可以反映兩個隨機(jī)變量之間的線性相關(guān)程度;r的符號反映了相關(guān)關(guān)系的正負(fù)性;|r|的大小反映了兩個變量線性相關(guān)的程度,即散點(diǎn)集中于一條直線的程度?!纠?】下列圖中,能反映出相應(yīng)兩個變量之間具有線性相關(guān)關(guān)系的是(
)BA.
B.
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年名詞解釋物理因素
- 斜拉索損傷識別技術(shù)-洞察及研究
- 城鎮(zhèn)燃?xì)饪荚囋囶}及答案
- 2025年造價員考試試題(附答案)
- 肝纖維化動物模型-洞察及研究
- 高危妊娠婦女的護(hù)理
- 死者親屬關(guān)系證明表
- 腸道-腦軸調(diào)控機(jī)制-洞察及研究
- 安置房購房合同
- 醫(yī)藥法律基礎(chǔ)知識培訓(xùn)課件
- 公司法人代持協(xié)議
- JJG 814-2015自動電位滴定儀
- JJF 1753-2019醫(yī)用體外壓力脈沖碎石機(jī)校準(zhǔn)規(guī)范
- GB/T 9385-2008計算機(jī)軟件需求規(guī)格說明規(guī)范
- TWEEA 006-2022 中小學(xué)校教室照明技術(shù)規(guī)范
- GB/T 17874-2021電子特氣三氯化硼
- 雨季(汛期)施工安全教育培訓(xùn)
- DB32-T 2860-2015散裝液體化學(xué)品槽車裝卸安全作業(yè)規(guī)范-(高清現(xiàn)行)
- 中國石油天然氣集團(tuán)公司井控裝備技術(shù)判廢檢驗(yàn)管理規(guī)定
- T∕CAQ 10108-2018 供應(yīng)商審核指南
- 給水工程竣工總結(jié)報告
評論
0/150
提交評論