線性相關(guān)與回歸課件_第1頁
線性相關(guān)與回歸課件_第2頁
線性相關(guān)與回歸課件_第3頁
線性相關(guān)與回歸課件_第4頁
線性相關(guān)與回歸課件_第5頁
已閱讀5頁,還剩53頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

變量間的關(guān)系一般來說,可分為兩種:1.確定性關(guān)系:即“函數(shù)關(guān)系”,如或2.非確定性關(guān)系:如(1)污染程度與污染源距離(2)舒張壓與年齡(3)人的身高與體重(4)藥物劑量與動物死亡率回歸與相關(guān)就是研究此類問題的統(tǒng)計(jì)方法第一節(jié)直線回歸

一、“回歸”的由來

F.GaltonK.Pearson

每對夫婦的平均身高(英寸)成年兒子的身高(英寸)二、線性回歸基本概念當(dāng)一個變量X改變時,另一個變量Y也相應(yīng)地改變,此時稱X為自變量(independentvariable),Y為應(yīng)變量(dependentvariable)。自變量X:可隨機(jī)變動亦可人為取值。因(應(yīng))變量Y:被視為依賴于X而變化的反應(yīng)變量。在X的數(shù)值確定時按某種規(guī)律隨機(jī)變動。

可見,各散點(diǎn)通常并不會恰好在一條直線上,但反映出兩變量的線性趨勢。我們可以假定,相對于X各個取值,相應(yīng)的Y的總體均數(shù)位于一條直線上,與X之間數(shù)量上的線性依存關(guān)系就稱為線性回歸。這樣我們就可以用某個恰當(dāng)?shù)木€性回歸方程(linearregressionequation)來描述Y的總體均數(shù)依賴于X的數(shù)值變化:

以表示的一個樣本估計(jì)值,即X確定時Y的樣本均數(shù),樣本回歸方程的一般表達(dá)式可寫為:

三、直線回歸方程的建立1.一般表達(dá)式:

自變量當(dāng)取某一定值時,因變量的平均估計(jì)值。截距,即當(dāng)時,的平均估計(jì)值。

斜率(回歸系數(shù)):當(dāng)每改變一個單位時,的平均改變量。

因此2.求和(依據(jù)最小二乘法(methodofleastsquare)原理),即最小。四、直線回歸方程圖示:在自變量X的實(shí)測全距范圍內(nèi)任取相距較遠(yuǎn)且易讀的兩個X值,代入回歸方程式,求出兩個,兩點(diǎn)連一直線即可。

五、線性回歸的統(tǒng)計(jì)推斷(一)總體回歸系數(shù)的估計(jì)與假設(shè)檢驗(yàn)1.總體回歸系數(shù)的區(qū)間估計(jì):其中

為樣本回歸系數(shù)的標(biāo)準(zhǔn)誤,反映樣本回歸系數(shù)與總體回歸系數(shù)之間的抽樣誤差。

為剩余標(biāo)準(zhǔn)差,表示應(yīng)變量Y值對于回歸直線的離散程度。2.回歸系數(shù)的假設(shè)檢驗(yàn)(1)方差分析

SS總=SS回歸+SS剩余

SS總SS回歸=SS回歸表示在Y總的變異中,可以用X與Y的線性關(guān)系引起Y變異來解釋的部分。

SS剩余==SS總-

SS回歸SS剩余表示除X對Y的線性影響之外的一切其它隨機(jī)因素對Y的影響。這三個平方和的自由度依次分別為:ν總=n-1,ν回歸=1,ν剩余=n-2。具體分析步驟:建立假設(shè)檢驗(yàn)計(jì)算檢驗(yàn)統(tǒng)計(jì)量查附表12(P274)F界值表并作結(jié)論:

,則P<,拒絕H0

接受H1,則P>,不拒絕H0

若2.t檢驗(yàn)

ν=n-23.回歸方程無統(tǒng)計(jì)學(xué)意義原因:(1)影響Y取值的,除X外,還有其它不可忽略因素。(2)Y與X關(guān)系不是線性的,而存在其它關(guān)系。(3)Y與X不存在關(guān)系。(二)應(yīng)變量條件均數(shù)的區(qū)間估計(jì)亦可用表示,是總體中當(dāng)x為某定值x0的條件下,y的條件均數(shù)。當(dāng)把x0代入回歸方程求得其點(diǎn)估計(jì)值

當(dāng)X=x0時,總體條件均數(shù)的可信區(qū)間為:(二)個體值的容許區(qū)間估計(jì)所謂個體值的容許區(qū)間是指總體中X為某定值x0時,個體值的波動范圍。其標(biāo)準(zhǔn)差為:

于是給定X=x0時,個體Y值的容許區(qū)間為:六、線性回歸方程應(yīng)用:1.描述X和Y之間依存變化的數(shù)量關(guān)系2.利用回歸方程進(jìn)行預(yù)測預(yù)報(bào)3.用容易測量的指標(biāo)估計(jì)不易測量的指標(biāo)。4.利用回歸方程獲得精度更高的醫(yī)學(xué)參考值范圍5.利用回歸方程進(jìn)行統(tǒng)計(jì)控制

七、線性回歸分析中應(yīng)注意的問題1.作回歸分析一定要有實(shí)際意義2.回歸分析之前首先應(yīng)繪制散點(diǎn)圖異常點(diǎn):是指偏離既定模型的數(shù)據(jù)點(diǎn)(即y空間的異常點(diǎn))。高杠桿點(diǎn):是指遠(yuǎn)離數(shù)據(jù)主體的點(diǎn)(即x空間的異常點(diǎn))。強(qiáng)影響點(diǎn)是指對統(tǒng)計(jì)推斷影響特別大的點(diǎn)。異常點(diǎn)和高杠桿點(diǎn)都可能是強(qiáng)影響點(diǎn)。處理辦法:(1)剔除(2)在此點(diǎn)補(bǔ)做實(shí)驗(yàn)(3)數(shù)據(jù)變換學(xué)生化殘差()

其中3.考慮建立線性回歸模型的基本假定(LINE)。4.不可外推。5.兩變量間的直線關(guān)系不一定是因果關(guān)系,也可能是伴隨關(guān)系。

第二節(jié)線性相關(guān)一、直線相關(guān)的基本概念若一個變量X由小到大(或由大到?。瑒t另一變量Y亦相應(yīng)地由小到大(或由大到?。?,兩個變量的散點(diǎn)圖呈直線趨勢,我們稱這種現(xiàn)象為共變,亦就是這兩個變量之間有“相關(guān)關(guān)系”。散點(diǎn)呈直線趨勢說明兩變量之間存在線性相關(guān)關(guān)系。散點(diǎn)圖中的點(diǎn)的分布,即線性相關(guān)的性質(zhì)和相關(guān)之間的密切程度,可分為以下幾種情況:1.正相關(guān):如圖11.6(a),各點(diǎn)的分布呈現(xiàn)橢圓形,Y隨X的增加而增加,X隨Y的增加而增加。當(dāng)各點(diǎn)的分布如圖11.6(b)呈現(xiàn)直線型,則Y與X就完全正相關(guān)了。2.負(fù)相關(guān):如圖11.6(c),各點(diǎn)的分布也呈現(xiàn)橢圓形,Y隨X的增加而減少,X隨Y的增加而減少。當(dāng)各點(diǎn)的分布如圖11.6(d)呈現(xiàn)直線型,則Y與X就完全負(fù)相關(guān)了。3.零相關(guān):如圖11.6(e),無論X增加還是減少,Y不受其影響,反之,X也不受Y的影響。4.非線性相關(guān):X與Y的散點(diǎn)圖如圖11.6(f),圖中各點(diǎn)分布可能表示X與Y存在某種曲線相關(guān),但與線性相關(guān)已完全不同,稱為非線性相關(guān)。

二、相關(guān)系數(shù)的意義與計(jì)算1.相關(guān)系數(shù)的意義:相關(guān)系數(shù)(coefficientofcorrelation)就是說明具有直線關(guān)系的兩個變量間相關(guān)密切程度和相關(guān)方向的統(tǒng)計(jì)指標(biāo)。2.相關(guān)系數(shù)的計(jì)算其中3.相關(guān)系數(shù)的性質(zhì)相關(guān)系數(shù)r沒有測量單位,其數(shù)值為-1≤r≤+1。

r值為正,表示正相關(guān);r值為負(fù),表示負(fù)相關(guān);r值為0,則稱零相關(guān)即無直線關(guān)系。當(dāng)r值的絕對值為1時,稱完全相關(guān)。4.注意:生物界影響因素眾多,r值為l的機(jī)會極少,因而很少有完全相關(guān),經(jīng)常見到的是r值介于-1與+l之間,即不完全相關(guān)。在例數(shù)相等的情況下,計(jì)算出的相關(guān)系數(shù)的絕對值愈接近1,相關(guān)愈密切;相關(guān)系數(shù)愈接近0時,相關(guān)愈不密切。三、相關(guān)系數(shù)的假設(shè)檢驗(yàn)建立檢驗(yàn)假設(shè):1.查表法:一種是按自由度直接查附表15的r界值表。

2.t-test

自由度四、決定系數(shù)的意義

r的平方稱為決定系數(shù)(coefficientofdetermination)

r2反映出回歸平方和在總平方和中所占的比重。r2越接近1,回歸效果越好;應(yīng)用決定系數(shù),也可以從回歸的角度對相關(guān)程度做進(jìn)一步的了解,例如,r=0.5,r2=0.25,說明一個變量的變異僅有25%由另一變量所引起,避免了對相關(guān)系數(shù)表示的相關(guān)程度的夸張解釋。五、相關(guān)分析應(yīng)用中應(yīng)注意的問題1.相關(guān)分析要求兩個變量是服從雙變量正態(tài)分布的資料。2.進(jìn)行相關(guān)分析前應(yīng)先繪制散點(diǎn)圖,散點(diǎn)圖呈現(xiàn)出直線趨勢時,再作分析。3.滿足應(yīng)用條件的同一份雙變量資料,回歸系數(shù)與相關(guān)系數(shù)的正負(fù)號一致,假設(shè)檢驗(yàn)等價。4.相關(guān)分析時,小樣本資料經(jīng)t-test只能推斷兩變量間有無直線關(guān)系,而不能推斷其相關(guān)的密切程度。要推斷其相關(guān)的密切程度樣本含量必須足夠大。線性相關(guān)系數(shù)與回歸系數(shù)的計(jì)算器求法:開機(jī):進(jìn)入線性回歸狀態(tài):清除內(nèi)存:

MODE2REGMODEAC/ONSHIFT

Scl=AC/ON1Lin實(shí)例1:求變量x與y的回歸系數(shù)

和相關(guān)系數(shù)X

Y

135

567

求出a=4.5M+M+M+SHIFT5

A137756,,,=SHIFT8

B求出b=0.5則可求出r=1SHIFT(

r==2.5SHIFT-則可求出線性相關(guān)和回歸的區(qū)別與聯(lián)系一、區(qū)別(一)資料要求上:1.回歸:(1)因變量Y(隨機(jī)變量)必須服從正態(tài)分布,自變量X可精確測量和嚴(yán)格控制的變量。

Ⅰ型回歸:(2)X和Y服從雙變量正態(tài)分布

Ⅱ型回歸:(Y對X的回歸方程或由X推Y)(X對Y的回歸方程或由Y推X)

(二)在應(yīng)用上:1.回歸:反映兩個變量間依存變化的數(shù)量關(guān)系,是單向的。2.相關(guān):表示兩個變量之間的相互關(guān)系,是雙向的。

(三)在意義上:b表示X每增大(或減?。┮粋€單位,Y平均增大(或減?。゜個單位。r說明具有直線關(guān)系的兩個變量間相關(guān)密切程度和相關(guān)方向的統(tǒng)計(jì)指標(biāo)。

(四)計(jì)算上:(五)取值范圍:(六)單位:b有單位,r沒有單位。二、聯(lián)系(一)對同一資料r與b正負(fù)號是相同的:r為正,說明X與Y相關(guān)關(guān)系的方向是一致的;b為正,說明X與Y之間由回歸方程所確定的變量關(guān)系是遞增的,即X增大(或減小)一個單位,Y也平均增大(或減?。゜個單位。

(二)r和b假設(shè)檢驗(yàn)等價的(即對同一樣本二者的t值相等),實(shí)際應(yīng)用時常用其代替對b的假設(shè)檢驗(yàn)。(三)相關(guān)回歸可以互相解釋:

r的平方稱為決定系數(shù)(coefficientofdetermination)第四節(jié)秩相關(guān)一、適用范圍:1.觀測值是等級資料雙變量資料2.不服從雙變量正態(tài)分布的資料3.觀測值是百分?jǐn)?shù)的雙變量資料4.分布不明確的雙變量資料

二、Spearman等級相關(guān)系數(shù)1.意義:說明具有線性關(guān)系的兩變量間相關(guān)方向和密切程度的統(tǒng)計(jì)指標(biāo)。2.取值:的數(shù)值亦在-1與+1之間,表示正相關(guān),表示負(fù)相關(guān)。

3.計(jì)算步驟

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論