




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第六章相關(guān)與回歸分析12/24/20221第六章相關(guān)與回歸分析12/16/20221第一節(jié)相關(guān)分析第二節(jié)一元線性回歸分析12/24/20222第一節(jié)相關(guān)分析12/16/20222相關(guān)分析和回歸分析有什么用?一個國家香煙的消費量與癌癥的發(fā)病率有關(guān)系嗎?父母的身高是否影響其子女的身高?公司股票的市盈率與老總的薪酬有關(guān)聯(lián)嗎?接受高學歷教育的人是否比低學歷的人有更高的薪水?……現(xiàn)實世界中存在著大量諸如此類的問題,用統(tǒng)計語言來概況,就是兩個或者更多個變量之間,是否存在相互關(guān)聯(lián)?進而,存在相關(guān)關(guān)系的變量間又是如何相互影響的?相關(guān)分析和回歸分析可以用來回答這類問題,它們是研究現(xiàn)象之間相互關(guān)系的兩種基本方法。本章介紹這兩種方法的理論與應(yīng)用。12/24/20223相關(guān)分析和回歸分析有什么用?一個國家香煙的消費量與癌癥的發(fā)病
實例1:
中國婦女生育水平的決定因素是什么?婦女生育水平除了受計劃生育政策影響以外,還可能與社會、經(jīng)濟、文化等多種因素有關(guān)。1.影響中國婦女生育率變動的因素有哪些?2.各種因素對生育率的作用方向和作用程度如何?3.哪些因素是影響婦女生育率主要的決定性因素?4.如何評價計劃生育政策在生育水平變動中的作用?5.計劃生育政策與經(jīng)濟因素比較,什么是影響生育率的決定因素?6.如果某些地區(qū)的計劃生育政策及社會、經(jīng)濟、文化等因素發(fā)生重大變化,預(yù)期對這些地區(qū)的婦女生育水平會產(chǎn)生怎樣的影響?12/24/20224
實例1:
中國婦女生育水平的決定因素是什么?婦女生育水平除
據(jù)世界衛(wèi)生組織統(tǒng)計,全球肥胖癥患者達3億人,其中兒童占2200萬人,11億人體重過重。肥胖癥和體重超常早已不是發(fā)達國家的“專利”,已遍及五大洲。目前,全球因”吃”致病乃至死亡的人數(shù)已高于因饑餓死亡的人數(shù)。(引自《光明日報》劉軍/文)問題:肥胖癥和體重超常與死亡人數(shù)真有顯著的數(shù)量關(guān)系嗎?這些類型的問題可以運用相關(guān)分析與回歸分析的方法去解決。實例2:全球吃死的人比餓死的人多?12/24/20225據(jù)世界衛(wèi)生組織統(tǒng)計,全球肥胖癥患者達3億人,6.1相關(guān)分析7.1.1相關(guān)關(guān)系的概念客觀現(xiàn)象之間的數(shù)量依存關(guān)系,可以分為:一種是函數(shù)關(guān)系;一種是相關(guān)關(guān)系。1.函數(shù)關(guān)系與相關(guān)關(guān)系7.1.1相關(guān)關(guān)系的概念7.1.1相關(guān)關(guān)系的概念6.1.1相關(guān)關(guān)系的概念12/24/202266.1相關(guān)分析7.1.1相關(guān)關(guān)系的概念客觀現(xiàn)象之1)函數(shù)關(guān)系是一一對應(yīng)的確定關(guān)系;當一個或幾個變量取一定的值時,另一個變量有確定值與之相對應(yīng),我們稱這種關(guān)系為確定性的函數(shù)關(guān)系。可以用數(shù)學分析的方法去研究一般情況下確定性函數(shù)關(guān)系可表示為:
y=f(x),其中x稱為自變量,y稱為因變量一個自變量,各觀測點落在一條線上xy12/24/202271)函數(shù)關(guān)系是一一對應(yīng)的確定關(guān)系;xy12函數(shù)關(guān)系的例子某種商品的銷售額(y)與銷售量(x)之間的關(guān)系可表示為y=px
(p為單價)圓的面積(S)與半徑之間的關(guān)系可表示為S=R2
企業(yè)的原材料消耗額(y)與產(chǎn)量(x1)、單位產(chǎn)量消耗(x2)、原材料價格(x3)之間的關(guān)系可表示為y=x1x2x3
12/24/20228函數(shù)關(guān)系的例子12/16/202282)相關(guān)關(guān)系(correlation)當一個或幾個相互聯(lián)系的變量取一定數(shù)值時,與之相對應(yīng)的另一變量的值雖然不確定,但它仍按某種規(guī)律在一定的范圍內(nèi)變化。變量間的這種相互關(guān)系,稱為具有不確定性的相關(guān)關(guān)系。用相關(guān)與回歸分析方法研究
這種關(guān)系有二個明顯特點:1)現(xiàn)象之間確實存在數(shù)量上的依存關(guān)系,即某一社會經(jīng)濟現(xiàn)象變化要引起另一社會經(jīng)濟現(xiàn)象的變化;2)現(xiàn)象之間的這種依存關(guān)系是不嚴格的,即無法用數(shù)學公式嚴格表示。12/24/202292)相關(guān)關(guān)系(correlation)當一個或幾個相互聯(lián)系的一般可表示為Y=f(X,u)(u為隨機變量)當變量x取某個值時,變量y的取值可能有幾個各觀測點分布在直線周圍(一個自變量)xy12/24/202210一般可表示為Y=f(X,u)(u為隨機變量)相關(guān)關(guān)系的例子父親身高(y)與子女身高(x)之間的關(guān)系收入水平(y)與受教育程度(x)之間的關(guān)系糧食畝產(chǎn)量(y)與施肥量(x1)、降雨量(x2)、溫度(x3)之間的關(guān)系商品的消費量(y)與居民收入(x)之間的關(guān)系商品銷售額(y)與廣告費支出(x)之間的關(guān)系12/24/202211相關(guān)關(guān)系的例子12/16/202211函數(shù)關(guān)系和相關(guān)關(guān)系,在一定條件下是可以互相轉(zhuǎn)化的函數(shù)關(guān)系存在觀測誤差相關(guān)關(guān)系規(guī)律性認識12/24/202212函數(shù)關(guān)系和相關(guān)關(guān)系,在一定條件下是可以互相轉(zhuǎn)化的函數(shù)關(guān)系存在2.相關(guān)關(guān)系的種類●(1)
從涉及的變量數(shù)量看簡單相關(guān):兩個現(xiàn)象的相關(guān)多重相關(guān)(復相關(guān)):三個或三個以上●(2)從變量相關(guān)關(guān)系的表現(xiàn)形式看線性相關(guān)——散布圖接近一條直線非線性相關(guān)——散布圖接近一條曲線12/24/2022132.相關(guān)關(guān)系的種類●(1)
從涉及的變量數(shù)量看12/1●
(3)從變量相關(guān)關(guān)系變化的方向看正相關(guān)——兩個變量同方向變化同增同減負相關(guān)——兩個變量反方向變化一增一減12/24/202214●
(3)從變量相關(guān)關(guān)系變化的方向看12/16/202214●(4)從變量相關(guān)的程度看完全相關(guān)不相關(guān)不完全相關(guān)12/24/202215●(4)從變量相關(guān)的程度看12/16/2022153.相關(guān)關(guān)系的描述對現(xiàn)象變量之間是否存在相關(guān)關(guān)系以及存在怎樣的相關(guān)關(guān)系進行分析、作出判斷,這是進行相關(guān)分析的前提。通過編制相關(guān)表和相關(guān)圖,可以直觀地、大致地判斷現(xiàn)象變量之間是否存在相關(guān)關(guān)系以及關(guān)系的類型。12/24/2022163.相關(guān)關(guān)系的描述對現(xiàn)象變量之間是否存在相關(guān)關(guān)系以及存在怎相關(guān)表是表現(xiàn)現(xiàn)象變量之間相關(guān)關(guān)系的表格。是根據(jù)自變量大小的順序進行排列所編制的表。
(1)相關(guān)表12/24/202217相關(guān)表是表現(xiàn)現(xiàn)象變量之間相關(guān)關(guān)系的表格。是根據(jù)自變量大小的順編號人均月銷售額(千元)利潤率(%)1234567891013345667783.06.26.68.110.412.612.316.316.818.5例1簡單相關(guān)表:自變量的值從小到大順序排列,因變量的值一一對應(yīng)平行排列編制。為研究商店人均月銷售額和利潤率的關(guān)系,調(diào)查10家商店取得10對數(shù)據(jù),以人均銷售額為自變量,利潤率為因變量,編制簡單相關(guān)表12/24/202218編號人均月銷售額(千元)利潤率(%)123456789101所謂相關(guān)圖,是把相關(guān)的兩個變量之間的關(guān)系在平面直角坐標(第一象限)中反映出來。通常將自變量(x)置于橫軸上,因變量(y)置于縱軸上,而將兩個變量相對應(yīng)的變量值用坐標點形式描繪出來。相關(guān)圖就是用相關(guān)點的分布狀況來描述相關(guān)關(guān)系的,所以又稱為散點圖。根據(jù)相關(guān)圖,可以直觀地看出變量之間相關(guān)關(guān)系的模式。(2)相關(guān)圖12/24/202219所謂相關(guān)圖,是把相關(guān)的兩個變量之間的關(guān)系在平面直角坐標(第一例如,前述人均月銷售額與利潤率的關(guān)系,可用相關(guān)圖表示如下:利潤率(%)人均銷售額(千元)120人均銷售額與利潤率相關(guān)圖51015238456712/24/202220例如,前述人均月銷售額與利潤率的關(guān)系,可用相關(guān)圖表示如下:利不相關(guān)負線性相關(guān)正線性相關(guān)非線性相關(guān)完全負線性相關(guān)完全正線性相關(guān)x與y的一些可能關(guān)系的散點圖12/24/202221不相關(guān)負線性相關(guān)相關(guān)分析的作用1.確定現(xiàn)象之間是否確有依存關(guān)系,這是相關(guān)分析的前提。2.確定相關(guān)關(guān)系的表現(xiàn)形式。是直線相關(guān),還是曲線相關(guān),這是相關(guān)分析的出發(fā)點;3.研究現(xiàn)象之間關(guān)系的密切程度和方向,并檢驗其有效性。12/24/202222相關(guān)分析的作用1.確定現(xiàn)象之間是否確有依存關(guān)系,這是相關(guān)分析
圖表形式雖然能直觀的展現(xiàn)變量之間的相關(guān)關(guān)系,但是對變量相關(guān)關(guān)系及相關(guān)程度的描述不夠精確。在統(tǒng)計學中,對不同類型的變量數(shù)據(jù),常采用各種相關(guān)系數(shù)來具體度量變量間相關(guān)的程度。簡單線性相關(guān)系數(shù);Spearman等級相關(guān)系數(shù);6.1.2相關(guān)系數(shù)12/24/202223圖表形式雖然能直觀的展現(xiàn)變量之間的簡單線性相關(guān)系數(shù)是在直線相關(guān)條件下,表明兩個現(xiàn)象之間相關(guān)關(guān)系的方向和密切程度的綜合性指標。這種相關(guān)系數(shù)是最常用的,簡稱為相關(guān)系數(shù)??傮w相關(guān)系數(shù)ρ樣本相關(guān)系數(shù)r1.簡單線性相關(guān)系數(shù)12/24/202224簡單線性相關(guān)系數(shù)是在直線相關(guān)條
總體相關(guān)系數(shù)反映總體兩個變量X和Y的線性相關(guān)程度。對于所研究的總體,表示兩個相互聯(lián)系變量相關(guān)程度的總體相關(guān)系數(shù)為:●總體相關(guān)系數(shù)12/24/202225總體相關(guān)系數(shù)反映總體兩個變量特點:
對于特定的總體來說,X和Y的數(shù)值是既定的,總體相關(guān)系數(shù)是客觀存在的特定數(shù)值。表現(xiàn)為一個常數(shù)。一般不可能直接觀測總體的兩個變量的全部數(shù)值,所以總體相關(guān)系數(shù)一般是不知道的。12/24/202226特點:12/16/202226●樣本相關(guān)系數(shù)通過X和Y的樣本觀測值去計算樣本相關(guān)系數(shù)。變量X和Y的樣本相關(guān)系數(shù)通常表示用:12/24/202227●樣本相關(guān)系數(shù)通過X和Y的樣本觀測值去計算樣為便于計算,相關(guān)系數(shù)可用下式計算:代入公式計算相關(guān)系數(shù):(做表格)編號XYXYX2Y21…合計12/24/202228為便于計算,相關(guān)系數(shù)可用下式計算:代入公式計算相關(guān)系數(shù):(做特點:
樣本相關(guān)系數(shù)是根據(jù)從總體中抽取的隨機樣本的觀測值計算出來的,是對總體相關(guān)系數(shù)的估計,它是個隨機變量。12/24/202229特點:樣本相關(guān)系數(shù)是根據(jù)從總體中抽取的為研究美國軟飲料公司的廣告費用X和銷售數(shù)量Y的關(guān)系,分析7種主要品牌公司的有關(guān)數(shù)據(jù)品牌名稱廣告費用X/百萬美元銷售數(shù)量Y/百萬箱Coca-Cola131.31929.2Pepsi-Cola92.41384.6Diet-Coke60.4811.4Sprite55.7541.5Dr.Pepper40.2546.9MoutainDew29.0535.67-up11.6219.5例12/24/202230為研究美國軟飲料公司的廣告費用X和銷售數(shù)量Y的關(guān)系,分析7種編號廣告費用x銷售數(shù)量yXYX2Y21131.31929.2253303.9617239.693721812.64292.41384.6127937.048537.761917117.16360.4811.449008.563648.16658369.96455.7541.530161.553102.49293222.25540.2546.921985.381616.04299099.61629.0535.615532.4841286867.36711.6219.52546.2134.5648180.25合計420.65968.7500475.0935119.77224669.2312/24/202231編號廣告費用x銷售數(shù)量yXYX2Y21131.31929.2對相關(guān)系數(shù)r的解釋:
(1)相關(guān)系數(shù)的取值在-1與1之間。(2)當r=0時,表明X與Y沒有線性相關(guān)關(guān)系。注意:r是對變量之間線性相關(guān)關(guān)系的度量。r=0只是表明兩個變量之間不存在線性關(guān)系,它并不意味著X與Y之間不存在其他類型的關(guān)系??赡艽嬖诜蔷€性關(guān)系。
12/24/202232對相關(guān)系數(shù)r的解釋:(1)相關(guān)系數(shù)的取值在-1與1之間(3)在大多數(shù)情況下,X與Y的樣本觀測值之間存在著一定的線性關(guān)系。即0<|r|<1
若r>0表明X與Y為正相關(guān);
若r<0表明X與Y為負相關(guān)。12/24/202233(3)在大多數(shù)情況下,X與Y的樣本觀測值之間存在著一定的(4)當|r|=1時,表明X與Y完全線性相關(guān):
若r=1,稱X與Y完全正相關(guān);若r=-1,稱X與Y完全負相關(guān)。一般標準:
0.8<|r|<1,表示高度相關(guān);0.5<|r|≤0.8,表示中度相關(guān);0.3<|r|≤0.5,表示低度相關(guān);0<|r|≤0.3,表示相關(guān)關(guān)系很弱,基本可以認為沒有線性相關(guān)關(guān)系。注:這樣的說明必須建立在通過顯著性檢驗的基礎(chǔ)上。12/24/202234(4)當|r|=1時,表明X與Y完全線性相關(guān):注:這樣的說相關(guān)系數(shù)
(取值及其意義)-1.0+1.00-0.5+0.5完全負相關(guān)無線性相關(guān)完全正相關(guān)負相關(guān)程度增加r正相關(guān)程度增加12/24/202235相關(guān)系數(shù)
(取值及其意義)-1.0+1.00-0.5+0.5使用相關(guān)分析的注意事項▲
X和Y都是相互對稱的隨機變量,所以▲相關(guān)系數(shù)只反映變量間的線性相關(guān)程度,不能說明非線性相關(guān)關(guān)系?!嚓P(guān)系數(shù)不能確定變量的因果關(guān)系,也不能說明相關(guān)關(guān)系具體接近于哪條直線。不能從一個變量的變化去推測另一個變量的具體變化?!M行相關(guān)分析要有實際意義。12/24/202236使用相關(guān)分析的注意事項▲X和Y都是相互對稱的隨機變量,注意:相關(guān)關(guān)系≠因果關(guān)系!典型的錯誤推斷:統(tǒng)計分析表明,慶祝生日次數(shù)越多的人越長壽。因此,慶祝生日有利于健康。調(diào)查表明,世界各國人均電視機擁有量與預(yù)期壽命存在很強的正相關(guān)性。因此,電視機擁有量越高,預(yù)期壽命越長。對小學各年級學生的抽樣調(diào)查表明,學生的識字水平與他們鞋子的尺寸高度正相關(guān)。因此,學生穿的鞋越大,他的識字水平就越高。12/24/202237注意:相關(guān)關(guān)系≠因果關(guān)系!典型的錯誤推斷:12/16/202.相關(guān)系數(shù)的顯著性檢驗
為什么要檢驗?樣本相關(guān)系數(shù)是隨抽樣而變動的隨機變量,只是對總體相關(guān)系數(shù)的估計。由于從總體中每抽取一個樣本,都可以根據(jù)其觀測值估計出一個樣本相關(guān)系數(shù)。樣本容量越小其可信度就越差。因此,相關(guān)系數(shù)的統(tǒng)計顯著性還有待檢驗。檢驗總體相關(guān)系數(shù)是否等于0;H0:ρ=0(原假設(shè))H1:ρ≠0(備擇假設(shè))12/24/2022382.相關(guān)系數(shù)的顯著性檢驗為什么要檢驗?12/16/2022檢驗的依據(jù):
如果X和Y都服從正態(tài)分布,在總體相關(guān)系數(shù)ρ=0的假設(shè)下,與樣本相關(guān)系數(shù)r有關(guān)的t
統(tǒng)計量服從自由度為n-2的t分布:
H0:ρ=0(原假設(shè))H1:ρ≠0(備擇假設(shè))12/24/202239檢驗的依據(jù):H0:ρ=0(原假設(shè))H1:ρ≠0對于給定的正數(shù),稱滿足條件:α012/24/202240對于給定的正數(shù),稱滿足條件:α012/16/202240顯著性水平和拒絕域(雙側(cè)檢驗)H0:ρ=0(原假設(shè))H1:ρ≠0(備擇假設(shè))0臨界值ta/2臨界值-ta/2a/2a/2
樣本統(tǒng)計量拒絕H0拒絕H01-置信水平12/24/202241顯著性水平和拒絕域(雙側(cè)檢驗)H0:ρ=0(原假設(shè))相關(guān)系數(shù)的檢驗方法1)提出原假設(shè)和備擇假設(shè)
H0:ρ=0(原假設(shè))H1:ρ≠0(備擇假設(shè))2)計算t統(tǒng)計量;3)給定顯著性水平α,查自由度為n-2的臨界值tα/2;4)若|t|≥tα/2,表明相關(guān)系數(shù)r在統(tǒng)計上是顯著的,應(yīng)否定ρ=0,而接受ρ≠0的假設(shè);5)反之,若|t|<tα/2,表明相關(guān)系數(shù)r在統(tǒng)計上是不顯著的,應(yīng)接受ρ=0的假設(shè)。12/24/202242相關(guān)系數(shù)的檢驗方法1)提出原假設(shè)和備擇假設(shè)12/16/202例題:某產(chǎn)品廣告費用和銷售額的資料序號廣告費用(萬元)銷售額(萬元)1230223433404442544564527556855896541066012/24/202243例題:某產(chǎn)品廣告費用和銷售額的資料序號廣告費用(萬元)銷售額相關(guān)系數(shù)12/24/202244相關(guān)系數(shù)12/16/202244解:n=10,r=0.9319,α=0.1計算
查表tα/2(n-2)=t0.05(10-2)=1.86
因為:|t|>tα/2
所以拒絕H0,表明r是顯著的;總體相關(guān)系數(shù)不為0,即廣告費用和銷售額高度正相關(guān)。假設(shè)檢驗H0:ρ=0H1:ρ≠012/24/202245解:n=10,r=0.9319,α=0.1查表t當變量不滿足正態(tài)分布要求或不是數(shù)量型變量時,簡單線性相關(guān)系數(shù)不宜使用,可以用Spearman等級相關(guān)系數(shù)作相關(guān)性分析。
6.1.3Spearman等級相關(guān)系數(shù)12/24/202246當變量不滿足正態(tài)分布要求或不是數(shù)量
對于樣本容量為n的變量x和y,如果取值都可以分為n個等級,而且樣本的n個單位分別不重復地屬于x和y的不同等級,沒有兩個單位取相同等級的情況,并且用
di表示樣本單位屬于x的等級與
y的等級的級差。Spearman等級相關(guān)系數(shù)為:
式中,
12/24/202247式中,12/16/202247將廣告費用X和銷售數(shù)量Y用秩次表示,并計算等級級差品牌名稱廣告費用X(百萬美元)銷售數(shù)量Y(百萬箱)等級級差di2變量秩次qi變量秩次sidi=qi-siCoca-Cola131.311929.2100Pepsi-Cola92.421384.62007-up11.67219.5700Sprite55.74541.55-11Dr.Pepper40.25546.9411MoutainDew29.06535.6600Diet-Coke60.43811.4300例12/24/202248將廣告費用X和銷售數(shù)量Y用秩次表示,并計算等級級差品牌名稱廣根據(jù)等級級差,計算等級相關(guān)系數(shù)表明美國軟飲料公司廣告費用與銷售數(shù)量等級正相關(guān)程度比較高。12/24/202249根據(jù)等級級差,計算等級相關(guān)系數(shù)表明美國軟飲料公司廣告費用與銷6.2一元線性回歸分析在兩個變量間存在線性相關(guān)關(guān)系的情況下,為了明確二者聯(lián)系的具體數(shù)量規(guī)律,需要進行回歸分析。12/24/2022506.2一元線性回歸分析在兩個變量間存在1.相關(guān)分析就是用一個指標(相關(guān)系數(shù))來表明現(xiàn)象間相互依存關(guān)系的密切程度。(方向和程度)但是相關(guān)分析不能說明變量間相關(guān)關(guān)系的具體形式,也不能從一個變量的變化去推測另一個變量的具體變化。如果要具體測定變量之間相關(guān)關(guān)系的數(shù)量形式,需要運用回歸分析。6.2.1相關(guān)與回歸分析的聯(lián)系12/24/2022511.相關(guān)分析6.2.1相關(guān)與回歸分析的聯(lián)系12/16/2回歸這個術(shù)語是由英國著名統(tǒng)計學家FrancisGalton在19世紀末期研究孩子及他們的父母的身高時提出來的。Galton發(fā)現(xiàn)身材高的父母,他們的孩子也高。但這些孩子平均起來并不像他們的父母那樣高。對于比較矮的父母情形也類似:他們的孩子比較矮,但這些孩子的平均身高要比他們的父母的平均身高高。Galton把這種孩子的身高向中間值靠近的趨勢稱之為一種回歸效應(yīng),而他發(fā)展的研究兩個數(shù)值變量的方法稱為回歸分析。2.回歸分析12/24/202252回歸這個術(shù)語是由英國著名統(tǒng)計學家FrancisGalton回歸的古典意義:高爾頓遺傳學的回歸概念
父母身高與子女身高的關(guān)系:
無論高個子或低個子的子女都有向人的平均身高回歸的趨勢12/24/202253回歸的古典意義:12/16/202253
回歸的現(xiàn)代意義在建立數(shù)學模型的基礎(chǔ)上,一個因變量對若干自變量依存關(guān)系的研究回歸的目的(實質(zhì)):由固定的自變量去估計因變量的平均值樣本總體自變量固定值估計因變量平均值12/24/202254回歸的現(xiàn)代意義在建立數(shù)學模型的基礎(chǔ)上,一個因變量對1.按自變量的多少分類簡單回歸:研究一個自變量的回歸分析;復回歸:研究多個自變量的回歸分析。(多元回歸)2.按回歸的表現(xiàn)形式分類線性回歸:回歸的規(guī)律在圖形上表現(xiàn)為一條直線;非線性回歸:回歸的規(guī)律在圖形上表現(xiàn)為形態(tài)各異的各種曲線?;貧w分析的種類12/24/2022551.按自變量的多少分類回歸分析的種類12/16/2022553.相關(guān)分析與回歸分析的聯(lián)系●共同的研究對象:都是對變量間相關(guān)關(guān)系的分析●在具體應(yīng)用時,常常必須互相補充。相關(guān)分析需要依賴回歸分析來表明現(xiàn)象數(shù)量相關(guān)的具體形式,而回歸分析則需要依靠相關(guān)分析來表明現(xiàn)象數(shù)量變化的相關(guān)程度。●只有當變量間存在高度相關(guān)時,用回歸分析去尋求相關(guān)的具體數(shù)學形式才有實際意義,即無相關(guān)就無回歸,相關(guān)程度越高,回歸越好;12/24/2022563.相關(guān)分析與回歸分析的聯(lián)系●共同的研究對象:都是對變量間相1)在研究目的上的區(qū)別相關(guān)分析研究變量之間相關(guān)的方向和相關(guān)的程度?;貧w分析則是研究變量之間相互關(guān)系的具體形式,尋求相關(guān)的數(shù)學方程式,從己知量來推測未知量,從而為估算和預(yù)測提供了一個重要的方法。4.相關(guān)與回歸分析在研究目的和方法上是有明顯區(qū)別12/24/2022571)在研究目的上的區(qū)別4.相關(guān)與回歸分析在研究目的和方法2)在變量處理上的區(qū)別相關(guān)分析對稱的對待相互聯(lián)系的變量,可以不必確定變量中哪個是自變量,哪個是因變量,其所涉及的變量可以都是隨機變量。回歸分析則必須事先研究確定具有相關(guān)關(guān)系的變量中哪個為自變量,哪個為因變量。一般地說,回歸分析中因變量是隨機的,而把自變量作為研究時給定的非隨機變量。3)在結(jié)果上的區(qū)別:現(xiàn)象之間相關(guān)關(guān)系分析,只能計算一個相關(guān)系數(shù);回歸分析時,回歸方程可能有兩個,即當現(xiàn)象互為因果關(guān)系時。12/24/2022582)在變量處理上的區(qū)別12/16/2022586.2一元線性回歸模型
設(shè)x為自變量,y為因變量,y與x之間存在某種線性關(guān)系,即一元線性回歸模型為其中ε表示各隨機因素對y的影響的總和,根據(jù)中心極限定理,可以認為它服從正態(tài)分布,即
那么y就是一個以回歸直線上的對應(yīng)值為中心的正態(tài)隨機變量(6.2.1)
、一元線性回歸模型12/24/2022596.2一元線性回歸模型設(shè)x為自變量,y為因6.2一元線性回歸模型給定x,y的n對觀測值xi,yi,代入式(6.2.1)得
(6.2.1’)當b>0時,x與y為正相關(guān),當b<0時,x與y為負相關(guān)。、一元線性回歸模型稱(6.2.1’)為一元線性回歸模型
12/24/2022606.2一元線性回歸模型給定x,y的n對觀測值xi,yi,二、
OLS(OrdinaryLeastSquare)估計OLS的中心思想
最小二乘法的中心思想,是通過數(shù)學模型,配合一條較為理想的趨勢線。這條趨勢線必須滿足下列兩點要求:(1)原數(shù)列的觀測值與模型估計值的離差平方和為最??;(2)原數(shù)列的觀測值與模型估計值的離差總和為0。6.2一元線性回歸模型12/24/202261二、OLS(OrdinaryLeastSquare)二、OLS(OrdinaryLeastSquare)估計12/24/202262二、OLS(OrdinaryLeastSquare)二、OLS(OrdinaryLeastSquare)估計12/24/202263二、OLS(OrdinaryLeastSquare)估二、OLS(OrdinaryLeastSquare)估計12/24/202264二、OLS(OrdinaryLeastSquare)估OLS的特性
最小二乘估計量
具有線性、無偏性和最小方差性等良好的性質(zhì)。線性、無偏性和最小方差性統(tǒng)稱BLUE性質(zhì)。滿足BLUE性質(zhì)的估計量稱為BLUE估計量。
二、OLS(OrdinaryLeastSquare)估計12/24/202265OLS的特性二、OLS(OrdinaryLeastSq
回歸方程的檢驗在一元線性回歸模型中最常用的顯著性檢驗方法有:相關(guān)系數(shù)檢驗法F檢驗法t檢驗法6.3線性回歸模型的檢驗
12/24/202266回歸方程的檢驗6.3線性回歸模型的檢驗12/16/20三、離差平方和的分解與可決系數(shù)
在一元線性回歸模型中,觀測值的數(shù)值會發(fā)生波動,這種波動稱為變差。變差產(chǎn)生的原因如下:①受自變量變動的影響,即x取值不同時的影響;②受其他因素(包括觀測和實驗中產(chǎn)生的誤差)的影響。為了分析這兩方面的影響,需要對總變差進行分解。6.3線性回歸模型的檢驗12/24/202267三、離差平方和的分解與可決系數(shù)6.3線性回歸模型的檢驗1三、相關(guān)系數(shù)離差平方和的分解
其中,Q1成為殘差平方和,Q2成為回歸平方和12/24/202268三、相關(guān)系數(shù)離差平方和的分解其中,Q1成為殘差平方和三、相關(guān)系數(shù)可決系數(shù)
12/24/202269三、相關(guān)系數(shù)可決系數(shù)12/16/202269可決系數(shù)的特點
(1)可決系數(shù)是非負的統(tǒng)計量;(2)可決系數(shù)取值范圍:0≤R2≤1;當所有的觀測值都位于回歸直線上時,殘差平方和SSE=0,這時R2=1,說明總離差可以完全由所估計的樣本回歸直線來解釋;總離差可解釋離差x12/24/202270可決系數(shù)的特點(1)可決系數(shù)是非負的統(tǒng)計量;總離差可解釋三、相關(guān)系數(shù)
相關(guān)系數(shù)的取值范圍為
當R=0時,說明回歸變差為0,自變量x的變動對總變差毫無影響,這種情況稱y與x不相關(guān)。當|R|=1時,說明回歸變差等于總變差,總變差的變化完全由自變量x的變化所引起,這種情況成為完全相關(guān)。這時因變量y是自變量x的線性函數(shù),二者之間呈函數(shù)關(guān)系。
當0<|R|<1時,說明自變量x的變動對總變差有部分影響,這種情況成為普通相關(guān)。
12/24/202271三、相關(guān)系數(shù)相關(guān)系數(shù)的取值范圍為當|R|=1時,三、相關(guān)系數(shù)12/24/202272三、相關(guān)系數(shù)12/16/202272四、顯著性檢驗相關(guān)系數(shù)檢驗法
第一步,計算相關(guān)系數(shù)R;
第二步,根據(jù)回歸模型的自由度(n-2)和給定的顯著性水平值α,從相關(guān)系數(shù)臨界值表中查出臨界值;第三步,判別。若|R|≥Rα(n-2),表明兩變量之間線性相關(guān)關(guān)系顯著,檢驗通過,這時回歸模型可以用來預(yù)測;若|R|<Rα,表明兩變量之間線性相關(guān)關(guān)系不顯著,檢驗不通過。12/24/202273四、顯著性檢驗相關(guān)系數(shù)檢驗法12/16/202273四、顯著性檢驗F檢驗法
F服從第一自由度為1,第二自由度為n-2的F分布。對給定的顯著性水平,查F分布表可得臨界值。
12/24/202274四、顯著性檢驗F檢驗法F服從第一自由度為1四、顯著性檢驗12/24/202275四、顯著性檢驗12/16/202275點估計
在一元線性回歸模型中,對于自變量x的一個給定值,代入回歸模型,就可以求得一個對應(yīng)的回歸預(yù)測值,又稱為點估計值。
區(qū)間估計
所謂預(yù)測區(qū)間就是指在一定的顯著性水平上,依據(jù)數(shù)理統(tǒng)計方法計算出的包含預(yù)測對象未來真實值的某一區(qū)間范圍。五、預(yù)測區(qū)間12/24/202276點估計五、預(yù)測區(qū)間12/16/202276五、預(yù)測區(qū)間點估計值的統(tǒng)計性質(zhì)
12/24/202277五、預(yù)測區(qū)間點估計值的統(tǒng)計性質(zhì)12/16/202277五、預(yù)測區(qū)間12/24/202278五、預(yù)測區(qū)間12/16/202278五、預(yù)測區(qū)間
由于總體方差往往是未知的,所以,常用總體方差的無偏估計量來代替。式中,Sy稱為y的標準誤差,實際計算時可用其簡捷式
12/24/202279五、預(yù)測區(qū)間由于總體方差往往是未知的,所以,常五、預(yù)測區(qū)間預(yù)測值和預(yù)測誤差預(yù)測誤差的數(shù)學期望與方差12/24/202280五、預(yù)測區(qū)間預(yù)測值和預(yù)測誤差預(yù)測誤差的數(shù)學期望與方差12五、預(yù)測區(qū)間令當實際觀測值較多時,一般n>30,式(6.2.31)可簡化為(6.2.31)12/24/202281五、預(yù)測區(qū)間令當實際觀測值較多時,一般n>30,式(6.2.六、應(yīng)用舉例
例6.2.1某省1978-1989年國內(nèi)生產(chǎn)總值和固定資產(chǎn)投資完成額資料如表6.2.1所示。12/24/202282六、應(yīng)用舉例例6.2.1某省1978-19六、應(yīng)用舉例
試配合適當?shù)幕貧w模型并進行顯著性檢驗;若1999年該省固定資產(chǎn)投資完成額為249億元,當顯著性水平=0.05時,試估計1990年國內(nèi)生產(chǎn)總值的預(yù)測區(qū)間。解:1.繪制散點圖
12/24/202283六、應(yīng)用舉例試配合適當?shù)幕貧w模型并進行顯著性檢驗;若六、應(yīng)用舉例2.設(shè)一元線性回歸模型為3.計算回歸系數(shù)12/24/202284六、應(yīng)用舉例2.設(shè)一元線性回歸模型為3.計算回歸系數(shù)12/1六、應(yīng)用舉例4.檢驗線性關(guān)系的顯著性
12/24/202285六、應(yīng)用舉例4.檢驗線性關(guān)系的顯著性12/16/20228六、應(yīng)用舉例12/24/202286六、應(yīng)用舉例12/16/202286六、應(yīng)用舉例5.預(yù)測(2)當顯著性水平,自由度=n-m=12-2=10時,查t分布表得(1)計算估計值的標準誤差12/24/202287六、應(yīng)用舉例5.預(yù)測(2)當顯著性水平,自由度=n-m=12六、應(yīng)用舉例12/24/202288六、應(yīng)用舉例12/16/202288六、應(yīng)用舉例(excel計算)在excel的工作表中輸入如表6.2.1所示的樣本數(shù)據(jù);點擊“工具”-“數(shù)據(jù)分析”-“回歸”,在出現(xiàn)的數(shù)據(jù)分析對話框中選擇,如圖6.2.2所示。圖6.2.2a)應(yīng)用excel軟件求回歸分析相關(guān)參數(shù)12/24/202289六、應(yīng)用舉例(excel計算)在excel的工作表中輸入如表
點擊圖6.2.2a)所示對話框中的確定,彈出“回歸”對話框,在Y值輸入?yún)^(qū)域,拖動鼠標選擇Y樣本值B2:B13,在X值輸入?yún)^(qū)域,拖動鼠標選擇X樣本值A(chǔ)2:A13,如圖6.2.2b)所示。
六、應(yīng)用舉例(excel計算)圖6.2.2b)應(yīng)用excel軟件求回歸分析相關(guān)參數(shù)
12/24/202290點擊圖6.2.2a)所示對話框中的確定,彈出“回歸”對話
點擊圖6.2.2b)所示中的確定,彈出回歸分析有關(guān)參數(shù)的窗口,如圖6.2.2c)所示。六、應(yīng)用舉例(excel計算)圖6.2.2c)應(yīng)用excel軟件求回歸分析相關(guān)參數(shù)12/24/202291點擊圖6.2.2b)所示中的確定,彈出回歸分析有關(guān)參數(shù)七、幾個應(yīng)當注意的問題
1.重視數(shù)據(jù)的收集和甄別在收集數(shù)據(jù)的過程中可能會遇到以下困難:(1)一些變量無法直接觀測。(2)數(shù)據(jù)缺失或出現(xiàn)異常數(shù)據(jù)。(3)數(shù)據(jù)量不夠。(4)數(shù)據(jù)不準確、不一致、有矛盾。2.合理確定數(shù)據(jù)的單位
在建立回歸方程時,如果不同變量的單位選取不適當,導致模型中各變量的數(shù)量級差異懸殊,往往會給建模和模型解釋帶來諸多不便。比如模型中有的變量用小數(shù)位表示,有的變量用百位或千位數(shù)表示,可能會因舍入誤差使模型計算的準確性受到影響。因此,適當選取變量的單位,使模型中各變量的數(shù)量級大體一致是一種明智的做法。12/24/202292七、幾個應(yīng)當注意的問題1.重視數(shù)據(jù)的收集和甄別12/16/第六章相關(guān)與回歸分析12/24/202293第六章相關(guān)與回歸分析12/16/20221第一節(jié)相關(guān)分析第二節(jié)一元線性回歸分析12/24/202294第一節(jié)相關(guān)分析12/16/20222相關(guān)分析和回歸分析有什么用?一個國家香煙的消費量與癌癥的發(fā)病率有關(guān)系嗎?父母的身高是否影響其子女的身高?公司股票的市盈率與老總的薪酬有關(guān)聯(lián)嗎?接受高學歷教育的人是否比低學歷的人有更高的薪水?……現(xiàn)實世界中存在著大量諸如此類的問題,用統(tǒng)計語言來概況,就是兩個或者更多個變量之間,是否存在相互關(guān)聯(lián)?進而,存在相關(guān)關(guān)系的變量間又是如何相互影響的?相關(guān)分析和回歸分析可以用來回答這類問題,它們是研究現(xiàn)象之間相互關(guān)系的兩種基本方法。本章介紹這兩種方法的理論與應(yīng)用。12/24/202295相關(guān)分析和回歸分析有什么用?一個國家香煙的消費量與癌癥的發(fā)病
實例1:
中國婦女生育水平的決定因素是什么?婦女生育水平除了受計劃生育政策影響以外,還可能與社會、經(jīng)濟、文化等多種因素有關(guān)。1.影響中國婦女生育率變動的因素有哪些?2.各種因素對生育率的作用方向和作用程度如何?3.哪些因素是影響婦女生育率主要的決定性因素?4.如何評價計劃生育政策在生育水平變動中的作用?5.計劃生育政策與經(jīng)濟因素比較,什么是影響生育率的決定因素?6.如果某些地區(qū)的計劃生育政策及社會、經(jīng)濟、文化等因素發(fā)生重大變化,預(yù)期對這些地區(qū)的婦女生育水平會產(chǎn)生怎樣的影響?12/24/202296
實例1:
中國婦女生育水平的決定因素是什么?婦女生育水平除
據(jù)世界衛(wèi)生組織統(tǒng)計,全球肥胖癥患者達3億人,其中兒童占2200萬人,11億人體重過重。肥胖癥和體重超常早已不是發(fā)達國家的“專利”,已遍及五大洲。目前,全球因”吃”致病乃至死亡的人數(shù)已高于因饑餓死亡的人數(shù)。(引自《光明日報》劉軍/文)問題:肥胖癥和體重超常與死亡人數(shù)真有顯著的數(shù)量關(guān)系嗎?這些類型的問題可以運用相關(guān)分析與回歸分析的方法去解決。實例2:全球吃死的人比餓死的人多?12/24/202297據(jù)世界衛(wèi)生組織統(tǒng)計,全球肥胖癥患者達3億人,6.1相關(guān)分析7.1.1相關(guān)關(guān)系的概念客觀現(xiàn)象之間的數(shù)量依存關(guān)系,可以分為:一種是函數(shù)關(guān)系;一種是相關(guān)關(guān)系。1.函數(shù)關(guān)系與相關(guān)關(guān)系7.1.1相關(guān)關(guān)系的概念7.1.1相關(guān)關(guān)系的概念6.1.1相關(guān)關(guān)系的概念12/24/2022986.1相關(guān)分析7.1.1相關(guān)關(guān)系的概念客觀現(xiàn)象之1)函數(shù)關(guān)系是一一對應(yīng)的確定關(guān)系;當一個或幾個變量取一定的值時,另一個變量有確定值與之相對應(yīng),我們稱這種關(guān)系為確定性的函數(shù)關(guān)系??梢杂脭?shù)學分析的方法去研究一般情況下確定性函數(shù)關(guān)系可表示為:
y=f(x),其中x稱為自變量,y稱為因變量一個自變量,各觀測點落在一條線上xy12/24/2022991)函數(shù)關(guān)系是一一對應(yīng)的確定關(guān)系;xy12函數(shù)關(guān)系的例子某種商品的銷售額(y)與銷售量(x)之間的關(guān)系可表示為y=px
(p為單價)圓的面積(S)與半徑之間的關(guān)系可表示為S=R2
企業(yè)的原材料消耗額(y)與產(chǎn)量(x1)、單位產(chǎn)量消耗(x2)、原材料價格(x3)之間的關(guān)系可表示為y=x1x2x3
12/24/2022100函數(shù)關(guān)系的例子12/16/202282)相關(guān)關(guān)系(correlation)當一個或幾個相互聯(lián)系的變量取一定數(shù)值時,與之相對應(yīng)的另一變量的值雖然不確定,但它仍按某種規(guī)律在一定的范圍內(nèi)變化。變量間的這種相互關(guān)系,稱為具有不確定性的相關(guān)關(guān)系。用相關(guān)與回歸分析方法研究
這種關(guān)系有二個明顯特點:1)現(xiàn)象之間確實存在數(shù)量上的依存關(guān)系,即某一社會經(jīng)濟現(xiàn)象變化要引起另一社會經(jīng)濟現(xiàn)象的變化;2)現(xiàn)象之間的這種依存關(guān)系是不嚴格的,即無法用數(shù)學公式嚴格表示。12/24/20221012)相關(guān)關(guān)系(correlation)當一個或幾個相互聯(lián)系的一般可表示為Y=f(X,u)(u為隨機變量)當變量x取某個值時,變量y的取值可能有幾個各觀測點分布在直線周圍(一個自變量)xy12/24/2022102一般可表示為Y=f(X,u)(u為隨機變量)相關(guān)關(guān)系的例子父親身高(y)與子女身高(x)之間的關(guān)系收入水平(y)與受教育程度(x)之間的關(guān)系糧食畝產(chǎn)量(y)與施肥量(x1)、降雨量(x2)、溫度(x3)之間的關(guān)系商品的消費量(y)與居民收入(x)之間的關(guān)系商品銷售額(y)與廣告費支出(x)之間的關(guān)系12/24/2022103相關(guān)關(guān)系的例子12/16/202211函數(shù)關(guān)系和相關(guān)關(guān)系,在一定條件下是可以互相轉(zhuǎn)化的函數(shù)關(guān)系存在觀測誤差相關(guān)關(guān)系規(guī)律性認識12/24/2022104函數(shù)關(guān)系和相關(guān)關(guān)系,在一定條件下是可以互相轉(zhuǎn)化的函數(shù)關(guān)系存在2.相關(guān)關(guān)系的種類●(1)
從涉及的變量數(shù)量看簡單相關(guān):兩個現(xiàn)象的相關(guān)多重相關(guān)(復相關(guān)):三個或三個以上●(2)從變量相關(guān)關(guān)系的表現(xiàn)形式看線性相關(guān)——散布圖接近一條直線非線性相關(guān)——散布圖接近一條曲線12/24/20221052.相關(guān)關(guān)系的種類●(1)
從涉及的變量數(shù)量看12/1●
(3)從變量相關(guān)關(guān)系變化的方向看正相關(guān)——兩個變量同方向變化同增同減負相關(guān)——兩個變量反方向變化一增一減12/24/2022106●
(3)從變量相關(guān)關(guān)系變化的方向看12/16/202214●(4)從變量相關(guān)的程度看完全相關(guān)不相關(guān)不完全相關(guān)12/24/2022107●(4)從變量相關(guān)的程度看12/16/2022153.相關(guān)關(guān)系的描述對現(xiàn)象變量之間是否存在相關(guān)關(guān)系以及存在怎樣的相關(guān)關(guān)系進行分析、作出判斷,這是進行相關(guān)分析的前提。通過編制相關(guān)表和相關(guān)圖,可以直觀地、大致地判斷現(xiàn)象變量之間是否存在相關(guān)關(guān)系以及關(guān)系的類型。12/24/20221083.相關(guān)關(guān)系的描述對現(xiàn)象變量之間是否存在相關(guān)關(guān)系以及存在怎相關(guān)表是表現(xiàn)現(xiàn)象變量之間相關(guān)關(guān)系的表格。是根據(jù)自變量大小的順序進行排列所編制的表。
(1)相關(guān)表12/24/2022109相關(guān)表是表現(xiàn)現(xiàn)象變量之間相關(guān)關(guān)系的表格。是根據(jù)自變量大小的順編號人均月銷售額(千元)利潤率(%)1234567891013345667783.06.26.68.110.412.612.316.316.818.5例1簡單相關(guān)表:自變量的值從小到大順序排列,因變量的值一一對應(yīng)平行排列編制。為研究商店人均月銷售額和利潤率的關(guān)系,調(diào)查10家商店取得10對數(shù)據(jù),以人均銷售額為自變量,利潤率為因變量,編制簡單相關(guān)表12/24/2022110編號人均月銷售額(千元)利潤率(%)123456789101所謂相關(guān)圖,是把相關(guān)的兩個變量之間的關(guān)系在平面直角坐標(第一象限)中反映出來。通常將自變量(x)置于橫軸上,因變量(y)置于縱軸上,而將兩個變量相對應(yīng)的變量值用坐標點形式描繪出來。相關(guān)圖就是用相關(guān)點的分布狀況來描述相關(guān)關(guān)系的,所以又稱為散點圖。根據(jù)相關(guān)圖,可以直觀地看出變量之間相關(guān)關(guān)系的模式。(2)相關(guān)圖12/24/2022111所謂相關(guān)圖,是把相關(guān)的兩個變量之間的關(guān)系在平面直角坐標(第一例如,前述人均月銷售額與利潤率的關(guān)系,可用相關(guān)圖表示如下:利潤率(%)人均銷售額(千元)120人均銷售額與利潤率相關(guān)圖51015238456712/24/2022112例如,前述人均月銷售額與利潤率的關(guān)系,可用相關(guān)圖表示如下:利不相關(guān)負線性相關(guān)正線性相關(guān)非線性相關(guān)完全負線性相關(guān)完全正線性相關(guān)x與y的一些可能關(guān)系的散點圖12/24/2022113不相關(guān)負線性相關(guān)相關(guān)分析的作用1.確定現(xiàn)象之間是否確有依存關(guān)系,這是相關(guān)分析的前提。2.確定相關(guān)關(guān)系的表現(xiàn)形式。是直線相關(guān),還是曲線相關(guān),這是相關(guān)分析的出發(fā)點;3.研究現(xiàn)象之間關(guān)系的密切程度和方向,并檢驗其有效性。12/24/2022114相關(guān)分析的作用1.確定現(xiàn)象之間是否確有依存關(guān)系,這是相關(guān)分析
圖表形式雖然能直觀的展現(xiàn)變量之間的相關(guān)關(guān)系,但是對變量相關(guān)關(guān)系及相關(guān)程度的描述不夠精確。在統(tǒng)計學中,對不同類型的變量數(shù)據(jù),常采用各種相關(guān)系數(shù)來具體度量變量間相關(guān)的程度。簡單線性相關(guān)系數(shù);Spearman等級相關(guān)系數(shù);6.1.2相關(guān)系數(shù)12/24/2022115圖表形式雖然能直觀的展現(xiàn)變量之間的簡單線性相關(guān)系數(shù)是在直線相關(guān)條件下,表明兩個現(xiàn)象之間相關(guān)關(guān)系的方向和密切程度的綜合性指標。這種相關(guān)系數(shù)是最常用的,簡稱為相關(guān)系數(shù)??傮w相關(guān)系數(shù)ρ樣本相關(guān)系數(shù)r1.簡單線性相關(guān)系數(shù)12/24/2022116簡單線性相關(guān)系數(shù)是在直線相關(guān)條
總體相關(guān)系數(shù)反映總體兩個變量X和Y的線性相關(guān)程度。對于所研究的總體,表示兩個相互聯(lián)系變量相關(guān)程度的總體相關(guān)系數(shù)為:●總體相關(guān)系數(shù)12/24/2022117總體相關(guān)系數(shù)反映總體兩個變量特點:
對于特定的總體來說,X和Y的數(shù)值是既定的,總體相關(guān)系數(shù)是客觀存在的特定數(shù)值。表現(xiàn)為一個常數(shù)。一般不可能直接觀測總體的兩個變量的全部數(shù)值,所以總體相關(guān)系數(shù)一般是不知道的。12/24/2022118特點:12/16/202226●樣本相關(guān)系數(shù)通過X和Y的樣本觀測值去計算樣本相關(guān)系數(shù)。變量X和Y的樣本相關(guān)系數(shù)通常表示用:12/24/2022119●樣本相關(guān)系數(shù)通過X和Y的樣本觀測值去計算樣為便于計算,相關(guān)系數(shù)可用下式計算:代入公式計算相關(guān)系數(shù):(做表格)編號XYXYX2Y21…合計12/24/2022120為便于計算,相關(guān)系數(shù)可用下式計算:代入公式計算相關(guān)系數(shù):(做特點:
樣本相關(guān)系數(shù)是根據(jù)從總體中抽取的隨機樣本的觀測值計算出來的,是對總體相關(guān)系數(shù)的估計,它是個隨機變量。12/24/2022121特點:樣本相關(guān)系數(shù)是根據(jù)從總體中抽取的為研究美國軟飲料公司的廣告費用X和銷售數(shù)量Y的關(guān)系,分析7種主要品牌公司的有關(guān)數(shù)據(jù)品牌名稱廣告費用X/百萬美元銷售數(shù)量Y/百萬箱Coca-Cola131.31929.2Pepsi-Cola92.41384.6Diet-Coke60.4811.4Sprite55.7541.5Dr.Pepper40.2546.9MoutainDew29.0535.67-up11.6219.5例12/24/2022122為研究美國軟飲料公司的廣告費用X和銷售數(shù)量Y的關(guān)系,分析7種編號廣告費用x銷售數(shù)量yXYX2Y21131.31929.2253303.9617239.693721812.64292.41384.6127937.048537.761917117.16360.4811.449008.563648.16658369.96455.7541.530161.553102.49293222.25540.2546.921985.381616.04299099.61629.0535.615532.4841286867.36711.6219.52546.2134.5648180.25合計420.65968.7500475.0935119.77224669.2312/24/2022123編號廣告費用x銷售數(shù)量yXYX2Y21131.31929.2對相關(guān)系數(shù)r的解釋:
(1)相關(guān)系數(shù)的取值在-1與1之間。(2)當r=0時,表明X與Y沒有線性相關(guān)關(guān)系。注意:r是對變量之間線性相關(guān)關(guān)系的度量。r=0只是表明兩個變量之間不存在線性關(guān)系,它并不意味著X與Y之間不存在其他類型的關(guān)系??赡艽嬖诜蔷€性關(guān)系。
12/24/2022124對相關(guān)系數(shù)r的解釋:(1)相關(guān)系數(shù)的取值在-1與1之間(3)在大多數(shù)情況下,X與Y的樣本觀測值之間存在著一定的線性關(guān)系。即0<|r|<1
若r>0表明X與Y為正相關(guān);
若r<0表明X與Y為負相關(guān)。12/24/2022125(3)在大多數(shù)情況下,X與Y的樣本觀測值之間存在著一定的(4)當|r|=1時,表明X與Y完全線性相關(guān):
若r=1,稱X與Y完全正相關(guān);若r=-1,稱X與Y完全負相關(guān)。一般標準:
0.8<|r|<1,表示高度相關(guān);0.5<|r|≤0.8,表示中度相關(guān);0.3<|r|≤0.5,表示低度相關(guān);0<|r|≤0.3,表示相關(guān)關(guān)系很弱,基本可以認為沒有線性相關(guān)關(guān)系。注:這樣的說明必須建立在通過顯著性檢驗的基礎(chǔ)上。12/24/2022126(4)當|r|=1時,表明X與Y完全線性相關(guān):注:這樣的說相關(guān)系數(shù)
(取值及其意義)-1.0+1.00-0.5+0.5完全負相關(guān)無線性相關(guān)完全正相關(guān)負相關(guān)程度增加r正相關(guān)程度增加12/24/2022127相關(guān)系數(shù)
(取值及其意義)-1.0+1.00-0.5+0.5使用相關(guān)分析的注意事項▲
X和Y都是相互對稱的隨機變量,所以▲相關(guān)系數(shù)只反映變量間的線性相關(guān)程度,不能說明非線性相關(guān)關(guān)系。▲相關(guān)系數(shù)不能確定變量的因果關(guān)系,也不能說明相關(guān)關(guān)系具體接近于哪條直線。不能從一個變量的變化去推測另一個變量的具體變化。▲進行相關(guān)分析要有實際意義。12/24/2022128使用相關(guān)分析的注意事項▲X和Y都是相互對稱的隨機變量,注意:相關(guān)關(guān)系≠因果關(guān)系!典型的錯誤推斷:統(tǒng)計分析表明,慶祝生日次數(shù)越多的人越長壽。因此,慶祝生日有利于健康。調(diào)查表明,世界各國人均電視機擁有量與預(yù)期壽命存在很強的正相關(guān)性。因此,電視機擁有量越高,預(yù)期壽命越長。對小學各年級學生的抽樣調(diào)查表明,學生的識字水平與他們鞋子的尺寸高度正相關(guān)。因此,學生穿的鞋越大,他的識字水平就越高。12/24/2022129注意:相關(guān)關(guān)系≠因果關(guān)系!典型的錯誤推斷:12/16/202.相關(guān)系數(shù)的顯著性檢驗
為什么要檢驗?樣本相關(guān)系數(shù)是隨抽樣而變動的隨機變量,只是對總體相關(guān)系數(shù)的估計。由于從總體中每抽取一個樣本,都可以根據(jù)其觀測值估計出一個樣本相關(guān)系數(shù)。樣本容量越小其可信度就越差。因此,相關(guān)系數(shù)的統(tǒng)計顯著性還有待檢驗。檢驗總體相關(guān)系數(shù)是否等于0;H0:ρ=0(原假設(shè))H1:ρ≠0(備擇假設(shè))12/24/20221302.相關(guān)系數(shù)的顯著性檢驗為什么要檢驗?12/16/2022檢驗的依據(jù):
如果X和Y都服從正態(tài)分布,在總體相關(guān)系數(shù)ρ=0的假設(shè)下,與樣本相關(guān)系數(shù)r有關(guān)的t
統(tǒng)計量服從自由度為n-2的t分布:
H0:ρ=0(原假設(shè))H1:ρ≠0(備擇假設(shè))12/24/2022131檢驗的依據(jù):H0:ρ=0(原假設(shè))H1:ρ≠0對于給定的正數(shù),稱滿足條件:α012/24/2022132對于給定的正數(shù),稱滿足條件:α012/16/202240顯著性水平和拒絕域(雙側(cè)檢驗)H0:ρ=0(原假設(shè))H1:ρ≠0(備擇假設(shè))0臨界值ta/2臨界值-ta/2a/2a/2
樣本統(tǒng)計量拒絕H0拒絕H01-置信水平12/24/2022133顯著性水平和拒絕域(雙側(cè)檢驗)H0:ρ=0(原假設(shè))相關(guān)系數(shù)的檢驗方法1)提出原假設(shè)和備擇假設(shè)
H0:ρ=0(原假設(shè))H1:ρ≠0(備擇假設(shè))2)計算t統(tǒng)計量;3)給定顯著性水平α,查自由度為n-2的臨界值tα/2;4)若|t|≥tα/2,表明相關(guān)系數(shù)r在統(tǒng)計上是顯著的,應(yīng)否定ρ=0,而接受ρ≠0的假設(shè);5)反之,若|t|<tα/2,表明相關(guān)系數(shù)r在統(tǒng)計上是不顯著的,應(yīng)接受ρ=0的假設(shè)。12/24/2022134相關(guān)系數(shù)的檢驗方法1)提出原假設(shè)和備擇假設(shè)12/16/202例題:某產(chǎn)品廣告費用和銷售額的資料序號廣告費用(萬元)銷售額(萬元)1230223433404442544564527556855896541066012/24/2022135例題:某產(chǎn)品廣告費用和銷售額的資料序號廣告費用(萬元)銷售額相關(guān)系數(shù)12/24/2022136相關(guān)系數(shù)12/16/202244解:n=10,r=0.9319,α=0.1計算
查表tα/2(n-2)=t0.05(10-2)=1.86
因為:|t|>tα/2
所以拒絕H0,表明r是顯著的;總體相關(guān)系數(shù)不為0,即廣告費用和銷售額高度正相關(guān)。假設(shè)檢驗H0:ρ=0H1:ρ≠012/24/2022137解:n=10,r=0.9319,α=0.1查表t當變量不滿足正態(tài)分布要求或不是數(shù)量型變量時,簡單線性相關(guān)系數(shù)不宜使用,可以用Spearman等級相關(guān)系數(shù)作相關(guān)性分析。
6.1.3Spearman等級相關(guān)系數(shù)12/24/2022138當變量不滿足正態(tài)分布要求或不是數(shù)量
對于樣本容量為n的變量x和y,如果取值都可以分為n個等級,而且樣本的n個單位分別不重復地屬于x和y的不同等級,沒有兩個單位取相同等級的情況,并且用
di表示樣本單位屬于x的等級與
y的等級的級差。Spearman等級相關(guān)系數(shù)為:
式中,
12/24/2022139式中,12/16/202247將廣告費用X和銷售數(shù)量Y用秩次表示,并計算等級級差品牌名稱廣告費用X(百萬美元)銷售數(shù)量Y(百萬箱)等級級差di2變量秩次qi變量秩次sidi=qi-siCoca-Cola131.311929.2100Pepsi-Cola92.421384.62007-up11.67219.5700Sprite55.74541.55-11Dr.Pepper40.25546.9411MoutainDew29.06535.6600Diet-Coke60.43811.4300例12/24/2022140將廣告費用X和銷售數(shù)量Y用秩次表示,并計算等級級差品牌名稱廣根據(jù)等級級差,計算等級相關(guān)系數(shù)表明美國軟飲料公司廣告費用與銷售數(shù)量等級正相關(guān)程度比較高。12/24/2022141根據(jù)等級級差,計算等級相關(guān)系數(shù)表明美國軟飲料公司廣告費用與銷6.2一元線性回歸分析在兩個變量間存在線性相關(guān)關(guān)系的情況下,為了明確二者聯(lián)系的具體數(shù)量規(guī)律,需要進行回歸分析。12/24/20221426.2一元線性回歸分析在兩個變量間存在1.相關(guān)分析就是用一個指標(相關(guān)系數(shù))來表明現(xiàn)象間相互依存關(guān)系的密切程度。(方向和程度)但是相關(guān)分析不能說明變量間相關(guān)關(guān)系的具體形式,也不能從一個變量的變化去推測另一個變量的具體變化。如果要具體測定變量之間相關(guān)關(guān)系的數(shù)量形式,需要運用回歸分析。6.2.1相關(guān)與回歸分析的聯(lián)系12/24/20221431.相關(guān)分析6.2.1相關(guān)與回歸分析的聯(lián)系12/16/2回歸這個術(shù)語是由英國著名統(tǒng)計學家FrancisGalton在19世紀末期研究孩子及他們的父母的身高時提出來的。Galton發(fā)現(xiàn)身材高的父母,他們的孩子也高。但這些孩子平均起來并不像他們的父母那樣高。對于比較矮的父母情形也類似:他們的孩子比較矮,但這些孩子的平均身高要比他們的父母的平均身高高。Galton把這種孩子的身高向中間值靠近的趨勢稱之為一種回歸效應(yīng),而他發(fā)展的研究兩個數(shù)值變量的方法稱為回歸分析。2.回歸分析12/24/2022144回歸這個術(shù)語是由英國著名統(tǒng)計學家FrancisGalton回歸的古典意義:高爾頓遺傳學的回歸概念
父母身高與子女身高的關(guān)系:
無論高個子或低個子的子女都有向人的平均身高回歸的趨勢12/24/2022145回歸的古典意義:12/16/202253
回歸的現(xiàn)代意義在建立數(shù)學模型的基礎(chǔ)上,一個因變量對若干自變量依存關(guān)系的研究回歸的目的(實質(zhì)):由固定的自變量去估計因變量的平均值樣本總體自變量固定值估計因變量平均值12/24/2022146回歸的現(xiàn)代意義在建立數(shù)學模型的基礎(chǔ)上,一個因變量對1.按自變量的多少分類簡單回歸:研究一個自變量的回歸分析;復回歸:研究多個自變量的回歸分析。(多元回歸)2.按回歸的表現(xiàn)形式分類線性回歸:回歸的規(guī)律在圖形上表現(xiàn)為一條直線;非線性回歸:回歸的規(guī)律在圖形上表現(xiàn)為形態(tài)各異的各種曲線?;貧w分析的種類12/24/20221471.按自變量的多少分類回歸分析的種類12/16/2022553.相關(guān)分析與回歸分析的聯(lián)系●共同的研究對象:都是對變量間相關(guān)關(guān)系的分析●在具體應(yīng)用時,常常必須互相補充。相關(guān)分析需要依賴回歸分析來表明現(xiàn)象數(shù)量相關(guān)的具體形式,而回歸分析則需要依靠相關(guān)分析來表明現(xiàn)象數(shù)量變化的相關(guān)程度?!裰挥挟斪兞块g存在高度相關(guān)時,用回歸分析去尋求相關(guān)的具體數(shù)學形式才有實際意義,即無相關(guān)就無回歸,相關(guān)程度越高,回歸越好;12/24/20221483.相關(guān)分析與回歸分析的聯(lián)系●共同的研究對象:都是對變量間相1)在研究目的上的區(qū)別相關(guān)分析研究變量之間相關(guān)的方向和相關(guān)的程度?;貧w分析則是研究變量之間相互關(guān)系的具體形式,尋求相關(guān)的數(shù)學方程式,從己知量來推測未知量,從而為估算和預(yù)測提供了一個重要的方法。4.相關(guān)與回歸分析在研究目的和方法上是有明顯區(qū)別12/24/20221491)在研究目的上的區(qū)別4.相關(guān)與回歸分析在研究目的和方法2)在變量處理上的區(qū)別相關(guān)分析對稱的對待相互聯(lián)系的變量,可以不必確定變量中哪個是自變量,哪個是因變量,其所涉及的變量可以都是隨機變量?;貧w分析則必須事先研究確定具有相關(guān)關(guān)系的變量中哪個為自變量,哪個為因變量。一般地說,回歸分析中因變量是隨機的,而把自變量作為研究時給定的非隨機變量。3)在結(jié)果上的區(qū)別:現(xiàn)象之間相關(guān)關(guān)系分析,只能計算一個相關(guān)系數(shù);回歸分析時,回歸方程可能有兩個,即當現(xiàn)象互為因果關(guān)系時。12/24/20221502)在變量處理上的區(qū)別12/16/2022586.2一元線性回歸模型
設(shè)x為自變量,y為因變量,y與x之間存在某種線性關(guān)系,即一元線性回歸模型為其中ε表示各隨機因素對y的影響的總和,根據(jù)中心極限定理,可以認為它服從正態(tài)分布,即
那么y就是一個以回歸直線上的對應(yīng)值為中心的正態(tài)隨機變量(6.2.1)
、一元線性回歸模型12/24/20221516.2一元線性回歸模型設(shè)x為自變量,y為因6.2一元線性回歸模型給定x,y的n對觀測值xi,yi,代入式(6.2.1)得
(6.2.1’)當b>0時,x與y為正相關(guān),當b<0時,x與y為負相關(guān)。、一元線性回歸模型稱(6.2.1’)為一元線性回歸模型
12/24/20221526.2一元線性回歸模型給定
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 腎病科中醫(yī)適宜技術(shù)之子午流注篇
- 2025森林資源流轉(zhuǎn)合同樣本
- 2025汽車租賃合同標準版范文
- 公司租賃合同范本
- 眾籌公司合同范本
- 賓館日常維護合同范本
- 單位茶葉采購合同范本
- 修水工程合同范本
- 高額房租租賃合同范本
- 工廠安裝門窗合同范本
- 采購制度及流程
- 城市經(jīng)理人合作合同范本
- 電網(wǎng)工程設(shè)備材料信息參考價(2024年第四季度)
- 證券行業(yè)風險管理信息系統(tǒng)建設(shè)方案
- 《你當像鳥飛往你的山》讀書分享讀書分享筆記
- 維護國家安全構(gòu)建平安校園
- DB31-T 1308-2021 粉塵爆炸重大事故隱患治理工程驗收規(guī)范
- 五育并舉課題開題報告
- 養(yǎng)血生發(fā)膠囊與生活方式干預(yù)結(jié)合-洞察分析
- 完善校企合作的組織架構(gòu)與制度保障策略
- 《頸肩痛與腰腿痛》課件
評論
0/150
提交評論