相關(guān)分析與回歸分析_第1頁(yè)
相關(guān)分析與回歸分析_第2頁(yè)
相關(guān)分析與回歸分析_第3頁(yè)
相關(guān)分析與回歸分析_第4頁(yè)
相關(guān)分析與回歸分析_第5頁(yè)
已閱讀5頁(yè),還剩122頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

相關(guān)分析與回歸分析演示文稿第一頁(yè),共一百二十七頁(yè)。2025/7/221(優(yōu)選)相關(guān)分析與回歸分析第二頁(yè),共一百二十七頁(yè)。2025/7/222一、引言第三頁(yè),共一百二十七頁(yè)。2025/7/223在很多研究領(lǐng)域中,往往需要研究事物間的關(guān)系。如收入與受教育程度,子女身高與父母身高,商品銷售額與廣告費(fèi)用支出,農(nóng)作物產(chǎn)量與施肥量,上述兩者間有關(guān)系嗎?如果有關(guān)系,又是怎么樣的關(guān)系呢?如何來(lái)度量這種關(guān)系的強(qiáng)弱?解決上述問(wèn)題的統(tǒng)計(jì)方法是相關(guān)第四頁(yè),共一百二十七頁(yè)。2025/7/224分析和回歸分析。相關(guān)分析和回歸分析的共同點(diǎn)是都可推斷兩個(gè)變量間的統(tǒng)計(jì)相關(guān)性。但兩者的區(qū)別是明顯的,主要表現(xiàn)在:1.變量地位在相關(guān)分析中,兩個(gè)變量地位是對(duì)等的;但在回歸分析中,一個(gè)變量是因變量,其余的變量均為自變量。第五頁(yè),共一百二十七頁(yè)。2025/7/2252.變量類型相關(guān)分析中的兩個(gè)變量均為隨機(jī)變量,而回歸分析中的因變量是隨機(jī)變量,但自變量可以是隨機(jī)變量,也可以是非隨機(jī)變量。3.研究目的相關(guān)分析僅度量?jī)蓚€(gè)變量間的相關(guān)程度和方向,而回歸分析則要進(jìn)一第六頁(yè),共一百二十七頁(yè)。2025/7/226步建立因變量與所有自變量間的回歸方程,即回歸分析不僅推斷自變量對(duì)因變量的影響程度,還可以根據(jù)回歸方程進(jìn)行預(yù)測(cè)和控制。第七頁(yè),共一百二十七頁(yè)。2025/7/227二、相關(guān)分析第八頁(yè),共一百二十七頁(yè)。2025/7/2281.概述

事物之間的關(guān)系可分為兩類,一類是函數(shù)關(guān)系,另一類是相關(guān)關(guān)系。所謂相關(guān)關(guān)系指的是兩個(gè)變量間存在的一種不確定的數(shù)量關(guān)系,即一個(gè)變量的取值不能由另一個(gè)變量唯一確定。相關(guān)分析研究的是相關(guān)關(guān)系。第九頁(yè),共一百二十七頁(yè)。2025/7/229相關(guān)分析主要研究線性相關(guān)關(guān)系,但也考察非線性相關(guān)關(guān)系。下列不屬于相關(guān)關(guān)系的是()。

A.產(chǎn)品成本與生產(chǎn)數(shù)量

B.球的表面積與體積

C.家庭的支出與收入

D.人的年齡與體重下列關(guān)系是線性相關(guān)的是()。第十頁(yè),共一百二十七頁(yè)。2025/7/2210

A.人的身高與視力

B.圓心角大小與所對(duì)弧長(zhǎng)

C.收入水平與納稅水平

D.父母平均身高與兒子身高相關(guān)分析主要研究變量間是否相關(guān)及相關(guān)的密切程度與方向。相關(guān)分析中最常用的是簡(jiǎn)單相關(guān)分析,即兩個(gè)變量間的相關(guān)性。第十一頁(yè),共一百二十七頁(yè)。2025/7/2211三個(gè)及三個(gè)以上變量間的關(guān)系稱為復(fù)相關(guān),它研究的是一個(gè)因變量與兩個(gè)及以上自變量間的關(guān)系。通常,通過(guò)控制變量法將復(fù)相關(guān)轉(zhuǎn)化為兩個(gè)變量間的相關(guān)性,這種關(guān)系稱為偏相關(guān)。描述變量間相關(guān)性的常用統(tǒng)計(jì)指標(biāo)是相關(guān)系數(shù)。除此之外,還可以通第十二頁(yè),共一百二十七頁(yè)。2025/7/2212過(guò)距離來(lái)描述變量間的關(guān)系,稱之為距離相關(guān)分析。下面分別介紹簡(jiǎn)單相關(guān)分析、偏相關(guān)分析和距離相關(guān)分析。2.簡(jiǎn)單相關(guān)分析

簡(jiǎn)單相關(guān)主要包括Pearson相關(guān),Spearman相關(guān)和Kendall’s相關(guān)。(1)Pearson相關(guān)系數(shù)第十三頁(yè),共一百二十七頁(yè)。2025/7/2213

Pearson相關(guān)是簡(jiǎn)單相關(guān)分析中最常用的相關(guān)分析方法,其適用范圍是:連續(xù)數(shù)據(jù);正態(tài)分布;線性關(guān)系。

Pearson(線性)相關(guān)系數(shù)r的性質(zhì):|r|≤1;r>0時(shí)正相關(guān);r<0時(shí)負(fù)相關(guān);r=0時(shí)不相關(guān),即兩變量間不存在線性相關(guān)關(guān)系,但可能存在其它形式的非線性關(guān)系。第十四頁(yè),共一百二十七頁(yè)。2025/7/2214

|r|≥0.8時(shí)高度相關(guān);0.5≤|r|<0.8時(shí)中度相關(guān);0.3≤|r|<0.5時(shí)低度相關(guān);|r|<0.3時(shí)基本不相關(guān)。由于相關(guān)系數(shù)是用樣本計(jì)算得到的,帶有一定的隨機(jī)性,所以用樣本相關(guān)性估計(jì)總體相關(guān)性的可信度需要檢驗(yàn)。

SPPS可以自動(dòng)進(jìn)行檢驗(yàn),并分第十五頁(yè),共一百二十七頁(yè)。2025/7/2215別用“*”,“**”標(biāo)注顯著性水平0.05,0.01下的顯著相關(guān)。(2)Spearman和Kendall’s相關(guān)系數(shù)

Pearson相關(guān)系數(shù)屬參數(shù)統(tǒng)計(jì)分析中的矩相關(guān)系數(shù),有一定的局限性:當(dāng)正態(tài)分布假設(shè)不成立時(shí),檢驗(yàn)結(jié)果不可信;只能度量線性相關(guān)性,不能描述非線性相關(guān)性。第十六頁(yè),共一百二十七頁(yè)。2025/7/2216

Spearman和Kendall’s相關(guān)系數(shù)為非參數(shù)統(tǒng)計(jì)分析中的秩相關(guān)系數(shù)。當(dāng)正態(tài)分布假設(shè)不成立或分析非線性相關(guān)關(guān)系時(shí),可考慮用上述兩種相關(guān)系數(shù)。但這兩種相關(guān)系數(shù)最適合度量?jī)膳判蜃兞块g的相關(guān)性,對(duì)連續(xù)變量效果欠佳。第十七頁(yè),共一百二十七頁(yè)。2025/7/2217排序變量的取值可以表示某種順序關(guān)系,如服務(wù)滿意度取值1~5,分別表示非常不滿意,不滿意,一般滿意,滿意,非常滿意。例124位高水平數(shù)學(xué)家的年收入y與其研究成果指標(biāo)x1,研究工作時(shí)間x2以及申請(qǐng)項(xiàng)目成功指標(biāo)x3如下,分析年收入與三個(gè)指標(biāo)的關(guān)系。第十八頁(yè),共一百二十七頁(yè)。2025/7/2218解分析->相關(guān)->雙變量->調(diào)入所有變量,默認(rèn)“Pearson,雙側(cè)檢驗(yàn),標(biāo)記顯著性相關(guān)”。結(jié)果顯示,年收入與三個(gè)指標(biāo)的相關(guān)系數(shù)分別為0.668,0.859,0.673,在0.01水平下顯著相關(guān)。上述相關(guān)分析只是給出了年收入與三個(gè)指標(biāo)的兩兩線性相關(guān)程度,并第十九頁(yè),共一百二十七頁(yè)。2025/7/2219沒(méi)有給出它們之間統(tǒng)計(jì)學(xué)意義下的具體關(guān)系,可用回歸分析進(jìn)一步研究。第二十頁(yè),共一百二十七頁(yè)。2025/7/22203.偏相關(guān)分析

有時(shí),由于第三個(gè)變量的作用,使得簡(jiǎn)單相關(guān)系數(shù)不能真實(shí)反映兩變量間的相關(guān)性。例如,研究身高與體重的相關(guān)性時(shí),如不考慮年齡、地域的影響,則所得相關(guān)系數(shù)有可能不能真實(shí)反映身高與體重的關(guān)系。第二十一頁(yè),共一百二十七頁(yè)。2025/7/2221偏相關(guān)分析是在控制對(duì)兩變量間相關(guān)性可能產(chǎn)生影響的其它變量的前提下,即在剔除其它變量的干擾下,研究?jī)勺兞块g的相關(guān)性。偏相關(guān)分析假定變量間的關(guān)系均為線性關(guān)系,沒(méi)有線性關(guān)系的變量不能進(jìn)行偏相關(guān)分析。因此,在偏相關(guān)分析前,可以先通過(guò)計(jì)算Pearson相關(guān)第二十二頁(yè),共一百二十七頁(yè)。2025/7/2222系數(shù)來(lái)判定兩兩變量間的線性關(guān)系。偏相關(guān)分析通過(guò)計(jì)算偏相關(guān)系數(shù)來(lái)研究變量間的相關(guān)性。偏相關(guān)系數(shù)的含義與檢驗(yàn)方法與簡(jiǎn)單相關(guān)系數(shù)類似。第二十三頁(yè),共一百二十七頁(yè)。2025/7/2223

例2Pearson相關(guān)分析顯示,年收入與研究工作時(shí)間相關(guān)性最強(qiáng)。現(xiàn)剔除x1,x3影響后,分析年收入與研究工作時(shí)間的關(guān)系。解分析->相關(guān)->偏相關(guān)->y,x2調(diào)入變量,x1,x3調(diào)入控制,選擇“雙側(cè)檢驗(yàn),標(biāo)記顯著性相關(guān)”。結(jié)果顯示,年收入與研究工作時(shí)第二十四頁(yè),共一百二十七頁(yè)。2025/7/2224間的偏相關(guān)系數(shù)為0.825,小于簡(jiǎn)單相關(guān)系數(shù)??梢?jiàn),簡(jiǎn)單相關(guān)系數(shù)有夸大的成分,偏相關(guān)系數(shù)與實(shí)際更加吻合。第二十五頁(yè),共一百二十七頁(yè)。2025/7/22254.距離相關(guān)分析

簡(jiǎn)單相關(guān)分析和偏相關(guān)分析研究的是兩個(gè)變量間的相關(guān)關(guān)系,它們不能分析兩個(gè)以上變量間的相關(guān)關(guān)系。此時(shí),可以通過(guò)距離相關(guān)分析,考察變量間的相似性。距離相關(guān)分析通過(guò)計(jì)算廣義距離度量樣品或變量間的相似程度。第二十六頁(yè),共一百二十七頁(yè)。2025/7/2226距離相關(guān)分析一般不單獨(dú)使用,而是作為聚類分析、因子分析等的預(yù)處理過(guò)程。距離相關(guān)分析根據(jù)統(tǒng)計(jì)量的不同,分為不相似性測(cè)度和相似性測(cè)度。對(duì)于不相似性測(cè)度,通過(guò)計(jì)算距離來(lái)表示,距離越大,相似性越弱;對(duì)于相似性測(cè)度,通過(guò)計(jì)算Pearson相關(guān)系第二十七頁(yè),共一百二十七頁(yè)。2025/7/2227數(shù)來(lái)表示,其數(shù)值越大,相似程度越強(qiáng)。在不相似性測(cè)度距離分析中,應(yīng)根據(jù)變量的類型選用不同的距離,如區(qū)間、計(jì)數(shù)、二分類。第二十八頁(yè),共一百二十七頁(yè)。2025/7/2228

例3根據(jù)8種品牌啤酒的部分調(diào)查數(shù)據(jù),分析啤酒品牌的相似度。解分析->相關(guān)->距離->所有指標(biāo)調(diào)入變量,計(jì)算距離選“個(gè)案間”。

SPSS中的個(gè)案指數(shù)據(jù)表中的行,即一個(gè)樣本的數(shù)據(jù);變量指數(shù)據(jù)表中的列,即同一指標(biāo)的所有值。通常,考察變量間的相關(guān)性可用第二十九頁(yè),共一百二十七頁(yè)。2025/7/2229相似性測(cè)度,而個(gè)案即樣品間的相似性則采用不相似性測(cè)度。顯然,品牌1和品牌6最相似,而第三十頁(yè),共一百二十七頁(yè)。2025/7/2230和品牌2最不相似。若采用相似性測(cè)度,結(jié)果為顯然,樣品間的相關(guān)系數(shù)都接近于1,很難辨別出其相似程度。第三十一頁(yè),共一百二十七頁(yè)。2025/7/2231

例45名考官給10名應(yīng)聘者的面試分?jǐn)?shù)如下,請(qǐng)問(wèn)各考官評(píng)分的一致性如何?哪位考官的可信度較???各應(yīng)聘者分?jǐn)?shù)的差異是否明顯?解若第1問(wèn)改為:請(qǐng)問(wèn)不同考官對(duì)應(yīng)聘者面試分?jǐn)?shù)的影響是否顯著,則勉強(qiáng)可用方差分析。因?yàn)榭脊俳o10應(yīng)聘者打分不是嚴(yán)格意義下的重復(fù)試第三十二頁(yè),共一百二十七頁(yè)。2025/7/2232驗(yàn)。同理,若將應(yīng)聘者分?jǐn)?shù)做為指標(biāo),5個(gè)考官打分可視為5次重復(fù)試驗(yàn)(這需要假設(shè)考官的打分客觀,基本無(wú)偏差),則第3問(wèn)也可使用方差分析。

考慮到題目和問(wèn)題的特點(diǎn),本題用距離分析更為合理。因?yàn)榉讲罘治霰容^的是均值,而兩組很不一致的分第三十三頁(yè),共一百二十七頁(yè)。2025/7/2233數(shù)的均值卻可能相差不大。分別對(duì)5個(gè)變量(列)做相似性分析,如果如下:第三十四頁(yè),共一百二十七頁(yè)。2025/7/2234結(jié)果顯示,前4個(gè)考官的評(píng)分比較相似,一致性較好;第5個(gè)考官的評(píng)分與前4個(gè)考官的評(píng)分很不相似,一致性較差,故第5個(gè)考官的評(píng)分不太可信。為了考察應(yīng)聘者分?jǐn)?shù)的差異,應(yīng)該對(duì)數(shù)據(jù)進(jìn)行按行距離相關(guān)分析。分析結(jié)果如下:第三十五頁(yè),共一百二十七頁(yè)。2025/7/2235從上述結(jié)果可以判斷,應(yīng)聘者的分?jǐn)?shù)差異較為明顯。第三十六頁(yè),共一百二十七頁(yè)。2025/7/2236三、回歸分析第三十七頁(yè),共一百二十七頁(yè)。2025/7/22371.概述

與相關(guān)分析相比,回歸分析不僅能刻畫(huà)變量間的線性相關(guān)程度,而且還能根據(jù)回歸方程進(jìn)行預(yù)測(cè)和控制。英國(guó)統(tǒng)計(jì)學(xué)家Galton和他的學(xué)生Pearson觀察了1078對(duì)夫婦,得出了其成年兒子身高y與夫婦平均身高x的統(tǒng)計(jì)關(guān)系為第三十八頁(yè),共一百二十七頁(yè)。2025/7/2238即父輩身高每增加或減少一個(gè)單位,其子輩身高僅增加或減少半個(gè)單位,也即子代的身高有回到同齡人平均身高的趨勢(shì)。

Galton稱這種現(xiàn)象為“回歸”。為了紀(jì)念Galton,后人將研究?jī)勺兞块g統(tǒng)計(jì)關(guān)系的方法稱為回歸分析。第三十九頁(yè),共一百二十七頁(yè)。2025/7/2239回歸分析包括的內(nèi)容甚廣。本講僅介紹下列基本內(nèi)容:第四十頁(yè),共一百二十七頁(yè)。2025/7/2240回歸分析的過(guò)程和步驟為:(1)根據(jù)研究目的,選定指標(biāo)變量研究目的確定后,被解釋變量比較容易確定。比如,研究通貨膨脹時(shí),自然選擇全國(guó)零售物價(jià)總指數(shù)作為被解釋變量,即因變量。但對(duì)被解釋變量有影響的解釋變量的確定就不太容易。一是人的認(rèn)識(shí)第四十一頁(yè),共一百二十七頁(yè)。2025/7/2241有局限,很難確定哪些因素對(duì)被解釋變量有影響;二是回歸分析要求解釋變量間應(yīng)該是不相關(guān)的,而研究者很難確定哪些變量相關(guān)或不相關(guān),因?yàn)樵诮?jīng)濟(jì)領(lǐng)域很難找到影響同一結(jié)果的一些因素彼此之間是獨(dú)立的;三是從經(jīng)濟(jì)關(guān)系角度考慮可能要引入某個(gè)重要變量,但實(shí)際中并無(wú)這樣的統(tǒng)計(jì)數(shù)第四十二頁(yè),共一百二十七頁(yè)。2025/7/2242據(jù)。此時(shí),可考慮用相近的變量替代,或由其它幾個(gè)指標(biāo)復(fù)合而成一個(gè)新的指標(biāo)(主成分分析)。另外,不要認(rèn)為回歸模型包括的解釋變量越多越好。若回歸模型漏掉主要變量肯定會(huì)影響應(yīng)用效果,但如果連一些不重要的因素也進(jìn)入模型其實(shí)未必就好。第四十三頁(yè),共一百二十七頁(yè)。2025/7/2243當(dāng)引入的變量太多時(shí),一來(lái)計(jì)算量大,累積的計(jì)算誤差也大,估計(jì)出的模型參數(shù)精度自然不高;二來(lái)可能引入了相關(guān)性較強(qiáng)的變量,它們反映的信息有較嚴(yán)重的重疊,即所謂共線性問(wèn)題??傊?,回歸變量的確定是一個(gè)非常重要的問(wèn)題,是建立回歸模型最基第四十四頁(yè),共一百二十七頁(yè)。2025/7/2244本的工作。(2)數(shù)據(jù)的采集和處理數(shù)據(jù)的采集也是建立回歸模型的重要一環(huán)。大多數(shù)建模競(jìng)賽題目會(huì)提供相關(guān)數(shù)據(jù),但這些數(shù)據(jù)可能包含了一些無(wú)用的信息,個(gè)別數(shù)據(jù)缺失甚至失真。在建模前,需要對(duì)數(shù)據(jù)進(jìn)行適當(dāng)?shù)谒氖屙?yè),共一百二十七頁(yè)。2025/7/2245處理。比如標(biāo)準(zhǔn)化,剔除個(gè)別過(guò)大或過(guò)小的“野值”,用插值方法補(bǔ)齊空缺數(shù)據(jù)等。(3)回歸模型形式的確定收集、處理好數(shù)據(jù)后,首先要確定適當(dāng)?shù)臄?shù)學(xué)模型來(lái)描述這些變量間的統(tǒng)計(jì)關(guān)系。本講僅介紹線性回歸,對(duì)一元線第四十六頁(yè),共一百二十七頁(yè)。2025/7/2246性回歸,可以根據(jù)散點(diǎn)圖判定;對(duì)于多元線性回歸,通常只能根據(jù)事后的模型的顯著性檢驗(yàn)。(4)模型參數(shù)的估計(jì)模型確定后,就要利用樣本數(shù)據(jù)對(duì)模型中的參數(shù)進(jìn)行估計(jì)。估計(jì)參數(shù)的常用方法是最小二乘法。第四十七頁(yè),共一百二十七頁(yè)。2025/7/2247利用統(tǒng)計(jì)軟件可便捷地進(jìn)行參數(shù)估計(jì)。(5)模型的檢驗(yàn)與修正模型的參數(shù)估計(jì)完成后,只能說(shuō)初步建立了回歸模型,還不能立即用用這個(gè)模型進(jìn)行預(yù)測(cè)和分析,因?yàn)檫@個(gè)模型是否真正揭示了被解釋變量和解釋變量間的關(guān)系還有待檢驗(yàn)。第四十八頁(yè),共一百二十七頁(yè)。2025/7/2248回歸模型通常需要進(jìn)行統(tǒng)計(jì)檢驗(yàn)和經(jīng)濟(jì)意義檢驗(yàn)。統(tǒng)計(jì)檢驗(yàn)包括回歸方程的顯著性F檢驗(yàn),回歸系數(shù)的顯著性t檢驗(yàn),回歸方程的擬合優(yōu)度R2檢驗(yàn)和解釋變量的多重共線性檢驗(yàn)等。由于樣本容量所限或數(shù)據(jù)質(zhì)量問(wèn)題,回歸模型可能得不到合理的經(jīng)濟(jì)第四十九頁(yè),共一百二十七頁(yè)。2025/7/2249解釋,比如出現(xiàn)了國(guó)民收入與GDP負(fù)相關(guān)。當(dāng)回歸模型沒(méi)有通過(guò)檢驗(yàn)時(shí),要對(duì)模型進(jìn)行修正。模型的修正可以考慮變量是否設(shè)置合理,變量間是否有很強(qiáng)的相關(guān)性,樣本量是否太少,理論模型是否合適等。(6)回歸模型的應(yīng)用第五十頁(yè),共一百二十七頁(yè)。2025/7/2250當(dāng)回歸模型通過(guò)了各種檢驗(yàn)后,就可以進(jìn)行模型應(yīng)用了?;貧w模型的一個(gè)重要應(yīng)用是進(jìn)行預(yù)測(cè)。比如根據(jù)宏觀國(guó)民經(jīng)濟(jì)模型就可以預(yù)測(cè)下一年的GDP。這方面已有很多成功的范例。回歸模型的另一個(gè)重要應(yīng)用是進(jìn)行控制。第五十一頁(yè),共一百二十七頁(yè)。2025/7/2251因?yàn)榛貧w模型揭示了被解釋變量和解釋變量間的因果統(tǒng)計(jì)關(guān)系,所以可以通過(guò)給定被解釋變量值來(lái)控制解釋變量值。例如,若想將通貨膨脹控制為全國(guó)零售物價(jià)指數(shù)增長(zhǎng)5%以下,則可以根據(jù)通貨膨脹回歸模型,確定貨幣的發(fā)行量和銀行的存款利率等。第五十二頁(yè),共一百二十七頁(yè)。2025/7/22522.一元線性回歸一元線性回歸是描述兩變量間統(tǒng)計(jì)關(guān)系的最簡(jiǎn)單的回歸模型。(1)模型的建立與參數(shù)估計(jì)根據(jù)相關(guān)背景知識(shí)或散點(diǎn)圖,若兩變量間近似呈線性關(guān)系,則可用一元線性回歸模型第五十三頁(yè),共一百二十七頁(yè)。2025/7/2253其中y稱為被解釋變量(因變量),x稱為解釋變量(自變量),稱為回歸系數(shù),稱為隨機(jī)誤差。利用最小二乘法,可求出的估計(jì)值。(2)回歸分析的顯著性檢驗(yàn)可以用F統(tǒng)計(jì)量檢驗(yàn)回歸方程的顯著性。第五十四頁(yè),共一百二十七頁(yè)。2025/7/2254對(duì)于給定的顯著性水平,可查表得,若根據(jù)樣本計(jì)算得到的F值滿足,則拒絕假設(shè)(不顯著),即回歸方程在水平下是顯著的。通常取,SPSS可自動(dòng)進(jìn)行F統(tǒng)計(jì)量檢驗(yàn)??梢杂胻統(tǒng)計(jì)量檢驗(yàn)回歸系數(shù)的顯著性,檢驗(yàn)方法與F檢驗(yàn)類似。第五十五頁(yè),共一百二十七頁(yè)。2025/7/2255還可以用決定系數(shù)R2來(lái)檢驗(yàn)回歸方程對(duì)樣本觀察值的擬合程度。

①R實(shí)際上即為相關(guān)系數(shù);②R2是衡量回歸直線與樣本值擬合優(yōu)度的相對(duì)指標(biāo),越接近于1,表明擬合優(yōu)度越好;③R2與自變量個(gè)數(shù)有關(guān),有時(shí)用調(diào)整的R2(AdjR2)更合理。

第五十六頁(yè),共一百二十七頁(yè)。2025/7/2256這里要特別指出上述三種檢驗(yàn)的關(guān)系:①在一元線性回歸中,回歸方程的F檢驗(yàn)和回歸系數(shù)的t檢驗(yàn)等價(jià);②千萬(wàn)不要混淆回歸方程和系數(shù)檢驗(yàn)與R2檢驗(yàn)。前者檢驗(yàn)的是方程或系數(shù)的顯著性,而R2表示的是因變量被自變量解釋的程度。第五十七頁(yè),共一百二十七頁(yè)。2025/7/2257

有時(shí),回歸方程和系數(shù)均顯著,但R2卻可能較小。(3)預(yù)測(cè)預(yù)測(cè)分為單值預(yù)測(cè)和區(qū)間預(yù)測(cè)。當(dāng)x=x0時(shí),稱為因變量y的單值預(yù)測(cè)值。單值預(yù)測(cè)值統(tǒng)計(jì)意義不大,因?yàn)閷?duì)于預(yù)測(cè)問(wèn)題,除了要給出預(yù)測(cè)值外,第五十八頁(yè),共一百二十七頁(yè)。2025/7/2258還希望知道預(yù)測(cè)精度,這就需要做區(qū)間預(yù)測(cè)。區(qū)間預(yù)測(cè)的思路是:對(duì)于給定的顯著性水平和x=x0,給出一個(gè)區(qū)間(T1,T2),使得預(yù)測(cè)值以概率落在此區(qū)間內(nèi),此區(qū)間即置信區(qū)間。通常,SPSS會(huì)同時(shí)給出y0和y0平均值的置信區(qū)間。第五十九頁(yè),共一百二十七頁(yè)。2025/7/2259(4)控制控制相當(dāng)于預(yù)測(cè)的反問(wèn)題,即要求y在一定范圍內(nèi)取值,如何控制x的取值??刂茊?wèn)題比較復(fù)雜,沒(méi)有通用的方法,可采用作圖法或解不等式法,這里不做詳細(xì)介紹。統(tǒng)計(jì)軟件一般不提供控制功能。第六十頁(yè),共一百二十七頁(yè)。2025/7/2260

例5經(jīng)調(diào)查,某地區(qū)住宅建筑面積和建筑成本的有關(guān)資料如下,求建筑面積與建筑成本的回歸方程。解做原始數(shù)據(jù)的散點(diǎn)圖,近似為直線,考慮用一元線性回歸。第六十一頁(yè),共一百二十七頁(yè)。2025/7/2261

原始數(shù)據(jù)的散點(diǎn)圖第六十二頁(yè),共一百二十七頁(yè)。2025/7/2262分析->回歸->線性->選建造成本為因變量,建筑面積為自變量;方法可選進(jìn)入(全部被選變量一次進(jìn)入回歸模型)或逐步(每一步將有最小F概率的變量引入回歸方程,若引入回歸方程的變量的F概率大于設(shè)定值,則將其剔除,直到無(wú)變量被引入或剔除,則終止回歸過(guò)程)。第六十三頁(yè),共一百二十七頁(yè)。2025/7/2263統(tǒng)計(jì)量中可選估計(jì)、置信區(qū)間、模型擬合度、描述性。繪制中選DEPENDNT為Y,ZPRED(標(biāo)準(zhǔn)化預(yù)測(cè)值)為X。保存中選擇預(yù)測(cè)值(未標(biāo)準(zhǔn)化,均值預(yù)測(cè)值的S.E.),殘差(未標(biāo)準(zhǔn)化),預(yù)測(cè)區(qū)間(均值,單值)第六十四頁(yè),共一百二十七頁(yè)。2025/7/2264

第六十五頁(yè),共一百二十七頁(yè)。2025/7/2265

第六十六頁(yè),共一百二十七頁(yè)。2025/7/2266回歸方程在0.01水平下顯著。第六十七頁(yè),共一百二十七頁(yè)。2025/7/2267回歸系數(shù)在0.01水平下顯著。標(biāo)準(zhǔn)化系數(shù)是在將原數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化之后回歸生成的系數(shù)。標(biāo)準(zhǔn)化系第六十八頁(yè),共一百二十七頁(yè)。2025/7/2268數(shù)越大,表明該自變量對(duì)因變量的影響越大。在一元線性回歸中,標(biāo)準(zhǔn)化回歸系數(shù)等于相關(guān)系數(shù)。非標(biāo)準(zhǔn)化系數(shù)就是用原來(lái)的數(shù)據(jù)算出來(lái)的系數(shù)。若要寫(xiě)出回歸方程,則應(yīng)該用非標(biāo)準(zhǔn)化系數(shù)。

第六十九頁(yè),共一百二十七頁(yè)。2025/7/2269回歸分析完成后,在原數(shù)據(jù)表中增加單預(yù)測(cè)值(含殘差)、均值預(yù)測(cè)值(含SEP)及兩者的區(qū)間估計(jì)。若需預(yù)測(cè)新因變量值,則只需給定新自變量值,然后回歸分析,即可獲得預(yù)測(cè)值。也可以將模型保存,再利用新自變量值進(jìn)行預(yù)測(cè)。第七十頁(yè),共一百二十七頁(yè)。2025/7/22703.多元線性回歸當(dāng)解釋變量超過(guò)一個(gè)時(shí)就需要考慮多元線性回歸模型。多元線性回歸模型的建立、參數(shù)估計(jì)、模型的檢驗(yàn)及應(yīng)用與一元線性回歸類似。多元線性回歸模型為第七十一頁(yè),共一百二十七頁(yè)。2025/7/2271其中y稱為被解釋變量,xi稱為解釋變量,稱為回歸系數(shù),稱為隨機(jī)誤差。利用最小二乘法,可求出回歸系數(shù)的估計(jì)值。多元線性回歸的檢驗(yàn)與一元線性回歸的檢驗(yàn)既有相同之處,也有不同之處。第七十二頁(yè),共一百二十七頁(yè)。2025/7/2272首先可用F統(tǒng)計(jì)量檢驗(yàn)回歸方程的顯著性,即自變量整體上對(duì)因變量是否有明顯影響。在一元線性回歸中,回歸方程的F檢驗(yàn)與回歸系數(shù)的t檢驗(yàn)等價(jià)。但在多元線性回歸中,回歸方程顯著并不意味著每個(gè)自變量對(duì)因變量的影響都顯著,所以還要用t統(tǒng)計(jì)量檢驗(yàn)每個(gè)回第七十三頁(yè),共一百二十七頁(yè)。2025/7/2273歸系數(shù)的顯著性。擬合優(yōu)度用于描述回歸方程對(duì)樣本觀察值的擬合程度。與一元線性回歸類似,可以用確定系數(shù)R2直觀地反映回歸方程擬合的效果。需要指出的是,R2并不是檢驗(yàn)?zāi)P蛢?yōu)劣唯一標(biāo)準(zhǔn)。有時(shí),為了使得模型從結(jié)構(gòu)上有較合理的經(jīng)濟(jì)解釋,第七十四頁(yè),共一百二十七頁(yè)。2025/7/2274R2等于0.7左右也可以給接受模型。另外,R2與自變量個(gè)數(shù)及樣本容量n有關(guān)。當(dāng)自變量個(gè)數(shù)及樣本容量接近時(shí),R2易接近于1,此時(shí)R2中隱含著虛假成分??傊?,由R2決定模型優(yōu)劣時(shí)要慎重。檢驗(yàn)多元回歸模型時(shí)要多種檢驗(yàn)方法結(jié)合,綜合評(píng)判。第七十五頁(yè),共一百二十七頁(yè)。2025/7/2275

例6某產(chǎn)品2002~2008年的銷售額與流通費(fèi)用、利潤(rùn)的數(shù)據(jù)如下,給出利潤(rùn)與銷售額、流通費(fèi)用間的回歸方程。解做原始數(shù)據(jù)的散點(diǎn)圖,近似為平面,考慮用二元線性回歸。第七十六頁(yè),共一百二十七頁(yè)。2025/7/2276

第七十七頁(yè),共一百二十七頁(yè)。2025/7/2277

第七十八頁(yè),共一百二十七頁(yè)。2025/7/2278

第七十九頁(yè),共一百二十七頁(yè)。2025/7/2279從方差分析表中可知,回歸方程顯著;從系數(shù)表可知,回歸系數(shù)除常量外顯著;從模型匯總可知,模型擬合優(yōu)度高。需要指出的是,從相關(guān)性表中可知,自變量銷售額和流通費(fèi)用有較高的相關(guān)性,這不符合線性回歸分析的假設(shè),即所謂多重共線性問(wèn)題。第八十頁(yè),共一百二十七頁(yè)。2025/7/2280從共線性診斷表的特征值、條件數(shù)和方差比指標(biāo)可知,自變量銷售額和流通費(fèi)用的確存在共線性。但從系數(shù)表VIF指標(biāo)可知,共線性并不太嚴(yán)重。共線性相關(guān)內(nèi)容見(jiàn)后。第八十一頁(yè),共一百二十七頁(yè)。2025/7/22814.逐步線性回歸如果在回歸方程中引入了某些對(duì)問(wèn)題研究影響不大或與其它變量有很大程度重疊的變量,則可能增大參數(shù)估計(jì)的誤差,影響回歸方程的預(yù)測(cè)精度。因此,挑選對(duì)因變量有顯著影響的自變量,構(gòu)造“最優(yōu)”回歸方程十分重要。第八十二頁(yè),共一百二十七頁(yè)。2025/7/2282構(gòu)造“最優(yōu)”回歸方程的常用方法是逐步回歸法,其基本思想是:將變量逐個(gè)引入,每引入一個(gè)變量后,對(duì)已引入的變量要進(jìn)行逐個(gè)檢驗(yàn);當(dāng)原引入的變量由于后面變量的引入而變得不再顯著時(shí),要將其剔除,即每次引入新變量前回歸方程只包括顯著的變量。這個(gè)過(guò)程反復(fù)進(jìn)行,直到既無(wú)第八十三頁(yè),共一百二十七頁(yè)。2025/7/2283顯著的變量選入回歸方程,也無(wú)不顯著的變量從回歸方程中剔除為止。例7某種水泥在凝固時(shí)放出的熱量y與水泥中的四種化學(xué)成分x1,x2,x3,x4有關(guān),觀測(cè)數(shù)據(jù)如下,試從中選出主要變量,建立y關(guān)于它們的線性回歸方程。解選擇逐步回歸。

第八十四頁(yè),共一百二十七頁(yè)。2025/7/2284

第八十五頁(yè),共一百二十七頁(yè)。2025/7/2285

第八十六頁(yè),共一百二十七頁(yè)。2025/7/2286

第八十七頁(yè),共一百二十七頁(yè)。2025/7/2287

第八十八頁(yè),共一百二十七頁(yè)。2025/7/2288

第八十九頁(yè),共一百二十七頁(yè)。2025/7/2289上述回歸采用的是系統(tǒng)默認(rèn)變量進(jìn)入概率(0.05)和剔除概率(0.1)。若將進(jìn)入概率和剔除概率修改為0.1和0.11(要求降低了),則回歸分析結(jié)果如下:第九十頁(yè),共一百二十七頁(yè)。2025/7/2290

第九十一頁(yè),共一百二十七頁(yè)。2025/7/2291

第九十二頁(yè),共一百二十七頁(yè)。2025/7/2292

第九十三頁(yè),共一百二十七頁(yè)。2025/7/2293

第九十四頁(yè),共一百二十七頁(yè)。2025/7/2294

第九十五頁(yè),共一百二十七頁(yè)。2025/7/2295

第九十六頁(yè),共一百二十七頁(yè)。2025/7/2296

第九十七頁(yè),共一百二十七頁(yè)。2025/7/2297選用全部變量的回歸結(jié)果為:第九十八頁(yè),共一百二十七頁(yè)。2025/7/2298

第九十九頁(yè),共一百二十七頁(yè)。2025/7/2299兩次逐步回歸模型包括的變量分別為x1,x4(默認(rèn)進(jìn)入和剔除概率)和x1,x2(不同的進(jìn)入和剔除概率),而根據(jù)全部進(jìn)入回歸分析結(jié)果,后者更為合理。雖然逐步回歸能在一定程度上有助于選擇顯著變量,但它存在著下列缺陷:第一百頁(yè),共一百二十七頁(yè)。2025/7/22100

(1)進(jìn)入或剔除概率設(shè)置不當(dāng)時(shí),逐步回歸法可能得到的只是局部最優(yōu)方程,甚至?xí)霈F(xiàn)“未輸入任何變量到方程中”情況。

(2)極端情況下,逐步回歸法可能會(huì)漏掉重要的變量。

(3)逐步回歸法不能完全消除多重共線性。第一百零一頁(yè),共一百二十七頁(yè)。2025/7/22101可見(jiàn),對(duì)逐步回歸法要有正確的認(rèn)識(shí),不能盲從。在實(shí)際中,最好將逐步回歸與進(jìn)入回歸結(jié)合起來(lái)選擇顯著變量。此外,還要注意從變量的實(shí)際背景(比如經(jīng)濟(jì)學(xué)意義)進(jìn)行選擇。第一百零二頁(yè),共一百二十七頁(yè)。2025/7/221025.基本假設(shè)不成立時(shí)的線性回歸回歸模型有下列三個(gè)基本假設(shè):對(duì)于

(1)方差齊性

(2)不相關(guān)性

(3)自變量線性無(wú)關(guān)性線性無(wú)關(guān)第一百零三頁(yè),共一百二十七頁(yè)。2025/7/22103當(dāng)時(shí),稱為異方差性。當(dāng)時(shí),稱為自相關(guān)性。異方差性和自相關(guān)性可能會(huì)導(dǎo)致參數(shù)估計(jì)非有效,顯著性檢驗(yàn)無(wú)意義,預(yù)測(cè)精度低。當(dāng)線性相關(guān)時(shí),稱為第一百零四頁(yè),共一百二十七頁(yè)。2025/7/22104多重共線性。下面對(duì)多重共線性做簡(jiǎn)要介紹。(1)多重共線性的不良后果若兩個(gè)自變量x1,x2存在線性關(guān)系,此時(shí)它們前的參數(shù)并不反映x1,x2與因變量間的結(jié)構(gòu)關(guān)系,而是反映它們對(duì)因變量的共同影響。這就導(dǎo)致失去了應(yīng)有的經(jīng)濟(jì)意義,第一百零五頁(yè),共一百二十七頁(yè)。2025/7/22105使得對(duì)回歸方程無(wú)法進(jìn)行合理的經(jīng)濟(jì)解釋,降低了回歸方程的應(yīng)用價(jià)值。

例8為了研究財(cái)政收入,建立了1978年~2003年財(cái)政收入與農(nóng)業(yè)增加值、工業(yè)增加值、建筑業(yè)增加值、總?cè)丝?、消費(fèi)、受災(zāi)面積的回歸模型。數(shù)據(jù)見(jiàn)《中國(guó)統(tǒng)計(jì)年鑒2004》?;貧w分析的結(jié)果如下:第一百零六頁(yè),共一百二十七頁(yè)。2025/7/22106

第一百零七頁(yè),共一百二十七頁(yè)。2025/7/22107

F統(tǒng)計(jì)量為632.10,表明在0.05水平下回歸方程顯著;決定系數(shù)為0.995,模型擬合得很好,模型對(duì)財(cái)政收入的解釋程度高達(dá)99.5%。

t檢驗(yàn)表明,除農(nóng)業(yè)增加值、工業(yè)增加值和總?cè)丝谕?,其它因素?duì)財(cái)政收入的影響均不顯著。農(nóng)業(yè)增加值和建筑業(yè)增加值的回第一百零八頁(yè),共一百二十七頁(yè)。2025/7/22108歸系數(shù)小于零,即農(nóng)業(yè)和建筑業(yè)的發(fā)展反而會(huì)使財(cái)政收入減少。這顯然與理論和實(shí)際不符!本例顯示了多重共線性的典型后果:回歸方程顯著,決定系數(shù)也很高,但某些回歸系數(shù)的t檢驗(yàn)卻不顯著,甚至使得回歸系數(shù)符號(hào)相反,無(wú)法正確反映該解釋變量對(duì)被解釋變量的單第一百零九頁(yè),共一百二十七頁(yè)。2025/7/22109獨(dú)影響。(2)多重共線性產(chǎn)生的原因多重共線性產(chǎn)生的主要原因有:①許多經(jīng)濟(jì)變量間存在密切的關(guān)聯(lián),互相依存,互相制約,往往存在同方向的變化趨勢(shì)。當(dāng)它們成為解釋變量時(shí),就會(huì)出現(xiàn)共線性現(xiàn)象。②利用截面數(shù)據(jù)建立的回歸方程第一百一十頁(yè),共一百二十七頁(yè)。2025/7/22110往往存在共線性。③自變量選擇不當(dāng)時(shí),也容易出現(xiàn)共線性。在實(shí)際中,自變量完全不相關(guān)不太可能,即共線性不太可能完全避免,只能設(shè)法降低。(3)多重共線性的診斷多重共線性有下列判定方法:

第一百一十一頁(yè),共一百二十七頁(yè)。2025/7/22111①相關(guān)系數(shù)檢驗(yàn)法——若兩個(gè)解釋變量的簡(jiǎn)單相關(guān)系數(shù)較高(>0.8),則可認(rèn)為存在較嚴(yán)重的共線性。

但要注意,高相關(guān)系數(shù)是共線性存在的充分條件,即相關(guān)系數(shù)高一定存在共線性,但相關(guān)系數(shù)低的變量間也不一定沒(méi)有共線性。況且,相關(guān)系數(shù)法也只適用于兩第一百一十二頁(yè),共一百二十七頁(yè)。2025/7/22112個(gè)變量共線性的判定??梢?jiàn),不能簡(jiǎn)單地依據(jù)相關(guān)系數(shù)進(jìn)行多重共線性的準(zhǔn)確判定。

②方差膨脹因子法(誤差)——理論證明,共線性可以引起參數(shù)估計(jì)的方差增大,所以方差膨脹因子(VIF)可以做為共線性的判定標(biāo)準(zhǔn)。當(dāng)1≤VIF≤10時(shí),可以認(rèn)為共線第一百一十三頁(yè),共一百二十七頁(yè)。2025/7/22113性不嚴(yán)重;當(dāng)VIF>10時(shí),則認(rèn)為該解釋變量與其余某些解釋變量間有較嚴(yán)重的共線性。

SPSS可以自動(dòng)計(jì)算每個(gè)參數(shù)的VIF。③特征值(奇異)或條件數(shù)(穩(wěn)定)判定法——根據(jù)線性代數(shù)知識(shí),可以用XTX的特征值判定共線性。第一百一十四頁(yè),共一百二十七頁(yè)。2025/7/22114

XTX有幾個(gè)特征值接近于零,就有幾個(gè)共線性關(guān)系。也可用條件數(shù)CI判定共線性。當(dāng)0<CI<10時(shí),基本無(wú)共線性;當(dāng)10<CI<100時(shí),存在較強(qiáng)共線性;當(dāng)CI>100時(shí),共線性非常嚴(yán)重。

SPSS可以自動(dòng)計(jì)算特征值和特征值CI。第一百一十五頁(yè),共一百二十七頁(yè)。2025/7/22115④不顯著系

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論