計(jì)量經(jīng)濟(jì)學(xué)第三章 一元線性回歸模型_第1頁(yè)
計(jì)量經(jīng)濟(jì)學(xué)第三章 一元線性回歸模型_第2頁(yè)
計(jì)量經(jīng)濟(jì)學(xué)第三章 一元線性回歸模型_第3頁(yè)
計(jì)量經(jīng)濟(jì)學(xué)第三章 一元線性回歸模型_第4頁(yè)
計(jì)量經(jīng)濟(jì)學(xué)第三章 一元線性回歸模型_第5頁(yè)
已閱讀5頁(yè),還剩74頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、計(jì)量經(jīng)濟(jì)學(xué)計(jì)量經(jīng)濟(jì)學(xué)Econometrics第三章第三章 一元線性回歸模型一元線性回歸模型2 內(nèi)容:內(nèi)容:一元線性回歸的基本概念一元線性回歸的基本概念 參數(shù)估計(jì)參數(shù)估計(jì) 統(tǒng)計(jì)檢驗(yàn)統(tǒng)計(jì)檢驗(yàn) 預(yù)測(cè)預(yù)測(cè)第一節(jié)第一節(jié) 基本概念基本概念 (1)確定性關(guān)系或或函數(shù)關(guān)系:研究的是確研究的是確定現(xiàn)象非隨機(jī)變量間的關(guān)系。定現(xiàn)象非隨機(jī)變量間的關(guān)系。 (2)統(tǒng)計(jì)依賴或或相關(guān)關(guān)系:研究的是非確定研究的是非確定現(xiàn)象隨機(jī)變量間的關(guān)系。現(xiàn)象隨機(jī)變量間的關(guān)系。一、變量間的關(guān)系及回歸分析的基本概念一、變量間的關(guān)系及回歸分析的基本概念 1 1、變量間的關(guān)系、變量間的關(guān)系 經(jīng)濟(jì)變量之間的關(guān)系,大體可分為兩類:經(jīng)濟(jì)變量之間的關(guān)系,大

2、體可分為兩類:對(duì)變量間對(duì)變量間統(tǒng)計(jì)依賴關(guān)系統(tǒng)計(jì)依賴關(guān)系的考察主要是通過的考察主要是通過相關(guān)分析相關(guān)分析(correlation analysis)或或回歸分析回歸分析(regression analysis)來完成的來完成的2,半徑半徑圓面積f施肥量陽(yáng)光降雨量氣溫農(nóng)作物產(chǎn)量,f例如例如: 函數(shù)關(guān)系:函數(shù)關(guān)系:統(tǒng)計(jì)依賴關(guān)系統(tǒng)計(jì)依賴關(guān)系/統(tǒng)計(jì)相關(guān)關(guān)系:統(tǒng)計(jì)相關(guān)關(guān)系: 回歸分析(regression analysis)是研究一個(gè)變量關(guān)于另一個(gè)(些)變量的具體依賴關(guān)系的計(jì)算方法和理論。 其用意:在于通過后者的已知或設(shè)定值,去估計(jì)和(或)預(yù)測(cè)前者的(總體)均值。 這里:這里:前一個(gè)變量被稱為前一個(gè)變量被

3、稱為被解釋變量(Explained Variable)或或應(yīng)變量(Dependent Variable),后一個(gè)(些)后一個(gè)(些)變量被稱為變量被稱為解釋變量(Explanatory Variable)或或自變量(Independent Variable)。2 2、回歸分析的基本概念、回歸分析的基本概念 回歸分析構(gòu)成計(jì)量經(jīng)濟(jì)學(xué)的方法論基礎(chǔ),其主要內(nèi)容包括:回歸分析構(gòu)成計(jì)量經(jīng)濟(jì)學(xué)的方法論基礎(chǔ),其主要內(nèi)容包括: (1)根據(jù)樣本觀察值對(duì)經(jīng)濟(jì)計(jì)量模型參數(shù)進(jìn)行估計(jì),求得回回歸方程;歸方程;(2)對(duì)回歸方程、參數(shù)估計(jì)值進(jìn)行顯著性檢驗(yàn);(3)利用回歸方程進(jìn)行分析、評(píng)價(jià)及預(yù)測(cè)。 由于變量間關(guān)系的隨機(jī)性,由于變

4、量間關(guān)系的隨機(jī)性,回歸分析關(guān)心的是根據(jù)解釋變量的已知或給定值,考察被解釋變量的總體均值,即當(dāng)解釋變量取某,即當(dāng)解釋變量取某個(gè)確定值時(shí),與之統(tǒng)計(jì)相關(guān)的被解釋變量所個(gè)確定值時(shí),與之統(tǒng)計(jì)相關(guān)的被解釋變量所有可能出現(xiàn)的對(duì)應(yīng)值的平均值。這恰好是條有可能出現(xiàn)的對(duì)應(yīng)值的平均值。這恰好是條件期望的概念。件期望的概念。 二、總體回歸函數(shù)二、總體回歸函數(shù)l概念: 在給定解釋變量Xi條件下被解釋變量Yi的期望軌跡稱為總體回歸線總體回歸線(population regression line),或更一般地稱為總體回歸曲總體回歸曲線線(population regression curve)。)()|(iiXfXYE稱

5、為(雙變量)總體回歸函數(shù)總體回歸函數(shù)(population regression function, PRF)。 相應(yīng)的函數(shù): 回歸函數(shù)(回歸函數(shù)(PRF)說明被解釋變量)說明被解釋變量Y的平均狀的平均狀態(tài)(總體條件期望)隨解釋變量態(tài)(總體條件期望)隨解釋變量X變化的規(guī)律。變化的規(guī)律。l含義:含義: 函數(shù)形式:函數(shù)形式: 可以是線性或非線性的??梢允蔷€性或非線性的。為什么線性形式這么重要?為什么線性形式這么重要?Taylor展開。展開。將糧食產(chǎn)量看成是播種面積的線性函數(shù)時(shí)將糧食產(chǎn)量看成是播種面積的線性函數(shù)時(shí): : iiXXYE10)|(為一為一線性函數(shù)。線性函數(shù)。其中,其中, 0 0, 1 1

6、是未知參數(shù),稱為是未知參數(shù),稱為回歸系數(shù)回歸系數(shù)(regression coefficients)。)。 l注意:線性回歸的含義注意:線性回歸的含義指的是指的是對(duì)參數(shù)是線性的對(duì)參數(shù)是線性的諸如此類,都是線性回歸的范疇。諸如此類,都是線性回歸的范疇。除此之外,很多模型不能塑造成線性回歸模型,就除此之外,很多模型不能塑造成線性回歸模型,就需要走入非線性回歸模型的領(lǐng)域需要走入非線性回歸模型的領(lǐng)域?qū)Υ蟛糠謶?yīng)用來說,選擇一個(gè)能轉(zhuǎn)化成線性回歸的對(duì)大部分應(yīng)用來說,選擇一個(gè)能轉(zhuǎn)化成線性回歸的模型就足夠了。模型就足夠了。01(|)E cons incinc2012(|)(1)XXE Y Xe 三、隨機(jī)擾動(dòng)項(xiàng)三、

7、隨機(jī)擾動(dòng)項(xiàng) 總體回歸函數(shù)說明在相同的播種面積總體回歸函數(shù)說明在相同的播種面積Xi下,下,農(nóng)戶農(nóng)戶平均的平均的糧食產(chǎn)量糧食產(chǎn)量。 但對(duì)某個(gè)別的但對(duì)某個(gè)別的農(nóng)戶農(nóng)戶,其,其糧食產(chǎn)量糧食產(chǎn)量可能與該平均水可能與該平均水平有偏差。平有偏差。)|(iiiXYEY 稱i為觀察值Yi圍繞它的期望值E(Y|Xi)的隨機(jī)干擾項(xiàng)隨機(jī)干擾項(xiàng)(stochastic disturbance)或隨機(jī)誤差項(xiàng)隨機(jī)誤差項(xiàng)(stochastic error),是一個(gè)不可觀測(cè)的隨機(jī)變量。記記個(gè)別農(nóng)戶的糧食產(chǎn)出為:個(gè)別農(nóng)戶的糧食產(chǎn)出為: (*)式稱為)式稱為總體回歸函數(shù)(方程)PRF的隨機(jī)設(shè)定形式。表明被解釋變量除了受解釋變量的系統(tǒng)

8、性影響外,還受其他因素的隨機(jī)性影響。 (1)該收入水平下所有家庭的平均收成E(Y|Xi),稱為系統(tǒng)系統(tǒng)性(性(systematic)或確定性確定性(deterministic) )部分部分。 (2)其他隨機(jī)隨機(jī)或非確定性非確定性(nonsystematic)部分部分 i。即,給定播種面積Xi ,個(gè)別農(nóng)戶的收成可表示為兩部分之和:(*) 由于方程中引入了隨機(jī)項(xiàng),稱為計(jì)量經(jīng)濟(jì)學(xué)模型,也稱為總體回歸模型總體回歸模型。產(chǎn)生并設(shè)計(jì)隨機(jī)誤差項(xiàng)的主要原因:產(chǎn)生并設(shè)計(jì)隨機(jī)誤差項(xiàng)的主要原因:1)在解釋變量中被忽略的因素的影響;)在解釋變量中被忽略的因素的影響;2)變量觀測(cè)值的觀測(cè)誤差的影響;)變量觀測(cè)值的觀測(cè)誤

9、差的影響;3)模型關(guān)系的設(shè)定誤差的影響;)模型關(guān)系的設(shè)定誤差的影響; 四、樣本回歸函數(shù)(四、樣本回歸函數(shù)(SRF) 問題:?jiǎn)栴}:能否從一次抽樣中獲得總體的近似的信息嗎?能否從一次抽樣中獲得總體的近似的信息嗎?如果可以,如何從抽樣中獲得總體的近似信息?如果可以,如何從抽樣中獲得總體的近似信息? 問:能否從該樣本估計(jì)總體回歸函數(shù)問:能否從該樣本估計(jì)總體回歸函數(shù)PRF?回答:能 總體的信息往往無(wú)法掌握,現(xiàn)實(shí)的情況只能總體的信息往往無(wú)法掌握,現(xiàn)實(shí)的情況只能是在一次觀測(cè)中得到總體的一個(gè)樣本。是在一次觀測(cè)中得到總體的一個(gè)樣本。表表 家庭消費(fèi)支出與可支配收入的一個(gè)隨機(jī)樣本家庭消費(fèi)支出與可支配收入的一個(gè)隨機(jī)樣

10、本 Y 800 1100 1400 1700 2000 2300 2600 2900 3200 3500 X 594 638 1122 1155 1408 1595 1969 2078 2585 2530 該樣本的該樣本的散點(diǎn)圖(scatter diagram): 樣本散點(diǎn)圖近似于一條直線,畫一條直線以盡好地?cái)M樣本散點(diǎn)圖近似于一條直線,畫一條直線以盡好地?cái)M合該散點(diǎn)圖,由于樣本取自總體,可以該線近似地代表總合該散點(diǎn)圖,由于樣本取自總體,可以該線近似地代表總體回歸線。該線稱為體回歸線。該線稱為樣本回歸線(sample regression lines)。 記樣本回歸線的函數(shù)形式為:記樣本回歸線的函

11、數(shù)形式為:iiiXXfY10)(稱為稱為樣本回歸函數(shù)樣本回歸函數(shù)(sample regression function,SRF)。 這里這里將將樣本回歸線看成看成總體回歸線的近似替代的近似替代則則 注意:注意:(|)iiiiiYE Y XX為的估計(jì)量;為 的估計(jì)量, =0,1; 樣本回歸函數(shù)的隨機(jī)形式樣本回歸函數(shù)的隨機(jī)形式/樣本回歸模型樣本回歸模型:同樣地,樣本回歸函數(shù)也有如下的隨機(jī)形式: iiiiieXYY10 由于方程中引入了隨機(jī)項(xiàng),成為計(jì)量經(jīng)濟(jì)模型,因此也稱為樣本回歸模型樣本回歸模型(sample regression model)。 式中,ie稱為(樣本)殘差(樣本)殘差(或剩余剩余)

12、項(xiàng)項(xiàng)(residual),是實(shí)際觀測(cè)值和擬合值的偏差。 可看成是i的估計(jì)量i。 l每次抽樣都能獲得一組樣本,就可以擬合一條每次抽樣都能獲得一組樣本,就可以擬合一條樣本回歸線,因此,樣本回歸線是隨抽樣波動(dòng)樣本回歸線,因此,樣本回歸線是隨抽樣波動(dòng)而變化的,可以有許多條,這就決定了而變化的,可以有許多條,這就決定了SRF不不唯一唯一。 回歸分析的主要目的:根據(jù)樣本回歸函數(shù):根據(jù)樣本回歸函數(shù)SRF,估計(jì)總體回歸函數(shù)估計(jì)總體回歸函數(shù)PRF。注意:注意:PRF可能永遠(yuǎn)無(wú)法知道。即,根據(jù) iiiiieXeYY10估計(jì)iiiiiXXYEY10)|(第二節(jié)第二節(jié) 參數(shù)估計(jì)參數(shù)估計(jì)一、線性回歸的經(jīng)典假設(shè)一、線性回

13、歸的經(jīng)典假設(shè)假設(shè)假設(shè)2(Strict exogeneity):嚴(yán)格外生性嚴(yán)格外生性(|)0,1,2iEinX假設(shè)假設(shè)3(No Multicollinearity):無(wú)多重共線性無(wú)多重共線性假設(shè)假設(shè)1(Linearity):總體模型是線性的總體模型是線性的假設(shè)假設(shè)4(Spherical Error Variance):球形方差球形方差22hom,(|)0,1,2,(|)0,iijskedasticity Einnocorrelation Eij XX兩層含義這四個(gè)假設(shè)稱為高斯這四個(gè)假設(shè)稱為高斯-馬爾科夫假設(shè)。馬爾科夫假設(shè)。假設(shè)假設(shè)5(Normality of the Error Term):正態(tài)

14、假設(shè)正態(tài)假設(shè)2 42|( ,)Nn X X0I假設(shè) 、服從正態(tài)分布這五個(gè)假設(shè)稱為線性回歸經(jīng)典假設(shè)。這五個(gè)假設(shè)稱為線性回歸經(jīng)典假設(shè)。二、假設(shè)特例二、假設(shè)特例假設(shè)假設(shè)2:01()0,1,2iiiEEYX in假設(shè)假設(shè)3:(同方差性)(同方差性)22(),1,2( ),1,2iiVarinVar Yin假設(shè)假設(shè)1:X非隨機(jī),總體模型是線性,非隨機(jī),總體模型是線性, Y1,Y2Yn為為SRS1212,. . .,nnY YYii d 是是相互獨(dú)立的同方差示意圖同方差示意圖條件概率密度函數(shù)值條件概率密度函數(shù)值異方差示意圖異方差示意圖條件概率密度函數(shù)值條件概率密度函數(shù)值假設(shè)假設(shè)4:( 無(wú)序列相關(guān)性)無(wú)序列

15、相關(guān)性)(,)0,1,2( ,)0ijijCoviji jnCov Y Y 且niXCovii2 , 1, 0),(假設(shè)假設(shè)5:(解釋變量與隨機(jī)干擾項(xiàng)不相關(guān))(解釋變量與隨機(jī)干擾項(xiàng)不相關(guān))假設(shè)假設(shè)6:(正態(tài)分布)(正態(tài)分布)212201(0,),1,2,i.i.d.(,)iniiNinYNX 是三、三、OLS1. 1. 思想思想l 給定一組樣本觀測(cè)值(給定一組樣本觀測(cè)值(Xi, Yi)()(i=1,2,n)要求樣本回歸函數(shù)盡可能好地?cái)M合這組值要求樣本回歸函數(shù)盡可能好地?cái)M合這組值.l選哪條線擬合?選哪條線擬合?l 理想的估計(jì)方法應(yīng)使殘差理想的估計(jì)方法應(yīng)使殘差ei越小越好越小越好l 普通最小二乘法

16、(普通最小二乘法(Ordinary least squares, OLS)給出的判斷標(biāo)準(zhǔn)是:二者之差的平方和)給出的判斷標(biāo)準(zhǔn)是:二者之差的平方和最小。最小。niiiniXYYYQ121021)()(2. 2. 最小二乘估計(jì)最小二乘估計(jì)l 利用微分的方法,求關(guān)于的偏導(dǎo)數(shù)利用微分的方法,求關(guān)于的偏導(dǎo)數(shù), 并令并令其為零其為零, 得得 0110011101112011112()02()0niiiniiiinniiiinnniiiiiiiQYXQYXXnXYXXX Y 正規(guī)方程組0111111222111111210222122=()=()nnnniiiiiiiinnnnnniiiiiiiiiiiii

17、iiiiiiiiiiiiiinXYXnYDDDXXX YXXX YXYXX YDDnXXnX YXYDDnXX目標(biāo)是在聯(lián)立方程組中解出, ,想到克萊姆法則,其中,求解得:110111,nniiiiXX YYnnYX令得222222,=X,=Y,0()01()()()()iiiiiiiiiiiiiiiiiiiyX yYxXXxXXXXXnXnx yXX YYX YnXY記x分別為樣本值與其均值的離差,即x離差有如下性質(zhì):或212212=()=iiiiiiiiinX YXYDDnXXx yx 離差形式代入l 常用結(jié)論常用結(jié)論 0110011112()00(2)2()00(3)(4)(, )()(5

18、)niiiiniiiiiiiiiiQYXeQYXXe XeYX YYXXYY (1)由由和 不相關(guān)樣本回歸直線經(jīng)過,即Y 例例:在家庭可支配收入可支配收入- -消費(fèi)支出消費(fèi)支出中,對(duì)于所抽出的一組樣本數(shù),參數(shù)估計(jì)的計(jì)算可通過下面的表進(jìn)行。 XiYixiyixiyixi2yi21800594-1350-973.413140901822500947507.5621100638-1050-929.49758701102500863784.36314001122-750-445.4334050562500198381.16417001155-450-412.4185580202500170073.76

19、520001408-150-159.4239102250025408.3662300159515027.6414022500761.76726001969450401.6180720202500161282.56829002078750510.6382950562500260712.3693200258510501017.6106848011025001035509.810350025301350962.612995101822500926598.76求和求和2150015674576930074250004590020.4平均平均21501567.4777. 0742500057693002

20、1iiixyx因此,由該樣本估計(jì)的回歸方程為: 102.7720.777iiYX 011567.40.777 2150102.772YX l當(dāng)模型參數(shù)估計(jì)出后,需考慮參數(shù)估計(jì)值的精當(dāng)模型參數(shù)估計(jì)出后,需考慮參數(shù)估計(jì)值的精度,即是否能代表總體參數(shù)的真值,或者說需度,即是否能代表總體參數(shù)的真值,或者說需考察參數(shù)估計(jì)量的統(tǒng)計(jì)性質(zhì)??疾靺?shù)估計(jì)量的統(tǒng)計(jì)性質(zhì)。l由于參數(shù)的估計(jì)結(jié)果是通過最小二乘法得到的,由于參數(shù)的估計(jì)結(jié)果是通過最小二乘法得到的,故稱為故稱為普通最小二乘估計(jì)量普通最小二乘估計(jì)量(ordinary least squares estimators,OLSE)。)。四、四、OLSE及其性質(zhì)及其

21、性質(zhì)高斯高斯馬爾可夫定理馬爾可夫定理(Gauss-Markov theorem) 在高斯-馬爾可夫假定下,最小二乘估計(jì)量是具有最小方差的線性無(wú)偏估計(jì)量(或稱最佳線性無(wú)偏估計(jì)量, BLUE)。對(duì)于一元線性回歸對(duì)于一元線性回歸12222()=iiiiiiiiiiix yx YYxYYxxxxx證明:2 2、無(wú)無(wú)偏偏性性,即估計(jì)量0、1的均值(期望)等于總體回歸參數(shù)真值0與1 證:證:iiiiiiiiiikXkkXkYk10101)(易知02iiixxk1iiXk故iik111111)()()(iiiiEkkEE同樣地,容易得出 0000)()()()(iiiiEwEwEE3 3、有有效效性性(最最

22、小小方方差差性性) ,即在所有線性無(wú)偏估計(jì)量中,最小二乘估計(jì)量0、1具有最小方差。 (1)先求0與1的方差 )var()var()var()var(21021iiiiiiikXkYk22222iiixxx221020)/1 ()var()var()var(iiiiiikXnXwYw2222222221121iiiiixxXkXnnkXkXnn22222222221iiiiixnXxnXnxxXn(2)證明最小方差性假設(shè)*1是其他估計(jì)方法得到的關(guān)于1的線性無(wú)偏估計(jì)量: iiYc*1其中,ci=ki+di,di為不全為零的常數(shù)則容易證明 故,故,OLSEOLSE是是BLUEBLUE*11*00 (

23、)() ()()VarVarVarVar同理可證明五、參數(shù)估計(jì)量的概率分布及隨機(jī)干擾五、參數(shù)估計(jì)量的概率分布及隨機(jī)干擾項(xiàng)方差的估計(jì)項(xiàng)方差的估計(jì) 1、參參數(shù)數(shù)估估計(jì)計(jì)量量0和和1的的概概率率分分布布 ),(2211ixN),(22200iixnXN22/1ix2220iixnX 2、隨機(jī)誤差項(xiàng)、隨機(jī)誤差項(xiàng) 的方差的方差 2的估計(jì)的估計(jì) 由于隨機(jī)項(xiàng) i不可觀測(cè),只能從 i的估計(jì)殘差ei i出發(fā),對(duì)總體方差進(jìn)行估計(jì)。 2又稱為總體方差總體方差。 可以用可以用 作為作為2的估計(jì)估計(jì)222nei它是關(guān)于2的無(wú)偏估計(jì)量。試證明之。在隨機(jī)誤差項(xiàng)的方差2估計(jì)出后,參數(shù)0和1的方方差差和標(biāo)標(biāo)準(zhǔn)準(zhǔn)差差的估計(jì)量分別

24、是: 1的樣本方差: 2221ixS 1的樣本標(biāo)準(zhǔn)差: 21ixS 0的樣本方差: 22220iixnXS 0的樣本標(biāo)準(zhǔn)差: 220iixnXS 一、擬合優(yōu)度檢驗(yàn)一、擬合優(yōu)度檢驗(yàn) 二、變量的顯著性檢驗(yàn)二、變量的顯著性檢驗(yàn) 三、參數(shù)的區(qū)間估計(jì)三、參數(shù)的區(qū)間估計(jì) 第三節(jié)第三節(jié) 統(tǒng)計(jì)檢驗(yàn)和區(qū)間估計(jì)統(tǒng)計(jì)檢驗(yàn)和區(qū)間估計(jì)l回歸分析是要通過樣本所估計(jì)的參數(shù)來代替總是要通過樣本所估計(jì)的參數(shù)來代替總體的真實(shí)參數(shù),或者說是用樣本回歸線代替總體的真實(shí)參數(shù),或者說是用樣本回歸線代替總體回歸線。體回歸線。 盡管從統(tǒng)計(jì)性質(zhì)統(tǒng)計(jì)性質(zhì)上已知,如果有足夠多的重復(fù) 抽樣,參數(shù)的估計(jì)值的期望(均值)就等于其總體的參數(shù)真值,但在一次

25、抽樣中,估計(jì)值不一定就等于該真值。 那么,在一次抽樣中,參數(shù)的估計(jì)值與真值的差異有多大,是否顯著,這就需要進(jìn)一步進(jìn)行統(tǒng)計(jì)檢驗(yàn)統(tǒng)計(jì)檢驗(yàn)。 主要包括擬合優(yōu)度檢驗(yàn)擬合優(yōu)度檢驗(yàn)、變量的顯著性檢驗(yàn)顯著性檢驗(yàn)。 一、擬合優(yōu)度檢驗(yàn)一、擬合優(yōu)度檢驗(yàn) 對(duì)樣本回歸直線與樣本觀對(duì)樣本回歸直線與樣本觀測(cè)值之間擬合程度的檢驗(yàn)。測(cè)值之間擬合程度的檢驗(yàn)。 :判定系數(shù)(可決系數(shù))R2 問題:?jiǎn)栴}:采用普通最小二乘估計(jì)方法,已經(jīng)保證了模型最好地?cái)M合了樣本觀測(cè)值,為什么還要檢驗(yàn)擬合程度? 1 1、總離差平方和的分解、總離差平方和的分解 已知由一組樣本觀測(cè)值(Xi,Yi),i=1,2,n得到如下樣本回歸直線 iiXY10iiiii

26、iiyeYYYYYYy)()( 如果Yi=i 即實(shí)際觀測(cè)值落在樣本回歸“線”上,則擬合最好擬合最好。此時(shí)可認(rèn)為,“離差”全部來自回歸線,而與“殘差”無(wú)關(guān)。 對(duì)于所有樣本點(diǎn),則需考慮這些點(diǎn)與樣本均值離差的平方和,可證明(請(qǐng)嘗試):記22)(YYyTSSii總體平方和總體平方和(Total Sum of Squares)22)(YYyESSii回歸平方和回歸平方和(Explained Sum of Squares)22)(iiiYYeRSS殘差平方和殘差平方和(Residual Sum of Squares )TSS=ESS+RSSY的觀測(cè)值圍繞其均值的總離差總離差(total variation

27、)可分解為兩部分:一部分來自回歸線一部分來自回歸線(ESS),另一部分則來自殘差另一部分則來自殘差(RSS)。在給定樣本中,TSS不變, 如果實(shí)際觀測(cè)點(diǎn)離樣本回歸線越近,則ESS在TSS中占的比重越大。 擬合優(yōu)度擬合優(yōu)度:回歸平方和:回歸平方和ESS/YESS/Y的總離差的總離差TSSTSS21E S SR S SRT S ST S S記 2 2、可決系數(shù)、可決系數(shù)R R2 2統(tǒng)計(jì)量統(tǒng)計(jì)量 稱 R2 為(樣本)(樣本)可決系數(shù)可決系數(shù)/判定系數(shù)判定系數(shù)(coefficient of determination)。 可決系數(shù)可決系數(shù)的取值范圍取值范圍:0,1 R2 2越接近越接近1 1,說明實(shí)際

28、觀測(cè)點(diǎn)離樣本線越近,擬,說明實(shí)際觀測(cè)點(diǎn)離樣本線越近,擬合優(yōu)度越高合優(yōu)度越高。在實(shí)際計(jì)算可決系數(shù)時(shí),在1已經(jīng)估計(jì)出后: 222121iiiixRy(提示,這里用到了y =x) 在收入收入-消費(fèi)支出消費(fèi)支出例中, 9766. 045900207425000)777. 0(222212iiyxR 注:可決系數(shù)是一個(gè)非負(fù)的統(tǒng)計(jì)量。它也是注:可決系數(shù)是一個(gè)非負(fù)的統(tǒng)計(jì)量。它也是隨著抽樣的不同而不同。隨著抽樣的不同而不同。二、變量的顯著性檢驗(yàn)二、變量的顯著性檢驗(yàn) 回歸分析是要判斷是要判斷解釋變量X是否是是否是被解釋變量Y的一個(gè)顯著性的影響因素。的一個(gè)顯著性的影響因素。 在在一元線性模型中,就是要判斷中,就是

29、要判斷X是否對(duì)是否對(duì)Y具有顯著的線性性影響。這就需要進(jìn)行具有顯著的線性性影響。這就需要進(jìn)行變量的顯著性檢驗(yàn)。 變量的顯著性檢驗(yàn)所應(yīng)用的方法是數(shù)理統(tǒng)計(jì)變量的顯著性檢驗(yàn)所應(yīng)用的方法是數(shù)理統(tǒng)計(jì)學(xué)中的學(xué)中的假設(shè)檢驗(yàn)假設(shè)檢驗(yàn)。 計(jì)量經(jīng)計(jì)學(xué)中計(jì)量經(jīng)計(jì)學(xué)中,主要是針對(duì)變量的參數(shù)真值,主要是針對(duì)變量的參數(shù)真值是否為零來進(jìn)行顯著性檢驗(yàn)的。是否為零來進(jìn)行顯著性檢驗(yàn)的。 ),(2211ixN)2(1112211ntSxti 檢驗(yàn)步驟:檢驗(yàn)步驟: (1)對(duì)總體參數(shù)提出假設(shè) H0: 1=0, H1:10(2)以原假設(shè)H0構(gòu)造t統(tǒng)計(jì)量,并由樣本計(jì)算其值11St (3)給定顯著性水平,查t分布表,得臨界值t /2(n-2)

30、(4) 比較,判斷 若 |t| t /2(n-2),則拒絕H0 ; 若 |t| t /2(n-2),則不能拒絕H0 ; 對(duì)于一元線性回歸方程中的0,可構(gòu)造如下t統(tǒng)計(jì)量進(jìn)行顯著性檢驗(yàn): )2(0022200ntSxnXtii在上述收入-消費(fèi)支出例中,首先計(jì)算2的估計(jì)值 134022107425000777. 04590020222221222nxyneiii0425. 00018. 07425000/13402221ixS41.98742500010/53650000134022220iixnXSt統(tǒng)計(jì)量的計(jì)算結(jié)果分別為: 29.180425. 0777. 0111St048. 141.9817

31、.103000St 給定顯著性水平=0.05,查t分布表得臨界值 t 0.05/2(8)=2.306 |t1|2.306,說明家庭可支配收入在家庭可支配收入在95%95%的置信的置信度下顯著,即是消費(fèi)支出的主要解釋變量;度下顯著,即是消費(fèi)支出的主要解釋變量; |t2|2.306,表明在95%的置信度下,無(wú)法拒絕截距項(xiàng)為零的假設(shè)。 假設(shè)檢驗(yàn)假設(shè)檢驗(yàn)可以通過一次抽樣的結(jié)果檢驗(yàn)總體參數(shù)可能的假設(shè)值的范圍(如是否為零),但它并沒有指出在一次抽樣中樣本參數(shù)值到底離總體參數(shù)的真值有多“近”。 要判斷樣本參數(shù)的估計(jì)值在多大程度上可以“近似”地替代總體參數(shù)的真值,往往需要通過構(gòu)造一個(gè)以樣本參數(shù)的估計(jì)值為中心的

32、“區(qū)間”,來考察它以多大的可能性(概率)包含著真實(shí)的參數(shù)值。這種方法就是參數(shù)檢驗(yàn)的區(qū)間估計(jì)區(qū)間估計(jì)。 三、參數(shù)的區(qū)間估計(jì)三、參數(shù)的區(qū)間估計(jì) 為什么要做區(qū)間估計(jì)為什么要做區(qū)間估計(jì)lOLSE是對(duì)總體回歸參數(shù)的點(diǎn)估計(jì)量,是利用是對(duì)總體回歸參數(shù)的點(diǎn)估計(jì)量,是利用部分的樣本信息對(duì)總體未知信息做推斷。由于部分的樣本信息對(duì)總體未知信息做推斷。由于抽樣的隨機(jī)性,估計(jì)值不會(huì)等于參數(shù)值。抽樣的隨機(jī)性,估計(jì)值不會(huì)等于參數(shù)值。l考慮用一個(gè)區(qū)間,考慮用一個(gè)區(qū)間,“大概率大概率”的將參數(shù)值包含的將參數(shù)值包含其中,以此達(dá)到對(duì)參數(shù)的了解。其中,以此達(dá)到對(duì)參數(shù)的了解。. .iirearlv59P( )1-ii - ii - i

33、真實(shí)值存在、未知真實(shí)值存在、未知i樣本估計(jì)量樣本估計(jì)量區(qū)間上限區(qū)間上限區(qū)間下限區(qū)間下限l區(qū)間估計(jì)的意圖區(qū)間估計(jì)的意圖1:刻畫點(diǎn)估計(jì)量和參數(shù)值的:刻畫點(diǎn)估計(jì)量和參數(shù)值的誤差。誤差。P( )1-iii -統(tǒng)計(jì)學(xué)對(duì)真理的探究統(tǒng)計(jì)學(xué)對(duì)真理的探究l區(qū)間估計(jì)的意圖區(qū)間估計(jì)的意圖2:了解真實(shí)參數(shù)值的取值范:了解真實(shí)參數(shù)值的取值范圍圍區(qū)間估計(jì)的求解步驟區(qū)間估計(jì)的求解步驟l1. 從點(diǎn)估計(jì)量的分布入手從點(diǎn)估計(jì)量的分布入手2112(,var()(,)iiiiNNx1122(0,1)(0,1)var( )iiiiNNx標(biāo)準(zhǔn)化1122 (1) (2)iiiit nkt nSx 樣本方差區(qū)間估計(jì)的求解步驟區(qū)間估計(jì)的求解步

34、驟l2. 做示意圖做示意圖l3. 將將“大概率大概率”描述出來描述出來f(t)t01- /2/2 /2/2 t t /2/2(n-2)(n-2)-t-t /2/2(n-2)(n-2)查查t t分布表分布表22(1)(1)()1iiinknkPttS 區(qū)間估計(jì)的求法區(qū)間估計(jì)的求法l4. 移項(xiàng)整理移項(xiàng)整理注意注意l構(gòu)造的區(qū)間是隨機(jī)區(qū)間構(gòu)造的區(qū)間是隨機(jī)區(qū)間l代入具體的抽樣數(shù)據(jù),得到置信區(qū)間,它是一個(gè)數(shù)值區(qū)代入具體的抽樣數(shù)據(jù),得到置信區(qū)間,它是一個(gè)數(shù)值區(qū)間,是區(qū)間估計(jì)的一次抽樣實(shí)現(xiàn)間,是區(qū)間估計(jì)的一次抽樣實(shí)現(xiàn)l要從重復(fù)實(shí)驗(yàn)的意義上理解:如在要從重復(fù)實(shí)驗(yàn)的意義上理解:如在1000次抽樣中,大次抽樣中,大

35、約有約有950次都能將參數(shù)真值包含住。次都能將參數(shù)真值包含住。22(1)(1)()1iiiiinknkPtStS 練習(xí):一元線性回歸參數(shù)的區(qū)間估計(jì)思考:如何縮小區(qū)間半徑思考:如何縮小區(qū)間半徑l區(qū)間半徑越小,卡得越緊,誤差越小區(qū)間半徑越小,卡得越緊,誤差越小l如何能縮小區(qū)間半徑?如何能縮小區(qū)間半徑?一元線性模型中一元線性模型中, i (i=1,2)的區(qū)間估計(jì)的區(qū)間估計(jì): :在變量的顯著性檢驗(yàn)中已經(jīng)知道: )2(ntstiii 意味著,如果給定置信度(1-),從分布表中查得自由度為(n-2)的臨界值,那么t值處在(-t/2, t/2)的概率是(1-)。表示為: Pttt()221即Ptstiii(

36、)221Ptstsiiiii()221于是得到:(1-)的置信度下, i的區(qū)間估計(jì)是 (,)iitstsii22 在收入收入- -消費(fèi)支出消費(fèi)支出例中,如果給定 =0.01,查表得: 355. 3)8()2(005. 02tnt由于042. 01S41.980S于是,1、0的置信區(qū)間分別為: (0.6345,0.9195) (-433.32,226.98) 由于置信區(qū)間一定程度地給出了樣本參數(shù)由于置信區(qū)間一定程度地給出了樣本參數(shù)估計(jì)值與總體參數(shù)真值的估計(jì)值與總體參數(shù)真值的“接近接近”程度,因此程度,因此置信區(qū)間越小越好。置信區(qū)間越小越好。要縮小置信區(qū)間,可以要縮小置信區(qū)間,可以(1 1)增大樣

37、本容量)增大樣本容量n n,因?yàn)樵谕瑯拥闹眯潘?,因?yàn)樵谕瑯拥闹眯潘较?,下,n n越大,越大,t t分布表中的臨界值越?。煌瑫r(shí),分布表中的臨界值越?。煌瑫r(shí),增大樣本容量,還可使樣本參數(shù)估計(jì)量的標(biāo)準(zhǔn)增大樣本容量,還可使樣本參數(shù)估計(jì)量的標(biāo)準(zhǔn)差減?。徊顪p?。唬? 2)提高模型的擬合優(yōu)度)提高模型的擬合優(yōu)度,因?yàn)闃颖緟?shù)估計(jì),因?yàn)闃颖緟?shù)估計(jì)量的標(biāo)準(zhǔn)差與殘差平方和呈正比,模型擬合優(yōu)量的標(biāo)準(zhǔn)差與殘差平方和呈正比,模型擬合優(yōu)度越高,殘差平方和應(yīng)越小。度越高,殘差平方和應(yīng)越小。(3 3)提高樣本觀測(cè)值的分散度)提高樣本觀測(cè)值的分散度, ,2222112()inniiiienxXX一、0是條件均值E(Y|X

38、=X0)的一個(gè)無(wú)偏估計(jì), 0和個(gè)值Y0的關(guān)系二、總體條件均值與個(gè)值預(yù)測(cè)值的區(qū)間估計(jì)第四節(jié)第四節(jié) 應(yīng)用:預(yù)測(cè)應(yīng)用:預(yù)測(cè) 對(duì)于一元線性回歸模型 iiXY10給定樣本以外的解釋變量的觀測(cè)值X0,可以得到被解釋變量的預(yù)測(cè)值0 0 ,可以此作為其條件條件均值均值E(Y|X=X0)或個(gè)別值個(gè)別值Y0的一個(gè)近似估計(jì)。 0010(|)E Y XXX一、一、0 0作為條件均值作為條件均值E(Y|X=X0)和和個(gè)值個(gè)值Y Y0 0的估計(jì)的估計(jì)對(duì)總體回歸函數(shù)總體回歸函數(shù)E(Y|X)=0+1X,X=X0時(shí) E(Y|X=X0)=0+1X00100XY由0101000100)()()()(XEXEXEYE可見,可見,0是條件均值是條件均值E(Y|X=X0)的無(wú)偏估計(jì)。的無(wú)偏估計(jì)。 1、0 0是條件均值是條件均值E(Y|X=XE(Y|X=X0 0) )的一個(gè)無(wú)偏估計(jì)的一個(gè)無(wú)偏估計(jì)對(duì)總體回歸模型總體回歸模型Y=0+

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論