泊松回歸模型的研究_第1頁
泊松回歸模型的研究_第2頁
泊松回歸模型的研究_第3頁
泊松回歸模型的研究_第4頁
泊松回歸模型的研究_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

泊松回歸模型的研究

一、生育率的統(tǒng)計學(xué)分析教育率的統(tǒng)計數(shù)據(jù)有很多,但不同年齡的教育率和總教育率是最重要的,最常見的教育率。在各種正式公布的統(tǒng)計數(shù)據(jù)中,一般也都包括年齡別生育率和總和生育率,用來反映全國或各地的生育水平。年齡別生育率是對某一年份某一年齡組婦女生育水平的具體測量指標(biāo),總和生育率則是建立在某一年份系列年齡別生育率基礎(chǔ)之上的概括性指標(biāo)??偤蜕时磉_(dá)了時期的生育水平,而該時期的年齡別生育率系列則反映了生育的年齡模式。這些指標(biāo)的含義簡單明了,既容易理解又容易計算。在實際應(yīng)用中,總和生育率要比一般生育率的可比性強(qiáng),是一種更“單純”的生育水平測量,因而更適用于不同時間和不同地域之間生育水平的比較。就方法論而言,因為總和生育率是系列年齡別相對數(shù)(即生育率)的合計,因此已經(jīng)控制了育齡婦女年齡結(jié)構(gòu)的影響。換用一般的回歸分析建模語言,生育水平是因變量,而年齡則是自變量(或稱為協(xié)變量、控制變量)。這種基本關(guān)系其實與一個回歸方程沒有什么不同。而就認(rèn)識生育問題而言,僅僅知道生育率指標(biāo)的計算、在控制年齡結(jié)構(gòu)的條件下比較生育率差別和變化是遠(yuǎn)遠(yuǎn)不夠的,還需要進(jìn)一步對生育率差別和變化做出解釋。因為生育本身是一個受到生理、人口、社會、經(jīng)濟(jì)、政策和文化觀念等諸多因素共同作用的過程,這些因素都直接或間接地對生育發(fā)生著影響。比如,城鄉(xiāng)二元結(jié)構(gòu)的社會環(huán)境顯然對生育率有很大影響,因此我們經(jīng)常分別計算城鄉(xiāng)生育率。這也是統(tǒng)計控制的途徑之一,但它的代價是必須先將育齡婦女生育數(shù)據(jù)劃分為城鄉(xiāng)兩個數(shù)據(jù)再分別計算生育率。而在回歸分析中,要達(dá)到同樣的統(tǒng)計控制,只需要在模型中加入一個表示案例城鄉(xiāng)屬性的自變量即可。如果需要在生育率研究中加入更多自變量時,常規(guī)生育率計算方法的局限性便越發(fā)凸顯出來,因為這需要將原始數(shù)據(jù)分成更多類型的子樣本。而當(dāng)生育率研究必須將一些連續(xù)變量(如精確測量的收入)作為自變量時,就更困難了。通常有兩種方法來實現(xiàn)操作化。第一種方法是將連續(xù)變量分段,形成少數(shù)類別,然后加以使用。這種做法有兩大代價:一是會極大損失原有連續(xù)變量中的信息;二是分隔點的選擇不可避免主觀任意性,而分隔點的不同選擇還可能造成完全不同的統(tǒng)計結(jié)論。第二種方法是提高分析單位層次。比如,以省、縣為單位,用社會、經(jīng)濟(jì)、人口等自變量對總和生育率做回歸分析(Poston等,1987;林富德、劉金塘,1998;王金營等,2004)。盡管這類研究對于理解中國生育率轉(zhuǎn)變非常重要,但生育畢竟是婦女的個體行為,因此上述宏觀研究結(jié)果很難解釋個體生育行為的發(fā)生機(jī)理。如果簡單將這些宏觀層次的結(jié)論推論到微觀的家庭、個人層次上,便可能導(dǎo)致一種與分析單位相連的方法論謬誤,即生態(tài)學(xué)謬誤1。另有一些研究堅持致力于微觀分析,采用個體為分析單位,用各種回歸模型來解釋個體生育行為發(fā)生的原因。比如,李樹茁等(1998)分別以期望孩子數(shù)和曾生子女?dāng)?shù)作為因變量,應(yīng)用多元回歸研究婦女就業(yè)的水平和形式如何影響其生育行為。與此類似,靳小怡等(2004)應(yīng)用多元回歸分析了農(nóng)村婚姻形式與婦女的終身子女?dāng)?shù)的關(guān)系。陳衛(wèi)、吳麗麗(2006)應(yīng)用Logistic回歸分析遷移行為與生育行為的關(guān)系,其模型的因變量為代表“普查前一年是否生育了孩子”的二分變量。然而,這些研究的因變量并不是生育率,而是與生育率有關(guān)的其他測量指標(biāo)。我們注意到,國內(nèi)研究文獻(xiàn)中幾乎沒有對生育率的微觀回歸分析,其實是因為缺乏一種恰當(dāng)?shù)幕貧w模型可用于個體數(shù)據(jù)的生育率研究。常規(guī)回歸方法的因變量必須是連續(xù)變量。但生育率是一種平均事件發(fā)生率,通常只能是對集合數(shù)據(jù)的統(tǒng)計描述,而對個人則無法計算生育率。這就造成個人層面的回歸模型不可能有生育率指標(biāo)來作為因變量。因此,微觀層面的回歸分析只能采用其他測量指標(biāo)。曾生子女?dāng)?shù)實際上記錄的是一位婦女已經(jīng)生育的次數(shù),其取值范圍很小,并且只能為非負(fù)整數(shù)值,在統(tǒng)計中稱為計數(shù)變量。嚴(yán)格地說,它的分布既不是連續(xù)的,也不是正態(tài)的(生育較少的人很多,而生育很多的人很少)。將此類變量作為因變量進(jìn)行常規(guī)回歸分析便會違反這種方法本身所要求的假定條件。然而在缺乏更好回歸模型時,將常規(guī)回歸應(yīng)用于計數(shù)因變量是一種常見的做法(White等,2005)。但是,我們知道在違反其假定的條件下,常規(guī)回歸的估計是有嚴(yán)重偏差的,并且相應(yīng)的統(tǒng)計檢驗都是無效的(郭志剛,1999:177)。而泊松回歸恰好可以解決上述問題。首先,泊松回歸是專門為分析因變量為諸如生育次數(shù)、遷移次數(shù)等計數(shù)變量發(fā)展出來的統(tǒng)計模型(Lindsey,1995;Winkelmann,2000)。它不僅可以應(yīng)用于生育率研究,也可以應(yīng)用于其他更為廣闊的研究領(lǐng)域。其次,泊松回歸一方面可以納入年齡、性別等常用的人口自變量,用于估計年齡別生育率、性別年齡別遷移率等經(jīng)典描述性人口學(xué)指標(biāo)以外,也可以納入更多社會經(jīng)濟(jì)變量。在數(shù)據(jù)信息具備的情況下,還可以在估計有關(guān)發(fā)生率的同時進(jìn)行解釋性研究的探索(Powers等,2000;Schoumaker,2004)。第三,泊松回歸中的自變量不僅可以是代表年齡組和城鄉(xiāng)分組的虛擬變量,也可以是連續(xù)變量。所以,不必再像常規(guī)人口統(tǒng)計中那樣,非要先將連續(xù)變量轉(zhuǎn)換為分類變量后才可應(yīng)用。本文的主要目的:一是通過實際數(shù)據(jù)分析來演示應(yīng)用泊松回歸來估計生育率;二是通過在泊松回歸中引入更多的解釋變量來展示該方法在測量生育率變化趨勢與分析生育率影響因素等方面的功效和靈活性。這種方法十分有利于深入開發(fā)實際調(diào)查的生育史、遷移史等數(shù)據(jù),從而為國內(nèi)人口學(xué)、社會學(xué)界的研究人員提供一種新方法的選擇。二、計數(shù)變量是某類事件發(fā)生數(shù)在社會科學(xué)量化研究中,如果研究者試圖進(jìn)行解釋性研究或者對某一理論進(jìn)行檢驗,那么,回歸模型很可能是最基本的工具。近些年,回歸模型已經(jīng)從最基礎(chǔ)的正態(tài)線性回歸模型發(fā)展出更多的類型?;貧w模型的選擇在很大程度上取決于因變量的類型。在社會科學(xué)研究中,因變量常常是計數(shù)類型的變量,諸如一定時期內(nèi)的生育孩子數(shù)、遷移次數(shù)、犯罪次數(shù)、某類疾病的發(fā)病次數(shù)、看病次數(shù)等,它們都是某種事件發(fā)生數(shù)。計數(shù)變量的特征非常鮮明,它們?nèi)≈禐?、1、2、3……離散的非負(fù)整數(shù),且通常最大值并不是很大。如婦女終身生育數(shù)在理論上小于20,在實際數(shù)據(jù)中可見到的曾生子女?dāng)?shù)就更小了。在統(tǒng)計文獻(xiàn)中,這類變量被稱為計數(shù)變量,且經(jīng)常被作為分類變量的一種形態(tài)(Powers等,2000;Long,1997;Long等,2001)。由于計數(shù)變量不是連續(xù)的,并且分布又呈明顯偏態(tài),因而不可以作為常規(guī)回歸的因變量。從1980年開始,在計量經(jīng)濟(jì)學(xué)研究和流行病學(xué)研究中就開始發(fā)展出一類專門用于對計數(shù)變量數(shù)據(jù)進(jìn)行分析的模型,被稱為計數(shù)變量模型或事件——計數(shù)分析2(Tuma等,1979)。計數(shù)變量的標(biāo)準(zhǔn)模型為泊松分布,也就是說泊松回歸模型是建立在泊松分布基礎(chǔ)上的回歸模型(Cameron等,1998:9),它構(gòu)成了對計數(shù)變量進(jìn)行多元量化分析的起點。(一)一些基本的概念1.事件是一個比較概念泊松回歸模型的因變量是一定時期內(nèi)事件的發(fā)生次數(shù)。和事件史分析一樣,這里所謂的事件是一個寬泛的概念。它可以看做是地位的變化或者是性質(zhì)狀態(tài)的轉(zhuǎn)換,比如結(jié)婚、生育、死亡、失業(yè)或就業(yè)、遷移等。2.作率的指標(biāo)。首先,在統(tǒng)計學(xué)上,比率屬于相對數(shù),又可稱為率。很多人口統(tǒng)計指標(biāo)都與比率有關(guān),因此,我們對于率的概念似乎比較熟悉。但由于習(xí)慣用法上的不嚴(yán)謹(jǐn),人口統(tǒng)計中有些被稱作率的指標(biāo)實際上應(yīng)該分別稱為“比”或“比例”,但卻錯誤地被稱作“比率”(查瑞傳,1991:55)。實際上,比率在研究中具有其特定的定義。簡單地講,比率是指單位時期內(nèi)某一事件的發(fā)生數(shù)與該時期暴露在可能發(fā)生該事件風(fēng)險中的人期總數(shù)的比。比如,1990年的一般生育率等于1990年育齡婦女的生育總數(shù)除以所有育齡婦女在當(dāng)年所存活的人年總數(shù)。與比例不同,比率是對某一事件發(fā)生的瞬時概率的測量,屬于動態(tài)概念。而比例表達(dá)的是成功的試驗次數(shù)與試驗總數(shù)之比,是一個靜態(tài)概念。3.不同特征的泊松模型對暴露期的考慮是計算事件發(fā)生率的關(guān)鍵。暴露期指個體或觀察案例在轉(zhuǎn)入下一狀態(tài)之前的初始狀態(tài)上所持續(xù)的時間長度,這又被稱為個體或觀測案例在初始狀態(tài)中的持續(xù)期或風(fēng)險期或等待時間。在標(biāo)準(zhǔn)的泊松回歸模型中,假定處于暴露期內(nèi)的所有的觀察案例具有同質(zhì)性,即視他們所有個人特征對事件發(fā)生率沒有影響。這種標(biāo)準(zhǔn)泊松模型也稱無條件泊松模型。但實際上暴露期會隨著觀察案例特征的不同而不同(Winkelmann,2000:73)。一般而言,婦女在結(jié)婚以后才會有生育行為,不同的婦女婚后多久才會生育第一個孩子存在很大差異。對于農(nóng)村婦女,大多在婚后一年生育,而城鎮(zhèn)婦女可能會等待更長的時間才會有第一次生育。然而,一旦事件發(fā)生,個體的風(fēng)險持續(xù)期或等待時間就可以觀測得到,并用于計算暴露期總數(shù)。(二)泊松回歸的應(yīng)用國內(nèi)流行病學(xué)領(lǐng)域的研究者視泊松回歸為隊列隨訪資料分析中常見的多變量統(tǒng)計分析方法之一(李克、余順章,1997;孫全富、鄒劍明,1998;沈其君等,1999;夏結(jié)來、徐雷,2003),也有不少應(yīng)用泊松回歸進(jìn)行研究的成果(項永兵等,1995;宇傳華等,1996;于浩等,1996;楊玲等,2005)。但是,國內(nèi)其他社會科學(xué)領(lǐng)域還很少有介紹和實際應(yīng)用該模型。對于這一模型,有不同的叫法。Allison(1985)稱其為恒定風(fēng)險模型;Long等則稱其為泊松回歸(Long,1997;Long等,2001;Cameron等,1998);而Powers和Xie(2000)稱其為對數(shù)率模型。但他們都是以事件發(fā)生次數(shù)作為研究對象,研究風(fēng)險暴露期和其他協(xié)變量對事件發(fā)生率的影響3。更為重要的是,這一模型是假定事件發(fā)生遵循著名的泊松分布的基礎(chǔ)上推導(dǎo)出來的(Cameron等,1998:9)。1.泊松回歸模型以y表示對某一事件發(fā)生數(shù)的觀測,假定隨機(jī)變量Y等于y的概率,并遵循均值為μ的泊松分布,則該泊松分布的密度函數(shù)為:Pr(Y=y|μ)=e-μμyy!y=0,1,2?(1)(Y=y|μ)=e?μμyy!y=0,1,2?(1)在式(1)1中,μ>0且μ它是定義分布時的唯一參數(shù)。當(dāng)然,這是針對單變量泊松分布的情況。也可以通過允許每一觀測具有不同的μ值將泊松分布擴(kuò)展為泊松回歸模型(Long等,2001:229)。在更一般的情況下,泊松回歸模型假定,表示對個體i某一事件發(fā)生數(shù)的觀測yi遵循均值為μi的泊松分布,那么,該分布的密度函數(shù)為:Pr(Yi=yi|μi)=e-μiμiyiyi!yi=0,1,2?(2)(Yi=yi|μi)=e?μiμiyiyi!yi=0,1,2?(2)μi可根據(jù)一些可觀察的特征估計得到,這就有以下結(jié)構(gòu)方程:μi=E(yi|Xi)=exp(Xi′β′)=k∏j=1exp(βjxji)(3)實際上,式(1)和(3)聯(lián)合起來才定義了一個完整的泊松回歸模型(Cameron等,1998:10),對X′iβ′取指數(shù)是為了保證參數(shù)μi為非負(fù)數(shù)。這時,均值μi也是一個條件均值,反映的是在一系列因素作用下事件的平均發(fā)生數(shù),只不過作用被表達(dá)為乘法形式。將式(3)兩邊取對數(shù),可以得到該條件均值的一種加法形式表達(dá):lnμi=Xi′β′=k∑j=1βjxji(4)通過式(4)對事件發(fā)生數(shù)的平均值的對數(shù)轉(zhuǎn)換,方程左側(cè)的對數(shù)條件均值(或稱對數(shù)率)已經(jīng)表達(dá)為k個自變量的線性函數(shù)。泊松分布有一個重要的特征,就是均值和方差相等。在泊松回歸模型中,這成為了一個非常關(guān)鍵的假定條件,即等離散假定。違背等離散假定的情況既可能是過離散(即方差大于均值),也可能是欠離散(即方差小于均值)。對等離散假定的違背足以造成對泊松假定的違背(Winkelmann,2000:11)。2.乘法模型與加權(quán)模型根據(jù)函數(shù)關(guān)系表達(dá)的形式,上述式(3)和(4)分別被稱作乘法模型與加法模型。其中,都只有βj是未知參數(shù),可以采用最大似然法進(jìn)行估計,或者采用迭代再加權(quán)最小二乘法求解(Powers等,2000;Cameron等,1998)。3.模型擬合優(yōu)度模型擬合的輸出結(jié)果一般都會給出對數(shù)似然值,由于該值會受到樣本量大小的影響,因而不能單獨用作對模型擬合優(yōu)度評價的指標(biāo)。對同一數(shù)據(jù)擬合不同的模型就可以得到不同的對數(shù)似然值,如果這些模型之間存在嵌套關(guān)系,那么我們可以采用似然比指標(biāo)G2對不同模型的擬合優(yōu)度做出評價,從而對模型進(jìn)行選擇。以Lc表示當(dāng)前模型的似然值,在當(dāng)前模型中繼續(xù)納入?yún)f(xié)變量,得到限制模型的似然值Lr。那么,G2=2(Lr-Lc)~χ2k。其中,k為限制模型與當(dāng)前模型協(xié)變量數(shù)目的差值。這里零假設(shè)為限制模型和當(dāng)前模型無差異。統(tǒng)計軟件很可能只會給出每一模型的對數(shù)似然值,在這種情況下,我們需要計算χ2k的值,如果χ2k>χ2α,k,那么我們就拒絕零假設(shè),認(rèn)為限制模型對數(shù)據(jù)的擬合優(yōu)于當(dāng)前模型4。當(dāng)然,反過來,這也可以用來作為判斷某一因素是否納入到模型中加以分析。4.期望變化量的解釋對泊松回歸模型進(jìn)行解釋有多種不同的方式,這取決于研究者是對計數(shù)變量的期望值還是對計數(shù)的分布感興趣(Long等,2001:231)。如果對期望值感興趣的話,有多種方法可以用于計算某一自變量一定程度的變化量所帶來的計數(shù)變量期望值的變化量,既可以用期望值的倍數(shù)變化來表達(dá),也可以用百分比變化來表達(dá),甚至還可以用期望值的邊際變化來表達(dá)。其中,最常用的解釋方法是計算倍數(shù)變化。這一解釋方法非常直觀、非常容易理解。泊松回歸系數(shù)βj可以被解釋為:在控制其他變量的條件下,xj變化1個單位,將帶來對數(shù)均值上的變化量。然而研究人員真正關(guān)心的并不是取對數(shù)的均值,而是期望計數(shù)(即率)本身。因此,可以用exp(βj)來反映xj變化1個單位時期望計數(shù)的倍數(shù)變化。exp(βj)又稱為發(fā)生率比(標(biāo)為IRR)。當(dāng)然,這是針對連續(xù)自變量而言。當(dāng)自變量為代表分類的虛擬變量時,exp(βj)表示在控制其他變量的條件下,某一類別的期望計數(shù)為參照類期望計數(shù)的相應(yīng)倍數(shù)。這其實與Logistic回歸系數(shù)的解釋類似。5.glim軟件的應(yīng)用泊松回歸模型的參數(shù)估計采用最大似然法或者迭代重復(fù)加權(quán)最小二乘法求解。以前,這些計算一般是通過專門用于對廣義線性模型進(jìn)行統(tǒng)計分析的GLIM軟件包來進(jìn)行(Trussell等,1990;Rodríguez等,1988;Healy,1988)。現(xiàn)在,SAS和Stata等許多常見的統(tǒng)計分析軟件也都可以對泊松回歸模型進(jìn)行估計。本文采用Stata8.0軟件進(jìn)行分析。(三)泊松回歸系數(shù)的編碼Rodríguez和Cleland(1988)指出,如果將婦女的生育數(shù)視為獨立的泊松隨機(jī)變量5,那么,其均值可以表達(dá)為暴露期和理論已婚生育率兩者的乘積。據(jù)此,如果以yj表示一定時期內(nèi)育齡婦女i的生育數(shù),那么,均值μi反映了婦女i在某一時期的平均生育數(shù)。該均值可被分解成生育率li和風(fēng)險長度ti兩者的乘積:μi=tili,因而,均值μi的對數(shù)就等于風(fēng)險長度ti與生育率li的對數(shù)和,即lnμi=lnti+lnli。式中l(wèi)nti被稱為偏移量,它是系數(shù)固定為1的自變量(Trussell等,1990)。納入它意在對每一位婦女的風(fēng)險長度進(jìn)行控制(Powers等,2000:156),同時意味著假定風(fēng)險隨著持續(xù)期的延長按比例增加。進(jìn)一步,生育率(li)的對數(shù)可以被表達(dá)成k個解釋變量的線性函數(shù):lnli=β1x1i+β2x2i+β3x3i+…+βkxki,因此,lnμi=lnti+β1x1i+β2x1i+β3x3i+…+βkxki。這樣,就把一定時期育齡婦女i的生育數(shù)的對數(shù)表達(dá)成了其風(fēng)險長度的對數(shù)和k個解釋變量的線性函數(shù)。泊松回歸系數(shù)的符號反映了各解釋變量對生育率的影響方向,而系數(shù)的大小則反映影響強(qiáng)度。回歸系數(shù)的冪表達(dá)了不同婦女群體的生育率或類別之間的生育率差異,這取決于研究人員如何將代表各類別的虛擬變量納入模型。泊松回歸在生育數(shù)據(jù)分析中存在的優(yōu)勢:(1)1它可以憑借調(diào)整偏移量offset來控制模型中每一人年中的實際風(fēng)險長度。比如,在某人年中生育可以發(fā)生于任一日期,而生育以后距該年底的時間實際上并不屬于暴露期。(2)2泊松回歸既可以計算經(jīng)典的生育水平指標(biāo)又可以對生育率進(jìn)行解釋研究,因此可以把生育分析的描述性研究和解釋性研究結(jié)合在一起。(四)人年數(shù)據(jù)的形成泊松模型既可以處理分組數(shù)據(jù)也可以處理個體數(shù)據(jù)(Powers等,2000;Rodríguez等,1988)。特別是Schoumaker(2004)又進(jìn)一步提出,可以先將個體數(shù)據(jù)改造為人期數(shù)據(jù),然后應(yīng)用泊松回歸模型來估計生育率6。在這種人期數(shù)據(jù)中,分析單位不再是作為個體的社會行動者而是人期。也就是說,此時分析單位不再是個人案例而是由個人生育史轉(zhuǎn)換的若干單位時間。一旦將原始生育史調(diào)查數(shù)據(jù)轉(zhuǎn)換為人期數(shù)據(jù)之后,便可以簡單應(yīng)用泊松回歸來估計和分析生育率及其影響因素。并且,這種方式還可以將“隨時間變動的變量”或稱“動態(tài)變量”納入到解釋模型之中(梁在,1999;郭志剛,2001)。沿著Schoumaker發(fā)展出來的數(shù)據(jù)使用方式,本文以人年作為分析單位對2001年全國計劃生育/生殖健康調(diào)查的個人問卷原始數(shù)據(jù)進(jìn)行類似地改造,以便利用這一調(diào)查的有關(guān)信息開展對生育率的泊松回歸分析。與Schoumaker使用前5年的回顧性調(diào)查數(shù)據(jù)不同,“2001年全國計劃生育/生殖健康調(diào)查”對當(dāng)年為15~45歲的育齡婦女的歷次懷孕情況均進(jìn)行了回顧性調(diào)查,問卷表格中最高設(shè)計了12次懷孕事件。這也就意味著,調(diào)查時每一位婦女已經(jīng)度過的生育期是不一樣長的。而且,這幾乎是對每一位婦女全部生育史的回顧。因此,每一個婦女所能提供的人年信息記錄的數(shù)量是不同的。下面將按照原始數(shù)據(jù)中提供的個人生育史信息來形成人年格式的數(shù)據(jù)。表1顯示了原始的個體數(shù)據(jù)格式。根據(jù)本次調(diào)查規(guī)則,編號為1的婦女只懷孕了一次,并處于現(xiàn)孕狀態(tài)(結(jié)果編碼為7),所以此次懷孕結(jié)束年月編碼全部為2。編號為2的婦女于1987年7月活產(chǎn)1個女嬰(結(jié)果編碼為2),又于1988年11月又生了1個男孩(結(jié)果編碼為1)。我們將主要以此為例,說明數(shù)據(jù)改造的操作。人年數(shù)據(jù)的形成需要根據(jù)原始數(shù)據(jù)中的生育史(而不是所有懷孕史)的事件信息,將婦女育齡階段的所有人年均建立單獨的一條記錄。由于原始數(shù)據(jù)格式提供的是每一次懷孕事件的明確時間信息,因此需要先將每名婦女橫排列的懷孕史數(shù)據(jù)轉(zhuǎn)換為多行的人年生育記錄數(shù)據(jù)(郭申陽,1999:428)。但是,由于原始數(shù)據(jù)只對每一婦女有懷孕事件的年份進(jìn)行記錄,因此這就需要對每一位進(jìn)入調(diào)查的15~49歲的育齡婦女從15歲至調(diào)查年份(2001年)之間的每一年產(chǎn)生一條記錄,這樣才能重建每一位婦女在2001年之前完整的人年生育數(shù)據(jù)。這一數(shù)據(jù)處理是一個較復(fù)雜的工作,可以采用SPSS軟件來完成,Stata軟件也有類似的數(shù)據(jù)處理功能,或者可以用VB等其他編程軟件來完成。若以表1中編號為2的育齡婦女為例,表2顯示了數(shù)據(jù)改造之后的人年數(shù)據(jù)格式。由于我們在數(shù)據(jù)改造時,是以人年為分析單位,因此在最后的人年數(shù)據(jù)中,并沒有明確出現(xiàn)風(fēng)險持續(xù)期這個變量。這實際上意味著每條人年記錄的風(fēng)險持續(xù)期默認(rèn)為1。對于那些沒有發(fā)生生育的人年這是恰如其分的,但對于那些當(dāng)年有生育的人年,這種數(shù)據(jù)處理就意味著假定生育發(fā)生在年底。從后面的分析結(jié)果可以看到,這種忽略對分析結(jié)果并未造成什么明顯損失。先來看一下表1中編號為2婦女的原始數(shù)據(jù)。該婦女生于1964年,所以在1979年時為15歲,進(jìn)入育齡,此后即暴露于生育風(fēng)險下,到2001年調(diào)查時經(jīng)歷了22年,因此該婦女有22條人年記錄。但根據(jù)表1提供的生育信息,她只在1987年(23歲)和1988年(24歲)有生育,因此只有這兩年的人年記錄的生育數(shù)為1(如果是多胞胎,生育數(shù)就是相應(yīng)的整數(shù))。本來還可以針對這兩個有生育的人年進(jìn)行偏移量offset的調(diào)整,但本研究省略了這一步。經(jīng)過改造之后,得到的分析數(shù)據(jù)的規(guī)模與原始數(shù)據(jù)發(fā)生了巨大變化,樣本量由原始數(shù)據(jù)的39586條記錄增加到769966條記錄。這主要是由于時間因素的引入,分析單位不再是每一個婦女,而是根據(jù)每一個婦女已經(jīng)在育齡期內(nèi)經(jīng)歷的年數(shù)建立了多條對應(yīng)每年生育經(jīng)歷的人年記錄。改造后的人年生育數(shù)據(jù)的匯總結(jié)果表明,各年的生育總數(shù)和年齡別生育數(shù)分布與這次調(diào)查后國家人口和計劃生育委員會正式發(fā)表的數(shù)據(jù)集(潘貴玉等,2003)完全相同,而從人年數(shù)據(jù)得到的年齡別統(tǒng)計數(shù)則與公布數(shù)據(jù)集中的育齡婦女分布高度吻合。三、應(yīng)用泊松回歸研究生育率人年生育數(shù)據(jù)建立以后,用Stata軟件做泊松回歸只需要一條命令:“poissondepvarindvars”。其中,poisson啟動泊松回歸,depvar代表因變量名,indevars代表自變量名。自變量如果有多個可以用空格分隔依次列出。(一)輸出回歸系數(shù)的擬合結(jié)果對于上述整理好的人年數(shù)據(jù),采用泊松回歸來估計生育率在操作上簡單易行。以婦女在每一人年的生育數(shù)作為因變量,將各人年口徑的年齡組對應(yīng)的虛擬變量作為自變量,即可完成各年齡別生育率的回歸估計。要做某一年(如2000年)生育率估計,便可在命令中加上if語句的附加選項,特定選擇2000年的所有人年記錄來進(jìn)行泊松回歸。還可以再增加一些其他選項命令來滿足特殊需要。比如,如果希望直接輸出年齡別生育率,就需要飽和輸入代表15~49歲各年齡對應(yīng)的全部35個虛擬變量(如下面命令中的dage1-dage35)7,并且注明不設(shè)立作為參照類的常數(shù)項,以及直接輸出回歸系數(shù)的冪(irr)來取代默認(rèn)的回歸系數(shù)輸出。即:“poissonkidnumdage1-dage35iffertyear==2000,noconstantnologirr”。這里irr即exp(βj),是年齡別生育率。泊松回歸對2000年各年齡別生育率的輸出結(jié)果與發(fā)表數(shù)據(jù)集中的結(jié)果十分接近。泊松回歸的年齡別生育率合計出來的總和生育率為1.455,而相應(yīng)的公布統(tǒng)計值為1.448,兩者水平極為接近。從圖1可以看出,泊松估計的生育率在峰值以前均低于公布值,但在峰值以后又基本上高于公布值。并且泊松估計值曲線在27歲又出了一個小尖,而在公布生育率的曲線中,并沒有出現(xiàn)這一特征。我們認(rèn)為,這是因為常規(guī)生育率計算方法其實具有年齡組間修勻的功能,而泊松回歸估計則沒有這一功能。如前所述,泊松回歸估計生育率時既可以按單歲分組,也可以按5歲分組。各回歸系數(shù)的冪仍然是年齡組的生育率。在用5歲組生育率計算總和生育率時,需要將合計值擴(kuò)大5倍。采用5歲分組在回歸估計生育率時有一個明顯的好處,就是自變量數(shù)量大大減少了,只需要7個對應(yīng)年齡組的虛擬變量。隨之而來,輸出結(jié)果也精簡了許多。按5歲分組的泊松回歸估計計算的總和生育率仍然是1.455。(二)城鄉(xiāng)東南角生育率估計結(jié)果中國城鄉(xiāng)之間在社會、經(jīng)濟(jì)發(fā)展上存在較大差距,因此城鄉(xiāng)之間生育率水平存在明顯差異。常規(guī)計算城鄉(xiāng)生育率時必須分別對城鄉(xiāng)育齡婦女及其生育數(shù)加以匯總,然而在應(yīng)用泊松回歸估計時只需要做一個方程便可以完成。也就是說,只要在定義自變量時,除了表示年齡組的虛擬變量外,再加上一個表示城鄉(xiāng)的虛擬變量就行。根據(jù)泊松回歸估計,得到的城鎮(zhèn)2000年總和生育率為1.051。而農(nóng)村虛擬變量的發(fā)生率比(irr)為1.512,表示鄉(xiāng)村生育率為城鎮(zhèn)婦女的1.512倍,于是得出農(nóng)村總和生育率為1.589(1.051×1.512)。而調(diào)查數(shù)據(jù)集公布的城鄉(xiāng)總和生育率分別為0.974和1.610,可見泊松回歸估計與其差別并不大。上述這種考慮城鄉(xiāng)差別的泊松回歸只是一種簡化分析,由于只加了一個識別城鄉(xiāng)的虛擬變量,因此并未考慮城鎮(zhèn)的生育模式與鄉(xiāng)村生育模式很有可能存在很大差別。實際上這一模型假定對于每一個年齡組,城鄉(xiāng)生育率水平都呈同樣的比例關(guān)系。所以盡管城鄉(xiāng)總和生育率水平的估計很接近正式發(fā)表的統(tǒng)計,但實際上關(guān)于城鄉(xiāng)生育模式相同的模型設(shè)置卻是不符合實際的。對此,我們可以通過在模型中引入城鄉(xiāng)變量和各年齡組變量兩兩相乘得到的交互項變量進(jìn)行調(diào)整,交互項的引入也就意味著回歸模型允許城鄉(xiāng)的生育模式完全根據(jù)數(shù)據(jù)來計算,不再強(qiáng)制城鄉(xiāng)有相同的生育模式。在這種帶交互項的泊松回歸模型估計基礎(chǔ)上計算出來的城鄉(xiāng)總和生育率分別為0.991和1.613,與公布的0.974和1.610結(jié)果變得更為接近。圖2提供了泊松回歸估計的城鄉(xiāng)生育率曲線與公布統(tǒng)計水平之間的比較。(三)泊松回歸估計采用人年數(shù)據(jù)還使“隨時間變動的變量”或者“動態(tài)變量”納入到模型之中成為可能。而人年所屬年份和人年所屬年齡則是動態(tài)變量的一種簡單情況。如果考慮將時期因素納入泊松回歸模型時,可以根據(jù)人年數(shù)據(jù)的生育史信息重構(gòu)過去若干年內(nèi)的生育趨勢(Schoumaker,2004)。為了模型簡單,我們假定不同年份的生育模式不變8。將年份和年齡組作為虛擬變量納入泊松回歸模型,由此可以得到每一年齡組的回歸系數(shù)和特定年份的回歸系數(shù)。根據(jù)年齡組的回歸系數(shù)冪,可以計算出參照年份的總和生育率。而特定年份回歸系數(shù)冪表達(dá)的是該年份總和生育率與參照年份總和生育率之間的倍數(shù)。于是,就能計算出各年總和生育率估計。由此,通過一個泊松回歸,可以方便地計算很多年的生育水平變化趨勢。從圖3可以看出,采用泊松回歸估計得到的1980~1986年的總和生育率要略低于其他來源的統(tǒng)計水平,而1986年以后卻正好相反,泊松回歸估計比其他來源統(tǒng)計偏高。這除了數(shù)據(jù)來源不同的原因外,還因為泊松回歸簡單地假定這段時期中生育模式不變,因而在一定程度上脫離了實際。盡管如此,從反映生育率長期變化趨勢的角度來看,泊松估計重建的20年生育趨勢和現(xiàn)有各類統(tǒng)計數(shù)據(jù)所反映的情況仍然做到了基本吻合。從圖3還可以看出,由于使用同一數(shù)據(jù),泊松回歸估計的生育趨勢與“2001年計劃生育/生殖健康調(diào)查”公布值極為接近,兩條線在1990年中后期基本上重合了。(四)組織特征對生育的影響生育行為既會受到生理因素的影響,也會受到社會、經(jīng)濟(jì)、文化等方面多因素的影響。下面將應(yīng)用泊松回歸對2000年生育率的有關(guān)社會變量的影響進(jìn)行檢驗。圖4提供了解釋性研究的理論框架。泊松回歸要求因變量數(shù)據(jù)分布等離散,表3中關(guān)于2000年所有人年記錄生育數(shù)的描述性統(tǒng)計表明,生育子女?dāng)?shù)的平均值等于0.04,而方差也接近于0.0409,二者幾乎相等。因此,因變量分布可以認(rèn)為滿足等離散假定。采用自變量分步納入模型的方式,得到3個模型,分析結(jié)果見表4。下面針對各模型進(jìn)行討論。模型一只考慮了年齡的影響,它為后面其他模型的評價建立了一個基線模型,這一模型實際上等價于上述報告的以5歲年齡組做泊松回歸的模型。不同的是,這里回歸的目的并不是取得生育率,而是分析各年齡組之間的差異,因此這里不再將年齡組虛擬變量飽和納入,并且允許模型出現(xiàn)常數(shù)項。在這種情況下,仍然可以根據(jù)輸出結(jié)果間接地計算各年齡組的生育率,但此種輸出更方便于分析與比較。常數(shù)項系數(shù)的冪exp(-5.34)=0.005表示參照年齡組15~19歲的生育率,而其他各年齡組回歸系數(shù)的冪表示與參照組生育率之間的倍數(shù)差別。比如,20~24歲組回歸系數(shù)冪28.336表示該年齡組生育率是15~19歲組的28.3倍(也可得出該年齡組生育率為0.136)。由于尚未在模型中納入其他解釋因素,模型一中各年齡組生育率之間的倍數(shù)差異其實還包含著其他各種影響因素的共同作用。換句話說,此時的生育率沒有得到其他方面足夠的統(tǒng)計控制。但當(dāng)在模型中納入其他社會變量時,便可以檢驗各自變量的凈影響是否顯著。模型二在模型一的基礎(chǔ)上又納入了婦女的初婚年齡、受教育程度和理想子女?dāng)?shù)3個影響因素,其中的初婚年齡是個定距變量,且近似于連續(xù)。整體上,模型二的對數(shù)似然值比模型一大167.93,由此,可以得到模型擬合優(yōu)度統(tǒng)計指標(biāo)值G2為335.86,遠(yuǎn)遠(yuǎn)大于臨界值χ20.01(5)=15.086,表明在0.01的顯著性水平上肯定了模型整體擬合優(yōu)度的提高。換句話說,模型二新加的3個因素(5個自變量)貢獻(xiàn)了很大的解釋能力,模型二對數(shù)據(jù)的擬合要顯著優(yōu)于模型一。從表4提供的模型二單個變量的效應(yīng)來看,3個社會因素(理想子女?dāng)?shù)、初婚年齡和受教育程度)都對育齡婦女的生育行為具有統(tǒng)計性顯著的影響。正如理論假設(shè)的那樣,在控制了其他變量的條件下,理想子女?dāng)?shù)每增加1個,生育率將會提高29%。而初婚年齡晚的育齡婦女的生育率要高于初婚年齡早的育齡婦女。初婚年齡每推遲1歲,生育率將是原來的1.19倍。這一結(jié)果乍看起來似乎與“晚婚導(dǎo)致少育”的通識有違。但應(yīng)當(dāng)指出,上述這種通識在表達(dá)時并沒有任何限制條件,而這里的回歸結(jié)果所描述的則是“在相同年齡、相同教育、相同生育意愿條件下”的情況。這一結(jié)果實際上意味著,晚婚會將同樣的意愿生育數(shù)量壓縮在更晚且更短的生育期內(nèi)完成。也就是說,在同樣條件下初婚較早的更可能已經(jīng)在2000年前生育完了,而晚婚者則更可能仍處于實際生育階段。模型二的結(jié)果還顯示出,受教育越多生育率越低的反向關(guān)系。在其他條件相同時,小學(xué)程度婦女的生育率只有文盲類的81%,初中程度為文盲類的69%,而高中及以上程度育齡婦女的生育率則相對更低,還不到文盲類40%的水平。在生育行為研究中,經(jīng)常需要根據(jù)民族、居住地類型、地區(qū)等群組變量對育齡婦女進(jìn)行分組,討論不同群組特征對婦女生育水平的影響。因此,模型三在模型二的基礎(chǔ)上又納入了分別表示民族、城鄉(xiāng)、地區(qū)的虛擬變量。這些變

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論