抽樣調查課件第八章-調查中的復雜樣本_第1頁
抽樣調查課件第八章-調查中的復雜樣本_第2頁
抽樣調查課件第八章-調查中的復雜樣本_第3頁
抽樣調查課件第八章-調查中的復雜樣本_第4頁
抽樣調查課件第八章-調查中的復雜樣本_第5頁
已閱讀5頁,還剩95頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第一節(jié)概述重抽樣(復制樣本),泰勒級數,廣義方差函數典型抽樣方法?復雜設計:多種抽樣方法結合,多種抽樣框復雜估計:非線性,無回答調整,加權估計,事后分層第二節(jié)隨機組法一.什么是隨機組法(RandomGroupMethod)

不同的名稱:replicatesamples重復樣本ultimatecluster末級群交叉樣本等

不同的術語來自于不同的應用。無偏估計全樣本估計保守估計利用隨機組方法估計拒答率及其方差樣本樣本拒答戶數合格調查戶數拒答戶數合格調查戶數城區(qū)S1S2拒答戶數合格調查戶數拒答戶數合格調查戶數141150371492401493014833814538150總計119444105447172個抽屜64張卡片,卡片可能是可能是合同汽車旅館、飯店、空白卡片等1.總體中約有5000個合同汽車旅館,并準備抽取約700個單元作總樣本,這樣,總抽樣比約為700/5000,即約7個里面抽1個。所以,每一個抽屜都各增加6張空白卡片,這樣每個抽屜都有70張卡片。2.從每一個抽屜中隨機抽取一張卡片,組成一個172張卡片的樣本。抽樣在不同的抽屜中是互相獨立的。3.按照第2步的方法有放回地再抽取9個樣本,10個樣本(或隨機組)互相獨立。4.結果有854個汽車旅館被抽入總樣本,向每一個單元寄一張調查表。其他單元不是合同汽車放館,不屬于被調查總體。沒有單元被重復觀測。5.10天后,對無回答的單元第二次寄調查表,再過一星期第三次寄調查表。如果一個單元24天后仍無返回調查表,就被認為是無回答者。6.將無回答者按隨機組的數字順序排列,并從每3個相鄰組中隨機抽選一個。忽略對隨機組估計量獨立性的破壞??倲?70×(16+3×1)=1330權數:入樣概率倒數

=70×94=6580

第一隨機組中回答者和無回答者子樣本的求和實際應用中很難實現多次有放回抽樣,而是把一次樣本隨機分為k個隨機組,所以隨機組相互不獨立4多階段抽樣:來自同一初級抽樣單元(PSU)的所有基本樣本單元的集合:末級群。隨機組是通過將所有末級群分成組而得到的,具體的劃分方法根據第一階抽樣方法而定。5如果采用的是二重抽樣,則應將第一重樣本劃分成個隨機組;而第二重樣本則被相應地分成隨機組,即第二重樣本單元所在的隨機組完全由第一次劃分時決定。在許多大規(guī)模調查中偏差通常都不會很大隨機組問題的討論涉及兩個主要問題:1.估計量的方差2.估計量方差的精度,即對隨機組方差估計的質量評估。

當N,n很大,抽樣比很小時,也可用于不獨立隨機組(1)峰度由(1)式看出,近似地反比于隨機組個數K定理說明CV依賴于兩個因素,和K1.K小,CV則大2.大,CV也大說明,方差的隨機組估計的精度,不但依賴k,而且與的分布(從而與)有關。令m=n/k,如取采用有放回簡單隨機抽樣,取為a組的樣本均值,則

這時若抽樣方式為放回PPS抽樣,取為第a組的總體總和的估計量,則上述兩種形式蘊含了這樣一個事實,從本質上講,的形式。m從1開始增長時,峰度明顯減少,但隨m越來越大,峰度的遞減作用減少,因此對越來越大的m,峰度的邊際遞減不足以彌補必要的k的遞減,K對減少CV和提高方差估計精度比組容量m更重要。要滿足需要的精度水平

需要什么樣的m和k?估計聽取專家意見根據經驗判斷K增長時費用會增加,因此最優(yōu)k的選擇應該在費用約束下尋找總結:randomgroupmethods優(yōu)點:計算簡單,適用面廣適于多參數、非參數問題,適于分中位數等非平滑函數,也可用于非抽樣誤差加權調整后的方差估計。缺點:隨機組數目一般較少,方差估計不穩(wěn)定,一般至少10個隨機組。隨機組的產生較困難:要求機制與復雜抽樣相同,而且限制隨機組數目,如每層2個PSUResamplingandreplicationmethodsSampling:“population”Subsamples(WR):估計方差BanlancedRepeatedReplicationJacknifebootstrap半樣本法:50年代末美國普查局的W.N.赫維茨和M.格尼平衡半樣本法:麥卡錫BanlancedRepeatedReplication第三節(jié)平衡半樣本方法半樣本基本原理每層只抽兩個單元的分層抽樣隨機組方法隨機組缺點?由于僅僅一個自由度,其穩(wěn)定性比標準估計量差半樣本:從每層抽取一個單元形成半樣本,總共可能出現?個半樣本半樣本之間是彼此相關的半樣本估計量=1,如果第h層中第一個單元被選入第個半樣本;=0,否則。半樣本估計量的性質平衡半樣本

一個小的半樣本子集(k)盡量保留所有的信息滿足該條件的k個半樣本為平衡半樣本完全正交平衡(fullorthogonalbalance)半樣本滿足該條件的平衡半樣本稱為完全正交平衡半樣本完全正交平衡半樣本:k的選擇應該是大于L的4的最小整數倍半樣本層12341+1+1+1-12-1+1-1-13-1-1+1-14+1-1-1-1部分平衡半樣本

假設有L層,采用K組半樣本L層可分為G群各群用同樣方法構造正交列半樣本層12341+1+1+1+12+1-1+1-1部分平衡半樣本的方差估計量雖然不如完全平衡半樣本精確,但也是無偏的。用于多階段抽樣在L層中的每一層初級抽樣單元(PSU)都是按放回的抽樣抽取的用于非線性估計對于非線性估計量,一般和是不等的,但多數調查實踐中兩者非常接近推廣nh=1nh〉2第四節(jié)Jackknife方法PseudovaluePPS例前面srs+wr例當k=n時,由于第j個虛擬值為平均值中的第j個變量,因此有

Jackknife的虛擬值為Jackknife的估計量為在非線性估計條件下,拒答率案例第五節(jié)其他方法簡介一、bootstrap(Efron,1979)SRS,n,”population”,resamples,假設S是一個容量為n的簡單隨機樣本;將S視為總體,從中再抽取重復樣本。如果樣本與總體確實相似——如果樣本的經驗概率密度函數(epmf)與總體的概率密度函數相似——那么從經驗概率密度函數中產生的樣本應該與從總體中抽取的樣本表現出相同的特性。WR,WOR優(yōu)勢:非平滑函數,方便的構造置信區(qū)間例利用文件ht.srs中的樣本,用bootstrap方法估計身高中位數的方差。總體中身高的中位數是168;而ht.srs中樣本中位數是169??傮w概率密度函數與樣本柱狀圖有相同的形狀,因此預期從S中放回地抽取容量為n的簡單隨機樣本,與從總體中放回地抽取的簡單隨機樣本是類似的。從S中抽取的重復樣本可能與S并不完全一致,因為重復樣本是放回的——S中的有些觀測值可能在重復樣本中多次出現,有些觀測值卻從未被抽到過。一共從S中抽取R=2000個重復樣本(n=200),分別計算每個樣本的中位數,得到2000個樣本中位數的頻數表:這2000個值的樣本均值為169.3,樣本方差為0.9148(方差的bootstrap估計量)。中位數的95%置信區(qū)間為[167.5,171]。直接利用bootstrap估計出的抽樣分布,確定bootstrap分布的2.5百分位數和97.5百分位數,就可以得到95%的置信區(qū)間。中位數165166166.5167167.5168168.5169169.5170170.5171171.5172頻數1524015268877391114914418854初始簡單隨機樣本是無放回Gross(1980)建議生成個樣本的復制,以此作為“虛擬的總體”,再從虛擬總體中無放回地抽取R個簡單隨機樣本。如果很小,那么放回與無放回的bootstrap分布應該相差不大。復雜抽樣中bootstrap方法,Rao和Wu(1988)從第h層的樣本中放回地抽取一個容量為的簡單隨機樣本。各層的抽樣獨立進行。對于每個重復樣本r,生成一個新的權數變量其中是觀測單元i被選入重復樣本的次數。利用新的權數來計算。將第1、2步重復R次,R應該是一個很大的數。計算二、Generalizedvariancefunction(GVFs)1990,NCVS,估計某種犯罪受害者人數t20-24歲1990年搶劫總次數的估計值為800510次;該估計的標準差是如果對于不同的估計量有近似的設計效應(deff),構建廣義方差函數的一般步驟:

使用復制或其他方法,估計感興趣的k個總體總量()的方差。令相對方差=構建一個模型。=利用回歸技術估計和。Valliant(1987)建議采用加權最小二乘方法估計這兩個參數,并為較小的項目賦予較大的權數。優(yōu)點

在公布信息不充分的情況下可以用GVF來直接計算標準差。廣義方差函數節(jié)省了大量時間,加速了年度報告的產生。GVF對于將來類似調查的設計也很有借鑒意義。缺點

模型可能并不適用,因此得出的方差估計是不可靠的。對計算回歸參數時未采用的那些量的方差進行估計時,應用GVF必須謹慎。如果子總體中的群deff非常高時,GVF會嚴重低估方差。三、泰勒級數法(線性化方法)

例如犯罪損失調查是搶劫受害者報告的被搶金額,是受害者因此耽誤的工作日,是搶劫受害者支付的醫(yī)療費用,假設每工作日損失150美元,對搶劫經濟損失的可能是。

更簡便的辦法:在觀測單元水平上定義新的變量,總體總量的平滑非線性函數例將均值和總量的非線性函數的方差估計量線性化的一般步驟:將目標量表示成樣本中測量或計算變量的均值或總量的函數。通常的形式為計算關于各個自變量的偏導數。以形成線性化步驟中的常數。應用Taylor定理將估計量線性化:定義新的變量q計算的方差,將其作為方差的近似。例如比估計應用Taylor定理:優(yōu)點:如果偏導數已知,應用線性化方法可以給出統計量的方差估計、并可以應用于一般的抽樣設計中。線性化方法在統計學中有長期的應用,相關理論得到了很好的發(fā)展。現在有很多計算比率、回歸系數等非線性函數的線性化方差估計的軟件。缺點計算過于繁瑣,在包含權數的復雜函數中這一方法難于應用。需要確定h的偏導數的分析表達式,或對偏導數進行具體的數值計算。對估計的每個非線性統計量都需要一個單獨的方差公式,并需要進行專門的設計;而每個統計量所需的方法都有不同。并不是所有的統計量都可以表示成總體總量的平滑函數——如中位數和其他百分位數就不適用。線性化近似的準確度取決于樣本量——如果樣本量不夠大,方差的估計通常是偏低的??傮w總量的平滑函數的置信區(qū)間

大部分方差估計方法都假定漸近服從標準正態(tài)分布如果假定成立,近似95%置信區(qū)間為線性化方法、jackknife、BRR和bootstrap方法有如下假定:目標量可以表示為總體總量的平滑函數;更確切地說有連續(xù)的二階偏導函數。樣本量較大:或者是各層抽取的psu數量較大,或者是調查包含的層數較多??傮w分位數的置信區(qū)間定義分位數為滿足的y的最小值如果隨機

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論