




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第
8
章
抽樣分布【學(xué)習(xí)目標(biāo)】1、理解抽樣的基本問(wèn)題,建立有關(guān)抽樣的基本概念;2、掌握樣本平均數(shù)、樣本比率、樣本方差的抽樣分布;3、會(huì)運(yùn)用中心極限定理解決實(shí)際問(wèn)題;4、理解大數(shù)定律的含義以及在實(shí)踐中的運(yùn)用。8.1概述8.1.1抽樣的概念和作用1.抽樣的概念
在實(shí)際問(wèn)題中,我們研究的總體一般都包含了大量的個(gè)體元素,而每一個(gè)個(gè)體元素都對(duì)應(yīng)了相關(guān)的數(shù)量特征,也就是說(shuō)我們要面對(duì)的是大量的數(shù)據(jù),我們的目的之一就是想知道這些大量數(shù)據(jù)的數(shù)量特征。但是,得到總體的數(shù)量特征是一件很困難的事情,下面我們通過(guò)一個(gè)實(shí)例來(lái)說(shuō)明這個(gè)問(wèn)題。【例
8-1】QQ
大數(shù)據(jù)發(fā)布《2018
中國(guó)人運(yùn)動(dòng)報(bào)告》:國(guó)人日均步數(shù)
首次沖破
6000
步2019-01-0810:30
來(lái)源:南方網(wǎng)綜合隨著生活水平的提升,普羅大眾對(duì)運(yùn)動(dòng)健身的重視度越來(lái)越高,尤其隨著健身室、運(yùn)動(dòng)場(chǎng)地、健身軟件等外部條件的不斷發(fā)展成熟,運(yùn)動(dòng)健身已經(jīng)融入到每天的生活中。日前,QQ
大數(shù)據(jù)聯(lián)合
運(yùn)動(dòng)發(fā)布了《2018
年中國(guó)人運(yùn)動(dòng)報(bào)告》,報(bào)告顯示2018
年國(guó)人日均行走步數(shù)首次突破
6000
大關(guān),同時(shí)也從人群、城市、出行時(shí)間等多個(gè)維度剖析國(guó)人步行習(xí)慣的變化。2018
年,國(guó)人的平均步數(shù)達(dá)到
6303
步,首次突破
6000
大關(guān)。據(jù)《2018
中國(guó)人運(yùn)動(dòng)報(bào)告》顯示,最近三年國(guó)人的平均步數(shù)穩(wěn)步提升,從
2016
年起每年以
11%的增幅穩(wěn)步增長(zhǎng),提升到
2018
年的
6303步。可以看出,國(guó)民運(yùn)動(dòng)意識(shí)和運(yùn)動(dòng)習(xí)慣正在不斷增強(qiáng)。2018
年,不但國(guó)民日均步數(shù)連年攀升,而且多個(gè)城市也以高企的平均步數(shù)交出了亮眼成績(jī)單。在城市排行榜中,蘭州市以
7638
步的平均步數(shù)一躍成為最大黑馬,奪冠年度城市平均步數(shù)第一名;榜眼的西安相比去年的排名上升一位,連續(xù)兩年穩(wěn)坐前三甲;深圳和廣州則分別位列第九和第十,在排行榜上齊頭并進(jìn),看來(lái)快節(jié)奏的生活也能保持一定的步行量。表
8-1 2018
城市平均步數(shù)
TOP10排名城市平均步數(shù)排名城市平均步數(shù)1蘭州76386武漢69932西安72427哈爾濱68643貴陽(yáng)71248成都68464烏魯木齊70949深圳67455昆明703010廣州6729
作為社會(huì)和家庭中堅(jiān)力量的中老年,依然活力滿滿,40-50
歲人群的日均步數(shù)達(dá)
7030
步,而
50
歲以上的人群平均步數(shù)更是達(dá)到了7515
步。相較之下,祖國(guó)的“花朵們”就顯得不那么活躍了,20
歲以下青少年的日均步數(shù)只有
5782
步,大概是因課業(yè)繁重、缺乏運(yùn)動(dòng)時(shí)間。表8-2不同年齡組平均步數(shù)年齡組平均步數(shù)年齡組平均步數(shù)20以下578245-50703020-30640750以上751530-406403
據(jù)悉,這是
大數(shù)據(jù)和QQ
運(yùn)動(dòng)連續(xù)第三年發(fā)布《中國(guó)人運(yùn)動(dòng)報(bào)告》,對(duì)了解當(dāng)下中國(guó)人運(yùn)動(dòng)習(xí)慣、各城市運(yùn)動(dòng)狀況提供了良好的參考。QQ
運(yùn)動(dòng)作為中國(guó)最大的個(gè)人運(yùn)動(dòng)健身記錄及用戶互動(dòng)交流平臺(tái),記錄國(guó)民每一天的步行數(shù)據(jù)。QQ
運(yùn)動(dòng)將社交與運(yùn)動(dòng)有機(jī)結(jié)合的創(chuàng)新玩法更是有效實(shí)現(xiàn)了從運(yùn)動(dòng)的單一體驗(yàn)向創(chuàng)意式體驗(yàn)的轉(zhuǎn)變,讓每個(gè)人在“步履不停”中,體驗(yàn)運(yùn)動(dòng)與社交的快樂(lè)。QQ
運(yùn)動(dòng)連續(xù)第三年發(fā)布《中國(guó)人運(yùn)動(dòng)報(bào)告》是以QQ
運(yùn)動(dòng)作為數(shù)據(jù)基礎(chǔ)進(jìn)行分析,并不能涵蓋全體國(guó)人。我們可以認(rèn)為,QQ
運(yùn)動(dòng)是運(yùn)用國(guó)人中的一部分?jǐn)?shù)據(jù)(樣本)計(jì)算某些特征來(lái)推斷全體國(guó)人(總體)的特征。從總體中抽取一部分個(gè)體組成樣本的過(guò)程稱為抽樣。抽樣可以分為隨機(jī)抽樣和非隨機(jī)抽樣。隨機(jī)抽樣是指完全排除研究者主觀因素的抽樣,其反面就是非隨機(jī)抽樣。如無(wú)特殊聲明,以后的內(nèi)容中所說(shuō)的抽樣均指隨機(jī)抽樣。2.抽樣的目的和作用
從上面的例子中我們理解了什么叫抽樣,那么抽樣的目的是什么?又有哪些作用呢?抽樣的目的是進(jìn)行抽樣推斷,主要包含兩個(gè)方面的內(nèi)容:一是利用抽樣所得到的信息對(duì)研究對(duì)象的總體數(shù)量特征進(jìn)行估計(jì);二是利用抽樣所得到的信息對(duì)某些假設(shè)進(jìn)行檢驗(yàn)。
抽樣的作用可以歸納為以下幾個(gè)方面:1)對(duì)隨機(jī)現(xiàn)象進(jìn)行推斷。例如顧客在一家快餐店的消費(fèi)支出是不確定的,也就是說(shuō)這是一種隨機(jī)現(xiàn)象。我們可以通過(guò)抽樣的方法,抽取一個(gè)合適的樣本,利用樣本的信息對(duì)所有顧客在這家快餐店的平均消費(fèi)支出做出推斷。
2)節(jié)約調(diào)查成本。這是我們進(jìn)行抽樣的一個(gè)重要的原因。例如在例
8-1
中所提到的問(wèn)題,要想知道全體國(guó)人的步行步數(shù),是要花費(fèi)大量成本的,但進(jìn)行抽樣估計(jì),可以比較快捷地得到結(jié)果,節(jié)約大量的調(diào)查成本。
3)有效地控制誤差。抽樣方法是科學(xué)的方法,可以對(duì)誤差進(jìn)行計(jì)算和控制,在很多時(shí)候可以用抽樣調(diào)查對(duì)全面調(diào)查的結(jié)果進(jìn)行驗(yàn)證。4)對(duì)某些假設(shè)進(jìn)行檢驗(yàn),從而做出科學(xué)的決策。(這部分內(nèi)容將在第
10
章學(xué)習(xí))8.1.2
抽樣的有關(guān)概念1.總體和樣本1)總體,又稱全及總體,指所要研究對(duì)象的全體,由許多客觀存在的具有某種共同性質(zhì)的個(gè)體(單位)構(gòu)成。總體中所包含的個(gè)體(單位)數(shù)用
N
表示,稱為總體容量,當(dāng)總體容量是有限時(shí),我們稱為有限總體;當(dāng)總體容量是無(wú)限時(shí),我們稱為無(wú)限總體??傮w是唯一的、確定的。2)樣本,又稱子樣,是從總體中抽取部分個(gè)體(單位)組成的集合,是總體的一部分。樣本中包含的個(gè)體(單位)數(shù)用
n
表示,稱為樣本容量。樣本是不確定的、可變的、隨機(jī)的;從總體中可能抽出的所有樣本數(shù)目,稱為樣本可能數(shù)目,記為
M。這一數(shù)目的大小與總體容量、樣本容量有關(guān),也與抽樣方法有關(guān)。2.參數(shù)和統(tǒng)計(jì)量
1)參數(shù)是總體參數(shù)的簡(jiǎn)稱,是反映總體數(shù)量特征的指標(biāo),其取值是唯一的、確定的,但往往是未知的,我們相信它是客觀存在的。最常用的參數(shù)有總體均值(記為
)、總體比率(記為
)和總體方差(記為
2
)。例如在例
8-1
中某一年齡組人群的平均步數(shù)就是一個(gè)參數(shù),是我們想要知道的內(nèi)容,但在現(xiàn)實(shí)中往往是未知的。2)統(tǒng)計(jì)量是樣本統(tǒng)計(jì)量的簡(jiǎn)稱,是由樣本中單位的變量值計(jì)算得到的反映樣本數(shù)量特征的指標(biāo),其數(shù)值是不確定的,隨機(jī)的。最常用的統(tǒng)計(jì)量有樣本平均數(shù)(記為
)、樣本比率(記為
p)、樣本方差(記為s
2
)。例如在例
8-1
中,為了估計(jì)某一年齡組人群的平均步數(shù)(參數(shù)),我們?cè)谌珖?guó)按一定的規(guī)則抽取
1000
名該年齡組的人,對(duì)他們平均步數(shù)時(shí)行調(diào)查,計(jì)算出這
1000
人的平均步數(shù)
,這個(gè)平均步數(shù)就是統(tǒng)計(jì)量。需要特別注意的是,這
1000
人(樣本)的抽取有多種多樣不同的結(jié)果,我們計(jì)算得到的統(tǒng)計(jì)量的值(
)會(huì)隨著樣本的不同而發(fā)生變化,而樣本是隨機(jī)抽取的,所以說(shuō)統(tǒng)計(jì)量是隨機(jī)變量。3.抽樣方法
1)重復(fù)抽樣,又稱有放回抽樣。其抽樣過(guò)程是:先從總體中抽取第
1
個(gè)個(gè)體(單位)并記錄所需數(shù)據(jù)后,把這個(gè)個(gè)體(單位)再放回總體;再抽取第
2
個(gè)個(gè)體(單位)并記錄所需數(shù)據(jù)后,
把這個(gè)個(gè)體(單位)再放回總體;以此類推,直到抽足樣本所要求的個(gè)體(單位)數(shù)目為止。重復(fù)抽樣的特點(diǎn)是:第一,n個(gè)個(gè)體(單位)的樣本是由
n次試驗(yàn)的結(jié)果構(gòu)成的。第二,每次試驗(yàn)是獨(dú)立的,即其試驗(yàn)的結(jié)果與前次、后次的結(jié)果無(wú)關(guān)。第三,每次試驗(yàn)是在相同條件下進(jìn)行的,每個(gè)個(gè)體(單位)在多次試驗(yàn)中選中的機(jī)會(huì)(概率)是相同的。設(shè)從總體容量是
N
的總體中按重復(fù)抽樣的方法,抽取樣本容量為
n的樣本,則樣本可能數(shù)目為M
N
n
。2)不重復(fù)抽樣,又稱不放回抽樣。其抽樣過(guò)程是:每次從總體抽取一個(gè)個(gè)體(單位),登記后不放回原總體,不參加下一輪抽樣;下一次繼續(xù)從總體中余下的個(gè)體(單位)抽取樣本,直到抽足樣本所要求的個(gè)體(單位)數(shù)目為止。其特點(diǎn)是:第一,n個(gè)個(gè)體(單位)的樣本由
n
次試驗(yàn)結(jié)果構(gòu)成,但由于每次抽出不重復(fù),所以實(shí)質(zhì)上相當(dāng)于從總體中同時(shí)抽取
n個(gè)個(gè)體(單位)。第二,每次試驗(yàn)結(jié)果不是獨(dú)立的,上次中選情況影響下次抽選結(jié)果。第三,每個(gè)單位在多次(輪)試驗(yàn)中中選的機(jī)會(huì)是不等的。如果是考慮順序,其樣本可能數(shù)目為(排列數(shù));如果不考慮順序,其樣本可能數(shù)目為(組合數(shù))。4.抽樣誤差
抽樣的目的是進(jìn)行估計(jì)和推斷,就是用統(tǒng)計(jì)量對(duì)參數(shù)進(jìn)行推斷,這個(gè)過(guò)程一定會(huì)有誤差。
誤差可以分為登記性誤差和代表性誤差。所謂登記性誤差是指在登記、匯總數(shù)據(jù)時(shí)產(chǎn)生的誤差,從理論上講,登記性誤差是可以避免的;而代表性誤差是指用樣本統(tǒng)計(jì)量推斷總體參數(shù)而產(chǎn)生的誤差,又分為偏差和隨機(jī)誤差;偏差是指破壞了抽樣的隨機(jī)原則而產(chǎn)生的誤差,這種誤差在理論上也是可以避免的;隨機(jī)誤差是指在抽樣中遵循了隨機(jī)原則,但由于樣本的不穩(wěn)定性而產(chǎn)生的誤差,也就是抽樣誤差,這種誤差是必然會(huì)產(chǎn)生的,是不可避免的,但是可以對(duì)其進(jìn)行控制和計(jì)算。
在這里,我們只討論抽樣誤差。
抽樣誤差又可以分為實(shí)際誤差、抽樣平均誤差和抽樣極限誤差。例如在例
8-1
中,在某一年齡組里中抽樣了一個(gè)樣本容量為
1000
的樣本,計(jì)算出樣本的平均步數(shù)
(統(tǒng)計(jì)量),我們用
對(duì)全體國(guó)人這一年齡組真實(shí)的平均步數(shù)
進(jìn)行估計(jì),則
就是實(shí)際誤差,由于
一般來(lái)說(shuō)是未知的,所以實(shí)際誤差只有理論意義。
有實(shí)際意義的是抽樣平均誤差,也稱為標(biāo)準(zhǔn)誤差或標(biāo)準(zhǔn)誤。
我們?nèi)砸云骄鶖?shù)來(lái)說(shuō)明,由于對(duì)于給定的樣本容量,我們可以抽取很多個(gè)不同的樣本,設(shè)樣本可能數(shù)目為M,而每個(gè)樣本都可以得到一個(gè)對(duì)應(yīng)的,每一個(gè)與μ都會(huì)有一個(gè)誤差,直觀的理解這些誤差的平均值可以表示為,但是由于分子的離差可正可負(fù),相加后會(huì)相互抵消,其結(jié)果為零(后面會(huì)看到這個(gè)結(jié)果)。所以這些誤差的平均值應(yīng)表示為:(8-1)其中:
Ex
—樣本平均數(shù)的抽樣平均誤差。(8-1)式表示的是用
估計(jì)
的所有誤差的平均值,我們稱其為
的抽樣平均誤差,也稱為標(biāo)準(zhǔn)誤差或標(biāo)準(zhǔn)誤。同樣的,我們還可以定義樣本比率
p的抽樣平均誤差。抽樣極限誤差將在以后的內(nèi)容中討論。8.1.3
抽樣方式1.簡(jiǎn)單隨機(jī)抽樣簡(jiǎn)單隨機(jī)抽樣的組織原則是:(1)在抽取樣本時(shí),必須保證每一個(gè)可能樣本被抽到的概率相等;(2)總體中每一個(gè)個(gè)體(單位)被包括在樣本中的可能性相等。簡(jiǎn)單隨機(jī)抽樣可以用隨機(jī)數(shù)字法、抽簽法等多種方法。最簡(jiǎn)單的方法是使用隨機(jī)數(shù)字。隨機(jī)數(shù)字可以借助于計(jì)算機(jī)得到,也可以利用隨機(jī)數(shù)字表(附表A)。2.分層抽樣分層抽樣是先把總體按一定標(biāo)志劃分成許多性質(zhì)相近的類型或組別,然后在每種類型中抽取個(gè)體(單位)。抽取方法有兩種:(1)按各類型在總體中的比重確定各類型應(yīng)抽樣本容量;(2)在各類型中抽取相同容量的樣本,估計(jì)值以各類型比重加權(quán)。分層抽樣與其它抽樣方式相比,由于考慮到總體中各類型之間的差別,因此,它能更準(zhǔn)確地反映總體的分布特征。3.系統(tǒng)抽樣
系統(tǒng)抽樣從總體中抽取樣本時(shí),是按照時(shí)間或空間的等距間隔抽取的。過(guò)程一般分為兩步:(1)確定抽樣距離
k,(2)在前k
號(hào)中隨機(jī)抽取
1
個(gè)個(gè)體(單位),然后,每間隔
k個(gè)個(gè)體(單位)抽取
1個(gè),直到抽夠要求的數(shù)目為止。
系統(tǒng)抽樣的優(yōu)點(diǎn)是:比簡(jiǎn)單隨機(jī)抽樣簡(jiǎn)便,節(jié)省費(fèi)用;所抽個(gè)體(單位)在總體中的分布比簡(jiǎn)單隨機(jī)抽樣更均勻。4.整群抽樣
整群抽樣是先把總體分為若干個(gè)群,然后在這些群中隨機(jī)地抽選部分群作為樣本。
這種抽樣方式適合于群與群之間的差異不大情況,其優(yōu)點(diǎn)是能夠大大地節(jié)省時(shí)間和費(fèi)用,但如果群間差異較大,則會(huì)產(chǎn)生很大的誤差。
不同的抽樣方式會(huì)形成不同的抽樣平均誤差,詳細(xì)內(nèi)容可參閱專門的文獻(xiàn)資料。8.2
抽樣分布8.2.1
抽樣分布的概念某個(gè)統(tǒng)計(jì)量對(duì)應(yīng)的頻率分布或概率分布稱為該統(tǒng)計(jì)量的抽樣分布。常用的抽樣分布有樣本平均數(shù)
的抽樣分布、樣本比率
p的抽樣分布、樣本方差s
2
的抽樣分布。抽樣分布是一種理論分布,可以由數(shù)學(xué)推導(dǎo)或?qū)嶒?yàn)推斷其分布的形態(tài)。8.2.2
樣本均值()的抽樣分布
為了得到
的抽樣分布,我們做一個(gè)試驗(yàn)?!纠?/p>
8-2】假設(shè)一個(gè)總體包含
6
個(gè)個(gè)體(單位),分別是X
1
1,
X
2
2,
X
3
3,
X
4
4,
X
5
5,
X
6
6
。采取重復(fù)抽樣的方法,從中抽取
2
個(gè)個(gè)體(單位)組成樣本,試描述
的抽樣分布。X123456f(X)1/61/61/61/61/61/6解:首先考慮總體的分布情況。顯然總體服從均勻分布:總體均值為:總體方差為:采取重復(fù)抽樣的方法從
N=6
個(gè)個(gè)體(單位)中抽取
n=2
個(gè)個(gè)體(單位)組成樣本,一共可以抽取M
62
36
個(gè)樣本,對(duì)應(yīng)的可以計(jì)算出36
個(gè)
。Xi,X
j第二次抽取123456第一次抽取11,1(1.0)1,2(1.5)1,3(2.0)1,4(2.5)1,5(3.0)1,6(3.5)22,1(1.5)2,2(2.0)2,3(2.5)2,4(3.0)2,5(3.5)2,6(4.0)33,1(2.0)3,2(2.5)3,3(3.0)3,4(3.5)3,5(4.0)3,6(4.5)44,1(2.5)4,2(3.0)4,3(3.5)4,4(4.0)4,5(4.5)4,6(5.0)55,1(3.0)5,2(3.5)5,3(4.0)5,4(4.5)5,5(5.0)5,6(5.5)66,1(3.5)6,2(4.0)6,3(4.5)6,4(5.0)6,5(5.5)6,6(6.0)
我們觀察到,所有
36
個(gè)樣本對(duì)應(yīng)的統(tǒng)計(jì)量
的取值出現(xiàn)的次數(shù)是不同的,那么其出現(xiàn)的頻率也是不同的。表
8-4
的抽樣分布頻數(shù)fi
頻率f()
1.01.52.02.53.03.54.04.55.05.56.0123456543211/362/363/364/365/366/365/364/363/362/361/36a)
x
的分布b)
X
的分布圖
8-1 x
的分布與
的抽樣分布X我們分別繪制總體分布圖和抽樣分布圖:從這兩個(gè)分布圖中我們可以看到,在本例中,雖然總體服從均勻分布,但經(jīng)過(guò)抽樣平均后,樣本平均數(shù)
的抽樣分布是對(duì)稱的,并且呈現(xiàn)出中間大兩頭小的特點(diǎn)。有了
抽樣分布的基本印象后,我們還可以進(jìn)一步探索
的數(shù)量特征、分布的形態(tài)以及抽樣平均誤差。1.
的數(shù)學(xué)期望在例
8-2
中,
的數(shù)學(xué)期望就是所有
的平均數(shù),記為
。(8-2)由于總體均值
3.5
,所以我們推測(cè)有
。
2.
的方差
的方差記為
:(8-3)由于總體方差
2
2.92
,所以我們推測(cè)有
。3.
抽樣分布的形態(tài)
在例8-2中,我們假定總體中只有6個(gè)個(gè)體(單位),只抽取容量n=2的樣本。在這個(gè)條件下,我們推測(cè)有如下結(jié)果:
的抽樣分布是對(duì)稱的,且,
于是,我們自然會(huì)做出如下合理的推測(cè):當(dāng)總體中包含的個(gè)體(單位)非常多,我們抽取的樣本容量足夠大時(shí),
的抽樣分布會(huì)越來(lái)越趨近于正態(tài)分布。
大量的實(shí)驗(yàn)表明,無(wú)論總體服從什么分布,只要總體方差已知,樣本容量足夠大,樣本平均數(shù)近似服從正態(tài)分布,這個(gè)結(jié)論就是著名的中心極限定理(如圖
8-2)。a)總體的分布b)
的抽樣分布(n=2)c)
的抽樣分布(n=5)d)
的抽樣分布(n=30)圖
8-2
不同樣本容量下
的抽樣分布中心極限定理:設(shè)總體均值為
,且存在有限方差
2
,從中抽取樣本容量為n的樣本。當(dāng)樣本容量足夠大時(shí),樣本平均數(shù)
的抽樣分布近似地服從正態(tài)分布,且,。樣本容量越大,
的抽樣分布與正態(tài)分布近似程度越高。這個(gè)結(jié)論用數(shù)學(xué)表達(dá)式表示為:(8-4)
其中,;
。
理解中心極限定理時(shí)要注意幾個(gè)問(wèn)題:一是總體存在有限方差,也就是
2
已知。其意義是總體中數(shù)據(jù)的分散程度是已知的、確定的;如果
2
未知,則總體中數(shù)據(jù)的分散程度是未知的、不確定的,這時(shí)用樣本統(tǒng)計(jì)量
估計(jì)總體均值
的風(fēng)險(xiǎn)是較大的,即存在更大的不確定性。在統(tǒng)計(jì)實(shí)踐中,在這種情況下,統(tǒng)計(jì)量
的抽樣分布不再使用正態(tài)分布來(lái)近似,而是使用
t
分布近似,用這種方法來(lái)降低風(fēng)險(xiǎn)。二是總體分布。中心極限定理并沒(méi)有對(duì)總體分布做出要求,如果總體服從正態(tài)分布,則中心極限定理的條件會(huì)被加強(qiáng);如果總體不服從正態(tài)分布,但偏斜的不嚴(yán)重時(shí),當(dāng)樣本容量足夠大時(shí),中心極限定理的結(jié)論仍然成立;當(dāng)總體的分布偏斜的十分嚴(yán)重時(shí),需要用更大的樣本才能保證中心極限定理的結(jié)論近似的成立(如圖
8-2)。三是樣本容量足夠大。樣本容量大到什么程度可以算足夠大?統(tǒng)計(jì)學(xué)理論認(rèn)為,在均值的估計(jì)中,當(dāng)樣本容量不小于
30
時(shí)(
n
30
),可以理解為樣本容量足夠大了,這時(shí)我們稱其為大樣本,而樣本容量小于
30
的樣本稱為小樣本。4.
的抽樣平均誤差
當(dāng)我們用統(tǒng)計(jì)量
估計(jì)參數(shù)
時(shí)會(huì)有誤差,在例
8-2
中,我們可以計(jì)算
36
個(gè)
,每個(gè)
與
都會(huì)有誤差,而
抽樣分布是對(duì)稱的,所以表示這個(gè)誤差的最好方法是抽樣平均誤差(標(biāo)準(zhǔn)誤差或標(biāo)準(zhǔn)誤)。
由式(8-1)式和(8-3)式得:(8-5)既
抽樣平均誤差等于其抽樣分布的標(biāo)準(zhǔn)差,當(dāng)
2
未知時(shí)可用s
2代替。
由(8-5)式可以看出,抽樣平均誤差與樣本容量以及總體方差有關(guān),此外還與抽樣方法有關(guān)。樣本容量越大,則抽樣平均誤差就越小;總體方差越小,抽樣平均誤差就越小;從理論上講,重復(fù)抽樣要比不重復(fù)抽樣的抽樣平均誤差大。5.修正系數(shù)
上述結(jié)論是在重復(fù)抽樣的條件下得到的,如果是有限總體且不重復(fù)抽樣,當(dāng)樣本容量超過(guò)總體容量的
5%時(shí),要對(duì)方差進(jìn)行修正,修正系數(shù)為。這時(shí)樣本方差為:(8-6)
的抽樣平均誤差為:
(8-7)6.標(biāo)準(zhǔn)化變換
為了方便的求出
落在某區(qū)間的概率,我們可以將
標(biāo)準(zhǔn)化,使其變換成標(biāo)準(zhǔn)正態(tài)隨機(jī)變量,再通過(guò)查標(biāo)準(zhǔn)正態(tài)分布表(附表
B)或利用計(jì)算機(jī)求出對(duì)應(yīng)的概率。
在大樣本,總體方差已知條件下,由(8-4)式有:標(biāo)準(zhǔn)正態(tài)分布的分布函數(shù)記為
(Z
)
,即(8-8),它有三個(gè)重要的性質(zhì):
(1)
(2)
(3)
利用這三個(gè)性質(zhì),可以求出我們需要的概率。
例如:設(shè)μ=8,=7,n=36,求。
則有:
在大樣本、總體方差未知條件下,可以用s
2
代替
2
,這時(shí)標(biāo)準(zhǔn)化后的統(tǒng)計(jì)量服從t分布:(8-9)
t分布也稱為學(xué)生分布,在統(tǒng)計(jì)推斷中有廣泛的運(yùn)用。t分布的形態(tài)是類似于標(biāo)準(zhǔn)正態(tài)分布的對(duì)稱分布,其分布密度函數(shù)的圖像比標(biāo)準(zhǔn)正態(tài)分布平緩。t分布依賴于自由度,隨著自由度的增大,t分布會(huì)逐漸趨近于標(biāo)準(zhǔn)正態(tài)分布。圖
8-3標(biāo)準(zhǔn)正態(tài)分布與t
分布
由圖
8-3
可以看出,對(duì)于同樣的外側(cè)面積,標(biāo)準(zhǔn)正態(tài)分布的臨界值小于t
分布的臨界值。例如,標(biāo)準(zhǔn)正態(tài)分布上側(cè)面積為0.025的臨界值為1.96,而自由度為10
的t分布上側(cè)面積為0.025的臨界值為2.23,這說(shuō)明t分布比標(biāo)準(zhǔn)正態(tài)分布數(shù)據(jù)更分散,形態(tài)更平緩。
我們可以求出給定自由度下某一設(shè)定的上側(cè)面積對(duì)應(yīng)的臨界值,這些結(jié)果也可以查
t分布表(附表C)或利用計(jì)算機(jī)求得。7.小樣本的情形
中心極限定理要求抽取的樣本是大樣本,但在實(shí)際運(yùn)用中,由于各種客觀條件的限制,我們往往只能得到的是小樣本。小樣本存在著更大的偶然性,也就意味著用小樣本進(jìn)行推斷會(huì)承擔(dān)更高的風(fēng)險(xiǎn),但是人們都不愿意承擔(dān)更高的風(fēng)險(xiǎn)。為了對(duì)沖這樣的風(fēng)險(xiǎn),在用小樣本進(jìn)行推斷時(shí)需要將條件加強(qiáng)—總體服從正態(tài)分布,在這個(gè)條件下,我們可以得到與大樣本類似的結(jié)論,即當(dāng)總體方差已知時(shí),
的抽樣分布服從正態(tài)分布,標(biāo)準(zhǔn)化后的標(biāo)準(zhǔn)隨機(jī)變量同(8-8)式表示;當(dāng)總體方差未知時(shí),
的抽樣分布服從
t分布,標(biāo)準(zhǔn)化后的標(biāo)準(zhǔn)隨機(jī)變量同(8-9)式表示。【例
8-3】某地區(qū)為了調(diào)查農(nóng)村居民純收入的情況,從該地區(qū)的農(nóng)村居民中隨機(jī)抽取
100
戶做樣本,計(jì)算其樣本平均數(shù)
。(1)假設(shè)該地區(qū)農(nóng)村居民平均純收入為
7000
元,總體標(biāo)準(zhǔn)差等于
1000
元,試描述
的抽樣分布,并計(jì)算其抽樣平均誤差;(2)大于
6800元且小于
7300元的概率是多少?(3)如果總體方差未知,那么
的抽樣分布是怎樣的?解:已知
n=100,
=7000,
=1000(1)根據(jù)中心極限定理,大樣本且總體方差已知時(shí),
的抽樣分布是正態(tài)分布,且,故,抽樣平均誤差(2)(3)如果總體方差未知,則
經(jīng)過(guò)標(biāo)準(zhǔn)化變換后的統(tǒng)計(jì)量服從t分布?!纠?/p>
8-4
】某學(xué)校教學(xué)樓內(nèi)電梯的質(zhì)量標(biāo)志注明:
最大載重量1000KG,限載
13
人。假定該校校內(nèi)人群的體重服從正態(tài)分布,平均體重為
70KG,標(biāo)準(zhǔn)差為10KG,試問(wèn)隨機(jī)進(jìn)入電梯
13
人,超重的概率是多少?解:已知
n=13,
=70,
=10因?yàn)橘|(zhì)量標(biāo)志為:最大載重量
1000KG,限載
13
人。此問(wèn)題相當(dāng)于抽取樣本容量為
13
的樣本,所以,如果樣本平均數(shù)
則會(huì)超重。由于總體服從正態(tài)分布,總體方差已知,當(dāng)小樣本時(shí),根據(jù)中心極限定理,的抽樣分布仍服從正態(tài)分布,即:,則隨機(jī)進(jìn)入電梯13人超重的概率是:
=0.0064
即超重的比率不超過(guò)1%。8.2.3 樣本比率(p)的抽樣分布
與樣本平均數(shù)
一樣,我們也要考慮
p的抽樣分布。設(shè)總體中具有某一屬性(如成功)的比率為π,采取重復(fù)抽樣抽取一個(gè)容量為n
的樣本,則樣本中具有這一屬性(如成功)的比率p是一個(gè)隨機(jī)變量。這個(gè)過(guò)程相當(dāng)于做
n
重伯努利試驗(yàn),n
次抽樣中具有這一屬性(如成功)的次數(shù)為
X,則有
p=X/n,且
X
服從二項(xiàng)分布,即:X~B(X,π)。對(duì)于二項(xiàng)分布我們有以下結(jié)論:一是
X
數(shù)學(xué)期望(均值)E(X)=
n,方差Var(X)=nπ(1-π),故有E(p=X/n)=
π,Var(p=X/n)=π(1-π)/n;二是當(dāng)樣本容量足夠大時(shí),二項(xiàng)分布近似服從正態(tài)分布,且有,于是有:。其中大樣本的標(biāo)準(zhǔn)是:同時(shí)滿足的n,如果π未知,可用p代替。表
8-5p的抽樣分布近似服從正態(tài)分布大樣本的經(jīng)驗(yàn)標(biāo)準(zhǔn)
0.500.450.400.350.300.250.200.150.101
0.500.550.600.650.700.750.800.850.90n3637384043485771100
在實(shí)際運(yùn)用過(guò)程中,一般可以用下表來(lái)確定大樣本的標(biāo)準(zhǔn)。1.
p的數(shù)學(xué)期望和方差
可以證明,p的數(shù)學(xué)期望為
,記為
p;p的方差為,記為。即:
,。2.
P
的抽樣分布的形態(tài)
由上述結(jié)論可知,在大樣本條件下,p抽樣分布服從數(shù)學(xué)期望為
,方差為的
正態(tài)分布。
用數(shù)學(xué)表達(dá)式表示為:(8-10)其中:;
在實(shí)際運(yùn)用中,當(dāng)
未知時(shí),可用
p代替。3. p的抽樣平均誤差
與樣本平均數(shù)
一樣,我們可以計(jì)算
p的抽樣平均誤差:(8-11)
其中:Ep
—樣本比率的抽樣平均誤差。4.修正系數(shù)
如果是有限總體且不重復(fù)抽樣,當(dāng)樣本容量超過(guò)總體容量的5%時(shí),要對(duì)方差進(jìn)行修正,修正系數(shù)為。這時(shí)方差為:2(8-12)抽樣平均誤差為:無(wú)限總體不需要修正。(8-13)5.標(biāo)準(zhǔn)化變換
為了方便地求出統(tǒng)計(jì)量p
落入某一區(qū)間的概率,我們可以將p
標(biāo)準(zhǔn)化,使其變換成標(biāo)準(zhǔn)正態(tài)隨機(jī)變量,再通過(guò)查標(biāo)準(zhǔn)正態(tài)分布表或利用計(jì)算機(jī)求出對(duì)應(yīng)的概率。(8-14)【例
8-5】新京報(bào)訊
(記者
孫曉萌)2019
年
1
月
11
日。全國(guó)小汽車保有量首次突破
2
億輛數(shù)據(jù)顯示,截至
2018
年底,全國(guó)汽車保有量達(dá)2.4
億輛,比
2017
年增加
2285
萬(wàn)輛,增長(zhǎng)10.51%。小型載客汽車保有量達(dá)
2.01
億輛,首次突破2
億輛,比2017
年增加
2085萬(wàn)輛,增長(zhǎng)11.56%,是汽車保有量增長(zhǎng)的主要組成部分。而這其中,私家車(私人小微型載客汽車)持續(xù)快速增長(zhǎng),2018
年保有量達(dá)
1.89億輛,近五年年均增長(zhǎng)
1952
萬(wàn)輛。
據(jù)估算,私家車中白色車比率為
40%。假設(shè)抽取
400
名新購(gòu)買私家車的客戶進(jìn)行調(diào)查,這些客戶選擇白色的比率小于
35%概率是多少?解:已知
40%
,n=400由表
8-5
知,抽取的樣本是大樣本。根據(jù)中心極限定理有:
這個(gè)問(wèn)題是求p
35%
的概率。即抽取的
400
名新購(gòu)買私家車的客戶中選擇白色的比率小于
35%概率是
0.020675。8.2.4 樣本方差(
s
2
)的抽樣分布
由概率論知識(shí)可知,
s
2
的抽樣分布服從卡方分布。設(shè),,令Y=Z,則??梢宰C明,統(tǒng)計(jì)量(8-15)
2
分布的特點(diǎn)是,隨機(jī)變量
2
的取值范圍是(0,
)
,其分布的形態(tài)是一個(gè)非對(duì)稱分布,并依賴于自由度,如圖
8-4
所示。自由度=8自由度=15圖
8-4
2
分布圖我們可以通過(guò)查
2分布表(附表D),求出給定的自由度下某一設(shè)定的上側(cè)面積對(duì)應(yīng)的臨界值,或通過(guò)計(jì)算機(jī)得到相關(guān)的結(jié)果。8.3一些重要的結(jié)論8.3.1大數(shù)定律
大數(shù)定律在概率論中有著非常重要的地位,是我們認(rèn)識(shí)隨機(jī)現(xiàn)象的理論基礎(chǔ)之一,最重要的是下面兩個(gè)大數(shù)定律。1.獨(dú)立同分布大數(shù)定律
設(shè)獨(dú)立隨機(jī)變量
X
1
,
X
2
,...,
X
n
,...服從同一分布,且存在數(shù)學(xué)期望
及方差
2
,對(duì)于任意給定的
0
有:(8-16)
這個(gè)大數(shù)定律告訴我們:雖然個(gè)別現(xiàn)象會(huì)受到偶然因素的影響,但是,對(duì)總體的大量觀察后進(jìn)行平均,就能使偶然因素的影響會(huì)相互抵消,從而使樣本平均數(shù)穩(wěn)定在
附近,從而為我們用樣本平均數(shù)對(duì)總體均值進(jìn)行估計(jì)提供了理論依據(jù)。2.伯努利大數(shù)定律
在獨(dú)立試驗(yàn)序列中,m是事件A
在
n次試驗(yàn)中發(fā)生的次數(shù),p是事件A
發(fā)生的概率,對(duì)于任意給定的
0
有:
(8-17)
這個(gè)大數(shù)定律告訴我們:當(dāng)我們多次重復(fù)觀察某個(gè)現(xiàn)象時(shí),這個(gè)現(xiàn)象發(fā)生的頻率與這個(gè)現(xiàn)象發(fā)生的概率之間的差距是非常小的,這為我們用頻率去代替概率提供了理論依據(jù)。8.3.2
中心極限定理的推廣1.中心極限定理在推斷統(tǒng)計(jì)中有著重要的應(yīng)用,根據(jù)概率論的有關(guān)理論,我們可以推導(dǎo)出關(guān)于兩個(gè)總體統(tǒng)計(jì)量的抽樣分布。正態(tài)分布再生定理:都是服從
的獨(dú)立隨機(jī)變量,那么其線性組合也服從均值為、方差為
的正態(tài)分布,即:
(8-18)
考慮從兩個(gè)總體中獨(dú)立的抽取兩個(gè)樣本,在大樣本、總體方差已知的條件下,由中心極限定理知兩個(gè)樣本平均數(shù)
是獨(dú)立的且分別服從正態(tài)分布,即
、
,其中分別表示兩個(gè)總體的均值,分別表示兩個(gè)總體的方差,
分別表示兩個(gè)樣本容量。
則由(8-18)式得:
(8-19)
(8-19)和(8-20)的結(jié)論可以認(rèn)為這兩個(gè)結(jié)論是中心極限定理的推廣,為我們?cè)趦蓚€(gè)總體之間進(jìn)行參數(shù)的比較提供了理論依據(jù)。
同理,可以得出兩個(gè)樣本比率差的抽樣分布:(8-20)【例
8-6】為了比較甲乙兩座城市退休職工的收入情況,獨(dú)立地從兩座城市抽取樣本容量為n1
160,
n2
125
的樣本。假設(shè)兩座城市的退休職工的收入服從正態(tài)分布,且甲城市的退休職工的月平均收入為2600
元,標(biāo)準(zhǔn)差為
800
元;乙城市退休職工的月平均收入為
2300元,標(biāo)準(zhǔn)差為
500
元。(1)描述兩個(gè)樣本平均數(shù)之差的抽樣分布;(2)兩個(gè)樣本平均數(shù)之差在
200
元到
450
元之間的概率。解:已知
1
2600,
1
800,
2
2300,
2
500
,
n1
160,
n2
125(1)設(shè)
分別表示兩個(gè)樣本平均數(shù),則由(8-19)式有:即即
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 新教材高中化學(xué) 1.3.2 電解質(zhì)溶液說(shuō)課稿(2)蘇教版必修第一冊(cè)
- 1.2男生女生(配套教學(xué)設(shè)計(jì))七年級(jí)道德與法治下冊(cè)活動(dòng)型同步教學(xué)教學(xué)設(shè)計(jì)+教學(xué)設(shè)計(jì)
- 2025北京林業(yè)大學(xué)外語(yǔ)學(xué)院小語(yǔ)種教師招聘2人模擬試卷及參考答案詳解1套
- 5.2 等式的基本性質(zhì)說(shuō)課稿-2025-2026學(xué)年初中數(shù)學(xué)浙教版2024七年級(jí)上冊(cè)-浙教版2024
- 2025江蘇蘇州市能源發(fā)展集團(tuán)有限公司專業(yè)化青年人才定崗特選人員考前自測(cè)高頻考點(diǎn)模擬試題及答案詳解(各地真題)
- 2025廣西河池市巴馬瑤族自治縣林業(yè)局常年法律顧問(wèn)選聘1人模擬試卷有答案詳解
- 2025湖南永州市寧遠(yuǎn)縣人民醫(yī)院公開(kāi)招聘?jìng)浒钢茖I(yè)技術(shù)人員50人考前自測(cè)高頻考點(diǎn)模擬試題及答案詳解(各地真題)
- 2024年四年級(jí)英語(yǔ)上冊(cè) Unit 1 The Clothes We Wear Lesson 4 Shoes and Socks說(shuō)課稿 冀教版(三起)
- 新生兒食譜安全知識(shí)培訓(xùn)課件
- 古琴曲 流水 片段教學(xué)設(shè)計(jì)初中音樂(lè)粵教版八年級(jí)下冊(cè)-粵教版
- DB11T 2441-2025 學(xué)校食堂清潔和消毒規(guī)范
- 2024年自考00055《企業(yè)會(huì)計(jì)學(xué)》歷年真題及答案整理版
- 危重患者搶救及護(hù)理配合
- 信息技術(shù)與小學(xué)語(yǔ)文閱讀教學(xué)深度融合的策略研究
- 蚊媒傳染病的預(yù)防與控制
- 經(jīng)濟(jì)統(tǒng)計(jì)學(xué)課件
- 馬工程經(jīng)濟(jì)法學(xué)教學(xué)
- “情景教學(xué)法”是小學(xué)英語(yǔ)教學(xué)的最有效方法
- 特種設(shè)備生產(chǎn)和使用單位日、周、月管理制度及填寫表格(模板)
- 工程倫理-核工程的倫理問(wèn)題
- 壓礦資源調(diào)查報(bào)告
評(píng)論
0/150
提交評(píng)論