《統(tǒng)計(jì)學(xué)》課件-第8章 抽樣分布_第1頁(yè)
《統(tǒng)計(jì)學(xué)》課件-第8章 抽樣分布_第2頁(yè)
《統(tǒng)計(jì)學(xué)》課件-第8章 抽樣分布_第3頁(yè)
《統(tǒng)計(jì)學(xué)》課件-第8章 抽樣分布_第4頁(yè)
《統(tǒng)計(jì)學(xué)》課件-第8章 抽樣分布_第5頁(yè)
已閱讀5頁(yè),還剩111頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

8

抽樣分布【學(xué)習(xí)目標(biāo)】1、理解抽樣的基本問(wèn)題,建立有關(guān)抽樣的基本概念;2、掌握樣本平均數(shù)、樣本比率、樣本方差的抽樣分布;3、會(huì)運(yùn)用中心極限定理解決實(shí)際問(wèn)題;4、理解大數(shù)定律的含義以及在實(shí)踐中的運(yùn)用。8.1概述8.1.1抽樣的概念和作用1.抽樣的概念

在實(shí)際問(wèn)題中,我們研究的總體一般都包含了大量的個(gè)體元素,而每一個(gè)個(gè)體元素都對(duì)應(yīng)了相關(guān)的數(shù)量特征,也就是說(shuō)我們要面對(duì)的是大量的數(shù)據(jù),我們的目的之一就是想知道這些大量數(shù)據(jù)的數(shù)量特征。但是,得到總體的數(shù)量特征是一件很困難的事情,下面我們通過(guò)一個(gè)實(shí)例來(lái)說(shuō)明這個(gè)問(wèn)題。【例

8-1】QQ

大數(shù)據(jù)發(fā)布《2018

中國(guó)人運(yùn)動(dòng)報(bào)告》:國(guó)人日均步數(shù)

首次沖破

6000

步2019-01-0810:30

來(lái)源:南方網(wǎng)綜合隨著生活水平的提升,普羅大眾對(duì)運(yùn)動(dòng)健身的重視度越來(lái)越高,尤其隨著健身室、運(yùn)動(dòng)場(chǎng)地、健身軟件等外部條件的不斷發(fā)展成熟,運(yùn)動(dòng)健身已經(jīng)融入到每天的生活中。日前,QQ

大數(shù)據(jù)聯(lián)合

QQ

運(yùn)動(dòng)發(fā)布了《2018

年中國(guó)人運(yùn)動(dòng)報(bào)告》,報(bào)告顯示2018

年國(guó)人日均行走步數(shù)首次突破

6000

大關(guān),同時(shí)也從人群、城市、出行時(shí)間等多個(gè)維度剖析國(guó)人步行習(xí)慣的變化。2018

年,國(guó)人的平均步數(shù)達(dá)到

6303

步,首次突破

6000

大關(guān)。據(jù)《2018

中國(guó)人運(yùn)動(dòng)報(bào)告》顯示,最近三年國(guó)人的平均步數(shù)穩(wěn)步提升,從

2016

年起每年以

11%的增幅穩(wěn)步增長(zhǎng),提升到

2018

年的

6303步。可以看出,國(guó)民運(yùn)動(dòng)意識(shí)和運(yùn)動(dòng)習(xí)慣正在不斷增強(qiáng)。2018

年,不但國(guó)民日均步數(shù)連年攀升,而且多個(gè)城市也以高企的平均步數(shù)交出了亮眼成績(jī)單。在城市排行榜中,蘭州市以

7638

步的平均步數(shù)一躍成為最大黑馬,奪冠年度城市平均步數(shù)第一名;榜眼的西安相比去年的排名上升一位,連續(xù)兩年穩(wěn)坐前三甲;深圳和廣州則分別位列第九和第十,在排行榜上齊頭并進(jìn),看來(lái)快節(jié)奏的生活也能保持一定的步行量。表

8-1 2018

城市平均步數(shù)

TOP10排名城市平均步數(shù)排名城市平均步數(shù)1蘭州76386武漢69932西安72427哈爾濱68643貴陽(yáng)71248成都68464烏魯木齊70949深圳67455昆明703010廣州6729

作為社會(huì)和家庭中堅(jiān)力量的中老年,依然活力滿滿,40-50

歲人群的日均步數(shù)達(dá)

7030

步,而

50

歲以上的人群平均步數(shù)更是達(dá)到了7515

步。相較之下,祖國(guó)的“花朵們”就顯得不那么活躍了,20

歲以下青少年的日均步數(shù)只有

5782

步,大概是因課業(yè)繁重、缺乏運(yùn)動(dòng)時(shí)間。表8-2不同年齡組平均步數(shù)年齡組平均步數(shù)年齡組平均步數(shù)20以下578245-50703020-30640750以上751530-406403

據(jù)悉,這是

QQ

大數(shù)據(jù)和QQ

運(yùn)動(dòng)連續(xù)第三年發(fā)布《中國(guó)人運(yùn)動(dòng)報(bào)告》,對(duì)了解當(dāng)下中國(guó)人運(yùn)動(dòng)習(xí)慣、各城市運(yùn)動(dòng)狀況提供了良好的參考。QQ

運(yùn)動(dòng)作為中國(guó)最大的個(gè)人運(yùn)動(dòng)健身記錄及用戶互動(dòng)交流平臺(tái),記錄國(guó)民每一天的步行數(shù)據(jù)。QQ

運(yùn)動(dòng)將社交與運(yùn)動(dòng)有機(jī)結(jié)合的創(chuàng)新玩法更是有效實(shí)現(xiàn)了從運(yùn)動(dòng)的單一體驗(yàn)向創(chuàng)意式體驗(yàn)的轉(zhuǎn)變,讓每個(gè)人在“步履不停”中,體驗(yàn)運(yùn)動(dòng)與社交的快樂(lè)。QQ

運(yùn)動(dòng)連續(xù)第三年發(fā)布《中國(guó)人運(yùn)動(dòng)報(bào)告》是以QQ

運(yùn)動(dòng)作為數(shù)據(jù)基礎(chǔ)進(jìn)行分析,并不能涵蓋全體國(guó)人。我們可以認(rèn)為,QQ

運(yùn)動(dòng)是運(yùn)用國(guó)人中的一部分?jǐn)?shù)據(jù)(樣本)計(jì)算某些特征來(lái)推斷全體國(guó)人(總體)的特征。從總體中抽取一部分個(gè)體組成樣本的過(guò)程稱為抽樣。抽樣可以分為隨機(jī)抽樣和非隨機(jī)抽樣。隨機(jī)抽樣是指完全排除研究者主觀因素的抽樣,其反面就是非隨機(jī)抽樣。如無(wú)特殊聲明,以后的內(nèi)容中所說(shuō)的抽樣均指隨機(jī)抽樣。2.抽樣的目的和作用

從上面的例子中我們理解了什么叫抽樣,那么抽樣的目的是什么?又有哪些作用呢?抽樣的目的是進(jìn)行抽樣推斷,主要包含兩個(gè)方面的內(nèi)容:一是利用抽樣所得到的信息對(duì)研究對(duì)象的總體數(shù)量特征進(jìn)行估計(jì);二是利用抽樣所得到的信息對(duì)某些假設(shè)進(jìn)行檢驗(yàn)。

抽樣的作用可以歸納為以下幾個(gè)方面:1)對(duì)隨機(jī)現(xiàn)象進(jìn)行推斷。例如顧客在一家快餐店的消費(fèi)支出是不確定的,也就是說(shuō)這是一種隨機(jī)現(xiàn)象。我們可以通過(guò)抽樣的方法,抽取一個(gè)合適的樣本,利用樣本的信息對(duì)所有顧客在這家快餐店的平均消費(fèi)支出做出推斷。

2)節(jié)約調(diào)查成本。這是我們進(jìn)行抽樣的一個(gè)重要的原因。例如在例

8-1

中所提到的問(wèn)題,要想知道全體國(guó)人的步行步數(shù),是要花費(fèi)大量成本的,但進(jìn)行抽樣估計(jì),可以比較快捷地得到結(jié)果,節(jié)約大量的調(diào)查成本。

3)有效地控制誤差。抽樣方法是科學(xué)的方法,可以對(duì)誤差進(jìn)行計(jì)算和控制,在很多時(shí)候可以用抽樣調(diào)查對(duì)全面調(diào)查的結(jié)果進(jìn)行驗(yàn)證。4)對(duì)某些假設(shè)進(jìn)行檢驗(yàn),從而做出科學(xué)的決策。(這部分內(nèi)容將在第

10

章學(xué)習(xí))8.1.2

抽樣的有關(guān)概念1.總體和樣本1)總體,又稱全及總體,指所要研究對(duì)象的全體,由許多客觀存在的具有某種共同性質(zhì)的個(gè)體(單位)構(gòu)成。總體中所包含的個(gè)體(單位)數(shù)用

N

表示,稱為總體容量,當(dāng)總體容量是有限時(shí),我們稱為有限總體;當(dāng)總體容量是無(wú)限時(shí),我們稱為無(wú)限總體??傮w是唯一的、確定的。2)樣本,又稱子樣,是從總體中抽取部分個(gè)體(單位)組成的集合,是總體的一部分。樣本中包含的個(gè)體(單位)數(shù)用

n

表示,稱為樣本容量。樣本是不確定的、可變的、隨機(jī)的;從總體中可能抽出的所有樣本數(shù)目,稱為樣本可能數(shù)目,記為

M。這一數(shù)目的大小與總體容量、樣本容量有關(guān),也與抽樣方法有關(guān)。2.參數(shù)和統(tǒng)計(jì)量

1)參數(shù)是總體參數(shù)的簡(jiǎn)稱,是反映總體數(shù)量特征的指標(biāo),其取值是唯一的、確定的,但往往是未知的,我們相信它是客觀存在的。最常用的參數(shù)有總體均值(記為

)、總體比率(記為

)和總體方差(記為

2

)。例如在例

8-1

中某一年齡組人群的平均步數(shù)就是一個(gè)參數(shù),是我們想要知道的內(nèi)容,但在現(xiàn)實(shí)中往往是未知的。2)統(tǒng)計(jì)量是樣本統(tǒng)計(jì)量的簡(jiǎn)稱,是由樣本中單位的變量值計(jì)算得到的反映樣本數(shù)量特征的指標(biāo),其數(shù)值是不確定的,隨機(jī)的。最常用的統(tǒng)計(jì)量有樣本平均數(shù)(記為

)、樣本比率(記為

p)、樣本方差(記為s

2

)。例如在例

8-1

中,為了估計(jì)某一年齡組人群的平均步數(shù)(參數(shù)),我們?cè)谌珖?guó)按一定的規(guī)則抽取

1000

名該年齡組的人,對(duì)他們平均步數(shù)時(shí)行調(diào)查,計(jì)算出這

1000

人的平均步數(shù)

,這個(gè)平均步數(shù)就是統(tǒng)計(jì)量。需要特別注意的是,這

1000

人(樣本)的抽取有多種多樣不同的結(jié)果,我們計(jì)算得到的統(tǒng)計(jì)量的值(

)會(huì)隨著樣本的不同而發(fā)生變化,而樣本是隨機(jī)抽取的,所以說(shuō)統(tǒng)計(jì)量是隨機(jī)變量。3.抽樣方法

1)重復(fù)抽樣,又稱有放回抽樣。其抽樣過(guò)程是:先從總體中抽取第

1

個(gè)個(gè)體(單位)并記錄所需數(shù)據(jù)后,把這個(gè)個(gè)體(單位)再放回總體;再抽取第

2

個(gè)個(gè)體(單位)并記錄所需數(shù)據(jù)后,

把這個(gè)個(gè)體(單位)再放回總體;以此類推,直到抽足樣本所要求的個(gè)體(單位)數(shù)目為止。重復(fù)抽樣的特點(diǎn)是:第一,n個(gè)個(gè)體(單位)的樣本是由

n次試驗(yàn)的結(jié)果構(gòu)成的。第二,每次試驗(yàn)是獨(dú)立的,即其試驗(yàn)的結(jié)果與前次、后次的結(jié)果無(wú)關(guān)。第三,每次試驗(yàn)是在相同條件下進(jìn)行的,每個(gè)個(gè)體(單位)在多次試驗(yàn)中選中的機(jī)會(huì)(概率)是相同的。設(shè)從總體容量是

N

的總體中按重復(fù)抽樣的方法,抽取樣本容量為

n的樣本,則樣本可能數(shù)目為M

N

n

。2)不重復(fù)抽樣,又稱不放回抽樣。其抽樣過(guò)程是:每次從總體抽取一個(gè)個(gè)體(單位),登記后不放回原總體,不參加下一輪抽樣;下一次繼續(xù)從總體中余下的個(gè)體(單位)抽取樣本,直到抽足樣本所要求的個(gè)體(單位)數(shù)目為止。其特點(diǎn)是:第一,n個(gè)個(gè)體(單位)的樣本由

n

次試驗(yàn)結(jié)果構(gòu)成,但由于每次抽出不重復(fù),所以實(shí)質(zhì)上相當(dāng)于從總體中同時(shí)抽取

n個(gè)個(gè)體(單位)。第二,每次試驗(yàn)結(jié)果不是獨(dú)立的,上次中選情況影響下次抽選結(jié)果。第三,每個(gè)單位在多次(輪)試驗(yàn)中中選的機(jī)會(huì)是不等的。如果是考慮順序,其樣本可能數(shù)目為(排列數(shù));如果不考慮順序,其樣本可能數(shù)目為(組合數(shù))。4.抽樣誤差

抽樣的目的是進(jìn)行估計(jì)和推斷,就是用統(tǒng)計(jì)量對(duì)參數(shù)進(jìn)行推斷,這個(gè)過(guò)程一定會(huì)有誤差。

誤差可以分為登記性誤差和代表性誤差。所謂登記性誤差是指在登記、匯總數(shù)據(jù)時(shí)產(chǎn)生的誤差,從理論上講,登記性誤差是可以避免的;而代表性誤差是指用樣本統(tǒng)計(jì)量推斷總體參數(shù)而產(chǎn)生的誤差,又分為偏差和隨機(jī)誤差;偏差是指破壞了抽樣的隨機(jī)原則而產(chǎn)生的誤差,這種誤差在理論上也是可以避免的;隨機(jī)誤差是指在抽樣中遵循了隨機(jī)原則,但由于樣本的不穩(wěn)定性而產(chǎn)生的誤差,也就是抽樣誤差,這種誤差是必然會(huì)產(chǎn)生的,是不可避免的,但是可以對(duì)其進(jìn)行控制和計(jì)算。

在這里,我們只討論抽樣誤差。

抽樣誤差又可以分為實(shí)際誤差、抽樣平均誤差和抽樣極限誤差。例如在例

8-1

中,在某一年齡組里中抽樣了一個(gè)樣本容量為

1000

的樣本,計(jì)算出樣本的平均步數(shù)

(統(tǒng)計(jì)量),我們用

對(duì)全體國(guó)人這一年齡組真實(shí)的平均步數(shù)

進(jìn)行估計(jì),則

就是實(shí)際誤差,由于

一般來(lái)說(shuō)是未知的,所以實(shí)際誤差只有理論意義。

有實(shí)際意義的是抽樣平均誤差,也稱為標(biāo)準(zhǔn)誤差或標(biāo)準(zhǔn)誤。

我們?nèi)砸云骄鶖?shù)來(lái)說(shuō)明,由于對(duì)于給定的樣本容量,我們可以抽取很多個(gè)不同的樣本,設(shè)樣本可能數(shù)目為M,而每個(gè)樣本都可以得到一個(gè)對(duì)應(yīng)的,每一個(gè)與μ都會(huì)有一個(gè)誤差,直觀的理解這些誤差的平均值可以表示為,但是由于分子的離差可正可負(fù),相加后會(huì)相互抵消,其結(jié)果為零(后面會(huì)看到這個(gè)結(jié)果)。所以這些誤差的平均值應(yīng)表示為:(8-1)其中:

Ex

—樣本平均數(shù)的抽樣平均誤差。(8-1)式表示的是用

估計(jì)

的所有誤差的平均值,我們稱其為

的抽樣平均誤差,也稱為標(biāo)準(zhǔn)誤差或標(biāo)準(zhǔn)誤。同樣的,我們還可以定義樣本比率

p的抽樣平均誤差。抽樣極限誤差將在以后的內(nèi)容中討論。8.1.3

抽樣方式1.簡(jiǎn)單隨機(jī)抽樣簡(jiǎn)單隨機(jī)抽樣的組織原則是:(1)在抽取樣本時(shí),必須保證每一個(gè)可能樣本被抽到的概率相等;(2)總體中每一個(gè)個(gè)體(單位)被包括在樣本中的可能性相等。簡(jiǎn)單隨機(jī)抽樣可以用隨機(jī)數(shù)字法、抽簽法等多種方法。最簡(jiǎn)單的方法是使用隨機(jī)數(shù)字。隨機(jī)數(shù)字可以借助于計(jì)算機(jī)得到,也可以利用隨機(jī)數(shù)字表(附表A)。2.分層抽樣分層抽樣是先把總體按一定標(biāo)志劃分成許多性質(zhì)相近的類型或組別,然后在每種類型中抽取個(gè)體(單位)。抽取方法有兩種:(1)按各類型在總體中的比重確定各類型應(yīng)抽樣本容量;(2)在各類型中抽取相同容量的樣本,估計(jì)值以各類型比重加權(quán)。分層抽樣與其它抽樣方式相比,由于考慮到總體中各類型之間的差別,因此,它能更準(zhǔn)確地反映總體的分布特征。3.系統(tǒng)抽樣

系統(tǒng)抽樣從總體中抽取樣本時(shí),是按照時(shí)間或空間的等距間隔抽取的。過(guò)程一般分為兩步:(1)確定抽樣距離

k,(2)在前k

號(hào)中隨機(jī)抽取

1

個(gè)個(gè)體(單位),然后,每間隔

k個(gè)個(gè)體(單位)抽取

1個(gè),直到抽夠要求的數(shù)目為止。

系統(tǒng)抽樣的優(yōu)點(diǎn)是:比簡(jiǎn)單隨機(jī)抽樣簡(jiǎn)便,節(jié)省費(fèi)用;所抽個(gè)體(單位)在總體中的分布比簡(jiǎn)單隨機(jī)抽樣更均勻。4.整群抽樣

整群抽樣是先把總體分為若干個(gè)群,然后在這些群中隨機(jī)地抽選部分群作為樣本。

這種抽樣方式適合于群與群之間的差異不大情況,其優(yōu)點(diǎn)是能夠大大地節(jié)省時(shí)間和費(fèi)用,但如果群間差異較大,則會(huì)產(chǎn)生很大的誤差。

不同的抽樣方式會(huì)形成不同的抽樣平均誤差,詳細(xì)內(nèi)容可參閱專門的文獻(xiàn)資料。8.2

抽樣分布8.2.1

抽樣分布的概念某個(gè)統(tǒng)計(jì)量對(duì)應(yīng)的頻率分布或概率分布稱為該統(tǒng)計(jì)量的抽樣分布。常用的抽樣分布有樣本平均數(shù)

的抽樣分布、樣本比率

p的抽樣分布、樣本方差s

2

的抽樣分布。抽樣分布是一種理論分布,可以由數(shù)學(xué)推導(dǎo)或?qū)嶒?yàn)推斷其分布的形態(tài)。8.2.2

樣本均值()的抽樣分布

為了得到

的抽樣分布,我們做一個(gè)試驗(yàn)?!纠?/p>

8-2】假設(shè)一個(gè)總體包含

6

個(gè)個(gè)體(單位),分別是X

1

1,

X

2

2,

X

3

3,

X

4

4,

X

5

5,

X

6

6

。采取重復(fù)抽樣的方法,從中抽取

2

個(gè)個(gè)體(單位)組成樣本,試描述

的抽樣分布。X123456f(X)1/61/61/61/61/61/6解:首先考慮總體的分布情況。顯然總體服從均勻分布:總體均值為:總體方差為:采取重復(fù)抽樣的方法從

N=6

個(gè)個(gè)體(單位)中抽取

n=2

個(gè)個(gè)體(單位)組成樣本,一共可以抽取M

62

36

個(gè)樣本,對(duì)應(yīng)的可以計(jì)算出36

個(gè)

。Xi,X

j第二次抽取123456第一次抽取11,1(1.0)1,2(1.5)1,3(2.0)1,4(2.5)1,5(3.0)1,6(3.5)22,1(1.5)2,2(2.0)2,3(2.5)2,4(3.0)2,5(3.5)2,6(4.0)33,1(2.0)3,2(2.5)3,3(3.0)3,4(3.5)3,5(4.0)3,6(4.5)44,1(2.5)4,2(3.0)4,3(3.5)4,4(4.0)4,5(4.5)4,6(5.0)55,1(3.0)5,2(3.5)5,3(4.0)5,4(4.5)5,5(5.0)5,6(5.5)66,1(3.5)6,2(4.0)6,3(4.5)6,4(5.0)6,5(5.5)6,6(6.0)

我們觀察到,所有

36

個(gè)樣本對(duì)應(yīng)的統(tǒng)計(jì)量

的取值出現(xiàn)的次數(shù)是不同的,那么其出現(xiàn)的頻率也是不同的。表

8-4

的抽樣分布頻數(shù)fi

頻率f()

1.01.52.02.53.03.54.04.55.05.56.0123456543211/362/363/364/365/366/365/364/363/362/361/36a)

x

的分布b)

X

的分布圖

8-1 x

的分布與

的抽樣分布X我們分別繪制總體分布圖和抽樣分布圖:從這兩個(gè)分布圖中我們可以看到,在本例中,雖然總體服從均勻分布,但經(jīng)過(guò)抽樣平均后,樣本平均數(shù)

的抽樣分布是對(duì)稱的,并且呈現(xiàn)出中間大兩頭小的特點(diǎn)。有了

抽樣分布的基本印象后,我們還可以進(jìn)一步探索

的數(shù)量特征、分布的形態(tài)以及抽樣平均誤差。1.

的數(shù)學(xué)期望在例

8-2

中,

的數(shù)學(xué)期望就是所有

的平均數(shù),記為

。(8-2)由于總體均值

3.5

,所以我們推測(cè)有

。

2.

的方差

的方差記為

:(8-3)由于總體方差

2

2.92

,所以我們推測(cè)有

。3.

抽樣分布的形態(tài)

在例8-2中,我們假定總體中只有6個(gè)個(gè)體(單位),只抽取容量n=2的樣本。在這個(gè)條件下,我們推測(cè)有如下結(jié)果:

的抽樣分布是對(duì)稱的,且,

于是,我們自然會(huì)做出如下合理的推測(cè):當(dāng)總體中包含的個(gè)體(單位)非常多,我們抽取的樣本容量足夠大時(shí),

的抽樣分布會(huì)越來(lái)越趨近于正態(tài)分布。

大量的實(shí)驗(yàn)表明,無(wú)論總體服從什么分布,只要總體方差已知,樣本容量足夠大,樣本平均數(shù)近似服從正態(tài)分布,這個(gè)結(jié)論就是著名的中心極限定理(如圖

8-2)。a)總體的分布b)

的抽樣分布(n=2)c)

的抽樣分布(n=5)d)

的抽樣分布(n=30)圖

8-2

不同樣本容量下

的抽樣分布中心極限定理:設(shè)總體均值為

,且存在有限方差

2

,從中抽取樣本容量為n的樣本。當(dāng)樣本容量足夠大時(shí),樣本平均數(shù)

的抽樣分布近似地服從正態(tài)分布,且,。樣本容量越大,

的抽樣分布與正態(tài)分布近似程度越高。這個(gè)結(jié)論用數(shù)學(xué)表達(dá)式表示為:(8-4)

其中,;

理解中心極限定理時(shí)要注意幾個(gè)問(wèn)題:一是總體存在有限方差,也就是

2

已知。其意義是總體中數(shù)據(jù)的分散程度是已知的、確定的;如果

2

未知,則總體中數(shù)據(jù)的分散程度是未知的、不確定的,這時(shí)用樣本統(tǒng)計(jì)量

估計(jì)總體均值

的風(fēng)險(xiǎn)是較大的,即存在更大的不確定性。在統(tǒng)計(jì)實(shí)踐中,在這種情況下,統(tǒng)計(jì)量

的抽樣分布不再使用正態(tài)分布來(lái)近似,而是使用

t

分布近似,用這種方法來(lái)降低風(fēng)險(xiǎn)。二是總體分布。中心極限定理并沒(méi)有對(duì)總體分布做出要求,如果總體服從正態(tài)分布,則中心極限定理的條件會(huì)被加強(qiáng);如果總體不服從正態(tài)分布,但偏斜的不嚴(yán)重時(shí),當(dāng)樣本容量足夠大時(shí),中心極限定理的結(jié)論仍然成立;當(dāng)總體的分布偏斜的十分嚴(yán)重時(shí),需要用更大的樣本才能保證中心極限定理的結(jié)論近似的成立(如圖

8-2)。三是樣本容量足夠大。樣本容量大到什么程度可以算足夠大?統(tǒng)計(jì)學(xué)理論認(rèn)為,在均值的估計(jì)中,當(dāng)樣本容量不小于

30

時(shí)(

n

30

),可以理解為樣本容量足夠大了,這時(shí)我們稱其為大樣本,而樣本容量小于

30

的樣本稱為小樣本。4.

的抽樣平均誤差

當(dāng)我們用統(tǒng)計(jì)量

估計(jì)參數(shù)

時(shí)會(huì)有誤差,在例

8-2

中,我們可以計(jì)算

36

個(gè)

,每個(gè)

都會(huì)有誤差,而

抽樣分布是對(duì)稱的,所以表示這個(gè)誤差的最好方法是抽樣平均誤差(標(biāo)準(zhǔn)誤差或標(biāo)準(zhǔn)誤)。

由式(8-1)式和(8-3)式得:(8-5)既

抽樣平均誤差等于其抽樣分布的標(biāo)準(zhǔn)差,當(dāng)

2

未知時(shí)可用s

2代替。

由(8-5)式可以看出,抽樣平均誤差與樣本容量以及總體方差有關(guān),此外還與抽樣方法有關(guān)。樣本容量越大,則抽樣平均誤差就越小;總體方差越小,抽樣平均誤差就越小;從理論上講,重復(fù)抽樣要比不重復(fù)抽樣的抽樣平均誤差大。5.修正系數(shù)

上述結(jié)論是在重復(fù)抽樣的條件下得到的,如果是有限總體且不重復(fù)抽樣,當(dāng)樣本容量超過(guò)總體容量的

5%時(shí),要對(duì)方差進(jìn)行修正,修正系數(shù)為。這時(shí)樣本方差為:(8-6)

的抽樣平均誤差為:

(8-7)6.標(biāo)準(zhǔn)化變換

為了方便的求出

落在某區(qū)間的概率,我們可以將

標(biāo)準(zhǔn)化,使其變換成標(biāo)準(zhǔn)正態(tài)隨機(jī)變量,再通過(guò)查標(biāo)準(zhǔn)正態(tài)分布表(附表

B)或利用計(jì)算機(jī)求出對(duì)應(yīng)的概率。

在大樣本,總體方差已知條件下,由(8-4)式有:標(biāo)準(zhǔn)正態(tài)分布的分布函數(shù)記為

(Z

)

,即(8-8),它有三個(gè)重要的性質(zhì):

(1)

(2)

(3)

利用這三個(gè)性質(zhì),可以求出我們需要的概率。

例如:設(shè)μ=8,=7,n=36,求。

則有:

在大樣本、總體方差未知條件下,可以用s

2

代替

2

,這時(shí)標(biāo)準(zhǔn)化后的統(tǒng)計(jì)量服從t分布:(8-9)

t分布也稱為學(xué)生分布,在統(tǒng)計(jì)推斷中有廣泛的運(yùn)用。t分布的形態(tài)是類似于標(biāo)準(zhǔn)正態(tài)分布的對(duì)稱分布,其分布密度函數(shù)的圖像比標(biāo)準(zhǔn)正態(tài)分布平緩。t分布依賴于自由度,隨著自由度的增大,t分布會(huì)逐漸趨近于標(biāo)準(zhǔn)正態(tài)分布。圖

8-3標(biāo)準(zhǔn)正態(tài)分布與t

分布

由圖

8-3

可以看出,對(duì)于同樣的外側(cè)面積,標(biāo)準(zhǔn)正態(tài)分布的臨界值小于t

分布的臨界值。例如,標(biāo)準(zhǔn)正態(tài)分布上側(cè)面積為0.025的臨界值為1.96,而自由度為10

的t分布上側(cè)面積為0.025的臨界值為2.23,這說(shuō)明t分布比標(biāo)準(zhǔn)正態(tài)分布數(shù)據(jù)更分散,形態(tài)更平緩。

我們可以求出給定自由度下某一設(shè)定的上側(cè)面積對(duì)應(yīng)的臨界值,這些結(jié)果也可以查

t分布表(附表C)或利用計(jì)算機(jī)求得。7.小樣本的情形

中心極限定理要求抽取的樣本是大樣本,但在實(shí)際運(yùn)用中,由于各種客觀條件的限制,我們往往只能得到的是小樣本。小樣本存在著更大的偶然性,也就意味著用小樣本進(jìn)行推斷會(huì)承擔(dān)更高的風(fēng)險(xiǎn),但是人們都不愿意承擔(dān)更高的風(fēng)險(xiǎn)。為了對(duì)沖這樣的風(fēng)險(xiǎn),在用小樣本進(jìn)行推斷時(shí)需要將條件加強(qiáng)—總體服從正態(tài)分布,在這個(gè)條件下,我們可以得到與大樣本類似的結(jié)論,即當(dāng)總體方差已知時(shí),

的抽樣分布服從正態(tài)分布,標(biāo)準(zhǔn)化后的標(biāo)準(zhǔn)隨機(jī)變量同(8-8)式表示;當(dāng)總體方差未知時(shí),

的抽樣分布服從

t分布,標(biāo)準(zhǔn)化后的標(biāo)準(zhǔn)隨機(jī)變量同(8-9)式表示。【例

8-3】某地區(qū)為了調(diào)查農(nóng)村居民純收入的情況,從該地區(qū)的農(nóng)村居民中隨機(jī)抽取

100

戶做樣本,計(jì)算其樣本平均數(shù)

。(1)假設(shè)該地區(qū)農(nóng)村居民平均純收入為

7000

元,總體標(biāo)準(zhǔn)差等于

1000

元,試描述

的抽樣分布,并計(jì)算其抽樣平均誤差;(2)大于

6800元且小于

7300元的概率是多少?(3)如果總體方差未知,那么

的抽樣分布是怎樣的?解:已知

n=100,

=7000,

=1000(1)根據(jù)中心極限定理,大樣本且總體方差已知時(shí),

的抽樣分布是正態(tài)分布,且,故,抽樣平均誤差(2)(3)如果總體方差未知,則

經(jīng)過(guò)標(biāo)準(zhǔn)化變換后的統(tǒng)計(jì)量服從t分布?!纠?/p>

8-4

】某學(xué)校教學(xué)樓內(nèi)電梯的質(zhì)量標(biāo)志注明:

最大載重量1000KG,限載

13

人。假定該校校內(nèi)人群的體重服從正態(tài)分布,平均體重為

70KG,標(biāo)準(zhǔn)差為10KG,試問(wèn)隨機(jī)進(jìn)入電梯

13

人,超重的概率是多少?解:已知

n=13,

=70,

=10因?yàn)橘|(zhì)量標(biāo)志為:最大載重量

1000KG,限載

13

人。此問(wèn)題相當(dāng)于抽取樣本容量為

13

的樣本,所以,如果樣本平均數(shù)

則會(huì)超重。由于總體服從正態(tài)分布,總體方差已知,當(dāng)小樣本時(shí),根據(jù)中心極限定理,的抽樣分布仍服從正態(tài)分布,即:,則隨機(jī)進(jìn)入電梯13人超重的概率是:

=0.0064

即超重的比率不超過(guò)1%。8.2.3 樣本比率(p)的抽樣分布

與樣本平均數(shù)

一樣,我們也要考慮

p的抽樣分布。設(shè)總體中具有某一屬性(如成功)的比率為π,采取重復(fù)抽樣抽取一個(gè)容量為n

的樣本,則樣本中具有這一屬性(如成功)的比率p是一個(gè)隨機(jī)變量。這個(gè)過(guò)程相當(dāng)于做

n

重伯努利試驗(yàn),n

次抽樣中具有這一屬性(如成功)的次數(shù)為

X,則有

p=X/n,且

X

服從二項(xiàng)分布,即:X~B(X,π)。對(duì)于二項(xiàng)分布我們有以下結(jié)論:一是

X

數(shù)學(xué)期望(均值)E(X)=

n,方差Var(X)=nπ(1-π),故有E(p=X/n)=

π,Var(p=X/n)=π(1-π)/n;二是當(dāng)樣本容量足夠大時(shí),二項(xiàng)分布近似服從正態(tài)分布,且有,于是有:。其中大樣本的標(biāo)準(zhǔn)是:同時(shí)滿足的n,如果π未知,可用p代替。表

8-5p的抽樣分布近似服從正態(tài)分布大樣本的經(jīng)驗(yàn)標(biāo)準(zhǔn)

0.500.450.400.350.300.250.200.150.101

0.500.550.600.650.700.750.800.850.90n3637384043485771100

在實(shí)際運(yùn)用過(guò)程中,一般可以用下表來(lái)確定大樣本的標(biāo)準(zhǔn)。1.

p的數(shù)學(xué)期望和方差

可以證明,p的數(shù)學(xué)期望為

,記為

p;p的方差為,記為。即:

,。2.

P

的抽樣分布的形態(tài)

由上述結(jié)論可知,在大樣本條件下,p抽樣分布服從數(shù)學(xué)期望為

,方差為的

正態(tài)分布。

用數(shù)學(xué)表達(dá)式表示為:(8-10)其中:;

在實(shí)際運(yùn)用中,當(dāng)

未知時(shí),可用

p代替。3. p的抽樣平均誤差

與樣本平均數(shù)

一樣,我們可以計(jì)算

p的抽樣平均誤差:(8-11)

其中:Ep

—樣本比率的抽樣平均誤差。4.修正系數(shù)

如果是有限總體且不重復(fù)抽樣,當(dāng)樣本容量超過(guò)總體容量的5%時(shí),要對(duì)方差進(jìn)行修正,修正系數(shù)為。這時(shí)方差為:2(8-12)抽樣平均誤差為:無(wú)限總體不需要修正。(8-13)5.標(biāo)準(zhǔn)化變換

為了方便地求出統(tǒng)計(jì)量p

落入某一區(qū)間的概率,我們可以將p

標(biāo)準(zhǔn)化,使其變換成標(biāo)準(zhǔn)正態(tài)隨機(jī)變量,再通過(guò)查標(biāo)準(zhǔn)正態(tài)分布表或利用計(jì)算機(jī)求出對(duì)應(yīng)的概率。(8-14)【例

8-5】新京報(bào)訊

(記者

孫曉萌)2019

1

11

日。全國(guó)小汽車保有量首次突破

2

億輛數(shù)據(jù)顯示,截至

2018

年底,全國(guó)汽車保有量達(dá)2.4

億輛,比

2017

年增加

2285

萬(wàn)輛,增長(zhǎng)10.51%。小型載客汽車保有量達(dá)

2.01

億輛,首次突破2

億輛,比2017

年增加

2085萬(wàn)輛,增長(zhǎng)11.56%,是汽車保有量增長(zhǎng)的主要組成部分。而這其中,私家車(私人小微型載客汽車)持續(xù)快速增長(zhǎng),2018

年保有量達(dá)

1.89億輛,近五年年均增長(zhǎng)

1952

萬(wàn)輛。

據(jù)估算,私家車中白色車比率為

40%。假設(shè)抽取

400

名新購(gòu)買私家車的客戶進(jìn)行調(diào)查,這些客戶選擇白色的比率小于

35%概率是多少?解:已知

40%

,n=400由表

8-5

知,抽取的樣本是大樣本。根據(jù)中心極限定理有:

這個(gè)問(wèn)題是求p

35%

的概率。即抽取的

400

名新購(gòu)買私家車的客戶中選擇白色的比率小于

35%概率是

0.020675。8.2.4 樣本方差(

s

2

)的抽樣分布

由概率論知識(shí)可知,

s

2

的抽樣分布服從卡方分布。設(shè),,令Y=Z,則??梢宰C明,統(tǒng)計(jì)量(8-15)

2

分布的特點(diǎn)是,隨機(jī)變量

2

的取值范圍是(0,

)

,其分布的形態(tài)是一個(gè)非對(duì)稱分布,并依賴于自由度,如圖

8-4

所示。自由度=8自由度=15圖

8-4

2

分布圖我們可以通過(guò)查

2分布表(附表D),求出給定的自由度下某一設(shè)定的上側(cè)面積對(duì)應(yīng)的臨界值,或通過(guò)計(jì)算機(jī)得到相關(guān)的結(jié)果。8.3一些重要的結(jié)論8.3.1大數(shù)定律

大數(shù)定律在概率論中有著非常重要的地位,是我們認(rèn)識(shí)隨機(jī)現(xiàn)象的理論基礎(chǔ)之一,最重要的是下面兩個(gè)大數(shù)定律。1.獨(dú)立同分布大數(shù)定律

設(shè)獨(dú)立隨機(jī)變量

X

1

,

X

2

,...,

X

n

,...服從同一分布,且存在數(shù)學(xué)期望

及方差

2

,對(duì)于任意給定的

0

有:(8-16)

這個(gè)大數(shù)定律告訴我們:雖然個(gè)別現(xiàn)象會(huì)受到偶然因素的影響,但是,對(duì)總體的大量觀察后進(jìn)行平均,就能使偶然因素的影響會(huì)相互抵消,從而使樣本平均數(shù)穩(wěn)定在

附近,從而為我們用樣本平均數(shù)對(duì)總體均值進(jìn)行估計(jì)提供了理論依據(jù)。2.伯努利大數(shù)定律

在獨(dú)立試驗(yàn)序列中,m是事件A

n次試驗(yàn)中發(fā)生的次數(shù),p是事件A

發(fā)生的概率,對(duì)于任意給定的

0

有:

(8-17)

這個(gè)大數(shù)定律告訴我們:當(dāng)我們多次重復(fù)觀察某個(gè)現(xiàn)象時(shí),這個(gè)現(xiàn)象發(fā)生的頻率與這個(gè)現(xiàn)象發(fā)生的概率之間的差距是非常小的,這為我們用頻率去代替概率提供了理論依據(jù)。8.3.2

中心極限定理的推廣1.中心極限定理在推斷統(tǒng)計(jì)中有著重要的應(yīng)用,根據(jù)概率論的有關(guān)理論,我們可以推導(dǎo)出關(guān)于兩個(gè)總體統(tǒng)計(jì)量的抽樣分布。正態(tài)分布再生定理:都是服從

的獨(dú)立隨機(jī)變量,那么其線性組合也服從均值為、方差為

的正態(tài)分布,即:

(8-18)

考慮從兩個(gè)總體中獨(dú)立的抽取兩個(gè)樣本,在大樣本、總體方差已知的條件下,由中心極限定理知兩個(gè)樣本平均數(shù)

是獨(dú)立的且分別服從正態(tài)分布,即

,其中分別表示兩個(gè)總體的均值,分別表示兩個(gè)總體的方差,

分別表示兩個(gè)樣本容量。

則由(8-18)式得:

(8-19)

(8-19)和(8-20)的結(jié)論可以認(rèn)為這兩個(gè)結(jié)論是中心極限定理的推廣,為我們?cè)趦蓚€(gè)總體之間進(jìn)行參數(shù)的比較提供了理論依據(jù)。

同理,可以得出兩個(gè)樣本比率差的抽樣分布:(8-20)【例

8-6】為了比較甲乙兩座城市退休職工的收入情況,獨(dú)立地從兩座城市抽取樣本容量為n1

160,

n2

125

的樣本。假設(shè)兩座城市的退休職工的收入服從正態(tài)分布,且甲城市的退休職工的月平均收入為2600

元,標(biāo)準(zhǔn)差為

800

元;乙城市退休職工的月平均收入為

2300元,標(biāo)準(zhǔn)差為

500

元。(1)描述兩個(gè)樣本平均數(shù)之差的抽樣分布;(2)兩個(gè)樣本平均數(shù)之差在

200

元到

450

元之間的概率。解:已知

1

2600,

1

800,

2

2300,

2

500

,

n1

160,

n2

125(1)設(shè)

分別表示兩個(gè)樣本平均數(shù),則由(8-19)式有:即即

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論