《統(tǒng)計(jì)學(xué)》課件-第8章抽樣分布

上傳人：青*** IP屬地：福建上傳時(shí)間：2025-09-17 格式：PPTX 頁(yè)數(shù)：116 大?。?27.95KB 積分：5.99 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩111頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第

章

抽樣分布【學(xué)習(xí)目標(biāo)】1、理解抽樣的基本問(wèn)題，建立有關(guān)抽樣的基本概念；2、掌握樣本平均數(shù)、樣本比率、樣本方差的抽樣分布；3、會(huì)運(yùn)用中心極限定理解決實(shí)際問(wèn)題；4、理解大數(shù)定律的含義以及在實(shí)踐中的運(yùn)用。8.1概述8.1.1抽樣的概念和作用1.抽樣的概念

在實(shí)際問(wèn)題中，我們研究的總體一般都包含了大量的個(gè)體元素，而每一個(gè)個(gè)體元素都對(duì)應(yīng)了相關(guān)的數(shù)量特征，也就是說(shuō)我們要面對(duì)的是大量的數(shù)據(jù)，我們的目的之一就是想知道這些大量數(shù)據(jù)的數(shù)量特征。但是，得到總體的數(shù)量特征是一件很困難的事情，下面我們通過(guò)一個(gè)實(shí)例來(lái)說(shuō)明這個(gè)問(wèn)題。【例

8-1】QQ

大數(shù)據(jù)發(fā)布《2018

中國(guó)人運(yùn)動(dòng)報(bào)告》:國(guó)人日均步數(shù)

首次沖破

6000

步2019-01-0810:30

來(lái)源：南方網(wǎng)綜合隨著生活水平的提升，普羅大眾對(duì)運(yùn)動(dòng)健身的重視度越來(lái)越高，尤其隨著健身室、運(yùn)動(dòng)場(chǎng)地、健身軟件等外部條件的不斷發(fā)展成熟，運(yùn)動(dòng)健身已經(jīng)融入到每天的生活中。日前，QQ

大數(shù)據(jù)聯(lián)合

運(yùn)動(dòng)發(fā)布了《2018

年中國(guó)人運(yùn)動(dòng)報(bào)告》，報(bào)告顯示2018

年國(guó)人日均行走步數(shù)首次突破

6000

大關(guān)，同時(shí)也從人群、城市、出行時(shí)間等多個(gè)維度剖析國(guó)人步行習(xí)慣的變化。2018

年，國(guó)人的平均步數(shù)達(dá)到

6303

步，首次突破

6000

大關(guān)。據(jù)《2018

中國(guó)人運(yùn)動(dòng)報(bào)告》顯示，最近三年國(guó)人的平均步數(shù)穩(wěn)步提升，從

2016

年起每年以

11%的增幅穩(wěn)步增長(zhǎng)，提升到

2018

年的

6303步。可以看出，國(guó)民運(yùn)動(dòng)意識(shí)和運(yùn)動(dòng)習(xí)慣正在不斷增強(qiáng)。2018

年，不但國(guó)民日均步數(shù)連年攀升，而且多個(gè)城市也以高企的平均步數(shù)交出了亮眼成績(jī)單。在城市排行榜中，蘭州市以

7638

步的平均步數(shù)一躍成為最大黑馬，奪冠年度城市平均步數(shù)第一名；榜眼的西安相比去年的排名上升一位，連續(xù)兩年穩(wěn)坐前三甲；深圳和廣州則分別位列第九和第十，在排行榜上齊頭并進(jìn)，看來(lái)快節(jié)奏的生活也能保持一定的步行量。表

8-1 2018

城市平均步數(shù)

TOP10排名城市平均步數(shù)排名城市平均步數(shù)1蘭州76386武漢69932西安72427哈爾濱68643貴陽(yáng)71248成都68464烏魯木齊70949深圳67455昆明703010廣州6729

作為社會(huì)和家庭中堅(jiān)力量的中老年，依然活力滿滿，40-50

歲人群的日均步數(shù)達(dá)

7030

步，而

歲以上的人群平均步數(shù)更是達(dá)到了7515

步。相較之下，祖國(guó)的“花朵們”就顯得不那么活躍了，20

歲以下青少年的日均步數(shù)只有

5782

步，大概是因課業(yè)繁重、缺乏運(yùn)動(dòng)時(shí)間。表8-2不同年齡組平均步數(shù)年齡組平均步數(shù)年齡組平均步數(shù)20以下578245-50703020-30640750以上751530-406403

據(jù)悉，這是

大數(shù)據(jù)和QQ

運(yùn)動(dòng)連續(xù)第三年發(fā)布《中國(guó)人運(yùn)動(dòng)報(bào)告》，對(duì)了解當(dāng)下中國(guó)人運(yùn)動(dòng)習(xí)慣、各城市運(yùn)動(dòng)狀況提供了良好的參考。QQ

運(yùn)動(dòng)作為中國(guó)最大的個(gè)人運(yùn)動(dòng)健身記錄及用戶互動(dòng)交流平臺(tái)，記錄國(guó)民每一天的步行數(shù)據(jù)。QQ

運(yùn)動(dòng)將社交與運(yùn)動(dòng)有機(jī)結(jié)合的創(chuàng)新玩法更是有效實(shí)現(xiàn)了從運(yùn)動(dòng)的單一體驗(yàn)向創(chuàng)意式體驗(yàn)的轉(zhuǎn)變，讓每個(gè)人在“步履不停”中，體驗(yàn)運(yùn)動(dòng)與社交的快樂(lè)。QQ

運(yùn)動(dòng)連續(xù)第三年發(fā)布《中國(guó)人運(yùn)動(dòng)報(bào)告》是以QQ

運(yùn)動(dòng)作為數(shù)據(jù)基礎(chǔ)進(jìn)行分析，并不能涵蓋全體國(guó)人。我們可以認(rèn)為，QQ

運(yùn)動(dòng)是運(yùn)用國(guó)人中的一部分?jǐn)?shù)據(jù)（樣本）計(jì)算某些特征來(lái)推斷全體國(guó)人（總體）的特征。從總體中抽取一部分個(gè)體組成樣本的過(guò)程稱為抽樣。抽樣可以分為隨機(jī)抽樣和非隨機(jī)抽樣。隨機(jī)抽樣是指完全排除研究者主觀因素的抽樣，其反面就是非隨機(jī)抽樣。如無(wú)特殊聲明，以后的內(nèi)容中所說(shuō)的抽樣均指隨機(jī)抽樣。2.抽樣的目的和作用

從上面的例子中我們理解了什么叫抽樣，那么抽樣的目的是什么？又有哪些作用呢？抽樣的目的是進(jìn)行抽樣推斷，主要包含兩個(gè)方面的內(nèi)容：一是利用抽樣所得到的信息對(duì)研究對(duì)象的總體數(shù)量特征進(jìn)行估計(jì)；二是利用抽樣所得到的信息對(duì)某些假設(shè)進(jìn)行檢驗(yàn)。

抽樣的作用可以歸納為以下幾個(gè)方面：1）對(duì)隨機(jī)現(xiàn)象進(jìn)行推斷。例如顧客在一家快餐店的消費(fèi)支出是不確定的，也就是說(shuō)這是一種隨機(jī)現(xiàn)象。我們可以通過(guò)抽樣的方法，抽取一個(gè)合適的樣本，利用樣本的信息對(duì)所有顧客在這家快餐店的平均消費(fèi)支出做出推斷。

2)節(jié)約調(diào)查成本。這是我們進(jìn)行抽樣的一個(gè)重要的原因。例如在例

8-1

中所提到的問(wèn)題，要想知道全體國(guó)人的步行步數(shù)，是要花費(fèi)大量成本的，但進(jìn)行抽樣估計(jì)，可以比較快捷地得到結(jié)果，節(jié)約大量的調(diào)查成本。

3)有效地控制誤差。抽樣方法是科學(xué)的方法，可以對(duì)誤差進(jìn)行計(jì)算和控制，在很多時(shí)候可以用抽樣調(diào)查對(duì)全面調(diào)查的結(jié)果進(jìn)行驗(yàn)證。4）對(duì)某些假設(shè)進(jìn)行檢驗(yàn)，從而做出科學(xué)的決策。（這部分內(nèi)容將在第

章學(xué)習(xí)）8.1.2

抽樣的有關(guān)概念1.總體和樣本1）總體，又稱全及總體，指所要研究對(duì)象的全體，由許多客觀存在的具有某種共同性質(zhì)的個(gè)體（單位）構(gòu)成。總體中所包含的個(gè)體（單位）數(shù)用

表示，稱為總體容量，當(dāng)總體容量是有限時(shí)，我們稱為有限總體；當(dāng)總體容量是無(wú)限時(shí)，我們稱為無(wú)限總體?？傮w是唯一的、確定的。2）樣本，又稱子樣，是從總體中抽取部分個(gè)體（單位）組成的集合，是總體的一部分。樣本中包含的個(gè)體（單位）數(shù)用

表示，稱為樣本容量。樣本是不確定的、可變的、隨機(jī)的；從總體中可能抽出的所有樣本數(shù)目，稱為樣本可能數(shù)目，記為

M。這一數(shù)目的大小與總體容量、樣本容量有關(guān)，也與抽樣方法有關(guān)。2.參數(shù)和統(tǒng)計(jì)量

1)參數(shù)是總體參數(shù)的簡(jiǎn)稱，是反映總體數(shù)量特征的指標(biāo)，其取值是唯一的、確定的，但往往是未知的，我們相信它是客觀存在的。最常用的參數(shù)有總體均值（記為

）、總體比率（記為

）和總體方差（記為

）。例如在例

8-1

中某一年齡組人群的平均步數(shù)就是一個(gè)參數(shù)，是我們想要知道的內(nèi)容，但在現(xiàn)實(shí)中往往是未知的。2)統(tǒng)計(jì)量是樣本統(tǒng)計(jì)量的簡(jiǎn)稱，是由樣本中單位的變量值計(jì)算得到的反映樣本數(shù)量特征的指標(biāo)，其數(shù)值是不確定的，隨機(jī)的。最常用的統(tǒng)計(jì)量有樣本平均數(shù)（記為

）、樣本比率（記為

p）、樣本方差（記為s

）。例如在例

8-1

中，為了估計(jì)某一年齡組人群的平均步數(shù)（參數(shù)），我們?cè)谌珖?guó)按一定的規(guī)則抽取

1000

名該年齡組的人，對(duì)他們平均步數(shù)時(shí)行調(diào)查，計(jì)算出這

1000

人的平均步數(shù)

，這個(gè)平均步數(shù)就是統(tǒng)計(jì)量。需要特別注意的是，這

1000

人（樣本）的抽取有多種多樣不同的結(jié)果，我們計(jì)算得到的統(tǒng)計(jì)量的值（

）會(huì)隨著樣本的不同而發(fā)生變化，而樣本是隨機(jī)抽取的，所以說(shuō)統(tǒng)計(jì)量是隨機(jī)變量。3.抽樣方法

1）重復(fù)抽樣，又稱有放回抽樣。其抽樣過(guò)程是：先從總體中抽取第

個(gè)個(gè)體（單位）并記錄所需數(shù)據(jù)后,把這個(gè)個(gè)體（單位）再放回總體；再抽取第

個(gè)個(gè)體（單位）并記錄所需數(shù)據(jù)后,

把這個(gè)個(gè)體（單位）再放回總體；以此類推,直到抽足樣本所要求的個(gè)體（單位）數(shù)目為止。重復(fù)抽樣的特點(diǎn)是：第一，n個(gè)個(gè)體（單位）的樣本是由

n次試驗(yàn)的結(jié)果構(gòu)成的。第二，每次試驗(yàn)是獨(dú)立的，即其試驗(yàn)的結(jié)果與前次、后次的結(jié)果無(wú)關(guān)。第三，每次試驗(yàn)是在相同條件下進(jìn)行的，每個(gè)個(gè)體（單位）在多次試驗(yàn)中選中的機(jī)會(huì)(概率)是相同的。設(shè)從總體容量是

的總體中按重復(fù)抽樣的方法，抽取樣本容量為

n的樣本，則樣本可能數(shù)目為M

。2）不重復(fù)抽樣，又稱不放回抽樣。其抽樣過(guò)程是：每次從總體抽取一個(gè)個(gè)體（單位),登記后不放回原總體，不參加下一輪抽樣；下一次繼續(xù)從總體中余下的個(gè)體（單位）抽取樣本，直到抽足樣本所要求的個(gè)體（單位）數(shù)目為止。其特點(diǎn)是：第一，n個(gè)個(gè)體（單位）的樣本由

次試驗(yàn)結(jié)果構(gòu)成，但由于每次抽出不重復(fù)，所以實(shí)質(zhì)上相當(dāng)于從總體中同時(shí)抽取

n個(gè)個(gè)體（單位）。第二，每次試驗(yàn)結(jié)果不是獨(dú)立的，上次中選情況影響下次抽選結(jié)果。第三，每個(gè)單位在多次(輪)試驗(yàn)中中選的機(jī)會(huì)是不等的。如果是考慮順序，其樣本可能數(shù)目為（排列數(shù)）；如果不考慮順序，其樣本可能數(shù)目為（組合數(shù)）。4.抽樣誤差

抽樣的目的是進(jìn)行估計(jì)和推斷，就是用統(tǒng)計(jì)量對(duì)參數(shù)進(jìn)行推斷，這個(gè)過(guò)程一定會(huì)有誤差。

誤差可以分為登記性誤差和代表性誤差。所謂登記性誤差是指在登記、匯總數(shù)據(jù)時(shí)產(chǎn)生的誤差，從理論上講，登記性誤差是可以避免的；而代表性誤差是指用樣本統(tǒng)計(jì)量推斷總體參數(shù)而產(chǎn)生的誤差，又分為偏差和隨機(jī)誤差；偏差是指破壞了抽樣的隨機(jī)原則而產(chǎn)生的誤差，這種誤差在理論上也是可以避免的；隨機(jī)誤差是指在抽樣中遵循了隨機(jī)原則，但由于樣本的不穩(wěn)定性而產(chǎn)生的誤差，也就是抽樣誤差，這種誤差是必然會(huì)產(chǎn)生的，是不可避免的，但是可以對(duì)其進(jìn)行控制和計(jì)算。

在這里，我們只討論抽樣誤差。

抽樣誤差又可以分為實(shí)際誤差、抽樣平均誤差和抽樣極限誤差。例如在例

8-1

中，在某一年齡組里中抽樣了一個(gè)樣本容量為

1000

的樣本，計(jì)算出樣本的平均步數(shù)

（統(tǒng)計(jì)量），我們用

對(duì)全體國(guó)人這一年齡組真實(shí)的平均步數(shù)

進(jìn)行估計(jì)，則

就是實(shí)際誤差，由于

一般來(lái)說(shuō)是未知的，所以實(shí)際誤差只有理論意義。

有實(shí)際意義的是抽樣平均誤差，也稱為標(biāo)準(zhǔn)誤差或標(biāo)準(zhǔn)誤。

我們?nèi)砸云骄鶖?shù)來(lái)說(shuō)明，由于對(duì)于給定的樣本容量，我們可以抽取很多個(gè)不同的樣本，設(shè)樣本可能數(shù)目為M，而每個(gè)樣本都可以得到一個(gè)對(duì)應(yīng)的,每一個(gè)與μ都會(huì)有一個(gè)誤差，直觀的理解這些誤差的平均值可以表示為，但是由于分子的離差可正可負(fù)，相加后會(huì)相互抵消，其結(jié)果為零（后面會(huì)看到這個(gè)結(jié)果）。所以這些誤差的平均值應(yīng)表示為：（8-1）其中：

—樣本平均數(shù)的抽樣平均誤差。（8-1）式表示的是用

估計(jì)

的所有誤差的平均值，我們稱其為

的抽樣平均誤差,也稱為標(biāo)準(zhǔn)誤差或標(biāo)準(zhǔn)誤。同樣的，我們還可以定義樣本比率

p的抽樣平均誤差。抽樣極限誤差將在以后的內(nèi)容中討論。8.1.3

抽樣方式1.簡(jiǎn)單隨機(jī)抽樣簡(jiǎn)單隨機(jī)抽樣的組織原則是:(1)在抽取樣本時(shí),必須保證每一個(gè)可能樣本被抽到的概率相等;(2)總體中每一個(gè)個(gè)體（單位）被包括在樣本中的可能性相等。簡(jiǎn)單隨機(jī)抽樣可以用隨機(jī)數(shù)字法、抽簽法等多種方法。最簡(jiǎn)單的方法是使用隨機(jī)數(shù)字。隨機(jī)數(shù)字可以借助于計(jì)算機(jī)得到，也可以利用隨機(jī)數(shù)字表(附表A)。2.分層抽樣分層抽樣是先把總體按一定標(biāo)志劃分成許多性質(zhì)相近的類型或組別，然后在每種類型中抽取個(gè)體（單位）。抽取方法有兩種：(1)按各類型在總體中的比重確定各類型應(yīng)抽樣本容量；(2)在各類型中抽取相同容量的樣本，估計(jì)值以各類型比重加權(quán)。分層抽樣與其它抽樣方式相比，由于考慮到總體中各類型之間的差別,因此,它能更準(zhǔn)確地反映總體的分布特征。3.系統(tǒng)抽樣

系統(tǒng)抽樣從總體中抽取樣本時(shí),是按照時(shí)間或空間的等距間隔抽取的。過(guò)程一般分為兩步：(1)確定抽樣距離

k，(2)在前k

號(hào)中隨機(jī)抽取

個(gè)個(gè)體（單位），然后,每間隔

k個(gè)個(gè)體（單位）抽取

1個(gè)，直到抽夠要求的數(shù)目為止。

系統(tǒng)抽樣的優(yōu)點(diǎn)是：比簡(jiǎn)單隨機(jī)抽樣簡(jiǎn)便，節(jié)省費(fèi)用;所抽個(gè)體（單位）在總體中的分布比簡(jiǎn)單隨機(jī)抽樣更均勻。4.整群抽樣

整群抽樣是先把總體分為若干個(gè)群，然后在這些群中隨機(jī)地抽選部分群作為樣本。

這種抽樣方式適合于群與群之間的差異不大情況，其優(yōu)點(diǎn)是能夠大大地節(jié)省時(shí)間和費(fèi)用，但如果群間差異較大，則會(huì)產(chǎn)生很大的誤差。

不同的抽樣方式會(huì)形成不同的抽樣平均誤差，詳細(xì)內(nèi)容可參閱專門的文獻(xiàn)資料。8.2

抽樣分布8.2.1

抽樣分布的概念某個(gè)統(tǒng)計(jì)量對(duì)應(yīng)的頻率分布或概率分布稱為該統(tǒng)計(jì)量的抽樣分布。常用的抽樣分布有樣本平均數(shù)

的抽樣分布、樣本比率

p的抽樣分布、樣本方差s

的抽樣分布。抽樣分布是一種理論分布，可以由數(shù)學(xué)推導(dǎo)或?qū)嶒?yàn)推斷其分布的形態(tài)。8.2.2

樣本均值()的抽樣分布

為了得到

的抽樣分布，我們做一個(gè)試驗(yàn)?！纠?/p>

8-2】假設(shè)一個(gè)總體包含

個(gè)個(gè)體（單位），分別是X

。采取重復(fù)抽樣的方法，從中抽取

個(gè)個(gè)體（單位）組成樣本，試描述

的抽樣分布。X123456f(X)1/61/61/61/61/61/6解：首先考慮總體的分布情況。顯然總體服從均勻分布：總體均值為：總體方差為：采取重復(fù)抽樣的方法從

N＝6

個(gè)個(gè)體（單位）中抽取

n＝2

個(gè)個(gè)體（單位）組成樣本，一共可以抽取M

個(gè)樣本，對(duì)應(yīng)的可以計(jì)算出36

個(gè)

。Xi,X

j第二次抽取123456第一次抽取11，1（1.0）1，2（1.5）1，3（2.0）1，4（2.5）1，5（3.0）1，6（3.5）22，1（1.5）2，2（2.0）2，3（2.5）2，4（3.0）2，5（3.5）2，6（4.0）33，1（2.0）3，2（2.5）3，3（3.0）3，4（3.5）3，5（4.0）3，6（4.5）44，1（2.5）4，2（3.0）4，3（3.5）4，4（4.0）4，5（4.5）4，6（5.0）55，1（3.0）5，2（3.5）5，3（4.0）5，4（4.5）5，5（5.0）5，6（5.5）66，1（3.5）6，2（4.0）6，3（4.5）6，4（5.0）6，5（5.5）6，6（6.0）

我們觀察到，所有

個(gè)樣本對(duì)應(yīng)的統(tǒng)計(jì)量

的取值出現(xiàn)的次數(shù)是不同的，那么其出現(xiàn)的頻率也是不同的。表

8-4

的抽樣分布頻數(shù)fi

頻率f()

1.01.52.02.53.03.54.04.55.05.56.0123456543211/362/363/364/365/366/365/364/363/362/361/36a)

的分布b)

的分布圖

8-1 x

的分布與

的抽樣分布X我們分別繪制總體分布圖和抽樣分布圖：從這兩個(gè)分布圖中我們可以看到，在本例中，雖然總體服從均勻分布，但經(jīng)過(guò)抽樣平均后，樣本平均數(shù)

的抽樣分布是對(duì)稱的，并且呈現(xiàn)出中間大兩頭小的特點(diǎn)。有了

抽樣分布的基本印象后，我們還可以進(jìn)一步探索

的數(shù)量特征、分布的形態(tài)以及抽樣平均誤差。1．

的數(shù)學(xué)期望在例

8-2

中，

的數(shù)學(xué)期望就是所有

的平均數(shù)，記為

。（8-2）由于總體均值

3.5

，所以我們推測(cè)有

。

2．

的方差

的方差記為

:（8-3）由于總體方差

2.92

，所以我們推測(cè)有

。3．

抽樣分布的形態(tài)

在例8-2中，我們假定總體中只有6個(gè)個(gè)體（單位），只抽取容量n＝2的樣本。在這個(gè)條件下，我們推測(cè)有如下結(jié)果：

的抽樣分布是對(duì)稱的，且，

于是，我們自然會(huì)做出如下合理的推測(cè)：當(dāng)總體中包含的個(gè)體（單位）非常多，我們抽取的樣本容量足夠大時(shí)，

的抽樣分布會(huì)越來(lái)越趨近于正態(tài)分布。

大量的實(shí)驗(yàn)表明，無(wú)論總體服從什么分布，只要總體方差已知，樣本容量足夠大，樣本平均數(shù)近似服從正態(tài)分布，這個(gè)結(jié)論就是著名的中心極限定理（如圖

8-2）。a)總體的分布b)

的抽樣分布（n=2）c)

的抽樣分布（n=5）d)

的抽樣分布（n=30）圖

8-2

不同樣本容量下

的抽樣分布中心極限定理：設(shè)總體均值為

，且存在有限方差

，從中抽取樣本容量為n的樣本。當(dāng)樣本容量足夠大時(shí)，樣本平均數(shù)

的抽樣分布近似地服從正態(tài)分布，且，。樣本容量越大，

的抽樣分布與正態(tài)分布近似程度越高。這個(gè)結(jié)論用數(shù)學(xué)表達(dá)式表示為：（8-4）

其中，；

。

理解中心極限定理時(shí)要注意幾個(gè)問(wèn)題：一是總體存在有限方差，也就是

已知。其意義是總體中數(shù)據(jù)的分散程度是已知的、確定的；如果

未知，則總體中數(shù)據(jù)的分散程度是未知的、不確定的，這時(shí)用樣本統(tǒng)計(jì)量

估計(jì)總體均值

的風(fēng)險(xiǎn)是較大的，即存在更大的不確定性。在統(tǒng)計(jì)實(shí)踐中，在這種情況下，統(tǒng)計(jì)量

的抽樣分布不再使用正態(tài)分布來(lái)近似，而是使用

分布近似，用這種方法來(lái)降低風(fēng)險(xiǎn)。二是總體分布。中心極限定理并沒(méi)有對(duì)總體分布做出要求，如果總體服從正態(tài)分布，則中心極限定理的條件會(huì)被加強(qiáng)；如果總體不服從正態(tài)分布，但偏斜的不嚴(yán)重時(shí)，當(dāng)樣本容量足夠大時(shí)，中心極限定理的結(jié)論仍然成立；當(dāng)總體的分布偏斜的十分嚴(yán)重時(shí)，需要用更大的樣本才能保證中心極限定理的結(jié)論近似的成立（如圖

8-2）。三是樣本容量足夠大。樣本容量大到什么程度可以算足夠大？統(tǒng)計(jì)學(xué)理論認(rèn)為，在均值的估計(jì)中，當(dāng)樣本容量不小于

時(shí)（

），可以理解為樣本容量足夠大了，這時(shí)我們稱其為大樣本，而樣本容量小于

的樣本稱為小樣本。4．

的抽樣平均誤差

當(dāng)我們用統(tǒng)計(jì)量

估計(jì)參數(shù)

時(shí)會(huì)有誤差，在例

8-2

中，我們可以計(jì)算

個(gè)

，每個(gè)

與

都會(huì)有誤差，而

抽樣分布是對(duì)稱的，所以表示這個(gè)誤差的最好方法是抽樣平均誤差（標(biāo)準(zhǔn)誤差或標(biāo)準(zhǔn)誤）。

由式（8-1）式和（8-3）式得：(8-5)既

抽樣平均誤差等于其抽樣分布的標(biāo)準(zhǔn)差，當(dāng)

未知時(shí)可用s

2代替。

由（8-5）式可以看出，抽樣平均誤差與樣本容量以及總體方差有關(guān)，此外還與抽樣方法有關(guān)。樣本容量越大，則抽樣平均誤差就越小；總體方差越小，抽樣平均誤差就越小；從理論上講，重復(fù)抽樣要比不重復(fù)抽樣的抽樣平均誤差大。5．修正系數(shù)

上述結(jié)論是在重復(fù)抽樣的條件下得到的，如果是有限總體且不重復(fù)抽樣，當(dāng)樣本容量超過(guò)總體容量的

5%時(shí)，要對(duì)方差進(jìn)行修正，修正系數(shù)為。這時(shí)樣本方差為：（8-6）

的抽樣平均誤差為：

（8-7）6．標(biāo)準(zhǔn)化變換

為了方便的求出

落在某區(qū)間的概率，我們可以將

標(biāo)準(zhǔn)化，使其變換成標(biāo)準(zhǔn)正態(tài)隨機(jī)變量，再通過(guò)查標(biāo)準(zhǔn)正態(tài)分布表(附表

B)或利用計(jì)算機(jī)求出對(duì)應(yīng)的概率。

在大樣本，總體方差已知條件下，由（8-4）式有：標(biāo)準(zhǔn)正態(tài)分布的分布函數(shù)記為

)

，即（8-8），它有三個(gè)重要的性質(zhì)：

（1）

（2）

（3）

利用這三個(gè)性質(zhì)，可以求出我們需要的概率。

例如：設(shè)μ=8，=7，n=36，求。

則有：

在大樣本、總體方差未知條件下，可以用s

代替

，這時(shí)標(biāo)準(zhǔn)化后的統(tǒng)計(jì)量服從t分布：（8-9）

t分布也稱為學(xué)生分布，在統(tǒng)計(jì)推斷中有廣泛的運(yùn)用。t分布的形態(tài)是類似于標(biāo)準(zhǔn)正態(tài)分布的對(duì)稱分布，其分布密度函數(shù)的圖像比標(biāo)準(zhǔn)正態(tài)分布平緩。t分布依賴于自由度，隨著自由度的增大，t分布會(huì)逐漸趨近于標(biāo)準(zhǔn)正態(tài)分布。圖

8-3標(biāo)準(zhǔn)正態(tài)分布與t

分布

由圖

8-3

可以看出，對(duì)于同樣的外側(cè)面積，標(biāo)準(zhǔn)正態(tài)分布的臨界值小于t

分布的臨界值。例如，標(biāo)準(zhǔn)正態(tài)分布上側(cè)面積為0.025的臨界值為1.96，而自由度為10

的t分布上側(cè)面積為0.025的臨界值為2.23，這說(shuō)明t分布比標(biāo)準(zhǔn)正態(tài)分布數(shù)據(jù)更分散，形態(tài)更平緩。

我們可以求出給定自由度下某一設(shè)定的上側(cè)面積對(duì)應(yīng)的臨界值，這些結(jié)果也可以查

t分布表（附表C）或利用計(jì)算機(jī)求得。7.小樣本的情形

中心極限定理要求抽取的樣本是大樣本，但在實(shí)際運(yùn)用中，由于各種客觀條件的限制，我們往往只能得到的是小樣本。小樣本存在著更大的偶然性，也就意味著用小樣本進(jìn)行推斷會(huì)承擔(dān)更高的風(fēng)險(xiǎn)，但是人們都不愿意承擔(dān)更高的風(fēng)險(xiǎn)。為了對(duì)沖這樣的風(fēng)險(xiǎn)，在用小樣本進(jìn)行推斷時(shí)需要將條件加強(qiáng)—總體服從正態(tài)分布，在這個(gè)條件下，我們可以得到與大樣本類似的結(jié)論，即當(dāng)總體方差已知時(shí)，

的抽樣分布服從正態(tài)分布，標(biāo)準(zhǔn)化后的標(biāo)準(zhǔn)隨機(jī)變量同（8-8）式表示；當(dāng)總體方差未知時(shí)，

的抽樣分布服從

t分布,標(biāo)準(zhǔn)化后的標(biāo)準(zhǔn)隨機(jī)變量同（8-9）式表示。【例

8-3】某地區(qū)為了調(diào)查農(nóng)村居民純收入的情況，從該地區(qū)的農(nóng)村居民中隨機(jī)抽取

100

戶做樣本，計(jì)算其樣本平均數(shù)

。（1）假設(shè)該地區(qū)農(nóng)村居民平均純收入為

7000

元，總體標(biāo)準(zhǔn)差等于

1000

元,試描述

的抽樣分布，并計(jì)算其抽樣平均誤差；(2)大于

6800元且小于

7300元的概率是多少？（3）如果總體方差未知，那么

的抽樣分布是怎樣的？解：已知

n＝100,

＝7000,

＝1000（1）根據(jù)中心極限定理，大樣本且總體方差已知時(shí)，

的抽樣分布是正態(tài)分布，且，故，抽樣平均誤差（2）（3）如果總體方差未知，則

經(jīng)過(guò)標(biāo)準(zhǔn)化變換后的統(tǒng)計(jì)量服從t分布?！纠?/p>

8-4

】某學(xué)校教學(xué)樓內(nèi)電梯的質(zhì)量標(biāo)志注明：

最大載重量1000KG，限載

人。假定該校校內(nèi)人群的體重服從正態(tài)分布，平均體重為

70KG，標(biāo)準(zhǔn)差為10KG，試問(wèn)隨機(jī)進(jìn)入電梯

人，超重的概率是多少？解：已知

n＝13,

＝70,

＝10因?yàn)橘|(zhì)量標(biāo)志為：最大載重量

1000KG，限載

人。此問(wèn)題相當(dāng)于抽取樣本容量為

的樣本，所以，如果樣本平均數(shù)

則會(huì)超重。由于總體服從正態(tài)分布，總體方差已知，當(dāng)小樣本時(shí)，根據(jù)中心極限定理，的抽樣分布仍服從正態(tài)分布，即：，則隨機(jī)進(jìn)入電梯13人超重的概率是：

=0.0064

即超重的比率不超過(guò)1%。8.2.3 樣本比率（p）的抽樣分布

與樣本平均數(shù)

一樣，我們也要考慮

p的抽樣分布。設(shè)總體中具有某一屬性（如成功）的比率為π，采取重復(fù)抽樣抽取一個(gè)容量為n

的樣本，則樣本中具有這一屬性（如成功）的比率p是一個(gè)隨機(jī)變量。這個(gè)過(guò)程相當(dāng)于做

重伯努利試驗(yàn)，n

次抽樣中具有這一屬性（如成功）的次數(shù)為

X，則有

p=X/n，且

服從二項(xiàng)分布，即：X~B（X，π）。對(duì)于二項(xiàng)分布我們有以下結(jié)論：一是

數(shù)學(xué)期望（均值）E(X)=

n，方差Var（X）=nπ（1-π），故有E(p=X/n)=

π，Var（p=X/n）=π（1-π）/n；二是當(dāng)樣本容量足夠大時(shí)，二項(xiàng)分布近似服從正態(tài)分布，且有，于是有：。其中大樣本的標(biāo)準(zhǔn)是：同時(shí)滿足的n，如果π未知，可用p代替。表

8-5p的抽樣分布近似服從正態(tài)分布大樣本的經(jīng)驗(yàn)標(biāo)準(zhǔn)

0.500.450.400.350.300.250.200.150.101

0.500.550.600.650.700.750.800.850.90n3637384043485771100

在實(shí)際運(yùn)用過(guò)程中，一般可以用下表來(lái)確定大樣本的標(biāo)準(zhǔn)。1.

p的數(shù)學(xué)期望和方差

可以證明，p的數(shù)學(xué)期望為

，記為

p；p的方差為,記為。即：

，。2.

的抽樣分布的形態(tài)

由上述結(jié)論可知，在大樣本條件下，p抽樣分布服從數(shù)學(xué)期望為

，方差為的

正態(tài)分布。

用數(shù)學(xué)表達(dá)式表示為：（8-10）其中：;

在實(shí)際運(yùn)用中，當(dāng)

未知時(shí)，可用

p代替。3. p的抽樣平均誤差

與樣本平均數(shù)

一樣，我們可以計(jì)算

p的抽樣平均誤差：（8-11）

其中:Ep

—樣本比率的抽樣平均誤差。4.修正系數(shù)

如果是有限總體且不重復(fù)抽樣，當(dāng)樣本容量超過(guò)總體容量的5%時(shí)，要對(duì)方差進(jìn)行修正，修正系數(shù)為。這時(shí)方差為：2（8-12）抽樣平均誤差為：無(wú)限總體不需要修正。（8-13）5.標(biāo)準(zhǔn)化變換

為了方便地求出統(tǒng)計(jì)量p

落入某一區(qū)間的概率，我們可以將p

標(biāo)準(zhǔn)化，使其變換成標(biāo)準(zhǔn)正態(tài)隨機(jī)變量，再通過(guò)查標(biāo)準(zhǔn)正態(tài)分布表或利用計(jì)算機(jī)求出對(duì)應(yīng)的概率。（8-14）【例

8-5】新京報(bào)訊

（記者

孫曉萌）2019

年

月

日。全國(guó)小汽車保有量首次突破

億輛數(shù)據(jù)顯示，截至

2018

年底，全國(guó)汽車保有量達(dá)2.4

億輛，比

2017

年增加

2285

萬(wàn)輛，增長(zhǎng)10.51%。小型載客汽車保有量達(dá)

2.01

億輛，首次突破2

億輛，比2017

年增加

2085萬(wàn)輛，增長(zhǎng)11.56%，是汽車保有量增長(zhǎng)的主要組成部分。而這其中,私家車（私人小微型載客汽車）持續(xù)快速增長(zhǎng)，2018

年保有量達(dá)

1.89億輛，近五年年均增長(zhǎng)

1952

萬(wàn)輛。

據(jù)估算，私家車中白色車比率為

40%。假設(shè)抽取

400

名新購(gòu)買私家車的客戶進(jìn)行調(diào)查，這些客戶選擇白色的比率小于

35%概率是多少？解：已知

40%

，n＝400由表

8-5

知，抽取的樣本是大樣本。根據(jù)中心極限定理有：

這個(gè)問(wèn)題是求p

35%

的概率。即抽取的

400

名新購(gòu)買私家車的客戶中選擇白色的比率小于

35%概率是

0.020675。8.2.4 樣本方差（

）的抽樣分布

由概率論知識(shí)可知，

的抽樣分布服從卡方分布。設(shè)，，令Y=Z，則?？梢宰C明，統(tǒng)計(jì)量（8-15）

分布的特點(diǎn)是，隨機(jī)變量

的取值范圍是(0,

)

，其分布的形態(tài)是一個(gè)非對(duì)稱分布，并依賴于自由度，如圖

8-4

所示。自由度=8自由度=15圖

8-4

分布圖我們可以通過(guò)查

2分布表（附表D），求出給定的自由度下某一設(shè)定的上側(cè)面積對(duì)應(yīng)的臨界值，或通過(guò)計(jì)算機(jī)得到相關(guān)的結(jié)果。8.3一些重要的結(jié)論8.3.1大數(shù)定律

大數(shù)定律在概率論中有著非常重要的地位，是我們認(rèn)識(shí)隨機(jī)現(xiàn)象的理論基礎(chǔ)之一，最重要的是下面兩個(gè)大數(shù)定律。1.獨(dú)立同分布大數(shù)定律

設(shè)獨(dú)立隨機(jī)變量

,...,

,...服從同一分布，且存在數(shù)學(xué)期望

及方差

，對(duì)于任意給定的

有：（8-16）

這個(gè)大數(shù)定律告訴我們：雖然個(gè)別現(xiàn)象會(huì)受到偶然因素的影響，但是，對(duì)總體的大量觀察后進(jìn)行平均，就能使偶然因素的影響會(huì)相互抵消，從而使樣本平均數(shù)穩(wěn)定在

附近，從而為我們用樣本平均數(shù)對(duì)總體均值進(jìn)行估計(jì)提供了理論依據(jù)。2.伯努利大數(shù)定律

在獨(dú)立試驗(yàn)序列中，m是事件A

在

n次試驗(yàn)中發(fā)生的次數(shù)，p是事件A

發(fā)生的概率，對(duì)于任意給定的

有：

(8-17)

這個(gè)大數(shù)定律告訴我們：當(dāng)我們多次重復(fù)觀察某個(gè)現(xiàn)象時(shí)，這個(gè)現(xiàn)象發(fā)生的頻率與這個(gè)現(xiàn)象發(fā)生的概率之間的差距是非常小的，這為我們用頻率去代替概率提供了理論依據(jù)。8.3.2

中心極限定理的推廣1.中心極限定理在推斷統(tǒng)計(jì)中有著重要的應(yīng)用，根據(jù)概率論的有關(guān)理論，我們可以推導(dǎo)出關(guān)于兩個(gè)總體統(tǒng)計(jì)量的抽樣分布。正態(tài)分布再生定理：都是服從

的獨(dú)立隨機(jī)變量，那么其線性組合也服從均值為、方差為

的正態(tài)分布，即：

（8-18）

考慮從兩個(gè)總體中獨(dú)立的抽取兩個(gè)樣本，在大樣本、總體方差已知的條件下，由中心極限定理知兩個(gè)樣本平均數(shù)

是獨(dú)立的且分別服從正態(tài)分布，即

、

，其中分別表示兩個(gè)總體的均值，分別表示兩個(gè)總體的方差，

分別表示兩個(gè)樣本容量。

則由（8-18）式得：

（8-19）

（8-19）和（8-20）的結(jié)論可以認(rèn)為這兩個(gè)結(jié)論是中心極限定理的推廣，為我們?cè)趦蓚€(gè)總體之間進(jìn)行參數(shù)的比較提供了理論依據(jù)。

同理，可以得出兩個(gè)樣本比率差的抽樣分布：(8-20)【例

8-6】為了比較甲乙兩座城市退休職工的收入情況，獨(dú)立地從兩座城市抽取樣本容量為n1

160,

125

的樣本。假設(shè)兩座城市的退休職工的收入服從正態(tài)分布，且甲城市的退休職工的月平均收入為2600

元，標(biāo)準(zhǔn)差為

800

元；乙城市退休職工的月平均收入為

2300元，標(biāo)準(zhǔn)差為

500

元。（1）描述兩個(gè)樣本平均數(shù)之差的抽樣分布；（2）兩個(gè)樣本平均數(shù)之差在

200

元到

450

元之間的概率。解：已知

2600,

800,

2300,

500

，

160,

125（1）設(shè)

分別表示兩個(gè)樣本平均數(shù)，則由（8-19）式有：即即

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

中文字字幕乱码视频,亚洲av无码乱码在线观看富二代,亚洲乱妇亚洲乱妇xinglu,亚洲日韩乱码中文无码蜜桃臀,亚洲精品无码久久久久久久

《統(tǒng)計(jì)學(xué)》課件-第8章抽樣分布

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

中文字字幕乱码视频,亚洲av无码乱码在线观看富二代,亚洲乱妇亚洲乱妇xinglu,亚洲日韩乱码中文无码蜜桃臀,亚洲精品无码久久久久久久

《統(tǒng)計(jì)學(xué)》課件-第8章 抽樣分布

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

《統(tǒng)計(jì)學(xué)》課件-第8章抽樣分布