四、單變量的描述統(tǒng)計(jì)離散趨勢(shì)分析和集中趨勢(shì)分析課件_第1頁
四、單變量的描述統(tǒng)計(jì)離散趨勢(shì)分析和集中趨勢(shì)分析課件_第2頁
四、單變量的描述統(tǒng)計(jì)離散趨勢(shì)分析和集中趨勢(shì)分析課件_第3頁
四、單變量的描述統(tǒng)計(jì)離散趨勢(shì)分析和集中趨勢(shì)分析課件_第4頁
四、單變量的描述統(tǒng)計(jì)離散趨勢(shì)分析和集中趨勢(shì)分析課件_第5頁
已閱讀5頁,還剩62頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第五講:單變量描述統(tǒng)計(jì)集中趨勢(shì)測(cè)量

&離散趨勢(shì)測(cè)量1知識(shí)點(diǎn):

兩個(gè)維度——七個(gè)統(tǒng)計(jì)量數(shù)2學(xué)習(xí)要求1、集中趨勢(shì)各測(cè)量法的計(jì)算方法;2、集中趨勢(shì)各測(cè)量法的特點(diǎn)和應(yīng)用;3、離散程度各測(cè)量法的計(jì)算方法;4、離散程度各測(cè)量法的特點(diǎn)與應(yīng)用;

3集中趨勢(shì)測(cè)量/分析集中趨勢(shì)測(cè)量:用某一個(gè)典型的變量值或特征值來代表全體變量的問題,這個(gè)典型的變量值或特征值就稱作集中值或集中趨勢(shì)?!锉娭担∕ode)——定類層次★中位值(Median)——定序?qū)哟巍锞担∕ean)——定距層次5一、眾數(shù)(mode)1、出現(xiàn)頻次最多的變量值;2、眾數(shù)的不唯一性;3、主要應(yīng)用于定類變量,當(dāng)然也可以應(yīng)用于定序和定距變量6

眾數(shù)的特點(diǎn):不唯一性原始數(shù)據(jù):4、5、7、8、19(無眾值)原始數(shù)據(jù):4、5、7、5、5、16(一個(gè)眾值)原始數(shù)據(jù):4、4、5、7、7、9(兩個(gè)眾值)7例2分組數(shù)據(jù)收入(元)fCf↑Cf↓500-6991010550700-8996575540900-10991262114751100-12991583693391300-14991415101811500-16994055040總數(shù)5509從分布來看,眾數(shù)是具有明顯集中趨勢(shì)點(diǎn)的數(shù)值,一組數(shù)據(jù)分布的最高峰點(diǎn)所對(duì)應(yīng)的數(shù)值及為眾數(shù)。10二、中位值(Median)1、把一組數(shù)據(jù)按順序排列,處于中間位置的那個(gè)數(shù)值就是中位值。2、主要應(yīng)用于定序變量,也可用于定距變量,但不可用于定類變量。50%50%Md11(1)、個(gè)案數(shù)為奇數(shù)【例1】:甲地的5戶人家的人數(shù)為:2,4,3,6,8,求中位值。

解:Md的位置===3排序2,3,4,6,8中位值Md=413(2)個(gè)案數(shù)為偶數(shù)【例2】:乙地的6戶人家的人數(shù)為:2,4,3,6,8,5求中位值。解:Md的位置===3.5排序2,3,4,5,6,8Md==4.514(3)頻數(shù)分布表【例3】根據(jù)下表求中位值。解:Md位置==

=250.5中位值Md=乙15L:中位數(shù)組的下限f:中位數(shù)組的頻數(shù)w:中位數(shù)組的組距(U-L)cf:低于中位數(shù)組下限的累加次數(shù)n:全部個(gè)案數(shù)Md位置=n/2(上下各50%的位置)17例:分組數(shù)據(jù):首先將各組的次數(shù)累加起來求中位數(shù)的位置:Md位置=n/2=212/2=106第106個(gè)位置在25-35之間18分組變量看作是一組連續(xù)的數(shù)值259435124?10610301219三、均值1、均值的定義:總體各單位取值之和除以總體單位數(shù)目。2、僅適用于定距變量,不適用于定類和定序;211、未分組數(shù)據(jù)

(1)簡單原始資料求均值22均值的計(jì)算——未分組數(shù)據(jù)【例5】某班10名學(xué)生年齡分別為20、21、19、19、20、20、21、22、18、20歲,求他們的平均年齡。解:根據(jù)平均數(shù)的計(jì)算公式有:23未分組數(shù)據(jù)加權(quán)平均數(shù)【例6】調(diào)查某年120名學(xué)生的年齡,結(jié)果如下表,求平均年齡。解:根據(jù)公式得=18.9歲252、分組資料求均值:根據(jù)組中值求均值先求出組中值組中值=(上限+下限)/2計(jì)算組中值的和計(jì)算分組數(shù)據(jù)的均值組中值26眾值、中位數(shù)和均值的比較1注:▲表示該數(shù)據(jù)類型最適合用的測(cè)度值27中位數(shù)和平均數(shù)的比較計(jì)算平均數(shù)時(shí)用到數(shù)據(jù)中所有的數(shù)值,而求中位數(shù)時(shí)只用到數(shù)值的相對(duì)位置,平均數(shù)比中位數(shù)利用了更多的有關(guān)數(shù)據(jù)的信息平均數(shù)容易受到極端值的影響,而中位數(shù)則不會(huì)受這種影響。當(dāng)樣本中數(shù)據(jù)值的分布是高度傾斜的,中位數(shù)一般比平均數(shù)更適合一些如100,200,400,500,600,均值為360,中位數(shù)為400100,200,400,500,1000,均值為440,中位數(shù)為40029對(duì)隨機(jī)抽樣調(diào)查來說,平均數(shù)比中位數(shù)更穩(wěn)定,它隨樣本的變化比較小平均數(shù)比中位數(shù)更容易進(jìn)行算術(shù)運(yùn)算。30眾數(shù)、中位數(shù)、均值比較2但兩種情況不宜用均值:(1)分組數(shù)據(jù)的極端組沒有組限。(2)個(gè)別數(shù)值非常特殊。3132練習(xí):

求下表(單項(xiàng)數(shù)列)所示數(shù)據(jù)的算術(shù)平均數(shù)。人口數(shù)(X)戶數(shù)(f)頻率(P)23456785816106410.100.160.320.200.120.080.02合計(jì)501.0033求下表所示數(shù)據(jù)的的算術(shù)平均數(shù)間距頻數(shù)(f)組中值(X)148―152152―156156―160160―164164―168168―172172―176176―180180―184184―188188―192192―19612510192517125301150154158162166170174178182186190194合計(jì)100——34求54,65,78,66,43這些數(shù)字的中位數(shù)。求54,65,78,66,43,38這些數(shù)字的中位數(shù)。35某年級(jí)學(xué)生身高如下,求中位數(shù)36人口數(shù)(X)戶數(shù)(f)頻率(P)23456785816106410.100.160.320.200.120.080.02合計(jì)501.00求下表中的眾數(shù)37求下表中的眾數(shù)38

城鎮(zhèn)自殺率的分組次數(shù)分布自殺率次數(shù)真實(shí)組限組中值向上累積次數(shù)3-5126-8359-118112-145215-173018-20721-23924-263合計(jì)22939第五講單變量的描述統(tǒng)計(jì)(2)

離散趨勢(shì)測(cè)量40離散趨勢(shì)測(cè)量(Measuresofdispersion)反映的是各變量值偏離其中心值的程度,是個(gè)案與個(gè)案之間的差異情況。這種測(cè)量法,與前面所講的集中趨勢(shì)測(cè)量法具有相互補(bǔ)充的作用。集中趨勢(shì)求出的是一個(gè)最能代表變量所有資料的值,但是集中趨勢(shì)值代表性的高低還要看各個(gè)個(gè)案之間的差異情況。41舉例:某校3個(gè)系各選5名同學(xué)參加智力競(jìng)賽,他們的成績?nèi)缦拢褐形南担?8,79,80,81,82

(=80)數(shù)學(xué)系:65,72,80,88,95(=80)英語系:35,78,89,98,100(=80)如果僅從集中趨勢(shì)測(cè)量(平均分?jǐn)?shù))來看,這三個(gè)系的成績都一致,不存在什么差別。但從直觀上可看出,三個(gè)系選手之間的差距程度(離散程度)很不一樣……???42

異眾比率/離異比率(Variationratio)——定類層次四分位差(Interquartilerange)——定序?qū)哟畏讲睿╒ariance)標(biāo)準(zhǔn)差(Standarddeviation)——定距層次43一、異眾比率(Variationratio)1、異眾比率(簡寫Vr):指非眾值在總數(shù)中所占的比率。表示以眾數(shù)來預(yù)測(cè)一組數(shù)據(jù)時(shí),所犯錯(cuò)誤的大小.即Vr值越大,則眾值的代表性就越小.Vr值越小,則眾值的代表性就越大.2、計(jì)算公式::眾值的頻次44異眾比率(先找出眾值.找到眾值的頻次分布)【例1】:根據(jù)表1中的數(shù)據(jù),計(jì)算眾值和異眾比率。解:眾值Mo=“核心家庭”異眾比率45例2:眾數(shù)和異眾比率的比較表2甲乙兩校學(xué)生的父親職業(yè)甲乙兩校學(xué)生的父親職業(yè)的眾數(shù)都為“農(nóng)民”甲校乙校眾數(shù)的代表性中甲校小于乙校,甲校中有47.6%非農(nóng)民,乙校只有38.5%.46異眾比率&眾值異眾比率是眾值的補(bǔ)充。取值范圍是[0,1]。不屬于眾數(shù)的個(gè)案所占的比例愈大,就表示眾數(shù)的代表性愈小,以之作估計(jì)或預(yù)測(cè)時(shí)所犯的錯(cuò)誤也就愈大。當(dāng)Vr=0,說明變量只有一個(gè)值,那就是眾值;當(dāng)Vr0,說明資料比較集中,眾值的代表性比較高;當(dāng)Vr1,說明資料比較分散,眾值的代表性低。47二、四分位差(Interquartilerange)

將數(shù)據(jù)由低至高排列,然后分為四等分(即每個(gè)等分包括25%的數(shù)據(jù)),第一個(gè)四分位置的值(Q1)與第三個(gè)四分位置的值(Q3)的差異,就是四分位差(簡寫為Q)。Q1Q2Q3Q425%25%25%25%481.離散程度的測(cè)度值之一2.也稱為內(nèi)距或四分間距3.上四分位數(shù)與下四分位數(shù)之差4.反映了中間50%數(shù)據(jù)的離散程度5.不受極端值的影響6.用于衡量中位數(shù)的代表性49基本公式求位置,找出4分位對(duì)應(yīng)的數(shù)值Q1=

Q3=四分位差Q=Q3-Q1。501、根據(jù)原始未分組資料求四分位差解:

Q1的位置==75.25Q3的位置==225.75那么Q1=不滿意;Q3=一般Q=Q3-Q1=一般-不滿意結(jié)論,有一半的家庭對(duì)住房評(píng)價(jià)在不滿意到一般之間。表甲城市家庭對(duì)住房狀況評(píng)價(jià)的頻數(shù)分布回答類別甲城市戶數(shù)(戶)累計(jì)頻數(shù)

非常不滿意

不滿意

一般

滿意

非常滿意2410894443024132226270300合計(jì)300—【例3】求下表的四分位差51例4:調(diào)查甲乙兩村的家庭人數(shù)其中甲村有11戶人家,每戶人數(shù)為2,2,3,4,6,9,10,10,11,13,15乙村有8戶人家,每戶人口數(shù)為2,3,4,7,9,10,12,12則甲村中:Q1位置=(n+1)/4=(11+1)/4=3,Q1=3Q3位置=3(n+1)/4=9,Q3=11

Q=Q3-Q1=11-3=8則乙村中:Q1位置=(n+1)/4=2.25,Q1=3+0.25(4-3)=3.25Q3位置=3(n+1)/4=6.75,Q3=10+0.75(12-10)=11.5

Q=Q3-Q1=11.5-3.25=8.25甲的離散程度低于乙村,以中位置估計(jì)甲乙兩村的人口數(shù)時(shí),在甲村犯的錯(cuò)誤小于乙村522、根據(jù)分組資料求四分位差有四步:計(jì)算向上累加次數(shù)求出Q1和Q3的位置

Q1=Q3=參考累加次數(shù)分布,決定Q1和Q3屬于哪一組從所屬組中,計(jì)算Q1位置和Q3位置的數(shù)值。53公式如下:L1=Q1屬組之真實(shí)下限L3=Q3屬組之真實(shí)下限f1=Q1屬組之次數(shù)f3=Q3屬組之次數(shù)cf1=低于Q1屬組之累計(jì)次數(shù)cf3=低于Q3屬組之累計(jì)次數(shù)w1=Q1屬組之組距w3=Q3屬組之組距n=全部個(gè)案數(shù)目54四分位差&中位數(shù)四分位差反映的是中位數(shù)的代表性差距越大,中位數(shù)的代表性越小,用中位數(shù)估計(jì)變量時(shí)所犯的錯(cuò)誤越大;反之,中位數(shù)的代表性越大,用中位數(shù)作估計(jì)犯的錯(cuò)誤越小。55三、方差和標(biāo)準(zhǔn)差1. 離散程度的測(cè)度值之一2. 最常用的測(cè)度值3. 反映了數(shù)據(jù)的分布4.反映了各變量值與均值的平均差異5.根據(jù)總體數(shù)據(jù)計(jì)算的,稱為總體方差或標(biāo)準(zhǔn)差;根據(jù)樣本數(shù)據(jù)計(jì)算的,稱為樣本方差或標(biāo)準(zhǔn)差4681012X=8.356三、方差與標(biāo)準(zhǔn)差所謂方差(Variance),觀察值與其均值之差的平方和除以全部觀察總數(shù)N。方差的平方根就是標(biāo)準(zhǔn)差(Standarddeviation),用或S57表示以均值作代表值時(shí)引起的偏差或錯(cuò)誤,也就是說用均值來估計(jì)或預(yù)測(cè)各個(gè)個(gè)案的數(shù)值,所犯的錯(cuò)誤()平均是σ標(biāo)準(zhǔn)差是用得最多,也是最重要的離散量數(shù)的統(tǒng)計(jì)量;方差是統(tǒng)計(jì)學(xué)上的一個(gè)重要概念,在以后的統(tǒng)計(jì)方法學(xué)習(xí)過程中會(huì)進(jìn)一步了解;只適用于定距層次的變量;58總體方差和標(biāo)準(zhǔn)差未分組數(shù)據(jù):未分組數(shù)據(jù):分組數(shù)據(jù):方差的計(jì)算公式標(biāo)準(zhǔn)差的計(jì)算公式59樣本方差和標(biāo)準(zhǔn)差

分組數(shù)據(jù):未分組數(shù)據(jù):分組數(shù)據(jù):方差的計(jì)算公式標(biāo)準(zhǔn)差的計(jì)算公式注意:樣本方差用自由度n-1去除!未分組數(shù)據(jù)60樣本方差的

自由度(degreeoffreedom)一組數(shù)據(jù)中可以自由取值的數(shù)據(jù)的個(gè)數(shù)當(dāng)樣本數(shù)據(jù)的個(gè)數(shù)為

n時(shí),若樣本均值x

確定后,只有n-1個(gè)數(shù)據(jù)可以自由取值,其中必有一個(gè)數(shù)據(jù)則不能自由取值例如,樣本有3個(gè)數(shù)值,即x1=2,x2=4,x3=9,則x=5。當(dāng)x

=5

確定后,x1,x2和x3有兩個(gè)數(shù)據(jù)可以自由取值,另一個(gè)則不能自由取值,比如x1=6,x2=7,那么x3則必然取2,而不能取其他值樣本方差用自由度去除,其原因可從多方面來解釋,從實(shí)際應(yīng)用角度看,在抽樣估計(jì)中,當(dāng)用樣本方差去估計(jì)總體方差σ2時(shí),

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論