lec01統(tǒng)計(jì)概述課件_第1頁(yè)
lec01統(tǒng)計(jì)概述課件_第2頁(yè)
lec01統(tǒng)計(jì)概述課件_第3頁(yè)
lec01統(tǒng)計(jì)概述課件_第4頁(yè)
lec01統(tǒng)計(jì)概述課件_第5頁(yè)
已閱讀5頁(yè),還剩44頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

應(yīng)用統(tǒng)計(jì)方法清華大學(xué)數(shù)學(xué)科學(xué)系

梁恒辦公室:數(shù)學(xué)系荷二辦公樓215#電

話:

Email:liangh@mail概率與統(tǒng)計(jì)分賭本問(wèn)題甲、乙兩個(gè)賭徒進(jìn)行一場(chǎng)9局5勝制的賭博每人有本金100元,勝者得到全部200元。

當(dāng)賭博在甲3:1領(lǐng)先時(shí),被迫停止時(shí),200元本金如何分配?Pascal的求解統(tǒng)計(jì):收集與分析數(shù)據(jù)的科學(xué)與藝術(shù)統(tǒng)計(jì)和隨機(jī)〔概率〕的概念已經(jīng)深入到生活中的方方面面降水概率,病人的存活率,彩票……對(duì)數(shù)據(jù)的理解Polya關(guān)于醫(yī)生的玩笑:一名醫(yī)生撫慰他的病人說(shuō):你患了一種非常嚴(yán)重的病,患這種病的人只有十分之一能活下來(lái)。但是你不用擔(dān)憂(yōu),你到我這里來(lái)是十分幸運(yùn)的,因?yàn)椤y(tǒng)計(jì)觀念統(tǒng)計(jì)學(xué)與概率論的宗旨都是把不確定現(xiàn)象量化差異在于:概率論是數(shù)學(xué),其根本特征是從法那么到結(jié)果(fromrulestoresults),而統(tǒng)計(jì)學(xué)是一門(mén)科學(xué),其根本特征是從結(jié)果到法那么(fromresultstorules)。統(tǒng)計(jì)學(xué)研究的主要內(nèi)容是搜集和分析數(shù)據(jù)。通過(guò)對(duì)數(shù)據(jù)的分析,從中提煉有用的信息,到達(dá)對(duì)未知事務(wù)的推斷、對(duì)未來(lái)可能發(fā)生事件的預(yù)測(cè)等等。統(tǒng)計(jì)學(xué)能夠發(fā)揮作用的領(lǐng)域不勝枚舉

●科學(xué):實(shí)證的科學(xué)研究離不開(kāi)搜集和分析數(shù)據(jù);●技術(shù):技術(shù)的創(chuàng)新和改進(jìn)離不開(kāi)作試驗(yàn)和對(duì)試驗(yàn)數(shù)據(jù)的分析;●工農(nóng)業(yè)生產(chǎn):改進(jìn)質(zhì)量或提高產(chǎn)量離不開(kāi)作試驗(yàn)和對(duì)試驗(yàn)數(shù)據(jù)的分析;●經(jīng)濟(jì)金融:對(duì)經(jīng)濟(jì)金融形勢(shì)的分析與展望需要建立模型,離不開(kāi)對(duì)大量數(shù)據(jù)的分析;投資、保險(xiǎn)、股票等;●政府或公司的管理和決策——進(jìn)行量化的管理和決策;●天氣、水文、地震等的預(yù)報(bào):建立模型,對(duì)大量數(shù)據(jù)進(jìn)行分析;●醫(yī)藥療效評(píng)估:FDA〔食品藥物管理局〕對(duì)新的藥物或治療方法的效果評(píng)估有非常嚴(yán)格的統(tǒng)計(jì)標(biāo)準(zhǔn);●國(guó)家或行業(yè)標(biāo)準(zhǔn)的制定:其中有大量的統(tǒng)計(jì)方法;●人口或其他社會(huì)現(xiàn)象〔大選、熱點(diǎn)問(wèn)題〕的調(diào)查:抽樣調(diào)查;●社會(huì)衛(wèi)生醫(yī)療和收入保障體系的制定;●法律法規(guī)的制定;統(tǒng)計(jì)應(yīng)用問(wèn)題例

11947年印度剛成立,首都發(fā)生了暴亂,一個(gè)稱(chēng)為紅色堡壘的地方聚集了大量難民。政府有責(zé)任給難民提供食品,并將這個(gè)任務(wù)交給了承包商。由于沒(méi)有任何關(guān)于難民人數(shù)的信息,政府被迫接受承包商所提出的食品和日用品的賬單,這筆開(kāi)支數(shù)量龐大。政府無(wú)從檢驗(yàn)承包商是否成心夸大商品的需求量,從中牟取暴利。政府為了防止受到承包商的蒙蔽,必須知道紅色堡壘中避難者比較準(zhǔn)確的人數(shù)。困難在于因?yàn)樽诮痰仍颍馊藷o(wú)法進(jìn)入紅色堡壘;同時(shí)也沒(méi)有任何避難人數(shù)的先驗(yàn)信息統(tǒng)計(jì)學(xué)家?guī)椭瓿闪诉@項(xiàng)任務(wù)。應(yīng)用問(wèn)題例

2

莎士比亞的新詩(shī)應(yīng)用問(wèn)題例

2

莎士比亞的新詩(shī)應(yīng)用問(wèn)題例

2

莎士比亞的新詩(shī)應(yīng)用問(wèn)題例

2

莎士比亞的新詩(shī)不同單詞使用的頻數(shù)莎士比亞作品中單詞使用的次數(shù)本約翰遜(哀歌)馬洛(四首詩(shī))多恩(狂喜)新發(fā)現(xiàn)的詩(shī)基于莎士比亞作品的期望值08101796.97128574.21218653.333-4616585.365-9922121110.2410-19920171013.9620-291213142110.7730-391296168.8740-591314121813.7760-79109389.9980-9913131057.48不同單詞數(shù)243272252258258單詞總數(shù)411495487429…應(yīng)用問(wèn)題例

2

莎士比亞的新詩(shī)應(yīng)用問(wèn)題例

2

莎士比亞的新詩(shī)統(tǒng)計(jì)應(yīng)用問(wèn)題例

3

小兒麻痹癥疫苗的有效性問(wèn)題:小兒麻痹疫苗問(wèn)世后,1954年進(jìn)行了一項(xiàng)研究以評(píng)價(jià)它在預(yù)防幼兒麻痹及死亡方面的有效性。兩組幼兒參加了這項(xiàng)研究。一組按規(guī)定接受三次疫苗,另一組那么不接受疫苗。后一組作為證實(shí)疫苗有效性的對(duì)照是必須的。比較的最重要的判據(jù)是兩組中發(fā)生麻痹以及死亡的幼兒數(shù)。由于小兒麻痹癥發(fā)病率極低,兩組都需要大量的幼兒以保證有足夠的病例發(fā)生,從而為比較提供可靠的根底。Meier的文章稱(chēng)該項(xiàng)研究是“有史以來(lái)最大規(guī)模的公共衛(wèi)生試驗(yàn)〞。兩組人數(shù)都略多于200000名小孩。和上一個(gè)例子一樣,決定每個(gè)小孩是否接受疫苗使用了隨機(jī)化的方法。這里使用的是分層隨機(jī)化。全美國(guó)的許多學(xué)校參加了這項(xiàng)方案,在每個(gè)參加學(xué)校分別進(jìn)行隨機(jī)化抽樣,使得每個(gè)學(xué)校中接受疫苗〔試驗(yàn)組〕和沒(méi)有接受疫苗〔對(duì)照組〕的小孩數(shù)目大致相等。從而相對(duì)高發(fā)病率地區(qū)和相對(duì)低發(fā)病率地區(qū)的學(xué)校都有大致相等數(shù)目的隨機(jī)選擇的試驗(yàn)組和對(duì)照組小孩。統(tǒng)計(jì)應(yīng)用問(wèn)題例

3

小兒麻痹癥疫苗的有效性每一位不接種的小孩接受三次生理鹽水〔醫(yī)學(xué)上稱(chēng)為撫慰劑〕的注射。該項(xiàng)試驗(yàn)中撫慰劑的目的是為了使幼兒、家長(zhǎng)、注射者,以及當(dāng)某一幼兒患病時(shí)為其治療的大夫都不知道這個(gè)小孩接受的是疫苗還是生理鹽水。兩組幼兒的發(fā)病率是否有本質(zhì)的差異?差異大小的點(diǎn)估計(jì)和區(qū)間估計(jì)是什么?答復(fù)這些問(wèn)題是統(tǒng)計(jì)推斷的重要內(nèi)容。隨機(jī)化方法〔思想〕的應(yīng)用對(duì)敏感問(wèn)題的隨機(jī)化處理美國(guó)某大學(xué)想了解學(xué)生中吸食毒品的情況。如果直接問(wèn)“你吸食毒品嗎?〞很難得到真是的答復(fù)。利用隨機(jī)化的策略,列出如下兩個(gè)問(wèn)題S:你吸食毒品嗎?T:你的號(hào)碼的尾數(shù)是偶數(shù)嗎?要求被提問(wèn)者拋擲一個(gè)硬幣,出現(xiàn)正面答復(fù)S,出現(xiàn)反面答復(fù)T。假設(shè)回收到500份問(wèn)卷,其中198答復(fù)“是〞??傻梦扯酒返膶W(xué)生比例的估計(jì)值73/250。統(tǒng)計(jì)應(yīng)用問(wèn)題例4

吸煙與健康〔吸煙者的死亡率〕問(wèn)題:1951年到1959年期間,曾經(jīng)有過(guò)7次大規(guī)模的對(duì)吸煙男性死亡率的比較研究。1次在英國(guó),1次在加拿大,5次在美國(guó)。除了一些微調(diào),研究方案根本是一致的。首先,給選定組別的人送一份調(diào)查表,詢(xún)問(wèn)最近及過(guò)去的吸煙習(xí)慣以及其他一些情況,如年齡等。啟動(dòng)一套程序以保證一旦答復(fù)問(wèn)卷的人死了,這一消息會(huì)馬上被報(bào)告、記錄,并得到死亡原因診斷〔通過(guò)死亡證明書(shū)或尸體解剖報(bào)告〕。研究涉及的人數(shù)最少有34000,最多到達(dá)448000。這些研究包含眾多的死亡率和死亡原因可以進(jìn)行比較的樣本〔1〕不同類(lèi)型的吸煙者——不吸煙者、吸香煙者、吸雪茄者、吸煙斗者、混吸著;〔2〕給定類(lèi)型的不同吸煙量;〔3〕給定吸煙類(lèi)型和吸煙量,不同的開(kāi)始吸煙的年齡;〔4〕通過(guò)戒煙的時(shí)間和戒煙前的吸煙量,對(duì)戒煙者分類(lèi)。統(tǒng)計(jì)應(yīng)用問(wèn)題例4

吸煙與健康〔吸煙者的死亡率〕基于觀察的研究當(dāng)人們希望通過(guò)這些分組之間的比較得出結(jié)論時(shí),他們發(fā)現(xiàn),吸煙研究與前面口感舒適度與小兒麻痹等研究之間有一個(gè)主要的邏輯上的差異。后兩種研究,研究人員能夠決定哪一組對(duì)象接受怎樣的試驗(yàn)??梢酝ㄟ^(guò)隨機(jī)化處理保證各組間除了試驗(yàn)方法以外沒(méi)有系統(tǒng)差異??墒窃谖鼰熝芯恐校芯咳藛T無(wú)法指定對(duì)象分組。分組依靠的是對(duì)象〔即吸煙者〕的吸煙習(xí)慣。這樣,除了吸煙以外,不同類(lèi)型的吸煙者之間可能存在多方面的系統(tǒng)差異對(duì)死亡率產(chǎn)生影響。例如,吸雪茄和煙斗的人的年齡通常會(huì)比不吸煙者大得多。年輕人更傾向于吸香煙。眾所周知,中年以后的死亡率隨年齡逐步增高。所以,簡(jiǎn)單的死亡率比較會(huì)有利于吸香煙者,而嚴(yán)重的不利于吸雪茄和煙斗的人。進(jìn)而,不同類(lèi)型的吸煙者其飲食習(xí)慣、體育鍛煉以及其他眾多可因素都可能影響死亡率。為了防止這些偏差,研究人員嘗試將外部條件相似的人群按吸煙習(xí)慣分組,并調(diào)整死亡率。但是,這樣做大大提高了統(tǒng)計(jì)分析的復(fù)雜度,同時(shí)也缺乏充分的說(shuō)服力。因?yàn)楹茈y證明考慮到了所有重要的外界因素使得樣本均勻,以及是否做了正確的度量和調(diào)整。類(lèi)似吸煙的這種研究通常稱(chēng)為是基于觀察的。它的意思是提醒人們,研究人員缺乏為了進(jìn)行比較而創(chuàng)造分組的能力,而是不得不受數(shù)據(jù)的限制。統(tǒng)計(jì)學(xué)有自己獨(dú)特的思維方式與方法統(tǒng)計(jì)學(xué)本質(zhì)上是一門(mén)應(yīng)用性、方法性的學(xué)科統(tǒng)計(jì)的目的是答復(fù)實(shí)際領(lǐng)域中提出的各種問(wèn)題,對(duì)科學(xué)結(jié)論提供定量分析〔而不是單純定性分析〕的依據(jù);為發(fā)現(xiàn)新的理論模型提供線索;預(yù)測(cè)未來(lái),為決策提供支持等。因此統(tǒng)計(jì)學(xué)以問(wèn)題為導(dǎo)向,而不以理論為導(dǎo)向。統(tǒng)計(jì)的對(duì)象—數(shù)據(jù)是局部的、具有不確定性因此所有的統(tǒng)計(jì)結(jié)論都可能是錯(cuò)的!你不可能得到絕對(duì)正確的結(jié)論,只能設(shè)法盡量降低因犯錯(cuò)誤所造成的損失。沒(méi)有一種統(tǒng)計(jì)方法是“最好的〞對(duì)同一組數(shù)據(jù)有可能用不同的方法去分析,甚至得到相互矛盾的結(jié)論!任何一組數(shù)據(jù)都有一定的背景。用什么方法分析可以得到“好的〞或“更好的〞結(jié)果?這需要大量統(tǒng)計(jì)分析的實(shí)踐經(jīng)驗(yàn)。在某種程度上可以說(shuō):統(tǒng)計(jì)既是科學(xué),又是藝術(shù)。對(duì)數(shù)據(jù)的考察〔第一手?jǐn)?shù)據(jù)〕一個(gè)統(tǒng)計(jì)學(xué)者被邀請(qǐng)分析某落后地區(qū)一些人類(lèi)測(cè)量學(xué)方面的數(shù)據(jù)。測(cè)定的10個(gè)特征中有一個(gè)是體重。原始的測(cè)量記錄為:7.6,6.5,8.1,7.4,…等。這里的重量單位是英石,1英石等于14磅。7.6*14=106.4磅…統(tǒng)計(jì)學(xué)者開(kāi)始拿到的是經(jīng)過(guò)換算得到的以磅為單位的體重記錄。但是他認(rèn)為應(yīng)該查看原始記錄。在查看整個(gè)記錄時(shí),他發(fā)現(xiàn)了一個(gè)奇異點(diǎn),所有的重量測(cè)量值里小數(shù)點(diǎn)后面從來(lái)沒(méi)有出現(xiàn)過(guò)7,8,9三個(gè)數(shù)字!進(jìn)一步調(diào)查發(fā)現(xiàn),這一地區(qū)在測(cè)量重量時(shí)將一英石分為7個(gè)單位,并非使用的10進(jìn)制。正確的體重轉(zhuǎn)換應(yīng)該是7*14+(6/7)*14=110磅…

1973年,共有8442男生,4321女生申請(qǐng)加州大學(xué)Berkeley分校的研究生院。男生錄取比例大約44%,女生錄取比例大約35%

Science7February1975:Vol.187no.4175pp.398-404SexBiasinGraduateAdmissions:DatafromBerkeleyP.J.Bickel,E.A.Hammel,J.W.O'Connell統(tǒng)計(jì)應(yīng)用問(wèn)題例

5

解讀數(shù)據(jù)--研究生入學(xué)的性別歧視統(tǒng)計(jì)應(yīng)用問(wèn)題例

5

解讀數(shù)據(jù)--研究生入學(xué)的性別歧視加州大學(xué)Berkeley分校6個(gè)最大專(zhuān)業(yè)研究生入學(xué)錄取比例,男生為44.5%,女生為30.3%。是否存在對(duì)女性考生的歧視?研究生入學(xué)的性別歧視觀察數(shù)據(jù)發(fā)現(xiàn)男生偏向報(bào)考容易的專(zhuān)業(yè),而女生那么相反1.A、B兩個(gè)專(zhuān)業(yè)容易考取。51.5%的男生申請(qǐng),女生申請(qǐng)率只有7.25%;2.其他四個(gè)專(zhuān)業(yè)較難考取,90%以上的女生申請(qǐng)這四個(gè)專(zhuān)業(yè)。簡(jiǎn)單的看入學(xué)率是不合理的,簡(jiǎn)單的看各系的錄取率同樣不全面。更合理的考察應(yīng)該是加權(quán)入學(xué)率,即綜合考慮到各系的規(guī)模和錄取率。男生的加權(quán)平均入學(xué)率=0.39;女生的加權(quán)平均入學(xué)率=0.43哪一組顯得更隨機(jī)一些擲硬幣的隨機(jī)性鑒別統(tǒng)計(jì)量的分布與經(jīng)驗(yàn)分布函數(shù)nn=2000;%samplesize作業(yè)與考試作業(yè)來(lái)源:課堂練習(xí)要求:課程報(bào)告總評(píng)分考試與考勤 60%作業(yè)與報(bào)告 40%課程安排9.19統(tǒng)計(jì)概述,條件概率9.26常用分布和數(shù)字特征、10.10參數(shù)點(diǎn)估計(jì)10.17貝葉斯估計(jì)和區(qū)間估計(jì)10.24假設(shè)檢驗(yàn)10.31似然比檢驗(yàn)11.07回歸分析11.14因子分析和典型相關(guān)分析11.21主成分分析11.28因子分析和聚類(lèi)分析12.05神經(jīng)網(wǎng)絡(luò),深度學(xué)習(xí)12.12MonteCarlo,重要度抽樣考試12.19條件概率的定義

條件概率舉例

某廠有甲、乙、丙三車(chē)間生產(chǎn)同一種產(chǎn)品,產(chǎn)量分別占總產(chǎn)量的60%,30%和10%。各車(chē)間的次品率分別是2%,5%,6%?!?〕在這個(gè)廠的該種產(chǎn)品中任取一件,是次品的概率?〔2〕假設(shè)發(fā)現(xiàn)一件產(chǎn)品為次品,該次品來(lái)自甲車(chē)間的概率?條件概率舉例考慮恰有兩個(gè)小孩的全部家庭,并且假定生男、生女是等可能的。假設(shè)隨機(jī)地選一個(gè)家庭,發(fā)現(xiàn)該家庭有一個(gè)女孩,問(wèn)這一家另一個(gè)小孩是男孩的概率是多少?樣本空間:{〔男,男〕,〔男,女〕,〔女,男〕,〔女,女〕}設(shè)事件A為“其中一個(gè)是女孩〞,事件B為“其中一個(gè)是男孩〞某家庭有一個(gè)女孩條件下,另一個(gè)小孩是男孩的概率為條件概率舉例考慮恰有兩個(gè)小孩的全部家庭,并且假定生男、生女是等可能的。如果從這些家庭的孩子中隨機(jī)地選擇一個(gè)孩子,并發(fā)現(xiàn)她為女孩,問(wèn)在她家里另一個(gè)孩子是男孩的概率是多少?樣本空間:樣本空間:{男g(shù),男b,女g,女b}設(shè)事件A為“這個(gè)孩子是女孩〞,事件B為“這個(gè)孩子有一個(gè)兄弟〞隨機(jī)選擇一個(gè)孩子,如果是女孩,那么這個(gè)女孩有一個(gè)兄弟的概率這是一個(gè)非常值得體會(huì)的例子,它說(shuō)明正確理解概率統(tǒng)計(jì)學(xué)中“我們的抽樣對(duì)象到底是什么〞的重要性。著名概率學(xué)者鐘開(kāi)萊先生?初等概率論?中的一個(gè)例子條件概率的三個(gè)重要計(jì)算公式乘法公式例題全概率公式圖解

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論