




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
課程介紹
多元統(tǒng)計分析(簡稱多元分析)是統(tǒng)計學(xué)的一個重要分支.它是應(yīng)用數(shù)理統(tǒng)計學(xué)來研究多變量(多指標(biāo))問題的理論和方法;它是一元統(tǒng)計學(xué)的推廣和發(fā)展.多元統(tǒng)計分析是一門具有很強應(yīng)用性的課程;它在自然科學(xué)和社會科學(xué)等各個領(lǐng)域中得到廣泛的應(yīng)用;它包括了很多非常有用的數(shù)據(jù)處理方法.1當(dāng)前1頁,總共105頁。第一章緒論第二章多元正態(tài)分布及參數(shù)的估計第三章多元正態(tài)總體參數(shù)的假設(shè)檢驗第四章回歸分析--第五章判別分析第六章聚類分析第七章主成分分析第八章因子分析第九章對應(yīng)分析方法第十章典型相關(guān)分析第十一章偏最小二乘回歸分析本課程的內(nèi)容多變量分析(數(shù)據(jù)結(jié)構(gòu)簡化)分類方法兩組變量的相關(guān)分析基礎(chǔ)理論兩組變量的相依分析2當(dāng)前2頁,總共105頁。
第0章緒論
§0.1引言
在實際問題中,很多隨機現(xiàn)象涉及到的變量不止一個,而經(jīng)常是多個變量,而且這些變量間又存在一定的聯(lián)系。我們常常需要處理多個變量的觀測數(shù)據(jù)。例如考察學(xué)生的學(xué)習(xí)情況時,就需了解學(xué)生在幾個主要科目的考試成績。
下表給出從中學(xué)某年級隨機抽取的12名學(xué)生中5門主要課程期末考試成績。3當(dāng)前3頁,總共105頁。第0章緒論
§0.1引言序號政治語文外語數(shù)學(xué)物理
199949310010029988969997310098819610049388889996510091729678690788275977757388978989384836888987736076841095829062391176724367781285755034374當(dāng)前4頁,總共105頁。第0章緒論
§0.1引言--多元分析的研究對象和內(nèi)容
上表提供的數(shù)據(jù),如果用一元統(tǒng)計方法,勢必要把多門課程分開分析,每次分析處理一門課的成績。這樣處理,由于忽視了課程之間可能存在的相關(guān)性,因此,一般說來,丟失信息太多。分析的結(jié)果不能客觀全面地反映某年級學(xué)生的學(xué)習(xí)情況。本課程要討論的多元分析方法,它同時對多門課程成績進(jìn)行分析。這樣的分析對這些課程之間的相互關(guān)系、相互依賴性等都能提供有用的信息。5當(dāng)前5頁,總共105頁。第0章緒論
§0.1引言--多元分析的研究對象和內(nèi)容
由于大量實際問題都涉及到多個變量,這些變量又是隨機變化,如學(xué)生的學(xué)習(xí)成績隨著被抽取學(xué)生的不同成績也有變化(我們往往需要依據(jù)它們來推斷全年級的學(xué)習(xí)情況)。所以要討論多維隨機向量的統(tǒng)計規(guī)律性。
多元統(tǒng)計分析就是討論多維隨機向量的理論和統(tǒng)計方法的總稱。
多元統(tǒng)計分析研究
的對象就是多維隨機向量.6當(dāng)前6頁,總共105頁。第0章緒論
§0.1引言--多元分析的研究對象和內(nèi)容就以學(xué)生成績?yōu)槔?,我們可以研究很多問題:用各科成績的總和作為綜合指標(biāo)來比較學(xué)生學(xué)習(xí)成績的好壞(如成績好的與成績差的,又如文科成績好的與理科成績好的);研究各科成績之間的關(guān)系(如物理與數(shù)學(xué)成績的關(guān)系,文科成績與理科成績的關(guān)系);……等等。所有這些都屬于多元統(tǒng)計分析的研究內(nèi)容。
7當(dāng)前7頁,總共105頁。第0章緒論
§0.1引言--多元分析的研究對象和內(nèi)容
綜上所述,多元分析以p個變量的n次觀測數(shù)據(jù)組成的數(shù)據(jù)矩陣
x11
x12…x1p
x21
x22…x2p….….….….xn1
xn2…xnpX=為依據(jù)。根據(jù)實際問題的需要,給出種種方法。英國著名統(tǒng)計學(xué)家M.肯德爾(M.G.Kendall)在《多元分析》一書中把多元分析所研究的內(nèi)容和方法概括為以下幾個方面:8當(dāng)前8頁,總共105頁。第0章緒論
§0.1引言--多元分析的研究對象和內(nèi)容
1.簡化數(shù)據(jù)結(jié)構(gòu)(降維問題)
例如通過變量變換等方法使相互依賴的變量變成互不相關(guān)的;或把高維空間的數(shù)據(jù)投影到低維空間,使問題得到簡化而損失的信息又不太多.主成分分析,因子分析,對應(yīng)分析等多元統(tǒng)計方法就是這樣的一類方法。2.分類與判別(歸類問題)
對所考查的對象(樣品點或變量)按相似程度進(jìn)行分類(或歸類)。聚類分析和判別分析等方法是解決這類問題的統(tǒng)計方法。9當(dāng)前9頁,總共105頁。第0章緒論
§0.1引言--多元分析的研究對象和內(nèi)容
3.變量間的相互聯(lián)系(1)相互依賴關(guān)系:分析一個或幾個變量的變化是否依賴于另一些變量的變化?如果是,建立變量間的定量關(guān)系式,并用于預(yù)測或控制---回歸分析.(2)變量間的相互關(guān)系:分析兩組變量間的相互關(guān)系---典型相關(guān)分析等.(3)兩組變量間的相互依賴關(guān)系---偏最小二乘回歸分析.10當(dāng)前10頁,總共105頁。
第0章緒論
§0.1引言--多元分析的研究對象和內(nèi)容
5.多元統(tǒng)計分析的理論基礎(chǔ)
包括多維隨機向量及多維正態(tài)隨機向量,及由此定義的各種多元統(tǒng)計量,推導(dǎo)它們的分布并研究其性質(zhì),研究它們的抽樣分布理論。這些不僅是統(tǒng)計估計和假設(shè)檢驗的基礎(chǔ),也是多元統(tǒng)計分析的理論基礎(chǔ)。
4.多元數(shù)據(jù)的統(tǒng)計推斷
參數(shù)估計和假設(shè)檢驗問題.特別是多元正態(tài)分布的均值向量和協(xié)差陣的估計和假設(shè)檢驗等問題。11當(dāng)前11頁,總共105頁。第0章
緒論
§0.2
多元統(tǒng)計分析的應(yīng)用領(lǐng)域--教育學(xué)
多元統(tǒng)計分析是解決實際問題有效的數(shù)據(jù)處理方法。隨著電子計算機使用的日益普及,多元統(tǒng)計方法已廣泛地應(yīng)用于自然科學(xué),社會科學(xué)的各個方面。以下我們列舉多元分析的一些應(yīng)用領(lǐng)域。從中可看到多元分析應(yīng)用的廣度和深度。1.教育學(xué)
n個考生報考北大概率統(tǒng)計系.每個考生參加7門課(語文、數(shù)學(xué)、政治、外語、物理、化學(xué)、生物)的考試,各門課成績記為Yj1,Yj2,…,Yj7。又每個考生在高中學(xué)習(xí)期間,p門主要課程成績?yōu)閄j1,Xj2,…,Xjp(j=1,2,…,n
)。經(jīng)對這大量的資料作統(tǒng)計分析,我們能夠得出:
12當(dāng)前12頁,總共105頁。第0章緒論
§0.2多元統(tǒng)計分析的應(yīng)用領(lǐng)域--教育學(xué)
(1)高考成績和高中學(xué)習(xí)期間成績的關(guān)系,即給出兩組變量線性組合間的關(guān)系,從而可由考生在高中期間的學(xué)習(xí)成績來預(yù)報高考的綜合成績或某科目的成績.
(2)給出考生成績次序排隊的最佳方案(最佳組合).總分可以體現(xiàn)一個考生成績好壞,但對報考概率統(tǒng)計系的學(xué)生,按總分從高到低的順序錄取并不是最合適的.應(yīng)按適當(dāng)?shù)臋?quán)數(shù)加權(quán)求和.如數(shù)學(xué)、物理、外語的權(quán)數(shù)相對高些.
13當(dāng)前13頁,總共105頁。第0章緒論
§0.2多元統(tǒng)計分析的應(yīng)用領(lǐng)域--教育學(xué)
(3)利用n個學(xué)生在高中學(xué)習(xí)期間p門主科的考試成績,可對學(xué)生進(jìn)行分類,如按文、理科成績分類,按總成績分類等。若準(zhǔn)備給優(yōu)秀學(xué)生發(fā)獎,那么一等獎、二等獎的比例應(yīng)該是多少?應(yīng)用多元統(tǒng)計分析的方法可以給出公平合理地確定。14當(dāng)前14頁,總共105頁。教育學(xué)--
主成分分析在學(xué)生學(xué)習(xí)成績排序中的應(yīng)用
我在擔(dān)任學(xué)生班主任期間,經(jīng)常會遇到學(xué)校下達(dá)的評選三好生,評選學(xué)習(xí)獎等任務(wù).另還有評選各種獎學(xué)金的工作;推薦研究生的工作都要求班主任提出意見.
如何利用全班學(xué)生在校幾年中主要課程的學(xué)習(xí)成績及各方面的表現(xiàn)更科學(xué),更合理地進(jìn)行評選?應(yīng)用多元統(tǒng)計分析中的主成分方法可以給出公平合理地確定.15當(dāng)前15頁,總共105頁。教育學(xué)--
主成分分析在學(xué)生學(xué)習(xí)成績排序中的應(yīng)用
比如全班有40名學(xué)生,本科生四年中主要課程包括基礎(chǔ)課,專業(yè)基礎(chǔ)課,本專業(yè)的限選課,設(shè)共有12門課.從教務(wù)可以得到全班40名學(xué)生這12門課的成績,組成的40行12列的數(shù)據(jù)陣X就是我們的原始數(shù)據(jù).
(1)全班學(xué)生綜合成績的排序
評選三好生,評選學(xué)習(xí)獎,推薦研究生的工作首先都要了解全班學(xué)生的學(xué)習(xí)情況.16當(dāng)前16頁,總共105頁。教育學(xué)--
主成分分析在學(xué)生學(xué)習(xí)成績排序中的應(yīng)用
12門課的成績可看成12個變量,這是多指標(biāo)(變量)系統(tǒng)的排序評估問題。這類問題在實際工作中經(jīng)常會迂到,比如對某類企業(yè)的經(jīng)濟效益進(jìn)行評估比較,影響企業(yè)經(jīng)濟效益的指標(biāo)有很多,如何更科學(xué)、更客觀地將一個多指標(biāo)問題綜合為單個綜合變量的形式.
主成分分析方法為樣品排序或多指標(biāo)系統(tǒng)評估提供可行的方法.
17當(dāng)前17頁,總共105頁。教育學(xué)--
主成分分析在學(xué)生學(xué)習(xí)成績排序中的應(yīng)用
這里把12門課的成績看成12個變量,這些變量是相關(guān)的,有的相關(guān)性強些,有的相關(guān)性一般些。用主成分分析方法從12個相關(guān)的變量中可以綜合得出幾個互不相關(guān)的主成分--它們是原始變量的線性組合。其中第一主成分綜合原始變量的信息最多(一般在70%以上),我們就用第一主成分(即單個綜合指標(biāo))替代原來的12個變量;然后計算第一主成分的得分并進(jìn)行排序。18當(dāng)前18頁,總共105頁。教育學(xué)--
主成分分析在學(xué)生學(xué)習(xí)成績排序中的應(yīng)用最簡單最直觀地綜合變量就是12門課的成績總和。但這個最簡單的綜合變量并不是最科學(xué)地代表12門課綜合成績的指標(biāo),而用主成分分析得出的第一主成分(原始變量的線性組合)Z1是最科學(xué)地代表12門課綜合成績的指標(biāo)。比如Z1是12個變量的線性組合,且系數(shù)都是正數(shù),數(shù)值有大有小。顯然數(shù)值大的變量對綜合指標(biāo)(主成分)的貢獻(xiàn)大;數(shù)值小的變量對綜合指標(biāo)(主成分)的貢獻(xiàn)小。19當(dāng)前19頁,總共105頁。教育學(xué)--
主成分分析在學(xué)生學(xué)習(xí)成績排序中的應(yīng)用
12個原始變量(課程)提供的信息各為多少?用什么量來表達(dá)?最經(jīng)典的方法是用變量的方差Var(Xi)為多少來表達(dá)。
如果某課程全班學(xué)生的成績都差不多,比如都是80分左右,則這門課程在學(xué)生成績的排序中不起什么作用。這反映在原始變量的線性組合Z1(第一主成分)上該變量對應(yīng)的系數(shù)會很小(如0.1025).
如果另一門課程全班學(xué)生的成績相差很大,有的100分,有的只有30多分,則這門課程在學(xué)生成績的排序中起的作用很大。這反映在原始變量的線性組合Z1(第一主成分)上該變量對應(yīng)的系數(shù)會很大(比如0.4525).20當(dāng)前20頁,總共105頁。教育學(xué)--
主成分分析在學(xué)生學(xué)習(xí)成績排序中的應(yīng)用
接著把每個學(xué)生12門課程的成績代入第一主成分Z1中,計算出每個學(xué)生第一主成分Z1的得分值,然后按從大到小的次序?qū)θ鄬W(xué)生的第一主成分Z1的得分值進(jìn)行排序。這個次序作為全班學(xué)生在大學(xué)本科4年中綜合學(xué)習(xí)成績的順序是更合理更科學(xué)的。
推薦研究生時可以根據(jù)這個次序來依次推薦;評選綜合學(xué)習(xí)獎時也可以根據(jù)這個次序來評選;評選三好生時這個次序也是很有力的依據(jù)。21當(dāng)前21頁,總共105頁。教育學(xué)--
主成分分析在學(xué)生學(xué)習(xí)成績排序中的應(yīng)用
(2)全班學(xué)生加權(quán)綜合成績的排序
因12門課程(變量)所得的學(xué)分不同,學(xué)分的多少反映該課程的重要性,在(1)中進(jìn)行排序時沒有考慮課程的重要性。由學(xué)分的多少對變量的重要程度分別賦于不同的權(quán)數(shù).學(xué)分多權(quán)數(shù)大些,學(xué)分少權(quán)數(shù)小些。即設(shè)Xj為第j個變量(課程)的40名學(xué)生的成績(觀測向量),令
22當(dāng)前22頁,總共105頁。教育學(xué)--
主成分分析在學(xué)生學(xué)習(xí)成績排序中的應(yīng)用其中Xj*表示第j門課程的40名學(xué)生的加權(quán)成績(觀測向量),可取其中N表示12門課程的總學(xué)分?jǐn)?shù)(如N=50),nj表示第j門課程的學(xué)分?jǐn)?shù)(如n1=6).
某課程若所得的學(xué)分多(即該課程重要),因乘上的權(quán)數(shù)大,則該門課程的加權(quán)成績變大.由此得出的新綜合指標(biāo)(第一主成分)Z1*在該變量上的系數(shù)也會加大,該變量對第一主成分Z1*的得分貢獻(xiàn)加大.23當(dāng)前23頁,總共105頁。教育學(xué)--
主成分分析在學(xué)生學(xué)習(xí)成績排序中的應(yīng)用把12門課程的成績代入第一主成分Z1*中,計算出每個學(xué)生第一主成分Z1
*的得分值,然后按從大到小的次序?qū)θ鄬W(xué)生的第一主成分Z1*的得分值進(jìn)行排序。這個次序可作為全班學(xué)生在大學(xué)本科4年中加權(quán)綜合學(xué)習(xí)成績的順序。
加權(quán)綜合學(xué)習(xí)成績的順序與(1)中沒有加權(quán)的綜合學(xué)習(xí)成績的順序可能會稍有些差別.加權(quán)綜合學(xué)習(xí)成績的順序也許比沒加權(quán)得出的順序還更合理更科學(xué)的。24當(dāng)前24頁,總共105頁。教育學(xué)--
主成分分析在學(xué)生學(xué)習(xí)成績排序中的應(yīng)用
同樣地,推薦研究生時可以根據(jù)這個更科學(xué)的次序來依次推薦;評選綜合學(xué)習(xí)獎時也可以根據(jù)這個更科學(xué)的次序來評選;評選三好生時這個更科學(xué)的次序也是很有力的依據(jù)。
25當(dāng)前25頁,總共105頁。
第0章緒論
§0.2多元統(tǒng)計分析的應(yīng)用領(lǐng)域--環(huán)境科學(xué)
2.環(huán)境科學(xué)
(1)大氣環(huán)境污染的評估及與職工健康的關(guān)系
湖南岳陽化工總廠建廠前沒有進(jìn)行環(huán)境評估(因建在文化大革命期間).工廠投產(chǎn)幾年后,發(fā)現(xiàn)污染嚴(yán)重,如很多職工有明顯肝大的癥狀,到底“肝大”是大氣污染造成的,還是其它(如水污染)?故決定進(jìn)行環(huán)境評估。具體工作有:
①定時定點測量大氣中多種污染氣體的濃度,同時測量氣象條件;26當(dāng)前26頁,總共105頁。環(huán)境科學(xué)-
大氣環(huán)境污染的評估及與職工健康的關(guān)系
②現(xiàn)場試驗,如施放大量的海軍煙霧彈作為示蹤物,了解其擴散情況,記錄其軌跡。③調(diào)查并統(tǒng)計了大量的職工體檢資料;④風(fēng)洞模擬試驗。
現(xiàn)場觀測試驗共用了二個多月的時間,調(diào)用了很多的人力和物力,收集了大量的資料。我們(多元分析組)參加其中的數(shù)據(jù)處理工作,使用了多元統(tǒng)計分析的多種方法進(jìn)行數(shù)據(jù)分析處理。
以下是其中的部分工作:27當(dāng)前27頁,總共105頁。環(huán)境科學(xué)-
大氣環(huán)境污染的評估及與職工健康的關(guān)系
(一)大氣污染的地區(qū)分類
為了了解某大型化工廠對環(huán)境的污染程度,在廠區(qū)及鄰近地區(qū)有代表性的選25個監(jiān)測點(如廠區(qū),生活區(qū),醫(yī)院,學(xué)?!?,每天定時(2點,8點,14點,20點)同時抽取大氣樣品,測定其中6種污染氣體(二氧化硫,硫化氫,碳4,…)的濃度,前后4天共16次數(shù)據(jù),對每個監(jiān)測點,計算每種污染氣體16次實測值的平均值,得25行6列的數(shù)據(jù)陣X,以下由數(shù)據(jù)陣X出發(fā),進(jìn)行分析處理.28當(dāng)前28頁,總共105頁。環(huán)境科學(xué)-
大氣環(huán)境污染的評估及與職工健康的關(guān)系
用統(tǒng)計分析方法分析處理這些資料.具體地說,使用了系統(tǒng)聚類分析方法,主成分分析方法,因子分析方法等等.不同的統(tǒng)計方法分類的結(jié)果不完全一致,經(jīng)綜合匯總后,把25個取樣點按污染情況分為5類,如分為極嚴(yán)重污染,很嚴(yán)重污染,嚴(yán)重污染,一般污染和較輕污染五大類.
29當(dāng)前29頁,總共105頁。環(huán)境科學(xué)-
大氣環(huán)境污染的評估及與職工健康的關(guān)系
若使用對應(yīng)分析方法,不僅可得出分類結(jié)果,還可給出有污染的每一類主要的污染氣體(元素).這些分類結(jié)果將為今后監(jiān)測點的布局提供既合理又經(jīng)濟的方案.如果在25個監(jiān)測點以外的其它地方也同時定點測量了6種污染氣體的濃度,則由以上的分類結(jié)果用判別歸類的方法還可給出該地區(qū)的污染分類.30當(dāng)前30頁,總共105頁。環(huán)境科學(xué)-
大氣環(huán)境污染的評估及與職工健康的關(guān)系
(二)職工體檢資料的統(tǒng)計分析
在23個監(jiān)測點附近各隨機地抽取40人的體驗資料,共920人.考查的指標(biāo)(因變量)有:
Y1-78年肝大數(shù)量;Y2-78年的白血球;
Y3-78年血收縮壓;Y4-78年血舒張壓;
Y5至Y8為79年同Y1至Y4的指標(biāo);
Y-78年到79年的肝增大數(shù)量;
31當(dāng)前31頁,總共105頁。環(huán)境科學(xué)-
大氣環(huán)境污染的評估及與職工健康的關(guān)系
影響這些指標(biāo)的因素(自變量)有:
X1-年齡;X2-工齡;
X3-性別;X4-所在地區(qū)的污染類別.我們的目的是找出職工肝大與所在地區(qū)的污染程度是否關(guān)系很顯著.1)用方差分析檢驗不同類別的污染地區(qū)一年之間肝增大量(Y)是否有顯著性差異?這是個單因素的方差分析模型,因變量(指標(biāo))為Y,因素為定性(屬性)變量X4.32當(dāng)前32頁,總共105頁。環(huán)境科學(xué)-
大氣環(huán)境污染的評估及與職工健康的關(guān)系
問題可化為假設(shè)檢驗問題:假設(shè)即假設(shè)5類地區(qū)職工中肝的平均增大數(shù)量相等.用920人的觀測數(shù)據(jù)來檢驗這個假設(shè)是否成立.
分析計算的結(jié)果在=0.01的水平上否定這個假設(shè).這表明五類不同地區(qū)的平均肝增大數(shù)量有顯著性差異.
類似地可以把性別(X1)作為因素,檢驗?zāi)信毠て骄卧龃髷?shù)量是否有顯著差異.結(jié)果是沒有明顯差異.33當(dāng)前33頁,總共105頁。環(huán)境科學(xué)-
大氣環(huán)境污染的評估及與職工健康的關(guān)系
這說明職工肝大主要是由大氣污染引起的.與性別(或年齡,工齡)無關(guān),也不是由有些人所說是由于水質(zhì)不好引起的.
2)用回歸分析方法建立Y(肝增大數(shù)量)與X1,X2,X3,X4的相關(guān)關(guān)系式.因為X3和X4為定性(屬性)變量,建立模型之前先把這兩個變量數(shù)量化.
X3=0表示女性,X3=1表示男性.34當(dāng)前34頁,總共105頁。環(huán)境科學(xué)-
大氣環(huán)境污染的評估及與職工健康的關(guān)系
由以上討論的大氣污染地區(qū)的分類結(jié)果知該地區(qū)的污染情況可分為五類.引入極嚴(yán)重很嚴(yán)重嚴(yán)重一般較輕35當(dāng)前35頁,總共105頁。環(huán)境科學(xué)-
大氣環(huán)境污染的評估及與職工健康的關(guān)系
用逐步回歸分析方法計算得:第1,2,3類是污染嚴(yán)重的地區(qū),在這三類地區(qū)內(nèi),故
Y=0.4611說明住在污染嚴(yán)重地區(qū)的職工于78年至79年間肝平均增大0.4611(厘米);36當(dāng)前36頁,總共105頁。環(huán)境科學(xué)-
大氣環(huán)境污染的評估及與職工健康的關(guān)系住在第4類地區(qū)()的職工,這一年間肝平均增大數(shù)量為
0.4611-0.3486=0.1125;而住在第5類地區(qū)()的職工,在這一年間肝平均增大數(shù)量為
0.4611-0.2969=0.1642.總之,以上分析結(jié)果表明,肝大是由大氣污染引起的,與年齡,工齡,性別無顯著關(guān)系.
其它指標(biāo)的分析結(jié)果這里省略了.
37當(dāng)前37頁,總共105頁。
第0章緒論
§0.2多元統(tǒng)計分析的應(yīng)用領(lǐng)域--環(huán)境科學(xué)
2.環(huán)境科學(xué)
(2)許多學(xué)者研究了洛杉磯地區(qū)大氣中污染物質(zhì)的濃度。在較長的一段時間內(nèi),每天定時測定與污染有關(guān)的幾個指標(biāo)值。用多元統(tǒng)計檢驗的方法首先判斷洛杉磯地區(qū)空氣污染程度在一周內(nèi)是固定不變或周末與平時有顯著差異。其次對這龐雜的觀測數(shù)據(jù)用一種易解釋的方法加以歸納化簡。(3)研究多種污染氣體(CO,CO2,SO2)的濃度與污染源的排放量和氣象因子(風(fēng)向,風(fēng)速,溫度,濕度等)之間的相互關(guān)系.38當(dāng)前38頁,總共105頁。RandomVectorsandRandomMatrices:RandomvectorVectorwhoseelementsarerandomvariablesRandommatrixMatrixwhoseelementsarerandomvariables§0.3隨機向量分布基礎(chǔ)39當(dāng)前39頁,總共105頁。ExpectedValueofaRandomMatrix:40當(dāng)前40頁,總共105頁。MeanVectors:41當(dāng)前41頁,總共105頁。Covariance:42當(dāng)前42頁,總共105頁。PopulationVariance-CovarianceMatrices:43當(dāng)前43頁,總共105頁。X的協(xié)差陣,記作D(X),或COV(X),
D(X)亦記作Σ=(σij),其中σij=Cov(Xi,Xj)。
44當(dāng)前44頁,總共105頁。PopulationCorrelationCoefficients:45當(dāng)前45頁,總共105頁。StandardDeviationMatrix:46當(dāng)前46頁,總共105頁。CorrelationMatrixfromCovarianceMatrix:47當(dāng)前47頁,總共105頁。
(1)樣本均值向量X:
48當(dāng)前48頁,總共105頁。
(2)樣本離差陣A(交叉乘積陣):其中49當(dāng)前49頁,總共105頁。(3)樣本協(xié)方差S:(4)樣本相關(guān)陣R:50當(dāng)前50頁,總共105頁。SampleMeanVectorandCovarianceMatrix:51當(dāng)前51頁,總共105頁。
例:設(shè)從某書店隨機抽取4張收據(jù)了解圖書的銷售情況.每張收據(jù)記錄售書數(shù)量X2及總金額X1,具體數(shù)值如下:試計算樣本均值,樣本離差陣,樣本協(xié)差陣和相關(guān)陣.
解:52當(dāng)前52頁,總共105頁。樣本離差陣A的計算公式為:53當(dāng)前53頁,總共105頁。54當(dāng)前54頁,總共105頁。設(shè)X(i)(i=1,…,n)
是p元總體(μ,Σ)的隨機樣本,n>p,則μ,Σ的常用估計為(5)參數(shù)的估計:55當(dāng)前55頁,總共105頁。相關(guān)系數(shù)ρij的估計為:其中
。稱S為樣本協(xié)方差矩陣、rij為樣本相關(guān)系數(shù)、
為樣本相關(guān)矩陣。56當(dāng)前56頁,總共105頁。在MATLAB中計算向量均值、方差、協(xié)方差以及相關(guān)系數(shù)的命令分別為:mean(data),var(data),cov(data),corrcoef(data)如果要將矩陣X的數(shù)據(jù)標(biāo)準(zhǔn)化,如何實現(xiàn)?Y=zscore(X)57當(dāng)前57頁,總共105頁。0.4描述統(tǒng)計
及MATLAB實現(xiàn)4.1一維數(shù)據(jù)的數(shù)字特征4.1.1表示位置的數(shù)字特征1.均值數(shù)據(jù)的平均值稱為該數(shù)據(jù)的均值,記為在MATLAB中命令為:mean(data)如果data是一個m╳n的矩陣,mean(data)輸出的結(jié)果是什么?如何用數(shù)學(xué)公式表示?58當(dāng)前58頁,總共105頁。設(shè)矩陣mean(X)=是行向量其中,如果要將矩陣X的數(shù)據(jù)標(biāo)準(zhǔn)化,如何實現(xiàn)?Y=[X-ones(n,1)*mean(X)]./[ones(n,1)*std(X)]或者直接利用命令:Y=zscore(X)59當(dāng)前59頁,總共105頁。2.次序統(tǒng)計量將數(shù)據(jù)x1,x2,…,xn
按從小到大的次序排列,所得的結(jié)果記為:稱為原數(shù)據(jù)的次序統(tǒng)計量。在MATLAB中,利用sort(data)就可得到次序統(tǒng)計量。3.中位數(shù)中位數(shù)的計算公式為:中位數(shù)是整個數(shù)據(jù)位置居中的數(shù)據(jù),因此受異常值的影響較小,具有較好的穩(wěn)健性。MATLAB中計算中位數(shù)的命令為:median(data)60當(dāng)前60頁,總共105頁。4.分位數(shù)對0p<1,數(shù)據(jù)x1,x2,…,xn的p分位數(shù)是其中[np]表示np的整數(shù)部分,當(dāng)p=1時,定義M1=x(n)。計算P分位數(shù)的命令:prctile(data,P),其中P=100*p在實際應(yīng)用中,0.75分位數(shù)與0.25分位數(shù)比較重要,他們分別稱為上、下四分位數(shù),簡記為Q3=M0.75,Q1=M0.2561當(dāng)前61頁,總共105頁。5.三均值眾所周知,均值與中位數(shù)M都是描述數(shù)據(jù)集中位置的數(shù)字特征,均值用了數(shù)據(jù)的全部信息,M只用了部分信息,通常情況下,均值比中位數(shù)有效。但是當(dāng)數(shù)據(jù)有異常值時,中位數(shù)比較穩(wěn)健,為了兼顧兩方面的優(yōu)勢,我們可以計算三均值,其公式如下:例如數(shù)據(jù):5,3,11,3,1,7,8其次序統(tǒng)計量為:1,3,3,5,7,8,11中位數(shù)=5,25%,與75%的分位數(shù)為:prctile(data,[25,75]):3和7.562當(dāng)前62頁,總共105頁。實際上,三均值就是中位數(shù)與上、下四分位數(shù)的加權(quán)平均,權(quán)向量為w=(0.25,0.5,0.25),另一個向量為,這兩個向量的數(shù)量積就是三均值。年份國民生產(chǎn)總值第一產(chǎn)業(yè)第二產(chǎn)業(yè)工
業(yè)第三產(chǎn)業(yè)人均GDP198010713232745514884681222899450198113780151187589455377227669566198215893058096678736196232961642198317862663713772337121737680712198421203973536945798698043924834198524305884053109463100434495429421986288432981191255131126506480011031987334507105723142664128772861201261198837995812154415859114621399823140819894153421477141577401442531098881506例1.根據(jù)蚌埠市80年代數(shù)據(jù),計算各指標(biāo)均值、0.99,0.9,0.75,0.5,0.25,0.1,0.05,0.01分位數(shù)以及三均值63當(dāng)前63頁,總共105頁。解:%輸入原始數(shù)據(jù)A=[107132 32745 51488 46812 22899 450137801 51187 58945 53772 27669 566158930 58096 67873 61962 32961 642178626 63713 77233 71217 37680 712212039 73536 94579 86980 43924 834243058 84053 109463 100434 49542 942288432 98119 125513 112650 64800 1103334507 105723 142664 128772 86120 1261379958 121544 158591 146213 99823 1408415342 147714 157740 144253 109888 1506];%計算各指標(biāo)均值、分位數(shù)、三均值[mean(A);%各指標(biāo)均值ans=1.0e+005*2.45580.83641.04410.95310.57530.0094如何理解數(shù)據(jù)輸出的格式?(科學(xué)計數(shù)法)即:24558083640104410953105753094064當(dāng)前64頁,總共105頁。%計算分位數(shù)prctile(A,100*[0.99,0.9,0.75,0.5,0.25,0.1,0.05,0.01])
4153401477101585901462101098901510397650134630158170145230104860146033451010572014266012877086120126022755078790102020937104673089015893058100678706196032960640122470419705522050290252805101071303275051490468102290045010713032750514904681022900450輸出結(jié)果為86的矩陣:每一列是每項指標(biāo)的各種分位數(shù),其中第四行即中位數(shù).median(A)%計算各指標(biāo)中位數(shù),=上面的第4行[0.25,0.5,0.25]*prctile(A,[25,50,75])%各指標(biāo)三均值
23713080350103640945405314092065當(dāng)前65頁,總共105頁。4.1.2表示分散性的數(shù)字特征1.方差、標(biāo)準(zhǔn)差與變異系數(shù)數(shù)據(jù)x=(x1,x2,…,xn),的方差為:其算術(shù)平方根稱為數(shù)據(jù)的標(biāo)準(zhǔn)差或根方差,在MATLAB中命令分別為:var(data),std(data)例2.已知x=(x1,x2,…,xn),則xxT=?則(x-mean(x))*(x-mean(x))T/(n-1)=?66當(dāng)前66頁,總共105頁。變異系數(shù):刻畫數(shù)據(jù)相對分散性的一種度量方法計算公式為:有些書中用
在MATLAB中命令分別為:std(data)./mean(data),std(data)./abs(mean(data))2.極差與四分位極差上、下四分位數(shù)之差稱為四分位極差,記為極差的計算公式:R=x(n)-x(1)在MATLAB中命令分別為:range(data),iqr(data)67當(dāng)前67頁,總共105頁。如果A是一個n行,p列的矩陣,則range(A)計算A中每一列數(shù)據(jù)的極差,如果計算A的每行數(shù)據(jù)極差,只需將A轉(zhuǎn)置既可.即:range(A’)由于正態(tài)總體N(,2)的上、下四分位數(shù)分別為0.75=+0.6745,0.25=-0.6745故正態(tài)總體四分位極差為:0.75-0.25=1.349對于標(biāo)準(zhǔn)差為的一般總體分布,的穩(wěn)健估計為:3.異常點判別數(shù)據(jù)的下、上截斷點為:Q1-1.5R1,Q3+1.5R1位于下、上截斷點之外的點稱為異常點.68當(dāng)前68頁,總共105頁。年份國民生產(chǎn)總值第一產(chǎn)業(yè)第二產(chǎn)業(yè)工
業(yè)第三產(chǎn)業(yè)人均(元)GDP19904257391413901648841512581194651480199136868181940164548139623122193123119925157761375952190721951271591091696199363067619214325482722634718370620491994792357239521328715291616224121254819959428582904003770163144672754423003199611503223335934648753810313518543622199713631623932665567334649424131634241199815003334073136047104682244883104618199915542314285695870454713705386174734例4.計算經(jīng)濟數(shù)據(jù)的方差、標(biāo)準(zhǔn)差、變異系數(shù)解:原始數(shù)據(jù)記為A,粘貼到MATLAB,于是[var(A);std(A);std(A)./mean(A)]%方差、標(biāo)準(zhǔn)差、變異系數(shù)69當(dāng)前69頁,總共105頁。1.偏度k階中心矩
447269.32124627.47172594.05131193.17152861.171322.46
0.480.470.460.420.530.454.1.3表示分布形狀的數(shù)字特征偏度計算公式:其中u3,s分別表示數(shù)據(jù)的3階中心矩與標(biāo)準(zhǔn)差MATLAB中的命令:y=skewness(data,0)如果data是一個矩陣,則計算各列的偏度.70當(dāng)前70頁,總共105頁。如果記不住命令,如何利用已經(jīng)學(xué)過的內(nèi)容進(jìn)行計算是我們必須學(xué)會的方法,請看下面的解法x=[data];%輸入數(shù)據(jù)n=length(x);%數(shù)據(jù)的長度u3=moment(x,3);%計算3階中心矩s=std(x);%計算標(biāo)準(zhǔn)差g1=n.^2*u3/((n-1)*(n-2)*s.^3)如果不知道計算中心矩的命令moment,你如何實現(xiàn)偏度的計算?u3=sum((x-mean(x)).^3)/n71當(dāng)前71頁,總共105頁。2.峰度在MATLAB中,計算峰度的命令為:kurtosis(data,0)注意:按Matlab中的公式,正態(tài)分布的峰度為3,而本教材公式正態(tài)分布的峰度為0為了得到書中的結(jié)果只需:kurtosis(data,0)-3峰度計算公式:72當(dāng)前72頁,總共105頁。峰度用來衡量數(shù)據(jù)尾部的分散性:正態(tài)分布峰度為零,峰度>0,則厚尾,峰度<0,則細(xì)尾,在金融時間序列分析中,通常要研究數(shù)據(jù)是否為尖峰、細(xì)腰、厚尾等特性。偏度用來衡量數(shù)據(jù)的對稱性:偏度為零表明是對稱分布,偏度>0,則右偏,反之則左偏;在MATLAB中的正態(tài)分布檢驗的一個命令h=jbtest(data),就是基于偏度與峰度所建立.73當(dāng)前73頁,總共105頁。例5計算例4各指標(biāo)的偏度與峰度解:A=[data];%data即表中的2—6列的數(shù)據(jù)formatlong%長數(shù)位輸出[skewness(A,0);kurtosis(A,0)-3],表2.蚌埠市90年代各經(jīng)濟指標(biāo)的偏度與峰度生產(chǎn)總值第一產(chǎn)業(yè)第二產(chǎn)業(yè)工業(yè)第三產(chǎn)業(yè)人均GDP偏度系數(shù)0.2255781331-0.0435930780.1723024482130.0616271379520.5198548855250.183901977344峰度系數(shù)-1.6131486490-1.5649510273-1.69890054690-1.68278514534-1.21662309936-1.6506491708774當(dāng)前74頁,總共105頁。4.2數(shù)據(jù)分布數(shù)據(jù)的數(shù)字特征刻畫了數(shù)據(jù)的主要特征,而要對數(shù)據(jù)的總體情況作全面地了解,就必須研究數(shù)據(jù)的分布。數(shù)據(jù)分析的一個重要內(nèi)容就是研究數(shù)據(jù)是否服從正態(tài)分布,若不服從正態(tài)分布,那么可能服從什么分布,如何判定。4.2.1直方圖、經(jīng)驗分布函數(shù)與QQ圖在MATLAB中作直方圖的命令為:hist(data,k)其中,data是原始數(shù)據(jù),k表示平均分區(qū)間(min(data),max(data))的份數(shù),k缺省時為10n=hist((data,nb)可以計算數(shù)據(jù)落在小區(qū)間內(nèi)的頻數(shù),其中,nb是自己定義的小區(qū)間的中點,n輸出各小區(qū)間的頻數(shù)。75當(dāng)前75頁,總共105頁。[例1].某班級考試成績?nèi)缦?,作出直方圖,并統(tǒng)計各分?jǐn)?shù)段人數(shù)cj=[62,79,84,72,87,99,81,86,67,71,91,83,46,67,72,88,60,95,73,60,99,77,87,85,53,76,90,79,66,100];nb=[54.5,64.5,74.5,84.5,94.5];n=hist(cj,nb),hist(cj)結(jié)果為:n=26886,即下表所示不及格60—6970—7980—8990—1002人6人8人8人6人76當(dāng)前76頁,總共105頁。如果要配上正態(tài)概率密度曲線,則命令如下:histfit(data)圖1.1直方圖77當(dāng)前77頁,總共105頁。設(shè)來自總體的分布的樣本是x1,x2,...xn,其次序統(tǒng)計量是x(1),x(2),...x(n
)則經(jīng)驗分布函數(shù)是:經(jīng)驗分布函數(shù)對于一般總體分布,若要估計他的總體分布函數(shù),可以用經(jīng)驗分布函數(shù)做估計。78當(dāng)前78頁,總共105頁。在MATLAB中,如下命令可以做出經(jīng)驗分布函數(shù)圖形,并給出部分統(tǒng)計量。[h,stats]=cdfplot(data)[例2].做出例1中數(shù)據(jù)的經(jīng)驗分布函數(shù)x=[62,79,84,72,87,99,81,86,67,71,91,83,46,67,72,88,60,95,73,60,99,77,87,85,53,76,90,79,66,100];[h,stats]=cdfplot(x)最低分min:46最高分max:100平均分mean:77.8333中位數(shù)median:79標(biāo)準(zhǔn)差std:13.776879當(dāng)前79頁,總共105頁。圖1.2考試成績的經(jīng)驗分布圖1.3經(jīng)驗分布與正態(tài)分布函數(shù)QQ圖無論是直方圖還是經(jīng)驗分布函數(shù)圖形,要從圖形上看出是否服從某種類型隨機變量的分布是很困難的,QQ圖有助于我們鑒別樣本的數(shù)據(jù)是否近似的服從某類分布。在MATLAB中給出了正態(tài)分布和威布爾分布的QQ圖命令:80當(dāng)前80頁,總共105頁。[例3].做出例1中數(shù)據(jù)的QQ圖解:normplot(x),weibplot(x)圖1.4考試成績的QQ圖81當(dāng)前81頁,總共105頁。從圖1.4可以看出,除了100分這一點其余各點基本上都位于直線上,故可以認(rèn)為近似服從正態(tài)分布。能否認(rèn)為服從威布爾分布呢?2關(guān)于數(shù)據(jù)的常用變換公式當(dāng)數(shù)據(jù)在左邊或右邊有長尾巴,或很不對稱時,有時需要對數(shù)據(jù)進(jìn)行變換以符合非參數(shù)(或參數(shù))統(tǒng)計推斷方法的某些條件.其中最常用的一種方法就是box-cox變換
(x>0)82當(dāng)前82頁,總共105頁。在MATLAB中,上述變換的命令如下:[t,l]=boxcox(x)其中x是原始數(shù)據(jù),t是變換以后的數(shù)據(jù),l是變換公式中參數(shù)的數(shù)值例4.我們以1949—1991淮河流域成災(zāi)面積為例說明如何利用上述的變換使得數(shù)據(jù)從不具備正態(tài)分布到符合正態(tài)分布.圖1.51949—1991淮河流域成災(zāi)面積qq圖83當(dāng)前83頁,總共105頁。從圖上可以看出散點并不聚集在直線上,因此流域成災(zāi)面積(原始數(shù)據(jù))不服從正態(tài)分布,這一點也可以通過jbtest檢驗來證實.但是通過變換以后的圖形如圖1.8所示,顯然數(shù)據(jù)服從正態(tài)分布.圖1.6流域成災(zāi)面積(變換后數(shù)據(jù))圖84當(dāng)前84頁,總共105頁。圖1.5流域成災(zāi)面積(原始數(shù)據(jù))圖圖1.6流域成災(zāi)面積(變換后數(shù)據(jù))圖85當(dāng)前85頁,總共105頁。4.2.2莖葉圖及五數(shù)總括莖葉圖:與直方圖相比,莖葉圖更能細(xì)致地看出數(shù)據(jù)的分布結(jié)構(gòu),我們用具體例子說明如何作出數(shù)據(jù)的莖葉圖。[例5].做出例1中數(shù)據(jù)的莖葉圖解:首先將數(shù)據(jù)從小到大排列得到:sort(x)ans=4653606062666767717272737677797981838485868787889091959999100第一個數(shù)46的十位數(shù)為4,個位數(shù)為6,將其分割成,每一個數(shù)都采取上述方法,然后將十位數(shù)從4到10排成一列,右邊按從小到大寫出各位數(shù)字,最右邊寫出頻數(shù)86當(dāng)前86頁,總共105頁。上述莖葉圖利用公式編輯器作出從莖葉圖可以看出數(shù)據(jù)是比較對稱的87當(dāng)前87頁,總共105頁。中位數(shù),上、下分位數(shù),最大、最小數(shù)統(tǒng)稱五數(shù)總括在Matlab中:[min(data),prctile(data,[25,50,75]),max(data)]對于[例4]中的數(shù)據(jù),我們可得:
466779871004.2.3數(shù)據(jù)的分布擬合檢驗與正態(tài)性檢驗盡管我們可以畫出QQ圖、莖葉圖、直方圖直觀地得到數(shù)據(jù)可能服從什么分布,但是從概率的意義上,我們?nèi)砸o出正態(tài)性分布的假設(shè)檢驗以及分布擬合檢驗。88當(dāng)前88頁,總共105頁。正態(tài)性檢驗用于檢驗樣本數(shù)據(jù)是否來自正態(tài)分布總體;分布擬合檢驗用于檢驗樣本數(shù)據(jù)是否來自某種類型的分布總體。顯然,正態(tài)性檢驗是分布擬合檢驗中很重要的一種,下面我們分別介紹利用MATLAB從事正態(tài)性檢驗與分布擬合檢驗的命令與步驟:正態(tài)性檢驗正態(tài)分布的擬合優(yōu)度測試有兩個命令:jbtest與lillietest,其中后者用于小樣本檢測。89當(dāng)前89頁,總共105頁。[h,p,jbtest,cv]=jbtest(x,alpha)輸入:x是被檢測的數(shù)據(jù),alpha是顯著性水平0<<1輸出:h=0,無法拒絕正態(tài)分布,h=1,拒絕正態(tài)分布;
P-檢驗的概率值,jbtest-jb統(tǒng)計量,cv-為是否拒絕原假設(shè)的臨界值,由于jbtest檢驗用到漸近分布,故通常用于大樣本檢驗,如果是小樣本,則應(yīng)使用lillietest[h,h,lstat,cv]=lillietest(x,alpha)輸入:x是被檢測的數(shù)據(jù),alpha是顯著性水平(取值在0.01和0.2之間),缺省時為0.0590當(dāng)前90頁,總共105頁。[例6.]我國受災(zāi)面積統(tǒng)計如下,利用MATLAB檢驗表中五項指標(biāo)是否服從正態(tài)分布?年份受災(zāi)面積成災(zāi)面積水災(zāi)成災(zāi)面積旱災(zāi)成災(zāi)面積農(nóng)林牧漁總產(chǎn)值197850790244572012179701397.019793937015120287093201697.6198044526297776070141741922.6198139786187433973121342180.619823313315985439799722483.319833471316209574775862750.019843188715607539570153214.1198544365227058949100633619.5198647135236565601147654013.0198742086203934104130334675.7198850874239456128153035865.3198946991224495917152626534.719903847417819560578057662.11991554722781414614105598157.0199251333258594464170499084.7199348829231338611865710995.519945504331383107441704915750.51995458212226776301040120340.91996469892123310855624722353.719975342930309584020250
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 局機關(guān)分工方案模板(3篇)
- 2025年保密教育線上培訓(xùn)考試題庫及答案
- 2025年案件警示教育考試題題庫(含答案)
- 2025年國家安全知識競賽題庫及答案(三)
- 名牌商標(biāo)管理辦法
- 員工名牌管理辦法
- 售后投資管理辦法
- 商品標(biāo)價管理辦法
- 商戶下架管理辦法
- 商超薪酬管理辦法
- 火電廠運行管理
- 銷售人員人才畫像
- 泵站安全鑒定規(guī)程(SL 316-2015)
- 水稻病蟲害統(tǒng)防統(tǒng)治 投標(biāo)方案(完整技術(shù)標(biāo))
- 職校中式烹飪賽題(國賽)考試復(fù)習(xí)題庫(含答案)
- 電梯維保重點難點分析
- 《英語大字典》word版
- 中國醫(yī)療衛(wèi)生體制改革培訓(xùn)課件
- HY/T 150-2013海水中有機碳的測定非色散紅外吸收法
- GA/T 486-2015城市道路單向交通組織原則
- GA/T 2000.21-2014公安信息代碼第21部分:人口管理死亡原因代碼
評論
0/150
提交評論