《出版社多元統(tǒng)計分析》課件-第11章-聚類分析_第1頁
《出版社多元統(tǒng)計分析》課件-第11章-聚類分析_第2頁
《出版社多元統(tǒng)計分析》課件-第11章-聚類分析_第3頁
《出版社多元統(tǒng)計分析》課件-第11章-聚類分析_第4頁
《出版社多元統(tǒng)計分析》課件-第11章-聚類分析_第5頁
已閱讀5頁,還剩67頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

多元統(tǒng)計分析聚類分析MultivariateStatisticalAnalysis案例《紅樓夢》成書新說?

1987年復旦大學李賢平老師通過47個虛詞的詞頻數(shù)據(jù),探索了《紅樓夢》120回的作者和寫作風格,其中使用了三種層次聚類方法對各回進行分類。《紅樓夢》的各部分是由不同的作者在不同時期撰寫而成。紅樓夢成書新說(李賢平)復旦學報(社會科學版)一九八七年第五期譜系圖(樹狀圖)第11章聚類分析11.1什么是聚類分析?11.2聚類統(tǒng)計量11.3譜系聚類法11.4快速聚類法聚類分析(ClusterAnalysis,簡稱CA)是一種分類方法,它將一批樣品、變量(或指標),按照它們在性質(zhì)上相似、疏遠程度進行科學的分類,使在同一類內(nèi)的觀測樣品(或變量)是相似的,不同類間的觀測(或變量)是不相似的。11.1.1聚類分析的思想11.1什么是聚類分析?“物以類聚,人以群分”《戰(zhàn)國策·齊策三》1)什么是類?通俗地講,相似樣品(或指標)的集合稱作類。由于現(xiàn)實問題的復雜性,欲給類下一個嚴格的定義是困難的。2)什么是分類?就是將一個觀測對象指定到某一類(組)。3)分成多少類是合適的呢?事先并不知道有多少類,完全可以按照數(shù)據(jù)來分類,做探索性分析。

11.1.2聚類分析的方法聚類分析能廣泛地應用于解決實際問題,它和多元回歸分析,判別分析一起被稱為多元統(tǒng)計分析的三大實用方法。

聚類分析根據(jù)分類對象的不同分為R型和Q型聚類。對樣品的分類稱為Q型聚類。對變量的分類稱為R型聚類。本章主要介紹Q型聚類。聚類分析根據(jù)聚類方法的不同分為快速聚類、譜系聚類、模糊聚類法,逐步聚類法,最優(yōu)分割法(有序樣品聚類法),分解法,加入法等。本章將介紹最廣泛的K均值快速聚類法、譜系聚類法。11.2.1樣品間的相似性度量——距離計算距離(distance)的方法非常多:歐氏距離(Euclideandistance)、歐氏距離的平方(SquaredEuclideandistance)、絕對(曼哈頓)距離(Block)、切比雪夫距離(Chebychevdistance)、卡方距離(Chi-aquaremeasure)、馬氏距離(Mahalanobis)等。按照數(shù)據(jù)的不同性質(zhì),可選用不同的距離指標。詳見第六章相關(guān)性研究中給出的距離。圖11.2.1距離示意(來源:沈浩老師的博客)11.2聚類統(tǒng)計量11.2.2變量間的“關(guān)聯(lián)性”度量——相似系數(shù)1.夾角余弦(向量內(nèi)積)2.相關(guān)系數(shù)(相似系數(shù))3.同號率指數(shù)相似系數(shù)、非參數(shù)方法相似系數(shù)解:絕對距離陣、歐式距離陣、馬氏距離、夾角余弦、皮爾遜相關(guān)系數(shù)如下:例11.2計算下面樣本數(shù)據(jù)的絕對距離、歐式距離、馬氏距離,指標變量的夾角余弦、皮爾遜相關(guān)系數(shù)。樣品號指標X1X2157271332465566馬氏距離(Mahalanobis)樣品號指標X1X2157271332465566樣本均值5.44.2樣本標準差1.522.59夾角余弦(Cosine)樣品號指標X1X2157271332465566樣本均值5.44.2樣本標準差1.522.59Pearson相關(guān)系數(shù)無論是夾角余弦還是相關(guān)系數(shù),絕對值都小于1,統(tǒng)記為cij。當∣cij∣近似1,說明變量Xi與Xj非常密切;當∣cij∣近似0,說明Xi與Xj差別很大。聚類中,為了方便,作變換為dij

=1∣cij∣或dij2

=1

cij2

,表示距離,小則聚成一類,比較符合思維習慣。樣品號指標X1X2157271332465566樣本均值5.44.2樣本標準差1.522.5911.2.3關(guān)聯(lián)測度關(guān)聯(lián)測度用來衡量定性變量的相似性,常見的有簡單匹配系數(shù)、雅科比系數(shù)、匹配系數(shù),其中簡單匹配系數(shù)、雅科比系數(shù)只適用于二分類變量。(1)簡單匹配系數(shù)(theSimplematchingcoefficient)S反映兩個案例之間的相似性,變化范圍從0到1。(2)雅科比系數(shù)(Jaccard’scoefficient)簡單匹配系數(shù)的缺點是,兩個案例相似可能是因為它們都共同擁有某些特征,也可能是因為它們都缺乏某些特征。雅科比系數(shù)做了改進,它把兩個案例都回答“否”的部分去掉,只考慮回答“是”的部分,定義為:(3)匹配系數(shù)(Matchingcoefficient)表11.2.1

顧客喜好數(shù)據(jù)顧客x1

x2

x31234131122233223例11.4

歐洲各國的語言有許多相似之處,通過比較它們數(shù)字的表達比較恰當。下圖列舉了英語、挪威語、丹麥語、荷蘭語、德語、法語、西班牙語、意大利語、波蘭語、匈牙利語和芬蘭語的1,2,…,10的拼法,計算這11種語言之間的距離。圖11.2.211種歐洲語言的數(shù)詞解:此例是文本數(shù)據(jù),無法直接用前面的公式計算距離,于是產(chǎn)生一種新距離辦法:用兩種語言的10個數(shù)詞中的第一個字母不相同的個數(shù)來定義兩種語言之間的距離,例如英語和挪威語中只有1和8的第一個字母不同,故它們的距離為2。十一種語言之間兩兩的距離列于下圖11.2.3。圖11.2.3距離11.2.4數(shù)據(jù)的變換方法設(shè)原始觀測數(shù)據(jù)矩陣為:1、中心化變換2、極差規(guī)格化變換3、正態(tài)標準化變換詳見第六章相關(guān)性研究中給出的標準化方法。11.3譜系聚類法譜系聚類法中涉及到樣品間距離和類之間的距離(或相似系數(shù))。常見樣品間距離在11.2聚類統(tǒng)計量已給出;類與類之間的距離有許多定義方式,這就產(chǎn)生了不同的譜系聚類法。下面先介紹類間距離,再介紹譜系聚類法。基本思想:距離相近的樣品(或變量)先聚成類,距離相遠的后聚成類,過程一直進行下去,每個樣品(或變量)總能聚到合適的類中。聚類過程:假設(shè)有n個樣品(或變量),第一步將每個樣品(或變量)獨自聚成一類,共有n類;第二步根據(jù)所確定的樣品(或變量)“距離”公式,把距離最近的兩個樣品(或變量)聚合為一類,其它樣品(或變量)仍各自聚為一類,共n

1類;第三步將距離最近的兩個類聚成一類,共n

2類;以上步驟一直進行下去,最后所有樣品(或變量)全聚成一類。直觀上可以把整個聚類畫成一張譜系圖,故稱為譜系聚類法(或系統(tǒng)聚類、層次聚類)。常用類間距離定義有8種,分別為最短距離法、最長距離法、中間距離法、重心法、類平均法、可變類平均法、可變法和離差平方和法。它們的聚類步驟基本一致,主要差異是類間距離計算方法不同。用dij表示樣品xi與xj之間距離,用Dpq表示類Gp與Gq之間距離。1.最短距離法(SingleLinkageMethod)(11.3.1)圖11.3.1最短距離法示意圖GpGq最短距離法進行聚類分析的步驟如下:

(1)定義樣品之間距離,計算樣品兩兩距離,得距離陣D(0)

,開始每個樣品自成一類,這時Dij

=

dij。 (2)找出距離最小元素,設(shè)為Dpq,則將Gp和Gq合并成一個 新類,記為Gr,即Gr

=

{Gp,Gq}。 (3)按(11.3.2)計算新類與其它類的距離。(4)重復(2)和(3)兩步,直到所有元素并成一類。例11.5設(shè)抽取五個樣品,每個樣品只有一個變量,它們是:1、2、3.5、7、9,樣品點間距取絕對距離,請用系統(tǒng)聚類法中的最短距離法對這五個樣品進行分類,并畫出聚類圖。聚類譜系圖(或稱為樹狀圖)為:圖11.3.2譜系圖根據(jù)譜系圖11.3.2可得到分類的結(jié)果:

若分三類,則為:{X(1),X(2),X(3)},{X(4)}和{X(5)};若分四類,則為:{X(1),X(2)},{X(3)},{X(4)}和{X(5)}。2.最長距離法(CompeleteLinkageMethod)(11.3.3)GqGp圖11.3.3最長距離法示意圖基本步驟除了類間距離是按照最遠樣品點計算,其它與最短距離法一致。聚類規(guī)則仍然按照距離最小的并為一類。續(xù)例11.5設(shè)抽取五個樣品,每個樣品只有一個變量,它們是:1、2、3.5、7、9,樣品點間距取絕對距離,請用系統(tǒng)聚類法中的最長距離法對出五個樣品進行分類,并畫出聚類圖。3.中間距離法(Median)圖11.3.5中間距離法示意圖4.重心距離法(Centroidclustering)35重心法雖有較好的代表性,但并未充分利用各個樣品的信息。比如下面兩組類按重心法類間距離相等,這是不合理的。為了充分利用所有樣品點的距離信息,給出類平均距離法。5.類平均距離法(groupaveragemethod)

組間類平均法(between-groupslinkage)GqGp圖11.3.6組間類平均距離法示意圖若同時還考慮組內(nèi)的任意兩點間距離,則稱為組內(nèi)類平均法(within-groupslinkage)。6.可變類平均距離法(Flexible-BetaMethod)7.可變距離法

8.離差平方和法

該方法是Ward提出來的,所以又稱為Ward法。

2,46,51,5練習:計算紅綠、黃綠、黃紅間距離的平方?11.3.2系統(tǒng)聚類方法的統(tǒng)一Lance和Williams于1967年給出了統(tǒng)一公式。表11.3.1系統(tǒng)聚類方法的統(tǒng)一例11.6對亞洲國家的經(jīng)濟發(fā)展水平和文化教育水平進行分類研究,請進行譜系聚類分析。(SPSS軟件自帶數(shù)據(jù)World95.sav,109個國家,26個變量)選擇分析的變量(Variables(s))有5個:Urban(城市人口比例),Lifeexpf(女性平均壽命)、Lifeexpm(男性平均壽命)、Literacy(有讀寫能力的人所占比例)、Gdp_cap(人均國內(nèi)生產(chǎn)總值),Country(國家或地區(qū))標識本例中的17個亞洲國家或地區(qū)。解:(一)SPSS軟件操作:第一步數(shù)據(jù)預處理。制定挑選規(guī)則,若希望對所有數(shù)據(jù)進行分析,則此步省略。本例在World95.sav數(shù)據(jù)中篩選亞洲國家,選擇菜單項Data→SelectCase(圖11.3.7),選擇Ifconditionsatisfied,并點擊If按鈕(圖11.3.8)。圖11.3.7制定挑選規(guī)則圖11.3.8SelectCase對話框在打開的對話框中輸入如圖11.3.9所示的內(nèi)容。圖11.3.9挑選數(shù)據(jù)圖11.3.10數(shù)據(jù)窗口的變化(部分截圖)第二步譜系聚類。選擇菜單項Analyze→Classify→HierachicalCluster,打開HierachicalClusterAnalysis對話框,圖11.3.11。選擇的變量(Variables(s))有5個:Urban(城市人口比例),Lifeexpf(女性平均壽命)、Lifeexpm(男性平均壽命)、Literacy(有讀寫能力的人所占比例)、Gdp_cap(人均國內(nèi)生產(chǎn)總值),將標志變量Country(國家或地區(qū))移入LabelCaseby列表框框中,即對本例中的17個亞洲國家或地區(qū)進行聚類分析,圖11.3.12。圖11.3.11HierachicalClusterAnalysis圖11.3.12HierachicalClusterAnalysis

Plots設(shè)置聚類圖。Dendrogram(譜系圖)、Icicle(冰柱圖)、Orientation(冰柱圖方向,H…水平、V…垂直),圖11.3.13。圖11.3.13Plots

Statistics中有Agglomerationschedule(凝聚狀態(tài)表),給出每一階段聚類的結(jié)果。Save指定保存在數(shù)據(jù)中的聚類結(jié)果新變量。Singlesolution表示生成一個分類變量;Rangeofsolutions表示生成多個分類變量。Method按鈕,設(shè)置譜系聚類的方法選項,ClusterMethod中選擇聚類方法(類間距離),Measure中選擇樣品計算的距離(樣品距離),圖11.3.14。圖11.3.14Method為什么默認組間類平均方法?1.空間的濃縮和擴展2.單調(diào)性(二)主要結(jié)果表11.3.2聚類過程表(凝聚狀態(tài)表)本步中有誰和誰聚類第幾步聚合系數(shù)參與聚類的是樣品還是小類本步結(jié)果將第幾步使用圖11.3.15冰柱圖從下往上看圖11.3.16譜系圖(樹狀圖)快速聚類法的基本思想是:先將樣品隨機分一下類,然后再按照某種原則進行修正,直至分類比較合理或迭代穩(wěn)定為止。一種比較流行的快速聚類法-k均值法(K-Means),是由麥奎因(MacQueen)1967年提出并命名的,其基本步驟如下:(1)先選擇k個樣品作為初始凝聚點,或者將所有樣品分成個初始類,然后將這k個類的重心(均值)作為初始凝聚點。(2)對除凝聚點之外的所有樣品逐個歸類,將每個樣品歸入凝聚點離它最近的那個類(通常采用歐氏距離),直至所有樣品都歸了類。(3)該類凝聚點更新為這一類目前的均值,重復步驟(2),直至所有的樣品都不能再分配為止。需要注意的是,快速聚類前,要先確定分類數(shù)k。11.4快速聚類法例11.10

為了研究電信營銷商對客戶的分類分析,請做K-Means聚類分析。數(shù)據(jù)是SPSS自帶的數(shù)據(jù)集(telco_extra.sav),為某電信公司在減少客戶群中的客戶流失方面的舉措。每個個案對應一個單獨的客戶,分析的14個變量記為x1—x14,如下:解:(一)K-Means聚類的SPSS操作:1.Analyze→Classify→K-MeansCluster,將原始變量x1—x14移入Variables列表框,圖11.4.1。圖11.4.1K-MeansClusterAnalysisOptions按鈕,打開Options子對話框,圖11.4.2。對話框中Statistics選項欄中各選項的含義如下:Initialclustercenters:在結(jié)果輸出窗口中給出聚類初始類中心;ANOVAtable:給出以聚類結(jié)果為控制變量的每個原始變量的單因素方差分析表;Clusterinformationforeachcase:在結(jié)果輸出窗口中給出每個樣品的分類信息,包括分配到哪一類以及該觀測量距所屬類中心的距離。圖11.4.2Options(二)結(jié)果解釋表11.4.4給出了K-Means迭代的初始類中心坐標,由SPSS軟件隨機自動給定。表11.4.5給出了K-Means迭代的過程,表中每一行代表每次迭代導致的類中心的變化量。表11.4.4初始類中心表表11.4.5迭代過程表11.4.6ANOVA表11.4.6ANOVA檢驗各分析變量的均值在不同類中是否存在顯著差異,這是對分類效果是否顯著的檢驗,檢驗的原假設(shè)是分析變量在不同類中不存在顯著差異。表11.4.7給出了最終的聚類中心結(jié)果。表11.4.7最終聚類中心由于樣品數(shù)目較多(容量1000),此處樣品分類情況表省略。表11.4.8給出了最終類中心之間相互的歐氏距離??梢钥闯?,第一類客戶與第三類客戶歐氏距離為4.863,第一類客戶與第二類客戶的距離為3.5,表明第一類客戶與第三類客戶之間的差異大于第一類與第二類之間的差異。表11.4.9給出了每一類中的樣品個數(shù)??梢钥闯觯?000個客戶被分成3類。第一類包括226個客戶,創(chuàng)利最大;第二類包括292個客戶;第三類包括482個客戶。第三類客戶人數(shù)最多,是創(chuàng)利最小的客戶。表11.4.8類中心之間的距離矩陣表11.4.9每類的樣品個數(shù)續(xù)例11.6使用K均值聚類法將亞洲國家按經(jīng)濟文教水平分為3類。使用的變量有Country(國家或地區(qū))、Urban(城市人口比例),Lifeexpf(女性平均壽命)、Lifeexpm(男性平均壽命)、Literacy(有讀寫能力的人所占比例)、Gdp_cap(人均國內(nèi)生產(chǎn)總值),以Country標識17個亞洲國家或地區(qū),以其他5個變量進行Q型聚類分析(數(shù)據(jù)World95.sav)。解:(一)SPSS軟件操作:Analyze→Classify→K-MeansCluster。將5個變量選入Variable,將Country用于標識(Labelcasesby)。將分類數(shù)(Numberofclusters)定為3,圖11.4.3。在Option選項中選擇Initialclustercenter(最初類重心),ANOVA(方差分析表),Clusterinformationforeachcase(每個樣品的分類信息)。圖11.4.3K-MeansCluster(二)結(jié)果解釋表11.4.10給出了初始類中心坐標,也就是種子點。表11.4.11給出經(jīng)過多次迭代后,最后各類的重心。表11.4.12給出各類樣品數(shù)目。表11.4.11最后類中心表表11.4.10

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論