聚類分析2021完整版課件_第1頁
聚類分析2021完整版課件_第2頁
聚類分析2021完整版課件_第3頁
聚類分析2021完整版課件_第4頁
聚類分析2021完整版課件_第5頁
已閱讀5頁,還剩123頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

第二章聚類分析第二章聚類分析1第一節(jié)核心思想“物以類聚,人以群分”。“近朱者赤,近墨者黑”在生物學中,為了研究生物的演變,生物學家需要根據(jù)各種生物不同的特征對生物進行分類。在經(jīng)濟學中,根據(jù)經(jīng)濟發(fā)展的不同階段對世界各個國家進行分類.醫(yī)學研究中,闌尾炎類型的劃分:性單純性闌尾炎,急性化膿性闌尾炎,壞疽性及穿孔性闌尾炎。在社會學研究中,需要構造人口生育分類模式、人口死亡分類狀況,以此來研究人口的生育和死亡規(guī)律。第一節(jié)核心思想“物以類聚,人以群分”。2聚類分析的核心思想就是根據(jù)具體的指標(變量)對你所研究的樣品進行分類.指標是什么?書上的例子.將居民戶按戶主收入狀況進行分類,那么衡量收入狀況的指標有:標準工資收入\職工獎金…..樣品是什么?你所研究的11戶居民.進一步解讀指標:間隔尺度有序尺度名義尺度思考:能不能對指標進行聚類?聚類分析的核心思想就是根據(jù)具體的指標(變量)對你所研究的樣品3所以,聚類分析包括兩種類型:Q型聚類:根據(jù)指標(變量)對樣品進行分類R型聚類:對指標(變量)進行分類問題:大家認為聚類的結(jié)果是什么呢?所以,聚類分析包括兩種類型:4第二節(jié)相似性的量度

一樣品相似性的度量

二變量相似性的度量

第二節(jié)相似性的量度一樣品相似性的度量二變5一、樣品相似性的度量Q型聚類分析,常用距離來測度樣品之間的相似程度。選擇p個變量對n個樣品聚類:可以把n個樣品看成p維空間中的n個點,則兩個樣品間相似程度就可用p維空間中的兩點距離來度量。:一、樣品相似性的度量Q型聚類分析,常用距離來測度樣品之間的相6不同的距離公式:1.明考夫斯基距離令dij

表示樣品Xi與Xj的距離不同的距離公式:7明考夫斯基距離的缺陷:容易受變量的量綱影響.

沒有考慮變量間的相關性

兩種改進措施:“馬氏距離”法和變量標準化處理法(見書)明考夫斯基距離的缺陷:8高??蒲械臉颖緦W校參加科研人數(shù)(人)投入經(jīng)費(元)立項課題數(shù)()1410438000019233617300002134902200008歐氏距離元萬元(1,2)26500081.6(1,3)218000193.7(2,3)47000254.8高??蒲械臉颖緦W校參加科研人數(shù)(人)投入經(jīng)費(元)立項課題數(shù)9從距離的定義來看,所有變量都會在距離中做出貢獻,若變量間存在較高的線形相關性,能夠相互替代,那么計算距離就會重復替代,將在距離計算中有較高的權重,從而使最終的聚類結(jié)果更傾向此變量從距離的定義來看,所有變量都會在距離中做出貢獻,若變量間存在10 2.馬氏距離兩個樣品間的馬氏距離為

馬氏距離又稱為廣義歐氏距離。優(yōu)點:

(1)考慮了觀測變量之間的相關性。

如果各變量之間相互獨立,即觀測變量的協(xié)方差矩陣是對角矩陣。(2)不再受各指標量綱的影響。 2.馬氏距離11 4.距離選擇的原則(1)要考慮所選擇的距離公式在實際應用中有明確的意義。如歐氏距離就有非常明確的空間距離概念。馬氏距離有消除量綱影響的作用。(2)要綜合考慮對樣本觀測數(shù)據(jù)的預處理和將要采用的聚類分析方法。如在進行聚類分析之前已經(jīng)對變量作了標準化處理,則通常就可采用歐氏距離。(3)要考慮研究對象的特點和計算量的大小。樣品間距離公式的選擇是一個比較復雜且?guī)в幸欢ㄖ饔^性的問題,我們應根據(jù)研究對象的特點不同做出具體分折。實際中,聚類分析前不妨試探性地多選擇幾個距離公式分別進行聚類,然后對聚類分析的結(jié)果進行對比分析,以確定最合適的距離測度方法。 4.距離選擇的原則12二、變量相似性的度量R型聚類分析中,常用相似系數(shù)表示變量間的相似性。

1、夾角余弦

變量i的第k個取值變量j的第k個取值顯然,∣cos

ij∣1。二、變量相似性的度量R型聚類分析中,常用相似系數(shù)表示變量間13二氧化碳影響因素聚類二氧化碳影響因素聚類14 2.相關系數(shù) 相關系數(shù)經(jīng)常用來度量變量間的相似性。變量Xi與Xj的相關系數(shù)定義為

分別為變量i和j的均值顯然也有,∣rij∣1。 2.相關系數(shù)15有了對單個樣品和單個指標相似形的度量方法后,如何根據(jù)類間距離大小和相關系數(shù)大小來進行分類呢?會用到以下聚類方法:系統(tǒng)聚類模糊聚類K均值聚類有序樣品聚類有了對單個樣品和單個指標相似形的度量方法后,如何根據(jù)類間距離16第三節(jié)系統(tǒng)聚類一系統(tǒng)聚類的基本思想

二類間距離與系統(tǒng)聚類法

三類間距離的統(tǒng)一性

第三節(jié)系統(tǒng)聚類一系統(tǒng)聚類的基本思想二類間距17一、系統(tǒng)聚類的基本思想系統(tǒng)聚類的基本思想是:距離相近的樣品(或變量)先聚成類,距離相遠的后聚成類,過程一直進行下去,每個樣品(或變量)總能聚到合適的類中。系統(tǒng)聚類過程是:假設總共有n個樣品(或變量)第一步:將每個樣品(或變量)獨自聚成一類,共有n類;第二步:根據(jù)所確定的樣品(或變量)“距離”公式,把距離較近的兩個樣品(或變量)聚合為一類,其它的樣品(或變量)仍各自聚為一類,共聚成n

1類;第三步:將“距離”最近的兩個類進一步聚成一類,共聚成n

2類;……,以上步驟一直進行下去,最后將所有的樣品(或變量)全聚成一類。一、系統(tǒng)聚類的基本思想系統(tǒng)聚類的基本思想是:距離相近的樣品(18有兩個關鍵問題:類與類間的距離如何衡量?如何選擇分幾類呢?有兩個關鍵問題:19二、類間距離最短距離法、最長距離法、類平均法、重心法和離差平方和法等。它們的歸類步驟基本上是一致的,主要差異是類間距離的計算方法不同。以下用dij表示樣品(指標)Xi與Xj之間距離,用D表示類Gi與Gj之間的距離。二、類間距離最短距離法、最長距離法、類平均法、重心法和離差平20 1.最短距離法 定義類與之間的距離為兩類最近樣品(指標)的距離,即為

.... 1.最短距離法....21........22....1234....123423聚類分析2021完整版課件24 5.離差平方和法 又稱為Ward法。如果分類正確,同類樣品的離差平方和應當較小,類與類的離差平方和較大。具體做法是先將n個樣品各自成一類,然后每次縮小一類,每縮小一類,離差平方和就要增大,選擇使方差增加最小的兩類合并,直到所有的樣品歸為一類為止。

Dp為p類的離差平方和Dq為q類的離差平方和Dpq為p和q組成總類的離差平方和 5.離差平方和法Dp為p類的離差平方和255.組間平均鏈接該個體與小類中每個個體距離的平均6.組內(nèi)平均鏈接該個體與小類中每個給體距離,以及小類內(nèi)部每個個體距離的平均5.組間平均鏈接該個體與小類中每個個體距離的平均26case歐氏距離12345108.06217.80426.90730.41428.062025.45634.65538.21317.80425.45609.2212.806426.90734.6559.2203.606530.41438.2112.8063.6060case歐氏距離12345108.06217.80426.927三、分類數(shù)的確定可以根據(jù)碎石圖確定:X軸表示分幾類Y軸表示聚合系數(shù)三、分類數(shù)的確定可以根據(jù)碎石圖確定:28四、聚類分析步驟以最短距離法步驟為例:(1)選擇樣品(指標)距離公式,計算樣品的兩兩距離,得距離陣記為D(0)

,開始每個樣品自成一類,這時Dij

=

dij。(2)找出距離最小元素,設為Dpq,則將Gp和Gq合并成一個 新類,記為Gr,即Gr

=

{Gp,Gq}。(3)根據(jù)最短距離法計算新類與其它類的距離。(4)重復(2)、(3)兩步.

如果某一步距離最小的元素不止一個,則對應這些最小元素的類同時合并。四、聚類分析步驟29【例5.1】設有六個樣品,每個只測量一個指標,分別是1,2,5,7,9,10,試用最短距離法將它們分類。 (1)選擇樣品距離公式,絕對距離最簡單,形成D(0)【例5.1】設有六個樣品,每個只測量一個指標,分別是1,2,30

(2)D(0)中最小的元素是D12=D56=1,于是將G1和G2合 并成G7,G5和G6合并成G8,并利用(5.12)式計算新類與其它類的距離D(1)

(2)D(0)中最小的元素是D12=D56=1,于是將G131

(3)在D(1)中最小值是D34=D48=2,由于G4與G3合并, 又與G8合并,因此G3、G4、G8合并成一個新類G9,其與其 它類的距離D(2) (3)在D(1)中最小值是D34=D48=2,由于G4與G32

(4)最后將G7和G9合并成G10,這時所有的六個樣品聚為一類,其過程終止。 上述聚類的可視化過程如下: (4)最后將G7和G9合并成G10,這時所有的六個樣品聚為33【例5.2】針對例5.1的數(shù)據(jù),試用重心法將它們聚類。(1)假設樣品采用歐氏距離,樣品間的平方距離陣D2(0)【例5.2】針對例5.1的數(shù)據(jù),試用重心法將它們聚類。34

(2)D2(0)中最小的元素是D212=D256=1,于是將G1和G2合并成G7,G5和G6合并成G8,新類與其它類的距離得到距離陣D2(1) (2)D2(0)中最小的元素是D212=D256=1,于是35

(3)在D2(1)中最小值是D234=4,那么G3與G4合并一個新類G9,其與與其它類的距離D2(2) (3)在D2(1)中最小值是D234=4,那么G3與G4合36

(4)在中最小值是=12.5,那么與合并一個新類,其與與 其它類的距離 (4)在中最小值是=12.5,那么與合并一個新類,其與與37(5)最后將G7和G10合并成G11,這時所有的六個樣品聚為一類,其過程終止。 上述重心法聚類的可視化過程見圖5.3所示,橫坐標的刻度表示并類的距離。(5)最后將G7和G10合并成G11,這時所有的六個樣品聚為38系統(tǒng)聚類總結(jié):要選擇初始樣品(指標)的相似形測度公式聚成新類后要選擇類與類間的距離公式在選擇哪些樣品(指標)或是哪些類聚合為一類時統(tǒng)一的標準都是距離最近.系統(tǒng)聚類總結(jié):要選擇初始樣品(指標)的相似形測度公式39引申出一個問題,到底選擇哪一種類間距離公式更好呢?最短距離法是用得比較多的引申出一個問題,到底選擇哪一種類間距離公式更好呢?最短距離法40第四節(jié)K均值聚類一、核心思想這種算法的基本思想是將每一個樣品分配給最近中心(均值)的類中,具體的算法至少包括以下三個步驟:1.指定聚類數(shù);2.確定初始類的中心.用戶指定或系統(tǒng)指定.3.根據(jù)距離最近原則進行分類.

計算每個樣本到各類中心點的距離,并按距離最近原則對所有樣品進行分類.第四節(jié)K均值聚類一、核心思想414.重新確定各類中心。利用分配過來的樣本重新計算類均值.5.判斷是否滿足終止聚類的條件.跌代次數(shù):SPSS默認為10類中心點偏移程度:新確定的類中心點距離上個類中心點的最大偏移量小于指定量.4.重新確定各類中心。42系統(tǒng)聚類與K均值聚類的區(qū)別與聯(lián)系K均值法和系統(tǒng)聚類法一樣,都是以距離的遠近親疏為標準進行聚類的.系統(tǒng)聚類可以選擇分類數(shù),而K—均值法只能產(chǎn)生指定類數(shù)的聚類結(jié)果。所以有時也借助系統(tǒng)聚類法以一部分樣品為對象進行聚類,其結(jié)果作為K—均值法確定類數(shù)的參考。系統(tǒng)聚類與K均值聚類的區(qū)別與聯(lián)系43【例5.3】假定我們對A、B、C、D四個樣品分別測量兩個變量,得到結(jié)果。 試將以上的樣品聚成兩類?!纠?.3】假定我們對A、B、C、D四個樣品分別測量兩個變量44

第一步:按要求取K=2,為了實施均值法聚類,我們將這些樣品隨意分成兩類,比如(A、B)和(C、D),然后計算這兩個聚類的中心坐標,見表5.10所示。 中心坐標是通過原始數(shù)據(jù)計算得來的,比如(A、B)類的 第一步:按要求取K=2,為了實施均值法聚類,我們將這些樣品45

第二步:計算某個樣品到各類中心的歐氏平方距離,然后將該樣品分配給最近的一類。對于樣品有變動的類,重新計算它們的中心坐標,為下一步聚類做準備。先計算A到兩個類的平方距離:由于A到(A、B)的距離小于到(C、D)的距離,因此A不用重新分配。計算B到兩類的平方距離:由于B到(A、B)的距離大于到(C、D)的距離,因此B要分配給(C、D)類 第二步:計算某個樣品到各類中心的歐氏平方距離,然后將該樣品46得到新的聚類是(A)和(B、C、D)。更新中心坐標得到新的聚類是(A)和(B、C、D)。更新中心坐標47

第三步:再次檢查每個樣品,以決定是否需要重新分類。計算各樣品到各中心的距離平方。到現(xiàn)在為止,每個樣品都已經(jīng)分配給距離中心最近的類,因此聚類過程到此結(jié)束。最終得到K=2的聚類結(jié)果是A獨自成一類,B、C、D聚成一類。第三步:再次檢查每個樣品,以決定是否需要重新分類。48第五節(jié)實例分析與計算機實現(xiàn)一在SPSS中利用系統(tǒng)聚類法進行聚類分析

二在SPSS中利用K均值法進行聚類分析

第五節(jié)實例分析與計算機實現(xiàn)一在SPSS中利用系統(tǒng)49第一,進行層次聚類分析,得到“凝聚狀態(tài)表”第二步,利用表中第1列和第4列數(shù)據(jù),繪制“碎石圖”。首先將第4列數(shù)據(jù)拷入EXCEL數(shù)據(jù)表中;然后再由EXCEL自動生成以下一列數(shù)據(jù):30、29、28、27……4、3、2、1,相當于將第1列數(shù)據(jù)逆序排列。第三步,以第4列數(shù)據(jù)為橫坐標(X軸),以逆序的第1列數(shù)據(jù)為縱坐標(Y軸)繪制散點圖,這樣就生成我們所需要的“碎石圖”。第一,進行層次聚類分析,得到“凝聚狀態(tài)表”50一、在SPSS中利用系統(tǒng)聚類法進行聚類分析設有20個土壤樣品分別對5個變量的觀測數(shù)據(jù)如表5.16所示,試利用系統(tǒng)聚類法對其進行樣品聚類分析。表5.16土壤樣本的觀測數(shù)據(jù)一、在SPSS中利用系統(tǒng)聚類法進行聚類分析設有20個土壤樣品51聚類分析2021完整版課件52

(一)操作步驟

1.在SPSS窗口中選擇Analyze→Classify→HierachicalCluster,調(diào)出系統(tǒng)聚類分析主界面,并將變量X1~X5移入Variables框中。在Cluster欄中選擇Cases單選按鈕,即對樣品進行聚類(若選擇Variables,則對變量進行聚類)。在Display欄中選擇Statistics和Plots復選框,這樣在結(jié)果輸出窗口中可以同時得到聚類結(jié)果統(tǒng)計量和統(tǒng)計圖。 (一)操作步驟53(3)在D(1)中最小值是D34=D48=2,由于G4與G3合并,如果某一步距離最小的元素不止一個,則對應這些最小元素的類同時合并。思考:能不能對指標進行聚類?(1)選擇樣品距離公式,絕對距離最簡單,形成D(0)第一步:將每個樣品(或變量)獨自聚成一類,共有n類;系統(tǒng)聚類與K均值聚類的區(qū)別與聯(lián)系這一類的類中心三個產(chǎn)業(yè)的產(chǎn)值分別為307.計算B到兩類的平方距離:最短距離法是用得比較多的計算每個樣本到各類中心點的距離,并按距離最近原則對所有樣品進行分類.二類間距離與系統(tǒng)聚類法5,那么與合并一個新類,其與與到現(xiàn)在為止,每個樣品都已經(jīng)分配給距離中心最近的類,因此聚類過程到此結(jié)束。名義尺度分別為變量i和j的均值二類間距離與系統(tǒng)聚類法一系統(tǒng)聚類的基本思想圖5.15K均值聚類分析主界面(3)在D(1)中最小值是D34=D48=2,由于G4與G354 2.點擊Iterate按鈕,對迭代參數(shù)進行設置。MaximumIterations參數(shù)框用于設定K-means算法迭代的最大次數(shù),ConvergenceCriterion參數(shù)框用于設定算法的收斂判據(jù),其值應該介于0和1之間。例如判據(jù)設置為0.02,則當一次完整的迭代不能使任何一個類中心距離的變動與原始類中心距離的比小于2時,迭代停止。設置完這兩個參數(shù)之后,只要在迭代的過程中先滿足了其中的參數(shù),則迭代過程就停止。這里我們選擇系統(tǒng)默認的標準。單擊Continue,返回主界面。圖5.16Iterate子對話框 2.點擊Iterate按鈕,對迭代參數(shù)進行設置。Maxi55 3.點擊Save按鈕,設置保存在數(shù)據(jù)文件中的表明聚類結(jié)果的新變量。其中Clustermembership選項用于建立一個代表聚類結(jié)果的變量,默認變量名為qcl_1;Distancefromclustercenter選項建立一個新變量,代表各觀測量與其所屬類中心的歐氏距離。我們將兩個復選框都選中,單擊Continue按鈕返回。圖5.17Save子對話框 3.點擊Save按鈕,設置保存在數(shù)據(jù)文件中的表明聚類結(jié)果56 4.點擊Options按鈕,指定要計算的統(tǒng)計量。選中Initialclustercenters和Clusterinformationforeachcase復選框。這樣,在輸出窗口中將給出聚類的初始類中心和每個觀測量的分類信息,包括分配到哪一類和該觀測量距所屬類中心的距離。單擊Continue返回。

5.點擊OK按鈕,運行K均值聚類分析程序。圖5.18Options子對話框 4.點擊Options按鈕,指定要計算的統(tǒng)計量。選中In57

(二)主要運行結(jié)果解釋

1.InitialClusterCenters(給出初始類中心)

2.IterationHistory(給出每次迭代結(jié)束后類中心的變動) 從表5.18中可以看到本次聚類過程共經(jīng)歷了三次迭代。由于我們在Iterate子對話框中使用系統(tǒng)默認的選項(最大迭代次數(shù)為10和收斂判據(jù)為0),所以在第三次迭代后,類中心的變化為0,從而迭代停止。 (二)主要運行結(jié)果解釋58 3.ClusterMembership(給出各觀測量所屬的類及與所屬類中心的距離) 表5.19中Cluster列給出了觀測量所屬的類別,Distance列給出了觀測量與所屬類中心的距離。(出于排版要求,此表經(jīng)過加工,因此與原始輸出表形態(tài)有一定差異)。表5.18迭代過程中類中心的變化量表5.18迭代過程中類中心的變化量59表5.19各觀測量所屬類成員表表5.19各觀測量所屬類成員表60 4.FinalClusterCenters(給出聚類結(jié)果形成的類中心的各變量值)表5.20最終的類中心表 4.FinalClusterCenters(給出聚類61結(jié)合表5.19和表5.20,我們可以看出31個地區(qū)被分成3類。第一類包括:江蘇、浙江、山東和廣東4個省。這一類的類中心三個產(chǎn)業(yè)的產(chǎn)值分別為1102.14億元、6423.01億元和4454.26億元,屬于三個產(chǎn)業(yè)都比較發(fā)達的地區(qū)。第二類包括:天津、山西、內(nèi)蒙古、吉林、江西、廣西、海南、重慶、貴州、云南、西藏、陜西、甘肅、青海、寧夏和新疆16個地區(qū)。這一類的類中心三個產(chǎn)業(yè)的產(chǎn)值分別為307.61億元、795.41億元和673.63億元,屬于欠發(fā)達地區(qū)。剩下的11個地區(qū)為第三類。這一類的類中心三個產(chǎn)業(yè)的產(chǎn)值分別為713.28億元、2545.20億元和212.87億元,屬于中等發(fā)達地區(qū)。

5.由于我們已經(jīng)在Save子對話框中設置了在數(shù)據(jù)文件中生成新的分類變量,所以,在數(shù)據(jù)編輯窗口中,我們可以看到生成的兩個表示分類結(jié)果的新變量。變量qcl_1和變量qcl_2分別代表分類號和觀測量距所屬類中心的距離。結(jié)合表5.19和表5.20,我們可以看出31個地區(qū)被分成3類62章節(jié)練習

樣品為:全國31個省市

指標為:地區(qū)生產(chǎn)總值\人均GDP\城鎮(zhèn)人口比重(城鎮(zhèn)化率)\人口規(guī)模\萬元地區(qū)生產(chǎn)總值能耗\

進行聚類分析:選擇合適的聚類方法并對結(jié)果作出合理的解釋

章節(jié)練習

樣品為:全國31個省市

指標為:地區(qū)生產(chǎn)總值\人均63聚類分析2021完整版課件64第二章聚類分析第二章聚類分析65第一節(jié)核心思想“物以類聚,人以群分”。“近朱者赤,近墨者黑”在生物學中,為了研究生物的演變,生物學家需要根據(jù)各種生物不同的特征對生物進行分類。在經(jīng)濟學中,根據(jù)經(jīng)濟發(fā)展的不同階段對世界各個國家進行分類.醫(yī)學研究中,闌尾炎類型的劃分:性單純性闌尾炎,急性化膿性闌尾炎,壞疽性及穿孔性闌尾炎。在社會學研究中,需要構造人口生育分類模式、人口死亡分類狀況,以此來研究人口的生育和死亡規(guī)律。第一節(jié)核心思想“物以類聚,人以群分”。66聚類分析的核心思想就是根據(jù)具體的指標(變量)對你所研究的樣品進行分類.指標是什么?書上的例子.將居民戶按戶主收入狀況進行分類,那么衡量收入狀況的指標有:標準工資收入\職工獎金…..樣品是什么?你所研究的11戶居民.進一步解讀指標:間隔尺度有序尺度名義尺度思考:能不能對指標進行聚類?聚類分析的核心思想就是根據(jù)具體的指標(變量)對你所研究的樣品67所以,聚類分析包括兩種類型:Q型聚類:根據(jù)指標(變量)對樣品進行分類R型聚類:對指標(變量)進行分類問題:大家認為聚類的結(jié)果是什么呢?所以,聚類分析包括兩種類型:68第二節(jié)相似性的量度

一樣品相似性的度量

二變量相似性的度量

第二節(jié)相似性的量度一樣品相似性的度量二變69一、樣品相似性的度量Q型聚類分析,常用距離來測度樣品之間的相似程度。選擇p個變量對n個樣品聚類:可以把n個樣品看成p維空間中的n個點,則兩個樣品間相似程度就可用p維空間中的兩點距離來度量。:一、樣品相似性的度量Q型聚類分析,常用距離來測度樣品之間的相70不同的距離公式:1.明考夫斯基距離令dij

表示樣品Xi與Xj的距離不同的距離公式:71明考夫斯基距離的缺陷:容易受變量的量綱影響.

沒有考慮變量間的相關性

兩種改進措施:“馬氏距離”法和變量標準化處理法(見書)明考夫斯基距離的缺陷:72高校科研的樣本學校參加科研人數(shù)(人)投入經(jīng)費(元)立項課題數(shù)()1410438000019233617300002134902200008歐氏距離元萬元(1,2)26500081.6(1,3)218000193.7(2,3)47000254.8高??蒲械臉颖緦W校參加科研人數(shù)(人)投入經(jīng)費(元)立項課題數(shù)73從距離的定義來看,所有變量都會在距離中做出貢獻,若變量間存在較高的線形相關性,能夠相互替代,那么計算距離就會重復替代,將在距離計算中有較高的權重,從而使最終的聚類結(jié)果更傾向此變量從距離的定義來看,所有變量都會在距離中做出貢獻,若變量間存在74 2.馬氏距離兩個樣品間的馬氏距離為

馬氏距離又稱為廣義歐氏距離。優(yōu)點:

(1)考慮了觀測變量之間的相關性。

如果各變量之間相互獨立,即觀測變量的協(xié)方差矩陣是對角矩陣。(2)不再受各指標量綱的影響。 2.馬氏距離75 4.距離選擇的原則(1)要考慮所選擇的距離公式在實際應用中有明確的意義。如歐氏距離就有非常明確的空間距離概念。馬氏距離有消除量綱影響的作用。(2)要綜合考慮對樣本觀測數(shù)據(jù)的預處理和將要采用的聚類分析方法。如在進行聚類分析之前已經(jīng)對變量作了標準化處理,則通常就可采用歐氏距離。(3)要考慮研究對象的特點和計算量的大小。樣品間距離公式的選擇是一個比較復雜且?guī)в幸欢ㄖ饔^性的問題,我們應根據(jù)研究對象的特點不同做出具體分折。實際中,聚類分析前不妨試探性地多選擇幾個距離公式分別進行聚類,然后對聚類分析的結(jié)果進行對比分析,以確定最合適的距離測度方法。 4.距離選擇的原則76二、變量相似性的度量R型聚類分析中,常用相似系數(shù)表示變量間的相似性。

1、夾角余弦

變量i的第k個取值變量j的第k個取值顯然,∣cos

ij∣1。二、變量相似性的度量R型聚類分析中,常用相似系數(shù)表示變量間77二氧化碳影響因素聚類二氧化碳影響因素聚類78 2.相關系數(shù) 相關系數(shù)經(jīng)常用來度量變量間的相似性。變量Xi與Xj的相關系數(shù)定義為

分別為變量i和j的均值顯然也有,∣rij∣1。 2.相關系數(shù)79有了對單個樣品和單個指標相似形的度量方法后,如何根據(jù)類間距離大小和相關系數(shù)大小來進行分類呢?會用到以下聚類方法:系統(tǒng)聚類模糊聚類K均值聚類有序樣品聚類有了對單個樣品和單個指標相似形的度量方法后,如何根據(jù)類間距離80第三節(jié)系統(tǒng)聚類一系統(tǒng)聚類的基本思想

二類間距離與系統(tǒng)聚類法

三類間距離的統(tǒng)一性

第三節(jié)系統(tǒng)聚類一系統(tǒng)聚類的基本思想二類間距81一、系統(tǒng)聚類的基本思想系統(tǒng)聚類的基本思想是:距離相近的樣品(或變量)先聚成類,距離相遠的后聚成類,過程一直進行下去,每個樣品(或變量)總能聚到合適的類中。系統(tǒng)聚類過程是:假設總共有n個樣品(或變量)第一步:將每個樣品(或變量)獨自聚成一類,共有n類;第二步:根據(jù)所確定的樣品(或變量)“距離”公式,把距離較近的兩個樣品(或變量)聚合為一類,其它的樣品(或變量)仍各自聚為一類,共聚成n

1類;第三步:將“距離”最近的兩個類進一步聚成一類,共聚成n

2類;……,以上步驟一直進行下去,最后將所有的樣品(或變量)全聚成一類。一、系統(tǒng)聚類的基本思想系統(tǒng)聚類的基本思想是:距離相近的樣品(82有兩個關鍵問題:類與類間的距離如何衡量?如何選擇分幾類呢?有兩個關鍵問題:83二、類間距離最短距離法、最長距離法、類平均法、重心法和離差平方和法等。它們的歸類步驟基本上是一致的,主要差異是類間距離的計算方法不同。以下用dij表示樣品(指標)Xi與Xj之間距離,用D表示類Gi與Gj之間的距離。二、類間距離最短距離法、最長距離法、類平均法、重心法和離差平84 1.最短距離法 定義類與之間的距離為兩類最近樣品(指標)的距離,即為

.... 1.最短距離法....85........86....1234....123487聚類分析2021完整版課件88 5.離差平方和法 又稱為Ward法。如果分類正確,同類樣品的離差平方和應當較小,類與類的離差平方和較大。具體做法是先將n個樣品各自成一類,然后每次縮小一類,每縮小一類,離差平方和就要增大,選擇使方差增加最小的兩類合并,直到所有的樣品歸為一類為止。

Dp為p類的離差平方和Dq為q類的離差平方和Dpq為p和q組成總類的離差平方和 5.離差平方和法Dp為p類的離差平方和895.組間平均鏈接該個體與小類中每個個體距離的平均6.組內(nèi)平均鏈接該個體與小類中每個給體距離,以及小類內(nèi)部每個個體距離的平均5.組間平均鏈接該個體與小類中每個個體距離的平均90case歐氏距離12345108.06217.80426.90730.41428.062025.45634.65538.21317.80425.45609.2212.806426.90734.6559.2203.606530.41438.2112.8063.6060case歐氏距離12345108.06217.80426.991三、分類數(shù)的確定可以根據(jù)碎石圖確定:X軸表示分幾類Y軸表示聚合系數(shù)三、分類數(shù)的確定可以根據(jù)碎石圖確定:92四、聚類分析步驟以最短距離法步驟為例:(1)選擇樣品(指標)距離公式,計算樣品的兩兩距離,得距離陣記為D(0)

,開始每個樣品自成一類,這時Dij

=

dij。(2)找出距離最小元素,設為Dpq,則將Gp和Gq合并成一個 新類,記為Gr,即Gr

=

{Gp,Gq}。(3)根據(jù)最短距離法計算新類與其它類的距離。(4)重復(2)、(3)兩步.

如果某一步距離最小的元素不止一個,則對應這些最小元素的類同時合并。四、聚類分析步驟93【例5.1】設有六個樣品,每個只測量一個指標,分別是1,2,5,7,9,10,試用最短距離法將它們分類。 (1)選擇樣品距離公式,絕對距離最簡單,形成D(0)【例5.1】設有六個樣品,每個只測量一個指標,分別是1,2,94

(2)D(0)中最小的元素是D12=D56=1,于是將G1和G2合 并成G7,G5和G6合并成G8,并利用(5.12)式計算新類與其它類的距離D(1)

(2)D(0)中最小的元素是D12=D56=1,于是將G195

(3)在D(1)中最小值是D34=D48=2,由于G4與G3合并, 又與G8合并,因此G3、G4、G8合并成一個新類G9,其與其 它類的距離D(2) (3)在D(1)中最小值是D34=D48=2,由于G4與G96

(4)最后將G7和G9合并成G10,這時所有的六個樣品聚為一類,其過程終止。 上述聚類的可視化過程如下: (4)最后將G7和G9合并成G10,這時所有的六個樣品聚為97【例5.2】針對例5.1的數(shù)據(jù),試用重心法將它們聚類。(1)假設樣品采用歐氏距離,樣品間的平方距離陣D2(0)【例5.2】針對例5.1的數(shù)據(jù),試用重心法將它們聚類。98

(2)D2(0)中最小的元素是D212=D256=1,于是將G1和G2合并成G7,G5和G6合并成G8,新類與其它類的距離得到距離陣D2(1) (2)D2(0)中最小的元素是D212=D256=1,于是99

(3)在D2(1)中最小值是D234=4,那么G3與G4合并一個新類G9,其與與其它類的距離D2(2) (3)在D2(1)中最小值是D234=4,那么G3與G4合100

(4)在中最小值是=12.5,那么與合并一個新類,其與與 其它類的距離 (4)在中最小值是=12.5,那么與合并一個新類,其與與101(5)最后將G7和G10合并成G11,這時所有的六個樣品聚為一類,其過程終止。 上述重心法聚類的可視化過程見圖5.3所示,橫坐標的刻度表示并類的距離。(5)最后將G7和G10合并成G11,這時所有的六個樣品聚為102系統(tǒng)聚類總結(jié):要選擇初始樣品(指標)的相似形測度公式聚成新類后要選擇類與類間的距離公式在選擇哪些樣品(指標)或是哪些類聚合為一類時統(tǒng)一的標準都是距離最近.系統(tǒng)聚類總結(jié):要選擇初始樣品(指標)的相似形測度公式103引申出一個問題,到底選擇哪一種類間距離公式更好呢?最短距離法是用得比較多的引申出一個問題,到底選擇哪一種類間距離公式更好呢?最短距離法104第四節(jié)K均值聚類一、核心思想這種算法的基本思想是將每一個樣品分配給最近中心(均值)的類中,具體的算法至少包括以下三個步驟:1.指定聚類數(shù);2.確定初始類的中心.用戶指定或系統(tǒng)指定.3.根據(jù)距離最近原則進行分類.

計算每個樣本到各類中心點的距離,并按距離最近原則對所有樣品進行分類.第四節(jié)K均值聚類一、核心思想1054.重新確定各類中心。利用分配過來的樣本重新計算類均值.5.判斷是否滿足終止聚類的條件.跌代次數(shù):SPSS默認為10類中心點偏移程度:新確定的類中心點距離上個類中心點的最大偏移量小于指定量.4.重新確定各類中心。106系統(tǒng)聚類與K均值聚類的區(qū)別與聯(lián)系K均值法和系統(tǒng)聚類法一樣,都是以距離的遠近親疏為標準進行聚類的.系統(tǒng)聚類可以選擇分類數(shù),而K—均值法只能產(chǎn)生指定類數(shù)的聚類結(jié)果。所以有時也借助系統(tǒng)聚類法以一部分樣品為對象進行聚類,其結(jié)果作為K—均值法確定類數(shù)的參考。系統(tǒng)聚類與K均值聚類的區(qū)別與聯(lián)系107【例5.3】假定我們對A、B、C、D四個樣品分別測量兩個變量,得到結(jié)果。 試將以上的樣品聚成兩類。【例5.3】假定我們對A、B、C、D四個樣品分別測量兩個變量108

第一步:按要求取K=2,為了實施均值法聚類,我們將這些樣品隨意分成兩類,比如(A、B)和(C、D),然后計算這兩個聚類的中心坐標,見表5.10所示。 中心坐標是通過原始數(shù)據(jù)計算得來的,比如(A、B)類的 第一步:按要求取K=2,為了實施均值法聚類,我們將這些樣品109

第二步:計算某個樣品到各類中心的歐氏平方距離,然后將該樣品分配給最近的一類。對于樣品有變動的類,重新計算它們的中心坐標,為下一步聚類做準備。先計算A到兩個類的平方距離:由于A到(A、B)的距離小于到(C、D)的距離,因此A不用重新分配。計算B到兩類的平方距離:由于B到(A、B)的距離大于到(C、D)的距離,因此B要分配給(C、D)類 第二步:計算某個樣品到各類中心的歐氏平方距離,然后將該樣品110得到新的聚類是(A)和(B、C、D)。更新中心坐標得到新的聚類是(A)和(B、C、D)。更新中心坐標111

第三步:再次檢查每個樣品,以決定是否需要重新分類。計算各樣品到各中心的距離平方。到現(xiàn)在為止,每個樣品都已經(jīng)分配給距離中心最近的類,因此聚類過程到此結(jié)束。最終得到K=2的聚類結(jié)果是A獨自成一類,B、C、D聚成一類。第三步:再次檢查每個樣品,以決定是否需要重新分類。112第五節(jié)實例分析與計算機實現(xiàn)一在SPSS中利用系統(tǒng)聚類法進行聚類分析

二在SPSS中利用K均值法進行聚類分析

第五節(jié)實例分析與計算機實現(xiàn)一在SPSS中利用系統(tǒng)113第一,進行層次聚類分析,得到“凝聚狀態(tài)表”第二步,利用表中第1列和第4列數(shù)據(jù),繪制“碎石圖”。首先將第4列數(shù)據(jù)拷入EXCEL數(shù)據(jù)表中;然后再由EXCEL自動生成以下一列數(shù)據(jù):30、29、28、27……4、3、2、1,相當于將第1列數(shù)據(jù)逆序排列。第三步,以第4列數(shù)據(jù)為橫坐標(X軸),以逆序的第1列數(shù)據(jù)為縱坐標(Y軸)繪制散點圖,這樣就生成我們所需要的“碎石圖”。第一,進行層次聚類分析,得到“凝聚狀態(tài)表”114一、在SPSS中利用系統(tǒng)聚類法進行聚類分析設有20個土壤樣品分別對5個變量的觀測數(shù)據(jù)如表5.16所示,試利用系統(tǒng)聚類法對其進行樣品聚類分析。表5.16土壤樣本的觀測數(shù)據(jù)一、在SPSS中利用系統(tǒng)聚類法進行聚類分析設有20個土壤樣品115聚類分析2021完整版課件116

(一)操作步驟

1.在SPSS窗口中選擇Analyze→Classify→HierachicalCluster,調(diào)出系統(tǒng)聚類分析主界面,并將變量X1~X5移入Variables框中。在Cluster欄中選擇Cases單選按鈕,即對樣品進行聚類(若選擇Variables,則對變量進行聚類)。在Display欄中選擇Statistics和Plots復選框,這樣在結(jié)果輸出窗口中可以同時得到聚類結(jié)果統(tǒng)計量和統(tǒng)計圖。 (一)操作步驟117(3)在D(1)中最小值是D34=D48=2,由于G4與G3合并,如果某一步距離最小的元素不止一個,則對應這些最小元素的類同時合并。思考:能不能對指標進行聚類?(1)選擇樣品距離公式,絕對距離最簡單,形成D(0)第一步:將每個樣品(或變量)獨自聚成一類,共有n類;系統(tǒng)聚類與K均值聚類的區(qū)別與聯(lián)系這一類的類中心三個產(chǎn)業(yè)的產(chǎn)值分別為307.計算B到兩類的平方距離:最短距離法是用得比較多的計算每個樣本到各類中心點的距離,并按距離最近原則對所有樣品進行分類.二類間距離與系統(tǒng)聚類法5,那么與合并一個新類,其與與到現(xiàn)在為止,每個樣品都已經(jīng)分配給距離中心最近的類,因此聚類過程到此結(jié)束。名義尺度分別為變量i和j的均值二類間距離與系統(tǒng)聚類法一系統(tǒng)聚類的基本思想圖5.15K均值聚類分析主界面(3)在D(1)中最小值是D34=D48=2,由于G4與G3118 2.點擊Iterate按鈕,對迭代參數(shù)進行設置。MaximumIterations參數(shù)框用于設定K-m

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論