大數據技術及應用 習題及答案_第1頁
大數據技術及應用 習題及答案_第2頁
大數據技術及應用 習題及答案_第3頁
大數據技術及應用 習題及答案_第4頁
大數據技術及應用 習題及答案_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大數據技術及應用習題及答案

第1章

1.1概念:大數據是指大小超出傳統(tǒng)數據庫工具的獲取、存儲、管理和分析能力的數據集。

特征:規(guī)模龐大(Volume),種類繁多(Variety),生成快速(Velocity),來源真實

(Veracity),...

1.2數據采集、數據預處理、數據分析與挖掘、數據展現與可視化。

1.3目的:監(jiān)督并改善數據的質量,保證后續(xù)分析挖掘結果的有效性。

主要操作:數據清洗、數據集成、數據轉換和數據歸約。

1.4統(tǒng)計分析、機器學習、數據挖掘等。

1.5略。

第2章

2.1分類:系統(tǒng)日志采集、網絡數據采集、傳感器采集、其他采集方法等。

特點:大規(guī)模、海量存儲、高速傳輸、實時采集、支持分布式架構、可擴展性。

適用范圍:系統(tǒng)日志、網頁數據、電子商務信息、傳感器數據、科學領域數據等。

2.2來源:企業(yè)信息管理系統(tǒng)、網絡信息系統(tǒng)、物聯網信息系統(tǒng)、科學研究實驗系統(tǒng)。

應用場合:企業(yè)信息管理系統(tǒng)針對企業(yè)、機關內部的業(yè)務平臺如辦公自動化系統(tǒng)、事

務管理系統(tǒng)等;網絡信息系統(tǒng)針對互聯網絡平臺上的各種信息系統(tǒng);物聯網信息系統(tǒng)針對各

種傳感器設備及監(jiān)控系統(tǒng);科學研究實驗系統(tǒng)針對科學大數據。

2.3基本流程:對采集到的海量數據進行數據挖掘處理之前,需要先對原始數據進行必要

的數據清洗、數據集成、數據變換和數據歸約等多項處理工作,必要時可以進行多次數據預

處理。

作用:改進原始數據的質量.滿足后續(xù)的數據挖掘算法進行知識獲取的目的,達到客

戶應用的挖掘需求。

2.4數據清洗的基本處理過程:數據分析、確定數據清洗規(guī)則和策略、數據檢測、數據清

洗、數據評估和干凈數據回流六個步驟。

2.5箱1:60,61,65

箱2:70,73,81

箱3:85,90,92

平均值平滑處理:箱1:62,62,62箱2:75,75,75箱3:89,89,89

邊界值平滑處理:箱1:60,60,65箱2:70,70,81箱3:85,92,92

2.6最小.最大值規(guī)范化:適用于已知屬性的取值范圍,對原始數據進行線性變換的場合。

z-score規(guī)范化:基于屬性的平均值和標準差進行規(guī)范化的方法,適用于屬性的最大值

和最小值未知,或者孤立點左右了最小?最大規(guī)范化的場合。

小數定標規(guī)范化:值域區(qū)間[-1,1]。

2.7(1)最小-最大值規(guī)范化:%轉換到[0.0,1.0]區(qū)間,為0.25。

(2)z-score:其中標準偏差為15.36,94規(guī)范為-0.391。

(3)小數定標規(guī)范化:94規(guī)范為0.094。

2.8常見的大數據采集及處理平臺類別:常見的大數據采集工具有Apache的Chukwa、

Facebook的Scribe>Cloudera的Flume>Linkedin的Kafka和阿里的TT(TimeTunnel)等。

應用場合:大多是作為完整的大數據處理平臺而設計的,不僅可以進行海量日志數據

的采集,還可以實現數據的聚合和傳輸。

第3章

3.1傳統(tǒng)存儲分為直連式存儲和網絡連接存儲。直連式存儲是通過服務器內部直接連接磁

盤組,或者通過外接線連接磁盤陣列。這種方式通常需要通過硬件RAID卡或者軟RAID的

方式實現磁盤的冗余保護,防止由于磁盤故障導致整個存儲系統(tǒng)的不可用而丟失數據。網絡

連接是通過以太網方式接入并進行訪問的存儲形式,是一臺在網絡上提供文檔共享服務的網

絡存儲服務器。存儲設備可以直接連接在以太網中,使用者可以通過某種方式(例如linux

下的mount命令)將存儲服務掛載到本地進行訪問,在本地呈現的就是一個文件目錄樹。

3.2名稱節(jié)點是HDFS系統(tǒng)中的管理者,負責管理文件系統(tǒng)的命名空間,記錄每個文件中

各個塊所在的數據節(jié)點的位置信息,維護文件系統(tǒng)的文件樹及所有的文件和目錄的無數據。

數據節(jié)點存儲所有具體數據并根據需要檢索數據塊,受客戶端或名稱節(jié)點調度,數據節(jié)點定

期向名稱節(jié)點發(fā)送它們所存儲的塊的列表。同時,它會通過心跳定時向名稱節(jié)點發(fā)送所存儲

的文件塊信息。

3.3為了保證系統(tǒng)的容錯性和可用性,HDFS采用了多副本方式對數據進行冗余存儲,通常

一個數據塊的多個副本會被分配到不同的數據節(jié)點上。在讀取數據時,為了減少整體的帶寬

消耗和降低整體的帶寬時延,HDFS會盡量讓讀取程序讀取離客戶端最近的副本。如果讀取

程序的同一個機架上有一個副本,那么就讀取該副本:如果一個HDFS集群跨越多個數據中

心,那么客戶端也將首先讀取本地數據中心的副本。

3.4NoSQL是一種不同于關系數據庫的數據庫管理系統(tǒng)設計方式,是對非關系型數據庫的

統(tǒng)稱。NoSQL技術引入了靈活的數據模型、水平可伸縮性和無模式數據模型,典型的NoSQL

數據庫通常包括鍵值數據庫、列族數據庫、文檔數據庫和圖數據庫,這些數據庫旨在提供易

于擴展和管理的大量數據。

3.5CAP理論可簡單描述為:一個分布式系統(tǒng)不能同時滿足一致性(consistency)、可用性

(availability)和分區(qū)容錯性(partitiontolerance)這3個需求,最多只能同時滿足兩個。

3.6HBase使用坐標來定位表中的數據,也就是說,每個值都是通過坐標來訪問的。需要根

據行鍵、列族、列限定符和時間戳來確定一個單元格,因此可以視為一個“四維坐標”。

3.7每個Region服務器負責管理一個Region集合,通常在每個Reg沁n服務器上會放置

107000個Region。當存儲數據量非常龐大時,必須設計相應的Region定位機制,保證客

戶端知道哪里可以找到自己所需要的數據。每個Region都有一個RegionlD來標識它的唯一

性,這樣,一個Region標識符就可以表示成“表名+開始主鍵+RegioMD”。

3.8當客戶端提出數據訪問請求時,首先在Zookeeper集群上查找-ROOT-的位置,然后客

戶端通過-ROOT-查找請求所在范圍所屬.META.的區(qū)域位置,接著,客戶端查找.META.區(qū)域

位置來獲取用戶空間區(qū)域所在節(jié)點及其位置;最后,客戶端即可?直接與管理該區(qū)域的Region

服務器進行交互。一旦客戶端知道了數據的實際位置(某Region服務器位置),該Client會

宜接和這個Region服務器進行交互,也就是說,客戶端需要通過“三級尋址”過程找到用

戶數據表所在的region服務器,然后直接訪問該Region服務器獲得數據。

3.9數據倉庫是一個面向主題的(SubjectOriented)、集成的(Integrated)、相對穩(wěn)定的(Non-

Volatile)、反映歷史變化(TimeVariant)的數據集合,用于支持管理決策,數據倉庫是在數

據庫已經大量存在的情況下,為了進一步挖掘數據資源、為了決策需要而產生的。一個典

型的數據倉庫主要包含4個層次:數據源、數據存儲和管理、數據服務、數據應用.

3.10基本架構包括:

1.數據源:是數據倉庫的數據來源,包括了外部數據、現有業(yè)務系統(tǒng)和文檔資料等。

2.數據集成:完成數據的抽取、清洗、轉換和加載任務,數據源中的數據采用ETL工

具以固定周期加載到數據倉庫中。

3.數據存儲和管理:這一層次主要涉及對數據的存儲和管理,包括數據倉庫、數據集

市、數據倉庫檢測、運行與維護工具和無數據管理等。

4.數據服務:為前端工具和應用提供數據服務,可以宜接從數據倉庫中獲取數據供前

端應用使用,也可以通過OLAP服務器為前端應用提供更加復:雜的數據服務。

5.數據應用:這一層次直接面向最終用戶,包括數據查詢工具、自由報表工具、數據

分析工具、數據挖掘工具和各類應用系統(tǒng)。

第4章

4.1分類用于找出一組數據對象的共同特點并按照一定的模式將其劃分為不同的類。分類

的目的是分析輸入數據,通過訓練集中的數據表現出來的特性構造出一個分類函數或分類模

型,該模型常被稱為分類器,用于將未知類別的樣本數據映射到給定類別中。

分類技術也因此被廣泛的應用于如欺詐檢測、目標營銷、醫(yī)療診斷、人臉檢測、故障診

斷和故障預警等。

4.2數據分類過程總體可以分為兩個階段:

第一階段,建立描述預先定義的數據類或概念集的分類器。這是學習階段(或訓練階

段),其中分類算法通過分析或從訓練集“學習”來構造分類器。通過對訓練數據中各數據

行的內容進行分析,從而認為每一行數據是屬于一個確定的數據類別,其類別值是由一個屬

性描述(類標號)。

第二階段,使用模型進行分類。首先評估分類器的預測準確率,選取獨立于訓練集數據

的測試集,通過第一階段構造出的分類器對給定測試集的數據進行分類。將分類出的每條測

試記錄的類標號與學習模型對該記錄的類預測進行比較,如果分類器的性能達到預定要求,

就用該模型對類標號未知的數據記錄進行分類。

4.3決策樹算法采用不同的度量準則,主要有以下三種:信息增益、增益率和基尼指數。

信息增益準則傾向于選擇具有大量不同取值的屬性,從而產生許多小而純的子集。信息增益

率會導致數據集劃分不平衡,其中一個分區(qū)比其它分區(qū)小的多?;嶂笖灯∮诙嘀祵傩?

當類的數量很大時會有困難,還傾向于導致相等大小的分區(qū)和純度。

4.4有準確率、精確率、召回率、假正率、真負率、假負率、F度量和ROC曲線與AUC曲

線等。

4.5

4.6幸存可能性為0.0347,遇難可能性0.0261。

與4.5題結果對比:略。

4.7(1)0.116;(2)0.496;(3)0.002347o

4.8最近鄰:由于%=+1,因此戈的類標號為+1;

k?近鄰(k=3):由于丫2=+1,丫7=-1,=一1,因此%的類標號為一1。

第5章

5.1參見5.1節(jié)。

5.2參見5.2節(jié)。

5.3(1)繪制學習時間與測試成績的散點圖;

70

0-----------------------------------------------------------------------------------------

00.511.522.533.5

學習時間(小時)

(2)鳳=-0.157和方=19.029

(3)R2=0.867

5.4(1)y=0.032241+0.069986%+0.429138々

(2)R2=0.854

5.5與一元線性回歸模型單個自變量相比,當多元線性回歸模型自變量數目增多時,若自

變量均與因變量相關性很強,得到的回歸方程擬合效果會更接近真實情況.

5.6(1)散點圖:

(2)y=29.62721+0.032633X

(3)R2=0.9931

5.7非線性關系的處理分為三種情況:第一種是自變量X和因變量Y之間的關系通過函數

替換轉為線性,然后利用線性回歸模型的求解方法估計回歸參數,并作出回歸診斷;第二種

是當自變量X與因變量Y之間的非線性關系對應的描述函數形式不明確時,采用多項式回

歸分析方法,進而轉化為多元線性逐步回歸來進行求解;第三種是自變量X與因變量Y之

間的非線性關系對應的描述函數形式很明確,但回歸參數是未知的,大能像第一種情況那樣

通過函數替換轉化為線性關系,需要采用比較復雜的擬合方法或者數學模型來求解,通常利

用泰勒級數展開,并進行數值迭代來近似逼近實際曲線。

5.8常見的非線性函數有雙曲線、半對數、雙對數、三角函數、指數函數、累函數等,其線

性化方法參見532節(jié)。

5.9(1)y=1100.13+42.1707^+5.7678x,2

(2)平均絕對百分誤差MAPE為4.105。

(3)

SUMMARYOUTPUT

回歸統(tǒng)計

MultipleR0.999689365

RSquare0.999378827

AdjustedR0.999201349

懷準誤差8Z1.0954:347

觀測值10

方差分析

SSMSFgnificanceF

7.59E+093.8E+095631.0015.97E-12

計4719384674197.7

7.6E+09

Coefficients標準1天差tStatP-valueLower95%Upper95%~F限95.S上限95.0%

Intercept____1100.129724983.39551.1187050.300181-1225.233425.491-1225.233425.491

XVariable42.1706999832.2061.3094050.231736-33.9844118.3258-33.9844118.3258

XVariable5.7677973660.22860325.230663.92E-085.2272386.3083575.2272386.308357

5.10多項式回歸模型用來解決生活中一大類非線性回歸問題,常用亍描述經濟生活中的生

產成本關系,這些因變量與自變量之間的關系通常都無法用線性回歸模型來表示,但是可以

用多項式回歸方程加以描述。根據泰勒級數展開的原理,任何曲面、曲線、超曲面問題,在

一定范圍內,都可以通過增加高次項來無限逼近其實數據,因此可用適當階數的多項式方程

來近似描述。

基本原理:多項式回歸問題通??梢允褂米兞看鷵Q法轉化為多元線性回歸問題來處理,

參照線性回歸模型的求解思路,使用最小二乘法(OLS)完成對多項式回歸模型的參數估計。

第6章

6.1相同點:都是根據研究對象的特征對它們進行分類。

不同點:分類是一種監(jiān)督式學習方法,預先已經劃分好類別;聚類屬于非監(jiān)督式學習,

預先未定義類別,是通過樣本集合發(fā)現數據自身的內部結構,建立起一種有意義的或者有用

的歸類方法。

6.2連續(xù)屬性:距離,相似系數

二值離散屬性:匹配距離,相似系數

多值離散屬性:簡單匹配法,轉換為多個二值離散屬性

6.3(答案不唯一)

選擇“北京”、“青海”、“新疆”為初始聚類中心,得到聚類結果為:

Cl=(北京,山西,內蒙古,遼寧,吉林,黑龍江,上海,廣西,貴州,云南,陜西,

福建,新疆}

C2={天津,青海}

C3={河北,浙江,廣東,江蘇}

6.4兩個簇:Cj={h,ij}9G={a,"c,d,e,/,g}

6.5最近距離法:

第一步:

■V/X2&X5X3X4X6

XI00.650.570.460.32

X2&X50.6500.150.240.11

X30.570.1500.560.04

X40.460.240.5600.26

X60.320.110.040.260

第二步:

X112&巧X3&X6X4

XI00.650.320.46

X2&X50.6500.110.24

X3&X60.320.1100.26

X40.460.240.260

第三步:

XiX2&X5&X3&X6X4

XI00.320.46

X2&X5&JC3&JC60.3200.24

X40.460.240

第四步:

XiX2&X5&X3&X6&X4

XI00.32

X2&X5&X3&JC6&J:40.320

最遠距離法:

第一步:

X2&X5

XlX3X4x6

Xl00.900.570.46032

X2&X50.9000.340.520.19

Xi0.570.3400.560.04

X40.460.520.5600.26

X60.320.190.040.260

第二步:

XIX2&X5X3&X6X4

Xi00.900.570.46

X2&X50.9000.340.52

X3&X60.570.3400.56

X40.460.520.560

第三步:

XiX2&XS&X3&X6X4

Xi00.900.46

X2&X5&X3<SLX60.9000.56

X40.460.560

第四步:

X1&X4X2&X5&X3&X6

X1&X400.90

X2&X5&X3&X60.900

(圖略)

6.6

根節(jié)點

CFfl/=(2,0.65,0.2225)C%=(3,2.3,1.85)

6.7外部準則法、內部準則法和相對準則法。

6.8對象的輪廓系數為

b-a0.61-0.1

xx==0.836

max(4,8J0.61

b-a_0.64-0.1

22=0.844

max(a2,b2)0.64

b-a_0.63-0.26

邑=3=3

max(a3,b3)0.63

,二/_=。.62-0.26=0581

max(a4,b4)0.62

數據集的輪廓系數為

1S0.836+0.844+0.587+0.581

=0.712

*計-----4-----------------------

6.9圖6.10:DH=4.072

圖6.11:DH=3.376

圖6.11的聚類效果更好

第7章

7.1(1)

m3m3mo1mk3

0303mk3ok3

n2k5me2oe3

k5e4my2ke4oke3

e4y3ok3ky3key2

Cl=y3Ll=C2=oe3L2=C3=

d1oy2

a1ke4

u1ky3

c2ey2

I1

L3={o,k,e)

FP-growth:數據庫的第一次掃描與Apriori算法相同,得到L1。再按支持度計數的遞減序排

序,得到:L={(K:5),(E:4),(M:3),(O:3),(Y:3)},掃描每個事務,按以上L的排序,從根節(jié)點開

始,得到FP樹

項條件模式基條件FP樹條件的頻繁模式

y({k,e,m,o:l),{k,e,o:1),k:3{k,y:3}

{k,m:l}}

o{{k,e,m:l),{k,e:2}}k:3,e:3{k,o:3}?{e,o:3J,{k,e,o:3}

m{{k,e:2},{k:l}}k:3{k,m:3)

e{k:4}k:4{k,e:4)

效率比較:Apriori算法的計算過程必須對數據庫作多次掃描,而FP算法在構造過程中只需

要掃描一次數據庫,再加上初始時為確定支持度遞減排序的一次掃描,共計只需兩次掃描。

由于在Apriori算法中的自身連接過程中產生候選項集的代價非常高,而FP算法不需要產

生任何候選項集。

(2)

Vxe數據庫事務,buys(X,"e叫)Abuys(X,iteir^)=>buys{X,itern^)

VxGtransation^buys(X,")Abuys(X,nF)=>buys(X,"e")[s=0.6,c=l]

VxGtransation^"e")八b〃)s(X,"o")nbuys{X^'k'')[s=0.6,c=l]

7.2(1)首先將實際的DBS問題轉換成邏輯值

SEXAGEKNOWLEDGEOCCUPATIONWAGES

12345678910

TID

malefemale>=40<40碩博本科教師非教>5000<5000

士師

1001010101010

2000101101010

3001001010101

4001010101010

5001001101010

6001001010101

(2)轉換成數據庫中記錄的屬性項取值集合

TIDItemsTIDItems

100135,7,9400135,7,9

2002,4,5,7,95001,4,5,7,9

3001,4,6,8,106001,4,6,8,10

由最小支持度min_sup=0.5,得出頻繁1-項集Ll={{1},{4},{5},{7},{91}。

(3)由頻繁1-項集得到頻繁2-項集L2={{1,4),{1,5},{1,7},{1,9}{5,7},{5,9},{7,9}}o

(4)計算頻繁2?項集中各項之間的支持度和置信度得出下表:

ItemsSup(ImUIn)Sup(Im)Sup(In)conf(ImUIn)

”,4}3/65/64/63/5

{1,5}3/65/64/63/5

{1,7}3/65/64/63/5

{⑶3/65/64/63/5

(5,7)4/64/64/61

{5,9}4/64/64/61

{7,9}4/64/64/61

由min_sup=0.5,min_conf=0.7產生的二項關聯規(guī)則為/(5)=>7(7);/(5)=>/(9);/(7)=>7(9)

(5)由頻繁2-項集得到頻繁3-項集L3={{1,5,7},{1,5,9},{1,7,9},{5,7,9}}

(6)計算頻繁3?項集的置信度和支持度,得到3項集關聯規(guī)則:

/(5)=>/(1,7);/(7)=>/(1,5);/(1,5)=>/⑺;/(1,7)nZ(5);Z(5,7)=>/(I);

1(5)=/(i,9);Z(9)=Z(l,5);7(l,5)=Z(9);/(i,9)=Z(5);Z(5,9)=7(1);

7(7)=>/(1,9);7(9)=>Z(l,7);7(l>7)=>Z(9);7(l,9)=>7(7);/(7,9)=>/(I);

/(5)=>7(7,9);Z(7)=>Z(5,9);Z(9)=>/(5,7);/(5,7)=>/(9);/(5,9)=>/(7);

7(7,9)=>/(5)

(7)由頻繁3-項集L3得到頻繁4-項集L4={157,9},計算4項集的可信度得到4相關聯規(guī)

則為:

/(5)=>7(1,7,9);7(7)=>7(1,5,9);7(9)=>7(1,5,7);/(1,5)=>7(7,9)

7(1,7)=>/(5,9);/(1,9)=>7(5,7);7(5,7)=>7(1,9);/(5,9)=>7(1,7)

7(7,9)=>7(1,5);/(1,5,7)=/(9);Z(1,5,9)=/(7);/(5,7,9)=Z(l);/(1,7,9)=>7(5)

7.3(1)根據規(guī)則,support=200(]/5000=40%,confidence=2000/3000=66.7%o所以該關聯規(guī)

則是強規(guī)則。

)corr{hotdog\hamburger}=P({hotdog,hambuger])/(P({hotdog})P({hambuger}))

=0.4/(0.5x0.6)=1.33>l

所以,買hotdog不是獨立于買hamburgers。兩者存在正相關關系。

(3)全置信J?=sup(hotdogUhamburgcrs)/max{sup(A),sup(B))=0.4/0.6=0.67

最大置信度=max{confidence(hotdog-*hamburgers),confidence(hamburgers-?holdog)}

=max{0.4/0.6,0.4/0.5}=0.8

Kulc(hotdog,hamburgers)=(0.4/0.6+0.4/0.5)/2=0.73

Cosine(hotdog,hamburgers)=J0.67x0.8=0.732

Lift(holdog,hamburgers)=0.4/(0.6*0.5)=1.33

根據數據顯示,hotdog和hamburgers之間存在正相關的關系。

第8章

8.1數據可視化是根據數據的特性,將大型數據以直觀、生動、易理解的圖形圖像方式呈

現給用戶便于人們理解數據,有效提高數據分析的效率和效果。

8.2首先用戶應該理解數據源及數據,明確數據可視化的目的,需要可視化的數據要呈現

出怎樣的效果。其次要進行數據的比較,了解數據所要反映的問題,根據數據特性建立指標,

最后要遵循簡單法則,數據可視化的結果一定要以簡單直觀的方式呈現給用戶,并要注重可

視化數據的藝術性,符合審美規(guī)則以吸引讀者的注意力。

8.3數據可視化可以將大量復雜數據以圖形圖表的方式展現出來,從而使人們從中獲得大

量有價值的信息。

數據可視化可以使人們從海量數據中獲取數據之間不同模式或過程的聯系與區(qū)別。有助

于人們更加方便快捷地深層次的理解數據,提升數據分析效率,改善數據分析效果。

數據可視化能夠使人們有效地利用數據,使用更多的數據資源,從中獲取更多的有用信

息,提出更好解決方案。

數據可視化可以增強數據對人們的吸引力,極大地提高了人們理解數據知識的效率,增

強獨者的閱讀興趣。

8.4數據可視化工具應具有以下特征:

(1)實時簡單。能高效地收集和分析數據,并對數據信息進行實時更新,適應于互聯網時

代信息多變的特點。

(2)多種數據源:能夠方便接入各種系統(tǒng)和數據文件,包括文本文件、數據庫及其他外部

文件。

(3)數據處理:具有高效、便捷的數據處理能力。

(4)分析能力:必須具有數據分析能力,用戶可以通過數據可視化實現對圖表的支持及擴

展性,并在此基礎上進行數據的鉆取、交互性和高級分析等。

(5)協作能力:應具有可以實現共享數據,協同完成數據分析流程的平臺,以便管理者可

以基于該平臺溝通問題并做出相應決策。

8.5參考代碼:

importinatplotlib.pyplotaspit

name_list=['excellence','good','middle','pass']

num_listl=[4,17,12,2]

num_list2=[2,15,18,l]

x=list(range(len(num_listl)))

total_width,n=0.8,2

width=total_width/n

plt.bar(x,num」isll,width=width,label=rclassr,fc='y')

foriinrange(len(x)):

x[ij=x[i]+width

plt.bar(x,num_list2,width=width,label='class2',tick_label=name_list,fc='r')

plt.legend()

plt.show()

第9章

9.1來源:業(yè)務支撐系統(tǒng)、運營支撐系統(tǒng)、管理支撐系統(tǒng)和深度包檢測DPI。

業(yè)務支撐系統(tǒng)的數據更適合于進行客戶畫像。

9.2參見9.1.3節(jié)。

9.3企業(yè)內部應用:網絡管理和優(yōu)化、市場與精準營銷、客戶關系管理、企業(yè)運營管理等。

對外應用:電信運營商將數據封裝成服務,向第三方開放數據或提供大數據分析服務。

9.4提示:1、根據MOS的取值為原始數據建立新標簽,將回歸問題轉化為二分類問題;

2、使用sklearn提供的RandomForestClassifier。類建立模型。

9.5提示:使用skleam.metrics庫中提供的calinski_harabaz_score()函數進行計算。

k取9時CH值最大,表明此時聚類效果較好。

9.6提示:skleam提供了DBSCAN類、BIRCH類和AgglomerativeClustering類。以BIRCH

類為例,它的定義如下:

classskleam.cluster.Birch(*threshold=0.5,branching_factor=50,n_clusters=3,

compute_labels=True,copy=True)

參數threshold:存放在葉子節(jié)點中的子簇的最大半徑

branching_factor:非葉節(jié)點擁有的最大子節(jié)點數

注意:BIRCH算法的性能受到threshold、branching_factor和n_clusters三個參數的影響,訓

練模型時,需要搜索最優(yōu)參數組合。

9.7參考代碼

#利用手肘法確定最佳聚類數

SSE=[1#存放每次結果的誤差平方和

SSE_dl=[]柢se的一階導數

SSE_d2=[]#Sse的二階導數

models=\\#保存每次的模型

forkinrange(2,9):

estimator=KMeans(n_clusters=k,random_state=10)#構造聚類器

estimator.fit(data_PCA)

SSE.append(estimator.inertia_)

models.append(estimator)

#畫出k與SSE的關系圖

X=range(2,9)

plt.xlabcl('k')

plt.ylabeK'SSE')

plt.plot(X,SSE,'o-')

plt.show()

#求二階導數,通過SSE方法計算最佳k值

SSE_lcngth=lcn(SSE)

foriinrange(1,SSE_Ienglh):

SSE_dl.appcnd((SSE[i-1]-SSE[i])/2)

foriinrange(1Tlen(SSE_d1)-1):

SSE_d2.append((SSE_dl[i-1]-SSE_dl[i])/2)

最佳分簇數:4

9.8分析客戶流失原因、建立客戶流失預測模型、制定客戶挽留策略。

9.9提示:導入機器學習庫sklcarn中的決策樹tree包,調用DecisionTreeClassifier。方法構

造決策樹模型,并用數據集中的全部特征(除去customerlD)訓練模型,最后通過

feature」mportances_屬性觀察特征重要性排序,結果如下圖所示。

1)Totalcharges0.199292

2)Monthlycharges0.191795

3)Contract_Month-to-month0.164864

4)tenure0.118317

5)InternetService_Fiberoptic0.049027

6)gender0.024013

7)Dependents0.019844

8)PaperlessBilling0.019484

9)PaynnentMethod_E1ectroniccheck0.019203

10)TechSupport0.018324

11)OnlineBackup0.017889

12)OnlineSecurity0.017190

13)PaymentMethod_Mailedcheck0.016362

14)Partner0.016203

15)SeniorCitizen0.015962

16)DeviceProtection0.015816

17)MultipleLines0.014497

18)StreamingMovies0.013358

19)PaymentMethod_Banktransfer(automatic)0.012451

20)PayTnentMethod_Creditcard(automatic)0.010442

21)StreamingTV0.009290

22)InternetService_No0.008215

23)Contract_Oneyear0.004436

24)PhoneService0.003555

25)InternetService_DSL0.000169

26)Contract_Twoyear0.000000

9.10提示:PCA處理過程可參考9.4節(jié)。

第10章

10.1準確率=(50+222)/(50+8+32+222)=272/312=87%

精確率=50/82=61%

召回率=50/58=86%

=2x61%x86%rw

E=----------

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論