




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
項(xiàng)目四
客戶信息的數(shù)據(jù)挖掘案例卓越亞馬遜的推薦系統(tǒng)學(xué)習(xí)目標(biāo)通過本章的學(xué)習(xí),將能夠:理解數(shù)據(jù)挖掘的含義熟悉數(shù)據(jù)挖掘的功能熟悉數(shù)據(jù)挖掘的主要技術(shù)掌握數(shù)據(jù)挖掘的業(yè)務(wù)流程了解客戶關(guān)系管理對數(shù)據(jù)挖掘的需求理解數(shù)據(jù)挖掘在客戶關(guān)系管理中的作用4數(shù)據(jù)挖掘數(shù)據(jù)庫越來越大有價(jià)值的知識可怕的數(shù)據(jù)數(shù)據(jù)挖掘背景5數(shù)據(jù)爆炸,知識貧乏苦惱:淹沒在數(shù)據(jù)中;不能制定合適的決策!數(shù)據(jù)知識決策模式趨勢事實(shí)關(guān)系模型關(guān)聯(lián)規(guī)則序列目標(biāo)市場資金分配貿(mào)易選擇在哪兒做廣告銷售的地理位置金融經(jīng)濟(jì)政府POS人口統(tǒng)計(jì)生命周期——數(shù)據(jù)挖掘是一個(gè)利用各種分析工具在海量數(shù)據(jù)中發(fā)現(xiàn)模型和數(shù)據(jù)間關(guān)系的過程,這些模型和關(guān)系可以用來做出預(yù)測?!駭?shù)據(jù)挖掘(DataMining)——數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。——數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點(diǎn)是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。數(shù)據(jù)挖掘數(shù)據(jù)挖掘的特點(diǎn)——數(shù)據(jù)挖掘與傳統(tǒng)分析方法的區(qū)別數(shù)據(jù)挖掘是在沒有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識。數(shù)據(jù)挖掘所得到的信息應(yīng)具有先未知,有效和可實(shí)用三個(gè)特征:先前未知的信息是指該信息是預(yù)先未曾預(yù)料到的,既數(shù)據(jù)挖掘是要發(fā)現(xiàn)那些不能靠直覺發(fā)現(xiàn)的信息或知識,甚至是違背直覺的信息或知識有效信息是指符合實(shí)際情況且具有一定的代表性可實(shí)用是指可以指導(dǎo)企業(yè)的營銷決策數(shù)據(jù)挖掘的特點(diǎn)數(shù)據(jù)挖掘是在沒有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識數(shù)據(jù)挖掘所得到的信息應(yīng)具有先未知、有效和可實(shí)用三個(gè)特征數(shù)據(jù)源必須是大量的、真實(shí)的、有噪聲的發(fā)現(xiàn)的是用戶感興趣的知識發(fā)現(xiàn)的知識要可接受、可理解、可運(yùn)用并不要求發(fā)現(xiàn)放之四海皆準(zhǔn)的知識,僅支持特定的發(fā)現(xiàn)問題數(shù)據(jù)挖掘任務(wù):描述和預(yù)測描述可以通過下述方法得到:1、數(shù)據(jù)特征化2、數(shù)據(jù)區(qū)分3、數(shù)據(jù)特征化和比較客戶接觸
客戶信息客戶數(shù)據(jù)庫統(tǒng)計(jì)分析與數(shù)據(jù)挖掘客戶知識發(fā)現(xiàn)客戶管理知識發(fā)現(xiàn):從數(shù)據(jù)中深入抽取隱含的、未知的和有潛在用途的信息從商業(yè)數(shù)據(jù)到商業(yè)智能各行業(yè)電子商務(wù)網(wǎng)站算法層商業(yè)邏輯層行業(yè)應(yīng)用層商業(yè)應(yīng)用商業(yè)模型挖掘算法CRM產(chǎn)品推薦客戶細(xì)分客戶流失客戶利潤客戶響應(yīng)關(guān)聯(lián)規(guī)則、序列模式、分類、聚集、神經(jīng)元網(wǎng)絡(luò)、偏差分析…WEB挖掘網(wǎng)站結(jié)構(gòu)優(yōu)化網(wǎng)頁推薦商品推薦。。?;蛲诰蚧虮磉_(dá)路徑分析基因表達(dá)相似性分析基因表達(dá)共發(fā)生分析。。。銀行電信零售保險(xiǎn)制藥生物信息科學(xué)研究。。。相關(guān)行業(yè)數(shù)據(jù)挖掘的應(yīng)用Debt<10%ofIncomeDebt=0%GoodCreditRisksBadCreditRisksGoodCreditRisksYesYesYesNONONOIncome>$40KQQQQII123456factor1factor2factorn神經(jīng)網(wǎng)絡(luò)NeuralNetworks聚類分析ClusteringOpenAccn’tAddNewProductDecreaseUsage???Time序列分析SequenceAnalysis決策樹DecisionTrees傾向性分析客戶保留客戶生命周期管理目標(biāo)市場價(jià)格彈性分析客戶細(xì)分市場細(xì)分傾向性分析客戶保留目標(biāo)市場欺詐檢測關(guān)聯(lián)分析Association市場組合分析套裝產(chǎn)品分析目錄設(shè)計(jì)交叉銷售數(shù)據(jù)挖掘的應(yīng)用●數(shù)據(jù)挖掘技術(shù)的分類——回顧分析:注重解決過去和現(xiàn)在的問題如:兩年來不同地區(qū)、人口和產(chǎn)品情況下的各銷售部門銷售業(yè)績分析——預(yù)測分析:在歷史信息的基礎(chǔ)上預(yù)測某些事件和行為如:建立預(yù)測模型來描述客戶的流失率——分類:根據(jù)某種標(biāo)準(zhǔn)將數(shù)據(jù)庫記錄分類到許多預(yù)先定義好的類別如:信用卡公司將客戶記錄分為好、中、差三類分類可以產(chǎn)生規(guī)則:如果一個(gè)客戶收入超過5000萬元,年齡在45-55歲之間,居住在某地區(qū),那么他的信用等級為好。數(shù)據(jù)挖掘技術(shù)●數(shù)據(jù)挖掘技術(shù)的分類——聚類:根據(jù)某些屬性將數(shù)據(jù)庫分割為一些子集和簇
如:在了解客戶的過程中,嘗試使用從未使用過的屬性分割人群以發(fā)現(xiàn)潛在客戶的簇——關(guān)聯(lián):通過考察記錄來識別數(shù)據(jù)間的密切關(guān)系關(guān)聯(lián)關(guān)系常常表現(xiàn)為規(guī)則,常用于超市購物籃分析如:所有包含A和B的記錄中有60%同時(shí)包含C?!葑兎治觯好枋鲂袨殡S時(shí)間變化的對象的規(guī)律或趨勢
如:通過對客戶多次購物行為的分析可以發(fā)現(xiàn)購物行為在時(shí)間上的關(guān)系常用于產(chǎn)品目錄營銷的分析數(shù)據(jù)挖掘的一般目的就是檢測、解釋和預(yù)測數(shù)據(jù)中定性的和/或定量的模式數(shù)據(jù)挖掘技術(shù)(四)孤立點(diǎn)分析數(shù)據(jù)庫中包含一些數(shù)據(jù)對象,他們與數(shù)據(jù)的一般行為或模型不一致。(五)分類和預(yù)測找出描述并區(qū)分?jǐn)?shù)據(jù)類或概念的模型,以便能夠使用模型預(yù)測和分類標(biāo)志未知的對象類?!瘳F(xiàn)代方法——關(guān)聯(lián)規(guī)則(AssociationRules)關(guān)聯(lián)規(guī)則的表現(xiàn)形式
關(guān)聯(lián)規(guī)則是一種無指導(dǎo)學(xué)習(xí)的數(shù)據(jù)挖掘中最普遍的知識發(fā)現(xiàn),是指在行為上具有某種關(guān)聯(lián)的多個(gè)事物在一次事件中可能同時(shí)出現(xiàn),從而在多個(gè)事物中建立聯(lián)系規(guī)則的方法。
“如果怎么樣、怎么樣、怎么樣,那么就會(huì)怎么樣”
關(guān)聯(lián)規(guī)則的構(gòu)成前件——“如果怎么樣、怎么樣、怎么樣”
后件——“那么就怎么樣”
——如果買了西裝,就會(huì)買領(lǐng)帶
——如果買精顯彩電,就會(huì)買家庭影院系統(tǒng)規(guī)則的構(gòu)成如果怎么樣、怎么樣、怎么樣,就會(huì)怎么樣前件,激發(fā)條件后件,結(jié)果規(guī)則表現(xiàn)為在前件所有條件成立的前提下,后件結(jié)果會(huì)以某一正確概率出現(xiàn)關(guān)聯(lián)規(guī)則(AssociationRules)規(guī)則的置信度和支持度關(guān)聯(lián)規(guī)則(AssociationRules)規(guī)則的置信度又稱為規(guī)則的正確率,是指在前提出現(xiàn)的情況下,后件出現(xiàn)的概率規(guī)則的支持度又稱為規(guī)則的覆蓋率,是指包含規(guī)則出現(xiàn)的屬性值的交易占所有交易的百分比例:如果客戶買牛奶,那么他們也會(huì)買面包置信度:在10000次交易中客戶購買了牛奶,而且其中的5000個(gè)交易也同時(shí)購買了面包,則上述規(guī)則的置信度為5000/10000=50%支持度:在超市一個(gè)月的客戶交易中,共有600000次交易,其中購買牛奶的交易為60000次,支持度為60000/600000=10%規(guī)則的生成●現(xiàn)代方法——關(guān)聯(lián)規(guī)則(AssociationRules)最近鄰方法規(guī)則:如果一個(gè)客戶處于●的狀況,那么他可能是一個(gè)逃款者關(guān)聯(lián)規(guī)則可以使用傳統(tǒng)的方法生成,但適當(dāng)提供的屬性很多時(shí),因?yàn)槊織l規(guī)則的結(jié)果可能包含大量的前提條件,使用傳統(tǒng)方法會(huì)變得不切實(shí)際。規(guī)則的生成——關(guān)聯(lián)規(guī)則(AssociationRules)市場籃子分析就是一種關(guān)聯(lián)規(guī)則的表現(xiàn)時(shí)間序列分析是一種反映客戶行為在時(shí)間上的關(guān)聯(lián)性的關(guān)聯(lián)規(guī)則商業(yè)銀行的客戶細(xì)分
規(guī)則的應(yīng)用——關(guān)聯(lián)規(guī)則(AssociationRules)——以前件為目標(biāo)——?dú)w納所有前件一樣的規(guī)則——分析后件的營銷效果——設(shè)計(jì)促銷方案(完善前件)——例——收集所有前件為文具、復(fù)讀機(jī)的規(guī)則,分析這些商品打折是否促進(jìn)其他高利潤商品的銷售,從而調(diào)整商品結(jié)構(gòu)、設(shè)計(jì)促銷方案規(guī)則的應(yīng)用——關(guān)聯(lián)規(guī)則(AssociationRules)——以后件為目標(biāo)——?dú)w納所有后件一樣的規(guī)則——分析什么因素與后件有關(guān)或?qū)蠹杏绊憽O(shè)計(jì)前件促成后件——例——收集到所有后件為西裝的規(guī)則,可以幫助我們了解西裝的銷售受哪些因素的影響或與哪些因素相關(guān),從而可以考慮將這些因素集合在一起而產(chǎn)生促銷效果。規(guī)則的應(yīng)用——關(guān)聯(lián)規(guī)則(AssociationRules)置信度低置信度高支持度高支持度低規(guī)則的置信度和支持度規(guī)則很少是正確的,但可以經(jīng)常使用規(guī)則很少是正確的,而且很少被使用規(guī)則多數(shù)情況下是正確,但很少被使用規(guī)則多數(shù)情況下是正確的,而且可以經(jīng)常使用——以置信度或支持度為目標(biāo)案例:BellAtlantic公司BellAtlantic的數(shù)據(jù)挖掘系統(tǒng)非常成功,不僅為他們的業(yè)務(wù)開展帶來很大的方便,而且節(jié)省了許多開支。BellAtlantic的電話服務(wù)目前已經(jīng)覆蓋了美國14個(gè)州,擁有商業(yè)電話、住家電話帳戶近億個(gè)。BellAtlantic數(shù)據(jù)挖掘系統(tǒng)的首要任務(wù)就是盡快地追收拖欠的電話費(fèi),同時(shí)盡量減少收債部門的成本。案例:BellAtlantic公司軟件系統(tǒng)的選擇非常重要。經(jīng)過反復(fù)挑選后,BellAtlantic采用了SAS統(tǒng)計(jì)軟件系統(tǒng)建立數(shù)據(jù)挖掘系統(tǒng),然后在SAS環(huán)境中利用SAS宏程序建立挖掘系統(tǒng)。然后是建立SAS格式庫。許多數(shù)據(jù)需要格式化,比如年齡,可以從20到100歲,需要分成不同的組,這都需要利用模式來進(jìn)行數(shù)據(jù)轉(zhuǎn)換。有的數(shù)據(jù)不是連續(xù)變量,比如婚姻狀況(單身/已婚),也需要進(jìn)行一些變換才可以進(jìn)行計(jì)算。日期也是需要模式化的,不同計(jì)算機(jī)系統(tǒng)記錄日期方法不同,需要把日期轉(zhuǎn)換成一致的方法。在金融保險(xiǎn)行業(yè)日期這個(gè)變量非常重要,因?yàn)楹芏嗫蛻舻男袨槎加涗浽谌掌诶锩媪恕k娫捁纠镉泿?、付款的日期也非常重要。●?shù)據(jù)挖掘方法學(xué)——模式
數(shù)據(jù)庫中一個(gè)事件或事件的結(jié)合,這些事件比預(yù)期的要經(jīng)常發(fā)生,其實(shí)際發(fā)生率明顯不同于隨機(jī)情況下的可期望發(fā)生率。
模式是數(shù)據(jù)驅(qū)動(dòng)的,一般只反映數(shù)據(jù)本身——模型
對構(gòu)建事件的源時(shí)的歷史數(shù)據(jù)庫的描述,并且能夠成功地應(yīng)用于新的數(shù)據(jù),以便對缺少的數(shù)據(jù)作出預(yù)測或?qū)ζ谕臄?shù)據(jù)作出說明。模型的一般表現(xiàn)形式數(shù)學(xué)方程式描述各客戶段的規(guī)則集計(jì)算機(jī)表示方式
模式可視化數(shù)據(jù)挖掘技術(shù)●數(shù)據(jù)挖掘方法學(xué)——取樣
根據(jù)問題的需要采用隨機(jī)取樣的方法從數(shù)據(jù)庫中抽取數(shù)據(jù)進(jìn)行挖掘,有助于迅速發(fā)現(xiàn)模式、創(chuàng)建模型
數(shù)據(jù)本身的處理過程需要驗(yàn)證——驗(yàn)證模型
模型創(chuàng)建過程需要保證正確
模型應(yīng)用的驗(yàn)證
在依據(jù)一些歷史數(shù)據(jù)建造模型后,將模型應(yīng)用于未參與建造模型的其他類似的歷史數(shù)據(jù),比較其模型輸出結(jié)果與實(shí)際結(jié)果。數(shù)據(jù)挖掘技術(shù)●經(jīng)典方法——統(tǒng)計(jì)
統(tǒng)計(jì)可以通過對類似下列問題的回答獲得模式○在我的數(shù)據(jù)庫中存在什么模式○某個(gè)事件發(fā)生的可能性是什么○那些模式是重要的模式
統(tǒng)計(jì)的一個(gè)重要價(jià)值就是它提供了對數(shù)據(jù)庫的高層視圖,這種視圖提供了有用的信息,但不要求在細(xì)節(jié)上理解數(shù)據(jù)庫的每一條記錄。數(shù)據(jù)挖掘方法●經(jīng)典方法——最近鄰
通過檢測與預(yù)測對象最接近的對象的狀況對預(yù)測對象進(jìn)行預(yù)測
原理:
某一特定對象可能與其他某一或某些對象比其它一些第三對象更接近;
相互之間“接近”的對象會(huì)有相似的取值
根據(jù)其中一個(gè)對象的取值,預(yù)測其最近鄰對象的預(yù)測值
商業(yè)應(yīng)用:文獻(xiàn)檢索市場籃子分析
應(yīng)用評價(jià):
最近鄰的數(shù)量最近鄰的距離決定最近鄰預(yù)測的可信度數(shù)據(jù)挖掘方法●現(xiàn)代方法——基礎(chǔ)理論有指導(dǎo)的學(xué)習(xí)(SupervisedLearning)歸納概念分類標(biāo)準(zhǔn)與模型分類有指導(dǎo)的學(xué)習(xí)的目的:建立分類模型用模型確定新數(shù)據(jù)實(shí)例的類別訓(xùn)練數(shù)據(jù)(TrainingData)與檢驗(yàn)集(TestSet)用于創(chuàng)建模型的數(shù)據(jù)實(shí)例稱為訓(xùn)練數(shù)據(jù)用于檢驗(yàn)?zāi)P偷臏?zhǔn)確度的數(shù)據(jù)實(shí)例稱為檢驗(yàn)集數(shù)據(jù)挖掘方法
有指導(dǎo)的學(xué)習(xí)(SupervisedLearning)患者代碼嗓子痛發(fā)燒淋巴腫充血頭痛診斷結(jié)果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感癥3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感癥7NoNoYesNoNo咽炎8YesNoNoYesYes敏感癥9NoYesNoYesYes感冒10yesYesnoYesYes感冒淋巴腫數(shù)據(jù)挖掘方法患者代碼嗓子痛發(fā)燒淋巴腫充血頭痛診斷結(jié)果11NoNoYesYesYes?12YesYesNoNoYes?13NoNoNoNoYes?有指導(dǎo)的學(xué)習(xí)(SupervisedLearning)患者代碼嗓子痛發(fā)燒淋巴腫充血頭痛診斷結(jié)果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感癥3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感癥7NoNoYesNoNo咽炎8YesNoNoYesYes敏感癥9NoYesNoYesYes感冒10yesYesNoYesYes感冒淋巴腫發(fā)燒NoNoYesYes咽炎敏感癥感冒淋巴腫、發(fā)燒是有意義的屬性嗓子痛、充血、頭痛是無意義的屬性數(shù)據(jù)挖掘方法
有指導(dǎo)的學(xué)習(xí)(SupervisedLearning)淋巴腫發(fā)燒NoNoYesYes咽炎敏感癥感冒患者代碼嗓子痛發(fā)燒淋巴腫充血頭痛診斷結(jié)果11NoNoYesYesYes?12YesYesNoNoYes?13NoNoNoNoYes?未知分類的數(shù)據(jù)實(shí)例(檢驗(yàn)集)數(shù)據(jù)挖掘方法無指導(dǎo)的學(xué)習(xí)(UnsupervisedLearning)為沒有預(yù)先定義分類標(biāo)準(zhǔn)的數(shù)據(jù)建立模型客戶ID客戶類型交易保證金帳戶交易方法交易數(shù)/月性別年齡嗜好年收入1005聯(lián)合NoOnline12.5F30-39網(wǎng)球4-5.9萬1013委托保管NoBroke0.5F50-59滑雪8-9.9萬1245聯(lián)合NoOnline3.6M20-29高爾夫2-3.9萬2110個(gè)人YesBroke22.3M30-39釣魚4-5.9萬1001個(gè)人YesOnline5.0M40-49高爾夫6-7.9萬ABC投資公司客戶表數(shù)據(jù)挖掘方法無指導(dǎo)的學(xué)習(xí)(UnsupervisedLearning)區(qū)分在線投資者和經(jīng)紀(jì)人投資者的特征是什么一個(gè)新客戶未開設(shè)交易保證金帳戶,如何確定其將來是否會(huì)開設(shè)這種帳戶能建立一個(gè)預(yù)測新投資者月均交易數(shù)的模型嗎女性和男性投資者有什么不同的特征交易方式交易保證金帳戶月均交易數(shù)性別數(shù)據(jù)挖掘問題屬性哪些屬性相似性決定ABC公司的客戶分組屬性值的哪些不同之處分隔了客戶數(shù)據(jù)庫有指導(dǎo)的學(xué)習(xí)無指導(dǎo)的學(xué)習(xí)數(shù)據(jù)挖掘方法●現(xiàn)代方法——決策樹(DecisionTree)決策樹是一種有指導(dǎo)學(xué)習(xí)的數(shù)據(jù)挖掘方法決策樹的組成決策節(jié)點(diǎn)、分支、葉子———根節(jié)點(diǎn)分支———葉子Debt<10%ofIncomeDebt=0%GoodCreditRisksBadCreditRisksGoodCreditRisksYesYesYesNONONOIncome>$40K節(jié)點(diǎn)
決策樹的分支過程就是對數(shù)據(jù)進(jìn)行分類的過程,利用幾個(gè)變量(每個(gè)變量對應(yīng)一個(gè)問題)來判斷數(shù)據(jù)所屬的類別。在分支后,要使不同分支之間數(shù)據(jù)的差異盡可能大、同一分支內(nèi)的數(shù)據(jù)盡量相同。這一分割過程也就是數(shù)據(jù)的“純化”過程。數(shù)據(jù)挖掘方法決策樹的算法步驟○假設(shè)T為訓(xùn)練實(shí)例集○選擇一個(gè)最能區(qū)別T中實(shí)例的屬性○創(chuàng)建一個(gè)決策節(jié)點(diǎn),它的值為所選擇的屬性○創(chuàng)建該節(jié)點(diǎn)的分支,每個(gè)分支代表所選屬性的一個(gè)唯一值○使用分支的值,將數(shù)據(jù)實(shí)例分割為子類○對于步驟5所創(chuàng)建的各個(gè)子類:★如果子類中的數(shù)據(jù)實(shí)例滿足以下條件,可按此決策樹對新數(shù)據(jù)實(shí)例指定類別☆分割中只包含一條數(shù)據(jù)實(shí)例☆分割中所有數(shù)據(jù)實(shí)例的屬性都相同☆繼續(xù)分割得到的改進(jìn)不明顯★如果子類不滿足上述條件,則設(shè)T’為當(dāng)前子類數(shù)據(jù)實(shí)例集合,返回步驟2數(shù)據(jù)挖掘方法決策樹的屬性選取屬性選取標(biāo)準(zhǔn):最大化反映數(shù)據(jù)差異,使樹的層次和節(jié)點(diǎn)數(shù)最小患者代碼嗓子痛發(fā)燒淋巴腫充血頭痛診斷結(jié)果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感癥3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感癥7NoNoYesNoNo咽炎8YesNoNoYesYes敏感癥9NoYesNoYesYes感冒10yesYesnoYesYes感冒淋巴腫發(fā)燒NoNoYesYes咽炎敏感癥感冒數(shù)據(jù)挖掘方法患者代碼嗓子痛發(fā)燒淋巴腫充血頭痛診斷結(jié)果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感癥3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感癥7NoNoYesNoNo咽炎8YesNoNoYesYes敏感癥9NoYesNoYesYes感冒10yesYesnoYesYes感冒淋巴腫發(fā)燒NoNoYesYes敏感癥敏感癥咽炎NoYes頭痛淋巴腫感冒發(fā)燒淋巴腫NoYes咽炎NoYes數(shù)據(jù)挖掘方法決策樹的屬性選取屬性選取標(biāo)準(zhǔn):最大化反映數(shù)據(jù)差異,使樹的層次和節(jié)點(diǎn)數(shù)最小信用卡促銷數(shù)據(jù)庫收入段壽險(xiǎn)促銷信用卡保險(xiǎn)性別年齡4-5萬NoNoM453-4萬YesNoF404-5萬NoNoM423-4萬YesYesM435-6萬YesNoF382-3萬NoNoF553-4萬YesYesM352-3萬NoNoM273-4萬NoNoF433-4萬YesNoF414-5萬YesNoM432-3萬YesNoF295-6萬YesNoF394-5萬NoNoM552-3萬YesYesF19○選取收入段為根節(jié)點(diǎn)○選取壽險(xiǎn)促銷為輸出屬性○沿著每個(gè)分支有兩個(gè)類,選取最頻繁出現(xiàn)的類收入段2Yes2No4Yes1No3No1Yes2Yes2—3萬3—4萬4—5萬5—6萬○訓(xùn)練集分類的正確性為11/15=73%數(shù)據(jù)挖掘方法——決策樹(DecisionTree):例信用卡促銷數(shù)據(jù)庫○選取信用卡保險(xiǎn)為根節(jié)點(diǎn)○選取壽險(xiǎn)促銷為輸出屬性○沿著每個(gè)分支有兩個(gè)類,選取最頻繁出現(xiàn)的類信用卡保險(xiǎn)6Yes6No3Yes0NoNoYes○訓(xùn)練集分類的正確性為9/15=60%數(shù)據(jù)挖掘方法收入段壽險(xiǎn)促銷信用卡保險(xiǎn)性別年齡4-5萬NoNoM453-4萬YesNoF404-5萬NoNoM423-4萬YesYesM435-6萬YesNoF382-3萬NoNoF553-4萬YesYesM352-3萬NoNoM273-4萬NoNoF433-4萬YesNoF414-5萬YesNoM432-3萬YesNoF295-6萬YesNoF394-5萬NoNoM552-3萬YesYesF19——決策樹(DecisionTree):例信用卡促銷數(shù)據(jù)庫○選取數(shù)值型屬性年齡為根節(jié)點(diǎn)○選取壽險(xiǎn)促銷為輸出屬性○依照年齡排序,對照輸出屬性進(jìn)行數(shù)據(jù)分割,選擇數(shù)據(jù)分割點(diǎn)年齡9Yes3No0Yes3No≤43>43○以年齡≤43結(jié)合壽險(xiǎn)促銷=Y(jié)es,訓(xùn)練集分類的正確性為12/15=80%172729353839404142434343455555YNYYYYYYNYYNNNN數(shù)據(jù)挖掘方法收入段壽險(xiǎn)促銷信用卡保險(xiǎn)性別年齡4-5萬NoNoM453-4萬YesNoF404-5萬NoNoM423-4萬YesYesM435-6萬YesNoF382-3萬NoNoF553-4萬YesYesM352-3萬NoNoM273-4萬NoNoF433-4萬YesNoF414-5萬YesNoM432-3萬YesNoF295-6萬YesNoF394-5萬NoNoM552-3萬YesYesF19——決策樹(DecisionTree):例信用卡促銷數(shù)據(jù)庫年齡Yes(6/1)No(2/1)≤43>43性別FM信用卡保險(xiǎn)Yes(2/0)No(3/0)NoYes信用卡數(shù)據(jù)庫的三節(jié)點(diǎn)決策樹○訓(xùn)練集分類的正確性為13/15=87%數(shù)據(jù)挖掘方法收入段壽險(xiǎn)促銷信用卡保險(xiǎn)性別年齡4-5萬NoNoM453-4萬YesNoF404-5萬NoNoM423-4萬YesYesM435-6萬YesNoF382-3萬NoNoF553-4萬YesYesM352-3萬NoNoM273-4萬NoNoF433-4萬YesNoF414-5萬YesNoM432-3萬YesNoF295-6萬YesNoF394-5萬NoNoM552-3萬YesYesF19——決策樹(DecisionTree):例信用卡促銷數(shù)據(jù)庫收入段壽險(xiǎn)促銷信用卡保險(xiǎn)性別年齡4-5萬NoNoM453-4萬YesNoF404-5萬NoNoM423-4萬YesYesM435-6萬YesNoF382-3萬NoNoF553-4萬YesYesM352-3萬NoNoM273-4萬NoNoF433-4萬YesNoF414-5萬YesNoM432-3萬YesNoF295-6萬YesNoF394-5萬NoNoM552-3萬YesYesF19信用卡保險(xiǎn)Yes(5/2)No(4/1)NoYes性別FMYes(3/0)信用卡數(shù)據(jù)庫的兩節(jié)點(diǎn)決策樹○訓(xùn)練集分類的正確性為12/15=80%數(shù)據(jù)挖掘方法——決策樹(DecisionTree):例信用卡促銷數(shù)據(jù)庫檢驗(yàn)集收入段壽險(xiǎn)促銷信用卡保險(xiǎn)性別年齡檢驗(yàn)結(jié)果4-5萬NoNoM42正確2-3萬NoNoM27正確3-4萬NoNoM43正確2-3萬YesNoM29錯(cuò)誤年齡Yes(6/1)No(2/1)≤43>43性別FM信用卡保險(xiǎn)Yes(2/0)No(3/0)NoYes信用卡數(shù)據(jù)庫的三節(jié)點(diǎn)決策樹數(shù)據(jù)挖掘方法●現(xiàn)代方法——K-平均值算法
K-平均值算法是一種簡單而有效的無指導(dǎo)學(xué)習(xí)的統(tǒng)計(jì)聚類方法,將一組數(shù)據(jù)劃分為不相關(guān)的簇算法步驟○選擇一個(gè)K值,用以確定簇的總數(shù)○在數(shù)據(jù)集中任意選擇K個(gè)數(shù)據(jù)實(shí)例,作為初始的簇中心○試用簡單的歐氏距離將其它數(shù)據(jù)實(shí)例賦予距離它們最近的簇中心○試用每個(gè)簇中的數(shù)據(jù)實(shí)例,計(jì)算每個(gè)簇的新的平均值○如果新的平均值等于次迭代的平均值,終止該過程。否則,用新平均值作為簇中心并重復(fù)步驟3-5。點(diǎn)A(x1,y1)與點(diǎn)B(x2,y2)之間的歐氏距離計(jì)算式為數(shù)據(jù)挖掘方法K-平均值算法:例K-平均值輸入屬性實(shí)例XY1(C1)1.01.521.04.53(C2)2.01.542.03.553.02.565.06.01.選擇K=2,即將所有數(shù)據(jù)實(shí)例分為兩個(gè)簇2.選擇實(shí)例1作為第1個(gè)簇的中心,實(shí)例3作為第2個(gè)簇的中心3.計(jì)算各數(shù)據(jù)實(shí)例與C1、C2之間的歐氏距離Dist(C1-1)=0.00Dist(C2-1)=1.00C1Dist(C1-2)=3.00Dist(C2-2)=3.16C1Dist(C1-3)=1.00Dist(C2-3)=0.00C2Dist(C1-4)=2.24Dist(C2-4)=2.00C2Dist(C1-5)=2.24Dist(C2-5)=1.41C2Dist(C1-6)=6.02Dist(C2-6)=5.41C24.迭代結(jié)果得到以下兩個(gè)簇簇C1包含實(shí)例1、2,簇C2包含實(shí)例3、4、5、6Y數(shù)據(jù)挖掘方法——K-平均值算法:例K-平均值輸入屬性實(shí)例XY1(C1)1.01.521.04.53(C2)2.01.542.03.553.02.565.06.05.重新計(jì)算每個(gè)簇的中心對于C1:
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025福建龍巖市上杭縣文化旅游發(fā)展有限公司(上杭古田建設(shè)發(fā)展有限公司)所屬企業(yè)招聘人員擬聘用人選考前自測高頻考點(diǎn)模擬試題附答案詳解(黃金題型)
- 2025年度吉林大學(xué)公開招聘教師(1號)(105人)考前自測高頻考點(diǎn)模擬試題及答案詳解一套
- 2025福建生態(tài)工程職業(yè)技術(shù)學(xué)校招聘4人模擬試卷完整答案詳解
- 2025廣東潮州市饒平縣新塘鎮(zhèn)人民政府招聘后勤服務(wù)人員1人考前自測高頻考點(diǎn)模擬試題及答案詳解參考
- 2025河南工程學(xué)院招聘高層次人才160人考前自測高頻考點(diǎn)模擬試題完整答案詳解
- 2025湖南開放大學(xué)高層次人才招聘25人模擬試卷及答案詳解一套
- 2025年福建省福州市水路運(yùn)輸事業(yè)發(fā)展中心招聘1人考前自測高頻考點(diǎn)模擬試題及一套完整答案詳解
- 2025河南許昌市建安區(qū)人力資源和社會(huì)保障局招聘公益性崗位人員13人考前自測高頻考點(diǎn)模擬試題及答案詳解(奪冠系列)
- 2025廣東深圳市煙草專賣局(公司)應(yīng)屆高校畢業(yè)生招聘22人考前自測高頻考點(diǎn)模擬試題及答案詳解(典優(yōu))
- 2025河南商丘市虞城縣農(nóng)村信用合作聯(lián)社招聘6人考前自測高頻考點(diǎn)模擬試題附答案詳解(突破訓(xùn)練)
- 2025-2026學(xué)年高一上學(xué)期第一次月考物理試卷(北京)
- 第一單元《精神信仰力量情感》《大路歌》教學(xué)設(shè)計(jì)湘藝版初中音樂八年級上冊
- 動(dòng)火作業(yè)現(xiàn)場安全防護(hù)設(shè)施布置與維護(hù)更新方案
- 核心素養(yǎng)導(dǎo)向課堂教學(xué)反思
- 《機(jī)器學(xué)習(xí)》課件-第3章 監(jiān)督學(xué)習(xí)
- 山東省濟(jì)南市2025屆中考數(shù)學(xué)真題(含答案)
- 醫(yī)療機(jī)構(gòu)醫(yī)療質(zhì)量安全專項(xiàng)整治行動(dòng)方案
- 基于SprintBoot的大學(xué)生實(shí)習(xí)管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
- 鋼架油漆翻新施工方案(3篇)
- 數(shù)字平臺治理 課件 第五章 數(shù)字平臺生態(tài)治理
- 婦科葫蘆灸中醫(yī)適宜技術(shù)
評論
0/150
提交評論