




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、 高端車潛在用戶的發(fā)現(xiàn) 基于線下線上數(shù)據(jù)的研究PPT模板下載: 行業(yè)PPT模板: 節(jié)日PPT模板: PPT素材下載: PPT圖表下載: 優(yōu)秀PPT下載: PPT教程: Word教程: Excel教程: 資料下載: PPT課件下載: 范文下載: 試卷下載: 教案下載: 目錄概述01理論基礎(chǔ)02線下數(shù)據(jù)的研究0304線上數(shù)據(jù)的研究目錄概述01理論基礎(chǔ)02線下數(shù)據(jù)的研究0304線上數(shù)據(jù)的研究概述全文思路目錄概述01理論基礎(chǔ)02線下數(shù)據(jù)的研究0304線上數(shù)據(jù)的研究理論基礎(chǔ)數(shù)據(jù)挖掘理論基礎(chǔ)邏輯回歸分析 邏輯回歸用于估計(jì)某事物的可能性。 邏輯回歸模型是一個定性響應(yīng)變量(因變量Y)的預(yù)測模型。 邏輯模型中的
2、定性響應(yīng)變量其實(shí)又是一個二值變量(binary)。 = (/ )=+ +理論基礎(chǔ)決策樹理論基礎(chǔ)關(guān)聯(lián)規(guī)則 支持度和信任度是兩個最基本和最重要的衡量規(guī)則強(qiáng)弱的指標(biāo)。X-Y的支持度:指的是集合T中包含XY事件的百分比,即P(XY)的估計(jì)。 如果支持度很小,那么就可以說該規(guī)則的發(fā)生并沒有必然性。 X-Y的置信度:指X和Y同時發(fā)生的事件數(shù)量占所有X事件發(fā)生數(shù)量的百分比。即P(Y|X)的估計(jì)。 置信度決定了關(guān)聯(lián)規(guī)則的可預(yù)測度。如果一條關(guān)聯(lián)規(guī)則的置信度很低,那么從X就很難可靠地推出Y。目錄概述01理論基礎(chǔ)02線下數(shù)據(jù)的研究0304線上數(shù)據(jù)的研究線下數(shù)據(jù)的研究基于邏輯回歸模型的研究返回返回理論假設(shè) 用戶購買高
3、端車行為的影響因素: 購車方式 用戶的性別 預(yù)期保險(xiǎn)費(fèi)用 預(yù)期裝設(shè)費(fèi)用 已有車品牌 收入情況線下數(shù)據(jù)的研究基于邏輯回歸模型的研究理論假設(shè) 對影響用戶購買高端車行為的因素提出的假設(shè): H1:若用戶曾經(jīng)使用全款方式來購車,那么其購買高端車的概率會低; H2:男性用戶相比于女性用戶,其購買高端車的概率會高;H3:用戶的預(yù)期保險(xiǎn)費(fèi)用越高,那么其購買高端車的概率越大;H4:用戶的預(yù)期裝設(shè)費(fèi)用越高,那么其購買高端車的概率越大; H5:若用戶已擁有寶馬品牌的車,那么相比于沒有車或沒有寶馬車的用戶,其購買高端車的概率會高。 H6:若用戶的收入越高,那么其購買高端車的概率會越高。 線下數(shù)據(jù)的研究基于邏輯回歸模型
4、的研究數(shù)據(jù)準(zhǔn)備1.數(shù)據(jù)來源“來自國內(nèi)某汽車經(jīng)銷商后臺的ERP系統(tǒng),總數(shù)據(jù)量超過50萬條線下數(shù)據(jù)的研究基于邏輯回歸模型的研究數(shù)據(jù)準(zhǔn)備2.數(shù)據(jù)預(yù)處理根據(jù)客戶id、訂單id、產(chǎn)品id等主鍵將上述5張表連接成一張總表(“寬表”)缺失值處理3.定義高端車用戶本文將選擇汽車的價格作為高端車的定義標(biāo)準(zhǔn),高于60萬元的汽車將被標(biāo)注為高端車。(在“寬表”后面添加因變量字段“是否購買高端車”,取值為“是”和“否”)線下數(shù)據(jù)的研究基于邏輯回歸模型的研究數(shù)據(jù)準(zhǔn)備4.變量設(shè)置因變量Y為 “是否購買高端車”(對字符型變量進(jìn)行啞變量的變換): “1”-“是”;“0”-“否” 。自變量X是“寬表”中的任意字段,比如客戶性別、
5、年齡、購買意向、訂單詳情等。線下數(shù)據(jù)的研究基于邏輯回歸模型的研究模型的構(gòu)建與實(shí)證1.公式解釋線下數(shù)據(jù)的研究基于邏輯回歸模型的研究模型的構(gòu)建與實(shí)證1.公式解釋找出那些較大的影響因素以及其系數(shù)。通過反函數(shù)將得出用戶購買高端車的概率P:線下數(shù)據(jù)的研究基于邏輯回歸模型的研究模型的構(gòu)建與實(shí)證2.模型結(jié)果逐步回歸:每次都選擇對因變量影響最顯著的自變量進(jìn)入模型,同時對所有已經(jīng)被選擇進(jìn)入模型的變量進(jìn)行逐一檢查,將不顯著的自變量剔除。線下數(shù)據(jù)的研究基于邏輯回歸模型的研究模型的構(gòu)建與實(shí)證2.模型結(jié)果-2.8818線下數(shù)據(jù)的研究基于邏輯回歸模型的研究3.結(jié)果討論C1:用戶如果使用全款方式購車,那么其購買高端車的概率
6、將較小,如果使用分期付款方式購車,那么其購買高端車的概率會比較大。這個結(jié)論驗(yàn)證了假設(shè)H1。 C2:用戶如果為男性,那么其購買高端車的概率會高一點(diǎn)。這個結(jié)論驗(yàn)證了假設(shè)H2。C3:用戶預(yù)期保險(xiǎn)費(fèi)用越高,其購買高端車的概率越大。這個結(jié)論驗(yàn)證了假設(shè)H3。C4:用戶預(yù)期裝設(shè)費(fèi)用越高,其購買高端車的概率越大。這個結(jié)論驗(yàn)證了假設(shè)H4。C5:用戶如果已經(jīng)擁有寶馬系列的車,那么其再次購車會選擇高端車的概率會較大。這個結(jié)論驗(yàn)證了假設(shè)H5。C6:用戶收入水平最終沒有被選入模型,所以無法驗(yàn)證假設(shè)H6。線下數(shù)據(jù)的研究基于決策樹模型的研究數(shù)據(jù)準(zhǔn)備1.數(shù)據(jù)來源:在Logistic回歸模型中使用的數(shù)據(jù)是同一組數(shù)據(jù)2.數(shù)據(jù)預(yù)處
7、理(與Logistic回歸模型中基本相同)第一,決策樹模型不需要對字符型變量進(jìn)行啞變量的變換。第二,決策樹模型不需要對缺失值進(jìn)行填充、刪除等操作。線下數(shù)據(jù)的研究基于決策樹模型的研究模型的構(gòu)建與實(shí)證1.決策樹停止生長問題的確定(兩種方法)“錯誤率”指標(biāo)法:即選擇最低驗(yàn)證集錯誤率的時候,同時葉子節(jié)點(diǎn)最少時的葉子數(shù)量作為最終模型的葉子節(jié)點(diǎn)數(shù)量。同時參考了25%滲透率下的響應(yīng)率。選擇7個葉子作為決策樹葉子節(jié)點(diǎn)數(shù)!線下數(shù)據(jù)的研究基于決策樹模型的研究模型的構(gòu)建與實(shí)證2.模型結(jié)果線下數(shù)據(jù)的研究基于決策樹模型的研究規(guī)則解釋與分析1.規(guī)則解釋規(guī)則一:規(guī)則二:線下數(shù)據(jù)的研究基于決策樹模型的研究1.規(guī)則解釋規(guī)則三:
8、規(guī)則四:線下數(shù)據(jù)的研究基于決策樹模型的研究規(guī)則分析1.引入負(fù)面規(guī)則來剔除低概率用戶。R1: 當(dāng)保險(xiǎn)金額在3200與12000之間,且裝飾金額小于5000,且保修金額小于48000的時候,該用戶購買高端車的概率極低只有2%。 R2: 當(dāng)用戶使用貸款方式購車、且保險(xiǎn)金額高于12000,且裝飾金額小于5000,且保修金額小于48000的時候,該用戶購買高端車的概率同樣極低只有5%。線下數(shù)據(jù)的研究基于決策樹模型的研究規(guī)則分析2.引入正面規(guī)則來選擇高概率用戶。R3:當(dāng)保修金額大于48000,那么用戶有93%的概率購買高端車。R4:當(dāng)裝飾金額大于38000,且保修金額小于48000,那么該用戶可能購買高端
9、車的概率是80%。線下數(shù)據(jù)的研究邏輯回歸模型與決策樹模型的比較結(jié)果對比Logistic模型的結(jié)果選入了5個變量進(jìn)入模型,按照他們對因變量影響程度從大到小排列如下:付款方式(是否全款)、性別(是否男性)、預(yù)期保險(xiǎn)費(fèi)用、預(yù)期裝設(shè)費(fèi)用、已有車品牌(是否已有寶馬車)。決策樹模型最終進(jìn)入模型的變量有4個:保修金額、裝設(shè)金額、保險(xiǎn)金額、金融貸款還款期限,這4個自變量與Logistic模型中的5個自變量完全不同。 兩個模型的結(jié)果不一樣的根本原因是兩個模型的原理不一樣。線下數(shù)據(jù)的研究邏輯回歸模型與決策樹模型的比較響應(yīng)率對比兩個模型由于建模原理不同,對自變量的選擇也不同,但是模型效果卻相似。目錄概述01理論基礎(chǔ)
10、02線下數(shù)據(jù)的研究0304線上數(shù)據(jù)的研究線上數(shù)據(jù)的研究數(shù)據(jù)可視化研究數(shù)據(jù)準(zhǔn)備1.數(shù)據(jù)來源 本文用以實(shí)證的線上數(shù)據(jù)均來自于汽車之家論壇。 28,708位用戶 42,603的條對應(yīng)關(guān)系 用爬蟲程序獲得的數(shù)據(jù)經(jīng)過整理形成三張表線上數(shù)據(jù)的研究數(shù)據(jù)可視化研究數(shù)據(jù)準(zhǔn)備2.數(shù)據(jù)預(yù)處理 根據(jù)用戶ID、車輛ID等主鍵將上述表連接成一張綜合表。 綜合表的記錄中不含缺失值,因此不需要考慮缺失值的處理。線上數(shù)據(jù)的研究數(shù)據(jù)可視化研究數(shù)據(jù)的初步分析與可視化1.以品牌為粒度的分析與可視化線上數(shù)據(jù)的研究數(shù)據(jù)可視化研究數(shù)據(jù)的初步分析與可視化1.以品牌為粒度的分析與可視化這8類關(guān)注率遠(yuǎn)高于當(dāng)前車輛擁有率的車品牌中,大部分是高端車
11、品牌。 線上數(shù)據(jù)的研究數(shù)據(jù)可視化研究數(shù)據(jù)的初步分析與可視化2.以原產(chǎn)地為粒度的分析與可視化 無論是從目前的市場占有還是未來的發(fā)展?jié)摿砜?,中、德、日三國產(chǎn)的汽車在中國都是遙遙領(lǐng)先,德國車的未來發(fā)展勢頭強(qiáng)勁,有望取代國產(chǎn)車成為國內(nèi)市場的龍頭。 線上數(shù)據(jù)的研究基于汽車不同屬性的關(guān)聯(lián)規(guī)則分析描述性統(tǒng)計(jì)量1.數(shù)據(jù)來源:與可視化分析所用的數(shù)據(jù)一致(包含四個字段:擁有車原產(chǎn)地、關(guān)注車原產(chǎn)地、擁有車品牌、關(guān)注車品牌)。2.數(shù)據(jù)預(yù)處理:刪除同一粒度下同一種類之間的數(shù)據(jù)(此類數(shù)據(jù)關(guān)聯(lián)度很高,無研究意義)例如:關(guān)注寶馬車與擁有寶馬的關(guān)聯(lián)度采集到的數(shù)據(jù)不含缺失值,因此不需要考慮缺失值的處理。線上數(shù)據(jù)的研究基于汽車不
12、同屬性的關(guān)聯(lián)規(guī)則分析描述性統(tǒng)計(jì)量3.最終獲得的描述性統(tǒng)計(jì)量線上數(shù)據(jù)的研究基于汽車不同屬性的關(guān)聯(lián)規(guī)則分析對品牌屬性進(jìn)行關(guān)聯(lián)規(guī)則發(fā)現(xiàn)(最小支持度為0.02,置信度為0.1, 提升為1,數(shù)據(jù)量為100,)1. 擁有品牌關(guān)注品牌大眾汽車在國內(nèi)廣受歡迎,許多其他品牌的車主都有購買大眾汽車的可能性。而大眾車主則關(guān)注著奧迪、寶馬。 線上數(shù)據(jù)的研究基于汽車不同屬性的關(guān)聯(lián)規(guī)則分析對品牌屬性進(jìn)行關(guān)聯(lián)規(guī)則發(fā)現(xiàn)(最小支持度為0.001,置信度為0.1, 數(shù)據(jù)量為100)2. 關(guān)注品牌擁有品牌大眾車主對各種車都感興趣,并且更關(guān)注斯柯達(dá)、奧迪、奔馳、寶馬等品牌。另外豐田車主更關(guān)注雷克薩斯,寶馬車主關(guān)注保時捷。 線上數(shù)據(jù)的
13、研究基于汽車不同屬性的關(guān)聯(lián)規(guī)則分析對原產(chǎn)地屬性進(jìn)行關(guān)聯(lián)則發(fā)現(xiàn)(最小支持度為0.02,置信度為0.1, 提升為1,數(shù)據(jù)量為100)1. 擁有產(chǎn)地關(guān)注產(chǎn)地德國車受到各種車主的普遍關(guān)注。除此之外,國產(chǎn)車車主對日本車有很高的關(guān)注度,日本車的潛在客戶是國產(chǎn)車車主和德國車車主。 線上數(shù)據(jù)的研究基于線上數(shù)據(jù)研究的結(jié)果討論基于品牌屬性的結(jié)果A1:由已有車的品牌推導(dǎo)出關(guān)注車的品牌的規(guī)則; 應(yīng)用A1規(guī)則,我們可以根據(jù)用戶已擁有車的品牌來預(yù)測其關(guān)注某品牌高端車可能性,并判斷其是否是該品牌高端車的潛在用戶。A2:由關(guān)注車的品牌推導(dǎo)出已有車的品牌的規(guī)則; 應(yīng)用A2規(guī)則,同樣可以幫助汽車銷售商進(jìn)行高端用戶發(fā)現(xiàn)。線上數(shù)據(jù)的研究基于線上數(shù)據(jù)研究的結(jié)果討論A1規(guī)則的利用模型顯示:大眾車的品牌在最國內(nèi)最受歡迎,大都數(shù)品牌的車主都關(guān)注著大眾車,尤其是斯柯達(dá)的車主。啟示:大眾品牌的高端車的潛在高端用戶分布于各個品牌的車主,尤其是斯柯達(dá)的車主購買大眾品牌的高端車的可能性更大。A2規(guī)則的利用模型顯示:多品牌車的粉絲中都有大眾車主,尤其是斯柯達(dá)車和奧迪車更受大眾車主的喜
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 執(zhí)法專項(xiàng)面試題及答案
- 2025年宣城輔警考試題庫及答案
- 審計(jì)學(xué)期中考試題及答案
- 審計(jì)實(shí)務(wù)期末試題及答案
- 審計(jì)科長面試題及答案
- 審計(jì)國企面試題及答案
- 審計(jì)第六版試題及答案
- 商業(yè)銀行經(jīng)營試題及答案
- 企業(yè)銀行面試題庫及答案
- 2025鄉(xiāng)村醫(yī)生考試題及答案
- 2025便利店加盟的合同樣本
- 評職稱老師考試題目及答案
- 2025年內(nèi)分泌風(fēng)濕免疫科進(jìn)修人員出科理論考試試題及答案
- 石油監(jiān)督考試試題及答案
- 2025年花卉栽培技術(shù)人員花卉栽培技術(shù)知識考核試卷及答案
- 2025年高一物理下學(xué)期期末考試試題及答案
- 學(xué)堂在線 高技術(shù)與現(xiàn)代局部戰(zhàn)爭 章節(jié)測試答案
- 2025年醫(yī)療器械倉庫管理培訓(xùn)試題及答案
- 助焊劑存儲管理辦法
- 測井工崗位實(shí)習(xí)報(bào)告
- 2025至2030中國CAN收發(fā)器行業(yè)項(xiàng)目調(diào)研及市場前景預(yù)測評估報(bào)告
評論
0/150
提交評論