金融大數(shù)據(jù)應用與Python實踐課件 第13章 數(shù)據(jù)挖掘常用方法_第1頁
金融大數(shù)據(jù)應用與Python實踐課件 第13章 數(shù)據(jù)挖掘常用方法_第2頁
金融大數(shù)據(jù)應用與Python實踐課件 第13章 數(shù)據(jù)挖掘常用方法_第3頁
金融大數(shù)據(jù)應用與Python實踐課件 第13章 數(shù)據(jù)挖掘常用方法_第4頁
金融大數(shù)據(jù)應用與Python實踐課件 第13章 數(shù)據(jù)挖掘常用方法_第5頁
已閱讀5頁,還剩42頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第13章

數(shù)據(jù)挖掘常用方法1目錄CONTENT201監(jiān)督學習無監(jiān)督學習02時間序列分析03學習目標:知識目標:(1)熟悉監(jiān)督學習的概念,以及監(jiān)督學習的回歸和分類任務;(2)熟悉無監(jiān)督學習的概念,以及無監(jiān)督學習的聚類和關聯(lián)規(guī)則;(3)熟悉時間序列分析和常用的時間序列分析模型。技能目標:(1)能夠運用簡單的監(jiān)督學習方法和技術進行金融統(tǒng)計分析;(2)能夠運用簡單的無監(jiān)督學習方法和技術進行金融統(tǒng)計分析;(3)能夠運用常見的時間序列分析模型。313.1監(jiān)督學習4監(jiān)督學習是機器學習和數(shù)據(jù)挖掘中常見的任務,它是指從有標簽的訓練數(shù)據(jù)中學習出一個數(shù)據(jù)的特征模式,或者說,訓練出一個具備預測性能的機器學習模型。有標簽的訓練數(shù)據(jù)是指訓練數(shù)據(jù)中的每個有效樣本都包含輸入特征及對應的真實輸出標簽。輸入特征可以理解成模型的變量,它也可以是原始/清洗后的數(shù)據(jù),也可以是經(jīng)過一定的數(shù)學變形后從原始數(shù)據(jù)生成的新數(shù)據(jù)。13.1.1回歸5回歸是監(jiān)督學習中的一個重要任務類型,它的目的在于根據(jù)輸入數(shù)據(jù)來預測連續(xù)數(shù)值型的輸出結果?;镜幕貧w模型有簡單線性回歸模型、多元線性回歸模型及其他屬于廣義線性類的各類模型。線性回歸模型是一種最簡單且最廣泛使用的回歸模型,它在數(shù)據(jù)挖掘、機器學習、計量經(jīng)濟學及各類統(tǒng)計學領域中都有著舉足輕重的地位。6線性回歸具備簡單的數(shù)學結構,它通過對輸入特征進行簡單的加權求和運算來進行預測,其基本形式為:

其中,

是預測值,n代表輸入特征(變量)的數(shù)量,xi代表著第i個變量的值,wi則代表著模型的第i個參數(shù)。值得注意的是,w0是一個偏移量,它不與任何模型的變量進行加權相乘。如果我們用向量的形式對以上數(shù)學公式進行表征,結果為

:其中W=[w0,w1,…,wn]是模型的參數(shù)向量,是包含偏移量在內的所有特征權重。X=[x0,x1,…,xn]是特征向量,其中x0為常數(shù)1。

則是我們的預測函數(shù),它用來表示輸入特征和輸出預測值之間的映射。7損失函數(shù):用來描述模型預測精確程度的一個函數(shù)。在線性回歸模型中,我們常用的損失函數(shù)是均方誤差損失函數(shù),其數(shù)學表達形式:其中,yi是第i個樣本的真實標簽值,

是線性回歸模型對第i個樣本的預測標簽值,N則是所有參與訓練的樣本的個數(shù)。8優(yōu)化方法:梯度下降算法核心思想:通過不斷調整參數(shù)值,使損失函數(shù)最小化。梯度下降算法的一般表達形式為:其中l(wèi)代表任意損失函數(shù),wi代表模型中任意一個參數(shù)。經(jīng)過計算,線性回歸的均方誤差損失函數(shù)的梯度下降公式為:線性回歸案例結果圖:13.1.2分類10監(jiān)督學習的分類任務是數(shù)據(jù)挖掘中常見的任務類型之一,它用于將輸入數(shù)據(jù)映射到預定義的類別或標簽。常用的分類算法或模型有感知機(Perceptron)、邏輯回歸(LogisticRegression)、決策樹(DecisionTree)、隨機森林(RandomForest)等。1.感知機模型定義:

簡單的二元線性分類器。特點:適用于線性可分的數(shù)據(jù)集。結構簡單,易于理解。實現(xiàn)步驟:初始化權重和偏置項。

迭代更新參數(shù),直到所有樣本都被正確分類。局限性:

無法處理線性不可分的數(shù)據(jù)集。11感知機模型案例結果圖:2.邏輯回歸模型定義:預測事件發(fā)生概率的分類模型。特點:輸出為概率值,模型可解釋性強。適用于線性可分或近似線性可分的數(shù)據(jù)集??蓴U展到多分類問題(Softmax回歸)。數(shù)學表達:條件概率損失函數(shù):對數(shù)損失函數(shù)參數(shù)優(yōu)化:梯度下降算法。13邏輯回歸模型案例結果圖:3.決策樹模型定義:通過一系列決策規(guī)則進行分類或回歸的模型。特點:可解釋性強,易于理解??商幚頂?shù)值型和類別型數(shù)據(jù)。易于處理多分類問題。常用算法:

ID3算法:基于信息增益進行分叉。C4.5算法:引入信息增益比,擴展到連續(xù)型特征變量。CART算法:強制二叉樹結構。分類任務使用基尼系數(shù)最小化準則。回歸任務使用平方誤差最小化準則。15決策樹模型案例結果圖:4.隨機森林模型17定義:由多個決策樹組成的集成學習模型。特點:泛化能力強,抗過擬合。不易受噪聲和異常值影響。適用于各種數(shù)據(jù)集和分類與回歸問題。工作原理:隨機選擇數(shù)據(jù)子集和特征子集訓練多個決策樹。分類任務:投票機制。回歸任務:平均值。隨機森林模型案例結果圖:13.2無監(jiān)督學習19由于缺乏足夠的先驗知識,很多數(shù)據(jù)沒有類別標記。大部分數(shù)據(jù)其實都是沒有類別標記的,而如果采用人工標注的方式可能難以完成或成本太高。因此,是否可以考慮借助計算機來幫助我們完成這些類別標注工作呢?無監(jiān)督學習技術可以做到,根據(jù)類別未知(沒有類別標記)的訓練樣本解決模式識別中的各種問題,這種技術稱為無監(jiān)督學習。13.2.1聚類20定義:將相似的對象歸為一類,不同類之間差異最大化。應用場景:客戶群體劃分(如案例分析中的銀行客戶群體劃分)。熱點區(qū)域發(fā)現(xiàn)。圖像分割等。1.K均值聚類算法核心思想:將樣本點分配到距離最近的聚類中心點。不斷更新聚類中心點,直到聚類結果穩(wěn)定。距離度量:歐氏距離(常用)曼哈頓距離切比雪夫距離等1.K均值聚類算法實現(xiàn)步驟:(1)隨機初始化K個聚類中心點。(2)將每個樣本分配到最近的聚類中心點。(3)更新聚類中心點為該類所有樣本的平均值。(4)重復步驟2-3,直到聚類中心點不再變化。1.K均值聚類算法優(yōu)點:簡單高效,易于實現(xiàn)。適用于大規(guī)模數(shù)據(jù)集。缺點:需要預先指定聚類數(shù)K。對初始聚類中心點敏感。容易陷入局部最優(yōu)解。K均值聚類示例結果圖:13.2.2案例分析——銀行客戶群體劃分25假設某銀行要根據(jù)客戶資料制定新的促銷方案,客戶信息(部分)如下圖所示。本小節(jié)將根據(jù)K均值聚類算法,對客戶進行聚類分析,從而確定促銷的客戶群體劃分方案。26目標:根據(jù)客戶資料制定促銷方案。步驟:1.數(shù)據(jù)預處理:去除無關信息(如ID、性別)。數(shù)據(jù)標準化(使用sklearn.preprocessing.scale()函數(shù))。2.數(shù)據(jù)可視化:繪制三維圖(使用matplotlib的3D繪圖功能)。降維處理(使用PCA方法,將數(shù)據(jù)從三維降到二維)。繪制二維圖。3.K均值聚類分析:聚類數(shù)K設為4。使用自定義的K均值聚類函數(shù)進行聚類。繪制聚類結果圖。4.結果分析:將聚類結果寫回原始數(shù)據(jù)。計算各聚類類別在年齡、年收入、消費評分等屬性上的均值。根據(jù)分析結果制定針對性的促銷方案。13.2.3關聯(lián)規(guī)則分析27關聯(lián)規(guī)則(AssociationRule)分析用于挖掘大規(guī)模數(shù)據(jù)集中有價值、有意義的聯(lián)系,是數(shù)據(jù)挖掘領域的十大算法之一。關聯(lián)規(guī)則分析在購物籃分析、商品推薦營銷、電子商務推廣、醫(yī)療診斷咨詢、生物信息學研究等場景中都得到了廣泛應用。28支持度置信度項集支持度計數(shù)頻繁項集一對一關聯(lián)規(guī)則多對一關聯(lián)規(guī)則1.關聯(lián)規(guī)則概念29Apriori算法的主要思路是找出存在于事務數(shù)據(jù)集中的最大頻繁項集,再利用得到的最大頻繁項集與預先設定的最小置信度閾值生成強關聯(lián)規(guī)則。2.Apriori算法:挖掘頻繁項集30算法步驟如下:第1步,預先設定最小支持度閾值和最小置信度閾值。第2步,在研究數(shù)據(jù)中找出所有頻繁項集(支持度必須大于或等于給定的最小支持度閾值),在這個過程中連接步和剪枝步互相融合,最終得到最大頻繁項集Lk。第3步,由頻繁項集產(chǎn)生強關聯(lián)規(guī)則,經(jīng)第2步可知未超過預先設定的最小支持度閾值的項集已經(jīng)被剔除,如果剩下的這些規(guī)則又滿足了預先設定的最小置信度閾值,就挖掘出了強關聯(lián)規(guī)則。綜上所述,根據(jù)支持度和置信度兩個指標,我們可以準確并穩(wěn)定地衡量某條關聯(lián)規(guī)則,因此根據(jù)實際情況設定相應的最小支持度閾值和最小置信度閾值,就可以篩選出符合我們要求的關聯(lián)規(guī)則。313.Python實現(xiàn)Apriori算法I1香菇排骨鴨蛋

I2香菇洋蔥

I3鴨蛋襪子

I4香菇排骨洋蔥

I5香菇排骨襪子牛奶I6鴨蛋洋蔥牛奶

I7排骨鴨蛋洋蔥

I8紫薯鴨蛋襪子

I9香菇排骨鞋子紫薯表13-1 超市購買記錄數(shù)據(jù)32假設最小支持度設置為0.2,最小置信度設置為0.4,算法得到結果如下:frozenset({'洋蔥'})-->frozenset({'鴨蛋'})conf:0.5frozenset({'洋蔥'})-->frozenset({'排骨'})conf:0.5frozenset({'襪子'})-->frozenset({'鴨蛋'})conf:0.6666666666666666frozenset({'洋蔥'})-->frozenset({'香菇'})conf:0.5frozenset({'排骨'})-->frozenset({'香菇'})conf:0.7999999999999999frozenset({'香菇'})-->frozenset({'排骨'})conf:0.7999999999999999從輸出結果來看,共產(chǎn)生6條強關聯(lián)規(guī)則,conf:x表示每條關聯(lián)規(guī)則的置信度值。13.2.4案例分析——信用卡推薦33本案例將通過某機構客戶持有的信用卡的數(shù)據(jù)情況,采用關聯(lián)規(guī)則Apriori算法進行數(shù)據(jù)挖掘。某機構對50位客戶持有信用卡的情況進行調查,得到的信用卡持有情況數(shù)據(jù)(部分),如圖所示。其中,ID列為客戶識別號,表頭的gs、ny等代表了不同的發(fā)卡行,單元格中的1代表客戶持有該銀行發(fā)行的信用卡,0則代表未持有。本案例將根據(jù)以上數(shù)據(jù)找出頻繁項集與關聯(lián)規(guī)則,從而協(xié)助發(fā)卡行制定合適的信用卡推薦方案。34目標:采用Apriori算法進行信用卡推薦方案。步驟:1.數(shù)據(jù)預處理:將原來持有銀行發(fā)行的信用卡轉換為發(fā)卡行縮寫。將原來的二值表格轉換為二維列表。2.算法實現(xiàn):調用Apriori算法進行關聯(lián)規(guī)則分析,設置最小支持度閾值設置為0.22。輸出強關聯(lián)規(guī)則,其中最小置信度閾值設置為0.6。繪制二維圖。3.結果分析:該機構可以根據(jù)程序產(chǎn)生的這幾條強關聯(lián)規(guī)則來協(xié)助發(fā)卡行制定合適的信用卡推薦方案。13.3時間序列分析3513.3.1時間序列分析概述站在數(shù)據(jù)收集和分析的角度,將特定的隨機事件變化的過程,按照時間先后順序記錄下來,構成一個時間序列數(shù)據(jù)集。對時間序列數(shù)據(jù)進行觀察、分析和研究,發(fā)掘其內部蘊含的規(guī)律,判斷導致其規(guī)律變化的決定因素,進一步預測其走勢,是時間序列分析的主要任務。36時間序列分析的基本思想如下:(1)事物發(fā)展存在延續(xù)性。(2)隨機性無處不在。常見的時間序列分析方法包括移動平均法、指數(shù)平滑法、周期變動法和自回歸移動模型等。接下來,我們重點介紹在時間序列分析中常用的自回歸移動模型——ARIMA模型。ARIMA的全稱叫做差分整合移動平均自回歸模型,又稱作整合移動平均自回歸模型,是一種用于時間序列預測的常見統(tǒng)計模型。ARIMA(p,d,q)記作:13.3.2ARIMA模型ARIMA模型主要由AR、I與MA模型三個部分組成。AR(p)模型I模型MA(q)模型ARIMA(p,d,q)模型可以表示為:p--代表預測模型中采用的時序數(shù)據(jù)本身的滯后數(shù),即自回歸項數(shù)。d--代表時序數(shù)據(jù)需要進行幾階差分化,才是穩(wěn)定的,即差分的階數(shù)。q--代表預測模型中采用的預測誤差的滯后數(shù),即滑動平均項數(shù)。ARIMA模型的基本思想是:將預測對象隨時間推移而形成的數(shù)據(jù)序列視為一個隨機序列,用一定的數(shù)學模型來近似描述這個序列,這個模型一旦被識別后,就可以從時間序列的過去值及現(xiàn)在值來預測未來值。第1步獲取被觀測的時間序列數(shù)據(jù)。第2步根據(jù)時間序列數(shù)據(jù)進行繪圖,觀測是否為平穩(wěn)時間序列。從平穩(wěn)的時間序列中求得自相關系數(shù)ACF和偏自相關系數(shù)PACF,得到最佳的階層p和階數(shù)q。ARIMA模型建立的基本步驟如下:第3步根據(jù)上述計算的d、q、p得到ARIMA模型,然后對模型進行檢驗。第4步對于一個時間序列來說,如果它的均值沒有系統(tǒng)的變化(無

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論