




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
基于機器學習的財務應用9-3DataAnalysisandMachineLearning內(nèi)容概述本節(jié)學習目標財務數(shù)據(jù)分析財務數(shù)據(jù)分析(1)理解人工智能的概念和研究范疇;(4)利用簡單的機器學習的算法進行財務數(shù)據(jù)分析。(2)了解機器學習的概念和方法;(3)掌握簡單的機器學習的算法,及Python編程;目錄CONTENTS財務數(shù)據(jù)分析財務數(shù)據(jù)分析9.3基于機器學習的財務應用1人工智能2機器學習3sklearn 【Python財務數(shù)據(jù)分析】——基于上市公司年報財務指標的機器學習財務應用人工智能PartOne01財務數(shù)據(jù)分析財務數(shù)據(jù)分析財務數(shù)據(jù)分析財務數(shù)據(jù)分析人工智能概述
20世紀50年代,圖靈首次提出了“機器思維”的概念。他提出了一項測試,以確定計算機能否進行“思考”:如果一臺計算機的行為、反應和互動像一個有意識的個體,那么它應該被視為有意識的,即提出了“機器能思維”的觀點。
人工智能(ArtificialIntelligence,AI)是由申農(nóng)(ClaudeShannon)等在1956年一次會議上被提出來的。一般認為人工智能是任何類似于人的智能或高于人的智能的機器或算法統(tǒng)稱。財務數(shù)據(jù)分析財務數(shù)據(jù)分析人工智能學派1)符號主義符號主義(symbolicism)的觀點:人工智能起源于數(shù)理邏輯,人類認知的基元是符號,認知過程是符號表示上的一種運算?;谥R的問題求解財務數(shù)據(jù)分析財務數(shù)據(jù)分析人工智能學派2)連接主義連接主義(connectionism)的觀點:人工智能起源于仿生學,特別是人腦模型,人類認知的基元是神經(jīng)元,認知過程是神經(jīng)元的聯(lián)結活動過程。playground可視化神經(jīng)網(wǎng)絡財務數(shù)據(jù)分析財務數(shù)據(jù)分析人工智能學派3)行為主義學派行為主義(actionism)的觀點:人工智能起源于控制論,智能取決于感知和行為,是對外界復雜環(huán)境的適應,而不是推理。以自動駕駛汽車為例,它在行駛過程中,不斷接收來自攝像頭、激光雷達和其他傳感器的數(shù)據(jù)。當遇到行人突然出現(xiàn)在道路上時,汽車會立即根據(jù)這些實時的感知信息采取剎車動作。這個決策不是基于預先編寫的固定程序,而是基于對環(huán)境的實時感知和過去在類似情況下的學習經(jīng)驗(通過大量的模擬訓練或?qū)嶋H道路測試積累),以實現(xiàn)安全、高效的駕駛行為。機器學習PartTwo02財務數(shù)據(jù)分析財務數(shù)據(jù)分析財務數(shù)據(jù)分析財務數(shù)據(jù)分析機器學習概念符號主義需要基于人類認知的規(guī)則,連接主義基于數(shù)據(jù)處理的物理模型假設空間,而行為主義需要行為結果與行為環(huán)境的交互。這些人工智能領域,本質(zhì)都是數(shù)據(jù)到知識的映射。從原始數(shù)據(jù)中獲取有用知識的能力被稱為機器學習(machinelearning)。機器學習與人類思維的對比財務數(shù)據(jù)分析財務數(shù)據(jù)分析數(shù)據(jù)、信息和知識1)數(shù)據(jù)數(shù)據(jù)泛指對客觀事物的數(shù)量、屬性、位置及其相互關系的抽象表示,以適合用人工或自然的方式進行保存、傳遞和處理。數(shù)據(jù)是知識階層中最底層也是最基礎的一個概念,是形成信息、知識和智能的源泉,是機器學習“原料”。換句話說,機器模型需要數(shù)據(jù)“喂養(yǎng)”,才能“成熟”。財務數(shù)據(jù)分析財務數(shù)據(jù)分析數(shù)據(jù)、信息和知識3)知識數(shù)據(jù)是信息的載體,本身無確切含義。知識可以理解為信息與信息之間的關聯(lián)。通過對信息使用歸納、演繹的方法得到知識。在表中9-1,我們發(fā)現(xiàn):樣本的特征“所有者權益”與特征“資產(chǎn)”和“負債”存在這種關聯(lián)關系:如果“資產(chǎn)”和“負債”兩個特征的值,就可以得到特征“所有者權益”值。這種關聯(lián)關系就是知識。財務數(shù)據(jù)分析財務數(shù)據(jù)分析數(shù)據(jù)、信息和知識財務數(shù)據(jù)分析財務數(shù)據(jù)分析機器學習過程財務數(shù)據(jù)分析財務數(shù)據(jù)分析機器學習過程1)機器學習前提機器之所以能夠?qū)W習,是有數(shù)學原理支持的。簡單地說,就是數(shù)學證明通過大量描述事物的數(shù)據(jù),可以發(fā)現(xiàn)其中的規(guī)律。我們把要發(fā)現(xiàn)的規(guī)律視為一種假設:“未知的目標函數(shù)假設”,即機器學習的假設前提。通過事物的描述(X),存在一個理想化的映射(f):XY。X是已知樣本的樣本空間,Y是樣本的一個新特征空間。這個假設的存在是我們機器學習的前提。財務數(shù)據(jù)分析財務數(shù)據(jù)分析機器學習過程2)獲取數(shù)據(jù)有了(1)的前提,我們需要首先要得到盡可能多且全面的事物描述數(shù)據(jù)(X),以及通過經(jīng)驗或過去的事實了解已知事物的特征(Y)的值,即數(shù)據(jù)集D:(X,Y)。X為目標函數(shù)(g)的左側特征值,Y為目標函數(shù)映射的特征向量。Y的值獲取具有多種途徑,因此演化多種機器學習的方法,如有監(jiān)督機器學習,無監(jiān)督機器學習,強化學習,自學習等財務數(shù)據(jù)分析財務數(shù)據(jù)分析機器學習過程3)數(shù)據(jù)預處理數(shù)據(jù)在學習之前,要滿足學習算法的要求,如數(shù)據(jù)變換、數(shù)據(jù)標準化等。這里我們只討論數(shù)據(jù)拆分這一步驟。通常會把數(shù)據(jù)分成2部分(有時也分為3部分,訓練集、測試集和驗證集),即訓練集(trainingset)和測試集(testingset)。訓練集是用來訓練模型,測試集是在模型的訓練之后評估模型的好壞。數(shù)據(jù)拆分有很多方法,如K折交叉檢驗(K-foldcross-validation)——大致思想是把數(shù)據(jù)集分成K份,每次取一份作為測試集,取余下的K-1份作為訓練集。財務數(shù)據(jù)分析財務數(shù)據(jù)分析機器學習過程4)學習訓練除了訓練數(shù)據(jù)集,學習訓練需要另外2個要素:假設空間和算法。(1)假設空間:我們根據(jù)已有的認知,使用某種思維框架把理想的函數(shù)f所在的空間表示出來,即假設空間H:X->Y。H可以被理解為X->Y的“形態(tài)”空間,空間中的具體模型形式可能有無限多個。(2)算法:算法A可以理解為從假設空間H中,找到一個最優(yōu)或次優(yōu)的模型的數(shù)學方法。算法求解的條件是:得到的模型g,使得g(X),無限接近f(X)=Y。即從假設空間中找到一個模型g,使得映射得到的與已知事實的Y的差異盡可能小?;诖耍瑱C器學習一般可以轉換為最小化問題求解。財務數(shù)據(jù)分析財務數(shù)據(jù)分析機器學習過程5)模型評估模型g在訓練集上表現(xiàn)很好,即預測值與真實值差異趨近最小。但是未必在測試集上有同樣的表現(xiàn)。算法A學習X得到的g,可能有缺陷[這種缺陷來自多個方面:①訓練集X不能完全代表事物本身,或數(shù)量不足;②人類認知有限,事物的規(guī)律f不在假設空間H之中;③算法A本身有問題,得到的g不是一個合適的解。這里涉及過擬合、欠擬合和超級參數(shù)等概念。如果模型g在測試集上表現(xiàn)不佳,則要回到前面的重新學習訓練。通過了測試,則模型就能用于預測分析了。財務數(shù)據(jù)分析財務數(shù)據(jù)分析機器學習過程6)預測預測就是有新的數(shù)據(jù)加載到模型上,得到預測目標向量的過程。財務數(shù)據(jù)分析財務數(shù)據(jù)分析機器學習分類1)監(jiān)督學習監(jiān)督學習(supervisedlearning)也稱有監(jiān)督學習,通常可以用于分類(classification)和回歸(regression)問題。它的主要特點是,所有的數(shù)據(jù)都有與之相對應的標簽(Label)。比如我們想做一個評估企業(yè)的債券等級的模型,那么我們的數(shù)據(jù)集是大量的企業(yè)財務指標(數(shù)據(jù))對應企業(yè)債券的等級數(shù)據(jù)(標簽)。監(jiān)督學習在建模過程中,是將模型的預測結果與訓練集數(shù)據(jù)的標簽(真實值)做對比,比較采用一個目標函數(shù)(損失函數(shù)),如果預測結果與實際結果不符合,調(diào)整模型參數(shù)或結構,直到模型的預測結果可能達到預期的準確率。財務數(shù)據(jù)分析財務數(shù)據(jù)分析機器學習分類2)無監(jiān)督學習無監(jiān)督學習(unsupervisedlearning)通??梢杂糜诮鉀Q聚類(clustering)的問題。無監(jiān)督學習中,所有的數(shù)據(jù)都是沒有標簽的,可以使用機器學習的方法讓數(shù)據(jù)自動聚類。由于缺乏足夠的先驗知識,人工標注類別困難,或進行人工類別標注的成本太高,所以我們希望計算機能夠分類,或至少提供一些幫助。根據(jù)類別未知(沒有被標記)的訓練樣本解決模式識別中的各種問題,稱之為無監(jiān)督學習。財務數(shù)據(jù)分析財務數(shù)據(jù)分析機器學習分類3)半監(jiān)督學習半監(jiān)督學習(semi-supervisedlearning)是監(jiān)督學習和無監(jiān)督學習相結合的一種學習方式。主要是用來解決使用少量帶標簽的數(shù)據(jù)和大量沒有標簽的數(shù)據(jù)進行訓練和分類的問題。此類算法首先試圖對沒有標簽的數(shù)據(jù)進行建模,然后再對帶有標簽的數(shù)據(jù)進行預測,從而檢驗模型。財務數(shù)據(jù)分析財務數(shù)據(jù)分析機器學習分類4)其他學習方法強化學習(reinforcementlearning)是智能體(agent)以“試錯”的方式進行學習。通過與環(huán)境進行交互獲得的獎賞指導智能體行為,使智能體獲得最大的獎賞,從而達到模型訓練目的。集成學習(ensemblelearning),一般先產(chǎn)生一組“個體學習器”,再用某種策略將它們結合起來。結合策略主要有平均法、投票法等。遷移學習(transferlearning)是一種機器學習模型再利用的方法,就是把為任務A得到的模型作為初始點,重新使用在為任務B的開發(fā)模型中。結構學習(structuredlearning)就是輸入或輸出是有結構的數(shù)據(jù),比如說語句、列表、樹和邊界框(boundingbox)。財務數(shù)據(jù)分析財務數(shù)據(jù)分析機器學習分類深度學習(deeplearning),其基礎是神經(jīng)網(wǎng)絡。神經(jīng)網(wǎng)絡算法框架是一種網(wǎng)絡結構,即神經(jīng)元的分層布局。以往受到計算機算力的約束,神經(jīng)網(wǎng)絡算法中神經(jīng)元數(shù)量不能太多和網(wǎng)絡層數(shù)不能太深。隨著神經(jīng)網(wǎng)絡理論的發(fā)展,計算機算力的提升,人們研究出了多種高效的深層的網(wǎng)絡模型。相對而言,深度學習就是利用相對網(wǎng)絡層數(shù)很多的神經(jīng)網(wǎng)絡學習。4)其他學習方法財務數(shù)據(jù)分析財務數(shù)據(jù)分析大數(shù)據(jù)、人工智能與機器學習深度學習是基于多層神經(jīng)網(wǎng)絡的機器學習,機器學習是人工智能的一個種類,也是一個技術路徑,而無論是人工智能,機器學習,還是深度學習,都依賴于大數(shù)據(jù)基礎。sklearnPartThere03財務數(shù)據(jù)分析財務數(shù)據(jù)分析財務數(shù)據(jù)分析財務數(shù)據(jù)分析sklearn簡介sklearn是基于Python語言的機器學習的工具,其建立在NumPy,SciPy,matplotlib之上,用于數(shù)據(jù)挖掘,數(shù)據(jù)分析等。sklearn主要用于數(shù)據(jù)預處理、分類、回歸、聚類和數(shù)據(jù)降維等。分類/回歸是監(jiān)督學習的方式,聚類是非監(jiān)督學習的方式,降維一般用于特征轉換、主成分分析等。財務數(shù)據(jù)分析財務數(shù)據(jù)分析sklearn使用1)數(shù)據(jù)集鳶尾花(iris)數(shù)據(jù)集,共有4個屬性列和1個品種類別列:sepallength(萼片長度)、sepalwidth(萼片寬度)、petallength(花瓣長度)、petalwidth(花瓣寬度),單位都是厘米。3個品種類別是Setosa、Versicolour、Virginica,樣本數(shù)量150個,每類50個。財務數(shù)據(jù)分析財務數(shù)據(jù)分析sklearn使用2)回歸最簡單的線性回歸模型,即我們所熟知的一次函數(shù),y=kx+b。這種線性函數(shù)描述了兩個變量之間的關系,其函數(shù)圖像是一條連續(xù)的直線。我們這里X是矩陣,函數(shù)則是多元線性回歸模型,Y=WTX+b,其中Y,W為向量。財務數(shù)據(jù)分析財務數(shù)據(jù)分析sklearn使用3)分類K最近鄰分類算法,K指代的是樣本最近的k個鄰居。KNN算法基本原理:以所有已知類別的樣本X作為參照來計算未知樣本X’與所有已知樣本的距離,然后從中選取與未知樣本距離最近的K個已知樣本,將未知樣本Xi’與K個最鄰近樣本中所屬類別占比較多的歸為一類。簡單理解是根據(jù)距離判定,少數(shù)服從多數(shù)的投票法則(majority-voting)。財務數(shù)據(jù)分析財務數(shù)據(jù)分析sklearn使用4)聚類聚類(Clustering):是指把相似的數(shù)據(jù)劃分到一起,具體劃分的時候并不關心數(shù)據(jù)的標簽,目標就是把相似的數(shù)據(jù)聚合為一類。財務數(shù)據(jù)分析財務數(shù)據(jù)分析sklearn使用4)聚類聚類(Clustering):是指把相似的數(shù)據(jù)劃分到一起,具體劃分的時候并不關心數(shù)據(jù)的標簽,目標就是把相似的數(shù)據(jù)聚合為一類?!綪ython財務數(shù)據(jù)分析】——基于上市公司年報財務指標的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 反應耦合強化生物質(zhì)醇-醛高值利用及作用機制研究
- 市政管道管線維護與檢測方案
- 建筑裝飾工程施工區(qū)域劃分與管理方案
- 難點詳解人教版八年級上冊物理物態(tài)變化《汽化和液化》同步練習試題(詳解版)
- 2024-2025學年高中數(shù)學 第三章 指數(shù)運算與指數(shù)函數(shù) 2 指數(shù)冪的運算性質(zhì) 3.2.1 指數(shù)冪的運算性質(zhì)說課稿 北師大版必修第一冊
- 解析卷-人教版八年級上冊物理《聲現(xiàn)象》綜合測試試題(含答案解析)
- 兒童外周靜脈通路困難風險預測模型的構建及驗證
- 廠房內(nèi)外裝修施工方案
- 基于時序InSAR的北京平原區(qū)地面沉降時空演化特征及發(fā)展趨勢研究
- 第2章 第4節(jié) 單細胞生物體(新說課稿)2025-2026學年七年級上冊生物(冀少版)
- 新車車輛交接協(xié)議書范本
- 工程招標代理機構自查整改報告范文
- 心源性腦栓塞治療指南
- 2025-2026學年接力版(2024)小學英語四年級上冊(全冊)教學設計(附目錄)
- 婦女常見疾病防治講座
- 廠房屋頂分布式光伏項目可行性研究報告
- 供貨進度保證措施方案
- 私人財產(chǎn)轉移協(xié)議書范本
- DB3301∕T 0396-2023 大型商業(yè)綜合體消防安全管理規(guī)范
- 2025年長沙市中考道德與法治試卷真題(含答案解析)
- 2025 二年級上冊《田家四季歌》教學課件
評論
0/150
提交評論