《商務(wù)大數(shù)據(jù)分析導(dǎo)論》全套教學(xué)課件_第1頁
《商務(wù)大數(shù)據(jù)分析導(dǎo)論》全套教學(xué)課件_第2頁
《商務(wù)大數(shù)據(jù)分析導(dǎo)論》全套教學(xué)課件_第3頁
《商務(wù)大數(shù)據(jù)分析導(dǎo)論》全套教學(xué)課件_第4頁
《商務(wù)大數(shù)據(jù)分析導(dǎo)論》全套教學(xué)課件_第5頁
已閱讀5頁,還剩667頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

商務(wù)大數(shù)據(jù)分析

導(dǎo)論全套可編輯PPT課件

目錄項(xiàng)目一

數(shù)據(jù)分析基礎(chǔ)項(xiàng)目二

大數(shù)據(jù)分析算法項(xiàng)目三

創(chuàng)業(yè)實(shí)踐:數(shù)據(jù)采集與整理

項(xiàng)目四

創(chuàng)業(yè)實(shí)踐:構(gòu)建數(shù)據(jù)模型項(xiàng)目五

創(chuàng)業(yè)實(shí)踐:認(rèn)識客戶價(jià)值項(xiàng)目六

創(chuàng)業(yè)實(shí)踐:數(shù)據(jù)可視化項(xiàng)目七

數(shù)字化創(chuàng)新創(chuàng)業(yè)實(shí)踐項(xiàng)目一數(shù)據(jù)分析基礎(chǔ)全套可編輯PPT課件

項(xiàng)目一數(shù)據(jù)分析基礎(chǔ)任務(wù)一大數(shù)據(jù)分析基礎(chǔ)知識

1.大數(shù)據(jù)分析的幾對概念

1.1機(jī)器學(xué)習(xí)與深度學(xué)習(xí)

1.2監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)

1.3訓(xùn)練集、驗(yàn)證集和測試集

2.大數(shù)據(jù)分析流程

2.1.數(shù)據(jù)分析標(biāo)準(zhǔn)流程

2.2.數(shù)據(jù)分析標(biāo)準(zhǔn)流程的案例解析3.大數(shù)據(jù)分析方法概覽

4.本書主要使用的大數(shù)據(jù)分析工具

4.1.PowerBI簡介

4.2.Python簡介

4.3.Orange3.0主要功能1.大數(shù)據(jù)分析的幾對概念1.1機(jī)器學(xué)習(xí)與深度學(xué)習(xí)1.機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)是人工智能在近期最重要的發(fā)展之一。機(jī)器學(xué)習(xí)的理念是,不將智能看作是給機(jī)器傳授東西,而是機(jī)器會自己學(xué)習(xí)東西。2.深度學(xué)習(xí)深度學(xué)習(xí)是目前關(guān)注度很高的一類算法,深度學(xué)習(xí)(DeepLearning,DL)屬于機(jī)器學(xué)習(xí)的子類。它的靈感來源于人類大腦的工作方式,是利用深度神經(jīng)網(wǎng)絡(luò)來解決特征表達(dá)的一種學(xué)習(xí)過程。人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)關(guān)系如圖所示。1.大數(shù)據(jù)分析的幾對概念1.2監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)通過建立模型進(jìn)行自我學(xué)習(xí),那么學(xué)習(xí)方法有哪些呢?(1)監(jiān)督學(xué)習(xí)監(jiān)督學(xué)習(xí)就是訓(xùn)練機(jī)器學(xué)習(xí)的模型的訓(xùn)練樣本數(shù)據(jù)有對應(yīng)的目標(biāo)值,監(jiān)督學(xué)習(xí)就是通過對數(shù)據(jù)樣本因子和已知的結(jié)果建立聯(lián)系,提取特征值和映射關(guān)系,通過已知的結(jié)果,已知數(shù)據(jù)樣本不斷的學(xué)習(xí)和訓(xùn)練,對新的數(shù)據(jù)進(jìn)行結(jié)果的預(yù)測。(2)無監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)跟監(jiān)督學(xué)習(xí)的區(qū)別就是選取的樣本數(shù)據(jù)無需有目標(biāo)值,我們無需分析這些數(shù)據(jù)對某些結(jié)果的影響,只是分析這些數(shù)據(jù)內(nèi)在的規(guī)律。(3)半監(jiān)督學(xué)習(xí)半監(jiān)督學(xué)習(xí)是監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)相互結(jié)合的一種學(xué)習(xí)方法,通過半監(jiān)督學(xué)習(xí)的方法可以實(shí)現(xiàn)分類、回歸、聚類的結(jié)合使用。(4)強(qiáng)化學(xué)習(xí)強(qiáng)化學(xué)習(xí)是一種比較復(fù)雜的機(jī)器學(xué)習(xí)方法,強(qiáng)調(diào)系統(tǒng)與外界不斷的交互反饋,它主要是針對流程中不斷需要推理的場景,比如無人汽車駕駛,它更多關(guān)注性能。它是機(jī)器學(xué)習(xí)中的熱點(diǎn)學(xué)習(xí)方法。1.大數(shù)據(jù)分析的幾對概念1.3訓(xùn)練集、驗(yàn)證集和測試集1.訓(xùn)練集(trainset)用于訓(xùn)練有監(jiān)督模型,擬合模型,調(diào)整參數(shù),選擇入模變量,以及對算法做出其他抉擇;2.測試集(testset)用于評估訓(xùn)練出的模型效果,但不會改變模型的參數(shù)及效果,一般驗(yàn)證模型是否過擬合或者欠擬合,決定是否重新訓(xùn)練模型或者選擇其他的算法;3.驗(yàn)證集(validationset)因?yàn)橛?xùn)練集和測試集均源自同一分布中,隨著時(shí)間的流逝,近期樣本的分布與訓(xùn)練模型的樣本分布會有變化,需要校驗(yàn)訓(xùn)練好的模型在近期樣本(驗(yàn)證集)是否有同樣的效果,即模型的穩(wěn)定性、魯棒性、泛化誤差。2.大數(shù)據(jù)分析流程大數(shù)據(jù)特點(diǎn)5個(gè)V:數(shù)據(jù)量大(Volume)、速度快(Velocity)、類型多(Variety)、價(jià)值(Value)、真實(shí)性(Veracity)。數(shù)據(jù)分析工具各種廠商開發(fā)了數(shù)據(jù)分析的工具、模塊,將分析模型封裝,使不了解技術(shù)的人也能夠快捷地實(shí)現(xiàn)數(shù)學(xué)建模,快速響應(yīng)分析需求。傳統(tǒng)分析在數(shù)據(jù)量較少時(shí),傳統(tǒng)的數(shù)據(jù)分析已能夠發(fā)現(xiàn)數(shù)據(jù)中包含的知識,包括結(jié)構(gòu)分析、杜邦分析等模型,方法成熟,應(yīng)用廣泛。常規(guī)分析揭示數(shù)據(jù)之間的靜態(tài)關(guān)系;分析過程滯后;對數(shù)據(jù)質(zhì)量要求高。隨著計(jì)算機(jī)科學(xué)的進(jìn)步,數(shù)據(jù)挖掘、商務(wù)智能、大數(shù)據(jù)等概念的出現(xiàn),數(shù)據(jù)分析的手段和方法更加豐富。數(shù)據(jù)挖掘就是充分利用了統(tǒng)計(jì)學(xué)和人工智能技術(shù)的應(yīng)用程序,并把這些高深復(fù)雜的技術(shù)封裝起來,使人們不用自己掌握這些技術(shù)也能完成同樣的功能,并且更專注于自己所要解決的問題。同時(shí)將統(tǒng)計(jì)學(xué)和計(jì)算機(jī)技術(shù)等多學(xué)科進(jìn)行結(jié)合,揭示數(shù)據(jù)之間隱藏的關(guān)系將數(shù)據(jù)分析的范圍從“已知”擴(kuò)展到“未知”,從“過去”推向“將來”。商務(wù)智能一系列以事實(shí)為支持,輔助商業(yè)決策的技術(shù)和方法,曾用名包括專家系統(tǒng)、智能決策等,一般由數(shù)據(jù)倉庫、聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘、數(shù)據(jù)備份和恢復(fù)等部分組成對數(shù)據(jù)分析的體系化管理,數(shù)據(jù)分析的主體依然是數(shù)據(jù)挖掘。大數(shù)據(jù)技術(shù)從多種類型的數(shù)據(jù)中,快速獲取知識的能力及數(shù)據(jù)挖掘技術(shù)的衍生。數(shù)據(jù)可視化大數(shù)據(jù)時(shí)代,展示數(shù)據(jù)可以更好輔助理解數(shù)據(jù)、演繹數(shù)據(jù)。2.1數(shù)據(jù)分析標(biāo)準(zhǔn)流程(圖)2.大數(shù)據(jù)分析流程(1)業(yè)務(wù)理解(2)數(shù)據(jù)理解(3)數(shù)據(jù)準(zhǔn)備(4)建立模型(5)評估模型(6)部署2.1數(shù)據(jù)分析標(biāo)準(zhǔn)流程(圖)2.大數(shù)據(jù)分析流程(1)業(yè)務(wù)理解(2)數(shù)據(jù)理解(3)數(shù)據(jù)準(zhǔn)備(4)建立模型(5)評估模型(6)部署2.2數(shù)據(jù)分析標(biāo)準(zhǔn)流程的案例解析案例:農(nóng)夫山泉用大數(shù)據(jù)賣礦泉水2.大數(shù)據(jù)分析流程在大數(shù)據(jù)時(shí)代,數(shù)據(jù)挖掘算法是最關(guān)鍵的工作。大數(shù)據(jù)的挖掘是從海量、不完全的、有噪聲的、模糊的、隨機(jī)的大型數(shù)據(jù)庫中發(fā)現(xiàn)隱含在其中有價(jià)值的、潛在有用的信息和知識的過程,也是一種決策支持過程。其主要基于人工智能,機(jī)器學(xué)習(xí),模式學(xué)習(xí),統(tǒng)計(jì)學(xué)等。一般來說,大數(shù)據(jù)的挖掘常用的方法有分類、回歸分析、聚類、關(guān)聯(lián)規(guī)則、人工神經(jīng)網(wǎng)絡(luò)等,如圖所示。這些方法從不同的角度對數(shù)據(jù)進(jìn)行挖掘,從而生產(chǎn)數(shù)據(jù)產(chǎn)品,產(chǎn)生數(shù)據(jù)價(jià)值。3.大數(shù)據(jù)分析方法概覽(2)回歸分析。(3)聚類。3.大數(shù)據(jù)分析方法概覽分類算法示意圖

回歸算法示意圖

聚類算法示意圖回歸分析反映了數(shù)據(jù)庫數(shù)據(jù)的屬性值的特性,通過函數(shù)表達(dá)數(shù)據(jù)映射的關(guān)系來發(fā)現(xiàn)屬性值之間的依賴關(guān)系?;貧w分析聚類類似于分類,但與分類的目的不同,是針對數(shù)據(jù)的相似性和差異性將一組數(shù)據(jù)分為幾個(gè)類別。聚類分類是找出數(shù)據(jù)庫中的一組數(shù)據(jù)對象的共同特點(diǎn)并按照分類模式將其劃分為不同的類,其目的是通過分類模型,將數(shù)據(jù)庫中的數(shù)據(jù)項(xiàng)映射到摸個(gè)給定的類別中。分類3.大數(shù)據(jù)分析方法概覽關(guān)聯(lián)規(guī)則算法示意圖

神經(jīng)網(wǎng)絡(luò)算法示意圖關(guān)聯(lián)規(guī)則是隱藏在數(shù)據(jù)項(xiàng)之間的關(guān)聯(lián)或相互關(guān)系,即可以根據(jù)一個(gè)數(shù)據(jù)項(xiàng)的出現(xiàn)推導(dǎo)出其他數(shù)據(jù)項(xiàng)的出現(xiàn)。關(guān)聯(lián)規(guī)則神經(jīng)網(wǎng)絡(luò)作為一種先進(jìn)的人工智能技術(shù),因其自身自行處理、分布存儲和高度容錯(cuò)等特性,非常適合處理非線性的以及那些以模糊、不完整、不嚴(yán)密的知識或數(shù)據(jù)為特征的處理問題,它的這一特點(diǎn)十分適合解決數(shù)據(jù)挖掘的問題。神經(jīng)網(wǎng)絡(luò)方法(1)Python概要Python是一個(gè)高層次的結(jié)合了解釋性、編譯性、互動性和面向?qū)ο蟮哪_本語言。Python的設(shè)計(jì)具有很強(qiáng)的可讀性。1)Python是一種解釋型語言:這意味著開發(fā)過程中沒有了編譯這個(gè)環(huán)節(jié)。類似于PHP和Perl語言。2)Python是交互式語言:這意味著,您可以在一個(gè)Python提示符,直接互動執(zhí)行寫你的程序。3)Python是面向?qū)ο笳Z言:這意味著Python支持面向?qū)ο蟮娘L(fēng)格或代碼封裝在對象的編程技術(shù)。4)Python是初學(xué)者的語言:Python對初級程序員而言,是一種偉大的語言,它支持廣泛的應(yīng)用程序開發(fā),從簡單的文字處理到WWW瀏覽器再到游戲。(2)Python發(fā)展歷史(3)Python特點(diǎn)1)易于學(xué)習(xí)。Python有相對較少的關(guān)鍵字,結(jié)構(gòu)簡單,和一個(gè)明確定義的語法,學(xué)習(xí)起來更加簡單。2)易于閱讀。Python代碼定義的更清晰。3)易于維護(hù)。Python的成功在于它的源代碼是相當(dāng)容易維護(hù)的。4)一個(gè)廣泛的標(biāo)準(zhǔn)庫。Python的最大的優(yōu)勢之一是豐富的庫,跨平臺的,在UNIX,Windows和Macintosh兼容很好。5)互動模式。互動模式的支持,您可以從終端輸入執(zhí)行代碼并獲得結(jié)果的語言,互動的測試和調(diào)試代碼片斷。6)可移植?;谄溟_放源代碼的特性,Python已經(jīng)被移植(也就是使其工作)到許多平臺。7)可擴(kuò)展。如果你需要一段運(yùn)行很快的關(guān)鍵代碼,或者是想要編寫一些不愿開放的算法,你可以使用C或C++完成那部分程序,然后從你的Python程序中調(diào)用。8)數(shù)據(jù)庫。Python提供所有主要的商業(yè)數(shù)據(jù)庫的接口。9)GUI編程。Python支持GUI可以創(chuàng)建和移植到許多系統(tǒng)調(diào)用。10)可嵌入。你可以將Python嵌入到C/C++程序,讓你的程序的用戶獲得“腳本化”的能力。4.本書主要使用的大數(shù)據(jù)分析工具PowerBI是一種商業(yè)分析解決方案,可幫助對數(shù)據(jù)進(jìn)行可視化、在組織中共享見解、或?qū)⒁娊馇度霊?yīng)用或網(wǎng)站中。連接到數(shù)百個(gè)數(shù)據(jù)源,并使用實(shí)時(shí)儀表板和報(bào)表對讓數(shù)據(jù)變得生動。PowerBI簡介01Python是一種解釋型、面向?qū)ο?、動態(tài)數(shù)據(jù)類型的高級程序設(shè)計(jì)語言。由荷蘭人GuidovanRossum于1989年底發(fā)明,第一個(gè)公開發(fā)行版發(fā)行于1991年。像Perl語言一樣,Python源代碼同樣遵循GPL(GNUGeneralPublicLicense)協(xié)議。Python核心團(tuán)隊(duì)計(jì)劃在2020年停止支持Python2;從2019年1月1日開始,任何新的功能版本都只支持Python3。Python簡介02Orange的組件包括:數(shù)據(jù)(Data):包含數(shù)據(jù)輸入、數(shù)據(jù)保存、數(shù)據(jù)過濾、抽樣、插補(bǔ)、特征操作以及特征選擇等組件,同時(shí)還支持嵌入Python腳本。可視化(Visualize):包含通用可視化(箱形圖、直方圖、散點(diǎn)圖)和多變量可視化(馬賽克圖、篩分曲線圖)組件。模型(Model):包含一組用于分類和回歸的有監(jiān)督機(jī)器學(xué)習(xí)算法組件。評估(Evaluate):交叉驗(yàn)證、抽樣程序、可靠性評估以及預(yù)測方法評估。無監(jiān)督算法(Unsupervised):用于聚類(k-means、層次聚類)和數(shù)據(jù)降維(多維尺度變換、主成分分析、相關(guān)分析)的無監(jiān)督學(xué)習(xí)算法。另外,還可以通過插件(add-ons)的方式為Orange增加其他的功能(生物信息學(xué)、數(shù)據(jù)融合與文本挖掘。添加的方法是點(diǎn)擊“Options”菜單下的“Add-ons”按鈕,打開插件管理器。4.本書主要使用的大數(shù)據(jù)分析工具Orange是一個(gè)開源的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)軟件。Orange基于Python和C/C++開發(fā),提供了一系列的數(shù)據(jù)探索、可視化、預(yù)處理以及建模組件。Orange3.0主要功能03項(xiàng)目一數(shù)據(jù)分析基礎(chǔ)任務(wù)二準(zhǔn)備你的數(shù)據(jù)分析能力

1.基本概念辨析

2.常見的離散型隨機(jī)變量的分布

2.1 等概率分布

2.2 伯努利分布

2.3 二項(xiàng)分布

2.4 幾何分布

2.5 超幾何分布

2.6 泊松分布

3.常見的連續(xù)型隨機(jī)變量的分布

3.1 正態(tài)分布

3.2 指數(shù)分布

1.1離散型隨機(jī)變量可以逐個(gè)列舉出來的變量。如能夠用我們?nèi)粘J褂玫牧吭~可以度量的取值,比如次數(shù),個(gè)數(shù),塊數(shù)等都是離散型隨機(jī)變量。比如拋硬幣、擲骰子、買彩票等。1.2連續(xù)型隨機(jī)變量無法逐個(gè)列舉的變量。無法用量詞度量,且取值可以取到小數(shù)2位,3位甚至無限多位的時(shí)候,那么這個(gè)變量就是連續(xù)型隨機(jī)變量。比如正態(tài)分布(也稱為高斯分布)、指數(shù)分布等。1.3概率函數(shù)其實(shí),無論是離散型還是連續(xù)型隨機(jī)變量,基礎(chǔ)性的概率函數(shù)概念只有兩個(gè),根據(jù)國內(nèi)教材的普遍性稱謂,在此我們可以統(tǒng)一稱為概率分布函數(shù)和概率密度函數(shù)。1.基本概念辨析2.1等概率分布顧名思義,等概率分布是指每一個(gè)可能出現(xiàn)情況的概率取值都是相等的。比如拋硬幣、拋骰子等,一般將等概率分布稱為“古典概型”。2.常見的離散型隨機(jī)變量的分布2.2伯努利分布伯努利分布,也叫0-1分布或兩點(diǎn)分布。凡是隨機(jī)試驗(yàn)只有兩個(gè)可能的結(jié)果,常用伯努利分布描述,如產(chǎn)品是否格、人口性別統(tǒng)計(jì)、系統(tǒng)是否正常、電力消耗是否超負(fù)荷等等。2.3二項(xiàng)分布二項(xiàng)分布,也叫n重伯努利分布,是指反復(fù)多次重復(fù)伯努利實(shí)驗(yàn),比如重復(fù)拋骰子計(jì)算某個(gè)點(diǎn)出現(xiàn)幾次的概率問題,射擊的命中次數(shù)和命中率問題,一批種子的發(fā)芽率問題,藥物治療病人是否有效的問題,產(chǎn)品的不合格率問題等都要用到二項(xiàng)分布。2.常見的離散型隨機(jī)變量的分布四個(gè)二項(xiàng)分布圖2.常見的離散型隨機(jī)變量的分布2.4幾何分布幾何分布也是以伯努利分布為基礎(chǔ)的一種特殊分布,它主要解決在k次重復(fù)獨(dú)立實(shí)驗(yàn)中,某個(gè)我們關(guān)心的結(jié)果在某次(k值)時(shí)第一次出現(xiàn)的概率。主要應(yīng)用場景如在已知某器件報(bào)損概率的情況下,測算其正常使用壽命?;蛟谥歇劯怕室欢ǖ那闆r下,需要多長時(shí)間能中的大獎。三幾何分布圖2.常見的離散型隨機(jī)變量的分布2.5超幾何分布超幾何分布圖超幾何分布與二項(xiàng)分布比較圖2.常見的離散型隨機(jī)變量的分布2.6泊松分布泊松分布適合于描述單位時(shí)間或空間內(nèi)隨機(jī)事件發(fā)生的次數(shù)。比如某一個(gè)服務(wù)設(shè)施在一定時(shí)間內(nèi)到達(dá)了多少人,電話交換機(jī)接到了多少次呼叫,汽車站臺的候車人數(shù),機(jī)器出現(xiàn)的故障次數(shù),顯微鏡下單位分區(qū)內(nèi)的細(xì)菌分布數(shù)等。泊松分布圖二項(xiàng)分布與泊松分布比較圖2.常見的離散型隨機(jī)變量的分布以上四種離散分布的動態(tài)演示圖可以用數(shù)學(xué)軟件Geogebra畫出,參見/m/xfjsmv7v。四種分布在Geogebra中的呈現(xiàn)3.常見的連續(xù)型隨機(jī)變量的分布3.1正態(tài)分布正態(tài)分布圖3.2指數(shù)分布在連續(xù)型隨機(jī)分布中,存在一個(gè)與指數(shù)有關(guān)的分布,指數(shù)分布。如果隨機(jī)變量指數(shù)分布圖

以上二種連續(xù)分布的動態(tài)演示圖已用數(shù)學(xué)軟件Geogebra畫出,參見/m/hcnt8nj9。學(xué)習(xí)者可以調(diào)整各分布的參數(shù)查看圖形變化過程,其圖形呈現(xiàn)見圖2-10。也可下載研究。如在手機(jī)端操作,請掃描右邊的二維碼。二種分布在Geogebra中的呈現(xiàn)謝謝商務(wù)大數(shù)據(jù)分析

導(dǎo)論目錄項(xiàng)目一

數(shù)據(jù)分析基礎(chǔ)項(xiàng)目二

大數(shù)據(jù)分析算法項(xiàng)目三

創(chuàng)業(yè)實(shí)踐:數(shù)據(jù)采集與整理

項(xiàng)目四

創(chuàng)業(yè)實(shí)踐:構(gòu)建數(shù)據(jù)模型項(xiàng)目五

創(chuàng)業(yè)實(shí)踐:認(rèn)識客戶價(jià)值項(xiàng)目六

創(chuàng)業(yè)實(shí)踐:數(shù)據(jù)可視化項(xiàng)目七

數(shù)字化創(chuàng)新創(chuàng)業(yè)實(shí)踐項(xiàng)目二大數(shù)據(jù)分析算法項(xiàng)目二大數(shù)據(jù)分析算法任務(wù)一

決策

1.信息、熵及信息增益的概念

1.1信息及其度量

1.2信息熵

1.3條件熵、信息增益及信息增益比

2.決策樹的構(gòu)建

2.1ID3算法

2.2C4.5算法

2.3ID3、C4.5、CART的區(qū)別算法

3.算法用例1.信息、熵及信息增益的概念1.1信息及其度量克勞德·艾爾伍德·香農(nóng),美國數(shù)學(xué)家、電子工程師和密碼學(xué)家,被譽(yù)為信息論的創(chuàng)始人。他發(fā)表了劃時(shí)代的論文——通信的數(shù)學(xué)原理,奠定了現(xiàn)代信息論的基礎(chǔ)。不僅如此,香農(nóng)還被認(rèn)為是數(shù)字計(jì)算機(jī)理論和數(shù)字電路設(shè)計(jì)理論的創(chuàng)始人。香農(nóng)對信息的描述是“信息是用來消除隨機(jī)不確定性的東西”。信息是消息中包含的有效內(nèi)容,那么如何度量離散消息中所含的信息量?其度量的基本原則有三點(diǎn),一是能度量任何消息,并與消息的種類無關(guān);二是度量方法應(yīng)該與消息的重要程度無關(guān);三是消息中所含信息量和消息內(nèi)容的不確定性有關(guān)。1.2信息熵當(dāng)熵中的概率由數(shù)據(jù)估計(jì)(特別是最大似然估計(jì))得到時(shí),所對應(yīng)的熵稱為經(jīng)驗(yàn)熵(empiricalentropy)。所謂數(shù)據(jù)估計(jì),是指通過訓(xùn)練數(shù)據(jù)計(jì)算得出的分類概率值,比如有10個(gè)數(shù)據(jù),一共有兩個(gè)類別,A類和B類。其中有7個(gè)數(shù)據(jù)屬于A類,則該A類的概率即為十分之七。其中有3個(gè)數(shù)據(jù)屬于B類,則該B類的概率即為十分之三。淺顯的解釋就是,這概率是我們根據(jù)已有的數(shù)據(jù)數(shù)出來的。1.3

條件熵、信息增益及信息增益比1.信息、熵及信息增益的概念2.決策樹的構(gòu)建2.1ID3算法ID3算法的核心是在決策樹各個(gè)結(jié)點(diǎn)上對應(yīng)信息增益準(zhǔn)則選擇特征,遞歸地構(gòu)建決策樹。具體方法是:第一步。從根結(jié)點(diǎn)(rootnode)開始,對結(jié)點(diǎn)計(jì)算所有可能的特征的信息增益,選擇信息增益最大的特征作為結(jié)點(diǎn)的特征。第二步。由該特征的不同取值建立子節(jié)點(diǎn),再對子結(jié)點(diǎn)遞歸地調(diào)用以上方法,構(gòu)建決策樹;直到所有特征的信息增益均很小或沒有特征可以選擇為止;第三步。最后得到一個(gè)決策樹。2.決策樹的構(gòu)建2.2C4.5算法與ID3算法相似,但是做了改進(jìn),將信息增益率作為選擇特征的標(biāo)準(zhǔn)。信息增益率=信息增益/屬性熵。用公式表示為:特征變量特征取值信息量條件信息熵信息增益屬性熵信息增益率outlooksunny0.9709510.6935360.246749821.57740.1564overcast0rainy0.970951temperaturehot10.9110630.0292225661.55670.0188mild0.918296cool0.811278humidityhigh0.9852280.7884501518normal0.591673windyFALSE0.8112780.8921590.048127030.98520.0489TRUE1節(jié)點(diǎn)特征取值特征特征取值信息量條件信息熵信息增益屬性熵信息增益率Rainytemperaturemild0.9182960.9509780.0199730.9709510.020571cool1humidityhigh10.9509780.0199730.9709510.020571normal0.918296windyFALSE000.9709510.9709511TRUE0Sunnytemperaturehot00.40.5709511.5219280.37515mild1cool0humidityhigh000.9709510.9709511normal0windyFALSE0.9182960.9509780.0199730.9709510.020571TRUE12.決策樹的構(gòu)建2.3ID3、C4.5、CART的區(qū)別算法對于這三個(gè)非常著名的決策樹算法,簡單地區(qū)別是:ID3使用信息增益作為選擇特征的準(zhǔn)則;C4.5使用信息增益率作為選擇特征的準(zhǔn)則;CART使用基尼系數(shù)作為選擇特征的準(zhǔn)則。ID3:熵表示的是數(shù)據(jù)中包含的信息量大小。熵越小,數(shù)據(jù)的純度越高,也就是說數(shù)據(jù)越趨于一致,這是我們希望的劃分之后每個(gè)子節(jié)點(diǎn)的樣子。C4.5:克服了ID3僅僅能夠處理離散屬性的問題,以及信息增益偏向選擇取值較多特征的問題,使用信息增益率來選擇特征。信息增益率=信息增益/屬性熵,選擇信息增益率最大的作為最優(yōu)特征。C4.5處理連續(xù)特征是先將特征取值排序,以連續(xù)兩個(gè)值中間值作為劃分標(biāo)準(zhǔn)。嘗試每一種劃分,并計(jì)算修正后的信息增益,選擇信息增益最大的分裂點(diǎn)作為該屬性的分裂點(diǎn)。CART:與ID3、C4.5不同之處在于CART生成的樹必須是二叉樹。也就是說,無論是回歸還是分類問題,無論特征是離散的還是連續(xù)的,無論屬性取值有多個(gè)還是兩個(gè),內(nèi)部節(jié)點(diǎn)只能根據(jù)屬性值進(jìn)行二分。CART的全稱是分類與回歸樹。從這個(gè)名字中就應(yīng)該知道,CART既可以用于分類問題,也可以用于回歸問題。2.決策樹的構(gòu)建3.算法用例以天氣打球數(shù)據(jù)集D為例,在Orange中用決策樹算法構(gòu)造的流程圖如下:2.決策樹的構(gòu)建3.算法用例通過Tree模型插件后數(shù)據(jù)就分好類了,然后我們再使用Treeviewer可視化插件看下分類情況,如下圖??梢钥吹絋reeviewer很形象地展示了決策樹,與我們的手動計(jì)算結(jié)果一致,也表示出了每個(gè)特征分類值。項(xiàng)目二大數(shù)據(jù)分析算法任務(wù)二

聚類算法

1.K-means算法

1.1距離的計(jì)算

1.2算法流程

1.3幾個(gè)聚類算法中的數(shù)學(xué)公式

2.感受質(zhì)心的遷移過程

3.K值的選擇

3.1快速判斷法

3.2肘部法則(ElbowMethod)

3.3輪廓系數(shù)法(SilhouetteCoefficient)4.從等高線認(rèn)識正則項(xiàng)

4.1與正則化

4.2正則項(xiàng)與稀疏解

聚類算法所謂聚類算法是指將一堆沒有標(biāo)簽的數(shù)據(jù)自動劃分成幾類的方法,因?yàn)槭孪炔⒉恢廊绾蝿澐旨皹颖舅鶎俚念悇e,屬于無監(jiān)督學(xué)習(xí)方法,但這個(gè)方法要保證同一類的數(shù)據(jù)有相似的特征,如下圖。其基本理論是,根據(jù)樣本之間的距離或者說是相似性(親疏性),把越相似、差異越小的樣本聚成一類(簇),最后形成多個(gè)簇,使同一個(gè)簇內(nèi)部的樣本相似度高,不同簇之間差異性高。1.K-means算法K-means算法是最基礎(chǔ)和最常用聚類算法。其相關(guān)概念有:K值:希望得到的簇的個(gè)數(shù)。質(zhì)心:即簇的中心值,是每個(gè)簇的均值向量,向量各維取平均即可。距離量度:常用歐幾里得距離和余弦相似度,但在計(jì)算之前,先要將各維數(shù)據(jù)標(biāo)準(zhǔn)化。1.K-means算法1.1距離的計(jì)算在聚類算法的距離計(jì)算中,不得不提到范數(shù)這一數(shù)學(xué)概念,在很多機(jī)器學(xué)習(xí)相關(guān)的著作和教材中,我們也經(jīng)常看到各式各樣的距離及范數(shù)。圖4-2曼哈頓距離歐式距離1.K-means算法1.2算法流程(1)首先確定一個(gè)k值,即我們希望將數(shù)據(jù)集經(jīng)過聚類得到k個(gè)集合。(2)從數(shù)據(jù)集中隨機(jī)選擇k個(gè)數(shù)據(jù)點(diǎn)作為質(zhì)心。(3)對數(shù)據(jù)集中每一個(gè)點(diǎn),計(jì)算其與每一個(gè)質(zhì)心的距離(如歐式距離),離哪個(gè)質(zhì)心近,就劃分到那個(gè)質(zhì)心所屬的集合。(4)把所有數(shù)據(jù)歸好集合后,一共有k個(gè)集合。然后重新計(jì)算每個(gè)集合的質(zhì)心,計(jì)算均值,即向量各維取平均。(5)如果新計(jì)算出來的質(zhì)心和原來的質(zhì)心之間的距離小于某一個(gè)設(shè)置的閾值(表示重新計(jì)算的質(zhì)心的位置變化不大,趨于穩(wěn)定,或者說收斂),我們可以認(rèn)為聚類已經(jīng)達(dá)到期望的結(jié)果,算法終止。

(6)如果新質(zhì)心和原質(zhì)心距離變化很大,需要迭代3~5步驟。1.K-means算法1.3幾個(gè)聚類算法中的數(shù)學(xué)公式在聚類算法的流程中,讀者可能會產(chǎn)生一種錯(cuò)覺,認(rèn)為其聚類原理容易理解,符合所有人的一般認(rèn)知。不就是找到幾個(gè)相對中心,然后計(jì)算距離,以最小距離歸類嗎?況且計(jì)算過程也不復(fù)雜。這些錯(cuò)覺很容易讓讀者對聚類不屑一顧,而不愿深入研究。事實(shí)上,聚類算法也有自己的深度內(nèi)容,這些內(nèi)容將在以下部分有限度地展開,但在此之前,讓我們先學(xué)習(xí)幾個(gè)聚類算法中無法繞開的概念及它們的數(shù)學(xué)公式。(1)質(zhì)心的計(jì)算。(2)誤差平方和(SSE,TheSumofSquaresduetoError)。是指簇內(nèi)每一個(gè)點(diǎn)與其質(zhì)心的距離平方和,體現(xiàn)的是質(zhì)心位置的合適程度。其表達(dá)式為:(3)輪廓系數(shù)(SilhouetteCoefficient)。是結(jié)合了聚類的凝聚度(Cohesion)和分離度(Separation)的一個(gè)參數(shù),用于評估聚類的效果。其表達(dá)式為:2.感受質(zhì)心的遷移過程以上內(nèi)容還是太抽象,但至少我們隱隱約約感受到,聚類算法最重要的三個(gè)要素是距離的計(jì)算方式、質(zhì)心如何找到和k值的選擇問題。目前來看,距離計(jì)算方式的選擇問題不大,因?yàn)樽畛S玫木褪菤W式距離和曼哈頓距離這兩種,只要根據(jù)樣本內(nèi)容和研究目的進(jìn)行適當(dāng)選擇就可以了。

質(zhì)心如何確定?它又是如何遷移的?用實(shí)際數(shù)據(jù)分步驟計(jì)算才能一睹真容。初始樣本2.感受質(zhì)心的遷移過程質(zhì)心集(A)8.716.895.6質(zhì)心集(B)3.124.64-2.7質(zhì)心集(C)2.09-1.788.42質(zhì)心集(A)6.5588245.3311760.662941質(zhì)心集(B)-0.800560.508916-4.59029質(zhì)心集(C)-0.47549-3.984425.091429質(zhì)心集(A)5.8893945.008182-1.05242質(zhì)心集(B)-1.32384-0.82931-6.24457質(zhì)心集(C)-1.81255-3.575674.919818質(zhì)心集(A)5.9676194.661389-1.48361質(zhì)心集(B)-1.59279-1.01492-6.25326質(zhì)心集(C)-2.04694-3.530344.925636第一次迭代

第二次迭代

第三次迭代

第四次迭代3.K值的選擇K值的選擇在聚類算法中至關(guān)重要,因?yàn)槠錉砍兜剿惴P偷挠行?。依然以上?jié)中的數(shù)據(jù)為例,我們借助Orange分析軟件,對幾種主要的K值評判方法加以介紹。3.1快速判斷法3.2肘部法則(ElbowMethod)快速判斷法是一種經(jīng)驗(yàn)判斷方法,那么有沒有一種可以選擇聚類數(shù)目的較為科學(xué)的方法呢?有一種方法叫做“肘部法則”,也就是說我們分別計(jì)算在各種K值中聚類算法最終的損失函數(shù),一般是指SSE,繪制出隨著K值變化損失函數(shù)變化的曲線,通過曲線的“拐點(diǎn)”來判斷最佳的K值。3.K值的選擇將Orange中k=2到k=7的聚類數(shù)據(jù)全部保存下來,并且對其SSE逐個(gè)進(jìn)行計(jì)算,得到如下表k值1234567SSE145628451629052754400348930093.K值的選擇3.3輪廓系數(shù)法(SilhouetteCoefficient)k=2,SilhouetteScores=0.303.k=3,SilhouetteScores=0.310.3.K值的選擇3.3輪廓系數(shù)法(SilhouetteCoefficient)k=4,silhouettescores=0.307.k=5,SilhouetteScores=0.303.3.K值的選擇3.3輪廓系數(shù)法(SilhouetteCoefficient)k=6,silhouettescores=0.317.k=7,silhouettescores=0.315.4.從等高線認(rèn)識正則項(xiàng)等高線和正則項(xiàng)原本是一對完全不搭嘎的兩個(gè)概念,之所以把它們放在一起,是因?yàn)檎齽t項(xiàng)(RegularTerms)過于抽象,如果不學(xué)習(xí)大數(shù)據(jù)分析算法,我們也許一輩子都不會接觸這個(gè)詞匯,但在本書的登高之旅中,正則項(xiàng)又是一個(gè)繞不過去的山丘。4.1L1與L2正則化L1正則項(xiàng)與損失函數(shù)的關(guān)系示意圖

L2正則項(xiàng)與損失函數(shù)的關(guān)系示意圖4.從等高線認(rèn)識正則項(xiàng)4.2正則項(xiàng)與稀疏解在機(jī)器學(xué)習(xí)的諸多方法中,如果我們得到的數(shù)據(jù)集較小,那在訓(xùn)練過程中很可能遇到過擬合(over-fitting)問題,即訓(xùn)練出來的模型可能將數(shù)據(jù)中隱含的噪聲和毫無關(guān)系的特征也表征出來。一次函數(shù)無數(shù)解示意圖

L1范數(shù)示意圖

稀疏解示意圖項(xiàng)目二大數(shù)據(jù)分析算法任務(wù)三

樸素貝葉斯

1.算法概要

2.貝葉斯公式

3.算法說明

4.案例推演

5.Orange用例

1.算法概要樸素貝葉斯算法主要應(yīng)用于分類,二分類及多分類均可。因?yàn)槠渌惴ㄒ载惾~斯定理為基礎(chǔ)展開,同時(shí)有很強(qiáng)的獨(dú)立性假設(shè),使得計(jì)算簡單,應(yīng)用廣泛,所以將這一類算法稱之為樸素貝葉斯算法。其算法的應(yīng)用流程可圖示如下圖。2.貝葉斯公式首先引入經(jīng)典的貝葉斯公式:3.樸素貝葉樹分類的正式定義:4.案例推演在某學(xué)校,對學(xué)生是否吃牛肉面進(jìn)行了統(tǒng)計(jì),并對統(tǒng)計(jì)當(dāng)天的平均溫差及天氣特征進(jìn)行記錄,其目的是想了解學(xué)生的飲食偏好與溫差和氣象特征之間的關(guān)系。統(tǒng)計(jì)表如下表所示:性別平均溫差區(qū)間天氣特征是否吃牛肉面男中區(qū)晴不吃女低區(qū)多云吃男中區(qū)陰不吃男高區(qū)晴吃女低區(qū)小雪吃女低區(qū)小雪不吃男中區(qū)晴吃男高區(qū)陰不吃女中區(qū)小雪吃男低區(qū)陰吃性別身高(英尺)體重(磅)腳掌(英寸)男618012男5.9219011男5.5817012男5.9216510女51006女5.51508女5.421307女5.75150.995.

Orange用例本次Orange用例的目的是期望在溫度、氣象、價(jià)位、午餐/晚餐這四個(gè)特征變量的“加持”下,生成學(xué)生選擇葷/素或米/面的分類器。應(yīng)用樸素貝葉斯算法是本用例的重點(diǎn),但為了增強(qiáng)比較性,我們同時(shí)應(yīng)用了隨機(jī)森林和邏輯回歸這兩個(gè)算法作為貝葉斯算法的背景。因其“樸素”,所以整個(gè)Orange算法流程圖也相當(dāng)“簡約”,如圖。正確分類數(shù)據(jù)集錯(cuò)誤分類數(shù)據(jù)集樸素貝葉斯算法的部分散點(diǎn)圖三種算法的評測指標(biāo)樸素貝葉斯Orange流程圖項(xiàng)目二大數(shù)據(jù)分析算法任務(wù)四

K近鄰分類算法

1.算法概述

2.算法要點(diǎn)

1.1距離計(jì)算

1.2K值的選擇

1.3特征工程及One-hot編碼

1.4KNN算法的特點(diǎn)及優(yōu)缺點(diǎn)

3.KNN的交叉驗(yàn)證

4.模型評估指標(biāo)

4.1模塊

4.2指標(biāo)

5.算法用例

1.算法概述k近鄰(Knearestneighbor)算法,也簡稱為KNN算法,是一種基本的分類算法。其原理是:對于一個(gè)待分類的數(shù)據(jù),將其和一組已經(jīng)分類標(biāo)注好的樣本集合進(jìn)行比較,得到距離最近的k個(gè)樣本,k個(gè)樣本最多歸屬的類別,就是待分類數(shù)據(jù)的類別。KNN算法可用于各種分類的場景,比如新聞分類、商品分類、模式識別、多分類領(lǐng)域等,甚至可用于簡單的文字識別。KNN算法原理圖示KNN算法流程2.算法要點(diǎn)2.1距離計(jì)算在KNN中,要度量空間中點(diǎn)距離的話,有好幾種度量方式,比如常見的曼哈頓距離計(jì)算,歐式距離計(jì)算等等。關(guān)于距離計(jì)算,我們在聚類算法中已有詳細(xì)介紹。不過通常KNN算法中使用的是歐式距離,即如下公式:2.2K值的選擇在KNN算法中,計(jì)算過程及原理解析都不復(fù)雜,但k值的選擇至關(guān)重要。那么,在實(shí)際場景應(yīng)用中,如何選擇k值呢?一般來講,是利用算法工具,如Orange,進(jìn)行不同k值的測算,通過錯(cuò)誤率的對比,找到一個(gè)錯(cuò)誤率最低的k值,k一般選取1~20。比如在后續(xù)小節(jié)中要講到的汽車分類案例中,其錯(cuò)誤率的曲線圖(如圖6-3)為:汽車分類案例中的K值曲線2.算法要點(diǎn)2.3特征工程及One-hot編碼KNN的應(yīng)用場景是分類,所以一般來講,應(yīng)用于KNN的數(shù)據(jù)集大多數(shù)都是離散型、目錄型數(shù)據(jù)結(jié)構(gòu)。特征工程及One-hot編碼都是將類別變量轉(zhuǎn)換為機(jī)器學(xué)習(xí)算法易于利用的一種形式的工具。尤其是One-hot編碼,對類別進(jìn)行“二進(jìn)制化”操作,然后將其作為模型訓(xùn)練的特征,可以快速形成算法程序可識別運(yùn)算的數(shù)據(jù)結(jié)構(gòu)。在汽車分類用例中,其源數(shù)據(jù)與One-hot編碼轉(zhuǎn)換后的數(shù)據(jù)格式如下表:2.算法要點(diǎn)2.4KNN算法的特點(diǎn)及優(yōu)缺點(diǎn)標(biāo)題中已說明,KNN是一種非參的,惰性的算法模型,解釋如下,同時(shí)也是對標(biāo)題的注解。首先,非參的意思并不是說KNN算法不需要參數(shù),而是意味著這個(gè)模型不會對數(shù)據(jù)做出任何的假設(shè),與之相對的是線性回歸(我們總會假設(shè)線性回歸是一條直線)。也就是說KNN建立的模型結(jié)構(gòu)是根據(jù)數(shù)據(jù)來決定的,這也比較符合現(xiàn)實(shí)的情況,畢竟在現(xiàn)實(shí)中的情況往往與理論上的假設(shè)是不相符的。其次,惰性是指與其他分類算法相比,沒有的損失函數(shù)和訓(xùn)練過程。比如,同樣是分類算法,邏輯回歸或人工神經(jīng)網(wǎng)絡(luò)等都需要先對數(shù)據(jù)進(jìn)行大量訓(xùn)練,最后才會得到一個(gè)算法模型。而KNN算法卻不需要,它沒有明確的訓(xùn)練數(shù)據(jù)的過程,或者說這個(gè)過程很快。3.

KNN的交叉驗(yàn)證一般來講,按比例的數(shù)據(jù)采樣或多折交叉驗(yàn)證需要多次應(yīng)用,相互印證。通常將數(shù)據(jù)集進(jìn)行不同方法的分割,人為將整個(gè)數(shù)據(jù)集分為訓(xùn)練集(trainingset)和測試集(testset)兩部分。我們將這種數(shù)據(jù)集分割組合進(jìn)行算法模型評估的方法叫交叉驗(yàn)證。在實(shí)際應(yīng)用中,有如下幾種常用方法:3.1TheValidationSetApproach把整個(gè)數(shù)據(jù)集分成兩部分,一部分用于訓(xùn)練,一部分用于驗(yàn)證,分割時(shí)以比例進(jìn)行調(diào)節(jié)。以汽車分類為例,以不同的比例分割數(shù)據(jù)集,其錯(cuò)誤率是不同的,如下圖:汽車分類案例不同比例分割的錯(cuò)誤率3.2Cross-Validation(1)LOOCV首先,我們先介紹LOOCV方法,即(Leave-one-outcross-validation),或稱為留一法。像Testsetapproach一樣,LOOCV方法也包含將數(shù)據(jù)集分為訓(xùn)練集和測試集這一步驟。但是不同的是,我們現(xiàn)在只用一個(gè)數(shù)據(jù)作為測試集,其他的數(shù)據(jù)都作為訓(xùn)練集,并將此步驟重復(fù)N次(N為數(shù)據(jù)集的數(shù)據(jù)數(shù)量)。(2)K-foldCrossValidation3.

KNN的交叉驗(yàn)證1.數(shù)據(jù)采樣器模塊2.測試模塊數(shù)據(jù)采樣器模塊窗口測試模塊窗口4.模型評估指標(biāo)大數(shù)據(jù)分析技術(shù)領(lǐng)域不僅包含數(shù)據(jù)和算法,還有一個(gè)重要的環(huán)節(jié),就是測試和驗(yàn)證,其主要職能是對算法產(chǎn)生的模型,或稱為學(xué)習(xí)器,就其預(yù)測的準(zhǔn)確性,使用數(shù)據(jù)的測試集進(jìn)行驗(yàn)證,用以評判學(xué)習(xí)器的性能。性能不好的學(xué)習(xí)器,要考慮調(diào)整參數(shù),或者更改算法;而性能良好的學(xué)習(xí)器,其良好程度如何?是否達(dá)到滿意程度等都需要相關(guān)指標(biāo)的精確表達(dá)。以下就以KNN算法為例,就Orange平臺所采用的測試驗(yàn)證模塊的主要使用方法及指標(biāo)含義詳細(xì)說明。4.1模塊1.混淆矩陣模塊表6-1ConfusionMatrix矩陣表汽車數(shù)據(jù)案例的KNN混淆矩陣模塊汽車數(shù)據(jù)案例的KNN混淆矩陣(按樣本數(shù))4.模型評估指標(biāo)4.1模塊2.測試模塊:汽車數(shù)據(jù)案例ROC曲線圖汽車數(shù)據(jù)案例測試模塊5.算法用例buying(購買價(jià))v-highhighmedlowmaint(維保支出)v-highhighmedlowdoors(車門)2345-morepersons(載人)24morelug_boot(后備箱)smallmedbigsafety(安全性)lowmedhigh汽車數(shù)據(jù)的屬性表汽車數(shù)據(jù)的Orange流程圖項(xiàng)目二大數(shù)據(jù)分析算法任務(wù)五

關(guān)聯(lián)規(guī)則

1.算法概述

2.Apriori算法

1.1相關(guān)概念

1.2算原理

1.3算法流程

3.Orange與Apriori算例

1.算法概述關(guān)聯(lián)規(guī)則(AssociationRules)是反映一個(gè)事物與其他事物之間的相互依存性和關(guān)聯(lián)性,是數(shù)據(jù)挖掘的一個(gè)重要技術(shù),用于從大量數(shù)據(jù)中挖掘出有價(jià)值的數(shù)據(jù)項(xiàng)之間的相關(guān)關(guān)系。關(guān)聯(lián)規(guī)則通過發(fā)現(xiàn)顧客放人其購物籃中的不同商品之間的聯(lián)系,分析顧客的購買習(xí)慣。通過了解哪些商品頻繁地被顧客同時(shí)購買,這種關(guān)聯(lián)的發(fā)現(xiàn)可以幫助零售商制定營銷策略。其他的應(yīng)用還包括價(jià)目表設(shè)計(jì)、商品促銷、商品的排放和基于購買模式的顧客劃分??蓮臄?shù)據(jù)庫中關(guān)聯(lián)分析出形如“由于某些事件的發(fā)生而引起另外一些事件的發(fā)生”之類的規(guī)則。TransactionItems1{面包,牛奶}2{面包,尿布,啤酒,雞蛋}3{牛奶,尿布,啤酒,可樂}4{面包,牛奶,尿布,啤酒}5{面包,牛奶,尿布,可樂}項(xiàng)目:英文表示為Item(I),是指某個(gè)單個(gè)的事務(wù),如上表中的商品,面包、牛奶、啤酒等。事項(xiàng):英文表示為Transaction(T),是指某一條記錄,是所有項(xiàng)目的非空子集。如上表中每條記錄都是一次交易事項(xiàng)。項(xiàng)集:英文表示為Itemset,是指某幾個(gè)項(xiàng)目的集合,通常用{}進(jìn)行標(biāo)注,如{牛奶,尿布,啤酒}。關(guān)聯(lián)規(guī)則:英文表示為Associationrule,通常表示為{X}->{Y},{X}叫前件,{Y}叫后件。2.Apriori算法2.1相關(guān)概念關(guān)聯(lián)規(guī)則最常用的是Apriori算法,同時(shí)也是發(fā)現(xiàn)頻繁項(xiàng)集的一種方法。所謂頻繁項(xiàng)集是指由獨(dú)立事件組成的項(xiàng)目交集頻繁發(fā)生且達(dá)到預(yù)期值的集合,其嚴(yán)謹(jǐn)?shù)谋硎龇椒ㄟ€需要如下幾個(gè)概念的引入:支持度:幾個(gè)關(guān)聯(lián)的項(xiàng)目組成的項(xiàng)集在總事項(xiàng)中出現(xiàn)的次數(shù)占總事項(xiàng)數(shù)量的比重。置信度:一個(gè)項(xiàng)集出現(xiàn)后,另一個(gè)項(xiàng)集出現(xiàn)的概率,或者說前件與后件的條件概率。提升度:項(xiàng)集X的出現(xiàn)對項(xiàng)集Y的出現(xiàn)概率提升的程度。頻繁項(xiàng)集:支持度大于或等于某個(gè)閾值的項(xiàng)集就叫做頻繁項(xiàng)集。例如閾值設(shè)為50%時(shí),因?yàn)閧牛奶,尿布}的支持度是60%,所以它是頻繁項(xiàng)集。項(xiàng)集的超集:包含某個(gè)項(xiàng)集的元素且元素個(gè)數(shù)更多的項(xiàng)集。比如{牛奶,尿布}這個(gè)項(xiàng)集,它的超集可以是{牛奶,尿布,啤酒},也可以是{牛奶,尿布,啤酒,可樂}。項(xiàng)集的子集:與超集相反,子集是指包含某個(gè)項(xiàng)集的一部分,且元素個(gè)數(shù)更少的項(xiàng)集。比如{牛奶,尿布,啤酒,可樂}這個(gè)項(xiàng)集,它的子集可以是{牛奶,尿布,啤酒},也可以是{牛奶,尿布}或{牛奶}。2.Apriori算法2.2算法原理Apriori算法的核心思想:頻繁項(xiàng)的非空子集肯定頻繁。如果一個(gè)項(xiàng)不頻繁,那么他的超項(xiàng)肯定不頻繁。2.3算法流程輸入:數(shù)據(jù)集合D,支持度閾值a。輸出:最大的K頻繁3.Orange與Apriori算例單號點(diǎn)餐1麻辣豆腐,木耳粉條,蒜苗肉絲2宮爆雞丁,紅燒肉3紅燒雞塊,炒拉條4重慶辣子雞,青椒火腿5土豆絲,鹵肉,麻辣粉條6孜然土豆片,麻辣豆腐,青椒肉絲,雞丁炒米飯7孜然土豆片,酸菜粉條8回鍋肉炒飯,孜然肉炒飯9重慶辣子雞,紅燒肉,紅燒排骨10麻辣豆腐,酸菜粉條,辣子肉片11青椒火腿,西紅柿炒雞蛋12青椒肉絲,回鍋肉炒飯,酸菜鹵肉┇┇┇┇709紅燒肉,紅燒雞塊在Orange中針對關(guān)聯(lián)規(guī)則提供了兩個(gè)算法。因?yàn)殛P(guān)聯(lián)規(guī)則是一種無監(jiān)督學(xué)習(xí)算法,所以O(shè)range在諸多無監(jiān)督學(xué)習(xí)模型后專門開列了關(guān)聯(lián)規(guī)則算法模型供應(yīng)用。示例數(shù)據(jù)集收列了某學(xué)校食堂各灶學(xué)生點(diǎn)餐外賣的數(shù)據(jù),以一單為一個(gè)項(xiàng)集,共709條數(shù)據(jù),陳列在Excel中的形式如下表所示:表

學(xué)校食堂點(diǎn)餐外賣數(shù)據(jù)需要說明的是,Orange在進(jìn)行關(guān)聯(lián)規(guī)則算法計(jì)算時(shí),需要的是后綴名為.basket或.bsk文件格式,這兩個(gè)文件其實(shí)都是文本文件。首先需要做的就是數(shù)據(jù)清理,將不是菜名的數(shù)據(jù)清除,同時(shí)要注意在各個(gè)菜名之間加入小寫逗號(,)分隔,且每單的最后要保證是以回車符結(jié)束的。然后將所有項(xiàng)集復(fù)制,粘貼入一個(gè)文本文件,并且將文本文件改為英文名,同時(shí)將.txt后綴名改為.bsk。至此,所有的文件準(zhǔn)備工作基本結(jié)束。打開Orange平臺,先將文件載入。如下圖:3.Orange與Apriori算例圖

學(xué)生點(diǎn)餐數(shù)據(jù)的載入窗口圖

學(xué)生點(diǎn)餐數(shù)據(jù)的工作流圖3.Orange與Apriori算例圖

支持度2.5%的頻繁項(xiàng)圖

支持度5%的頻繁項(xiàng)項(xiàng)目二大數(shù)據(jù)分析算法任務(wù)六

邏輯回歸

1.Logistic分布

1.1分布形態(tài)及相關(guān)概念

1.2應(yīng)用場景及優(yōu)劣

2.求模型參數(shù)

2.1極大似然估計(jì)

2.2梯度下降

3.極大似然估計(jì)求解

4.邏輯回歸函數(shù)的正則化

5.Orange算例

1.

邏輯回歸也稱作logistic回歸分析,是一種廣義的線性回歸分析模型,屬于機(jī)器學(xué)習(xí)中的監(jiān)督學(xué)習(xí)。其推導(dǎo)過程與計(jì)算方式類似于回歸的過程,但實(shí)際上主要是用來解決二分類問題,當(dāng)然也可以解決多分類問題。通過給定的n組數(shù)據(jù)(訓(xùn)練集)來訓(xùn)練模型,并在訓(xùn)練結(jié)束后對給定的一組或多組數(shù)據(jù)(測試集)進(jìn)行分類。在理解邏輯回歸算法過程中,需要引入相對大量的數(shù)學(xué)相關(guān)概念,如果全部展開講解,將是一個(gè)漫長的探索之旅。為突出重點(diǎn),本章僅著重介紹了Logistic分布及邏輯回歸的求解模型,并在展開過程中,采取了邊講解邊舉例邊深入邊思考的方式,從體例上來講,可能缺乏連續(xù)性,但對于初學(xué)者來講,可能更易于理解和接受。下圖是本節(jié)內(nèi)容的知識點(diǎn)導(dǎo)圖(如圖8-1),方便讀者在學(xué)習(xí)過程中梳理思路。圖8-1本章內(nèi)容的知識點(diǎn)導(dǎo)圖1.Logistic分布1.1分布形態(tài)及相關(guān)概念Logistic分布是一種連續(xù)型的概率分布,其分布函數(shù)(或質(zhì)量函數(shù))和密度函數(shù)分別為:分布函數(shù):密度函數(shù):圖8-2Logistic分布函數(shù)及密度函數(shù)圖8-3二分類邏輯回歸示意圖設(shè)分界線方為:1.Logistic分布【思考二】我們使用對數(shù)幾率的意義在哪?通過上述推導(dǎo)我們可以看到Logistic回歸實(shí)際上是使用線性回歸模型的預(yù)測值逼近分類任務(wù)真實(shí)標(biāo)記的對數(shù)幾率,其優(yōu)點(diǎn)有:1.直接對分類的概率建模,無需實(shí)現(xiàn)假設(shè)數(shù)據(jù)分布,從而避免了假設(shè)分布不準(zhǔn)確帶來的問題;2.不僅可預(yù)測出類別,還能得到該預(yù)測的概率,這對一些利用概率輔助決策的任務(wù)很有用;3.對數(shù)幾率函數(shù)是任意階可導(dǎo)的凸函數(shù),有許多數(shù)值優(yōu)化算法都可以求出最優(yōu)解?!舅伎家弧咳绾握业椒诸惛怕蔖(Y=1)與輸入變量x之間的函數(shù)關(guān)系,然后通過比較概率值來判定分類??紤]二分類問題,給定數(shù)據(jù)集:【延伸思考一】為什么要引入

函數(shù)?圖8-4以自然對數(shù)為底數(shù)的指數(shù)函數(shù)示意圖1.Logistic分布圖8-5邏輯回歸函數(shù)的三維展現(xiàn)【延伸思考二】決策分界線與各數(shù)據(jù)點(diǎn)之間的距離關(guān)系。1.Logistic分布【延伸思考三】特征向量的公式表達(dá)

圖思1-1二特征變量的坐標(biāo)表達(dá)圖思1-2三特征變量的坐標(biāo)表達(dá)字段名數(shù)據(jù)類型變量類型值門店CategoricalFeature4-4灶,4-5灶,5-6灶,5-7灶訂單號NumericSkip

樓號CategoricalSkip士官,松鳴,柏盛,榆繁,槐香房號NumericSkip

下單時(shí)間DatetimeSkip

午餐/晚餐CategoricalFeature午餐,晚餐溫差NumericFeature

均溫NumericFeature

氣象CategoricalFeature多云,小雪,晴,浮塵,陰,陣雪,雨夾雪價(jià)格NumericFeature

葷/素CategoricalTarget素,葷米/面CategoricalSkip米,面

1.Logistic分布【延伸思考三】特征向量的公式表達(dá)

圖8-6兩特征向量的邏輯回歸性狀指標(biāo)1.Logistic分布【延伸思考三】特征向量的公式表達(dá)

圖8-6三特征向量的邏輯回歸性狀指標(biāo)1.Logistic分布

1.2應(yīng)用場景及優(yōu)劣優(yōu)點(diǎn):邏輯回歸訓(xùn)練速度很快,可用于工業(yè)級別的數(shù)據(jù),也可以在使用其他準(zhǔn)確率更高的算法之前先用邏輯回歸計(jì)算出baseline,查看下當(dāng)前的數(shù)據(jù)在算法上的表現(xiàn),以判斷是否還要繼續(xù)進(jìn)行數(shù)據(jù)清洗和特征工程??捎糜诟怕暑A(yù)測,也可用于分類;對于數(shù)據(jù)中小噪聲的魯棒性很好。缺點(diǎn):對數(shù)據(jù)特征間的獨(dú)立性要求較高;不適用于features和label為非線性關(guān)系的數(shù)據(jù)中;當(dāng)特征空間很大、特征有缺失時(shí),邏輯回歸的性能不是很好?!局R點(diǎn)】什么是features和label。機(jī)器學(xué)習(xí)中有l(wèi)abel和feature概念,一般來講,label是分類,是你要預(yù)測的東西,而feature則是特征。如果你訓(xùn)練出feature和label的關(guān)系,之后你可以通過feature得出label。2.求解模型參數(shù)

定義:對于事件E和事件F,如果滿足下面的公式,那么稱它們是獨(dú)立的。若兩個(gè)事件E和F不獨(dú)立,則稱它們是相依的,或者相互不獨(dú)立。進(jìn)一步思考,觀察另一幅維恩圖。圖中E和F沒有相交,按照“同比例切割”的觀點(diǎn),E事件和F事件是“不獨(dú)立”的。這個(gè)圖告訴我們,兩個(gè)不相交的事件,反而是“相互不獨(dú)立”的。除了一種情況,事件E不可能出現(xiàn)。2.求解模型參數(shù)

引例1.從一副洗好的52張撲克牌里隨機(jī)抽取一張牌,令E表示事件“抽取的牌為一張A”,令F表示事件“抽取的牌為一張黑桃”,那么E和F就是獨(dú)立的。引例2.擲兩枚均勻的骰子,令E1表示事件“骰子點(diǎn)數(shù)和為6”,令F表示事件“第一枚骰子點(diǎn)數(shù)為4”,那么2.求解模型參數(shù)

2.1極大似然估計(jì)首先引入經(jīng)典的貝葉斯公式:【知識點(diǎn)引入】全概率公式【知識點(diǎn)引入】IID即獨(dú)立同分布(IndependentandIdenticallyDistributed),極大似然估計(jì)原理:極大似然估計(jì)提供了一種給定觀察數(shù)據(jù)來評估模型參數(shù)的方法,即“模型已定,參數(shù)未知”。通過若干次試驗(yàn),觀察其結(jié)果,利用試驗(yàn)結(jié)果得到某個(gè)參數(shù)值能夠使樣本出現(xiàn)的概率為最大,則稱為極大似然估計(jì)。似然函數(shù)(likelihoodfunction):2.求解模型參數(shù)

最大似然估計(jì)(MaxmiumLikelihoodEstimation,MLE)求解:【知識點(diǎn)引入】數(shù)學(xué)符號arg含義:全稱為argumentofthemaximum/minimum。【引例一】設(shè)樣本服從正態(tài)分布,則似然函數(shù)為:2.求解模型參數(shù)

圖8-7高斯分布極大似然估計(jì)對比圖2.求解模型參數(shù)

【引例二】設(shè)樣本服從均勻分布[a,b],則x的概率密度函數(shù)為:2.求解模型參數(shù)

【引例三】伯努利分布的極大似然函數(shù)公式推導(dǎo)。首先要說明的是,伯努利分布是一個(gè)離散型隨機(jī)變量分布。如將隨機(jī)變量X=1表示拋硬幣正面朝上,設(shè)正面朝上的概率為P,那么隨機(jī)變量X的概率密度函數(shù)(probabilitydensityfunction,PDF)是:這就是伯努利分布(Bernoullidistribution)概率密度函數(shù)的表達(dá)式了,需要說明的是,我們一般用大寫字母P或F來表示概率質(zhì)量函數(shù),而用小寫字母p或者f來表示概率密度函數(shù)。如邏輯分布(連續(xù)型隨機(jī)變量分布):圖8-8伯努利分布極大似然估計(jì)對比圖2.求解模型參數(shù)2.2梯度下降一般來說,關(guān)于求解函數(shù)的最優(yōu)解(極大值和極小值),在數(shù)學(xué)中我們一般會對函數(shù)求導(dǎo),然后讓導(dǎo)數(shù)等于0,獲得方程,然后通過解方程直接得到結(jié)果。但是在機(jī)器學(xué)習(xí)中,我們的函數(shù)常常是多維高階的,得到導(dǎo)數(shù)為0的方程后很難直接求解(有些時(shí)候甚至不能求解),邏輯回歸的最大似然估計(jì)函數(shù)就屬于無法求解的情況,所以就需要通過其他方法來獲得函數(shù)的極值,而梯度下降就是其中一種。函數(shù)

,初始值

,步長值

迭代次數(shù)k=1k=2k=3k=4k=5k=6k=7k=8-6.4-5.12-4.096-3.2768-2.62144-2.09715-1.67772-1.3421840.9626.214416.777210.73746.87194.3982.81471.8014梯度降幅23.0414.74569.43726.03983.86552.47391.58331.0133迭代次數(shù)k=9k=10k=11k=12k=13k=14k=15k=16-1.07374-0.85899-0.68719-0.54976-0.4398-0.35184-0.28147-0.225181.15290.73790.47220.30220.19340.12380.07920.0507梯度降幅0.64850.4150.26570.170.10880.06960.04460.0285表8-1二次函數(shù)梯度下降表圖8-9不同a值y的梯度降幅2.求解模型參數(shù)

圖8-10梯度下降學(xué)習(xí)率示意圖3.極大似然估計(jì)求解圖8-11梯度下降的樣式靜態(tài)圖3.極大似然估計(jì)求解【知識點(diǎn)引入】目標(biāo)函數(shù)、損失函數(shù)、代價(jià)函數(shù)三種擬合示意圖如下圖8-12。4.邏輯回歸函數(shù)的正則化本節(jié)內(nèi)容是在通用知識的基礎(chǔ)上專門針對邏輯回歸所開展的正則項(xiàng)說明,對進(jìn)一步加深正則項(xiàng)理解有極大的幫助。正則化是一個(gè)通用的算法和思想,所有會產(chǎn)生過擬合現(xiàn)象的算法都可以使用正則化來避免過擬合。邏輯回歸函數(shù)也同樣存在這個(gè)問題,下面簡單介紹一下邏輯回歸函數(shù)的正則化方法。正則化一般會采用L1范式或者L2范式,其形式分別為以下2種4.1L1正則化通常稱之為LASSO回歸,相當(dāng)于為模型添加了這樣一個(gè)先驗(yàn)知識:w服從零均值拉普拉斯分布。而拉普拉斯分布的表達(dá)式為:4.2L2正則化通常稱之為Ridge回歸,或嶺回歸,相當(dāng)于為模型添加了這樣一個(gè)先驗(yàn)知識:w服從零均值正態(tài)分布。正態(tài)分布的表達(dá)式為:5.

Orange算例該數(shù)據(jù)集來自UCI機(jī)器學(xué)習(xí)庫,它與葡萄牙銀行機(jī)構(gòu)的直接營銷活動(電話)有關(guān)。分類目標(biāo)是預(yù)測客戶是否將購買定期存款。數(shù)據(jù)下載網(wǎng)址:/ml/index.php。屬于開源的機(jī)器學(xué)習(xí)數(shù)據(jù)庫網(wǎng)站。為便于比較,Orange中將數(shù)據(jù)集(共41188條記錄)拆分為兩個(gè)子集,一個(gè)為訓(xùn)練集(39999條記錄),一個(gè)為測試集(1189條記錄),其在Orange中的流程圖如圖8-13:圖8-13銀行業(yè)務(wù)數(shù)據(jù)邏輯回歸Orange算法流程圖圖8-14銀行業(yè)務(wù)數(shù)據(jù)邏輯回歸Orange算法評測指標(biāo)三種算法的評估參數(shù)如下圖8-14所示:項(xiàng)目二大數(shù)據(jù)分析算法任務(wù)七

人工神經(jīng)網(wǎng)絡(luò)

1.神經(jīng)網(wǎng)絡(luò)的正向及反向傳播過程

1.1前向傳播

1.2反向傳播

2.人工神經(jīng)網(wǎng)絡(luò)的模擬計(jì)算

3.激活函數(shù)

4.神經(jīng)網(wǎng)絡(luò)的應(yīng)用

4.1分類

4.2回歸

人工神經(jīng)網(wǎng)絡(luò)(artificialneuralnetwork,ANN),簡稱神經(jīng)網(wǎng)絡(luò)(neuralnetwork,NN),是一種模仿生物神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和功能的數(shù)學(xué)模型或計(jì)算模型。神經(jīng)網(wǎng)絡(luò)由大量的人工神經(jīng)元聯(lián)結(jié)進(jìn)行計(jì)算。大多數(shù)情況下人工神經(jīng)網(wǎng)絡(luò)能在外界信息的基礎(chǔ)上改變內(nèi)部結(jié)構(gòu),是一種自適應(yīng)系統(tǒng)?,F(xiàn)代神經(jīng)網(wǎng)絡(luò)是一種非線性統(tǒng)計(jì)性數(shù)據(jù)建模工具,常用來對輸入和輸出間復(fù)雜的關(guān)系進(jìn)行建模,或用來探索數(shù)據(jù)的模式。神經(jīng)網(wǎng)絡(luò)是一種運(yùn)算模型,由大量的節(jié)點(diǎn)(或稱“神經(jīng)元”)和之間相互的聯(lián)接構(gòu)成。每個(gè)節(jié)點(diǎn)代表一種特定的輸出函數(shù),稱為激勵(lì)函數(shù)、激活函數(shù)(activationfunction)。每兩個(gè)節(jié)點(diǎn)間的聯(lián)接都代表一個(gè)對于通過該連接信號的加權(quán)值,稱之為權(quán)重,這相當(dāng)于人工神經(jīng)網(wǎng)絡(luò)的記憶。網(wǎng)絡(luò)的輸出則依網(wǎng)絡(luò)的連接方式,權(quán)重值和激勵(lì)函數(shù)的不同而不同。而網(wǎng)絡(luò)自身通常都是對自然界某種算法或者函數(shù)的逼近,也可能是對一種邏輯策略的表達(dá)。1.神經(jīng)網(wǎng)絡(luò)的正向及反向傳播過程以一個(gè)實(shí)例逐漸展開人工神經(jīng)網(wǎng)絡(luò)的計(jì)算過程,下圖(如圖9-1)是一個(gè)簡單的神經(jīng)網(wǎng)絡(luò)拓?fù)鋱D,第一層是輸入層,包含兩個(gè)神經(jīng)元i1和i2,截距項(xiàng)為b1;第二層為隱含層,包含兩個(gè)神經(jīng)元h1和h2,截距項(xiàng)為b2;第三層為輸出層,包含兩個(gè)輸出項(xiàng)o1和o2,每條線上的數(shù)字表示神經(jīng)元之間傳遞的權(quán)重值,記為w1;激活函數(shù)默認(rèn)Sigmoid函數(shù)。圖9-1一個(gè)簡單的人工神經(jīng)網(wǎng)絡(luò)示意圖1.神經(jīng)網(wǎng)絡(luò)的正向及反向傳播過程1.1前向傳播(1)輸入層→隱含層隱含層的計(jì)算過程如圖(圖9-2)所示(以h1為例):(2)隱含層→輸出層輸出層的計(jì)算過程如圖(圖9-3)所示(以o1為例):1.神經(jīng)網(wǎng)絡(luò)的正向及反向傳播過程1.2反向傳播(1)計(jì)算總誤差(Squareerror):(2)隱含層→輸出層的權(quán)值更新以權(quán)重參數(shù)w5為例,如果我們想知道w5對整體誤差產(chǎn)生了多少影響,可以用整體誤差對w5求偏導(dǎo)。圖9-6人工神經(jīng)網(wǎng)絡(luò)的回歸分析需要說明的是:第一,此例是只有一個(gè)隱含層的神經(jīng)網(wǎng)絡(luò),并且各層的神經(jīng)元數(shù)量都為2,在實(shí)際應(yīng)用中,特征層的提取有時(shí)是相當(dāng)復(fù)雜的,比如對圖像的識別,對音頻或視頻的識別等,需要不只一個(gè)隱含層才有可能獲得滿意的模型,其正向傳播或反向傳播的計(jì)算量相當(dāng)大,對計(jì)算機(jī)的算力要求也是相當(dāng)高,采用的激活函數(shù)及目標(biāo)函數(shù)也不盡相同,但基本模式及核心原理是一致的。第二,此例所呈現(xiàn)的輸入層神經(jīng)元i1和i2,映射到大數(shù)據(jù)集,即表示訓(xùn)練數(shù)據(jù)的特征變量,樣本數(shù)據(jù)有幾個(gè)特征變量,就有幾個(gè)輸入層的神經(jīng)元。第三,在正向傳播計(jì)算中,對于多個(gè)樣本值,不用每輸入一個(gè)樣本就去變換參數(shù),而是輸入一批樣本(叫做一個(gè)Batch或Mini-Batch),需要求得這些樣本的梯度平均值后,根據(jù)這個(gè)平均值改變參數(shù),也就是說,每個(gè)樣本只進(jìn)行前向傳播和反向傳播一次,然后計(jì)算梯度平均值,再進(jìn)行下一輪計(jì)算。第四,神經(jīng)網(wǎng)絡(luò)既可以用于回歸分析,也可以作為分類工具加以使用。一般來講,如果做回歸分析,其輸出層以一個(gè)神經(jīng)元為主,即只需要輸出我們所關(guān)心的相關(guān)值即可。如果做分類分析(是人工神經(jīng)網(wǎng)絡(luò)的骨干應(yīng)用層面),以二分類為例,分類如下圖2.人工神經(jīng)網(wǎng)絡(luò)的模擬計(jì)算為便于理解人工神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程,作者使用VBA編程在Excel中進(jìn)行了人工神經(jīng)網(wǎng)絡(luò)的模擬計(jì)算。目前該程序僅包含一個(gè)隱藏層,但各層的神經(jīng)元個(gè)數(shù)及訓(xùn)練樣本數(shù)量可以按實(shí)際場景無限制設(shè)定,各層參數(shù)及迭代數(shù)量亦可自行設(shè)定。計(jì)算過程中,不僅可以實(shí)時(shí)顯現(xiàn)迭代的中間數(shù)據(jù),也可借助Excel的強(qiáng)大制圖功能動態(tài)展示數(shù)據(jù)的迭代趨勢,適合入門級學(xué)生的學(xué)習(xí)。下載該程序可掃描右邊二維碼。用該程序模擬訓(xùn)練數(shù)據(jù)過程如下:x1x2x1x2x1x2x1x20.5143950.7490220.2500190.8483620.7759230.7744680.534230.5398730.6779740.0794360.6647780.2030070.1177920.8159920.8335170.0161460.4525470.1441180.5326570.471841

表9-1隨機(jī)10組數(shù)據(jù)表2.人工神經(jīng)網(wǎng)絡(luò)的模擬計(jì)算圖9-10單純兩類分類圖示3.激活函數(shù)激活函數(shù)的存在與人工神經(jīng)網(wǎng)絡(luò)的模擬態(tài)是相關(guān)的。在人工神經(jīng)網(wǎng)絡(luò)中,一個(gè)神經(jīng)元的運(yùn)算過程我們稱之為感知器。感知器是模仿生物神經(jīng)元而設(shè)計(jì)的一種簡單數(shù)學(xué)模型,它主要有兩部分組成,前半部分是一個(gè)線性模型,而后半部分是一個(gè)激活函數(shù)。在感知器中,設(shè)計(jì)激活函數(shù)的初衷應(yīng)該是為了模仿生物神經(jīng)元(生物神經(jīng)元存在激活和非激活這兩種狀態(tài),當(dāng)神經(jīng)元處于激活狀態(tài)時(shí)會發(fā)出電脈沖)。從數(shù)學(xué)角度去考慮的話,在感知器的后半部分加上一個(gè)激活函數(shù),可以增加感知器模型的“擬合能力”,使得模型有更強(qiáng)的表達(dá)作用。在基本的感知器模型中,激活函數(shù)是一個(gè)階躍函數(shù),這個(gè)函數(shù)的特性是,在輸入為零的時(shí)候會發(fā)生跳轉(zhuǎn),形狀像一個(gè)臺階。在下圖的感知器模型中,當(dāng)階躍函數(shù)的輸入小于等于零時(shí)候,輸出為零,而在其它情況輸出為1。其數(shù)學(xué)模型如下圖9-11。3.1Sigmoid函數(shù)

雖然在基的感知器模型中選擇階躍函數(shù)作為激活函數(shù),但是在實(shí)際中卻很少采用階躍函數(shù),這是因?yàn)殡A躍函數(shù)有點(diǎn)太極端了,要么輸出為0要么輸出為1。人們最初的考慮是能不能讓激活函數(shù)的輸出別這么極端,讓它平滑一些,因此有了Sigmoid函數(shù)。3.激活函數(shù)3.2.ReLU函數(shù)ReLU是目前最常用的激活函數(shù)。3.激活函數(shù)3.激活函數(shù)3.3Tanh函數(shù)Tanh為雙切正切曲線,相比Sigmoid函數(shù),實(shí)際應(yīng)用中一般更傾向于用Tanh函數(shù)。其優(yōu)點(diǎn)為函數(shù)的輸出以(0,0)為中點(diǎn),雙邊對稱。同時(shí),收斂速度相對于Sigmoid更快。其函數(shù)形式為:4.神經(jīng)網(wǎng)絡(luò)的應(yīng)用4.1分類神經(jīng)網(wǎng)絡(luò)最重要的用途是分類,比如如下的應(yīng)用場景:垃圾郵件識別:有一封電子郵件,把出現(xiàn)在里面的所有詞匯提取出來,通過神經(jīng)網(wǎng)絡(luò)識別是否是垃圾郵件。疾病判斷:病人首先進(jìn)行多種醫(yī)學(xué)檢測,并將檢測結(jié)果送入神經(jīng)網(wǎng)絡(luò),從輸入結(jié)果來判斷病人是否得病,得的什么病。圖像分類:比如有一批街景的圖片,通過神經(jīng)網(wǎng)絡(luò)模型,計(jì)算機(jī)可以分辨出哪些是樹,哪些是人,哪些是交通燈。這種能將事物的特征向量作為輸入端,并自動判別事物類別的機(jī)器,我們稱之為分類器。神經(jīng)網(wǎng)絡(luò)對事物的分類,主要是通過神經(jīng)元和多層神經(jīng)網(wǎng)絡(luò)來完成的。單個(gè)神經(jīng)元我們也稱之為感知器,即通過接收信息(輸入數(shù)據(jù))→處理信息(激活函數(shù))→發(fā)出信息(輸出數(shù)據(jù))進(jìn)行信息轉(zhuǎn)換。對簡單數(shù)據(jù)集的分類,比如在上節(jié)提到的平面上下(或左右)兩類數(shù)據(jù),用一條直線就可以進(jìn)行分類,用二個(gè)神經(jīng)元和一層神經(jīng)網(wǎng)絡(luò)就可以進(jìn)行輕松解決問題。但在現(xiàn)實(shí)場景中,要解決的問題遠(yuǎn)比平面兩類數(shù)據(jù)復(fù)雜地多,比如下面三圖(圖9-15)所表示的A、B兩類,就無法用一根直線將兩個(gè)類別區(qū)分開來。3.激活函數(shù)通過掃描右圖二維碼可以查看螺旋線的空間變形,亦可從下圖紅藍(lán)兩線在不同空間的分割對比體會神經(jīng)元的作用。左圖紅藍(lán)兩條線在二維空間無法找到一個(gè)超平面去分割,經(jīng)過放大、平移、旋轉(zhuǎn)、扭曲原二維空間后,在三維空間下就可以成功找到一個(gè)超平面分割紅藍(lán)兩線(右圖)。3.激活函數(shù)(1)ConvnetJsdemo:二分類神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型,可以增刪隱藏層及神經(jīng)元個(gè)數(shù),對各神經(jīng)元的空間扭曲及變形狀態(tài)呈現(xiàn)地非常細(xì)致(如圖9-16)。可通過掃描下方二維碼進(jìn)行手機(jī)端操作。圖9-16ConvnetJsdemo3.激活函數(shù)(2)GoogleTensorflow–Playground:二分類神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型,可以簡單并直觀地增刪隱藏層及神經(jīng)元個(gè)數(shù),并且可選擇激活函數(shù)及正則化類型(如圖9-17)。可通過掃描下方二維碼進(jìn)行手機(jī)端操作。圖9-17GoogleTensorflow-Playgroud3.激活函數(shù)4.2回歸我們知道,回歸分析是確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計(jì)分析方法。人工神經(jīng)網(wǎng)絡(luò)模型算法也可以進(jìn)行回歸分析,其分析原理及計(jì)算過程與分類分析大體相同,區(qū)別是需要對損失函數(shù)和神經(jīng)網(wǎng)絡(luò)最后一層輸出激活函數(shù)修改,主要注意以下兩點(diǎn):損失函數(shù)最常用均方誤差:最后一層往往不采用激活函數(shù),直接用得到最后結(jié)果,因?yàn)榧せ詈瘮?shù)會將線性加權(quán)的結(jié)果映射到固定range。項(xiàng)目二大數(shù)據(jù)分析算法任務(wù)八

支持向量機(jī)

1.硬間隔支持向量機(jī)

2.非線性支持向量機(jī)

3.SVM中的核函數(shù)

4.Orange中的SVM應(yīng)用

支持向量機(jī)(SupportVectorMachine,簡稱SVM)是一種用來解決二分類問題的機(jī)器學(xué)習(xí)算法,它通過在樣本空間中找到一個(gè)劃分超平面,將不同類別的樣本分開,同時(shí)使得兩個(gè)點(diǎn)集到此平面的最小距離最大,兩個(gè)點(diǎn)集中的邊緣點(diǎn)到此平面的距離最大。如下圖10-1所示,圖中有方形和圓形兩類樣本,支持向量機(jī)的目標(biāo)就是找到一條直線,將圓形和方形分開,同時(shí)所有圓形和方形到這條直線的距離加起來的值最大。支持向量機(jī)支持向量機(jī)上面討論的情況是一種理想中的狀況,兩個(gè)類別的樣本之間存在著清晰的劃分超平面,但我們在實(shí)際工作中處理的任務(wù)上并不一定都是這種清晰線性可分的,對于這種清晰線性可分的任務(wù),我們構(gòu)造一個(gè)線性分類器,也稱為硬間隔支持向量機(jī)(如圖10-2-1);當(dāng)訓(xùn)練數(shù)據(jù)近似線性可分時(shí),也可以構(gòu)造一個(gè)線性的分類器,即軟間隔支持向量機(jī)(如圖10-2-2);當(dāng)訓(xùn)練數(shù)據(jù)線性不可分時(shí),我們可以通過使用核函數(shù)及軟間隔最大化構(gòu)造分類器,稱為非線性支持向量機(jī)(如圖10-2-3)。圖10-2-1硬間隔SVM圖10-2-2軟間隔SVM圖10-2-3非線性SVM1.硬間隔支持向量機(jī)數(shù)學(xué)表達(dá):目標(biāo)函數(shù):

2.非線性支持向量機(jī)在以上二維點(diǎn)的實(shí)例講解中,我們假設(shè)訓(xùn)練樣本是線性可分的,即存在一個(gè)劃分超平面能將訓(xùn)練樣本正確分類。然而在現(xiàn)實(shí)任務(wù)中,原始樣本空間內(nèi),也許并不存在一個(gè)能正確劃分兩類樣本的超平面。如下圖所示,橢圓內(nèi)的點(diǎn)代表“+”數(shù)據(jù),橢圓外的點(diǎn)代表“-”數(shù)據(jù),而這兩類數(shù)據(jù)都無法用一條直線進(jìn)行分割,如圖10-5所示的兩條直線都是失敗的劃分。對于原空間中的非線性可分

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論