人工智能框架及經(jīng)典算法簡介_第1頁
人工智能框架及經(jīng)典算法簡介_第2頁
人工智能框架及經(jīng)典算法簡介_第3頁
人工智能框架及經(jīng)典算法簡介_第4頁
人工智能框架及經(jīng)典算法簡介_第5頁
已閱讀5頁,還剩29頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

決 K最近鄰算 聚 K均值聚 降 圖表19:決思想對生物進(jìn)行分 圖表22:第二次和第三次完成決學(xué) 圖表34:K最近鄰算法示意圖 圖表42:Fisher線性判別法步 2016年3月,舉世矚目的圍棋人機(jī)大戰(zhàn)在韓國首爾上演。DeepMind團(tuán)隊的人工AlphaGo以四勝一負(fù)的戰(zhàn)績擊敗世界冠軍韓國棋手李世乭,轟動圍棋界。2017年5月,AlphaGo升級版在烏鎮(zhèn)圍棋中以3:0完勝世界圍棋第一人中國棋手柯機(jī)器學(xué)習(xí)方法并沒有那么神秘,其本質(zhì)是以數(shù)理模型為工具,結(jié)合控制論、認(rèn)年輕也是最的方法。監(jiān)督學(xué)習(xí)應(yīng)用最為廣泛,并且學(xué)習(xí)效果較好,因此第二部分著重圍繞監(jiān)督學(xué)習(xí)進(jìn)行介紹。從最簡單的線性回歸模型開始,介紹包括廣義線性模型、線性判別分析、支持向量機(jī)、決和隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)、K最近略,也為我們后續(xù)的系列做鋪墊。約860億個神經(jīng)元形成的復(fù)雜網(wǎng)絡(luò)上有百萬億數(shù)量級別的突觸連接,被譽為宇宙中最復(fù)雜的1.5公斤重的物體?;谒?人類產(chǎn)生了知覺、注意、語言、決策、、意識、情感等心理和認(rèn)知過程,也產(chǎn)生了以科學(xué)和藝術(shù)為代表的燦爛的文明。間,計算機(jī)幫助人類實現(xiàn)人腦無法承擔(dān)的大規(guī)模運算,人腦無法的海量信息,然而這些仍離智慧相距甚遠(yuǎn)。隨著計算機(jī)科學(xué)的逐步發(fā)展成熟,人們讓計算機(jī)擁有智定理??2+??2=??2,機(jī)器就擁有了計算直角三角形邊長的智慧。規(guī)律也可以極其復(fù)雜,比如識別系統(tǒng)學(xué)習(xí)的是不同圖像之間差異的規(guī)律,蘋果智能語音助手Siri學(xué)習(xí)的是有的規(guī)律甚至連人類自己都無法完美詮釋,比如AlphaGo學(xué)習(xí)的是圍棋落子和勝負(fù)之間蟲技術(shù),從、財經(jīng)、自平臺甚至聊天軟件中獲取感的信息,數(shù)放入模型訓(xùn)練的特征,這一步稱為特征提取。例如在自然語言識別中,人們借助Word先從原始的里提取出三原色、亮度等信息。在多因子選股中,人們從原始的價量數(shù)據(jù)影響,也能避免維數(shù)的發(fā)生。數(shù)據(jù)轉(zhuǎn)換這一步看似簡單,但往往是機(jī)器學(xué)習(xí)成敗的關(guān)模型訓(xùn)練:完成數(shù)據(jù)預(yù)處理后,接下來是機(jī)器學(xué)步驟——模型訓(xùn)練。針對不同的量,比如預(yù)測上漲還是下跌,那么可以采用分類方法;如果是連續(xù)的數(shù)值變量,(bias:方差圖表3:方差(Variance)和偏差現(xiàn)樣本差異導(dǎo)致的方差急劇上升,說明復(fù)雜的模型地把握住了屬于訓(xùn)練樣本獨有的特化關(guān)系如圖表4所示。參數(shù);右圖的高次函數(shù),包含自由參數(shù)。參數(shù)越多,訓(xùn)練樣本的錯誤率就越低。另一方面,的參數(shù)也讓模型記住了訓(xùn)練數(shù)據(jù)特有的特征和噪音,而非挖掘出總體的信如3~20之間)K次,直到個不的部分,每次用1/5的橙色部分作為驗證集,其余灰色部分作為訓(xùn)練集。最5我們還可以每次取P個樣本驗證,重復(fù)N/P次,這種方法稱為留P法。和(健康。一個人的真實患病情況與診斷結(jié)果共有4種可能的組合,即(,診漏報、虛報和正確,如圖表7所示。 命中診斷結(jié)果=漏 命中命中+命中命中+正 +漏報+虛虛報(率)虛報

命中

確率的意義就不大了。假設(shè)一種罕見病是1‰,如果某種診斷技術(shù)給所有人的診斷都是,那么它的正確率高達(dá)99.9%,但顯然這一診斷沒有任何意義。此時應(yīng)該以命中率為評價指標(biāo),該診斷技術(shù)中率為0%,顯然是不合格的。否可能發(fā)生信用違約,或者預(yù)測是否會被ST時,違約公司或ST的數(shù)量所占比考和精確率。除了上述這些指標(biāo)外,人們還會借助ROC曲線和曲線下面積AUC線性回歸(linearregression)因子)y(漲跌幅),該直線對應(yīng)于線性模型????0??1??1,其中系數(shù)的估計量2.32,?如果用機(jī)器學(xué)習(xí)的語言表述,我們根據(jù)已知的“特征”x1和“”y,通過“訓(xùn)練”得圖表8EPx2x3xpx1,x2,……,xp的線性組合解釋并預(yù)測y。為此我們擬合模型:??=??0+??1??1+??2??2+?+=( ??(??)= (???????0? ?????????? 計量?為損失函數(shù)最小時w的取值:?=min??的正數(shù)或極小的負(fù)數(shù);并且,在特征較多的情形下,很可能數(shù)的幾個特征具有預(yù)測又稱為L2正則化),損失函數(shù)為: ??(??)= (???????0? ??????????)2+?? , ??(??)= (???????0? ??????????)2+?? 因此擬合得到的w更接近0。對相同數(shù)據(jù)的擬合效果,Lasso回歸(λ1)w1最小,其次為嶺回歸(λ取50),普通最小二乘法的斜率w1最大。股定義為類別??=1,跌幅前50的個股定義為類別??=0。我們首先采用線性回歸模型??(??1)=??0+??1??1進(jìn)行擬合,其中??(??1)相當(dāng)于??(??=1|??1),??1=x1取極大或極小的數(shù)時,預(yù)測的上漲概率??(??1)將取到圖表10:線性回歸模型擬合二分類數(shù) 圖表11:邏輯回歸模型擬合二分類數(shù) ??(??1)=1+?1EPx1對應(yīng)的上漲概率??(??1)x1取極大的數(shù)時,上漲概率??(??1)趨向于1;當(dāng)x1取極小的數(shù)時,上漲概率??(??1)趨向于0。求出模型參數(shù)后,我們可以對新的數(shù)據(jù)做出預(yù)測。假設(shè)某只的EP因子??1=1,則該?(??1)=1+??1.95+0.36×1=0.91>????0+??1??1+??2??2+??(??1)=1+????0+??1??1+??2??2+log(1???(??))=??0+??1??1+??2??2+?+? ??(??)=? (????log??(????)+(1?????)log(1???(????)))+?? 最終的參數(shù)估計值?是使得損失函數(shù)最小值的w。通常采用梯度下降算法、牛頓法等迭代展到多分類。下面介紹兩種主要的多分類邏輯回歸方法:有序多分類和OvR策略。定義為??01/3定義為??2,其余定義為??1y是有序的,因此??(??≤ )=??0+1???(??≤??(??≤1 )=??2+1???(??≤1和w1,進(jìn)而求得下跌的概率??(??≤0|??1)。第二個模型本質(zhì)上是將??=0,1視作一類 的的

EP因子??12,可以求得??(??0|??10.110.5??(??1|??10.460.5,那么該的預(yù)測分類為??=2,判斷下個月將上漲。如果某只的EP因子??1=0.5,可以求得??(??≤0|??1)=0.25<0.5,??(??≤1|??1)=0.62>0.5,那么該的預(yù)測分類為??1自變量包含p個特征x1、x2、……、xp,那么這N-1個邏輯回歸模型的形式為:??(??≤ )=??0+??1??1+??2??2+?+1???(??≤其中??=0,1,??2??(??= )=??0+??1??1+??2??2+?+1???(??=其中??=0,1,??1??(??1|??),……,??(????1|??)x最終的預(yù)測分線性判別法分析(lineardiscriminantysis,LDA)包括兩種含義,其中之一是邏輯回歸的拓展方法,主要基于樣本滿足正態(tài)分布的假設(shè),接下來將做介紹。另一種是Fisher股屬于類別??150的個股屬于類別??2。用??12016EP因子。在

??1(??1)=??0+??2(??1)=??2+??(??1)=????1(??1)+12上漲??1的均值????1=0.28,方差????2=0.95,樣本量??1=147,占總體比例????1=0.49。下跌??1的均值????2=?0.27,方差????2=0.91,樣本量??2=153,占總體比例????2=0.51。12????2(??11????2(???1????2)?(??+???2)=0.93

,

1=????1/????2=3????2?????20.29接下來我們用訓(xùn)練好的模型預(yù)測新的數(shù)據(jù)。如果某只的EP因子??1=2,那么該?(??1)=???0.75+0.30×2+???0.71?0.29×2=0.76>對每個類別k各自擬合一個判別方程:( ?? 1????????=??Σ??????2 ?????+????(??)=????1(??)+????2(??)+?析(quadraticdiscriminantysis,QDA)的判別方程:1??(??)=

(??????)??Σ?1(??????)

log|Σ|+ 界一般是非線性的,如圖表14中強(qiáng)勢(紅域)和中等(藍(lán)域)的曲線14中紅域和綠域的邊界是一條直線,等價于線性判別分析。圖表13:線性判別法對模擬數(shù)據(jù)進(jìn)行分 圖表14:二次判別法對模擬數(shù)據(jù)進(jìn)行分 (supportvectormachine,SVM)就是一種增加新維度看待問題的方法,在機(jī)器學(xué)習(xí)領(lǐng)更容易理解。就像我們可以(二維平面)將西瓜(三維物體)分成兩半,任何一個P維物體(空間)都可以被一個P-1維的超平面分成兩部分。對于一個P,x1+x2+…+xP=b就是一個超平面,b是一個常數(shù)。支持向量分類器的思路就是用一個15所示,紅點和藍(lán)點分別代表兩類樣本,二中的超平面就是圖中的黑色直線。如果一條直線可以讓兩類樣本中的我們可以用??1??1??2??2??來描述這條直線,改寫成向量的形式就是????=??。向量?是我們尋找的分界超平面。那么如何尋找到合適的直線?我們限定??2+??2=1 bb取最大值的優(yōu)化方程,可以通過拉格朗日乘子法實現(xiàn)。對于p維的情形,也是類似的處理方法。我們令:????(??1????1+??2????2+?+??????????)≥??????(??1????1+??2????2+?+??????????)≥??(1?∑????≤在二維的視角下,我們無法用一條線來解決異或問題,如圖表16左圖所示。但是如?有幾種常用的增加維度的方式,最簡單的是增加一個線性組合的維度,比如??1??2,此時16異或問題中,增加多項式的維度,比如??1???2,13等等,除了這些比較直觀的方式之外,還有一種著名的方法:ex,

=1+??

??2+??

+?

????+ x是新樣本的特征,???,?????為新樣本與全部訓(xùn)練樣本的內(nèi)積,而??0和α則是通過之前訓(xùn)練樣,得到新方程:??(x)=??0+∑????????(??????)。線性核:??(??,??′) ?????? ??=1??????多項式核:??(??,??′)=(1 ????′)??,其中d是多項式的階?? ??=1??????核:??(????′exp(???(∑(????′?? ??=1???????常用的核分為三種,線性核、多項式核以及核。核函數(shù)的具體形式如圖表17所示。特別值得說明的是核,核就是我們之前提到的用無窮維視角來看待數(shù)據(jù)的情形,因此線性核會得到平直的邊界,多項式核和核都會得到彎曲的邊界,后者彎曲程度更大一些。圖表18是用不同核對于模擬數(shù)據(jù)的分類結(jié)果。參數(shù)C,也存在著多種選擇。通常使用交互驗證的方法來選擇最合適的模型和參數(shù)。 決在眾多機(jī)器學(xué)習(xí)方法中,決(decisiontree)是最貼近日常生活的方法之一,我們式,如圖表19所示,每個上層節(jié)點通過某種規(guī)則成下一層的葉子節(jié)點,終端的葉子長)預(yù)測漲跌情況,模擬數(shù)據(jù)如圖表20。直觀地看,大市值全部屬于“漲”類別,大漲大漲中漲中跌中跌小跌小跌小跌“信息”由熵(entropy)或基尼不純度(Giniimpurity)定義。以熵為例,其概念源于信息論鼻祖香農(nóng)(ClaudeElwoodShannon)在1948年信息熵:??(??)=?∑??(????)log2為??(??跌)=5?8。因此前的熵為: 前8log288log28)=熵為??(大市值(01log21)=0 ??(中小市值6log266log26)=Δ??(??)=??(??)?∑??????其中????是節(jié)點p的子節(jié)點,????是到????的概率。上述過程中,到大市值的概率為??(??大市值)=2?8,到中小市值的概率為??(??中小市值)=6?8。因此信息增益為:Δ??(是否為大市值)=??(前)???大市值??(大市值)???中小市值??(中小市值=0.9544

×08

×0.6500=8 Δ??(是否為小市值)=0.95443

×08

×0.9710=85Δ??(是否為消費類)=0.9544

×0.91838

×0.7219=8都?xì)w入終端的葉子節(jié)點,如圖表22所示,最終完成整棵決的學(xué)習(xí)。圖表21:以“是否為大市值”為規(guī)則對圖表21:以“是否為大市值”為規(guī)則對 圖表22:第二次和第三 以上我們展示了最簡單的決構(gòu)建步驟。在實際應(yīng)用過程中,節(jié)點的不一定依賴單停止法控制決的大小。近三十年來,研究者提出了多種決算法,目前最為主流的成多個子節(jié)點,不支持特征的組合,只能用于分類問題;CART每個節(jié)點只成兩如圖表23的異或問題,該問題性回歸、邏輯回歸、線性核的支持向量機(jī)下無解,但是使用決可以輕松解決。決的缺陷在于不穩(wěn)定,對訓(xùn)練樣本非常敏感,并且很容的決算法。圖表圖表23: Bootstrap方法。對于多棵決,如果以Bagging的方式組合起來,可以得到隨機(jī)森林算法;如們將首先介紹Bagging方法。 BaggingBootstrapAggregatingBootstrap。Bootstrap又稱自得到????=71.02,那么均值??的均值和方差又應(yīng)該如何計算呢?Bootstrap方法的思想是有放回地抽樣。我們首先從數(shù)據(jù)集中隨機(jī)抽取一個樣本,然31623162只的新數(shù)據(jù)集D1。注意到原始數(shù)據(jù)集D中有的可能被重復(fù)抽到,有的可能沒驟,我們可以得到NBootstrapD2,D3,……,DN,以及每組數(shù)據(jù)集的均值

?? ??????= ?Var(??)=1000?1 (?????????)=于并行方法。對于不穩(wěn)定的弱分類器(例如決、神經(jīng)網(wǎng)絡(luò),Bagging能顯著提高預(yù):(random最終將全部N棵決以投票的方式組合。和標(biāo)準(zhǔn)化處理。同時我們對2017年一季度的漲跌幅從高到低進(jìn)行排序,選取前1/3作為訓(xùn)練集的正例,后1/3作為反例,中間1/3的不納入訓(xùn)練集。因此訓(xùn)練集包含200個的兩個因子(M=2。亮藍(lán)色點代表訓(xùn)練集的反例。紅色和藍(lán)色的長方形區(qū)域代表分類面,落在紅域的測試5(N=50(m=1完成全部50棵決訓(xùn)練后,以類似投票的方式進(jìn)行組合。例如當(dāng)EP因子??1=1,類別的概率為49?50=0.98>0.5,因此隨機(jī)森林最終判斷為“漲”。隨機(jī)森林的決策面如圖表26中間圖所示,紅色和藍(lán)域分別對應(yīng)漲和跌,紅色越深表圖表圖表26: Bagging并行組合弱分類器的思想不同,AdaBoost(adaptiveboosting)將弱分類器27所示。在訓(xùn)練之前,我們賦予全部樣本相等的權(quán)重。C228中間圖所示。隨后重復(fù)上述過程,每次自適應(yīng)地改變樣本權(quán)重并訓(xùn)練弱分類器,如圖表28右圖所示。最終,每個弱分類器都可以計算出它的訓(xùn)練樣本分類錯重越高。圖表29展示了AdaBoost的具體算法。面略有差異。AdaBoost提高了分類錯誤樣本的權(quán)重,因而對樣本更為敏感,可能會造成過擬合的問題??傮w而言,AdaBoost是一種思想簡單,實現(xiàn)同樣簡單的方法,和其:::訓(xùn)練數(shù)據(jù):??={(??1??1)(??2??2)(????????)}????∈{?1,1}??=1,2,樣本權(quán)值初始化:??1=1/????=1,2,=按照樣本及其權(quán)值{??????=(????????????)}訓(xùn)練弱分類器1 計算???的樣本錯誤率????=∑??:??≠?(??)??????

1???1 1更新權(quán)值:????+1=

????????exp{??????(??∑??=1

??????當(dāng)樣本錯誤率????=0或????≥1/2時停止循環(huán),設(shè)置??=???模型預(yù)測:????(??=∑??=1資料來源:Freund&SchapiretreesGBDTboosting,XGboost在介紹深度學(xué)習(xí)之前,首先要熟悉神經(jīng)網(wǎng)絡(luò)(neuralnetworks)的一些基本概念。神經(jīng)網(wǎng)以追溯到1943年McCulloch-Pitts模型和1958年Rosenblatt感知機(jī)模型。隨后Rumelhart和Hinton于1986年提出反向算法,LeCun于1989年在手寫數(shù)字識對于一些我們感到很的任務(wù),比如解復(fù)雜方程和下圍棋,機(jī)器的表現(xiàn)已經(jīng)遠(yuǎn)遠(yuǎn)人30所示。神經(jīng)元存在興奮和抑制兩種狀態(tài)。一般情況下,絕大多數(shù)神經(jīng)(四個節(jié)點組成輸入層,代表輸入的特息,相當(dāng)于神經(jīng)元的樹突部分。θ1到θ4稱為連隨后進(jìn)入一個非線性的激活函數(shù)???(??),模擬神經(jīng)元激活的過程。常用的激活函數(shù)包括sigmoid函數(shù)、tanh函數(shù)等。32展示了含有一個隱藏層,輸入層和隱藏層節(jié)點數(shù)均為而輸出值和的接近程度取決于每一層中的連接權(quán)重θ。在圖表32的神經(jīng)網(wǎng)絡(luò)中,輸增加,使得優(yōu)化問題的解空間過大,算法難以收斂。其次,反向算法也會失效,誤差一現(xiàn)象稱為梯度。再次,模型復(fù)雜度的增大帶來過擬合的問題。最后,當(dāng)時CPU的((convolutionalneuralnetworks,CNN)的再次興起,重新燃起人們對于神經(jīng)網(wǎng)絡(luò)的興趣。卷積神經(jīng)網(wǎng)絡(luò)的雛形是LeCun在1998年針對手寫字母識別LeNet-5模型,如圖表33所示。卷積神經(jīng)網(wǎng)絡(luò)最大的特點是仿照人類大腦視覺系統(tǒng)的構(gòu)造,每一層節(jié)點并ReLU激活函數(shù)等。另外,CPUGPU取代。由此,大規(guī)模神經(jīng)網(wǎng)絡(luò)的訓(xùn)練成為可能,起一場波瀾壯闊的深度學(xué)習(xí)。學(xué)習(xí)算法,包括用于時間序列問題的遞歸神經(jīng)網(wǎng)絡(luò)(recursiveneuralnetworks,RNN)memory,LSTMK最近鄰(K-nearestneighbor,KNN)算法。K最近鄰算法在理論上于紅色,2個屬于灰色,紅色占多數(shù),因此判斷中心點屬于紅色類別。圖表34:K最近鄰算法示意圖分類邊界較彎曲,K取值較大的時候,邊界會變得更直。前者會帶來過擬合,后者會造成據(jù)特點,最適合的K值也會有所不同,通常采用交互驗證的方法尋找最優(yōu)的K值。圖表35:K最近鄰算法對模擬數(shù)據(jù)進(jìn)行分類 圖表36:K最近鄰算法對模擬數(shù)據(jù)進(jìn)行分類 見的一種:K均值聚類(K-meansclustering)。圖表37:K均值聚類第一次迭代示意圖最終確定最優(yōu)的K值。圖表38:K均值聚類方法對模擬數(shù)據(jù)進(jìn)行分類 圖表39:K均值聚類方法對模擬數(shù)據(jù)進(jìn)行分類V,將頂點間的相似度量化作為相應(yīng)頂點連接邊E的權(quán)值,從而得到一個基于相似度的無向圖G(V,E)。8‰,維數(shù)更高的情形下,樣本就顯得更稀疏。這將給分類帶來極大的。討論的降維方法和前兩者不同,對特征進(jìn)行線性變換,把原來p個維度的特征變換M個。用數(shù)學(xué)的語言表達(dá),我們之前有X1,X2……Xpp個特征,對其進(jìn)行線性變 ????=∑?????? ∑??2= 隨后對這些新的特征做進(jìn)一步的分析。降維方法的在于如何確定Φjm,下面介紹三種主流的降維方法:主成分分析、偏最小二乘法和Fisher線性判別法。主成分分析(principal ysis,PCA)是最常用的降維方法之一,思201650成分股的市盈率和市凈率,并進(jìn)行標(biāo)準(zhǔn)化,得40中的二維數(shù)據(jù)點。我們希望找到一條直線,將數(shù)據(jù)點投影到這條直線后,得到??1=??11??1+最大的一系列Φ:??1=??11??1+??21??2+?+不斷重復(fù)這一過程,直到找全M個主成分。m個主成分????=??????,αmΦ1m、Φ2m、……、Φpm組成的MY進(jìn)行線性回MM的取值,選取測試集中表現(xiàn)最好的模型對應(yīng)的M值。偏最小二乘法(partialleastsquares,PLS)和主成分分析有著同樣的形式,都是將原有p個特征線性變換得到M個新的特征: ????=

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論