




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第10章統(tǒng)計學(xué)習(xí)
10.1概述
10.2幾種基本判別模型的學(xué)習(xí)
10.3監(jiān)督學(xué)習(xí)中幾個進(jìn)一步的問題
10.4支持向量機簡介
延伸學(xué)習(xí)導(dǎo)引
10.1概述讓計算機(機器)執(zhí)行以統(tǒng)計、概率和其他數(shù)學(xué)理論為基礎(chǔ)的算法,處理相關(guān)樣本數(shù)據(jù)以發(fā)現(xiàn)其中的模式或規(guī)律的“機器學(xué)習(xí)”方法——統(tǒng)計機器學(xué)習(xí),即統(tǒng)計學(xué)習(xí)(StatisticalLearning)。統(tǒng)計學(xué)習(xí)的主要工作和過程是:首先準(zhǔn)備樣本數(shù)據(jù),然后針對樣本數(shù)據(jù)的特點,選擇或設(shè)計某種數(shù)值模型或概率模型、準(zhǔn)則函數(shù)(criterionfunction)(如誤差、損失、代價、風(fēng)險函數(shù)等)、學(xué)習(xí)策略和算法,最后編程實現(xiàn)以歸納或估算一個最優(yōu)模型。
統(tǒng)計學(xué)習(xí)的主要任務(wù)是發(fā)現(xiàn)或估計隱藏于樣本數(shù)據(jù)中的類別關(guān)系、函數(shù)關(guān)系或模式(類)以解決相關(guān)的分類(classification)、回歸(regression)或聚類(clustering)等問題。這樣,統(tǒng)計學(xué)習(xí)又可分為面向分類的學(xué)習(xí)、面向回歸的學(xué)習(xí)和面向聚類的學(xué)習(xí)等。
其中,面向分類的學(xué)習(xí)又大體有兩條技術(shù)路線:一條是數(shù)值路線,另一條是概率路線。一般來講,數(shù)值路線的學(xué)習(xí)結(jié)果是問題的近似解,而概率路線的學(xué)習(xí)結(jié)果是可能解。面向回歸的學(xué)習(xí)與面向分類的學(xué)習(xí)的數(shù)據(jù)形式是相似的,只是其數(shù)據(jù)對中的響應(yīng)值(也稱輸出值)一般是實數(shù),而不是分類學(xué)習(xí)中的類別標(biāo)記。所以,回歸學(xué)習(xí)的模型、約束、策略、算法等與數(shù)值路線的分類學(xué)習(xí)既相似又有區(qū)別。聚類學(xué)習(xí)面向無響應(yīng)值的數(shù)據(jù),其目標(biāo)是發(fā)現(xiàn)數(shù)據(jù)所表征的類別模式。聚類學(xué)習(xí)也有許多經(jīng)典算法,如k-均值算法、期望最大化算法、譜聚類算法和層次聚類算法等等。統(tǒng)計學(xué)習(xí)是一種基于樣本數(shù)據(jù)的學(xué)習(xí),而樣本數(shù)據(jù)一般是n維向量(稱為特征向量)或者n維向量與符號或數(shù)值組成的序?qū)?,所以統(tǒng)計學(xué)習(xí)的方法主要是監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。決策樹學(xué)習(xí)是一種獨特的監(jiān)督學(xué)習(xí)方法,它不僅可用于符號學(xué)習(xí),也可用于統(tǒng)計學(xué)習(xí)。在統(tǒng)計學(xué)習(xí)中,它既可用于分類學(xué)習(xí)也可用于回歸學(xué)習(xí);它既可走數(shù)值路線,也可走概率路線。10.2幾種基本判別模型的學(xué)習(xí)10.2.1回歸問題的線性函數(shù)模型學(xué)習(xí),梯度下降法設(shè)有樣本數(shù)據(jù)如下表所示:它們所構(gòu)成的數(shù)據(jù)點在x-y空間中的分布如圖10-1所示。
設(shè)作為評價學(xué)習(xí)效果的準(zhǔn)則函數(shù),稱為誤差函數(shù)。再設(shè)定一個
>0,作為誤差函數(shù)值E(a,b)的上限。那么,
E(a,b)<
(10-2)就是我們的評價準(zhǔn)則。用誤差函數(shù)E(a,b)在點(a,b)的負(fù)梯度來引導(dǎo)搜索,即確定當(dāng)前點(a,b)的下一個點(a’,b’)的所在方向和位置。
用梯度引導(dǎo)函數(shù)極小值點的搜索,就是著名的梯度下降法(gradientdescent,亦稱最速下降法)。
由矢量代數(shù)知識和梯度下降法原理,在搜索過程中點(a,b)的變換公式亦即系數(shù)a,b取值的修正公式為(a,b)=(a,b)
E(a,b)(10-4)其中0<
1,稱為學(xué)習(xí)因子或?qū)W習(xí)率,用以控制搜索時的移動步長亦即參數(shù)值修正量的大小。(10-4)式是用向量表示的修正公式,寫成分量形式則為
一個學(xué)習(xí)相應(yīng)線性函數(shù)的算法:—————————————————————————(1)設(shè)定一個
值和一個誤差上限
;(2)給系數(shù)變量a,b各賦一個初值;(3)將樣本中變量xi的取值依次代入函數(shù)式ax+b求相應(yīng)的y值,并計算總誤差
E(a,b)=
(4)如果E(a,b)<
,則當(dāng)前的a、b取值即為所求,于是,算法結(jié)束;否則,計算梯度E(a,b),修正a、b的取值,即令
(a,b)=(a,b)
E(a,b);然后轉(zhuǎn)(3)—————————————————————————
假設(shè)經(jīng)機器學(xué)習(xí),系數(shù)a,b分別取1.95和
0.96。于是,得線性函數(shù)y=1.95x
0.96相應(yīng)的函數(shù)圖像如圖10-2所示。說明:梯度下降法的缺點是容易陷入局部極小點。另外,對于大規(guī)模數(shù)據(jù),這種步進(jìn)式的搜索其效率也是個問題。為此,人們又開發(fā)出了隨機梯度下降法。上面關(guān)于一元線性函數(shù)的學(xué)習(xí)算法也可推廣到多元線性函數(shù)的學(xué)習(xí)中去。10.2.2分類問題的線性判別函數(shù)模型學(xué)習(xí)
設(shè)有下列樣本數(shù)據(jù):其中,y=f(x1,x2)是一個指示函數(shù),y為(x1,x2)所屬類別的標(biāo)記,取值為0和1。考慮在類1和類0(分別記為C0和C1)之間構(gòu)造一條直線:w0+w1x1+w2x2=0(10-7)這里,x1、x2為變量,w1、w2系數(shù),w0為常數(shù)。令g(x)=g(x1,x2)=w0+w1x1+w2x2,則對于點x
U
V
R2當(dāng)g(x)<0時,則x
c0;當(dāng)g(x)>0時,則x
c1
這樣,參數(shù)w0、w1、w2取值未定的函數(shù)g(x)=w0+w1x1+w2x2就是這個分類問題的假設(shè)判別函數(shù)模型。g(x)是一個線性函數(shù),稱為線性判別函數(shù)。
為了敘述方便,將函數(shù)式w0+w1x1+w2x2寫成系數(shù)向量與變元向量的內(nèi)積的形式,即
這里參數(shù)w1、w2稱為權(quán)值,表示在函數(shù)中的重要程度,w0稱為閾值權(quán)或偏置(bias,亦稱偏差或偏倚)。如果引入x0=1,則上面的函數(shù)式可進(jìn)一步寫成
原直線方程也就變?yōu)?/p>
wTxi=0(10-8)
一個簡單的學(xué)習(xí)算法:——————————————————————————---———————————
(1)初始化權(quán)向量w,并設(shè)置一個合適的學(xué)習(xí)率
(0,1];
(2)對訓(xùn)練樣例(xi,yi)(i=1,2,…,n):
計算wTxi;
如果wTxi>0,令hi=1,否則hi=0;
更新權(quán)值:w=
w+
(hi
yi)
xi。
(3)直到對所有訓(xùn)練樣例都有hi
yi=0,則當(dāng)前權(quán)向量w即為所求,學(xué)習(xí)結(jié)束;
否則轉(zhuǎn)(2)。—————————————------————————————————————————
經(jīng)過機器學(xué)習(xí),權(quán)向量w的值被確定后,判別函數(shù)g(x)=wTx也就確定了。于是,進(jìn)一步就有分類判決規(guī)則:
對于任一x
U
V,
如果g(x)>0,則x
C1;
如果g(x)<0,則x
C0;
如果g(x)=0,則根據(jù)實際問題進(jìn)行分類或不予分類。上述判別函數(shù)和判決規(guī)則就構(gòu)成了一個“分類器”,或線性分類器?,F(xiàn)在,就可用這個分類器對相關(guān)的對象進(jìn)行分類了。
說明:
這里的判別函數(shù)g(x)完全可以推廣為n元線性函數(shù)。從而這個分類器也就被推廣為n維線性分類器。
上面的學(xué)習(xí)算法是針對線性可分的樣本的,相應(yīng)的分類器也是針對線性可分問題的。
上面的算法中沒有使用準(zhǔn)則函數(shù)。但實際上,對于線性判別函數(shù)的學(xué)習(xí),人們已開發(fā)了許多準(zhǔn)則函數(shù)。
線性判別函數(shù)不僅可用于二分類問題,也可用于多分類問題。10.2.3分類問題的Logistic回歸模型學(xué)習(xí),梯度上升法
?
Logistic函數(shù)(也稱Sigmoid函數(shù))取變換y=w0+w1x1+w2x2=
(w0,w1,w2)T
(1,x1,x2)=WTx得將函數(shù)Logistic(x)作為分類問題的一種假設(shè)概率模型而表示為:這兩個等式稱為二項Logistic回歸模型的條件概率分布。從式(10-11)可以看出,當(dāng)WTx的值越接近正無窮,概率值P(Y=1
x)就越接近1;當(dāng)WTx的值越接近負(fù)無窮,概率值P(Y=1
x)就越接近0.由式(10-10)和式(10-11),有現(xiàn)在,考慮如何確定式(10-11)中參數(shù)WT=(w0,w1,w2)的值?
將對數(shù)據(jù)x的一次分類決策的損失定義為:這一函數(shù)稱為負(fù)對數(shù)似然函數(shù)。如果將這里的y值0、1當(dāng)作數(shù)值來用,則上面的兩個表達(dá)式也可合并為:
l(W,x)=
yln(g(x;W))
(1
y)ln(1
g(x;W))(10-15)將全部n個樣例在參數(shù)W下的損失相加,得這就是我們給出的準(zhǔn)則函數(shù),可稱為損失函數(shù)(或誤差函數(shù)、代價函數(shù)等),也是一種交叉熵(cross-entropy)。有了這個損失函數(shù)L(W),機器就可在其指導(dǎo)和約束下,通過反復(fù)計算-修正操作而最終找到最佳參數(shù)值W*。于是,也就找到了最佳模型g(x;W*)。參數(shù)W的值確定后,上面的式(10-11)和(10-12)就正式成為上面分類問題的兩個判別函數(shù)了。由于是二分類問題而且P(Y=0
x)=1
P(Y=1
x),C1的判別函數(shù)就可以作為C1
和C0兩個類的判別函數(shù)。于是有分類判決規(guī)則:
對于任一x
U
V,如果P(Y=0
x)
0.5,則x
C1;否則,則x
C0。
Logistic回歸的隨機梯度上升算法10.3監(jiān)督學(xué)習(xí)中幾個進(jìn)一步的問題
10.3.1監(jiān)督學(xué)習(xí)的主要工作及步驟
1.數(shù)據(jù)準(zhǔn)備即采集樣本數(shù)據(jù),然后從中選取一部分作為訓(xùn)練樣本,另一部分作為測試樣本,或者再取一部分作為訓(xùn)練后的一個驗證集。2.選擇或設(shè)計假設(shè)模型就是根據(jù)樣本數(shù)據(jù)和實際問題的特點,選擇或設(shè)計擬學(xué)習(xí)的數(shù)學(xué)表達(dá)式,一般為某種數(shù)值函數(shù)(Y=f(X))或條件概率分布(P(Y
X))。假設(shè)模型實際是模型類,因為表達(dá)式的參數(shù)未取值。3.選擇或設(shè)計準(zhǔn)則函數(shù)準(zhǔn)則函數(shù)是一種可量化相關(guān)評價指標(biāo)的函數(shù)。常用的準(zhǔn)則函數(shù)有誤差函數(shù)、損失函數(shù)、代價函數(shù)、風(fēng)險函數(shù)等。4.選擇或設(shè)計學(xué)習(xí)策略和算法學(xué)習(xí)策略包括準(zhǔn)則函數(shù)選擇、搜索方式(如步進(jìn)搜索、隨機搜索)、搜索方向(如梯度下降、梯度上升)、搜索
起點(即參數(shù)初值)、搜索步長(即學(xué)習(xí)因子或?qū)W習(xí)率)等。策略確定后,就選擇或設(shè)計相應(yīng)的算法。5.編程實現(xiàn)就是選擇合適的語言、工具或平臺,編制程序,實現(xiàn)算法,進(jìn)行相應(yīng)的學(xué)習(xí)訓(xùn)練和測試。10.3.2準(zhǔn)則函數(shù)的演變
在準(zhǔn)則函數(shù)中,常用的損失函數(shù)有0-1損失函數(shù)、平方損失函數(shù)、絕對損失函數(shù)和對數(shù)損失函數(shù)等。
損失函數(shù)的期望:
經(jīng)驗風(fēng)險(empiricalrisk):
結(jié)構(gòu)風(fēng)險(structuralrisk)
10.3.3過擬合,欠擬合,正則化
泛化(generalization)能力。是指由該方法所學(xué)得的模型對新數(shù)據(jù)的預(yù)測或分類能力。
過擬合(over-fitting)。就是學(xué)習(xí)所得模型對訓(xùn)練數(shù)據(jù)分類或預(yù)測得很好,但對新數(shù)據(jù)卻很差。
欠擬合(under-fitting)。就是學(xué)習(xí)所得模型對數(shù)據(jù)的分類和預(yù)測能力很差。
偏差(bias,亦稱偏倚)和方差(variance)。可以對過擬合和欠擬合進(jìn)行定量分析的兩種測度。
正則化(regularization)方法。為了避免過擬合和欠擬合,人們采用正則化(regularization)方法,即給模型再設(shè)計一個測度函數(shù)來評估模型的復(fù)雜度。
泛化誤差(generalizationerror):泛化誤差反映了學(xué)習(xí)方法的泛化能力。
10.3.4模型與學(xué)習(xí)方法的分類
生成模型(generativemodel)
判別模型(discriminativemodel)
生成方法(generativeapproach)
判別方法(discriminativeapproach)
生成模型由生成方法(generativeapproach)所得,判別模型則由判別方法(discriminativeapproach)所得。生成方法先由數(shù)據(jù)學(xué)習(xí)聯(lián)合概率分布P(Y,X),然后求出概率分布P(Y
X)=(10-27)作為預(yù)測模型,即生成模型。典型的生成模型有樸素貝葉斯法中的分類模型、由最大似然估計和貝葉斯估計所得的分類模型以及隱馬爾科夫模型(HiddenMarkovModel,HMM)等。判別方法由數(shù)據(jù)直接學(xué)習(xí)判別函數(shù)Y=f(X)或者條件概率分布P(Y
X)作為預(yù)測模型,即判別模型。典型的判別模型有:k-近鄰法、線性判別函數(shù)、決策樹、邏輯斯諦回歸模型、最大熵模型、支持向量機、提升方法和條件隨機場等。10.4支持向量機簡介10.4.1最大間隔超平面
能使兩側(cè)數(shù)據(jù)子集的邊界點到其的距離都達(dá)到最遠(yuǎn),即能以最大間隔分隔兩個數(shù)據(jù)子集的超平面稱為最大間隔超平面。10.4.2線性可分支持向量機
設(shè)有線性可分的訓(xùn)練樣本S=,yi
{+1,
1}分別對應(yīng)正類樣例和負(fù)類樣例。設(shè)分隔數(shù)據(jù)點集D=成為兩個子集的超平面方程為wTxi
+b=0(10-28)首先,這個超平面要能夠正確分類數(shù)據(jù)點集D,所以它必須滿足下面兩個不等式:wTxi
+b≥0,對于正類樣例wTxi
+b<0,對于負(fù)類樣例如果將yi的取值作為數(shù)值與wTxi
+b相乘,則這兩個不等式可以統(tǒng)一為yi(wTxi
+b)≥0(10-29)
現(xiàn)在,將所得的w*和b*代入(10-28)式,就得到了所求的最大間隔超平面:w*Txi
+b*=0(10-38)從而,也就得到了一個線性判別函數(shù)f(w*Txi
+b*)。10.4.3線性支持向量機和非線性支持向量機1.線性支持向量機
線性支持向量機的具體做法是:在上面(10-32)和(10-33)式的基礎(chǔ)上引入一個所稱的松弛變量
i≥0和一個懲罰參數(shù)C>0,使得求相應(yīng)最佳分類超平面的問題變?yōu)榍蠼馊缦碌耐苟我?guī)劃問
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中醫(yī)藥國際化進(jìn)程中的2025年市場拓展與中醫(yī)藥產(chǎn)業(yè)國際化市場潛力研究報告
- 坐姿禮儀基礎(chǔ)知識培訓(xùn)課件
- 安??荚囶}庫及答案解析
- 基金考試題庫及答案
- 地面混凝土基礎(chǔ)知識培訓(xùn)課件
- 地鐵隧道基礎(chǔ)知識培訓(xùn)課件
- 2025年上海汽車租賃合同
- 2025年中外合作合同貿(mào)易研究實驗報告
- 信息技術(shù)在農(nóng)村土地調(diào)查中的運用合同
- 家庭農(nóng)場生態(tài)農(nóng)業(yè)示范基地建設(shè)合同
- 企業(yè)總監(jiān)管理辦法
- 二零二五年高端冷鏈物流冷藏車租賃及配送服務(wù)合同
- 云南省康旅控股集團有限公司招聘考試真題2024
- 2025年教育法律法規(guī)試題庫及答案
- (標(biāo)準(zhǔn))第三方合同轉(zhuǎn)讓協(xié)議書
- 2025年貴州水礦控股集團有限責(zé)任公司校園招聘筆試備考題庫參考答案詳解
- GB/T 20988-2025網(wǎng)絡(luò)安全技術(shù)信息系統(tǒng)災(zāi)難恢復(fù)規(guī)范
- 2025年浙江省中考社會試題卷(含答案)
- 2025年三力測試題庫簡介及答案
- 2025廣西公需科目考試答案(3套涵蓋95-試題)一區(qū)兩地一園一通道建設(shè)人工智能時代的機遇與挑戰(zhàn)
- 衣服投標(biāo)供貨方案(3篇)
評論
0/150
提交評論