




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第6章回歸分析目錄CONTENTS6.1
回歸分析概述6.2線性回歸6.3邏輯回歸6.4本章小結(jié)6.1回歸分析概述學習基礎(chǔ)學習認知能力信息素養(yǎng)高回歸分析通過研究一個或多個自變量與因變量的關(guān)系,建立自變量與因變量的數(shù)學模型,從而利用該模型進行預(yù)測。根據(jù)自變量與因變量的個數(shù),回歸分析可分為一元回歸分析、多元回歸分析、邏輯回歸分析等。根據(jù)自變量與因變量的函數(shù)表達式可分為線性回歸和非線性回歸分析。線性回歸是回歸分析中最基本的分析方法,對于非線性回歸,可借助數(shù)學手段將其轉(zhuǎn)換為線性回歸來解決。線性回歸的數(shù)學公式可表示為:6.2線性回歸6.2.1單變量線性回歸假設(shè)數(shù)據(jù)集D={(x1,y1),(x2,y2),(x3,y3),…,(xm,ym)},它的線性模型就是試圖通過該數(shù)據(jù)集學習一個線性方程以進行預(yù)測:為了學習到參數(shù)W和b,可用最小二乘逼近來擬合,預(yù)測函數(shù)h(x)與y之間的差值平方和為:6.2線性回歸梯度下降法分別對W和b求偏導(dǎo)來求解參數(shù)W和b:W和b的迭代求解:6.2單變量線性回歸defOptimization(x,y,w,lr,iter):m=len(x)alpha=lrh=0foriinrange(iter):sum0=0.0sum1=0.0forjinrange(m):h=w[0]+w[1]*x[j]sum1+=(h-y[j])*x[j]sum0+=(h-y[j])w[0]-=alpha*sum0/mw[1]-=alpha*sum1/mreturnw6.2線性回歸LinearRegression是sklearn.linear_model子類模塊下中的回歸模型,主要通過調(diào)用LinearRegression函數(shù)、fit函數(shù)和predict函數(shù)來訓(xùn)練和預(yù)測模型。LinearRegression(copy_X=True,fit_intercept=True,n_jobs=1,normalize=False)fit(X,y[,n_jobs])返回值分為兩個部分:coef_和intercept_,其中coef_存儲LinearRegression模型的回歸系數(shù)。intercept_存儲LinearRegression模型的回歸截距。::predict(X)主要是利用訓(xùn)練模型預(yù)測,使用訓(xùn)練得到的估計器或模型對輸入的X數(shù)據(jù)集進行預(yù)測,返回結(jié)果為預(yù)測值。數(shù)據(jù)集X通常劃分為訓(xùn)練集和測試集:6.2線性回歸根據(jù)表6-1所示的房屋面積和房價之間的對應(yīng)關(guān)系,建立線性回歸模型。clf=LinearRegression()x=np.array(x)y=np.array(y)x=x.reshape(len(x),1)y=y.reshape(len(y),1)clf.fit(x,y)pre=clf.predict(x)plt.plot(x,pre)plt.xlabel('面積(平方米)')plt.ylabel('房價(萬元)')plt.show()6.2線性回歸(1)牛頓法求解線性回歸問題的原理假設(shè)要求f(x)的解,二階泰勒展開式為:將非線性優(yōu)化問題min
f(x)近似為二次函數(shù)的最優(yōu)化求解問題:6.2線性回歸牛頓法求解線性回歸問題的算法實現(xiàn)6.2線性回歸6.3.1多變量回歸分析原理對于多變量中的自變量與因變量的關(guān)系可表示為:(1)解析法求解利用最小二乘法最小代價函數(shù):對公式(8-19)中的參數(shù)求偏導(dǎo),則有:6.2線性回歸梯度下降法迭代公式:在數(shù)據(jù)量特別大的情況下,一般會使用梯度下降求解法。6.2線性回歸【例6-2】根據(jù)表6-2所示的運輸里程、運輸次數(shù)與運輸總時間的對應(yīng)關(guān)系,利用解析法建立多元線性回歸模型。X=xdata[:,:-1]Y=xdata[:,-1]X_one=np.ones(len(X))X0=np.vstack(np.ones((len(X),1)))#10*1X=np.hstack((X0,X))X_T=np.transpose(X)#將X轉(zhuǎn)置X_TX=np.matmul(X_T,X)#計算X_T*XX_TX_inv=np.linalg.inv(X_TX)#計算(X_T*X)^(-1)X_TX_inv_X_T=np.matmul(X_TX_inv,X_T)#計算(X_T*X)^(-1)*X_TW=np.matmul(X_TX_inv_X_T,Y)#計算(X_T*X)^(-1)*X_T*Y,即W6.2線性回歸多項式回歸是線性回歸模型的一種,假設(shè)存在一個函數(shù),只有一個自變量,即只有一個特征屬性,滿足多項式函數(shù)如下:其損失函數(shù)為:6.2線性回歸【例6-4】根據(jù)給定的數(shù)據(jù)集x=[6,9,15,29,35,46,60,66,73,91,95],y=[16,25,61,67,51,38,36,49,68,82,98],擬合出多項式回歸曲線。deffit_poly(n):para=np.random.randn(n)w=leastsq(err_func,para,args=(np.array(x),np.array(y)))returnw[0]#返回多項式系數(shù)6.3邏輯回歸學習基礎(chǔ)學習認知能力信息素養(yǎng)高為了提高分類器的魯棒性,需要降低線性回歸模型的敏感性,通過在線性模型中引入一個sigmoid函數(shù),可以有效提高分類的效果。sigmoid函數(shù)定義如下:基于線性函數(shù)的邏輯回歸分類模型定義為:sigmoid函數(shù)曲線如圖6-8所示。6.3邏輯回歸代價函數(shù)如公式6-31所示:為了避免陷入局部最低點,我們可以將h(z)
的取值看作樣本屬于類1的后驗概率,因此構(gòu)造符合特定條件的損失函數(shù):6.3邏輯回歸在參數(shù)下,極大似然函數(shù)為:其對數(shù)似然函數(shù)為:代價函數(shù)6.3邏輯回歸參數(shù)學習可用向量表示為:對樣本和標簽用向量進行表示:若用A表示線性輸出,則:6.3邏輯回歸真實標簽與經(jīng)過sigmoid函數(shù)變換后的預(yù)測標簽的誤差表示為:向量化的邏輯回歸算法描述如下:輸入:訓(xùn)練樣本X、標簽y、學習步長、迭代次數(shù)、初始化參數(shù)。過程:(1)當i<=N時,重復(fù)執(zhí)行以下步驟,直至當前均值向量不再更新:①計算A=。②計算誤差E=y-g(A)。③更新,使。(2)當i>N時,停止迭代,輸出參數(shù)的值。輸出:參數(shù)的值。6.4邏輯回歸1.查看數(shù)據(jù)利用Pandas在線下載樣本數(shù)據(jù),原始數(shù)據(jù)的下載地址為:。該數(shù)據(jù)共包含699條樣本,每個樣本有11列數(shù)據(jù),其中第1列是id,第2~10列是與腫瘤相關(guān)的特征,第11列表示腫瘤類型。6.3邏輯回歸2.缺失值處理使用()查看各屬性特征信息,其結(jié)果如圖9-3所示。由于“?”的存在,導(dǎo)致數(shù)據(jù)類型為object。數(shù)據(jù)共包含16個缺失值,將缺失值先轉(zhuǎn)換為NaN,然后再進行刪除。data=data.replace(to_replace="?",value=np.NaN)data=data.dropna()查看是否還有缺失值情況,如圖9-4所示。6.3邏輯回歸3.選擇特征X=data.iloc[:,1:10]y=data["Class"]#分割數(shù)據(jù)X_train,X_test,y_train,y_test=train_test_split(X,y,random_state=0)print(X_train,X_test,y_train,y_test)6.3邏輯回歸4.數(shù)據(jù)標準化data_standard=StandardScaler()X_train=data_standard.fit_transform(X_train)X_test=data_standard.transform(X_test)5.模型訓(xùn)練在對數(shù)據(jù)的缺失值進行填充、劃分和標準化后,利用邏輯回歸函數(shù)對樣本進行訓(xùn)練,從而得到邏輯回歸模型。LR_model=LogisticRegression()LR_model.fit(X_train,y_train)#邏輯回歸的模型參數(shù):回歸系數(shù)和偏置print("模型的回歸系數(shù):{}".format(LR_model.coef_))print("模型的回歸偏置:{}".format(LR_ercept_))
classPro1=k1/(n*v)6.3邏輯回歸對于腫瘤的預(yù)測,我們希望建立的模型在保證準確率的前提下,對患有惡性腫瘤的病人能夠準確篩選出來,這就是召回率(recall/查全率),即惡性腫瘤患者被診斷出的概率,與之對應(yīng)的評價指標還有精確率(Precission),指的是被診斷為惡性腫瘤,確認患有的概率是多少。在介紹召回率和準確率之前,先來了解一下混淆矩陣(ConfusionMatrix)。對于二分類來說,其混淆矩陣為二行二列的,如表所示。6.3邏輯回歸(1)TP,即TruePostive,為真正例,樣本的真實類別是正例,且模型預(yù)測的結(jié)果也是正例。(2)FP,即FalsePositive,為假正例,樣本的真實類別是負例,但模型預(yù)測的結(jié)果為正例。(3)FN,即FalseNegative,為假負例,樣本的真實類別是正例,但模型預(yù)測的結(jié)果為負例。(4)TN,即TrueNegative,為真負例,樣本的真實類別是負例,且模型預(yù)測的結(jié)果也是負例。6.3邏輯回歸1.精確率與召回率精確率是指分類正確的正樣本占預(yù)測為正的樣本個數(shù)的比例,在信息檢索領(lǐng)域稱為查準率。2.召回率召回率是指分類正確的正樣本占真正的正樣本個數(shù)的比例,在信息檢索領(lǐng)域稱為查全率。6.3邏輯回歸3.準確率準確率是指分類正確的樣本占總樣本個數(shù)的比例。4.F1-scoreF1-score是綜合考慮精確率和召回率的一個評價指標。6.3邏輯回歸5.ROC曲線與AUC在分類模型中,ROC(ReceiverOperatingCharacteristicCurve,受試者工作特征曲線)曲線和AUC(AreaUnderROCCurve,ROC曲線下的面積)經(jīng)常作為衡量一個模型泛化性能的指標。6.3邏輯回歸fori,valueinenumerate(thersholds):print("%f%f%f"%(fpr_train[i],tpr_train[i],value))plt.plot(fpr_train,tpr_train,'k--',label='ROC(面積={0:.2f})'.format(auc),lw=1)plt.plot([0,1],[0,1],color='navy',lw=2,linestyle='--')plt.xlabel('假正率')plt.ylabel('真正率')plt.title('ROC曲線')plt.legend(loc="lowerright")plt.rcParams['font.sans-serif']=['SimHei']#顯示中文plt.rcParams['axes.unicode_minus']=Falseplt.show()6.3邏輯回歸y_predict=LR_model.predict(X_test)#分類報告,'Benign','Malignant'良性和惡性,f1_score綜合評判精確率和召回率的分數(shù)print(classification_report(y_test,y_predict,target_names=['Benign','Malignant']))roc_auc_score(y_test,y_predict)print("AUC指標:",roc_auc_score(y_test,y_predict))precisionrecallf1-scoresuppor
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 醫(yī)院藥房發(fā)藥差錯分析與管理體系構(gòu)建
- LTE技術(shù)核心優(yōu)勢解析
- 影響藥物外滲的處理因素及應(yīng)對策略
- 作業(yè)治療技術(shù)案例應(yīng)用分析
- 醫(yī)療廢物院感試題及答案
- 一二建題庫及答案
- 專業(yè)晉升述職匯報
- 眼外傷題庫及答案
- 牙醫(yī)知識題庫及答案
- 幼兒園班級區(qū)域環(huán)境講解
- 2025新疆吐魯番市法檢系統(tǒng)面向社會招聘聘用制書記員23人考前自測高頻考點模擬試題參考答案詳解
- 2025年精神科轉(zhuǎn)崗培訓(xùn)考試題及答案
- 《教師職業(yè)道德》試題與答案解析
- 2025年個人購買二手房電子合同范本模板
- 寧波用人單位勞動協(xié)議
- 密碼產(chǎn)品使用管理辦法
- 工會宣傳工作課件
- 2025年湖南省長沙市初中學業(yè)水平考試中考(會考)地理試卷(真題+答案)
- 設(shè)備部門網(wǎng)格化管理辦法
- 新《治安管理處罰法》培訓(xùn)考試題庫附答案
- 消除“艾梅乙”醫(yī)療歧視-從我做起
評論
0/150
提交評論