機(jī)器學(xué)習(xí)原理、算法與應(yīng)用 課后習(xí)題答案 第三章_第1頁
機(jī)器學(xué)習(xí)原理、算法與應(yīng)用 課后習(xí)題答案 第三章_第2頁
機(jī)器學(xué)習(xí)原理、算法與應(yīng)用 課后習(xí)題答案 第三章_第3頁
機(jī)器學(xué)習(xí)原理、算法與應(yīng)用 課后習(xí)題答案 第三章_第4頁
機(jī)器學(xué)習(xí)原理、算法與應(yīng)用 課后習(xí)題答案 第三章_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

回歸任務(wù)和分類任務(wù)的不同是什么?輸出不同:回歸任務(wù)預(yù)測的是連續(xù)數(shù)值,例如房價(jià)、氣溫、年齡等;分類任務(wù)預(yù)測的是離散類別,例如判斷是否是垃圾郵件、圖片是貓還是狗等。分類問題輸出的值是定性的,回歸問題輸出的值是定量的。任務(wù)目標(biāo)與模型函數(shù)不同:回歸任務(wù)是學(xué)習(xí)一個(gè)可以預(yù)測輸出值的函數(shù)f(x),使得預(yù)測值盡可能接近真實(shí)值(擬合曲線或直線),這個(gè)函數(shù)線條可以最好的接近數(shù)據(jù)集中的各個(gè)點(diǎn)。分類任務(wù)是學(xué)習(xí)一個(gè)將輸入映射到有限類別的決策邊界,用于對數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行分類。結(jié)果和評價(jià)指標(biāo)不同:回歸是對真實(shí)值的一種逼近預(yù)測,值不確定,當(dāng)預(yù)測值與真實(shí)值誤差較小時(shí),認(rèn)為這是一個(gè)好的回歸?;貧w任務(wù)關(guān)注預(yù)測誤差,如均方誤差(MSE)、平均絕對誤差(MAE)、決定系數(shù)(R2模型算法不同:回歸常用模型有線性回歸、多項(xiàng)式回歸、決策樹回歸、隨機(jī)森林回歸、支持向量回歸等。分類常用模型有邏輯回歸、樸素貝葉斯、KNN、隨機(jī)森林等?;貧w任務(wù)在生活中有哪些應(yīng)用?經(jīng)濟(jì)與金融領(lǐng)域:回歸分析可以用于研究經(jīng)濟(jì)變量之間的關(guān)系,例如收入和消費(fèi)、物價(jià)和通貨膨脹等。營銷學(xué):回歸分析可以用于研究市場營銷中的因果關(guān)系,例如廣告投入和銷售額、價(jià)格和銷售量等。社會學(xué):回歸分析可以用于研究社會現(xiàn)象和社會變量之間的關(guān)系,例如教育程度和收入、婚姻狀況和幸福感等。醫(yī)學(xué):回歸分析可以用于研究醫(yī)學(xué)數(shù)據(jù)中的因果關(guān)系,例如藥物劑量和療效、飲食習(xí)慣和身體健康等。工程學(xué):回歸分析可以用于研究工程中的因果關(guān)系,例如溫度和電阻、工藝參數(shù)和產(chǎn)品質(zhì)量等。數(shù)據(jù)科學(xué):回歸分析是數(shù)據(jù)科學(xué)中常用的建模方法之一,可以用于預(yù)測和分類等任務(wù),例如房價(jià)預(yù)測、客戶流失預(yù)測等。請簡述常見的用于回歸任務(wù)的機(jī)器學(xué)習(xí)算法。線性回歸及其變種:線性回歸是最基礎(chǔ)的回歸模型,通過擬合特征與目標(biāo)之間的線性關(guān)系來做預(yù)測,目標(biāo)是最小化預(yù)測值和真實(shí)值的均方誤差;在此基礎(chǔ)上,嶺回歸加入L2正則化,減少模型復(fù)雜度,防止多重共線性問題;Lasso則使用L1正則化,不僅防止過擬合,還能將部分系數(shù)壓縮為零,實(shí)現(xiàn)自動特征選擇;ElasticNet融合了L1與L2正則,可兼顧稀疏性與穩(wěn)定性??删€性化的非線性回歸模型:可線性化的非線性回歸模型原本形式為非線性,但經(jīng)過對自變量和/或因變量進(jìn)行適當(dāng)?shù)臄?shù)學(xué)變換,即可將其重新表達(dá)為參數(shù)線性的形式,從而可以直接用經(jīng)典的線性回歸方法估計(jì)。常見的如指數(shù)函數(shù)回歸模型、倒數(shù)回歸模型、多項(xiàng)式回歸模型等。除此之外,還有許多非線性回歸模型,例如下方所列出的。支持向量回歸模型:使用支持向量機(jī)算法,可以處理非線性關(guān)系,并在高維空間中找到最佳的超平面來進(jìn)行回歸。保序回歸:用于處理有序因變量的非線性回歸問題,它將有序因變量的順序關(guān)系考慮在內(nèi),并找到最佳的擬合函數(shù)。決策樹回歸:構(gòu)建決策樹模型,可以處理非線性關(guān)系,并根據(jù)自變量的取值范圍將數(shù)據(jù)劃分為不同的子集,從而進(jìn)行回歸預(yù)測。隨機(jī)森林回歸:集成多個(gè)決策樹模型的預(yù)測結(jié)果處理非線性關(guān)系,并提供更好的泛化能力和穩(wěn)定性。K最近鄰回歸:找到與目標(biāo)變量最近的K個(gè)鄰居,根據(jù)它們的取值來進(jìn)行回歸預(yù)測,可以處理非線性關(guān)系。請簡述常見的用于回歸任務(wù)的性能評價(jià)指標(biāo)。平均絕對誤差(MeanAbsoluteError,MAE):MAE是預(yù)測誤差的絕對值平均,更直觀地反映出模型平均偏差大小,若想更公平地評估整體誤差,可首選MAE。其計(jì)算公式如下:MAE=均方誤差(MeanSquaredError,MSE):MSE是最常見的回歸誤差指標(biāo),計(jì)算預(yù)測值與真實(shí)值差值的平方的平均值。指標(biāo)對大誤差非常敏感,因此適合在需要強(qiáng)烈懲罰大偏差的場景下使用,但其單位為原始值的平方,不易直觀解釋。其計(jì)算公式如下:MSE=決定系數(shù)(R2和調(diào)整后的R2):R2表示模型能解釋目標(biāo)變量方差的比例,越接近1越好;但隨著特征數(shù)量增加,R2只增不減,容易導(dǎo)致過擬合。調(diào)整后的R2在考慮解釋變量數(shù)量的同時(shí),對模型復(fù)雜度進(jìn)行懲罰,從而提供更公平的比較標(biāo)準(zhǔn)。其計(jì)算公式如下:R請推導(dǎo)最小二乘法。一元線性模型最小二乘法的推導(dǎo):假設(shè)有一組數(shù)據(jù)X=(x1,y=在最小二乘法中,可以將誤差平方和作為損失函數(shù)。損失函數(shù)用于衡量模型預(yù)測值與真實(shí)值之間的差異,可以通過最小化損失函數(shù)來找到最佳的參數(shù)估計(jì)。J有了目標(biāo)函數(shù),下面需要求出β0和β1使得J(β)最小,即求J(β)的極小值。分別對β0?J(β)?J(β)因?yàn)閤=1mx?J(β)已知當(dāng)目標(biāo)函數(shù)取得極值時(shí),偏導(dǎo)一定是等于0的,所以,令?J(β)?2(mβ接著,繼續(xù)處理對β1的偏導(dǎo),令?J(β)?β2在這一等式中,只有β1β將β1代入β0=y?β1x,即可對于多元線性情況。此時(shí)需要使用矩陣運(yùn)算來求解,先用矩陣表示:Xβ=yXβ=目標(biāo)函數(shù):J(β)=要求最佳擬合模型,也就是令上面目標(biāo)函數(shù)最小,即為0:y?X移項(xiàng)得:y=X(最終得解:β請簡述嶺回歸和線性回歸的差別。線性回歸和嶺回歸的本質(zhì)區(qū)別在于是否引入了正則化項(xiàng),以抑制模型中過大的回歸系數(shù),從而提高模型的穩(wěn)定性和泛化能力。是否處理過擬合和多重共線性:線性回歸不含正則項(xiàng),容易受噪聲影響;嶺回歸通過L2正則顯著降低方差,提升泛化能力。系數(shù)估計(jì)方式:線性回歸直接估計(jì)最優(yōu)系數(shù),可能出現(xiàn)極大或不穩(wěn)定值;嶺回歸會將系數(shù)“收縮”到更小范圍,雖然引入偏差,但往往換得更低的總體誤差。特征選擇能力:嶺回歸不會將系數(shù)精確降為零,因此不會自動篩選特征;它保留所有變量,僅縮小其影響。請簡要敘述嶺回歸、Lasso回歸、ElasticNet回歸之間的差別。嶺回歸:在線性回歸的損失函數(shù)中加入L2正則化項(xiàng)αj=1Lasso回歸:Lasso將L1正則化項(xiàng)αi=1ElasticNet回歸:同時(shí)結(jié)合L1與L2正則化項(xiàng)λ1α請從偏差和方差的角度分析機(jī)器學(xué)習(xí)算法的泛化性能。給定未知真實(shí)函數(shù)f(x)產(chǎn)生觀測y=f(x)+E[偏差(Bias):模型預(yù)測的期望值與真實(shí)函數(shù)的差距,反映模型是否過于簡單,無法擬合真實(shí)關(guān)系(欠擬合)。方差(Variance):當(dāng)從不同數(shù)據(jù)集訓(xùn)練模型時(shí)預(yù)測結(jié)果的變化幅度,反映模型對訓(xùn)練集的敏感程度(過擬合傾向)。不可約誤差(IrreducibleError):由數(shù)據(jù)本身的隨機(jī)噪聲導(dǎo)致,無法通過模型減小。要達(dá)到良好的泛化性能,核心在于在偏差與方差間找到平衡點(diǎn)。偏差高導(dǎo)致欠擬合,需提升模型復(fù)雜度或特征豐富性;方差高導(dǎo)致過擬合,需加強(qiáng)正則化、增加數(shù)據(jù)或引入早停機(jī)制。請?jiān)诓ㄊ款D房價(jià)數(shù)據(jù)集或任何你感興趣的數(shù)據(jù)集上嘗試使用一種回歸算法預(yù)測值。這里僅展示在加州房價(jià)數(shù)據(jù)集采用線性回歸的例子:fromsklearn.datasetsimportfetch_california_housingimportpandasaspdimportnumpyasnpfromsklearn.preprocessingimportStandardScalerfromsklearn.model_selectionimporttrain_test_splitfromsklearn.linear_modelimportLinearRegressionfromsklearn.metricsimportmean_absolute_error,mean_squared_error,r2_score#加載加州房價(jià)數(shù)據(jù)集housing=fetch_california_housing()features=housing.datatarget=housing.target#轉(zhuǎn)為DataFrame(可選,用于查看)df=pd.DataFrame(features,columns=housing.feature_names)df['MedHouseVal']=target#標(biāo)準(zhǔn)化特征和目標(biāo)變量scaler_X=StandardScaler()scaler_y=StandardScaler()X_scaled=scaler_X.fit_transform(features)y_scaled=scaler_y.fit_transform(target.reshape(-1,1))#拆分訓(xùn)練集與測試集(70%/30%)x_train,x_test,y_train,y_test=train_test_split(X_scaled,y_scaled,test_size=0.3,random_state=0)#使用線性回歸模型model=LinearRegression()model.fit(x_train,y_train)y_pred_scaled=model.predict(x_test)#反標(biāo)準(zhǔn)化,得到原始單位的預(yù)測值與真實(shí)值y_test_orig=scaler_y.inverse_transform(y_test)y_pred_orig=scaler_y.inverse_transform(y_pred_scaled)#評估指標(biāo)mse=mean_squared_error(y_test_orig,y_pred_orig)mae=mean_absolute_error(y_test_orig,y_pred_orig)r2=r2_score(y_test,y_pred_scaled)#打印結(jié)果print(f"均方誤差(MSE):{mse:.6f}")print(f"平均絕對誤差(MAE):{mae:.6f}")print(f"決定系數(shù)(R^2):{r2:.6f}")運(yùn)行結(jié)果:請使用Python或任何其他語言實(shí)現(xiàn)一個(gè)線性回歸模型(不要調(diào)用sklearn等庫中的相關(guān)模塊)。示例:簡單線性回歸模型importnumpyasnpclassLinearRegression:"""線性回歸模型(支持普通最小二乘法與梯度下降)參數(shù):method:'normal'或'gradient_descent'lr:學(xué)習(xí)率,僅當(dāng)method='gradient_descent'時(shí)有效n_iters:迭代次數(shù),僅當(dāng)method='gradient_descent'時(shí)有效"""def__init__(self,method='normal',lr=0.01,n_iters=1000):self.method=methodself.lr=lrself.n_iters=n_itersself.theta=None#參數(shù)向量,包括截距deffit(self,X,y):"""訓(xùn)練模型X:特征矩陣,shape(n_samples,n_features)y:目標(biāo)值,shape(n_samples,)"""#添加偏置項(xiàng)X_b=np.c_[np.ones((X.shape[0],1)),X]ifself.method=='normal':#正規(guī)方程self.theta=np.linalg.pinv(X_b.T.dot(X_b)).dot(X_b.T).dot(y)elifself.method=='gradient_descent':#梯度下降m=X_b.shape[0]self.theta=np.zeros(X_b.shape[1])foriinrange(self.n_iters):gradients=2/m*X_b.T.dot(X_b.dot(self.theta)-y)self.theta-=self.lr*gradientselse:raiseValueError("Unknownmethod:choose'normal'or'gradient_descent'")defpredict(self,X):"""預(yù)測X:特征矩陣,shape(n_samples,n_features)返回預(yù)測值,shape(n_samples,)"""X_b=np.c_[np.ones((X.shape[0],1)),X]returnX_b.dot(self.theta)if__name__=='__main__'

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論