大數(shù)據(jù)分析方法及應(yīng)用-基于Python實(shí)現(xiàn) 課件 第7章 回歸分析_第1頁(yè)
大數(shù)據(jù)分析方法及應(yīng)用-基于Python實(shí)現(xiàn) 課件 第7章 回歸分析_第2頁(yè)
大數(shù)據(jù)分析方法及應(yīng)用-基于Python實(shí)現(xiàn) 課件 第7章 回歸分析_第3頁(yè)
大數(shù)據(jù)分析方法及應(yīng)用-基于Python實(shí)現(xiàn) 課件 第7章 回歸分析_第4頁(yè)
大數(shù)據(jù)分析方法及應(yīng)用-基于Python實(shí)現(xiàn) 課件 第7章 回歸分析_第5頁(yè)
已閱讀5頁(yè),還剩40頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第7章回歸分析回歸分析是一種統(tǒng)計(jì)方法,用于研究自變量(解釋變量)和因變量(響應(yīng)變量)之間的關(guān)系。通過(guò)回歸分析,可以確定自變量與因變量之間的相關(guān)性、預(yù)測(cè)因變量的數(shù)值,并了解自變量對(duì)因變量的影響程度。通過(guò)回歸分析,可以得出模型,從而更好地理解變量之間的關(guān)系,進(jìn)行預(yù)測(cè)和決策。回歸分析在各種領(lǐng)域都有廣泛的應(yīng)用,包括經(jīng)濟(jì)學(xué)、社會(huì)科學(xué)、生物學(xué)、醫(yī)學(xué)等。第7章回歸分析7.1回歸分析的基礎(chǔ)7.2一元線性回歸7.3多元線性回歸7.4正則化回歸7.5回歸模型的評(píng)價(jià)指標(biāo)7.6實(shí)踐-回歸分析7.7本章小結(jié)7.1回歸分析的基礎(chǔ)7.1回歸分析的基礎(chǔ)7.1.1回歸分析的概念7.1.2回歸分析的步驟7.1.1回歸分析的概念回歸分析是一種統(tǒng)計(jì)方法,用于研究?jī)蓚€(gè)或多個(gè)變量之間的關(guān)系。在回歸分析中,通常將一個(gè)或多個(gè)自變量(解釋變量)與一個(gè)因變量(響應(yīng)變量)進(jìn)行關(guān)聯(lián),以了解自變量對(duì)因變量的影響程度和方向。通過(guò)建立數(shù)學(xué)模型描述二者之間的關(guān)系,回歸分析提供了預(yù)測(cè)、推斷和解釋的能力。通過(guò)回歸分析,可以確定自變量對(duì)因變量的影響程度、預(yù)測(cè)因變量的數(shù)值、檢驗(yàn)假設(shè)以及探索變量之間的關(guān)聯(lián)。這使得回歸分析成為許多領(lǐng)域中重要的工具,例如經(jīng)濟(jì)學(xué)、社會(huì)科學(xué)、醫(yī)學(xué)和工程等。總而言之,回歸分析幫助理解和利用變量之間的關(guān)系,為決策和預(yù)測(cè)提供有力支持。7.1回歸分析的基礎(chǔ)7.1.2回歸分析的步驟1.數(shù)據(jù)收集2.數(shù)據(jù)清洗和探索性分析3.特征工程4.拆分?jǐn)?shù)據(jù)集5.選擇回歸模型6.模型訓(xùn)練7.模型評(píng)估8.調(diào)參優(yōu)化9.模型解釋和分析10.模型部署和監(jiān)測(cè)通過(guò)以上詳細(xì)步驟,可以系統(tǒng)地進(jìn)行回歸分析,構(gòu)建準(zhǔn)確可靠的預(yù)測(cè)模型,并深入理解變量之間的關(guān)系,為決策和預(yù)測(cè)提供有效支持。7.1回歸分析的基礎(chǔ)7.2一元線性回歸7.2一元線性回歸7.2.1一元線性回歸模型7.2.2參數(shù)w和b的推導(dǎo)過(guò)程7.2.3參數(shù)w和b求解的代碼實(shí)現(xiàn)7.2.1一元線性回歸模型一元線性回歸是用于研究一個(gè)自變量和一個(gè)因變量之間的線性關(guān)系,其定義為y=f(x)=wx+b其中,y是因變量(目標(biāo)變量)的值;x是自變量(解釋變量)的值;b是截距(模型在(x=0)時(shí)的值),w是斜率(自變量(x)對(duì)因變量(y)的影響程度,即權(quán)重)。7.2一元線性回歸【例7-1】如圖7-1所示,黃色的實(shí)心圓代表樣本點(diǎn),這些樣本點(diǎn)散落在特征空間中,用兩條直線來(lái)擬合這些樣本點(diǎn),一條是紅色的直線,另一條是藍(lán)色的直線,哪條直線擬合這些樣本點(diǎn)更好呢?7.2一元線性回歸7.2.2參數(shù)w和b的推導(dǎo)過(guò)程由于損失函數(shù)L(w,b)是凸函數(shù),根據(jù)凸函數(shù)的充分性定理,可以分別對(duì)L(w,b)求關(guān)于w和b的偏導(dǎo)數(shù)。將偏導(dǎo)數(shù)設(shè)置為0,可以得到最優(yōu)參數(shù)w和b的值,這樣能夠保證L(w,b)的值全局最小,即損失最小,此時(shí)的w,b也是要得到的最優(yōu)參數(shù)值。7.2一元線性回歸7.2.3參數(shù)w和b求解的代碼實(shí)現(xiàn)7.2一元線性回歸7.3多元線性回歸在回歸分析中,如果有兩個(gè)或兩個(gè)以上的自變量,就稱為多元回歸。7.3多元線性回歸7.3.1多元線性回歸模型和參數(shù)求解7.3.2參數(shù)W求解的代碼實(shí)現(xiàn)7.3.1多元線性回歸模型和參數(shù)求解7.3多元線性回歸7.3.2參數(shù)W求解的代碼實(shí)現(xiàn)7.3多元線性回歸7.4正則化回歸正則化是解決過(guò)擬合問(wèn)題的一種方法,通過(guò)對(duì)模型參數(shù)進(jìn)行調(diào)整,降低模型的復(fù)雜度,可以避免過(guò)擬合。應(yīng)用了正則化方法的模型主要有嶺回歸、最小絕對(duì)收縮與選擇算子以及彈性網(wǎng)絡(luò)。7.4正則化回歸7.4.1嶺回歸模型(RidgeRegression)7.4.2最小絕對(duì)收縮與選擇算子(LASSO回歸)7.4.3彈性網(wǎng)絡(luò)7.4.1嶺回歸模型(RidgeRegression)7.4正則化回歸7.4.2最小絕對(duì)收縮與選擇算子(LASSO回歸)7.4正則化回歸7.4.3彈性網(wǎng)絡(luò)7.4正則化回歸7.5回歸模型的評(píng)價(jià)指標(biāo)回歸算法的評(píng)價(jià)指標(biāo)為均方誤差MSE(MeanSquaredError)、均方根誤差RMSE(RootMeanSquaredError)、平均絕對(duì)誤差MAE(MeanAbsoluteError)、決定系數(shù)R2(R-Squared),從是否預(yù)測(cè)到了正確的值角度,用評(píng)價(jià)指標(biāo)MSE、RMSE和MAE來(lái)對(duì)模型進(jìn)行評(píng)價(jià);從是否擬合了足夠信息的角度,用評(píng)價(jià)指標(biāo)R2來(lái)對(duì)模型進(jìn)行評(píng)價(jià)。7.5回歸模型的評(píng)價(jià)指標(biāo)1.MSE(MeanSquaredError)均方誤差2.RMSE(RootMeanSquaredError)均方根誤差3.MAE(MeanAbsoluteError)平均絕對(duì)誤差4.R-Squared(R2,決定系數(shù))1.MSE(MeanSquaredError)均方誤差用真實(shí)值預(yù)測(cè)值,然后平方之后求和平均。線性回歸用MSE作為損失函數(shù)。MSE越小,說(shuō)明模型的預(yù)測(cè)能力越好。但是,MSE的值受到數(shù)據(jù)量的影響,因此在比較不同模型時(shí),需要使用其它指標(biāo)。7.5回歸模型的評(píng)價(jià)指標(biāo)2.RMSE(RootMeanSquaredError)均方根誤差RMSE通過(guò)在MSE上開個(gè)根號(hào)得到的,兩者實(shí)質(zhì)是一樣的,只不過(guò)用于數(shù)據(jù)更好的描述。例如:要做房?jī)r(jià)預(yù)測(cè),每平方是萬(wàn)元(真貴),預(yù)測(cè)結(jié)果也是萬(wàn)元。那么差值的平方單位應(yīng)該是千萬(wàn)級(jí)別的。這時(shí)不太好描述自己做的模型效果。此模型誤差是多少千萬(wàn),開根號(hào)后誤差的結(jié)果就跟數(shù)據(jù)是一個(gè)級(jí)別的,在描述模型的時(shí)候,模型的誤差是多少萬(wàn)元。所以RMSE的值與MSE相比更易于理解,因?yàn)樗c原始數(shù)據(jù)的單位相同,RMSE越小,說(shuō)明模型的預(yù)測(cè)能力越好。7.5回歸模型的評(píng)價(jià)指標(biāo)3.MAE(MeanAbsoluteError)平均絕對(duì)誤差平均絕對(duì)誤差是預(yù)測(cè)值與真實(shí)值之間差異的絕對(duì)值的平均值。MAE越小,說(shuō)明模型的預(yù)測(cè)能力越好。與MSE相比,MAE更加魯棒,因?yàn)樗皇墚惓V档挠绊憽?.5回歸模型的評(píng)價(jià)指標(biāo)4.R-Squared(R2,決定系數(shù))對(duì)于回歸算法而言,只探索數(shù)據(jù)預(yù)測(cè)是否準(zhǔn)確是不足夠的。除了數(shù)據(jù)本身的數(shù)值大小之外,還希望模型能夠捕捉到數(shù)據(jù)的“規(guī)律”,比如數(shù)據(jù)的分布規(guī)律,單調(diào)性等等,而是否捕獲了這些信息并無(wú)法使用MSE來(lái)衡量。如圖7-3所示,橙色線代表真實(shí)標(biāo)簽,而藍(lán)色線代表擬合模型(預(yù)測(cè)值)。這是一種比較極端,但的確可能發(fā)生的情況。7.5回歸模型的評(píng)價(jià)指標(biāo)圖7-3真實(shí)值和預(yù)測(cè)值曲線在圖7-3中,前半部分的擬合非常成功,看上去真實(shí)標(biāo)簽和預(yù)測(cè)結(jié)果幾乎重合,但后半部分的擬合非常糟糕,模型向著與真實(shí)標(biāo)簽完全相反的方向去了。7.5回歸模型的評(píng)價(jià)指標(biāo)公式?jīng)Q定系數(shù)R2是評(píng)價(jià)回歸模型擬合優(yōu)度的指標(biāo)。它表示模型解釋因變量變異的比例。7.5回歸模型的評(píng)價(jià)指標(biāo)7.6實(shí)踐-回歸分析本節(jié)采用的數(shù)據(jù)集為舊金山自2005年以來(lái)的房屋建造信息,來(lái)源于數(shù)據(jù)科學(xué)競(jìng)賽平臺(tái)kaggle:/datasets/asaniczka/housing-production-in-san-francisco-since-2005。數(shù)據(jù)集共包含20個(gè)特征和5188條數(shù)據(jù)這些特征提供了關(guān)于舊金山房屋建造的詳細(xì)信息,包括單位數(shù)量、收入水平、地理位置以及許可相關(guān)的信息。7.6實(shí)踐-回歸分析7.6.1數(shù)據(jù)的初步探析7.6.2利用一元線性回歸預(yù)測(cè)房屋完成單位數(shù)量模型7.6.3利用多元線性回歸預(yù)測(cè)房屋完成單位數(shù)量模型7.6.4利用正則化回歸預(yù)測(cè)房屋完成單位數(shù)量模型結(jié)論7.6.1數(shù)據(jù)的初步探析首先利用pandas加載數(shù)據(jù)集,并查看前5行數(shù)據(jù),利用()查看DataFrame的信息,它會(huì)顯示DataFrame的概要,包括列的名稱、每列非空值的數(shù)量、每列的數(shù)據(jù)類型以及DataFrame的總體內(nèi)存使用情況7.6實(shí)踐-回歸分析7.6.1數(shù)據(jù)的初步探析運(yùn)行結(jié)果計(jì)算每個(gè)列的缺失值數(shù)量刪除具有缺失值的特征列刪除特征后數(shù)據(jù)的相關(guān)矩陣7.6實(shí)踐-回歸分析運(yùn)行結(jié)果由運(yùn)行結(jié)果可知:此數(shù)據(jù)集共有30個(gè)屬性,5188條數(shù)據(jù),特征estimated_affordable_units為bool類型數(shù)據(jù),14個(gè)特征為整型,15個(gè)特征為對(duì)象類型,數(shù)據(jù)容量為876.6KB。7.6實(shí)踐-回歸分析計(jì)算每個(gè)列的缺失值數(shù)量由運(yùn)行結(jié)果可知,特征permit_description存在2個(gè)缺失值,特征plan_area存在3510個(gè)缺失值;特征project_affordability_type存在4512個(gè)缺失值,特征project_id存在1406個(gè)缺失值。7.6實(shí)踐-回歸分析刪除具有缺失值的特征列經(jīng)過(guò)分析上面具有缺失值的特征以及bool類型特征estimated_affordable_units對(duì)本節(jié)的數(shù)據(jù)分析無(wú)關(guān),這里將其刪除。7.6實(shí)踐-回歸分析刪除特征后數(shù)據(jù)的相關(guān)矩陣根據(jù)圖7-4可知,已完成的凈單位數(shù)(net_units_completed)與PTS數(shù)據(jù)庫(kù)中建議單位數(shù)(proposed_units_in_PTS_database)、實(shí)際建議單位數(shù)(actual_proposed_units)、凈單位數(shù)(net_units)和市場(chǎng)價(jià)單位(market_rate_units)的相關(guān)系數(shù)0.84、0.84、1和0.93,從而可見相關(guān)度很高。7.6實(shí)踐-回歸分析7.6.2利用一元線性回歸預(yù)測(cè)房屋完成單位數(shù)量模型凈單位數(shù)量(net_units)與實(shí)際完成凈單位數(shù)量(net_units_completed)相關(guān)指數(shù)最高,本節(jié)使用“net_units”作為自變量,“net_units_completed”作為因變量,構(gòu)建一元線性回歸模型。7.6實(shí)踐-回歸分析構(gòu)建一元線性回歸模型上面這些評(píng)價(jià)指標(biāo)表明模型在訓(xùn)練集和測(cè)試集上的表現(xiàn)都非常好。均方根誤差(RMSE)顯示:模型的預(yù)測(cè)誤差很??;而決定系數(shù)(R2)結(jié)果顯示:模型可以解釋目標(biāo)變量的大部分方差。測(cè)試集上的表現(xiàn)非常接近完美,這可能表明模型具有很好的泛化能力。7.6實(shí)踐-回歸分析圖7-5回歸直線由圖7-5可知,此直線擬合效果好。所以給定一個(gè)新的NetUnits值,利用此模型能夠?qū)etUnitsCompleted值進(jìn)行很好的預(yù)測(cè)。7.6實(shí)踐-回歸分析7.6.3利用多元線性回歸預(yù)測(cè)房屋完成單位數(shù)量模型本節(jié)利用7.6.1探析到數(shù)據(jù)庫(kù)中提議的單位數(shù)量(proposed_units_in_PTS_database)、實(shí)際提議的單位數(shù)量(actual_proposed_units)、凈單位數(shù)量(net_units)以及市場(chǎng)價(jià)單位數(shù)量(market_rate_units)與實(shí)際完成凈單位數(shù)量(net_units_completed)相關(guān)性較高的結(jié)論,采用單位數(shù)量(proposed_units_in_PTS_database)、實(shí)際提議的單位數(shù)量(actual_proposed_units)、凈單位數(shù)量(net_units)以及市場(chǎng)價(jià)單位數(shù)量(market_rate_units)作為自變量,實(shí)際完成的凈單位數(shù)量(net_units_completed)做目標(biāo)變量構(gòu)建多元線性回歸模型。7.6實(shí)踐-回歸分析7.6.4利用正則化回歸預(yù)測(cè)房屋完成單位數(shù)量模型本節(jié)依然采用單位數(shù)量、實(shí)際提議的單位數(shù)量以及凈單位數(shù)量作為自變量,實(shí)際完成的凈單位數(shù)量做目標(biāo)變量,利用三種正則化回歸構(gòu)建房屋完成單位數(shù)量的預(yù)測(cè)模型。7.6實(shí)踐-回歸分析模型比較通過(guò)與7.6.2節(jié)的一元線性回歸模型、7.6.3節(jié)的多元線性回歸的指標(biāo)進(jìn)行對(duì)比,LASSO回歸模型最好。7.6實(shí)踐-回歸分析結(jié)論使用舊金山自2005年以來(lái)的房屋建造信息的數(shù)據(jù)集進(jìn)行房屋回歸分析,具有多重價(jià)值體現(xiàn)。首先,通過(guò)建立回歸模型,可以預(yù)測(cè)未來(lái)舊金山地區(qū)的房屋建造數(shù)量和類型,為城市規(guī)劃和房地產(chǎn)開發(fā)提供重要參考。其次,回歸分析有助于了解市場(chǎng)趨勢(shì)和需求變化,為房地產(chǎn)行業(yè)的投資和決策提供依據(jù)。此外,通過(guò)評(píng)估政策影響,可以指導(dǎo)政府制定和調(diào)整房地產(chǎn)政策,促進(jìn)市場(chǎng)穩(wěn)定和可持續(xù)發(fā)展。同時(shí),回歸分析還能優(yōu)化資源配置,提高生產(chǎn)效率和盈利能力,以及幫助各方更好地管理市場(chǎng)風(fēng)險(xiǎn)。綜上所述,這些價(jià)值體現(xiàn)使得使用該數(shù)據(jù)集進(jìn)行房屋回歸分析成為了理解房地產(chǎn)市場(chǎng)、優(yōu)化決策和推動(dòng)城市發(fā)展的重要工具。7.6實(shí)踐-回

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論