分類問題和回歸問題_第1頁
分類問題和回歸問題_第2頁
分類問題和回歸問題_第3頁
分類問題和回歸問題_第4頁
分類問題和回歸問題_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

分類問題和回歸問題一、回歸問題和分類問題的區(qū)別區(qū)別簡單概括為上圖,具體舉例如下:機器學習的思想和教小孩一樣,拿識物卡片給她,告訴她這是貓、這是狗、這是蘋果...,下次遇到真貓真狗的時候你問她這是啥,如果她準確說出這是貓還是狗還是蘋果,那么這個小孩訓練成功了。那么機器學習就是把機器當小孩,給它一些歷史數(shù)據(jù),告訴機器,這些數(shù)據(jù)是什么,然后再給它一些新數(shù)據(jù),讓它告訴你新數(shù)據(jù)是什么。你給它數(shù)據(jù)并且教它的過程就是訓練過程,它告訴你新數(shù)據(jù)是什么的過程是測試過程。好的機器學習模型要求測試集和訓練集數(shù)據(jù)表征不同、本質(zhì)相同,希望模型在沒見過的數(shù)據(jù)上有良好的表現(xiàn)。分類問題:輸入數(shù)據(jù)后輸出為數(shù)據(jù)所代表的類別,例如水果分類器,輸入一個蘋果它能告訴你這是蘋果(歸到蘋果這一類),輸入一個香蕉它告訴你這是香蕉(歸到蘋果這一類),使用分類準確率來度量分類模型的好壞。(準確率=分類正確的樣本數(shù)/測試集的樣本數(shù))回歸問題:輸入數(shù)據(jù)后輸出為預測值,例如房價走勢曲線擬合問題(房價隨房子面積變化的曲線),輸入一個房子面積,它能告訴你這個面積的房子價格,使用均方誤差(MeanSquareError,MSE)來度量回歸模型的好壞,。二、回歸問題和分類問題相互轉(zhuǎn)化有些問題只能是分類問題,例如類別標簽具有平行屬性的問題:水果分類(蘋果、香蕉、石榴……),疾病診斷(心臟病、外傷、心理疾病、肺病……)有些問題只能是回歸問題,例如沒有明確的類別的問題:股票價格走勢擬合(股票價格隨時間變化的曲線)有些問題可以相互轉(zhuǎn)化,例如類別標簽具有連續(xù)屬性、程度屬性(即類別標簽取值連續(xù))的問題:酒店星級、產(chǎn)品等級、隨面積增大逐漸增加的房價、情感由強到弱等問題(可以將類別范圍表示成一個連續(xù)的數(shù)字范圍)理論上到底如何將這兩類問題轉(zhuǎn)化呢?①回歸問題轉(zhuǎn)化為分類問題:以房價回歸模型為例,假設(shè)分類精度為

,我們將某個范圍內(nèi)的面積作為輸入[50,200]平方米,得到對應面積的房價[50w,500w],將[50,500]分成m份,每份的大小為

,此時,就將回歸問題轉(zhuǎn)為為了分類問題(在訓練過程完成轉(zhuǎn)化),在測試階段,給定一個面積,預測出一個房價(本質(zhì)還是預測),當這個價格位于第i份時,就說這個房子屬于第i類①分類問題轉(zhuǎn)化為回歸問題:例如情感分類問題,情感的強弱不是離散值,而是連續(xù)的,因為大喜大悲的情況概率極小,所以我們可以將情感類別用數(shù)字區(qū)間表示,不同的區(qū)間代表不同的類,使用回歸的方法完成情感分類,具體實現(xiàn)細節(jié)和上例類似不學了,睡覺,明早健身。分類與回歸分類預測建模問題不同于回歸預測建模問題。分類是預測離散類標簽的任務?;貧w是預測連續(xù)數(shù)量的任務。分類和回歸算法之間存在一些重疊;例如:分類算法可以預測一個連續(xù)值,但連續(xù)值的形式是類別標簽的概率?;貧w算法可以預測一個離散值,但離散值以整數(shù)形式存在。一些算法經(jīng)過小的修改即可用于分類和回歸,例如決策樹和人工神經(jīng)網(wǎng)絡(luò)。某些算法不能或不能輕松用于這兩種問題類型,例如用于回歸預測建模的線性回歸和用于分類預測建模的邏輯回歸。重要的是,我們評估分類和回歸預測的方式各不相同并且不會重疊,例如:分類預測可以使用準確性進行評估,而回歸預測則不能。回歸預測可以使用均方根誤差進行評估,而分類預測則不能。要弄清楚分類與回歸的區(qū)別,先要了解分類和回歸的關(guān)系。結(jié)合《白話機器學習的數(shù)學》,通過具體案例,和大家一起捋一下。首先,分類和回歸同屬于監(jiān)督學習需要完成的任務。分類與回歸最主要的區(qū)別是輸出變量的類型:連續(xù)變量的預測叫回歸,離散變量的預測是分類。回歸的主要作用是了解兩個或多個變量之間是否相關(guān),相關(guān)的方向,相關(guān)的強度,并利用數(shù)學模型以便觀察特定變量來預測研究者感興趣的變量。分類模型是將回歸模型輸出離散化,分類和回歸模型之間存在重要差異。根本上來說分類是關(guān)于預測標簽,而回歸是關(guān)于預測數(shù)量。我們通過案例來對比一下不同。?「回歸」案例:知乎鹽值是怎么來的?知乎社區(qū)將所有用戶在知乎產(chǎn)生的認真、專業(yè)的分享,看作知識海洋析出來的智慧之鹽,鹽值就是大家在知乎這片鹽海里面的價值。鹽值最終呈現(xiàn)的形式是分數(shù),個人號0—1000分(機構(gòu)號0-1200分),不同的分段有不同的權(quán)利和待遇,而且還會直接影響到內(nèi)容推薦系統(tǒng)(答案排名和流通)和賬號賦權(quán)系統(tǒng)(賬號權(quán)重),分數(shù)越高代表賬號權(quán)重越高。以知乎個人號舉例,影響知乎個人號鹽值的因素包括「基礎(chǔ)信用」、「內(nèi)容創(chuàng)作」、「友善互動」、「遵守規(guī)范」和「社區(qū)建設(shè)」這五個維度,如下所示。而鹽值的發(fā)明過程就是監(jiān)督學習的回歸,具體步驟如下:構(gòu)建問題選擇模型首先找出鹽值的影響因素——基礎(chǔ)信用、內(nèi)容創(chuàng)作指數(shù)等?;A(chǔ)信用分數(shù)是知乎根據(jù)用戶站內(nèi)的賬號行為(個人信息完善程度、個人賬戶歷史處罰情況)等進行數(shù)據(jù)歸納和賦權(quán)計算,從而評估出來的分數(shù)。內(nèi)容創(chuàng)作指數(shù)是根據(jù)每個用戶在站內(nèi)發(fā)布的內(nèi)容進行評估,再通過發(fā)布內(nèi)容后獲取的贊同反對、評論、收藏等行為進行賦權(quán)計算得到的綜合評分。例如:在垂直領(lǐng)域持續(xù)創(chuàng)作內(nèi)容,會對你的內(nèi)容進行優(yōu)先排序和推薦;內(nèi)容中盡量使用客觀描述,內(nèi)容詳實,避免存在煽動情緒等言論;內(nèi)容嚴肅有深度、積極向上,能對其他知友產(chǎn)生知識沉淀和幫助;獲得贊同、感謝、收藏,會提升內(nèi)容創(chuàng)作指數(shù);根據(jù)影響用戶在平臺價值的因素,平臺就可以構(gòu)建一個簡單的模型。這個模型可以理解為一個特定的公式,這個公式可以將這些因素和每個賬戶的鹽值相關(guān)聯(lián)。收集已知數(shù)據(jù)為了找出這個公式,我們需要先收集大量的已知數(shù)據(jù)(包括「基礎(chǔ)信用」、「內(nèi)容創(chuàng)作」、「友善互動」、「遵守規(guī)范」和「社區(qū)建設(shè)」這五個維度)和他/她的知乎鹽值(把知乎鹽值轉(zhuǎn)化為分數(shù))。我們把數(shù)據(jù)分成幾個部分,一部分用來訓練,一部分用來測試和驗證。訓練出理想模型有了這些數(shù)據(jù),我們通過機器學習,就能”猜測”出這五種數(shù)據(jù)和鹽值分數(shù)的關(guān)系。這個關(guān)系就是我們想要找到的公式。然后我們再用驗證數(shù)據(jù)和測試數(shù)據(jù)來驗證一下這個公式是否OK。測試驗證的具體方法是:將幾種數(shù)據(jù)套入公式,計算出鹽值分;用計算出來的鹽值跟這個賬號實際的鹽值(預先準備好的)進行比較;評估公式的準確度,如果差別很大再進行調(diào)整優(yōu)化。對新用戶進行預測當我們想預測一個新用戶的鹽值分數(shù)時,只需要收集到他的這五種數(shù)據(jù),套進公式計算一遍就知道結(jié)果了!?「分類」案例:如何預測離婚美國心理學家戈特曼博士曾用大數(shù)據(jù)還原過婚姻關(guān)系的真相,他的方法就是分類的思路。戈特曼博士在觀察和聆聽一對夫妻5分鐘的談話后,便能預測他們是否會離婚,且預測準確率高達94%!我們一起來看一下步驟:構(gòu)建問題,選擇模型戈特曼提出,對話能反映出夫妻之間潛在的問題,他們在對話中的爭吵、歡笑、調(diào)侃和情感表露創(chuàng)造了某種情感關(guān)聯(lián)。通過這些對話中的情緒關(guān)聯(lián)可以將夫妻分為不同的類型,代表不同的離婚概率。收集已知數(shù)據(jù)研究人員邀請了700對夫妻參與實驗。他們單獨在一間屋子里相對坐下,然后談論一個有爭論的話題,比如金錢和性,或是與姻親的關(guān)系。默里和戈特曼讓每一對夫妻持續(xù)談論這個話題15分鐘,并拍攝下這個過程。觀察者看完這些視頻之后,就根據(jù)丈夫和妻子之間的談話給他們打分。訓練出理想模型戈特曼的方法并不是用機器學習來得到結(jié)果,不過原理都是類似的。他得到的結(jié)論如下:首先,他們將夫妻雙方的分數(shù)標繪在一個圖表上,兩條線的交叉點就可以說明婚姻能否長久穩(wěn)定。如果丈夫或妻子持續(xù)得負分,兩人很可能會走向離婚。重點在于定量談話中正負作用的比率。理想中的比率是5∶1,如果低于這個比例,婚姻就遇到問題了。最后,將結(jié)果放在一個數(shù)學模型上,這個模型用差分方程式凸顯出成功婚姻的潛在特點。戈特曼根據(jù)得分,將這些夫妻分成5組:幸福的夫妻:冷靜、親密、相互扶持、關(guān)系友好。他們更喜歡分享經(jīng)驗。無效的夫妻:他們盡最大努力避免沖突,只是通過積極回應對方的方式。多變的夫妻:他們浪漫而熱情,可爭論異常激烈。他們時而穩(wěn)定時而不穩(wěn)定,可總的來說不怎么幸福。敵對的夫妻:一方不想談論某件事,另一方也同意,所以,兩者之間沒有交流。彼此無感的夫妻:一方興致勃勃地想要爭論一番,可另一方對討論的話題根本不感興趣。該數(shù)學模型呈現(xiàn)了穩(wěn)定型夫妻和不穩(wěn)定型夫妻(敵對夫妻和無感夫妻)之間的區(qū)別。而據(jù)預測,不穩(wěn)定的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論