




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
6.8習(xí)題什么是關(guān)聯(lián)分析?請(qǐng)用一個(gè)具體的例子解釋關(guān)聯(lián)分析的概念。答:關(guān)聯(lián)規(guī)則分析又稱關(guān)聯(lián)挖掘,也可簡(jiǎn)稱為關(guān)聯(lián)分析,就是基于大量的交易數(shù)據(jù)、關(guān)系數(shù)據(jù)或其它信息載體,查找存在于項(xiàng)目集合或?qū)ο蠹现g的頻繁項(xiàng)集、關(guān)聯(lián)、相關(guān)性或因果結(jié)構(gòu)。關(guān)聯(lián)分析是一種簡(jiǎn)單、實(shí)用的分析技術(shù),就是發(fā)現(xiàn)存在于大量數(shù)據(jù)集中的關(guān)聯(lián)性或相關(guān)性,從而描述了一個(gè)事物中某些屬性同時(shí)出現(xiàn)的規(guī)律和模式。例如:通過分析用戶在網(wǎng)站上的瀏覽行為,如某些用戶在瀏覽了特定頁(yè)面A之后會(huì)接著瀏覽頁(yè)面B,而另一些用戶則會(huì)轉(zhuǎn)而瀏覽頁(yè)面C,這樣可以發(fā)現(xiàn)不同頁(yè)面之間的關(guān)聯(lián)關(guān)系,從而了解用戶的行為模式和偏好。這些關(guān)聯(lián)規(guī)則可以幫助網(wǎng)站優(yōu)化頁(yè)面布局和內(nèi)容推薦,提升用戶的瀏覽體驗(yàn)和網(wǎng)站的用戶留存率。通過挖掘用戶瀏覽行為中的關(guān)聯(lián)規(guī)律,網(wǎng)站可以更加精準(zhǔn)地為用戶提供感興趣的內(nèi)容,增強(qiáng)用戶黏性,從而提高網(wǎng)站的用戶參與度和長(zhǎng)期用戶留存率。請(qǐng)解釋Apriori算法的基本原理,并說明如何挖掘頻繁項(xiàng)集。答:Apriori算法的基本原理如下:Apriori算法采用的是逐層搜索的迭代方法,其中k項(xiàng)集用于探索(k+1)項(xiàng)集。首先通過掃描數(shù)據(jù)庫(kù),累計(jì)每個(gè)項(xiàng)的計(jì)數(shù),并收集滿足最小支持度的項(xiàng),找出頻繁1項(xiàng)集的集合。該項(xiàng)集記為L(zhǎng)1。然后,使用L1找出頻繁2項(xiàng)集的集合L2,使用L2找出L3,如此下去,直到不能再找到頻繁k項(xiàng)集。挖掘頻繁項(xiàng)集的步驟如下:1.首先要設(shè)置最小支持度閾值min_sup,生成頻繁k-項(xiàng)集時(shí)過濾低支持度的項(xiàng)(項(xiàng)集)。2.從數(shù)據(jù)庫(kù)中讀取所有事務(wù),把數(shù)據(jù)中單獨(dú)的每個(gè)項(xiàng)獲取到,不能重復(fù),即生成候選1-項(xiàng)集C1。3.計(jì)算出每一項(xiàng)的支持度,與預(yù)先設(shè)置的min_sup閾值進(jìn)行比較,若某項(xiàng)的支持度大于等于min_sup,將其保留,生成頻繁1-項(xiàng)集L1;小于min_sup的項(xiàng)則被過濾掉。因?yàn)橄闰?yàn)原理保證所有非頻繁的1-項(xiàng)集的超集都是非頻繁的。4.使用獲取到的頻繁1-項(xiàng)集L1,將它們之間進(jìn)行兩兩組合,生成候選2-項(xiàng)集C2。5.再計(jì)算每個(gè)候選2-項(xiàng)集C2的最小支持度,與設(shè)定的min_sup進(jìn)行比較,生成頻繁2-項(xiàng)集L2。6.通過頻繁2-項(xiàng)集L2,將它們兩兩組合,生成候選3-項(xiàng)集C3。7.計(jì)算每個(gè)候選3-項(xiàng)集C3的支持度,與設(shè)定的min_sup進(jìn)行比較,生成頻繁3-項(xiàng)集L3。8.依此類推,直到不再產(chǎn)生新的候選項(xiàng)集為止,得到最終的頻繁k-項(xiàng)集Lk。在此算法中要不斷地重復(fù)兩個(gè)步驟:連接和剪枝。詳細(xì)解釋FP-growth算法的工作原理以及它如何利用FP樹來挖掘頻繁項(xiàng)集。答:構(gòu)建FP樹:1)掃描數(shù)據(jù)集:首先,對(duì)事務(wù)數(shù)據(jù)庫(kù)進(jìn)行一次掃描,計(jì)算每個(gè)項(xiàng)的頻率(支持度),并篩選出所有頻繁項(xiàng)集(滿足最小支持度閾值的項(xiàng))。2)排序頻繁項(xiàng):根據(jù)頻率對(duì)頻繁項(xiàng)進(jìn)行排序,頻率高的項(xiàng)排在前面。3)構(gòu)建FP樹:再次掃描事務(wù)數(shù)據(jù)庫(kù),利用篩選出的頻繁項(xiàng)構(gòu)建FP樹。對(duì)于每個(gè)事務(wù):僅保留頻繁項(xiàng),并根據(jù)頻繁項(xiàng)的排序順序重新排列。4)將事務(wù)插入FP樹。如果樹中已存在相同路徑,則只需增加路徑上對(duì)應(yīng)節(jié)點(diǎn)的計(jì)數(shù)值;如果路徑不存在,則創(chuàng)建新節(jié)點(diǎn)。挖掘頻繁項(xiàng)集:1)條件模式基:對(duì)于FP樹中的每個(gè)頻繁項(xiàng),從底向上遍歷構(gòu)建條件模式基(ConditionalPatternBase),它是與某個(gè)頻繁項(xiàng)相關(guān)的所有路徑的集合。2)構(gòu)建條件FP樹:通過條件模式基構(gòu)建條件FP樹。這樣可以將原始數(shù)據(jù)集的復(fù)雜性降低到與某個(gè)頻繁項(xiàng)相關(guān)的子集上。3)遞歸挖掘:對(duì)每個(gè)條件FP樹遞歸應(yīng)用FP-growth算法,找到其頻繁項(xiàng)集。通過這種方式,可以高效挖掘出所有頻繁項(xiàng)集。4.介紹Eclat算法,并說明它如何使用垂直數(shù)據(jù)格式挖掘頻繁項(xiàng)集。答:Eclat算法主要應(yīng)用項(xiàng)集-TID格式(即itemset:TID)來表示,其中item是項(xiàng)的名稱,而TID_set是包含item的事務(wù)標(biāo)識(shí)符的集合。這種數(shù)據(jù)格式稱為垂直數(shù)據(jù)格式(verticaldataformat)。首先對(duì)數(shù)據(jù)集進(jìn)行一次掃描,把水平的數(shù)據(jù)格式轉(zhuǎn)換為垂直的數(shù)據(jù)格式。令項(xiàng)集的支持度計(jì)數(shù)等于TID集的長(zhǎng)度,根據(jù)先驗(yàn)性質(zhì),對(duì)頻繁k項(xiàng)集求交集,形成候選k+1項(xiàng)集,對(duì)候選k+1項(xiàng)集做裁剪,形成頻繁k+1項(xiàng)集。不斷重復(fù)上述過程,每次k增加1,直到無(wú)法生成頻繁項(xiàng)集或候選頻繁項(xiàng)集。討論關(guān)聯(lián)規(guī)則評(píng)估指標(biāo)的作用,并列舉常用的評(píng)估指標(biāo)。答:支持度反映了A和B中所含的項(xiàng)在事務(wù)數(shù)據(jù)庫(kù)中同時(shí)出現(xiàn)的頻率;置信度是事務(wù)數(shù)據(jù)庫(kù)中包含A和B的事務(wù)數(shù)與所有包含A的事務(wù)數(shù)之比;置信度衡量了規(guī)則的可靠性,即在滿足前提條件的情況下,結(jié)論成立的可能性。高置信度表示規(guī)則在前提條件成立時(shí),結(jié)論也很可能成立。提升度是指規(guī)則AB的置信度與B的支持度的比值。衡量了規(guī)則中兩個(gè)項(xiàng)之間的關(guān)聯(lián)程度,即一個(gè)項(xiàng)的出現(xiàn)影響另一個(gè)項(xiàng)的程度,提升度可以幫助確定兩個(gè)項(xiàng)之間是否存在真正的關(guān)聯(lián)性,以及這種關(guān)聯(lián)性的程度有多大。杠桿率(Leverage)用于衡量關(guān)聯(lián)規(guī)則中項(xiàng)集之間的獨(dú)立性程度。它通過比較項(xiàng)集A和項(xiàng)集B的同時(shí)出現(xiàn)頻率與在它們獨(dú)立情況下的期望頻率之間的差異來評(píng)估它們之間的關(guān)聯(lián)性。確信度(Conviction)是用于衡量關(guān)聯(lián)規(guī)則中項(xiàng)集A和項(xiàng)集B之間的依賴性程度的指標(biāo)。它描述了在規(guī)則AB成立的情況下,B的發(fā)生與A的發(fā)生之間的關(guān)系。具體地說,確信度計(jì)算的是,當(dāng)A發(fā)生時(shí),B發(fā)生的概率比B獨(dú)立發(fā)生的概率增加了多少倍。6.某商場(chǎng)的交易訂單數(shù)據(jù)如下,見表6-12,請(qǐng)根據(jù)數(shù)據(jù)以及最小支持度閾值為50%,計(jì)算出{啤酒,尿布}項(xiàng)集的支持度,{咖啡橙汁}的置信度,{咖啡橙汁}的提升度,并求出最大的頻繁項(xiàng)集。表6-12某商場(chǎng)的交易訂單單號(hào)商品T100豆奶,橙汁T200咖啡,尿布,啤酒,面包T300豆奶,尿布,啤酒,橙汁T400咖啡,豆奶,尿布,啤酒T500面包,咖啡,尿布,橙汁答:(1){啤酒,尿布}項(xiàng)集的支持度:支持度是事務(wù)數(shù)據(jù)庫(kù)中同時(shí)包含A和B的事務(wù)數(shù)與所有事務(wù)數(shù)之比,項(xiàng)集{啤酒,尿布}的頻次為3,即count{啤酒,尿布}=3,事務(wù)數(shù)總數(shù)為5,所以support({啤酒,尿布})=3/5=0.6{咖啡橙汁}的置信度:置信度是事務(wù)數(shù)據(jù)庫(kù)中包含A和B的事務(wù)數(shù)與所有包含A的事務(wù)數(shù)之比。置信度公式為Confidence({咖啡橙汁})=1/3{咖啡橙汁}的提升度提升度的公式為:所以lift(咖啡橙汁)=Confidence({咖啡橙汁})/support(B)=(1/3)/(3/5)=5/9最大頻繁項(xiàng)集計(jì)算單項(xiàng)集的支持度:項(xiàng)集事務(wù)次數(shù)支持度{豆奶}T100,T30020.4{橙汁}T100,T300,T50030.6{咖啡}T200,T400,T50030.6{尿布}T200,T300,T400,T50040.8{啤酒}T200,T300,T40030.6{面包}T200,T50020.4根據(jù)給定的最小支持度閾值為50%,{橙汁}、{咖啡}、{尿布}、{啤酒}都為頻繁1-項(xiàng)集。根據(jù)頻繁1-項(xiàng)集生成候選二項(xiàng)集,如下:項(xiàng)集事務(wù)次數(shù)支持度{橙汁、咖啡}T50010.2{橙汁、尿布}T300,T50020.4{橙汁、啤酒}T30010.2{咖啡、尿布}T200,T400,T50030.6{咖啡、啤酒}T20010.2{尿布、啤酒}T200,T300,T40030.6根據(jù)給定的最小支持度閾值為50%,{咖啡、尿布},{尿布、啤酒}都為頻繁2_項(xiàng)集。根據(jù)頻繁2_項(xiàng)集,生成候選3_項(xiàng)集,結(jié)果如下:項(xiàng)集事務(wù)次數(shù)支持度{咖啡、尿布、啤酒}T200,T40020.4根據(jù)給定的最小支持度閾值為50%,候選3_項(xiàng)集中沒有頻繁3_項(xiàng)集。所以存在4個(gè)頻繁1-項(xiàng)集{橙汁}、{咖啡}、{尿布}、{啤酒},2個(gè)頻繁2_項(xiàng)集{咖啡、尿布},{尿布、啤酒},{尿布}項(xiàng)集的支持度為0.8,所以最大頻繁項(xiàng)集為{尿布}。7.已知有6個(gè)事務(wù),見表6-13。設(shè)最小支持度計(jì)數(shù)為2,用Eclat算法畫出挖掘頻繁項(xiàng)集的過程并寫出最終的頻繁項(xiàng)集。表6-13事務(wù)集信息事務(wù)集項(xiàng)集T100{A,B,E}T200{A,B,C}T300{C,E}T400{A,B,C,D}T500{A,C,D,E}T600{C,D,E}答:根據(jù)事務(wù)集信息構(gòu)建項(xiàng)集的事務(wù)ID列表,并計(jì)算支持度計(jì)數(shù),如下:項(xiàng)集事務(wù)集-ID計(jì)數(shù)A{T100,T200,T400,T500}4B{T100,T200,T400}3C{T200,T300,T400,T500,T600}5D{T400,T500,T600}3E{T100,T300,T500,T600}4由于最小支持度計(jì)數(shù)為2,頻繁項(xiàng)集(單項(xiàng)集)為:{A}、{B}、{C}、{D}、{E}。計(jì)算所有頻繁項(xiàng)集的兩兩組合的支持度。項(xiàng)集事務(wù)集-ID計(jì)數(shù){A,B}{T100,T200,T400}3{A,C}{T200,T400,T500}3{A,D}{T400,T500}2{A,E}{T100,T500}2{B,C}{T200,T400}2{B,D}{T400}1{B,E}{T100}1{C,D}{T500,T600}2{C,E}{T300,T500}2{D,E}{T500,T600}2根據(jù)最小支持度為2,所以頻繁2_項(xiàng)集為{A,B}、{A,C}、{A,D}、{A,E}、{B,C}、{C,D}、{C,E}和{D,E}。根據(jù)頻繁2_項(xiàng)集得到候選3_項(xiàng)集,結(jié)果如下:項(xiàng)集事務(wù)集-ID計(jì)數(shù){A,B,C}{T200,T400}2{A,B,D}{T400}1{A,B,E}{T100}1{A,C,D}{T400,T500}2{A,C,E}{T500}1{A,D,E}{T500}1{B,C,D}{T400}1{B,C,E}{T100}1{B,D,E}{T100}1{C,D,E}{T500,T600}2根據(jù)最小支持度計(jì)數(shù)為2,得到頻繁3_項(xiàng)集為{A,B,C}、{A,C,D}和{C,D,E}。綜合以上結(jié)果,可以得到所有滿足最小支持度計(jì)數(shù)(≥2)的頻繁項(xiàng)集:頻繁1_項(xiàng)集:{A},{B},{C},{D},{E}頻繁2_集:{A,B},{A,C},{A,D},{A,E},{B,C},{C,D},{C,E},{D,E}頻繁3_集:{A,B,C},{A,C,D},{C,D,E}7.8習(xí)題什么是回歸分析?并說明回歸分析的步驟。答:回歸分析是一種統(tǒng)計(jì)方法,用于研究?jī)蓚€(gè)或多個(gè)變量之間的關(guān)系。在回歸分析中,通常將一個(gè)或多個(gè)自變量(解釋變量)與一個(gè)因變量(響應(yīng)變量)進(jìn)行關(guān)聯(lián),以了解自變量對(duì)因變量的影響程度和方向。通過建立數(shù)學(xué)模型描述二者之間的關(guān)系,回歸分析提供了預(yù)測(cè)、推斷和解釋的能力?;貧w分析步驟如下:1.數(shù)據(jù)收集收集包括自變量和因變量的數(shù)據(jù)樣本,確保數(shù)據(jù)的質(zhì)量和完整性。2.數(shù)據(jù)清洗和探索性分析處理缺失值、異常值,進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化、特征縮放等預(yù)處理步驟。通過可視化和統(tǒng)計(jì)方法探索數(shù)據(jù)特征和變量之間的關(guān)系。3.特征工程選擇合適的特征、進(jìn)行特征變換和特征選擇,以提高模型的性能和泛化能力。4.拆分?jǐn)?shù)據(jù)集將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,通常采用交叉驗(yàn)證方法來避免過擬合。5.選擇回歸模型根據(jù)數(shù)據(jù)特點(diǎn)和問題需求選擇合適的回歸模型,如線性回歸、嶺回歸、Lasso回歸等。6.模型訓(xùn)練使用訓(xùn)練集對(duì)選擇的回歸模型進(jìn)行訓(xùn)練,擬合數(shù)據(jù),估計(jì)模型參數(shù)。7.模型評(píng)估使用測(cè)試集評(píng)估模型的性能,考慮指標(biāo)如均方誤差(MSE)、均方根誤差(RMSE)、決定系數(shù)(R-squared)等。8.調(diào)參優(yōu)化根據(jù)評(píng)估結(jié)果對(duì)模型進(jìn)行調(diào)參優(yōu)化,如調(diào)整正則化參數(shù)、特征選擇等,以提高模型的泛化能力和預(yù)測(cè)準(zhǔn)確性。9.模型解釋和分析解釋模型參數(shù)的含義和影響,分析各個(gè)特征對(duì)因變量的貢獻(xiàn)程度和方向,得出結(jié)論并提出洞察。10.模型部署和監(jiān)測(cè)將訓(xùn)練好的模型部署到實(shí)際應(yīng)用中,持續(xù)監(jiān)測(cè)模型性能,反饋結(jié)果用于進(jìn)一步優(yōu)化模型。通過以上詳細(xì)步驟,可以系統(tǒng)地進(jìn)行回歸分析,構(gòu)建準(zhǔn)確可靠的預(yù)測(cè)模型,并深入理解變量之間的關(guān)系,為決策和預(yù)測(cè)提供有效支持。解釋一元線性回歸模型的基本原理,并說明參數(shù)w和b的推導(dǎo)過程。答:一元線性回歸是用于研究一個(gè)自變量和一個(gè)因變量之間的線性關(guān)系,其定義見式(7-1)。y=f(x)=wx+b(7-1)其中,y是因變量(目標(biāo)變量)的值;x是自變量(解釋變量)的值;b是截距(模型在(x=0)時(shí)的值),w是斜率(自變量(x)對(duì)因變量(y)的影響程度,即權(quán)重)。建立一元線性回歸模型的過程實(shí)質(zhì)是學(xué)習(xí)公式7-1中的w和b,找到最佳的擬合直線的過程,從而使得建立的模型能夠描述解釋變量和目標(biāo)變量之間的關(guān)系,對(duì)未見過的解釋變量進(jìn)行預(yù)測(cè)。一元線性回歸損失函數(shù)如式(7-2)所示。(7-2)(7-2)由于損失函數(shù)L(w,b)是凸函數(shù),根據(jù)凸函數(shù)的充分性定理,可以分別對(duì)L(w,b)求關(guān)于w和b的偏導(dǎo)數(shù)。將偏導(dǎo)數(shù)設(shè)置為0,可以得到最優(yōu)參數(shù)w和b的值,這樣能夠保證L(w,b)的值全局最小,即損失最小,此時(shí)的w,b也是要得到的最優(yōu)參數(shù)值。以上過程為最小二乘法求參數(shù)w和b的過程,推導(dǎo)過程如式(7-3)所示。(7-3)令式(7-3)推導(dǎo)的最終結(jié)果為0,通過計(jì)算可解得b的值如式(7-4)所示。(7-4)為了方便后續(xù)求解w,在此對(duì)b進(jìn)行化簡(jiǎn),對(duì)應(yīng)的b值求解如式(7-5)所示。(7-5)對(duì)w求偏導(dǎo)的推導(dǎo)過程如式(7-6)所示(7-6)令式(7-6)推導(dǎo)的最終結(jié)果為0,通過計(jì)算可解得w的值如式(7-7)所示。(7-7)把帶入上式的推導(dǎo)過程如式(7-8)所示。(7-8)式(7-8)的整個(gè)推導(dǎo)過程如式(7-9)所示。(7-9)其中,式(7-9)滿足式(7-10)的條件。(7-10)最終w的值可以通過式(7-11)求解得出。(7-11)根據(jù)求出的w和b,可以對(duì)新的樣本進(jìn)行預(yù)測(cè)。多元線性回歸模型和參數(shù)求解的具體步驟是什么?如何使用代碼實(shí)現(xiàn)參數(shù)W的求解?答:假設(shè)給定m個(gè)樣本d個(gè)特征的數(shù)據(jù)集表示為,其中,yi∈R。多元線性回歸模型為f(xi)=w1xi(1)+w2xi(2)+...+wdxi(d)+b=wTx+b,轉(zhuǎn)換為矩陣相乘的形式y(tǒng)=f(X)=XW+b,其中,y是m行1列的矩陣,X為m行d列的矩陣;W為d行1列的矩陣,b為m行1列的矩陣。多元線性回歸的損失函數(shù)為:(7-14)對(duì)式子(7-14)進(jìn)行求偏導(dǎo)且令等于0求解W,如式(7-15)所示。(7-15)令上式為零可得最優(yōu)解的閉式解,但涉及矩陣逆的計(jì)算,需做討論。1)若XTX滿秩或W正定,則。2)若XTX不滿秩,則可解出多個(gè)W,需要引入模型的歸納偏好或者正則化,可理解為加約束。當(dāng)屬性特征數(shù)量為2時(shí),擬合的函數(shù)就是一個(gè)平面。當(dāng)屬性特征數(shù)量超過2時(shí),擬合的函數(shù)是一個(gè)超平面,無(wú)法用三維坐標(biāo)系表示。解釋嶺回歸、LASSO回歸和彈性網(wǎng)絡(luò)等正則化回歸方法的基本原理。嶺回歸通過在損失函數(shù)中添加參數(shù)平方和的懲罰項(xiàng),來限制模型參數(shù)的增長(zhǎng)。嶺回歸的損失函數(shù)可以表示為式(7-15)。(7-15)其中,是正則化參數(shù),p代表特征的數(shù)量,wj是模型的參數(shù)。通過調(diào)整的值,增大或減小,就可以收縮或放大模型的權(quán)重,控制正則化的強(qiáng)度。但受懲罰的權(quán)重會(huì)接近于0但不會(huì)為0,這也是正則化應(yīng)用于回歸模型的一個(gè)特點(diǎn)。最小絕對(duì)收縮與選擇算子(LASSO回歸)(7-16)LASSO回歸(LeastAbsoluteShrinkageandSelectionOperatorRegression)在損失函數(shù)中使用參數(shù)的絕對(duì)值之和作為懲罰項(xiàng)。LASSO回歸的損失函數(shù)可以表示為式(7-16)。(7-16)其中,是正則化參數(shù),p代表特征的數(shù)量,wj是模型的參數(shù)。增大或縮小,可以收縮或放大模型的權(quán)重。Lasso回歸傾向于產(chǎn)生稀疏系數(shù),會(huì)導(dǎo)致w向量中的某些參數(shù)為0,當(dāng)某一個(gè)參數(shù)為0時(shí),其對(duì)應(yīng)的特征項(xiàng)也就為0,相當(dāng)于丟棄了一個(gè)變量(特征),使得模型的復(fù)雜度下降,達(dá)到了避免過擬合的效果。因此最小絕對(duì)收縮與選擇算子(LASSO)有選擇變量的能力。彈性網(wǎng)絡(luò)彈性網(wǎng)絡(luò)(ElasticNet)的損失函數(shù)中同時(shí)包含嶺回歸和LASSO回歸中的正則化項(xiàng),其定義如式(7-17)所示。(7-17)彈性網(wǎng)絡(luò)是嶺回歸和LASSO回歸的一個(gè)折中模型,LASSO中的正則化項(xiàng)傾向于產(chǎn)生稀疏系數(shù),使得模型有選擇變量的能力;嶺回歸中的正則化項(xiàng)可以克服LASSO的一些限制,例如可以克服選擇變量個(gè)數(shù)的限制。說明回歸模型的評(píng)價(jià)指標(biāo)的作用,并列舉常用的評(píng)價(jià)指標(biāo)?;貧w算法的評(píng)價(jià)指標(biāo)為均方誤差MSE(MeanSquaredError)、均方根誤差RMSE(RootMeanSquaredError)、平均絕對(duì)誤差MAE(MeanAbsoluteError)、決定系數(shù)R2(R-Squared),從是否預(yù)測(cè)到了正確的值角度,用評(píng)價(jià)指標(biāo)MSE、RMSE和MAE來對(duì)模型進(jìn)行評(píng)價(jià);從是否擬合了足夠信息的角度,用評(píng)價(jià)指標(biāo)R2來對(duì)模型進(jìn)行評(píng)價(jià)。下面公式中的符號(hào):m代表總的樣本個(gè)數(shù),yi代表真實(shí)值,代表預(yù)測(cè)值。1.MSE(MeanSquaredError)均方誤差:用真實(shí)值預(yù)測(cè)值,然后平方之后求和平均。線性回歸用MSE作為損失函數(shù)。如式(7-18)所示。(7-18)MSE越小,說明模型的預(yù)測(cè)能力越好。但是,MSE的值受到數(shù)據(jù)量的影響,因此在比較不同模型時(shí),需要使用其它指標(biāo)。2.RMSE(RootMeanSquaredError)均方根誤差,如式(7-19)所示。(7-19)RMSE通過在MSE上開個(gè)根號(hào)得到的,兩者實(shí)質(zhì)是一樣的,只不過用于數(shù)據(jù)更好的描述。例如:要做房?jī)r(jià)預(yù)測(cè),每平方是萬(wàn)元(真貴),預(yù)測(cè)結(jié)果也是萬(wàn)元。那么差值的平方單位應(yīng)該是千萬(wàn)級(jí)別的。這時(shí)不太好描述自己做的模型效果。此模型誤差是多少千萬(wàn),開根號(hào)后誤差的結(jié)果就跟數(shù)據(jù)是一個(gè)級(jí)別的,在描述模型的時(shí)候,模型的誤差是多少萬(wàn)元。所以RMSE的值與MSE相比更易于理解,因?yàn)樗c原始數(shù)據(jù)的單位相同,RMSE越小,說明模型的預(yù)測(cè)能力越好。3.MAE(MeanAbsoluteError)平均絕對(duì)誤差,如式(7-20)所示。(7-20)平均絕對(duì)誤差是預(yù)測(cè)值與真實(shí)值之間差異的絕對(duì)值的平均值。MAE越小,說明模型的預(yù)測(cè)能力越好。與MSE相比,MAE更加魯棒,因?yàn)樗皇墚惓V档挠绊憽?.R-Squared(R2,決定系數(shù))對(duì)于回歸算法而言,只探索數(shù)據(jù)預(yù)測(cè)是否準(zhǔn)確是不足夠的。除了數(shù)據(jù)本身的數(shù)值大小之外,還希望模型能夠捕捉到數(shù)據(jù)的“規(guī)律”,比如數(shù)據(jù)的分布規(guī)律,單調(diào)性等等,而是否捕獲了這些信息并無(wú)法使用MSE來衡量。如圖7-3所示,橙色線代表真實(shí)標(biāo)簽,而藍(lán)色線代表擬合模型(預(yù)測(cè)值)。這是一種比較極端,但的確可能發(fā)生的情況。圖7-3真實(shí)值和預(yù)測(cè)值曲線在圖7-3中,前半部分的擬合非常成功,看上去真實(shí)標(biāo)簽和預(yù)測(cè)結(jié)果幾乎重合,但后半部分的擬合非常糟糕,模型向著與真實(shí)標(biāo)簽完全相反的方向去了。對(duì)于這樣的一個(gè)擬合模型,如果使用MSE來對(duì)它進(jìn)行判斷,它的MSE會(huì)很小,因?yàn)榇蟛糠謽颖酒鋵?shí)都被完美擬合了,少數(shù)樣本的真實(shí)值和預(yù)測(cè)值的巨大差異在被均分到每個(gè)樣本上之后,MSE就會(huì)很小。但這樣的擬合結(jié)果必然不是一個(gè)好結(jié)果,因?yàn)橐坏┬聵颖臼翘幱跀M合曲線的后半段的,預(yù)測(cè)結(jié)果必然會(huì)有巨大的偏差,而這不是希望看到的。所以,希望找到新的指標(biāo),除了判斷預(yù)測(cè)的數(shù)值是否正確之外,還能夠判斷模型是否擬合了足夠多的數(shù)值之外的信息。決定系數(shù)R2是評(píng)價(jià)回歸模型擬合優(yōu)度的指標(biāo)。它表示模型解釋因變量變異的比例。其公式如式(7-21)所示。(7-21)其中,Var(y)代表方差,代表預(yù)測(cè)值與真實(shí)值之間的誤差;公式中,分子是真實(shí)值和預(yù)測(cè)值之間的差值,也就是模型沒有捕獲到的信息總量,分母是真實(shí)標(biāo)簽所帶的信息量,所以兩者相除代表模型沒有捕獲到的信息量占真實(shí)標(biāo)簽中所帶的信息量的比例。R2的取值范圍為0到1,越接近1,說明模型的擬合效果越好。但是,R2也存在一些問題,例如當(dāng)自變量數(shù)量增加時(shí),R2的值會(huì)增加,但并不一定意味著模型的預(yù)測(cè)能力更好。6.根據(jù)某城市過去一年的房屋銷售數(shù)據(jù)(見表7-1),收集了房屋面積和對(duì)應(yīng)的成交價(jià)格如下所示:表7-1某城市過去一年的房屋銷售數(shù)據(jù)房屋面積(平方米)價(jià)格(萬(wàn)元)80150120250150320200400250480請(qǐng)根據(jù)以上數(shù)據(jù),利用一元線性回歸模型分析房屋面積與價(jià)格之間的關(guān)系,并回答以下問題:(1)基于這組數(shù)據(jù),建立一元線性回歸模型,計(jì)算回歸方程的斜率和截距。答:回歸方程的形式一元線性回歸模型的方程形式為:y=wx+b其中:y是房屋價(jià)格x是房屋面積w是斜率b是截距計(jì)算斜率w和截距b,步驟如下:根據(jù)得到的回歸方程,預(yù)測(cè)一套房屋面積為180平方米的房屋的價(jià)格。答:利用評(píng)估指標(biāo)RMSE(均方根誤差)和R2(決定系數(shù))對(duì)此模型進(jìn)行評(píng)估。答:7.給定一個(gè)電子產(chǎn)品銷售數(shù)據(jù)集(見表7-2),包括月廣告投入、促銷活動(dòng)數(shù)量、競(jìng)爭(zhēng)對(duì)手銷售額和銷售額。表7-2電子產(chǎn)品銷售數(shù)據(jù)集月廣告投入(萬(wàn)元)促銷活動(dòng)數(shù)量競(jìng)爭(zhēng)對(duì)手銷售額(萬(wàn)元)銷售額(萬(wàn)元)1552530020730400253203503093545035640500基于這組數(shù)據(jù),建立多元線性回歸模型,計(jì)算回歸方程的系數(shù)。答:回歸方程形式:多元線性回歸模型的方程形式為:y=b+w1x1+w2x2+w3x3其中:y是銷售額;x1是月廣告投入;x2是促銷活動(dòng)數(shù)量;x3是競(jìng)爭(zhēng)對(duì)手銷售額;b是截距w1,w2,w3是各自變量的系數(shù);求解系數(shù)的實(shí)現(xiàn)代碼如下:importnumpyasnpimportstatsmodels.apiassm#數(shù)據(jù)準(zhǔn)備X=np.array([[15,5,25],[20,7,30],[25,3,20],[30,9,35],[35,6,40]])y=np.array([300,400,350,450,500])#添加常數(shù)項(xiàng)X=sm.add_constant(X)#線性回歸模型model=sm.OLS(y,X).fit()#獲取回歸系數(shù)coefficients=model.params#輸出每個(gè)系數(shù)對(duì)應(yīng)的值print("回歸方程的系數(shù):")print(f"截距(b):{coefficients[0]:.4f}")print(f"月廣告投入的系數(shù)(w1):{coefficients[1]:.4f}")print(f"促銷活動(dòng)數(shù)量的系數(shù)(w2):{coefficients[2]:.4f}")print(f"競(jìng)爭(zhēng)對(duì)手銷售額的系數(shù)(w3):{coefficients[3]:.4f}")運(yùn)行結(jié)果為:回歸方程的系數(shù):截距(b):107.1429月廣告投入的系數(shù)(w1):5.7143促銷活動(dòng)數(shù)量的系數(shù)(w2):3.5714競(jìng)爭(zhēng)對(duì)手銷售額的系數(shù)(w3):4.2857根據(jù)得到的回歸方程,解釋每個(gè)自變量對(duì)銷售額的影響。根據(jù)回歸方程的系數(shù),解釋每個(gè)自變量對(duì)銷售額的影響:1)月廣告投入(系數(shù)w1):每增加1萬(wàn)元的廣告投入,銷售額預(yù)計(jì)增加5.7143萬(wàn)元,表明廣告投入對(duì)銷售額有正面影響。2)促銷活動(dòng)數(shù)量(系數(shù)w2):每增加1次促銷活動(dòng),銷售額預(yù)計(jì)增加3.5714萬(wàn)元,說明促銷活動(dòng)對(duì)銷售額的影響較為顯著。3)競(jìng)爭(zhēng)對(duì)手銷售額(系數(shù)w3):每增加1萬(wàn)元的競(jìng)爭(zhēng)對(duì)手銷售額,銷售額預(yù)計(jì)增加4.2857萬(wàn)元,表明盡管競(jìng)爭(zhēng)對(duì)手的銷售額對(duì)自身銷售額有影響,但影響較小。(3)利用評(píng)估指標(biāo)RMSE(均方根誤差)和R2(決定系數(shù))對(duì)此模型進(jìn)行評(píng)估。答:在(1)代碼實(shí)現(xiàn)的基礎(chǔ)上,追加以下代碼,求出RMSE和R2。#預(yù)測(cè)值y_pred=model.predict(X)#計(jì)算RMSErmse=np.sqrt(np.mean((y-y_pred)**2))#計(jì)算R2r_squared=model.rsquared#輸出評(píng)估指標(biāo)print(f"\n均方根誤差(RMSE):{rmse:.4f}")print(f"決定系數(shù)(R2):{r_squared:.4f}")運(yùn)行結(jié)果為:均方根誤差(RMSE):14.6385決定系數(shù)(R2):0.95718.8習(xí)題什么是二元分類和多元分類?答:在二元分類中,數(shù)據(jù)被分為兩個(gè)互斥的類別,例如將電子郵件分類為“垃圾郵件”或“非垃圾郵件”。而多元分類則涉及將數(shù)據(jù)分為三個(gè)或更多個(gè)互斥的類別,例如將圖像識(shí)別為“貓”、“狗”、“汽車”或“飛機(jī)”。分類分析的步驟有哪些?答:數(shù)據(jù)分類是一個(gè)兩階段過程,包括學(xué)習(xí)階段(構(gòu)建分類模型)和分類階段(使用模型預(yù)測(cè)給定數(shù)據(jù)的類標(biāo)號(hào))。第一階段:建立描述預(yù)先定義的數(shù)據(jù)類或概念集的分類器。這是學(xué)習(xí)階段(或訓(xùn)練階段),其中分類算法通過分析或從訓(xùn)練集學(xué)習(xí)來構(gòu)造分類器。訓(xùn)練集中提供了每個(gè)訓(xùn)練元組的類標(biāo)號(hào),這一階段也稱為監(jiān)督學(xué)習(xí)。訓(xùn)練集由數(shù)據(jù)庫(kù)元組和它們相關(guān)聯(lián)的類標(biāo)號(hào)組成。元組用n維向量表示,分別描述n個(gè)數(shù)據(jù)庫(kù)屬性。假定每個(gè)元組都屬于一個(gè)預(yù)先定義的類,這個(gè)類由一個(gè)稱為類標(biāo)號(hào)屬性的數(shù)據(jù)庫(kù)屬性確定。類標(biāo)號(hào)屬性是離散的或者無(wú)序的。學(xué)習(xí)階段也可以看做學(xué)習(xí)一個(gè)映射或函數(shù)y=f(x),它可以預(yù)測(cè)給定元組x的類標(biāo)號(hào)y。在第二階段,使用模型進(jìn)行分類。首先評(píng)估分類器的預(yù)測(cè)準(zhǔn)確率。如果使用訓(xùn)練集來度量分類器的準(zhǔn)確率,則評(píng)估可能是樂觀的,因?yàn)榉诸惼髭呌谶^擬合,所以需要使用檢驗(yàn)集,他們獨(dú)立于訓(xùn)練集。分類器在給定檢驗(yàn)集上的準(zhǔn)確率是分類器正確劃分的檢驗(yàn)元組所占的百分比。每個(gè)檢驗(yàn)元組的類標(biāo)號(hào)與學(xué)習(xí)模型對(duì)該元組的類預(yù)測(cè)進(jìn)行比較。什么是決策樹?它是如何進(jìn)行歸納的?答:決策樹是一種類似于流程圖的樹結(jié)構(gòu)(如圖8-1所示),其中每個(gè)內(nèi)部節(jié)點(diǎn)(非樹葉節(jié)點(diǎn))表示在屬性上的測(cè)試,每個(gè)分支表示該測(cè)試上的一個(gè)輸出,而每個(gè)樹葉節(jié)點(diǎn)存放一個(gè)類標(biāo)號(hào),樹的最頂層節(jié)點(diǎn)是根節(jié)點(diǎn)。內(nèi)部結(jié)點(diǎn)用圓表示,葉結(jié)點(diǎn)用矩形表示。圖8-1決策樹的一般結(jié)構(gòu)決策樹歸納過程:1.樹從單個(gè)結(jié)點(diǎn)N開始,N代表D中訓(xùn)練元組,D為數(shù)據(jù)分區(qū);2.如果D中的元組都為同一類,則結(jié)點(diǎn)變成樹葉并用該類標(biāo)記它。3.否則算法調(diào)用屬性選擇方法確定分裂準(zhǔn)則,分裂準(zhǔn)則指定分裂屬性也指出分裂點(diǎn)或分裂子集。理想情況下,分裂準(zhǔn)則要使得每個(gè)分支上的輸出分區(qū)盡可能“純”。一個(gè)分區(qū)是純的就是它的所有元組都屬于同一類。4.結(jié)點(diǎn)N用分裂準(zhǔn)則標(biāo)記作為結(jié)點(diǎn)上的測(cè)試。對(duì)分類準(zhǔn)則的每個(gè)輸出,由結(jié)點(diǎn)N生長(zhǎng)一個(gè)分支,D中的元組據(jù)此進(jìn)行劃分有三種可能的情況:A是離散值的:結(jié)點(diǎn)N的測(cè)試輸出直接對(duì)應(yīng)于A的已知值。對(duì)每個(gè)已知值aj創(chuàng)建一個(gè)分支,并用該值標(biāo)記。分區(qū)Dj是D中A上取值為aj的類標(biāo)記元組的子集;A是連續(xù)值的,結(jié)點(diǎn)N的測(cè)試有兩個(gè)可能的輸出,分別對(duì)應(yīng)于條件A≤分裂點(diǎn)(標(biāo)記為D1)和A>分裂點(diǎn)(標(biāo)記為D2),分裂點(diǎn)a通常取A的兩個(gè)已知相鄰值的中點(diǎn),因此可能不是訓(xùn)練數(shù)據(jù)中的存在值。從N生長(zhǎng)出兩個(gè)分支,并按上面的輸出標(biāo)記;A是離散值并且必須產(chǎn)生二叉樹,在節(jié)點(diǎn)N的測(cè)試形如A∈SA,其中SA是A的分裂子集。N的左分枝標(biāo)記為yes,使得D1對(duì)應(yīng)于D中滿足測(cè)試條件的類標(biāo)記元組的子集。N的右分枝標(biāo)記為no,使得D2對(duì)應(yīng)于D中不滿足測(cè)試條件的類標(biāo)記元組的子集。5.對(duì)于D的每個(gè)結(jié)果分區(qū)Dj上的元組,算法使用同樣的過程遞歸地形成決策樹。6.遞歸劃分步驟僅當(dāng)下列終止條件之一成立時(shí)停止:分區(qū)D的所有元組都是同一個(gè)類。沒有剩余屬性可以用來進(jìn)一步劃分元組。使用多數(shù)表決,將N轉(zhuǎn)化為樹葉,并用D中的多數(shù)類標(biāo)記它。也可以存放結(jié)點(diǎn)元組的類分布。給定的分枝沒有元組,即分區(qū)Dj為空,用D中的多數(shù)類創(chuàng)建一個(gè)樹葉。決策樹的屬性選擇度量有哪些?分別介紹它們的特點(diǎn)。答:1)信息增益:信息增益是基于熵(Entropy)計(jì)算的度量。它衡量的是選擇某個(gè)屬性后,數(shù)據(jù)的不確定性減少的程度。公式如下:Grain(A)=Info(D)-InfoA(D)(8-3)特點(diǎn):信息增益越大,選擇該屬性的效果越好。對(duì)于連續(xù)屬性,通常需要先進(jìn)行離散化處理。信息增益傾向于選擇取值較多的屬性,可能導(dǎo)致過擬合。2)增益率:增益率是對(duì)信息增益的改進(jìn),考慮了屬性的取值數(shù)量。公式如下:(8-4)其中,Grain(A)為屬性A對(duì)元組D進(jìn)行劃分所獲得的信息增益,SplitInfoA(D)公式見(8-5)。(8-5)特點(diǎn):增益率可以有效地懲罰取值較多的屬性,減少過擬合的風(fēng)險(xiǎn)。在某些情況下可能會(huì)導(dǎo)致選擇對(duì)分類并沒有實(shí)際幫助的屬性。基尼指數(shù):基尼指數(shù)用于衡量數(shù)據(jù)集的不純度。具體公式如下:Gini(D)=1-k(8-6)特點(diǎn):基尼指數(shù)值越小,表示不純度越低,選擇該屬性進(jìn)行劃分的效果越好。計(jì)算相對(duì)簡(jiǎn)單,通常比信息增益更快。與信息增益相比,基尼指數(shù)對(duì)噪聲數(shù)據(jù)的敏感性較低。5.根據(jù)以下天氣預(yù)測(cè)的訓(xùn)練數(shù)據(jù)集,見表8-11,構(gòu)建一個(gè)決策樹模型。數(shù)據(jù)集包括天氣情況(晴天、多云、雨天)、溫度(熱、溫涼、寒冷)、濕度(高、正常)等特征,以及是否出門的決策(是、否)。利用這些特征來預(yù)測(cè)在給定天氣、溫度和濕度下是否會(huì)出門。表8-11天氣預(yù)測(cè)的訓(xùn)練數(shù)據(jù)集天氣溫度濕度是否出門晴天熱高是晴天熱高是多云熱高是雨天溫涼高否雨天寒冷正常否雨天寒冷正常否多云寒冷正常是晴天溫涼高否晴天寒冷正常是雨天溫涼正常是晴天溫涼正常是多云溫涼高是多云熱正常是雨天溫涼高否根據(jù)上面的數(shù)據(jù)集分別使用三種不同的屬性選擇度量實(shí)現(xiàn)決策樹分類,并通過評(píng)估指標(biāo)比較不同模型的優(yōu)劣。答:代碼實(shí)現(xiàn)如下:importpandasaspdfromsklearn.preprocessingimportLabelEncoderfromsklearn.treeimportDecisionTreeClassifierfromsklearn.metricsimportclassification_report,accuracy_score#創(chuàng)建天氣預(yù)測(cè)數(shù)據(jù)集data={'天氣':['晴天','晴天','多云','雨天','雨天','雨天','多云','晴天','晴天','雨天','晴天','多云','多云','雨天'],'溫度':['熱','熱','熱','溫涼','寒冷','寒冷','寒冷','溫涼','寒冷','溫涼','溫涼','溫涼','熱','溫涼'],'濕度':['高','高','高','高','正常','正常','正常','高','正常','正常','正常','高','正常','高'],'是否出門':['是','是','是','否','否','否','是','否','是','是','是','是','是','否']}#創(chuàng)建DataFramedf=pd.DataFrame(data)#編碼特征label_encoders={}forcolumnindf.columns:le=LabelEncoder()df[column]=le.fit_transform(df[column])label_encoders[column]=le#劃分特征和標(biāo)簽X=df.drop('是否出門',axis=1)y=df['是否出門']#使用信息增益構(gòu)建決策樹clf_info_gain=DecisionTreeClassifier(criterion='entropy')clf_info_gain.fit(X,y)#預(yù)測(cè)y_pred_info_gain=clf_info_gain.predict(X)#輸出評(píng)估指標(biāo)print("使用信息增益的模型評(píng)估:")print(classification_report(y,y_pred_info_gain))print("準(zhǔn)確率:",accuracy_score(y,y_pred_info_gain))#使用增益率(實(shí)際上仍然通過熵實(shí)現(xiàn))clf_gain_ratio=DecisionTreeClassifier(criterion='entropy')clf_gain_ratio.fit(X,y)#預(yù)測(cè)y_pred_gain_ratio=clf_gain_ratio.predict(X)#輸出評(píng)估指標(biāo)print("使用增益率的模型評(píng)估:")print(classification_report(y,y_pred_gain_ratio))print("準(zhǔn)確率:",accuracy_score(y,y_pred_gain_ratio))#使用基尼指數(shù)構(gòu)建決策樹clf_gini=DecisionTreeClassifier(criterion='gini')clf_gini.fit(X,y)#預(yù)測(cè)y_pred_gini=clf_gini.predict(X)#輸出評(píng)估指標(biāo)print("使用基尼指數(shù)的模型評(píng)估:")print(classification_report(y,y_pred_gini))print("準(zhǔn)確率:",accuracy_score(y,y_pred_gini))運(yùn)行結(jié)果如下:用信息增益的模型評(píng)估:precisionrecallf1-scoresupport01.001.001.00511.001.001.009accuracy1.0014macroavg1.001.001.0014weightedavg1.001.001.0014準(zhǔn)確率:1.0使用增益率的模型評(píng)估:precisionrecallf1-scoresupport01.001.001.00511.001.001.009accuracy1.0014macroavg1.001.001.0014weightedavg1.001.001.0014準(zhǔn)確率:1.0使用基尼指數(shù)的模型評(píng)估:precisionrecallf1-scoresupport01.001.001.00511.001.001.009accuracy1.0014macroavg1.001.001.0014weightedavg1.001.001.0014準(zhǔn)確率:1.06.什么是貝葉斯分類?答:葉斯分類(BayesianClassification)是一種基于貝葉斯定理的統(tǒng)計(jì)分類技術(shù)。它通過計(jì)算某個(gè)樣本屬于不同類別的概率來進(jìn)行分類。7.以下是一個(gè)簡(jiǎn)化的垃圾郵件分類的數(shù)據(jù)集,見表8-12,包括郵件主題中包含“優(yōu)惠”的頻率、郵件正文中包含“獎(jiǎng)金”的頻率、郵件正文中包含“抽獎(jiǎng)”的頻率,以及最終的分類標(biāo)簽(垃圾郵件或正常郵件)。表8-12簡(jiǎn)化的垃圾郵件分類的數(shù)據(jù)集優(yōu)惠頻率獎(jiǎng)金頻率抽獎(jiǎng)?lì)l率類別0.20.10.05垃圾郵件0.10.050.02垃圾郵件0.020.150.1正常郵件0.050.080.01正常郵件0.150.020.03垃圾郵件0.080.120.07正常郵件0.20.250.18垃圾郵件0.120.030.06正常郵件0.180.090.04垃圾郵件0.070.060.03正常郵件利用這個(gè)數(shù)據(jù)集,構(gòu)建一個(gè)樸素貝葉斯分類器來預(yù)測(cè)下面郵件信息(見表8-13)是否為垃圾郵件。表8-13郵件信息優(yōu)惠頻率獎(jiǎng)金頻率抽獎(jiǎng)?lì)l率類別0.080.10.02?答:importpandasaspd#創(chuàng)建垃圾郵件分類數(shù)據(jù)集data={'優(yōu)惠頻率':[0.2,0.1,0.02,0.05,0.15,0.08,0.2,0.12,0.18,0.07],'獎(jiǎng)金頻率':[0.1,0.05,0.15,0.08,0.02,0.12,0.25,0.03,0.09,0.06],'抽獎(jiǎng)?lì)l率':[0.05,0.02,0.1,0.01,0.03,0.07,0.18,0.06,0.04,0.03],'類別':['垃圾郵件','垃圾郵件','正常郵件','正常郵件','垃圾郵件','正常郵件','垃圾郵件','正常郵件','垃圾郵件','正常郵件']}df=pd.DataFrame(data)#計(jì)算先驗(yàn)概率prior_prob=df['類別'].value_counts(normalize=True).to_dict()#計(jì)算條件概率conditional_prob={}forcategoryindf['類別'].unique():conditional_prob[category]={'優(yōu)惠頻率':df[df['類別']==category]['優(yōu)惠頻率'].mean(),'獎(jiǎng)金頻率':df[df['類別']==category]['獎(jiǎng)金頻率'].mean(),'抽獎(jiǎng)?lì)l率':df[df['類別']==category]['抽獎(jiǎng)?lì)l率'].mean()}#新郵件信息new_email={'優(yōu)惠頻率':0.08,'獎(jiǎng)金頻率':0.1,'抽獎(jiǎng)?lì)l率':0.02}#計(jì)算后驗(yàn)概率defcalculate_posterior(new_email):posterior_prob={}forcategoryinprior_prob.keys():#先驗(yàn)概率prior=prior_prob[category]#條件概率likelihood=(conditional_prob[category]['優(yōu)惠頻率']**new_email['優(yōu)惠頻率']*conditional_prob[category]['獎(jiǎng)金頻率']**new_email['獎(jiǎng)金頻率']*conditional_prob[category]['抽獎(jiǎng)?lì)l率']**new_email['抽獎(jiǎng)?lì)l率'])#后驗(yàn)概率posterior_prob[category]=prior*likelihoodreturnposterior_probposterior=calculate_posterior(new_email)#歸一化后驗(yàn)概率total=sum(posterior.values())posterior_normalized={k:v/totalfork,vinposterior.items()}#輸出結(jié)果print("后驗(yàn)概率:",posterior_normalized)predicted_category=max(posterior_normalized,key=posterior_normalized.get)print("預(yù)測(cè)類別:",predicted_category)運(yùn)行結(jié)果如下:后驗(yàn)概率:{'垃圾郵件':0.522375042981238,'正常郵件':0.477624957018762}預(yù)測(cè)類別:垃圾郵件什么是支持向量機(jī)?它適用于哪些數(shù)據(jù)情況?答:支持向量機(jī)(SupportVectorMachine,SVM)是一種監(jiān)督學(xué)習(xí)模型,主要用于分類和回歸分析。SVM通過在特征空間中尋找最佳的超平面(hyperplane)來將數(shù)據(jù)點(diǎn)分類。它的基本思想是尋找一個(gè)能夠有效分開不同類別的超平面,使得距離該超平面最近的樣本點(diǎn)(稱為支持向量)到超平面的距離最大化。SVM能夠適用于包括線性和非線性可分?jǐn)?shù)據(jù)、高維數(shù)據(jù)、小樣本數(shù)據(jù)、二分類和多分類問題、噪聲數(shù)據(jù)以及不平衡數(shù)據(jù)集請(qǐng)說明最大邊緣超平面和硬間隔支持向量機(jī)的概念。答:最大邊緣超平面(MaximumMarginalHyperplane,MMH)所關(guān)聯(lián)的邊緣提供了類之間的最大分離性,即數(shù)據(jù)點(diǎn)與超平面之間的距離最大化。硬間隔支持向量機(jī)(SVM):假設(shè)數(shù)據(jù)是線性可分的,即存在一個(gè)超平面能夠完全分開不同類別的數(shù)據(jù)點(diǎn),且沒有任何數(shù)據(jù)點(diǎn)位于超平面兩側(cè)的錯(cuò)誤分類。在二維空間中,超平面表現(xiàn)為一條線,而在三維空間中則是一個(gè)平面,在更高維空間中為一個(gè)超平面。其數(shù)學(xué)表達(dá)式為wx+b=0,其中w是權(quán)重向量,x是特征向量,b是偏置。間隔(Margin)是指從超平面到離其最近的支持向量(即最近的樣本點(diǎn))之間的距離,硬間隔SVM的目標(biāo)是最大化這個(gè)間隔。數(shù)學(xué)上,間隔可以表示為,因此最大化間隔相當(dāng)于最小化。硬間隔SVM通過以下優(yōu)化問題來實(shí)現(xiàn)最大化間隔的目標(biāo):(8-23)10.以下是一個(gè)對(duì)汽車豪華程度進(jìn)行分類的數(shù)據(jù)集(見表8-14),包括汽車的車內(nèi)空間和發(fā)動(dòng)機(jī)功率兩個(gè)特征,及每輛車是否為豪華車的分類標(biāo)簽。8-14汽車豪華分類的數(shù)據(jù)集汽車型號(hào)車內(nèi)空間/m3發(fā)動(dòng)機(jī)功率/kW是否為豪華車A2.5300是B2.0150否C3.0400是D1.8120否E2.8350是F2.2180否G3.5450是H1.9130否(1)利用這個(gè)數(shù)據(jù)集,構(gòu)建一個(gè)支持向量機(jī)(SVM)分類器模型。(2)現(xiàn)在有一輛新的汽車,其車內(nèi)空間為2.5m3,發(fā)動(dòng)機(jī)功率為350kW,請(qǐng)使用構(gòu)建好的SVM分類器來預(yù)測(cè)該汽車是否屬于豪華車。importnumpyasnpfromsklearn.svmimportSVC#1.準(zhǔn)備數(shù)據(jù)#特征:車內(nèi)空間(m3),發(fā)動(dòng)機(jī)功率(kW)X=np.array([[2.5,300],[2.0,150],[3.0,400],[1.8,120],[2.8,350],[2.2,180],[3.5,450],[1.9,130]])#標(biāo)簽:是否為豪華車,"是"用1表示,"否"用0表示y=np.array([1,0,1,0,1,0,1,0])#2.創(chuàng)建SVM分類器#這里使用線性核函數(shù),如果效果不好可以考慮RBF核clf=SVC(kernel='linear')#3.訓(xùn)練模型clf.fit(X,y)#4.新汽車數(shù)據(jù)new_car=np.array([[2.5,350]])#5.預(yù)測(cè)prediction=clf.predict(new_car)#輸出預(yù)測(cè)結(jié)果print("預(yù)測(cè)該汽車是否為豪華車:","是"ifprediction[0]==1else"否")運(yùn)行結(jié)果為:預(yù)測(cè)該汽車是否為豪華車:是10.什么是分類的評(píng)價(jià)指標(biāo)?列舉二元分類和多元分類的評(píng)價(jià)指標(biāo)并解釋其意義。答:評(píng)價(jià)指標(biāo)在分類任務(wù)中具有重要意義,它們幫助了解和評(píng)估分類器模型的性能表現(xiàn)。通過這些指標(biāo),可以更清晰地了解分類器在不同方面的表現(xiàn),從而進(jìn)行模型的選擇、優(yōu)化和比較。二元分類的評(píng)價(jià)指標(biāo):二元分類的評(píng)價(jià)指標(biāo)包括混淆矩陣、準(zhǔn)確率、精確率、召回率、F1值、ROC曲線和AUC值?;煜仃囈约皽?zhǔn)確率、精確率和召回率分別展示了分類器在不同方面的性能表現(xiàn),F(xiàn)1值綜合考慮了分類器的準(zhǔn)確性和識(shí)別能力。ROC曲線和AUC值提供了對(duì)分類器整體性能的直觀評(píng)估,尤其適用于比較不同閾值下的性能。這些評(píng)價(jià)指標(biāo)在二元分類中相輔相成,能夠全面評(píng)估分類器的性能,為模型選擇和優(yōu)化提供重要依據(jù)。混淆矩陣(ConfusionMatrix)是一種用于可視化分類模型性能的表格,它將模型的預(yù)測(cè)結(jié)果與實(shí)際標(biāo)簽進(jìn)行對(duì)比,以便評(píng)估分類器的準(zhǔn)確性?;煜仃囃ǔJ且粋€(gè)二維矩陣,行表示實(shí)際標(biāo)簽,列表示預(yù)測(cè)標(biāo)簽,每個(gè)單元格中的值表示對(duì)應(yīng)標(biāo)簽的樣本數(shù)量。以下是一個(gè)混淆矩陣的實(shí)例,見表8-10。表8-10混淆矩陣預(yù)測(cè)為正例預(yù)測(cè)為負(fù)例實(shí)際為正例TPFN實(shí)際為負(fù)例FPTN其中:真正例(TruePositive,TP):模型正確預(yù)測(cè)為正樣本(正例)的數(shù)量。真反例(TrueNegative,TN):模型正確預(yù)測(cè)為負(fù)樣本(負(fù)例)的數(shù)量。假正例(FalsePositive,F(xiàn)P):模型錯(cuò)誤地將負(fù)樣本預(yù)測(cè)為正樣本(正例)的數(shù)量。假反例(FalseNegative,F(xiàn)N):模型錯(cuò)誤地將正樣本預(yù)測(cè)為負(fù)樣本(負(fù)例)的數(shù)量。1.準(zhǔn)確率準(zhǔn)確率(Accuracy)是指分類器正確分類的樣本數(shù)占總樣本數(shù)的比例。其數(shù)學(xué)公式如下:(8-32)其中,TP表示真正例(TruePositive),TN表示真反例(TrueNegative),F(xiàn)P表示假正例(FalsePositive),F(xiàn)N表示假反例(FalseNegative)。準(zhǔn)確率衡量了分類器正確預(yù)測(cè)的樣本占總樣本的比例,是最直觀的評(píng)價(jià)指標(biāo)之一。2.精確率精確率(Precision)是指分類器在預(yù)測(cè)為正樣本的樣本中,實(shí)際為正樣本的比例。其數(shù)學(xué)公式如下:(8-33)其中,TP表示真正例(TruePositive),F(xiàn)P表示假正例(FalsePositive)。精確率衡量了分類器在預(yù)測(cè)為正樣本時(shí)的準(zhǔn)確性,即被預(yù)測(cè)為正樣本的樣本中,真正是正樣本的比例。3.召回率(8-34)召回率是指分類器對(duì)正樣本的識(shí)別能力,即所有正樣本中被分類器正確預(yù)測(cè)為正樣本的比例。其數(shù)學(xué)公式如下:其中,TP表示真正例(TruePositive),F(xiàn)N表示假反例(FalseNegative)。召回率衡量了分類器對(duì)于正樣本的識(shí)別能力,高召回率意味著分類器能夠較好地捕捉到真正的正樣本。4.F1值(F1-score)F1值(F1-score)是精確率和召回率的調(diào)和均值,用于綜合評(píng)價(jià)分類器的性能。其數(shù)學(xué)公式如下:(8-35)F1值綜合考量了分類器的精確率和召回率,是一個(gè)綜合性能指標(biāo)。當(dāng)精確率和召回率都很高時(shí),F(xiàn)1值也會(huì)很高,表示分類器具有較好的性能。5.ROC曲線和AUC值ROC曲線(ReceiverOperatingCharacteristicCurve)和AUC值(AreaUndertheROCCurve)是評(píng)價(jià)分類器性能的重要工具,尤其適用于二分類問題。ROC曲線以假陽(yáng)率(FalsePositiveRate)為橫軸,真陽(yáng)率(TruePositiveRate)為縱軸,展示了在不同閾值下分類器的性能表現(xiàn)。ROC曲線的形狀越靠近左上角,表示分類器在保持較高真陽(yáng)率的情況下,能夠保持較低的假陽(yáng)率,即性能越好。AUC值則是ROC曲線下的面積,它表示了分類器將正樣本排在負(fù)樣本前面的概率。AUC值的范圍在0到1之間,通常情況下,AUC值越接近1,說明分類器性能越好;而AUC值為0.5時(shí),表示分類器的預(yù)測(cè)與隨機(jī)猜測(cè)沒有區(qū)別,即分類器無(wú)法區(qū)分正負(fù)樣本。因此,ROC曲線和AUC值提供了對(duì)分類器性能的直觀評(píng)估,能夠幫助理解分類器在不同閾值下的性能表現(xiàn),并且對(duì)于樣本不平衡的情況下,也能夠提供有效的性能評(píng)估。多元分類的評(píng)價(jià)指標(biāo):多元分類的評(píng)價(jià)指標(biāo)與二元分類有很多相似之處,但在計(jì)算時(shí)需要考慮到多個(gè)類別的情況,以確保評(píng)估結(jié)果的準(zhǔn)確性和全面性。1.準(zhǔn)確率(Accuracy)多元分類的準(zhǔn)確率(Accuracy)仍然表示分類器正確分類的樣本數(shù)占總樣本數(shù)的比例,但需要考慮多個(gè)類別的情況。其數(shù)學(xué)公式如下:(8-36)分類正確的樣本數(shù)是指分類器在所有類別上都做出了正確的預(yù)測(cè)的樣本數(shù),總樣本數(shù)是指所有樣本的總數(shù)。2.宏平均宏平均計(jì)算每個(gè)類別的指標(biāo)后取平均,它在計(jì)算每個(gè)類別的指標(biāo)時(shí)對(duì)每個(gè)類別都給與了相同的權(quán)重,不考慮各類別樣本數(shù)量的差異。宏平均適用于每個(gè)類別都有相同重要性的情況,它可以幫助了解模型在不同類別上的表現(xiàn)。在多分類問題中,對(duì)于每個(gè)類別i,精確率的宏平均計(jì)算公式如下:(8-37)其中K為類別數(shù)量,Pi代表第i個(gè)類別的精確率,同樣的計(jì)算方法可以應(yīng)用于其他評(píng)估指標(biāo),如召回率和F1分?jǐn)?shù)等。在面對(duì)樣本不平衡情況時(shí),宏平均精確率可能會(huì)受到樣本數(shù)量較少類別的影響,因?yàn)楹昶骄鶎⒚總€(gè)類別的貢獻(xiàn)視為相等。為了克服這個(gè)缺陷,可以采用微平均來進(jìn)行評(píng)估。3.微平均在微平均中,首先對(duì)所有類別或標(biāo)簽的真陽(yáng)性(TruePositives)、假陽(yáng)性(FalsePositives)、真陰性(TrueNegatives)和假陰性(FalseNegatives)進(jìn)行求和,然后使用這些總數(shù)來計(jì)算準(zhǔn)確率(Precision)、召回率(Recall)和F1分?jǐn)?shù)(F1-score)等評(píng)估指標(biāo)。精確率微平均的計(jì)算公式如下:(8-38)其中,TP1+TP2+...+TPk是所有類別的真正例總和,F(xiàn)P1+FP2+...+FPk是所有類別的假正例總和。同樣的計(jì)算方法可以應(yīng)用于其他評(píng)估指標(biāo),如召回率和F1分?jǐn)?shù)。微平均的優(yōu)點(diǎn)是它考慮了每個(gè)類別的預(yù)測(cè)結(jié)果對(duì)整體評(píng)估的影響,因此在不平衡數(shù)據(jù)集上能夠提供更公平的性能評(píng)估。4.加權(quán)宏平均加權(quán)宏平均是宏平均的一種變體,它考慮了每個(gè)類別的權(quán)重,以解決樣本不平衡的問題。在加權(quán)宏平均中,對(duì)每個(gè)類別的指標(biāo)(如準(zhǔn)確率、召回率、F1分?jǐn)?shù)等)進(jìn)行計(jì)算時(shí),使用類別的樣本數(shù)量或其他相關(guān)指標(biāo)作為權(quán)重。這樣可以更加客觀地評(píng)估模型在不同類別上的性能,避免樣本數(shù)量較少的類別對(duì)整體評(píng)估造成的偏差。通過加權(quán)宏平均,可以根據(jù)不同類別的重要性來調(diào)整評(píng)估結(jié)果,從而更準(zhǔn)確地評(píng)估模型在不平衡數(shù)據(jù)集上的性能。9.7習(xí)題什么是聚類分析?答:聚類分析是一種無(wú)監(jiān)督學(xué)習(xí)方法,通過計(jì)算數(shù)據(jù)點(diǎn)之間的相似性度量,將相似的數(shù)據(jù)點(diǎn)歸為一類,形成不同的簇。聚類分析中的相似性度量是什么?答:相似性度量是聚類分析的核心概念,用于衡量?jī)蓚€(gè)數(shù)據(jù)點(diǎn)之間的相似程度。它可以基于不同的特征和距離度量方法進(jìn)行計(jì)算,如歐氏距離、曼哈頓距離、余弦相似度等。選擇合適的相似性度量對(duì)聚類分析的結(jié)果具有重要影響。聚類分析的評(píng)價(jià)指標(biāo)有哪些?答:1)輪廓系數(shù)(SilhouetteCoefficient):2)Davies-Bouldin指數(shù)(Davies-BouldinIndex,記作DBI)3)Calinski-Harabasz指數(shù)(Calinski-HarabaszIndex,記作CHI)4)Dunn指數(shù)(DunnIndex,記作DI)5)聚類純度(ClusterPurity,記作CP)6)蘭德系數(shù)(RandIndex,記作RI)4.什么是K-Means聚類算法?答:K-Means算法是一種常用的基于劃分的聚類算法,用于將數(shù)據(jù)點(diǎn)劃分為K個(gè)簇,使得每個(gè)數(shù)據(jù)點(diǎn)與所屬簇的質(zhì)心之間的距離最小化。以下是K-Means算法的基本步驟:1.初始化:隨機(jī)選擇K個(gè)數(shù)據(jù)點(diǎn)作為初始的質(zhì)心。2.分配數(shù)據(jù)點(diǎn)到最近的質(zhì)心:對(duì)于每個(gè)數(shù)據(jù)點(diǎn),計(jì)算其與每個(gè)質(zhì)心之間的距離,將數(shù)據(jù)點(diǎn)分配給與其距離最近的質(zhì)心所屬的簇。3.更新質(zhì)心:對(duì)于每個(gè)簇,計(jì)算該簇內(nèi)所有數(shù)據(jù)點(diǎn)的平均值,將該平均值作為新的質(zhì)心。4.重復(fù)步驟2和步驟3,直到質(zhì)心的位置不再發(fā)生變化或達(dá)到預(yù)定的迭代次數(shù)。在K-Means算法中,通過迭代的方式不斷更新質(zhì)心和重新分配數(shù)據(jù)點(diǎn),直到達(dá)到穩(wěn)定狀態(tài)。算法的收斂性與初始質(zhì)心的選擇有關(guān),因此可以嘗試多次運(yùn)行K-Means算法并選擇最好的結(jié)果。K-Means++聚類算法相對(duì)于普通K-Means算法有哪些改進(jìn)?它是如何選擇初始質(zhì)心的?答:K-Means++聚類算法相對(duì)于普通K-Means算法的主要改進(jìn)在于初始質(zhì)心的選擇。普通K-Means算法通常隨機(jī)選擇初始質(zhì)心,這可能導(dǎo)致算法收斂到局部最優(yōu)解,進(jìn)而影響最終聚類結(jié)果的質(zhì)量。K-Means++則通過一種更為智能的方式選擇初始質(zhì)心,從而提高聚類的效果和穩(wěn)定性。K-Means++的初始質(zhì)心選擇過程如下:1)選擇第一個(gè)質(zhì)心:從數(shù)據(jù)集中隨機(jī)選擇一個(gè)點(diǎn)作為第一個(gè)質(zhì)心。2)選擇后續(xù)質(zhì)心:對(duì)于每一個(gè)數(shù)據(jù)點(diǎn)x,計(jì)算它到已選擇的質(zhì)心的距離D(x),即它到最近質(zhì)心的距離。計(jì)算所有數(shù)據(jù)點(diǎn)的距離D(x)后,使用概率分布選擇下一個(gè)質(zhì)心。具體來說,選擇下一個(gè)質(zhì)心的概率與D(x)2成正比。也就是說,距離已選質(zhì)心遠(yuǎn)的點(diǎn)更有可能被選為下一個(gè)質(zhì)心。3)重復(fù)步驟:重復(fù)以上步驟,直到選擇出k個(gè)質(zhì)心。5.以下是一個(gè)虛擬的銷售數(shù)據(jù)集,見表9-1,包括顧客的購(gòu)買金額和購(gòu)買頻率。表9-1銷售數(shù)據(jù)集顧客ID購(gòu)買金額購(gòu)買頻率11000102150083300124200155180066600187800208100259120091050014請(qǐng)使用K-Means算法和K-Means++算法對(duì)這些顧客進(jìn)行分群。答:importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.clusterimportKMeansfromsklearn.preprocessingimportStandardScaler#創(chuàng)建銷售數(shù)據(jù)集data={'CustomerID':[1,2,3,4,5,6,7,8,9,10],'PurchaseAmount':[1000,1500,300,200,1800,600,800,100,1200,500],'PurchaseFrequency':[10,8,12,15,6,18,20,25,9,14]}df=pd.DataFrame(data)#提取特征X=df[['PurchaseAmount','PurchaseFrequency']]#數(shù)據(jù)標(biāo)準(zhǔn)化scaler=StandardScaler()X_scaled=scaler.fit_transform(X)#K-Means算法kmeans=KMeans(n_clusters=3,random_state=42)#假設(shè)分為3類kmeans.fit(X_scaled)df['KMeans_Labels']=kmeans.labels_#K-Means++算法kmeans_plus_plus=KMeans(n_clusters=3,init='k-means++',random_state=42)kmeans_plus_plus.fit(X_scaled)df['KMeansPlusPlus_Labels']=kmeans_plus_plus.labels_#輸出結(jié)果print(df)#可視化結(jié)果plt.figure(figsize=(12,6))#K-Meansplt.subplot(1,2,1)plt.scatter(X_scaled[:,0],X_scaled[:,1],c=df['KMeans_Labels'],cmap='viridis',label='K-MeansClusters')plt.title('K-MeansClustering')plt.xlabel('PurchaseAmount(Standardized)')plt.ylabel('PurchaseFrequency(Standardized)')plt.colorbar()#K-Means++plt.subplot(1,2,2)plt.scatter(X_scaled[:,0],X_scaled[:,1],c=df['KMeansPlusPlus_Labels'],cmap='viridis',label='K-Means++Clusters')plt.title('K-Means++Clustering')plt.xlabel('PurchaseAmount(Standardized)')plt.ylabel('PurchaseFrequency(Standardized)')plt.colorbar()plt.tight_layout()plt.show()運(yùn)行結(jié)果如下:CustomerIDPurchaseAmountPurchaseFrequencyKMeans_Labels\0110001011215008123300122342001524518006156600180678002007810025089120091910500142KMeansPlusPlus_Labels01112232415060708192可視化結(jié)果如下:什么是基于層次的聚類分析?請(qǐng)解釋自底向上和自頂向下聚類算法的工作原理。答:基于層次的聚類分析(HierarchicalClustering)是一種將數(shù)據(jù)點(diǎn)逐步劃分或合并的聚類方法。它不需要預(yù)先設(shè)定聚類的數(shù)量,而是基于數(shù)據(jù)點(diǎn)之間的相似性度量,構(gòu)建一個(gè)層次結(jié)構(gòu)的聚類樹?;趯哟蔚木垲惙治隹梢苑譃閮煞N主要方法:自底向上(凝聚型)和自頂向下(分裂型)。自底向上聚類算法(AgglomerativeClustering)是一種基于層次的聚類方法,從每個(gè)數(shù)據(jù)點(diǎn)作為一個(gè)簇開始,逐步合并相似的簇,直到達(dá)到預(yù)設(shè)的聚類數(shù)目
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026屆臨滄市重點(diǎn)中學(xué)高一化學(xué)第一學(xué)期期末監(jiān)測(cè)模擬試題含解析
- 體育賽事活動(dòng)策劃實(shí)戰(zhàn)面試題
- 新疆烏魯木齊市70中2026屆化學(xué)高二第一學(xué)期期中考試試題含解析
- 青島消防面試題庫(kù)及答案:求職必 備的行業(yè)指南
- 專業(yè)解答一網(wǎng)打盡:九小面試題真題庫(kù)指南
- 求職必 備技能:巖土面試題目答案及解析精 編版
- 醫(yī)學(xué)招聘面試題庫(kù)精 編
- 男空乘站姿講解
- 卓越面試經(jīng)驗(yàn):企業(yè)服務(wù)面試題目及答案精 編
- 行業(yè)前沿人才招募:面試技巧:優(yōu)缺點(diǎn)面試題目的實(shí)戰(zhàn)應(yīng)用
- 民族文化宮2025年公開招聘17人筆試模擬試題含答案詳解
- 2025年幼兒園教師專業(yè)考試試題及答案書
- 2025秋新部編版一年級(jí)上冊(cè)語(yǔ)文教學(xué)計(jì)劃+教學(xué)進(jìn)度表
- 2025年國(guó)家公務(wù)員考試行測(cè)真題及答案(完整版)
- 小型企業(yè)網(wǎng)絡(luò)構(gòu)建:VPN設(shè)置與配置詳解
- 消化道內(nèi)異物疑難病例討論
- 2025年預(yù)防接種技能競(jìng)賽征集試題
- 道路運(yùn)輸安全生產(chǎn)法律法規(guī)有哪些
- 年度述職活動(dòng)方案
- 抗衰老培訓(xùn)課件
- 腫瘤科講課課件
評(píng)論
0/150
提交評(píng)論