




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第一章機器學習分哪幾類?它們之間有什么區(qū)別?機器學習可以分為監(jiān)督學習、無監(jiān)督學習和強化學習。有監(jiān)督學習算法接受已知的輸入數(shù)據(jù)集(包含預測變量)和對該數(shù)據(jù)集的已知響應(輸出,響應變量),然后訓練模型,使模型能夠?qū)π螺斎霐?shù)據(jù)的響應做出合理的預測。無監(jiān)督學習可發(fā)現(xiàn)數(shù)據(jù)中隱藏的模式或內(nèi)在結(jié)構(gòu)。這種技術(shù)可根據(jù)未做標記的輸入數(shù)據(jù)集得到推論。之所以被稱為無監(jiān)督學習,是因為與有監(jiān)督學習不同,沒有老師。依靠算法自己去發(fā)現(xiàn)并返回數(shù)據(jù)中有趣的結(jié)構(gòu)。強化學習是從動物學習、參數(shù)擾動自適應控制等理論發(fā)展而來。它把學習過程看做一個試探性評價過程,強化學習主要包含五個元素,Agent(智能體),Environment(環(huán)境),State(狀態(tài)),Action(行動),Reward(獎勵),強化學習的目標就是獲得最多的累計獎勵。機器學習三要素是什么?模型、策略、算法討論以下活動是否為機器學習的研究對象。按照性別來劃分客戶計算公司的總銷售額預測投擲一枚正常硬幣的結(jié)果根據(jù)某股票的歷史信息預測將來股票價格預測北冰洋的冰何時融化根據(jù)學生的答題歷史預測學生是否能答對下一題檢測是否信用卡欺詐讓計算機閱讀法律條文并解答法律問題4、5、6、7、8第二章什么是沒有免費午餐定理?對于基于迭代的最優(yōu)化算法,不存在某種算法對所有問題(有限的搜索空間內(nèi))都有效.如果一個算法對某些問題有效,那么它一定在另外一些問題上比純隨機搜索算法更差.也就是說,不能脫離具體問題來談?wù)撍惴ǖ膬?yōu)劣,任何算法都有局限性.必須要“具體問題具體分析”。名稱解釋:訓練集、驗證集和測試集。訓練集是用來訓練模型內(nèi)參數(shù)的數(shù)據(jù)集,驗證集用來選擇模型,測試集用來評價模型在未知樣本上的表現(xiàn),即泛化能力。有N個樣本,一半用于訓練,一半用于測試。若增大N值,則訓練誤差和測試誤差之間的差距會如何變化(B)A.增大B.減小增加數(shù)據(jù),能夠有效減小過擬合,減小訓練樣本誤差和測試樣本誤差之間的差距。評估完模型之后,發(fā)現(xiàn)模型存在高偏差(highbias),應該如何解決(B)A.減少模型的特征數(shù)量B.增加模型的特征數(shù)量C.增加樣本數(shù)量D.以上說法都正確如果模型存在高偏差(highbias),意味著模型過于簡單。為了使模型更加健壯,我們可以在特征空間中添加更多的特征。而添加樣本數(shù)量將減少方差。關(guān)于k折交叉驗證,下列說法正確的是(D)A.k值并不是越大越好,k值過大,會降低運算速度B.選擇更大的k值,會讓偏差更小,因為k值越大,訓練集越接近整個訓練樣本C.選擇合適的k值,能減小驗方差D.以上說法都正確下面有關(guān)分類算法的準確率,召回率,F(xiàn)1值的描述,錯誤的是(C)A.準確率是檢索出相關(guān)文檔數(shù)與檢索出的文檔總數(shù)的比率,衡量的是檢索系統(tǒng)的查準率B.召回率是指檢索出的相關(guān)文檔數(shù)和文檔庫中所有的相關(guān)文檔數(shù)的比率,衡量的是檢索系統(tǒng)的查全率C.正確率、召回率和F值取值都在0和1之間,數(shù)值越接近0,查準率或查全率就越高D.為了解決準確率和召回率沖突問題,引入了F1分數(shù)第三章線性回歸能完成的任務(wù)是(B)A.預測離散值
B.預測連續(xù)值
C.分類
D.聚類
構(gòu)建一個最簡單的線性回歸模型需要幾個系數(shù)(只有一個特征)(B)A.1個B.2個C.3個D.4個在構(gòu)建一個最簡單的線性回歸模型時,如果只有一個特征,那么我們需要兩個系數(shù)。這兩個系數(shù)分別是截距(intercept)和斜率(slope)以表示觀測值,表示回歸估計值,則普通最小二乘法估計參數(shù)的準則是(B)A.B.C.D.殘差平方和最小以下描述中,對梯度解釋正確的是(AB)A.梯度是一個向量,有方向有大小
B.求梯度就是對梯度向量的各個元素求偏導
C.梯度只有大小沒有方向
D.梯度只有方向沒有大小為什么要進行特征縮放?特征縮放的方法有哪些?特征縮放是為了:提升模型精度提升收斂速度特征縮放的作用就是消除特征的不同尺度所造成的偏差,具體的變換方法有以下這兩種:標準化(standardization)歸一化(normalization)第四章對于下面三個模型的訓練情況,下面說法正確的是(C)(1)第一張圖的訓練錯誤與其余兩張圖相比,是最大的(2)最后一張圖的訓練效果最好,因為訓練錯誤最小(3)第二張圖比第一和第三張圖魯棒性更強,是三個里面表現(xiàn)最好的模型(4)第三張圖相對前兩張圖過擬合了(5)三個圖表現(xiàn)一樣,因為我們還沒有測試數(shù)據(jù)集A.(1)和(2)B.(1)和(3)C.(1),(3)和(4)D.(5)機器學習中L1正則化和L2正則化的區(qū)別是(AD)A.使用L1可以得到稀疏的權(quán)值B.使用L1可以得到平滑的權(quán)值C.使用L2可以得到稀疏的權(quán)值D.使用L2可以得到平滑的權(quán)值下列哪種方法可以用來減小過擬合(ABCD)A.更多的訓練數(shù)據(jù)B.L1正則化C.L2正則化D.減小模型的復雜度下列關(guān)于Ridge回歸,說法正確的是(AC)A.若λ=0,則等價于一般的線性回歸B.若λ=0,則不等價于一般的線性回歸C.若λ=+∞,則得到的權(quán)重系數(shù)很小,接近于零D.若λ=+∞,則得到的權(quán)重系數(shù)很大,接近與無窮大簡要描述解決欠擬合與過擬合的方法?欠擬合解決方案增加新特征。可以考慮加入進特征組合、高次特征,來增大假設(shè)空間。添加多項式特征,這個在機器學習算法里面用的很普遍,例如將線性模型通過添加二次項或者三次項使模型泛化能力更強。減少正則化參數(shù),正則化的目的是用來防止過擬合的,但是模型出現(xiàn)了欠擬合,則需要減少正則化參數(shù)使用非線性模型,比如核SVM、決策樹、深度學習等模型。調(diào)整模型的容量(capacity),通俗地,模型的容量是指其擬合各種函數(shù)的能力。過擬合的解決方案正則化(Regularization)(L1和L2);數(shù)據(jù)擴增,即增加訓練數(shù)據(jù)樣本;降低模型的復雜度;減少迭代次數(shù);選擇簡單的模型。第五章1.使用邏輯回歸對樣本進行分類,得到訓練樣本的準確率和測試樣本的準確率?,F(xiàn)在,在數(shù)據(jù)中增加一個新的特征,其它特征保持不變。然后重新訓練測試。則下列說法正確的是(B)A.訓練樣本準確率一定會降低B.訓練樣本準確率一定增加或保持不變C.測試樣本準確率一定會降低D.測試樣本準確率一定增加或保持不變在模型中增加更多特征一般會增加訓練樣本的準確率,減小bias。但是測試樣本準確率不一定增加,除非增加的特征是有效特征。2.邏輯回歸將輸出概率限定在[0,1]之間。下列哪個函數(shù)起到這樣的作用(A)A.Sigmoid函數(shù)B.tanh函數(shù)C.ReLU函數(shù)D.LeakyReLU函數(shù)3.以下關(guān)于邏輯回歸與線性回歸問題的描述錯誤的是(D)A.線性回歸要求輸入輸出值呈線性關(guān)系,邏輯回歸不要求B.線性回歸計算方法一般是最小二乘法,邏輯回歸的參數(shù)計算方法是似然估計法。C.邏輯回歸用于處理分類問題,線性回歸用于處理回歸問題D.邏輯回歸一般要求變量服從正態(tài)分布,線性回歸一般不要求4.以下哪個是邏輯回歸的損失函數(shù)(B)?A.RMSEB.交叉熵(Cross-Entropy)損失函數(shù)C.MSED.MAE5.下列哪一項不是邏輯回歸的優(yōu)點(B)A.資源占用少B.處理非線性數(shù)據(jù)較容易C.模型形式簡單D.可解釋性好6.你正在訓練一個分類邏輯回歸模型。以下哪項陳述是正確的(A)?A.向模型中添加新特征總是會在訓練集上獲得相同或更好的性能B.將正則化引入到模型中,對于訓練集中沒有的樣本,總是可以獲得相同或更好的性能C.將正則化引入到模型中,總是能在訓練集上獲得相同或更好的性能D.在模型中添加許多新特性有助于防止訓練集過度擬合第六章1.k近鄰方法在什么情況下效果較好(B)A.樣本較多但典型性不好B.樣本較少但典型性好C.樣本呈團狀分布D.樣本呈鏈狀分布k-NN是一種懶惰學習算法,不需要顯式的訓練過程,而是在預測時計算測試樣本與所有訓練樣本的距離。因此,當樣本數(shù)量較少時,計算開銷較低,算法效率更高。此外,樣本的典型性越好(即樣本分布清晰、類別特征明顯),k-NN的分類或回歸效果越佳。2.下列哪個距離度量不在KNN算法中體現(xiàn):(
D)。A.歐氏距離B.切比雪夫距離C.曼哈頓距離D.余弦相似度3.以下哪項是KNN算法的缺點?(
A)?A.對異常值不敏感B.需要的內(nèi)存非常少C.低精度D.計算成本高4.關(guān)于KNN算法的描述,不正確的是(
C)。?A.可以用于分類B.可以用于回歸C.距離度量的方式通常用曼哈頓距離D.K值的選擇一般選擇一個較小的值5.影響KNN算法效果的主要因素包括(ACD)。?A.距離度量方式B.最鄰近數(shù)據(jù)的距離C.決策規(guī)則D.K的值第七章1.如果一個SVM模型出現(xiàn)欠擬合,那么下列哪種方法能解決這一問題?(A)A.增大懲罰參數(shù)C的值B.減小懲罰參數(shù)C的值C.減小核系數(shù)(gamma參數(shù))2.核函數(shù)的本質(zhì)是什么?核函數(shù)是計算兩個向量在隱式映射后空間中的內(nèi)積的函數(shù)。核函數(shù)通過先對特征向量做內(nèi)積,然后用函數(shù)K進行變換,這有利于避開直接在高維空間中計算,大大簡化問題求解。3.支持向量機的優(yōu)缺點是什么?算法優(yōu)點:(1)使用核函數(shù)可以向高維空間進行映射(2)使用核函數(shù)可以解決非線性的分類(3)分類思想很簡單,就是將樣本與決策面的間隔最大化(4)分類效果較好算法缺點:(1)SVM算法對大規(guī)模訓練樣本難以實施(2)用SVM解決多分類問題存在困難(3)對缺失數(shù)據(jù)敏感,對參數(shù)和核函數(shù)的選擇敏感第八章?1.假設(shè)會開車的本科生比例是15%,會開車的研究生比例是23%。若在某大學研究生占學生比例是20%,則會開車的學生是研究生的概率是多少?(D)A.23%B.80%
C.15%D.16.6%
2.下列關(guān)于樸素貝葉斯的特點說法錯誤的是(A)A.樸素貝葉斯模型無需假設(shè)特征條件獨立B.樸素貝葉斯模型發(fā)源于古典數(shù)學理論,數(shù)學基礎(chǔ)堅實C.樸素貝葉斯處理過程簡單,分類速度快D.樸素貝葉斯對小規(guī)模數(shù)據(jù)表現(xiàn)較好3.關(guān)于樸素貝葉斯,下列說法錯誤的是:(C)A.它實際上是將多條件下的條件概率轉(zhuǎn)換成了單一條件下的條件概率,簡化了計算B.樸素的意義在于它的一個天真的假設(shè):所有特征之間是相互獨立的C.樸素貝葉斯不需要使用聯(lián)合概率D.它是一個分類算法第九章1.以下關(guān)于決策樹算法說法錯誤的是(
B)。?A.CART算法選擇基尼系數(shù)來選擇屬性B.C4.5算法不能用于處理不完整數(shù)據(jù)C.C4.5算法選擇信息增益率來選擇屬性D.ID3算法選擇信息增益最大的特征作為當前決策節(jié)點?2.C4.5選擇屬性用的是(
C)。?A.信息熵B.交叉熵C.信息增益率D.信息增益3.決策樹有哪些代表算法(
ABD)?A.C4.5B.CART
C.CNND.ID3?4.決策樹的說法正確的是(
BCD)?A.不能處理連續(xù)型特征B.CART使用的是二叉樹C.其可作為分類算法,也可用于回歸模型D.它易于理解、可解釋性強第十章什么是聚類,聚類與分類的區(qū)別?聚類分析也被成為集群分析,基于生活中物以類聚的思想,聚類是將數(shù)據(jù)分類到不同的類或者簇這樣的一個過程,所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性,是對某個樣本或者指標進行分類多元統(tǒng)計分析的方法。聚類與分類的區(qū)別在于,分類的類別是已知的,通過對已知分類的數(shù)據(jù)進行訓練和學習,找到這些不同類的特征,再對未分類的數(shù)據(jù)進行分類。屬于監(jiān)督學習。而聚類事先不知道數(shù)據(jù)會分為幾類,通過聚類分析將數(shù)據(jù)聚合成幾個群體。聚類不需要對數(shù)據(jù)進行訓練和學習。屬于無監(jiān)督學習。K-means聚類中每個類別中心的初始點如何選擇?在kmeans聚類算法中,選擇初始點對聚類的結(jié)果影響很大,一般可以:(1)隨機選擇k個點作為初始質(zhì)心,由于隨機性較大,可能導致局部獲取最優(yōu)解;(2)多次運行,每次使用不同的初始點,最終選擇效果最好的結(jié)果,這種可以減少隨機性對結(jié)果的影響,提高算法的穩(wěn)定性;(3)手動選擇,在某些場景中,根據(jù)領(lǐng)域知識和經(jīng)驗選取初始點,以更好地滿足數(shù)據(jù)的特點3.K-means算法的優(yōu)點和缺點是什么?(1)k-means聚類算法的優(yōu)點:k-means聚類算法是一種簡單而高效的聚類方法,對于大數(shù)據(jù)集有較好的擴展性和效率。它易于實現(xiàn)并且計算量相對較小,因此在處理大規(guī)模數(shù)據(jù)時十分有效。此外,k-means算法的結(jié)果易于解釋,能夠快速收斂,適用于很多不同類型的數(shù)據(jù)集。(2)k-means聚類算法缺點:首先,k-means對初始聚類中心點的選擇較為敏感,不同的初始點可能導致不同的聚類結(jié)果。其次,k-means對數(shù)據(jù)集的分布要求較高,對異常值和噪聲敏感,容易受到極端值的影響。此外,k-means要求將每個數(shù)據(jù)點都分配到一個簇中,導致結(jié)果可能不夠靈活,對于非凸形狀的簇識別效果不佳。第十一章1.以下關(guān)于感知器說法錯誤的是(C)?A.感知器是最簡單的前饋式人工神經(jīng)網(wǎng)絡(luò)B.可為感知器的輸出值設(shè)置閾值使其用于處理分類問題C.單層感知器可以用于處理非線性學習問題D.感知器中的偏置只改變決策邊界的位置2.假定你在神經(jīng)網(wǎng)絡(luò)中的隱藏層中使用激活函數(shù)X。在特定神經(jīng)元給定任意輸入,你會得到輸出-0.01。X可能是以下哪一個激活函數(shù)(B)A.ReLUB.tanhC.SigmoidD.以上都有可能3.關(guān)于BP算法特點描述錯誤的是(A)。?A.計算之前不需要對訓練數(shù)據(jù)進行歸一化B.輸入信號順著輸入層、隱層、輸出層依次傳播C.預測誤差需逆向傳播,順序是輸出層、
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 三體系基礎(chǔ)知識培訓內(nèi)容課件
- 東營教師資格證面試題庫精 編:各類教育類題目及答案
- 大學生生物工程生產(chǎn)實習報告
- 大學生護士醫(yī)院見習報告
- 大學生入職心得體會
- 小兒腦癱翻身訓練課件
- 大學應屆畢業(yè)生個人實習報告
- 小兒腫瘤的麻醉課件
- 期貨從業(yè)資格之期貨投資分析考前沖刺分析含答案詳解(考試直接用)
- 客人住房酒店預訂合同范本
- 建筑材料供應詳細供貨方案及質(zhì)量保證措施
- 2025年檔案管理與信息資源利用考試試題及答案
- 工業(yè)空調(diào)培訓課件模板
- 臨床護理值班管理制度
- 老年呼吸系統(tǒng)疾病及護理
- 施工現(xiàn)場生態(tài)環(huán)境保護措施
- 2024年江蘇省阜寧縣安監(jiān)局公開招聘試題含答案分析
- 2025年鄉(xiāng)鎮(zhèn)土地租賃合同范本
- 快遞柜安裝協(xié)議書
- 2025年真空抽濾桶項目市場調(diào)查研究報告
- 陜西省特種設(shè)備隱患排查清單(2025年)
評論
0/150
提交評論