機(jī)器學(xué)習(xí)期末測(cè)試練習(xí)題3_第1頁
機(jī)器學(xué)習(xí)期末測(cè)試練習(xí)題3_第2頁
機(jī)器學(xué)習(xí)期末測(cè)試練習(xí)題3_第3頁
機(jī)器學(xué)習(xí)期末測(cè)試練習(xí)題3_第4頁
機(jī)器學(xué)習(xí)期末測(cè)試練習(xí)題3_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

、單選題1、以下關(guān)于感知器算法與支持向量機(jī)算法說法有誤的是由于支持向量機(jī)是基于所有訓(xùn)練數(shù)據(jù)尋找最大化間隔的超平面,而感知器算法卻是相對(duì)隨意的找一個(gè)分開兩類的超平面,因此大多數(shù)時(shí)候,支持向量機(jī)畫出的分類面往往比感知器算法好一些。支持向量機(jī)是把所有訓(xùn)練數(shù)據(jù)都輸入進(jìn)計(jì)算機(jī),讓計(jì)算機(jī)解全局優(yōu)化問題感知器算法相比于支持向量機(jī)算法消耗的計(jì)算資源和內(nèi)存資源更少,但是耗費(fèi)的計(jì)算資源更多以上選項(xiàng)都正確正確答案:C2、假設(shè)你在訓(xùn)練一個(gè)線性回歸模型,有下面兩句話:如果數(shù)據(jù)量較少,容易發(fā)生過擬合。如果假設(shè)空間較小,容易發(fā)生過擬合。關(guān)于這兩句話,下列說法正確的是?1正確,2錯(cuò)誤1和2都錯(cuò)誤1和2都正確1錯(cuò)誤,2正確正確答案:A3、下面哪一項(xiàng)不是比較好的學(xué)習(xí)率衰減方法?t表示為epoch數(shù)。a=1%12*t0C.a=0.95方。0正確答案:D4、你正在構(gòu)建一個(gè)識(shí)別足球(y二1)與籃球(y=0)的二元分類器。你會(huì)使用哪一種激活函數(shù)用于輸出層?ReLUtanhsigmoidLeakyReLU正確答案:C5、假設(shè)你建立一個(gè)神經(jīng)網(wǎng)絡(luò)。你決定將權(quán)重和偏差初始化為零。以下哪項(xiàng)陳述是正確的?第一個(gè)隱藏層中的每個(gè)神經(jīng)元將在第一次迭代中執(zhí)行相同的計(jì)算。但經(jīng)過一次梯度下降迭代后,他們將會(huì)計(jì)算出不同的結(jié)果。第一個(gè)隱藏層中的每個(gè)神經(jīng)元節(jié)點(diǎn)將執(zhí)行相同的計(jì)算。所以即使經(jīng)過多次梯度下降迭代后,層中的每個(gè)神經(jīng)元節(jié)點(diǎn)都會(huì)計(jì)算出與其他神經(jīng)元節(jié)點(diǎn)相同的結(jié)果。第一個(gè)隱藏層中的每一個(gè)神經(jīng)元都會(huì)計(jì)算出相同的結(jié)果,但是不同層的神經(jīng)元會(huì)計(jì)算不同的結(jié)果。即使在第一次迭代中,第一個(gè)隱藏層的神經(jīng)元也會(huì)執(zhí)行不同的計(jì)算,他們的參數(shù)將以各自方式進(jìn)行更新。正確答案:B6、某個(gè)神經(jīng)網(wǎng)絡(luò)中所有隱藏層神經(jīng)元使用tanh激活函數(shù)。那么如果使用np.random.randn(…,…)*1000將權(quán)重初始化為相對(duì)較大的值。會(huì)發(fā)生什么?這不會(huì)對(duì)訓(xùn)練產(chǎn)生影響。只要隨機(jī)初始化權(quán)重,梯度下降不受權(quán)重大小的影響。這會(huì)導(dǎo)致tanh的輸入也非常大,從而使梯度也變大。因此,你必須將學(xué)習(xí)率a設(shè)置得非常小以防止發(fā)散。這會(huì)減慢網(wǎng)絡(luò)參數(shù)學(xué)習(xí)速度。這會(huì)導(dǎo)致tanh的輸入也非常大,從而使梯度接近于零,優(yōu)化算法將因此變得緩慢。這會(huì)導(dǎo)致tanh的輸入也非常大,導(dǎo)致神經(jīng)元被“高度激活”,從而加快了學(xué)習(xí)速度。正確答案:C7、以下關(guān)于權(quán)重衰減說法正確的是?權(quán)重衰減通過賦予神經(jīng)元某個(gè)權(quán)值從而避免梯度消失當(dāng)數(shù)據(jù)集中有噪聲時(shí),權(quán)重衰減可以在訓(xùn)練中逐漸修正神經(jīng)網(wǎng)絡(luò)的權(quán)重權(quán)重衰減是一種正則化技術(shù),通過懲罰絕對(duì)值較大的模型參數(shù)為需要學(xué)習(xí)的模型增加了限制權(quán)重衰減是在訓(xùn)練過程中逐漸減少學(xué)習(xí)率正確答案:C8、當(dāng)你增加正則化超參數(shù)入時(shí)會(huì)發(fā)生什么?入翻倍后會(huì)導(dǎo)致權(quán)重也翻倍使權(quán)重變得更?。ㄚ吔?)每次迭代的梯度下降走的步長(zhǎng)更長(zhǎng)使權(quán)重變得更大(遠(yuǎn)離0)正確答案:B9、對(duì)訓(xùn)練數(shù)據(jù)歸一化的根本原因是?歸一化也可以說是一種正則化處理,可以提升模型泛化能力讓模型更快的收斂加快參數(shù)初始化過程更容易對(duì)數(shù)據(jù)進(jìn)行可視化正確答案:B10、如果你訓(xùn)練的模型代價(jià)函數(shù)J隨著迭代次數(shù)的增加,繪制出來的圖如下,那么無論你在使用mini-batch還是批量梯度下降,看上去都是合理的如果你正在使用mini-batch梯度下降,那可能有問題;而如果你在使用批量梯度下降,那是合理的如果你正在使用mini-batch梯度下降,那看上去是合理的;而如果你在使用批量梯度下降,那可能有問題無論你在使用mini-batch還是批量梯度下降,都可能有問題正確答案:C11、下圖中的曲線是由:梯度下降,動(dòng)量梯度下降(B=0.5)和動(dòng)量梯度下降(P=0.9)。哪條曲線對(duì)應(yīng)哪種算法?(1)是梯度下降;(2)是動(dòng)量梯度下降(B=0.9);(3)是動(dòng)量梯度下降(B=0.5)(1)是動(dòng)量梯度下降(B=0.5);(2)是動(dòng)量梯度下降(B=0.9);(3)是梯度下降(1)是動(dòng)量梯度下降(P=0.5);(2)是梯度下降;(3)是動(dòng)量梯度下降邙=0.9)都有可能正確答案:B12、關(guān)于Adam算法,下列哪一個(gè)陳述是錯(cuò)誤的?Adam中的學(xué)習(xí)率超參數(shù)a通常需要調(diào)整Adam優(yōu)化算法常用于批量梯度下降法中,而不是用于隨機(jī)(小批量)梯度下降法我們經(jīng)常使用超參數(shù)的默認(rèn)值仇=0.9,B2=0?999,e=10-8Adam結(jié)合了Rmsprop和動(dòng)量的優(yōu)點(diǎn)正確答案:B13、標(biāo)準(zhǔn)化公式z(i)=4什么要使用e?防止太小為了避免除零操作為了更準(zhǔn)確地標(biāo)準(zhǔn)化為了加速收斂正確答案:B14、在訓(xùn)練了具有批標(biāo)準(zhǔn)化的神經(jīng)網(wǎng)絡(luò)之后,在用新樣本評(píng)估神經(jīng)網(wǎng)絡(luò)性能時(shí),應(yīng)該跳過用和§2值標(biāo)準(zhǔn)化的步驟,因?yàn)橐粋€(gè)樣本不需要標(biāo)準(zhǔn)化使用在訓(xùn)練期間,通過指數(shù)加權(quán)平均值得出的和§2執(zhí)行所需的標(biāo)準(zhǔn)化如果你在batchsize為256的mini-batch上實(shí)現(xiàn)了批標(biāo)準(zhǔn)化,那么如果你要在一個(gè)測(cè)試樣本上進(jìn)行評(píng)估,你應(yīng)該將這個(gè)例子重復(fù)256次,這樣你就可以使用和訓(xùn)練時(shí)大小相同的mini-batch進(jìn)行預(yù)測(cè)。使用最后一個(gè)的mini-batch的和§2值來執(zhí)行所需的標(biāo)準(zhǔn)化正確答案:B15、以下關(guān)于ReLU函數(shù)說法錯(cuò)誤的是:ReLU函數(shù)的輸出是非零中心化的,給后一層的神經(jīng)網(wǎng)絡(luò)引入偏置偏移,會(huì)影響梯度下降的效率ReLU神經(jīng)元在訓(xùn)練時(shí)比較容易“死亡”.在訓(xùn)練時(shí),如果參數(shù)在一次不恰當(dāng)?shù)母潞?,第一個(gè)隱藏層中的某個(gè)ReLU神經(jīng)元在所有的訓(xùn)練數(shù)據(jù)上都不能被激活,那么這個(gè)神經(jīng)元自身參數(shù)的梯度永遠(yuǎn)都會(huì)是0,在以后的訓(xùn)練過程中永遠(yuǎn)不能被激活.LeakyReLU在輸入時(shí),保持一個(gè)很小的梯度,這樣當(dāng)神經(jīng)元非激活時(shí)也能有一個(gè)非零的梯度可以更新參數(shù),這在一定程度上緩解了梯度消失問題三個(gè)選項(xiàng)均正確正確答案:C二、多選題1、以下關(guān)于感知器算法說法正確的為只要是訓(xùn)練數(shù)據(jù)集線性可分,感知器算法就一定能收斂。感知機(jī)學(xué)習(xí)算法存在許多的解,對(duì)同一個(gè)訓(xùn)練集來說,感知機(jī)初值的選擇不同,最后得到的解就可能不同。多層感知器是感知器的推廣,克服了感知器不能對(duì)線性不可分?jǐn)?shù)據(jù)進(jìn)行識(shí)別的弱點(diǎn)。當(dāng)訓(xùn)練數(shù)據(jù)集線性不可分的情況下,袋式算法(PocketAlgorithm)使感知機(jī)也可以收斂于一個(gè)相對(duì)理想的解。正確答案:A、B、C、D2、以下屬于機(jī)器學(xué)習(xí)中用來防止過擬合的方法的是:權(quán)值衰減Weightdecay增加神經(jīng)網(wǎng)絡(luò)層數(shù)訓(xùn)練多個(gè)模型進(jìn)行融合輸出早停策略正確答案:A、C、D3、為什么最好的mini-batch的大小通常不是1也不是訓(xùn)練集總樣本數(shù)m,而是介于兩者之間?如果mini-batch的大小是1,那么你需要遍歷整個(gè)訓(xùn)練集后才能更新一次參數(shù)如果mini-batch的大小是m,就是隨機(jī)梯度下降,而這樣做經(jīng)常會(huì)比mini-batch慢如果mini-batch的大小是m,就是批量梯度下降。你需要遍歷整個(gè)訓(xùn)練集來更新參數(shù)如果mini-batch的大小是1,那么你將失去mini-batch將數(shù)據(jù)矢量化帶來的的好處正確答案:C、D4、批標(biāo)準(zhǔn)化中關(guān)于y和B的以下哪些陳述是正確的?Y和B的值確定了給定的批量歸一化層的輸出變量的均值和方差最佳值是Y=心2十g,B=卩Y和B是算法的超參數(shù),我們通過隨機(jī)米樣進(jìn)彳丁調(diào)整它們的值可以通過Adam、AdaGrad或RMSprop優(yōu)化算法來學(xué)習(xí)正確答案:A、D5、關(guān)于超參數(shù)優(yōu)化的說法正確的有:超參數(shù)優(yōu)化是一個(gè)組合優(yōu)化問題,無法像一般參數(shù)那樣通過梯度下降方法來優(yōu)化評(píng)估一組超參數(shù)配置的時(shí)間代價(jià)非常高,從而導(dǎo)致一些優(yōu)化方法(比如演化算法)在超參數(shù)優(yōu)化中難以應(yīng)用采用網(wǎng)格搜索會(huì)在不重要的超參數(shù)上進(jìn)行不必要的嘗試.一種在實(shí)踐中比較有效的改進(jìn)方法是對(duì)超參數(shù)進(jìn)彳隨機(jī)組合,然后選取一個(gè)性能最好的配置神經(jīng)架構(gòu)搜索(NAS)也是神經(jīng)網(wǎng)絡(luò)超參數(shù)優(yōu)化的一種方法。它的原理是給定一個(gè)稱為搜索空間的候選神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)集合,用某種策略從中搜索出最優(yōu)網(wǎng)絡(luò)結(jié)構(gòu)。正確答案:A、B、C、D6、以下屬于權(quán)重初始化方法的有?kaiming初始化均勻分布初始化(uniform)xavier初始化高斯初始化(gaussian)正確答案:A、B、C、D7、神經(jīng)網(wǎng)絡(luò)中常見的超參數(shù)有?隱藏層數(shù)目正則化參數(shù)梯度下降法迭代的步數(shù)批大小正確答案:A、B、C、D8、現(xiàn)在我們?cè)龃笈刻荻认陆抵械腷atchsize超參數(shù),與之前相比可能會(huì)發(fā)生什么變化??jī)?nèi)存利用率提高了,大矩陣乘法的并行化效率提高。跑完一次epoch(全數(shù)據(jù)集)所需的迭代次數(shù)減少,對(duì)于相同數(shù)據(jù)量的處理速度進(jìn)一步加快。同樣的模型要想達(dá)到相同的精度,其訓(xùn)練所花費(fèi)的時(shí)間與增大前幾乎相同。—般來說batchSize越大,其確定的下降方向越準(zhǔn),引起訓(xùn)練loss震蕩越小。正確答案:A、B、D三、判斷題1、sigmoid函數(shù)不是關(guān)于原點(diǎn)中心對(duì)稱的,這會(huì)導(dǎo)致之后的網(wǎng)絡(luò)層的輸出也不是零中心的,進(jìn)而影響梯度下降運(yùn)作。tanh激活函數(shù)解決了這個(gè)不足。(V)2、Adagrad和RMSprop這兩種自適應(yīng)學(xué)習(xí)率的方式稍有差異,但主要思想都是基于歷史的累計(jì)梯度去計(jì)算一個(gè)當(dāng)前較優(yōu)的學(xué)習(xí)率。(V)3、在標(biāo)準(zhǔn)的隨機(jī)梯度下降中,權(quán)重衰減正則化和12正則化的效果相同.因此,權(quán)重衰減在一些深度學(xué)習(xí)框架中通過12正則化來實(shí)現(xiàn).但是,在較為復(fù)雜的優(yōu)化方法(比如Adam)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論