




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
2025年人工智能與機(jī)器學(xué)習(xí)課程期末考試題及答案一、單項(xiàng)選擇題(每題2分,共20分)1.在機(jī)器學(xué)習(xí)模型訓(xùn)練中,若驗(yàn)證集誤差遠(yuǎn)小于測(cè)試集誤差,最可能的原因是:A.模型欠擬合B.數(shù)據(jù)泄露(DataLeakage)C.學(xué)習(xí)率過大D.正則化強(qiáng)度過高2.以下?lián)p失函數(shù)中,最適合處理類別不平衡二分類任務(wù)的是:A.均方誤差(MSE)B.交叉熵?fù)p失(Cross-Entropy)C.FocalLossD.HingeLoss3.關(guān)于BatchNormalization(BN)的描述,錯(cuò)誤的是:A.通常應(yīng)用在激活函數(shù)之后B.減少內(nèi)部協(xié)變量偏移(InternalCovariateShift)C.允許使用更大的學(xué)習(xí)率D.在推理時(shí)使用訓(xùn)練階段統(tǒng)計(jì)的均值和方差4.假設(shè)一個(gè)深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時(shí)出現(xiàn)“梯度消失”,最不可能的原因是:A.使用Sigmoid激活函數(shù)B.網(wǎng)絡(luò)層數(shù)過深C.使用He初始化D.未使用殘差連接(ResidualConnection)5.在Transformer模型中,“位置編碼(PositionalEncoding)”的主要作用是:A.替代循環(huán)神經(jīng)網(wǎng)絡(luò)處理序列順序B.增加模型的參數(shù)量C.提升模型的并行計(jì)算能力D.增強(qiáng)特征的空間相關(guān)性6.強(qiáng)化學(xué)習(xí)中,“策略梯度(PolicyGradient)”方法直接優(yōu)化的目標(biāo)是:A.狀態(tài)值函數(shù)(StateValueFunction)B.動(dòng)作值函數(shù)(ActionValueFunction)C.策略的期望累積獎(jiǎng)勵(lì)D.環(huán)境的轉(zhuǎn)移概率7.評(píng)估目標(biāo)檢測(cè)模型性能時(shí),若某樣本的預(yù)測(cè)框與真實(shí)框的IoU為0.6,且類別正確,則該樣本屬于:A.真陽性(TP)B.假陽性(FP)C.真陰性(TN)D.假陰性(FN)8.生成對(duì)抗網(wǎng)絡(luò)(GAN)中,判別器(Discriminator)的訓(xùn)練目標(biāo)是:A.最小化生成數(shù)據(jù)與真實(shí)數(shù)據(jù)的分布差異B.最大化將真實(shí)數(shù)據(jù)判斷為“真”、生成數(shù)據(jù)判斷為“假”的概率C.最小化生成數(shù)據(jù)的多樣性D.最大化生成數(shù)據(jù)的清晰度9.在自然語言處理中,BERT模型的預(yù)訓(xùn)練任務(wù)不包括:A.掩碼語言模型(MLM)B.下一句預(yù)測(cè)(NSP)C.情感傾向分類(SentimentClassification)D.詞元預(yù)測(cè)(TokenPrediction)10.關(guān)于隨機(jī)森林(RandomForest)的描述,正確的是:A.所有決策樹使用相同的訓(xùn)練數(shù)據(jù)B.每個(gè)樹的分裂特征子集是隨機(jī)選擇的C.只能處理分類任務(wù),不能處理回歸任務(wù)D.相比單棵決策樹,更容易過擬合二、填空題(每空1分,共15分)1.決策樹中常用的分裂準(zhǔn)則包括信息增益、基尼系數(shù)和__________。2.線性回歸的閉式解(解析解)公式為__________(用矩陣表示)。3.反向傳播(Backpropagation)的核心思想是利用__________法則,從輸出層向輸入層逐層計(jì)算梯度。4.循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)在處理長序列時(shí)容易出現(xiàn)__________問題,主要原因是梯度在反向傳播時(shí)發(fā)生指數(shù)級(jí)衰減或爆炸。5.BatchNormalization的計(jì)算步驟包括:對(duì)每個(gè)批次的輸入計(jì)算均值和方差,然后進(jìn)行__________和__________操作。6.注意力機(jī)制的核心計(jì)算公式為:Attention(Q,K,V)=softmax(__________)V。7.生成對(duì)抗網(wǎng)絡(luò)(GAN)的目標(biāo)函數(shù)可表示為:min_Gmax_D[E_{x~p_data}logD(x)+E_{z~p_z}log(1-D(G(z)))],其中G是生成器,D是__________。8.隨機(jī)森林的“隨機(jī)”體現(xiàn)在兩個(gè)方面:一是__________的隨機(jī)選擇,二是__________的隨機(jī)選擇。9.LSTM(長短期記憶網(wǎng)絡(luò))通過三個(gè)門控結(jié)構(gòu)控制信息流動(dòng),分別是輸入門、遺忘門和__________。10.BERT模型在預(yù)訓(xùn)練階段使用的兩種任務(wù)是__________和下一句預(yù)測(cè)(NSP)。三、簡(jiǎn)答題(每題5分,共30分)1.簡(jiǎn)述支持向量機(jī)(SVM)與邏輯回歸(LogisticRegression)在建模目標(biāo)和優(yōu)化方法上的主要區(qū)別。2.解釋深度學(xué)習(xí)中的“表示學(xué)習(xí)(RepresentationLearning)”,并說明其與傳統(tǒng)特征工程的本質(zhì)差異。3.分析深度神經(jīng)網(wǎng)絡(luò)中梯度消失(VanishingGradient)的主要原因,并列舉至少兩種常用的解決方法。4.說明Transformer模型中“多頭注意力(Multi-HeadAttention)”的作用,為什么需要“多頭”而非“單頭”?5.對(duì)比監(jiān)督學(xué)習(xí)(SupervisedLearning)與強(qiáng)化學(xué)習(xí)(ReinforcementLearning)的核心區(qū)別,舉例說明各自適用的場(chǎng)景。6.解釋為什么隨機(jī)森林(RandomForest)比單棵決策樹更魯棒(Robust),并說明其可能的局限性。四、算法推導(dǎo)題(每題8分,共24分)1.推導(dǎo)邏輯回歸(LogisticRegression)的極大似然估計(jì)目標(biāo)函數(shù),并給出參數(shù)的梯度更新公式(假設(shè)使用梯度下降優(yōu)化)。2.推導(dǎo)卷積神經(jīng)網(wǎng)絡(luò)(CNN)中卷積層反向傳播時(shí),權(quán)值參數(shù)的梯度計(jì)算過程(假設(shè)輸入特征圖為X,卷積核為W,輸出特征圖為Y,損失函數(shù)為L)。3.推導(dǎo)Transformer中縮放點(diǎn)積注意力(ScaledDot-ProductAttention)的梯度,假設(shè)查詢向量Q的梯度為?L/?A(A為注意力分?jǐn)?shù)矩陣),求?L/?Q(需寫出關(guān)鍵步驟)。五、編程題(共11分)使用PyTorch實(shí)現(xiàn)一個(gè)簡(jiǎn)單的卷積神經(jīng)網(wǎng)絡(luò)(CNN)用于MNIST手寫數(shù)字分類任務(wù),要求:(1)模型結(jié)構(gòu)包含2個(gè)卷積層(每個(gè)卷積層后接ReLU激活和最大池化)、1個(gè)全連接層;(2)實(shí)現(xiàn)數(shù)據(jù)加載(使用torchvision.datasets.MNIST),并進(jìn)行標(biāo)準(zhǔn)化預(yù)處理(均值0.1307,標(biāo)準(zhǔn)差0.3081);(3)定義交叉熵?fù)p失函數(shù)和Adam優(yōu)化器(學(xué)習(xí)率0.001);(4)編寫訓(xùn)練循環(huán)(5個(gè)epoch),并輸出每個(gè)epoch的訓(xùn)練損失和測(cè)試準(zhǔn)確率;(5)在代碼中添加必要的注釋,確保可讀性。---答案與解析一、單項(xiàng)選擇題1.B(數(shù)據(jù)泄露會(huì)導(dǎo)致驗(yàn)證集與測(cè)試集數(shù)據(jù)分布不一致,驗(yàn)證集誤差被低估)2.C(FocalLoss通過調(diào)整類別權(quán)重解決不平衡問題)3.A(BN通常應(yīng)用在激活函數(shù)之前,避免激活后的飽和區(qū)域影響歸一化效果)4.C(He初始化專門用于緩解ReLU激活的梯度消失問題)5.A(位置編碼通過正弦/余弦函數(shù)或可學(xué)習(xí)參數(shù)為序列中的位置建模,替代RNN的順序感知)6.C(策略梯度直接優(yōu)化策略的期望累積獎(jiǎng)勵(lì),屬于基于策略的強(qiáng)化學(xué)習(xí)方法)7.A(目標(biāo)檢測(cè)中,IoU≥0.5(或自定義閾值)且類別正確為TP)8.B(判別器的目標(biāo)是區(qū)分真實(shí)數(shù)據(jù)與生成數(shù)據(jù),最大化正確分類的概率)9.C(情感分類是微調(diào)任務(wù),非預(yù)訓(xùn)練任務(wù))10.B(隨機(jī)森林通過自助采樣(Bootstrap)選擇數(shù)據(jù)子集,并隨機(jī)選擇特征子集進(jìn)行分裂)二、填空題1.均方誤差(MSE,用于回歸任務(wù))2.?=(X^TX)^{-1}X^Ty(假設(shè)X為設(shè)計(jì)矩陣,y為標(biāo)簽向量)3.鏈?zhǔn)剑–hainRule)4.梯度消失/爆炸(GradientVanishing/Exploding)5.歸一化(Normalization)、縮放與平移(Scale&Shift)6.(QK^T)/√d_k(d_k為鍵向量維度)7.判別器(Discriminator)8.訓(xùn)練樣本(自助采樣)、分裂特征(特征子集隨機(jī)選擇)9.輸出門(OutputGate)10.掩碼語言模型(MaskedLanguageModel,MLM)三、簡(jiǎn)答題1.主要區(qū)別:-建模目標(biāo):SVM通過最大化間隔(Margin)優(yōu)化,關(guān)注決策邊界的魯棒性;邏輯回歸通過最小化交叉熵?fù)p失優(yōu)化,關(guān)注類別概率的建模。-優(yōu)化方法:SVM通常使用凸優(yōu)化(如SMO算法)求解,邏輯回歸使用梯度下降等迭代方法。SVM對(duì)異常值更敏感(需調(diào)整懲罰參數(shù)C),邏輯回歸通過正則化控制復(fù)雜度。2.表示學(xué)習(xí)是指讓模型自動(dòng)從數(shù)據(jù)中學(xué)習(xí)有用的特征表示,無需人工設(shè)計(jì)特征。傳統(tǒng)特征工程依賴領(lǐng)域知識(shí)手動(dòng)構(gòu)造特征(如圖像的HOG特征、文本的TF-IDF),而表示學(xué)習(xí)通過神經(jīng)網(wǎng)絡(luò)等模型逐層抽象(如從像素到邊緣、紋理、物體部件),底層特征到高層語義的自動(dòng)轉(zhuǎn)換,更適應(yīng)復(fù)雜數(shù)據(jù)分布。3.梯度消失原因:深度網(wǎng)絡(luò)中,梯度通過多層反向傳播時(shí),若激活函數(shù)的導(dǎo)數(shù)(如Sigmoid的導(dǎo)數(shù)最大為0.25)小于1,會(huì)導(dǎo)致梯度指數(shù)級(jí)衰減,底層參數(shù)更新緩慢。解決方法:-使用ReLU及其變體(如LeakyReLU),其導(dǎo)數(shù)在正區(qū)間為1,緩解梯度消失;-引入殘差連接(ResNet),通過跳躍連接(SkipConnection)提供梯度的直接傳播路徑;-合理初始化參數(shù)(如He初始化、Xavier初始化),保持各層梯度方差穩(wěn)定;-使用BatchNormalization,標(biāo)準(zhǔn)化輸入分布,減少內(nèi)部協(xié)變量偏移。4.多頭注意力將查詢(Q)、鍵(K)、值(V)向量劃分為多個(gè)頭(Head),每個(gè)頭獨(dú)立計(jì)算注意力,最后將結(jié)果拼接。作用:-捕捉不同子空間的注意力模式(如局部依賴、全局依賴),增強(qiáng)模型的表達(dá)能力;-多頭的并行計(jì)算不增加計(jì)算復(fù)雜度(總計(jì)算量與單頭相當(dāng)),但提升特征的多樣性;-相比單頭注意力,多頭能學(xué)習(xí)更豐富的注意力分布,避免單一模式的局限性。5.核心區(qū)別:-監(jiān)督學(xué)習(xí):通過輸入-標(biāo)簽對(duì)(x,y)學(xué)習(xí)映射f(x)→y,標(biāo)簽是明確的“正確答案”;-強(qiáng)化學(xué)習(xí):智能體通過與環(huán)境交互獲得延遲獎(jiǎng)勵(lì)(Reward),目標(biāo)是最大化長期累積獎(jiǎng)勵(lì),無直接標(biāo)簽,決策影響后續(xù)狀態(tài)。場(chǎng)景舉例:-監(jiān)督學(xué)習(xí):圖像分類(每張圖有明確類別標(biāo)簽);-強(qiáng)化學(xué)習(xí):機(jī)器人控制(每一步動(dòng)作的獎(jiǎng)勵(lì)需通過環(huán)境反饋間接獲得)。6.更魯棒的原因:-隨機(jī)森林通過自助采樣(Bootstrap)生成多個(gè)不同的訓(xùn)練子集,降低單一樣本噪聲的影響;-每個(gè)樹隨機(jī)選擇特征子集分裂,避免單棵樹對(duì)特定特征的過擬合;-集成多個(gè)樹的預(yù)測(cè)結(jié)果(投票/平均),減少方差(Variance),提高泛化能力。局限性:-對(duì)于高維稀疏數(shù)據(jù)(如文本),隨機(jī)森林的特征選擇可能不夠高效;-難以處理序列數(shù)據(jù)(如時(shí)間序列),因決策樹是基于特征的獨(dú)立分裂;-可解釋性較差,無法像單棵決策樹那樣清晰展示決策邏輯。四、算法推導(dǎo)題1.邏輯回歸的極大似然估計(jì):假設(shè)樣本獨(dú)立同分布,標(biāo)簽y∈{0,1},概率模型為:P(y=1|x;θ)=h_θ(x)=1/(1+e^{-θ^Tx}),P(y=0|x;θ)=1-h_θ(x)似然函數(shù):L(θ)=∏_{i=1}^m[h_θ(x^{(i)})]^{y^{(i)}}[1-h_θ(x^{(i)})]^{1-y^{(i)}}對(duì)數(shù)似然:l(θ)=∑_{i=1}^m[y^{(i)}logh_θ(x^{(i)})+(1-y^{(i)})log(1-h_θ(x^{(i)}))]目標(biāo)是最大化l(θ),等價(jià)于最小化負(fù)對(duì)數(shù)似然(交叉熵?fù)p失):J(θ)=-1/ml(θ)=-1/m∑[ylogh_θ(x)+(1-y)log(1-h_θ(x))]梯度計(jì)算:?J/?θ_j=1/m∑(h_θ(x^{(i)})-y^{(i)})x_j^{(i)}梯度下降更新:θ_j:=θ_j-α?J/?θ_j(α為學(xué)習(xí)率)2.卷積層反向傳播權(quán)值梯度推導(dǎo):設(shè)輸入特征圖X∈R^{H×W×C},卷積核W∈R^{k×k×C×N}(k為核大小,N為輸出通道數(shù)),輸出Y=XW(卷積操作)。損失L對(duì)W的梯度?L/?W可通過鏈?zhǔn)椒▌t計(jì)算:?L/?W=X??L/?Y其中“?”表示卷積的轉(zhuǎn)置操作(即輸入X與損失梯度?L/?Y的互相關(guān))。具體步驟:-對(duì)每個(gè)輸出通道n,計(jì)算該通道的梯度?L/?Y_n;-將X與?L/?Y_n進(jìn)行卷積(步長、填充與前向時(shí)一致),得到該通道核W_n的梯度;-所有通道的梯度組合為最終的?L/?W。3.縮放點(diǎn)積注意力梯度推導(dǎo)(以Q為例):注意力分?jǐn)?shù)A=QK^T/√d_k,注意力輸出O=softmax(A)V損失L對(duì)Q的梯度?L/?Q可通過:?L/?Q=(?L/?A)⊙(?A/?Q)其中?A/?Q=K^T/√d_k(因?yàn)锳=QK^T/√d_k,對(duì)Q求導(dǎo)為K^T/√d_k)但softmax的梯度需考慮其雅可比矩陣。設(shè)S=softmax(A),則?L/?A=(?L/?O)V^T⊙S(I-S^T)(其中I為單位矩陣)因此,?L/?Q=(?L/?O)V^T⊙S(I-S^T)(K^T/√d_k)五、編程題(Python代碼)```pythonimporttorchimporttorch.nnasnnimporttorch.optimasoptimfromtorchvisionimportdatasets,transformsfromtorch.utils.dataimportDataLoader數(shù)據(jù)預(yù)處理:標(biāo)準(zhǔn)化(均值0.1307,標(biāo)準(zhǔn)差0.3081)transform=transforms.Compose([transforms.ToTensor(),transforms.Normalize((0.1307,),(0.3081,))])加載MNIST數(shù)據(jù)集train_dataset=datasets.MNIST(root='./data',train=True,download=True,transform=transform)test_dataset=datasets.MNIST(root='./data',train=False,download=True,transform=transform)train_loader=DataLoader(train_dataset,batch_size=64,shuffle=True)test_loader=DataLoader(test_dataset,batch_size=1000,shuffle=False)定義CNN模型classCNN(nn.Module):def__init__(self):super(CNN,self).__init__()第一個(gè)卷積層:輸入1通道,輸出16通道,核大小3,步長1,填充1self.conv1=nn.Conv2d(1,16,3,padding=1)self.relu1=nn.ReLU()self.pool1=nn.MaxPool2d(2,2)池化后尺寸:(28→14)第二個(gè)卷積層:輸入16通道,輸出32通道,核大小3,步長1,填充1self.conv2=nn.Conv2d(16,32,3,padding=1)self.relu2=nn.ReLU()self.pool2=nn.MaxPool2d(2,2)池化后尺寸:(14→7)全連接層:輸入3277,輸出10類self.fc=nn.Linear(3277,10)defforward(self,x):x=self.conv1(x)(64,1,28,28)→(64,16,28,28)x=self.relu1(x)x=self.pool1(x)→(64,16,14,14)x=self.conv2(x)→(64,32,14,14)x=self.relu2(x)x=self.pool2(x)→(64,32,7,7)x=x.view(-1,3277)展平為一維向量x=self.fc(x)→(64,10)returnx初始化模型、損失函數(shù)和優(yōu)化器model=CNN()criterion=nn.CrossEntropyLoss()optimizer=optim.Adam(model.parameters(),lr=0.001)訓(xùn)練循環(huán)forepochinrange(5):
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 失智老人照護(hù)上海城建職業(yè)76課件
- 宿舍樓衛(wèi)生間與洗衣設(shè)施設(shè)計(jì)方案
- 建筑工程項(xiàng)目樓宇結(jié)構(gòu)安全監(jiān)測(cè)方案
- 水的基本知識(shí)培訓(xùn)總結(jié)
- 藥師培訓(xùn)基礎(chǔ)知識(shí)47課件
- 原發(fā)性高血壓82課件
- 中醫(yī)藥現(xiàn)代獻(xiàn)檢索醫(yī)學(xué)信息檢索78課件
- 二零二五年度門窗工程知識(shí)產(chǎn)權(quán)保護(hù)合同
- 二零二五年度土地整治與勘察設(shè)計(jì)合同
- 二零二五年度文化項(xiàng)目居間合同范本格式
- 鼓脹中醫(yī)護(hù)理
- 設(shè)備整廠出售合同協(xié)議
- 2025-2030中國高k和ALD和和CVD金屬前體行業(yè)市場(chǎng)發(fā)展趨勢(shì)與前景展望戰(zhàn)略研究報(bào)告
- 高考補(bǔ)習(xí)學(xué)生管理制度
- 2025年4月12日衢州事業(yè)單位及市直遴選(選調(diào))筆試真題及答案解析
- 占用林地補(bǔ)償協(xié)議書
- 大體積混凝土施工培訓(xùn)講義
- 壓力性損傷課件
- 班主任班級(jí)管理手冊(cè)
- 生產(chǎn)經(jīng)營單位從業(yè)人員安全培訓(xùn)檔案(一人一檔)
- 天津市語文高考試卷及答案指導(dǎo)(2025年)
評(píng)論
0/150
提交評(píng)論