




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)科學(xué)與統(tǒng)計(jì)分析2025年考試試題及答案一、單項(xiàng)選擇題(每題2分,共20分)1.若隨機(jī)變量X服從參數(shù)為λ的泊松分布,且E[(X-1)(X-2)]=1,則λ的值為()。A.1B.2C.3D.42.在假設(shè)檢驗(yàn)中,若原假設(shè)H?為“某藥物無(wú)效”,則犯第一類錯(cuò)誤的含義是()。A.藥物實(shí)際無(wú)效,但結(jié)論認(rèn)為有效B.藥物實(shí)際有效,但結(jié)論認(rèn)為無(wú)效C.藥物實(shí)際無(wú)效,結(jié)論也認(rèn)為無(wú)效D.藥物實(shí)際有效,結(jié)論也認(rèn)為有效3.對(duì)于線性回歸模型Y=β?+β?X+ε(ε~N(0,σ2)),以下說(shuō)法錯(cuò)誤的是()。A.最小二乘估計(jì)量是β?和β?的無(wú)偏估計(jì)B.殘差的均值一定為0C.決定系數(shù)R2越接近1,模型擬合效果越好D.若X與Y的相關(guān)系數(shù)r=0.8,則β?一定為正4.在分類問題中,若真實(shí)類別為正類的樣本有100個(gè),模型預(yù)測(cè)為正類的樣本有80個(gè),其中正確預(yù)測(cè)的有70個(gè),則召回率(Recall)為()。A.70/80B.70/100C.80/100D.70/(100+80-70)5.以下哪種方法不屬于特征選擇的過(guò)濾法(FilterMethod)?()A.卡方檢驗(yàn)B.互信息法C.隨機(jī)森林重要性D.方差閾值法6.時(shí)間序列分析中,若ACF(自相關(guān)函數(shù))在k=2后截尾,PACF(偏自相關(guān)函數(shù))拖尾,則最可能的模型是()。A.AR(2)B.MA(2)C.ARMA(2,2)D.ARIMA(1,1,2)7.對(duì)于非平衡數(shù)據(jù)集(正類樣本占比5%),以下評(píng)價(jià)指標(biāo)中最不適用的是()。A.準(zhǔn)確率(Accuracy)B.F1分?jǐn)?shù)C.AUC-ROCD.精確率(Precision)8.以下關(guān)于K-means聚類的說(shuō)法,錯(cuò)誤的是()。A.初始聚類中心的選擇會(huì)影響最終結(jié)果B.適用于凸形狀的簇劃分C.要求數(shù)據(jù)具有可計(jì)算的歐氏距離D.可以直接處理類別型變量9.若使用梯度下降法優(yōu)化損失函數(shù)L(θ),當(dāng)學(xué)習(xí)率過(guò)大時(shí),最可能出現(xiàn)的現(xiàn)象是()。A.模型收斂速度變慢B.損失函數(shù)在最小值附近震蕩C.模型陷入局部最小值D.梯度消失10.在貝葉斯分類中,若先驗(yàn)概率P(C?)=P(C?)=0.5,且P(X|C?)=0.3,P(X|C?)=0.6,則后驗(yàn)概率P(C?|X)為()。A.0.5B.0.6C.2/3D.3/4二、簡(jiǎn)答題(每題8分,共40分)1.簡(jiǎn)述中心極限定理的核心內(nèi)容及其在統(tǒng)計(jì)推斷中的作用。2.解釋“過(guò)擬合”的定義,并說(shuō)明在機(jī)器學(xué)習(xí)中可通過(guò)哪些方法緩解過(guò)擬合。3.比較t檢驗(yàn)與Z檢驗(yàn)的適用場(chǎng)景,若樣本量n=20且總體方差未知,應(yīng)選擇哪種檢驗(yàn)?4.什么是數(shù)據(jù)標(biāo)準(zhǔn)化(Z-score標(biāo)準(zhǔn)化)與歸一化(Min-Max歸一化)?分別說(shuō)明其適用場(chǎng)景。5.隨機(jī)森林(RandomForest)與梯度提升樹(GradientBoostingTree)在模型構(gòu)建原理上的主要區(qū)別是什么?三、計(jì)算題(每題10分,共30分)1.某工廠生產(chǎn)的零件長(zhǎng)度服從正態(tài)分布N(μ,σ2),其中σ=0.5mm。現(xiàn)抽取25個(gè)零件,測(cè)得平均長(zhǎng)度為20.1mm。要求:(1)計(jì)算μ的95%置信區(qū)間;(2)若樣本量增加到100,其他條件不變,置信區(qū)間會(huì)如何變化?說(shuō)明原因。(Z?.???=1.96)2.某電商平臺(tái)想檢驗(yàn)兩種促銷策略(A和B)對(duì)用戶購(gòu)買轉(zhuǎn)化率的影響。隨機(jī)分配1000名用戶到A策略,其中120人購(gòu)買;分配800名用戶到B策略,其中100人購(gòu)買。要求:(1)建立假設(shè)檢驗(yàn)(α=0.05),判斷兩種策略的轉(zhuǎn)化率是否有顯著差異;(2)計(jì)算檢驗(yàn)統(tǒng)計(jì)量(Z檢驗(yàn)),并給出結(jié)論。(Z?.???=1.96)3.已知一組數(shù)據(jù)的回歸模型為Y=β?+β?X+ε,通過(guò)最小二乘法得到β?=2,β?=1.5,且殘差平方和SSE=100,總平方和SST=400。要求:(1)計(jì)算決定系數(shù)R2;(2)若X=5時(shí),預(yù)測(cè)Y的值;(3)說(shuō)明R2的實(shí)際意義。四、綜合分析題(共10分)某零售企業(yè)收集了2020-2024年的月銷售額數(shù)據(jù)(單位:萬(wàn)元),數(shù)據(jù)特征如下:-時(shí)間序列圖顯示明顯的上升趨勢(shì);-季節(jié)分解后,季節(jié)指數(shù)在12月為1.5(其他月份指數(shù)在0.8-1.2之間);-自相關(guān)函數(shù)(ACF)顯示滯后1-3期的自相關(guān)系數(shù)分別為0.8、0.6、0.4,之后逐漸衰減;-偏自相關(guān)函數(shù)(PACF)顯示滯后1期為0.7,滯后2期為0.2,滯后3期及以后接近0。要求:(1)判斷該時(shí)間序列是否平穩(wěn),說(shuō)明理由;(2)提出合適的時(shí)間序列模型(如ARIMA、SARIMA等),并說(shuō)明模型參數(shù)的選擇依據(jù);(3)若需預(yù)測(cè)2025年12月的銷售額,除時(shí)間序列模型外,還需考慮哪些外部因素?參考答案一、單項(xiàng)選擇題1.B(解析:E[(X-1)(X-2)]=E[X2-3X+2]=λ2+λ-3λ+2=λ2-2λ+2=1→λ=1或2,因泊松分布λ>0,故λ=2)2.A(第一類錯(cuò)誤為“棄真”,即原假設(shè)為真時(shí)拒絕原假設(shè))3.D(相關(guān)系數(shù)符號(hào)與β?符號(hào)一致,但r=0.8僅說(shuō)明線性相關(guān)程度,β?的具體值還與變量單位有關(guān))4.B(召回率=正確預(yù)測(cè)的正類/真實(shí)正類總數(shù)=70/100)5.C(隨機(jī)森林重要性屬于包裹法(WrapperMethod))6.B(MA(q)模型的ACF在q階截尾,PACF拖尾)7.A(非平衡數(shù)據(jù)中準(zhǔn)確率易受多數(shù)類影響,無(wú)法反映模型真實(shí)性能)8.D(K-means基于距離計(jì)算,類別型變量需轉(zhuǎn)換為數(shù)值型后才能使用)9.B(學(xué)習(xí)率過(guò)大可能導(dǎo)致步長(zhǎng)過(guò)大,跳過(guò)最小值點(diǎn),造成震蕩)10.C(P(C?|X)=P(X|C?)P(C?)/[P(X|C?)P(C?)+P(X|C?)P(C?)]=(0.6×0.5)/(0.3×0.5+0.6×0.5)=0.3/0.45=2/3)二、簡(jiǎn)答題1.中心極限定理核心:獨(dú)立同分布的隨機(jī)變量,當(dāng)樣本量n足夠大時(shí),其樣本均值的分布近似服從正態(tài)分布,無(wú)論原分布如何。作用:為大樣本統(tǒng)計(jì)推斷(如參數(shù)估計(jì)、假設(shè)檢驗(yàn))提供理論基礎(chǔ),使非正態(tài)總體的均值檢驗(yàn)可行。2.過(guò)擬合:模型在訓(xùn)練數(shù)據(jù)上表現(xiàn)很好,但在未見過(guò)的測(cè)試數(shù)據(jù)上表現(xiàn)差,即模型過(guò)度學(xué)習(xí)了訓(xùn)練數(shù)據(jù)中的噪聲和細(xì)節(jié)。緩解方法:增加樣本量、正則化(L1/L2正則)、早停法(EarlyStopping)、特征選擇(減少特征維度)、交叉驗(yàn)證、集成學(xué)習(xí)(如隨機(jī)森林)等。3.t檢驗(yàn)與Z檢驗(yàn)的區(qū)別:Z檢驗(yàn)適用于總體方差已知或大樣本(n≥30);t檢驗(yàn)適用于總體方差未知且小樣本(n<30)。當(dāng)n=20(小樣本)且總體方差未知時(shí),應(yīng)選擇t檢驗(yàn)。4.標(biāo)準(zhǔn)化(Z-score):將數(shù)據(jù)轉(zhuǎn)換為均值為0、標(biāo)準(zhǔn)差為1的分布,公式為(X-μ)/σ;適用于數(shù)據(jù)分布未知或存在異常值(對(duì)量綱不敏感)。歸一化(Min-Max):將數(shù)據(jù)縮放到[0,1]區(qū)間,公式為(X-X_min)/(X_max-X_min);適用于需要保留數(shù)據(jù)原始范圍(如神經(jīng)網(wǎng)絡(luò)輸入層)或數(shù)據(jù)分布接近均勻的場(chǎng)景。5.隨機(jī)森林通過(guò)自助采樣(Bootstrap)生成多個(gè)決策樹,每棵樹獨(dú)立訓(xùn)練,最終結(jié)果通過(guò)投票(分類)或平均(回歸)集成;梯度提升樹通過(guò)迭代訓(xùn)練,每棵新樹擬合前一棵樹的殘差(負(fù)梯度),通過(guò)累加所有樹的預(yù)測(cè)結(jié)果得到最終輸出。前者強(qiáng)調(diào)“并行”與“多樣性”,后者強(qiáng)調(diào)“串行”與“逐步修正誤差”。三、計(jì)算題1.(1)置信區(qū)間公式:\(\bar{X}\pmZ_{\alpha/2}\cdot\frac{\sigma}{\sqrt{n}}\)代入數(shù)據(jù):20.1±1.96×(0.5/√25)=20.1±0.196→(19.904,20.296)(2)樣本量n=100時(shí),標(biāo)準(zhǔn)誤σ/√n=0.5/10=0.05,置信區(qū)間為20.1±1.96×0.05=20.1±0.098→(20.002,20.198)。樣本量增大,標(biāo)準(zhǔn)誤減小,置信區(qū)間變窄,估計(jì)更精確。2.(1)假設(shè)H?:p?=p?(A、B策略轉(zhuǎn)化率無(wú)差異);H?:p?≠p?(有差異)(2)計(jì)算合并轉(zhuǎn)化率\(\hat{p}=(120+100)/(1000+800)=220/1800≈0.1222\)檢驗(yàn)統(tǒng)計(jì)量\(Z=\frac{\hat{p}_1-\hat{p}_2}{\sqrt{\hat{p}(1-\hat{p})(1/n?+1/n?)}}=\frac{0.12-0.125}{\sqrt{0.1222×0.8778×(1/1000+1/800)}}≈\frac{-0.005}{\sqrt{0.1073×0.00225}}≈-0.32\)|Z|=0.32<1.96,不拒絕H?,認(rèn)為兩種策略轉(zhuǎn)化率無(wú)顯著差異。3.(1)R2=1-SSE/SST=1-100/400=0.75(2)Y=2+1.5×5=9.5(3)R2=0.75表示模型解釋了75%的Y的變異,擬合效果較好。四、綜合分析題1.不平穩(wěn)。時(shí)間序列圖有明顯上升趨勢(shì),說(shuō)明均值隨時(shí)間變化;平穩(wěn)序列的均值、方差應(yīng)不隨時(shí)間改變。2.建議使用ARIMA模型。由于存在趨勢(shì),需
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025福建龍巖市第一醫(yī)院醫(yī)技、行政后勤崗位編外人員招聘7人考前自測(cè)高頻考點(diǎn)模擬試題附答案詳解(模擬題)
- 智能家居網(wǎng)絡(luò)信息安全守秘承諾書7篇范文
- 2025廣東南粵銀行資金運(yùn)營(yíng)中心招聘考前自測(cè)高頻考點(diǎn)模擬試題及答案詳解(網(wǎng)校專用)
- 2025年連云港市贛榆區(qū)事業(yè)單位公開招聘工作人員31人模擬試卷及答案詳解一套
- 2025年南昌大學(xué)第一附屬醫(yī)院碩士招聘31人考前自測(cè)高頻考點(diǎn)模擬試題及答案詳解(新)
- 2025北京郵電大學(xué)與通信工程學(xué)院招聘1人(人才派遣)(重發(fā))模擬試卷附答案詳解
- 員工培訓(xùn)效果評(píng)估模板及培訓(xùn)需求分析
- 2025江西職業(yè)技術(shù)大學(xué)高層次人才招聘51人模擬試卷附答案詳解(黃金題型)
- 湖南省部分學(xué)校2024-2025學(xué)年高一下學(xué)期期末考試地理試題(解析版)
- 2025年甘肅省民航航空發(fā)展有限公司職業(yè)經(jīng)理人選聘模擬試卷及參考答案詳解一套
- 《軍品價(jià)格管理辦法》
- 2025年會(huì)計(jì)師事務(wù)所招聘面試模擬題及解析
- 餐飲門迎培訓(xùn)課件
- 醫(yī)院培訓(xùn)鼠疫課件模板
- 基孔肯雅熱主題班會(huì)課件
- 2025年部編版三年級(jí)語(yǔ)文上冊(cè)全冊(cè)教案
- 心力衰竭的全程管理
- DB4201∕T 630.1-2020 中小學(xué)生研學(xué)旅行 第1部分:服務(wù)機(jī)構(gòu)評(píng)定與服務(wù)規(guī)范
- 學(xué)生文明上網(wǎng)班會(huì)課件
- 叮當(dāng)快藥大健康生態(tài)圈戰(zhàn)略解析
- 數(shù)學(xué)評(píng)比活動(dòng)方案
評(píng)論
0/150
提交評(píng)論