2025年大數(shù)據(jù)分析考試試卷及答案_第1頁
2025年大數(shù)據(jù)分析考試試卷及答案_第2頁
2025年大數(shù)據(jù)分析考試試卷及答案_第3頁
2025年大數(shù)據(jù)分析考試試卷及答案_第4頁
2025年大數(shù)據(jù)分析考試試卷及答案_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

2025年大數(shù)據(jù)分析考試試卷及答案一、單項選擇題(每題2分,共20分)1.以下哪項不是Hadoop生態(tài)中用于處理實時流數(shù)據(jù)的組件?A.ApacheFlinkB.ApacheStormC.ApacheKafkaD.ApacheHBase答案:D(HBase是列式數(shù)據(jù)庫,用于離線存儲;Kafka是消息隊列,可結(jié)合Flink/Storm處理流數(shù)據(jù))2.數(shù)據(jù)傾斜(DataSkew)最可能導(dǎo)致分布式計算中的哪種問題?A.內(nèi)存溢出(OOM)B.任務(wù)執(zhí)行時間顯著不均衡C.數(shù)據(jù)一致性丟失D.網(wǎng)絡(luò)傳輸延遲增加答案:B(數(shù)據(jù)傾斜指部分分區(qū)數(shù)據(jù)量遠大于其他分區(qū),導(dǎo)致對應(yīng)任務(wù)執(zhí)行緩慢)3.在機器學(xué)習(xí)中,若模型在訓(xùn)練集上準確率為95%,測試集上準確率為60%,最可能的原因是?A.欠擬合B.過擬合C.數(shù)據(jù)量不足D.特征選擇不當(dāng)答案:B(訓(xùn)練集效果遠好于測試集,典型過擬合表現(xiàn))4.以下哪種聚類算法需要預(yù)先指定聚類數(shù)k?A.DBSCANB.層次聚類(Agglomerative)C.KmeansD.譜聚類(SpectralClustering)答案:C(Kmeans必須指定k值;DBSCAN基于密度參數(shù),層次聚類可動態(tài)確定)5.特征選擇中,互信息(MutualInformation)用于衡量?A.特征與目標變量的線性相關(guān)性B.特征與目標變量的非線性依賴關(guān)系C.特征之間的多重共線性D.特征的方差大小答案:B(互信息可捕捉任意函數(shù)關(guān)系,不限于線性)6.Spark中RDD的persist()方法默認存儲級別是?A.MEMORY_ONLYB.MEMORY_AND_DISKC.MEMORY_ONLY_SERD.DISK_ONLY答案:A(默認僅內(nèi)存存儲,不序列化)7.在時間序列分析中,ARIMA(p,d,q)模型中的d表示?A.自回歸階數(shù)B.差分次數(shù)C.移動平均階數(shù)D.季節(jié)周期數(shù)答案:B(d是使序列平穩(wěn)所需的差分次數(shù))8.以下哪種數(shù)據(jù)清洗方法不適用于處理異常值?A.用均值替換B.用上下四分位數(shù)范圍(IQR)截斷C.直接刪除異常值記錄D.用K近鄰(KNN)算法預(yù)測替換答案:A(均值易受異常值影響,替換可能引入偏差;IQR截斷、刪除或KNN更合理)9.計算兩個高維稀疏向量的相似度時,最適合的指標是?A.歐氏距離B.余弦相似度C.曼哈頓距離D.漢明距離答案:B(余弦相似度關(guān)注方向而非長度,適合稀疏高維向量)10.以下哪項不屬于數(shù)據(jù)湖(DataLake)的典型特征?A.存儲原始格式數(shù)據(jù)B.支持事務(wù)性ACID操作C.多類型數(shù)據(jù)混合存儲(結(jié)構(gòu)化/非結(jié)構(gòu)化)D.支持大數(shù)據(jù)分析與機器學(xué)習(xí)答案:B(數(shù)據(jù)湖通常不強調(diào)事務(wù)支持,數(shù)據(jù)倉庫或湖倉一體才關(guān)注ACID)二、填空題(每空1分,共15分)1.數(shù)據(jù)清洗的主要步驟包括缺失值處理、異常值檢測、重復(fù)值刪除和數(shù)據(jù)標準化/歸一化。2.混淆矩陣中,真正類率(TPR)的計算公式為TP/(TP+FN),假正類率(FPR)的計算公式為FP/(FP+TN)。3.SparkSQL中用于將DataFrame注冊為臨時視圖的方法是createOrReplaceTempView()。4.分布式計算中,MapReduce的Shuffle階段主要完成數(shù)據(jù)分區(qū)與排序操作,Spark的Shuffle則通過HashPartition或RangePartition實現(xiàn)數(shù)據(jù)重分布。5.特征工程中,對類別型特征常用的編碼方法有獨熱編碼(OneHotEncoding)、標簽編碼(LabelEncoding)和目標編碼(TargetEncoding)。6.梯度下降算法中,每次使用全部樣本計算梯度的是批量梯度下降(BatchGD),每次使用單個樣本的是隨機梯度下降(SGD),折中的是小批量梯度下降(MinibatchGD)。7.時間序列的四大組成部分是趨勢(Trend)、季節(jié)波動(Seasonality)、循環(huán)波動(Cycle)和隨機波動(Irregular)。三、簡答題(每題8分,共40分)1.簡述數(shù)據(jù)清洗中處理缺失值的常用方法及其適用場景。答案:(1)刪除法:包括刪除含缺失值的記錄(適用于缺失率低,且記錄間獨立性強)或刪除缺失率過高的特征(如缺失率>70%且無業(yè)務(wù)意義)。(2)填充法:均值/中位數(shù)填充(數(shù)值型,數(shù)據(jù)分布較均勻);眾數(shù)填充(類別型);插值法(時間序列,如線性插值、拉格朗日插值);模型預(yù)測填充(如用KNN、回歸模型預(yù)測缺失值,適用于缺失值與其他特征強相關(guān))。(3)保留缺失值:將缺失作為獨立類別(如類別型特征,缺失本身有業(yè)務(wù)含義,如“未填寫”)。2.對比Kmeans算法與DBSCAN算法的核心差異。答案:(1)聚類依據(jù):Kmeans基于距離(如歐氏距離),尋找類內(nèi)緊湊、類間分離的簇;DBSCAN基于密度,尋找由高密度區(qū)域分隔的低密度區(qū)域。(2)簇形狀:Kmeans適合凸形、球形簇;DBSCAN可發(fā)現(xiàn)任意形狀簇(如環(huán)形、不規(guī)則形)。(3)參數(shù)敏感性:Kmeans依賴初始質(zhì)心選擇和k值;DBSCAN依賴鄰域半徑ε和最小點數(shù)minPts,對噪聲敏感。(4)噪聲處理:Kmeans將所有點分配到簇,無噪聲點;DBSCAN可識別噪聲點(不屬于任何簇)。3.說明隨機森林(RandomForest)與梯度提升樹(GradientBoostingTree,GBDT)的主要區(qū)別。答案:(1)集成方式:隨機森林是并行集成(Bagging),各樹獨立訓(xùn)練;GBDT是串行集成(Boosting),每棵樹糾正前序樹的錯誤。(2)偏差方差權(quán)衡:隨機森林通過降低方差提高性能(多棵樹取平均);GBDT通過降低偏差提高性能(逐步擬合殘差)。(3)過擬合風(fēng)險:隨機森林對過擬合不敏感(樹間獨立,樣本/特征隨機);GBDT易過擬合(串行累加,需控制樹深度和學(xué)習(xí)率)。(4)計算效率:隨機森林可并行訓(xùn)練,適合大規(guī)模數(shù)據(jù);GBDT需串行,訓(xùn)練時間較長。4.對比Hive與SparkSQL在大數(shù)據(jù)處理中的優(yōu)缺點。答案:(1)計算引擎:Hive基于MapReduce,適合離線批處理,延遲高;SparkSQL基于內(nèi)存計算(RDD),支持實時/準實時處理,延遲低。(2)數(shù)據(jù)存儲:Hive數(shù)據(jù)默認存儲在HDFS;SparkSQL可對接HDFS、HBase、JDBC等多數(shù)據(jù)源。(3)適用場景:Hive適合復(fù)雜ETL、離線報表;SparkSQL適合交互式查詢、流批一體(如結(jié)合StructuredStreaming)。(4)生態(tài)集成:Hive與Hadoop生態(tài)(如HBase、Pig)集成成熟;SparkSQL與MLlib、GraphX集成更緊密,支持機器學(xué)習(xí)與圖計算。5.簡述特征工程中“特征縮放”(FeatureScaling)的目的及常用方法。答案:目的:消除特征間量綱差異,避免模型對大數(shù)值特征過度敏感(如梯度下降中更新步長受影響),提升模型訓(xùn)練效率和效果(如KNN、SVM、神經(jīng)網(wǎng)絡(luò)等對尺度敏感的算法)。常用方法:(1)歸一化(MinMaxScaling):將特征縮放到[0,1],公式:(xmin)/(maxmin),適用于分布未知或需要保留原始范圍的場景。(2)標準化(ZScoreNormalization):將特征縮放到均值0、標準差1,公式:(xμ)/σ,適用于特征服從正態(tài)分布或模型假設(shè)數(shù)據(jù)正態(tài)(如線性回歸、SVM)。(3)對數(shù)變換:對偏態(tài)分布特征取對數(shù),使其更接近正態(tài)(如收入、用戶行為次數(shù))。四、計算題(每題10分,共20分)1.某數(shù)據(jù)集包含兩個類別(正類、負類),特征A的取值為{1,2,3}。已知樣本分布如下:|特征A|正類樣本數(shù)|負類樣本數(shù)||||||1|8|2||2|4|6||3|3|7|計算特征A的信息增益(假設(shè)總樣本中正負類比例為15:15)。(提示:信息熵公式H(S)=p+log2(p+)plog2(p))答案:步驟1:計算原始熵H(S)總樣本數(shù)N=30,正類p+=15/30=0.5,負類p=0.5H(S)=0.5log2(0.5)0.5log2(0.5)=1bit步驟2:計算特征A各取值的條件熵H(S|A)A=1時,樣本數(shù)n1=10,p+1=8/10=0.8,p1=0.2H(S|A=1)=0.8log2(0.8)0.2log2(0.2)≈0.7219bitA=2時,樣本數(shù)n2=10,p+2=4/10=0.4,p2=0.6H(S|A=2)=0.4log2(0.4)0.6log2(0.6)≈0.9709bitA=3時,樣本數(shù)n3=10,p+3=3/10=0.3,p3=0.7H(S|A=3)=0.3log2(0.3)0.7log2(0.7)≈0.8813bit條件熵H(S|A)=(10/30)0.7219+(10/30)0.9709+(10/30)0.8813≈(0.7219+0.9709+0.8813)/3≈0.8580bit步驟3:信息增益IG(A)=H(S)H(S|A)=10.8580=0.142bit2.某二分類模型的預(yù)測結(jié)果如下(實際正類100個,實際負類200個):真正例(TP)=70假正例(FP)=30假負例(FN)=30真負例(TN)=170計算準確率(Accuracy)、精確率(Precision)、召回率(Recall)和F1分數(shù)。答案:準確率=(TP+TN)/(TP+TN+FP+FN)=(70+170)/(70+170+30+30)=240/300=0.8(80%)精確率=TP/(TP+FP)=70/(70+30)=0.7(70%)召回率=TP/(TP+FN)=70/(70+30)=0.7(70%)F1分數(shù)=2(精確率召回率)/(精確率+召回率)=2(0.70.7)/(0.7+0.7)=0.7(70%)五、綜合題(25分)某電商平臺需分析用戶復(fù)購行為(復(fù)購=1,未復(fù)購=0),現(xiàn)有用戶行為數(shù)據(jù)包含以下字段:用戶ID、年齡、性別、歷史購買金額(元)、近30天登錄次數(shù)、近30天加購商品數(shù)、近30天收藏商品數(shù)、近1年退貨率(退貨訂單數(shù)/總訂單數(shù))、目標變量(復(fù)購標志)。請設(shè)計分析流程,并回答以下問題:(1)數(shù)據(jù)預(yù)處理階段需要完成哪些關(guān)鍵步驟?(2)如何選擇特征并驗證其重要性?(3)若選擇邏輯回歸模型,需注意哪些問題?(4)模型評估時,除準確率外還需關(guān)注哪些指標?為什么?答案:(1)數(shù)據(jù)預(yù)處理關(guān)鍵步驟:①缺失值處理:檢查各字段缺失率(如年齡缺失可填充均值/中位數(shù);退貨率缺失可能因無訂單,可填充0或單獨標記)。②異常值檢測:用IQR法或Zscore識別歷史購買金額、登錄次數(shù)等的異常值(如購買金額為負數(shù),需修正或刪除)。③特征轉(zhuǎn)換:類別型特征(性別):獨熱編碼或標簽編碼(若類別少用獨熱)。連續(xù)型特征(年齡、購買金額):可分箱(如年齡分1825、2635等區(qū)間),提升模型魯棒性。退貨率(01):保留原始值或?qū)?shù)變換(若分布偏態(tài))。④數(shù)據(jù)標準化:邏輯回歸等模型需對連續(xù)特征標準化(如Zscore),避免量綱影響。⑤劃分訓(xùn)練集/測試集:按7:3或8:2劃分,分層抽樣(保持復(fù)購類分布一致)。(2)特征選擇與重要性驗證:①特征選擇方法:統(tǒng)計方法:計算各特征與目標變量的相關(guān)系數(shù)(如點二列相關(guān)系數(shù),適用于連續(xù)特征與二分類目標);卡方檢驗(類別型特征與目標的獨立性)。模型方法:使用隨機森林的特征重要性(基于基尼系數(shù)減少量);邏輯回歸的系數(shù)絕對值(系數(shù)越大,特征越重要)。正則化:L1正則化(Lasso)可自動篩選特征(系數(shù)為0的特征剔除)。②驗證重要性:通過交叉驗證(如5折CV)比較包含/排除某特征后的模型性能變化(如AUC提升是否顯著);或使用SHAP值(模型無關(guān)的特征重要性解釋)。(3)邏輯回歸模型需注意的問題:①多重共線性:檢查特征間相關(guān)性(如近30天加購數(shù)與收藏數(shù)可能高度相關(guān)),可用VIF(方差膨脹因子)檢測,若VIF>5需處理(刪

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論