




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
2025年數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)考試題及答案一、單項選擇題(每題2分,共20分)1.以下關(guān)于數(shù)據(jù)湖(DataLake)與數(shù)據(jù)倉庫(DataWarehouse)的描述中,錯誤的是()。A.數(shù)據(jù)湖存儲原始數(shù)據(jù)(RawData),數(shù)據(jù)倉庫存儲經(jīng)過清洗、結(jié)構(gòu)化的數(shù)據(jù)B.數(shù)據(jù)湖支持多類型數(shù)據(jù)(結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化),數(shù)據(jù)倉庫以結(jié)構(gòu)化數(shù)據(jù)為主C.數(shù)據(jù)湖的典型應(yīng)用場景是實時分析,數(shù)據(jù)倉庫更適合歷史報表D.數(shù)據(jù)湖通常使用對象存儲(如S3、HDFS),數(shù)據(jù)倉庫多使用關(guān)系型數(shù)據(jù)庫2.在特征工程中,對“用戶年齡”字段(取值范圍1-120)進(jìn)行分箱處理時,若采用等頻分箱(分5箱),則每個箱內(nèi)樣本數(shù)占比約為()。A.10%B.20%C.25%D.30%3.某分布式系統(tǒng)中,主節(jié)點故障后,通過Raft協(xié)議重新選舉領(lǐng)導(dǎo)者時,關(guān)鍵步驟不包括()。A.候選節(jié)點發(fā)起投票請求(RequestVote)B.所有節(jié)點進(jìn)入跟隨者(Follower)狀態(tài)C.節(jié)點根據(jù)日志完整性和任期號(Term)投票D.當(dāng)候選節(jié)點獲得多數(shù)票時成為新領(lǐng)導(dǎo)者4.對于不平衡數(shù)據(jù)集(正類占比5%),以下評價指標(biāo)中最不適用的是()。A.準(zhǔn)確率(Accuracy)B.F1值C.ROC-AUCD.召回率(Recall)5.以下Hadoop生態(tài)組件與功能對應(yīng)錯誤的是()。A.HBase——分布式列式存儲數(shù)據(jù)庫B.Hive——基于Hadoop的分布式數(shù)據(jù)倉庫工具(提供類SQL查詢)C.Flume——分布式日志收集、聚合、傳輸系統(tǒng)D.ZooKeeper——分布式計算框架(替代MapReduce)6.假設(shè)某分類模型的混淆矩陣如下(行:真實類,列:預(yù)測類):```[[180,20],[30,70]]```則模型的精確率(Precision)為()。A.70%B.78%C.81.8%D.85%7.在Spark中,以下操作屬于寬依賴(WideDependency)的是()。A.map()B.filter()C.groupByKey()D.flatMap()8.關(guān)于時間序列預(yù)測,以下說法錯誤的是()。A.ARIMA模型要求序列平穩(wěn),而LSTM可以直接處理非平穩(wěn)序列B.滑動窗口(SlidingWindow)是將時間序列轉(zhuǎn)換為監(jiān)督學(xué)習(xí)問題的常用方法C.季節(jié)性分解(STL)可分離序列中的趨勢項、季節(jié)項和殘差項D.均方根誤差(RMSE)比平均絕對誤差(MAE)對異常值更敏感9.在聯(lián)邦學(xué)習(xí)(FederatedLearning)中,核心目標(biāo)是()。A.在不共享原始數(shù)據(jù)的前提下聯(lián)合訓(xùn)練模型B.提高模型在跨設(shè)備場景下的泛化能力C.減少模型訓(xùn)練的計算資源消耗D.解決數(shù)據(jù)孤島問題,同時保護(hù)隱私10.某數(shù)據(jù)集的特征X服從正態(tài)分布N(μ=5,σ2=4),則P(X≤7)的值約為()(已知Φ(1)=0.8413,Φ(0.5)=0.6915)。A.0.6915B.0.8413C.0.9772D.0.9332二、填空題(每空2分,共20分)1.數(shù)據(jù)清洗中處理缺失值的常用方法包括刪除記錄、插補(如均值/中位數(shù)插補)、______(如使用KNN模型預(yù)測缺失值)。2.機(jī)器學(xué)習(xí)中,L1正則化(Lasso)的作用是______,L2正則化(Ridge)的作用是______。3.分布式文件系統(tǒng)HDFS的默認(rèn)塊大小是______,其設(shè)計目的是減少______開銷。4.在決策樹中,信息增益的計算基于______,基尼系數(shù)(GiniIndex)衡量的是______。5.實時流處理框架Flink的時間類型包括事件時間(EventTime)、攝入時間(IngestionTime)和______。6.假設(shè)某文本的詞袋模型(BagofWords)表示為向量[3,0,2,5],則該文本的詞頻-逆文檔頻率(TF-IDF)中,“逆文檔頻率(IDF)”反映的是______。三、簡答題(每題8分,共32分)1.簡述數(shù)據(jù)清洗的主要步驟,并舉例說明每一步的具體操作。2.比較K-means聚類與層次聚類(HierarchicalClustering)的優(yōu)缺點及適用場景。3.解釋Spark中RDD(彈性分布式數(shù)據(jù)集)的容錯機(jī)制,并說明其與HadoopMapReduce容錯機(jī)制的差異。4.什么是過擬合(Overfitting)?列舉至少3種防止過擬合的方法,并簡要說明其原理。四、計算題(每題10分,共20分)1.某電商平臺用戶購買行為數(shù)據(jù)集包含以下特征:年齡(連續(xù)型)、性別(男/女)、月收入(連續(xù)型)、過去30天購買次數(shù)(離散型)、是否復(fù)購(目標(biāo)變量,0/1)?,F(xiàn)需構(gòu)建邏輯回歸模型預(yù)測用戶復(fù)購概率。(1)對“性別”字段進(jìn)行編碼,應(yīng)采用何種方法?并寫出編碼后的形式(假設(shè)原始數(shù)據(jù)中有“男”“女”兩類)。(2)對“年齡”字段進(jìn)行標(biāo)準(zhǔn)化處理(Z-score標(biāo)準(zhǔn)化),假設(shè)年齡均值為35,標(biāo)準(zhǔn)差為10,某用戶年齡為45歲,計算其標(biāo)準(zhǔn)化后的值。2.某分類任務(wù)中,使用樸素貝葉斯分類器(假設(shè)特征條件獨立),訓(xùn)練集如下:|特征1(X1)|特征2(X2)|類別(Y)||||--||高|是|正類||高|否|正類||低|是|負(fù)類||低|否|負(fù)類||高|否|正類||低|是|負(fù)類|(1)計算先驗概率P(Y=正類)和P(Y=負(fù)類)。(2)對于測試樣本(X1=高,X2=是),計算P(Y=正類|X1=高,X2=是)和P(Y=負(fù)類|X1=高,X2=是),并判斷其類別。五、綜合題(8分)某銀行需構(gòu)建一個“客戶流失預(yù)測”的大數(shù)據(jù)分析系統(tǒng),要求覆蓋數(shù)據(jù)采集、存儲、處理、模型訓(xùn)練及結(jié)果應(yīng)用全流程。請設(shè)計該系統(tǒng)的技術(shù)方案,需包括以下內(nèi)容:(1)數(shù)據(jù)來源與采集方式;(2)大數(shù)據(jù)存儲架構(gòu)(需說明使用的存儲技術(shù)及原因);(3)數(shù)據(jù)處理與特征工程步驟;(4)模型選擇與評估指標(biāo);(5)結(jié)果應(yīng)用場景(至少2個)。答案及解析一、單項選擇題1.C解析:數(shù)據(jù)湖的典型場景是支持探索性分析、機(jī)器學(xué)習(xí)等,數(shù)據(jù)倉庫更適合歷史報表和確定性查詢;實時分析通常由流處理系統(tǒng)(如Flink)支持。2.B解析:等頻分箱要求每個箱內(nèi)樣本數(shù)量相等,分5箱則每箱占比20%。3.B解析:Raft選舉中,故障后主節(jié)點失效,其他節(jié)點可能變?yōu)楹蜻x者(Candidate)并發(fā)起投票,而非所有節(jié)點進(jìn)入跟隨者狀態(tài)。4.A解析:準(zhǔn)確率在不平衡數(shù)據(jù)中會因多數(shù)類主導(dǎo)而虛高(如95%樣本為負(fù)類時,全預(yù)測負(fù)類準(zhǔn)確率95%,但無實際意義)。5.D解析:ZooKeeper是分布式協(xié)調(diào)服務(wù),用于管理集群狀態(tài);分布式計算框架是MapReduce、Spark等。6.C解析:精確率=TP/(TP+FP)=70/(20+70)=70/90≈77.78%(接近選項B,但實際計算應(yīng)為70/(20+70)=7/9≈77.78%,可能題目選項有誤,正確應(yīng)為約78%,選B)。注:原題混淆矩陣中,第一行是真實負(fù)類(假設(shè)),第二行是真實正類。若真實正類為第二行,則TP=70(真實正類預(yù)測正類),F(xiàn)P=20(真實負(fù)類預(yù)測正類),精確率=70/(70+20)=70/90≈77.78%,選B。7.C解析:寬依賴涉及shuffle操作(如groupByKey需跨分區(qū)聚合),map、filter、flatMap是窄依賴(每個分區(qū)只依賴父RDD的少量分區(qū))。8.A解析:LSTM通過門控機(jī)制捕捉長期依賴,但仍需對非平穩(wěn)序列進(jìn)行差分等預(yù)處理(如轉(zhuǎn)換為平穩(wěn)序列)。9.D解析:聯(lián)邦學(xué)習(xí)的核心是在數(shù)據(jù)不出域的前提下聯(lián)合訓(xùn)練模型,同時保護(hù)隱私,解決數(shù)據(jù)孤島問題。10.B解析:X~N(5,4),則Z=(7-5)/2=1,P(X≤7)=Φ(1)=0.8413。二、填空題1.模型插補2.特征選擇(稀疏化);防止過擬合(參數(shù)平滑)3.128MB;尋址(或元數(shù)據(jù)操作)4.信息熵的減少量;數(shù)據(jù)的不純度(或分類錯誤概率)5.處理時間(ProcessingTime)6.詞的普遍重要性(或詞在多少文檔中出現(xiàn)過,出現(xiàn)越少IDF越高)三、簡答題1.數(shù)據(jù)清洗主要步驟及示例:(1)缺失值處理:檢查各字段缺失率,如用戶“收入”字段缺失率5%,可采用中位數(shù)插補(因收入可能右偏,均值易受異常值影響);若某條記錄90%字段缺失,直接刪除。(2)異常值檢測:通過箱線圖(IQR方法)檢測“年齡”字段,如某用戶年齡為150歲,標(biāo)記為異常,可修正為合理值(如根據(jù)上下文推斷)或刪除。(3)重復(fù)值處理:使用Pandas的drop_duplicates()函數(shù)刪除“用戶ID”“訂單時間”完全相同的重復(fù)記錄。(4)格式標(biāo)準(zhǔn)化:將“手機(jī)號”字段統(tǒng)一為11位數(shù)字格式(如刪除空格、區(qū)號前綴)。(5)不一致值處理:將“省份”字段中的“北京”“北京市”統(tǒng)一為“北京市”。2.K-means與層次聚類對比:-優(yōu)點:K-means計算效率高(時間復(fù)雜度O(nkI),n樣本數(shù),k簇數(shù),I迭代次數(shù)),適合大規(guī)模數(shù)據(jù);層次聚類無需預(yù)設(shè)簇數(shù),可展示簇間層次結(jié)構(gòu)(樹狀圖)。-缺點:K-means需預(yù)設(shè)k值,對初始中心敏感,不適合非凸形狀簇;層次聚類時間復(fù)雜度O(n2),難以處理大樣本。-適用場景:K-means用于用戶分群(如電商用戶分層);層次聚類用于小樣本的生物學(xué)分類(如基因序列聚類)。3.SparkRDD容錯機(jī)制:RDD通過記錄血緣關(guān)系(Lineage)實現(xiàn)容錯,即保存RDD的生成路徑(如父RDD、轉(zhuǎn)換操作),當(dāng)某分區(qū)數(shù)據(jù)丟失時,通過重算父RDD的對應(yīng)分區(qū)恢復(fù)數(shù)據(jù)。HadoopMapReduce容錯機(jī)制:通過持久化中間結(jié)果(如Map階段輸出寫入磁盤)實現(xiàn)容錯,任務(wù)失敗時需重新執(zhí)行整個Map或Reduce任務(wù)。差異:RDD的血緣機(jī)制避免了中間結(jié)果持久化,減少I/O開銷;MapReduce依賴磁盤存儲,容錯成本更高。4.過擬合:模型在訓(xùn)練集上表現(xiàn)很好,但在新數(shù)據(jù)(測試集)上表現(xiàn)差,原因是模型過度學(xué)習(xí)了訓(xùn)練數(shù)據(jù)中的噪聲和細(xì)節(jié)。防止方法:(1)正則化:在損失函數(shù)中添加L1/L2正則項,約束模型復(fù)雜度(如L2正則通過懲罰大的參數(shù)值,使模型更平滑)。(2)早停(EarlyStopping):在驗證集性能不再提升時停止訓(xùn)練,避免模型過擬合訓(xùn)練數(shù)據(jù)。(3)數(shù)據(jù)增強(qiáng):對訓(xùn)練數(shù)據(jù)進(jìn)行變換(如圖像旋轉(zhuǎn)、加噪聲),增加數(shù)據(jù)多樣性,使模型學(xué)習(xí)更魯棒的特征。(4)dropout(神經(jīng)網(wǎng)絡(luò)):隨機(jī)失活部分神經(jīng)元,強(qiáng)制模型學(xué)習(xí)冗余特征,減少對特定神經(jīng)元的依賴。四、計算題1.(1)性別為類別型變量(二分類),應(yīng)采用獨熱編碼(One-HotEncoding)。編碼后,“男”表示為[1,0],“女”表示為[0,1](或虛擬變量編碼,刪除一列避免多重共線性,如只保留“性別=男”,0表示女,1表示男)。(2)Z-score標(biāo)準(zhǔn)化公式:Z=(X-μ)/σ=(45-35)/10=1.0。2.(1)訓(xùn)練集共6條樣本,正類3條(第1、2、5行),負(fù)類3條(第3、4、6行)。先驗概率:P(Y=正類)=3/6=0.5;P(Y=負(fù)類)=3/6=0.5。(2)計算條件概率(拉普拉斯平滑,假設(shè)無則加1):對于Y=正類:P(X1=高|Y=正類)=(正類中X1=高的樣本數(shù)+1)/(正類樣本數(shù)+特征1的可能取值數(shù))=(2+1)/(3+2)=3/5=0.6(特征1可能取值為“高”“低”,共2類);P(X2=是|Y=正類)=(正類中X2=是的樣本數(shù)+1)/(正類樣本數(shù)+特征2的可能取值數(shù))=(1+1)/(3+2)=2/5=0.4(特征2可能取值為“是”“否”,共2類)。對于Y=負(fù)類:P(X1=高|Y=負(fù)類)=(負(fù)類中X1=高的樣本數(shù)+1)/(負(fù)類樣本數(shù)+2)=(0+1)/(3+2)=1/5=0.2;P(X2=是|Y=負(fù)類)=(負(fù)類中X2=是的樣本數(shù)+1)/(負(fù)類樣本數(shù)+2)=(2+1)/(3+2)=3/5=0.6(負(fù)類中X2=是的樣本為第3、6行,共2條)。根據(jù)貝葉斯定理:P(Y=正類|X1=高,X2=是)∝P(Y=正類)×P(X1=高|Y=正類)×P(X2=是|Y=正類)=0.5×0.6×0.4=0.12;P(Y=負(fù)類|X1=高,X2=是)∝P(Y=負(fù)類)×P(X1=高|Y=負(fù)類)×P(X2=是|Y=負(fù)類)=0.5×0.2×0.6=0.06。歸一化后,正類概率=0.12/(0.12+0.06)=2/3≈0.667,負(fù)類概率=1/3≈0.333,因此測試樣本預(yù)測為正類。五、綜合題(示例)1.數(shù)據(jù)來源與采集方式:-來源:銀行核心系統(tǒng)(如客戶基本信息、賬戶交易記錄)、APP日志(用戶登錄、頁面瀏覽、操作行為)、外部數(shù)據(jù)(如央行征信、運營商用戶畫像)。-采集方式:核心系統(tǒng)數(shù)據(jù)通過ETL工具(如Sqoop)定時抽取至大數(shù)據(jù)平臺;APP日志通過Flume實時采集并發(fā)送至Kafka消息隊列;外部數(shù)據(jù)通過API接口或文件(CSV/Parquet)批量導(dǎo)入。2.存儲架構(gòu):-原始數(shù)據(jù)層(ODS):使用HDFS存儲原始日志、交易明細(xì)(支持海量非結(jié)構(gòu)化/半結(jié)構(gòu)化數(shù)據(jù));Kafka作為實時數(shù)據(jù)緩沖區(qū)(保留7天日志,供流處理消費)。-明細(xì)數(shù)據(jù)層(DWD):清洗后的結(jié)構(gòu)化數(shù)據(jù)存儲于HBase(列式存儲,支持高頻讀/寫,如用
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025江西九江武寧縣總醫(yī)院人民醫(yī)院院區(qū)招聘6人模擬試卷有完整答案詳解
- 2025廣東廣州市黃埔區(qū)大沙街橫沙股份經(jīng)濟(jì)聯(lián)合社第一次招聘10人考前自測高頻考點模擬試題及參考答案詳解1套
- 2025福建福州市規(guī)劃設(shè)計研究院集團(tuán)有限公司權(quán)屬企業(yè)福建省福規(guī)投資發(fā)展有限公司選聘2人模擬試卷及參考答案詳解一套
- 2025河北中興冀能實業(yè)有限公司高校畢業(yè)生招聘(第三批)考前自測高頻考點模擬試題附答案詳解(典型題)
- 2025北京大學(xué)醫(yī)學(xué)部基建工程處招聘暖通、造價2人考前自測高頻考點模擬試題附答案詳解
- 2025河南鄭州鐵路公司招聘工作人員25人模擬試卷及答案詳解(歷年真題)
- 2025年中共南平市委黨校緊缺急需專業(yè)教師招聘模擬試卷及參考答案詳解1套
- 2025年中國雞尾酒搖酒器行業(yè)市場分析及投資價值評估前景預(yù)測報告
- 2025年中國混凝土減收縮劑行業(yè)市場分析及投資價值評估前景預(yù)測報告
- 2025河南鄭州空中絲路文化傳媒有限公司社會招聘6人考前自測高頻考點模擬試題及答案詳解(易錯題)
- 2024年河南鄭州高新區(qū)招聘社區(qū)工作人員筆試真題
- 2025版靜脈輸液治療實踐指南
- 骨科術(shù)后并發(fā)肺栓塞護(hù)理
- 2025年融媒體中心招聘考試筆試試題(60題)含答案
- 社區(qū)工作者網(wǎng)格員考試題庫及答案
- 快樂主義倫理學(xué)課件
- 醫(yī)學(xué)高級職稱晉升答辯
- 運籌學(xué):原理、工具及應(yīng)用肖勇波習(xí)題答案(可編輯)
- 35kv變電站培訓(xùn)課件
- 政務(wù)內(nèi)網(wǎng)管理辦法
- 醫(yī)廢處置人員院感培訓(xùn)
評論
0/150
提交評論