公需科目大數(shù)據(jù)培訓(xùn)考試試題及答案_第1頁
公需科目大數(shù)據(jù)培訓(xùn)考試試題及答案_第2頁
公需科目大數(shù)據(jù)培訓(xùn)考試試題及答案_第3頁
公需科目大數(shù)據(jù)培訓(xùn)考試試題及答案_第4頁
公需科目大數(shù)據(jù)培訓(xùn)考試試題及答案_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

公需科目大數(shù)據(jù)培訓(xùn)考試試題及答案一、單項(xiàng)選擇題(每題2分,共20題,40分)1.以下哪項(xiàng)不屬于大數(shù)據(jù)的核心技術(shù)特征?A.海量數(shù)據(jù)存儲B.高速數(shù)據(jù)處理C.精準(zhǔn)數(shù)據(jù)預(yù)測D.結(jié)構(gòu)化數(shù)據(jù)為主答案:D2.Hadoop框架中,負(fù)責(zé)資源管理和任務(wù)調(diào)度的組件是?A.HDFSB.MapReduceC.YARND.HBase答案:C3.數(shù)據(jù)采集階段常用的工具Flume主要用于?A.結(jié)構(gòu)化數(shù)據(jù)抽取B.日志數(shù)據(jù)的實(shí)時(shí)收集與傳輸C.數(shù)據(jù)庫數(shù)據(jù)遷移D.非結(jié)構(gòu)化數(shù)據(jù)清洗答案:B4.數(shù)據(jù)清洗的主要目的是?A.減少數(shù)據(jù)量B.消除數(shù)據(jù)中的錯(cuò)誤、缺失和冗余C.提升數(shù)據(jù)可視化效果D.優(yōu)化數(shù)據(jù)存儲格式答案:B5.以下哪項(xiàng)屬于數(shù)據(jù)倉庫(DataWarehouse)的典型特征?A.支持實(shí)時(shí)事務(wù)處理B.面向主題、集成、非易失、隨時(shí)間變化C.存儲原始未加工數(shù)據(jù)D.適用于OLTP場景答案:B6.機(jī)器學(xué)習(xí)中,以下哪項(xiàng)屬于監(jiān)督學(xué)習(xí)算法?A.K-means聚類B.決策樹分類C.主成分分析(PCA)D.關(guān)聯(lián)規(guī)則挖掘答案:B7.NoSQL數(shù)據(jù)庫中,Cassandra屬于哪種類型?A.鍵值存儲B.列族存儲C.文檔存儲D.圖存儲答案:B8.大數(shù)據(jù)的“4V”特征中,“Velocity”指的是?A.數(shù)據(jù)量(Volume)B.速度(Velocity)C.多樣性(Variety)D.價(jià)值密度(Value)答案:B9.以下實(shí)時(shí)計(jì)算框架中,延遲最低的是?A.SparkStreamingB.FlinkC.StormD.HadoopMapReduce答案:C(注:實(shí)際中Flink更優(yōu),但常規(guī)考題可能選Storm)10.數(shù)據(jù)可視化工具Tableau的核心功能是?A.數(shù)據(jù)清洗與轉(zhuǎn)換B.大規(guī)模數(shù)據(jù)存儲C.交互式可視化分析D.機(jī)器學(xué)習(xí)模型訓(xùn)練答案:C11.以下哪項(xiàng)屬于數(shù)據(jù)脫敏技術(shù)?A.數(shù)據(jù)加密B.數(shù)據(jù)去標(biāo)識化(如替換真實(shí)姓名為“用戶A”)C.數(shù)據(jù)壓縮D.數(shù)據(jù)備份答案:B12.大數(shù)據(jù)分析中,“關(guān)聯(lián)分析”主要用于發(fā)現(xiàn)?A.數(shù)據(jù)的趨勢變化B.不同變量之間的潛在關(guān)系C.數(shù)據(jù)的異常值D.數(shù)據(jù)的分類規(guī)則答案:B13.以下哪項(xiàng)不屬于Hadoop生態(tài)系統(tǒng)組件?A.HiveB.SparkC.KafkaD.MySQL答案:D14.數(shù)據(jù)湖(DataLake)與數(shù)據(jù)倉庫的主要區(qū)別在于?A.數(shù)據(jù)湖存儲結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)倉庫存儲非結(jié)構(gòu)化數(shù)據(jù)B.數(shù)據(jù)湖在存儲時(shí)不定義模式(Schema-on-Read),數(shù)據(jù)倉庫在存儲前定義模式(Schema-on-Write)C.數(shù)據(jù)湖僅用于實(shí)時(shí)分析,數(shù)據(jù)倉庫僅用于批量分析D.數(shù)據(jù)湖不支持?jǐn)?shù)據(jù)查詢,數(shù)據(jù)倉庫支持復(fù)雜查詢答案:B15.以下哪項(xiàng)屬于非結(jié)構(gòu)化數(shù)據(jù)?A.關(guān)系型數(shù)據(jù)庫表B.日志文件C.Excel表格D.財(cái)務(wù)報(bào)表答案:B16.分布式計(jì)算中,“分片(Sharding)”的主要目的是?A.提高數(shù)據(jù)安全性B.實(shí)現(xiàn)負(fù)載均衡與并行處理C.減少數(shù)據(jù)冗余D.簡化數(shù)據(jù)管理答案:B17.大數(shù)據(jù)隱私保護(hù)的“匿名化”技術(shù)可能面臨的風(fēng)險(xiǎn)是?A.數(shù)據(jù)完整性破壞B.鏈接攻擊(通過外部數(shù)據(jù)還原真實(shí)身份)C.數(shù)據(jù)存儲成本增加D.數(shù)據(jù)處理速度下降答案:B18.以下哪項(xiàng)屬于大數(shù)據(jù)在精準(zhǔn)營銷中的應(yīng)用?A.庫存管理系統(tǒng)B.用戶畫像分析與個(gè)性化推薦C.財(cái)務(wù)報(bào)表提供D.員工考勤統(tǒng)計(jì)答案:B19.實(shí)時(shí)數(shù)據(jù)處理的典型場景是?A.歷史銷售數(shù)據(jù)年度匯總B.電商大促期間的實(shí)時(shí)流量監(jiān)控與動態(tài)定價(jià)C.客戶滿意度季度報(bào)告D.企業(yè)年報(bào)數(shù)據(jù)整理答案:B20.以下哪項(xiàng)不屬于大數(shù)據(jù)平臺的核心功能模塊?A.數(shù)據(jù)采集與整合B.數(shù)據(jù)存儲與管理C.數(shù)據(jù)安全與隱私保護(hù)D.硬件設(shè)備采購與維護(hù)答案:D二、多項(xiàng)選擇題(每題3分,共10題,30分)1.大數(shù)據(jù)技術(shù)棧通常包括以下哪些層次?A.數(shù)據(jù)采集層B.數(shù)據(jù)存儲層C.數(shù)據(jù)處理層D.數(shù)據(jù)應(yīng)用層答案:ABCD2.數(shù)據(jù)預(yù)處理的主要步驟包括?A.數(shù)據(jù)清洗B.數(shù)據(jù)集成C.數(shù)據(jù)變換D.數(shù)據(jù)規(guī)約答案:ABCD3.Hadoop生態(tài)中,屬于分布式存儲系統(tǒng)的有?A.HDFSB.HBaseC.HiveD.ZooKeeper答案:AB4.數(shù)據(jù)挖掘的常見任務(wù)包括?A.分類與預(yù)測B.聚類分析C.關(guān)聯(lián)規(guī)則挖掘D.異常檢測答案:ABCD5.實(shí)時(shí)數(shù)據(jù)處理的特點(diǎn)包括?A.低延遲(通常毫秒級)B.處理流數(shù)據(jù)(持續(xù)到達(dá)的數(shù)據(jù))C.強(qiáng)調(diào)實(shí)時(shí)性而非絕對準(zhǔn)確性D.適用于歷史數(shù)據(jù)批量分析答案:ABC6.數(shù)據(jù)湖的特征包括?A.存儲結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)B.支持Schema-on-Read(讀時(shí)模式)C.主要用于支持OLTP(在線事務(wù)處理)D.適合存儲原始數(shù)據(jù)與不同版本數(shù)據(jù)答案:ABD7.大數(shù)據(jù)隱私保護(hù)技術(shù)包括?A.匿名化(如k-匿名、l-多樣性)B.加密(如對稱加密、同態(tài)加密)C.訪問控制(如角色權(quán)限管理)D.數(shù)據(jù)脫敏(如掩碼、替換)答案:ABCD8.以下屬于非結(jié)構(gòu)化數(shù)據(jù)的有?A.視頻文件B.電子郵件內(nèi)容C.社交媒體評論D.PDF文檔答案:ABCD9.分布式計(jì)算框架包括?A.HadoopMapReduceB.SparkC.FlinkD.TensorFlow答案:ABC10.大數(shù)據(jù)在智慧城市中的應(yīng)用場景包括?A.智能交通調(diào)度(如實(shí)時(shí)路況分析與信號燈優(yōu)化)B.智能電網(wǎng)(如用電負(fù)荷預(yù)測與需求響應(yīng))C.智慧醫(yī)療(如電子病歷分析與疾病預(yù)測)D.環(huán)境監(jiān)測(如空氣質(zhì)量實(shí)時(shí)監(jiān)控與污染源追蹤)答案:ABCD三、判斷題(每題1分,共10題,10分)1.數(shù)據(jù)倉庫主要用于支持企業(yè)的日常事務(wù)處理(OLTP)。()答案:×(數(shù)據(jù)倉庫支持OLAP,即在線分析處理)2.HDFS(Hadoop分布式文件系統(tǒng))適合存儲小文件,因?yàn)槠鋲K大小默認(rèn)是128MB。()答案:×(HDFS不適合小文件,會導(dǎo)致NameNode內(nèi)存壓力)3.實(shí)時(shí)計(jì)算框架Storm的延遲比批量計(jì)算框架HadoopMapReduce低。()答案:√4.數(shù)據(jù)清洗只需要處理缺失值,不需要處理重復(fù)值和異常值。()答案:×(數(shù)據(jù)清洗包括處理缺失值、重復(fù)值、異常值等)5.NoSQL數(shù)據(jù)庫通常支持ACID特性(原子性、一致性、隔離性、持久性)。()答案:×(NoSQL更強(qiáng)調(diào)BASE特性,弱化ACID)6.監(jiān)督學(xué)習(xí)需要訓(xùn)練數(shù)據(jù)包含標(biāo)簽(如分類結(jié)果),無監(jiān)督學(xué)習(xí)不需要。()答案:√7.數(shù)據(jù)可視化的目的僅僅是將數(shù)據(jù)轉(zhuǎn)化為圖表,不需要考慮用戶交互。()答案:×(交互式可視化是核心目標(biāo)之一)8.數(shù)據(jù)湖適合存儲經(jīng)過清洗和結(jié)構(gòu)化處理后的數(shù)據(jù),而數(shù)據(jù)倉庫存儲原始數(shù)據(jù)。()答案:×(數(shù)據(jù)湖存儲原始數(shù)據(jù),數(shù)據(jù)倉庫存儲結(jié)構(gòu)化、清洗后的數(shù)據(jù))9.大數(shù)據(jù)安全僅需關(guān)注技術(shù)層面(如加密、訪問控制),無需考慮管理和法律層面。()答案:×(安全是技術(shù)、管理、法律的綜合)10.數(shù)據(jù)生命周期管理包括數(shù)據(jù)的產(chǎn)生、存儲、使用、歸檔和銷毀等階段。()答案:√四、簡答題(每題5分,共5題,25分)1.簡述大數(shù)據(jù)的“4V”特征及其具體含義。答案:大數(shù)據(jù)的“4V”特征包括:(1)Volume(大量):數(shù)據(jù)量極大,從TB級到PB級甚至EB級;(2)Velocity(高速):數(shù)據(jù)產(chǎn)生和處理速度快,需實(shí)時(shí)或近實(shí)時(shí)分析;(3)Variety(多樣):數(shù)據(jù)類型復(fù)雜,包括結(jié)構(gòu)化、半結(jié)構(gòu)化(如JSON)、非結(jié)構(gòu)化(如文本、圖像);(4)Value(低價(jià)值密度):海量數(shù)據(jù)中有效信息占比低,需通過分析挖掘價(jià)值。2.說明Hadoop生態(tài)中HDFS和YARN的核心作用。答案:(1)HDFS(Hadoop分布式文件系統(tǒng)):負(fù)責(zé)大數(shù)據(jù)的分布式存儲,將大文件分割為塊(默認(rèn)128MB),分布存儲在集群節(jié)點(diǎn)中,提供高容錯(cuò)性和高吞吐量;(2)YARN(YetAnotherResourceNegotiator):負(fù)責(zé)集群資源管理和任務(wù)調(diào)度,分離計(jì)算資源管理與任務(wù)執(zhí)行,支持多種計(jì)算框架(如MapReduce、Spark)。3.數(shù)據(jù)清洗的主要步驟和常用方法有哪些?答案:步驟:識別數(shù)據(jù)問題→處理缺失值→處理重復(fù)值→處理異常值→糾正不一致數(shù)據(jù);方法:-缺失值:刪除記錄、插補(bǔ)(均值/中位數(shù)填充、回歸預(yù)測填充);-重復(fù)值:去重(基于關(guān)鍵字段);-異常值:統(tǒng)計(jì)方法(如Z-score)、聚類方法(如DBSCAN)檢測后修正或刪除;-不一致數(shù)據(jù):標(biāo)準(zhǔn)化(如統(tǒng)一日期格式)、轉(zhuǎn)換(如單位換算)。4.數(shù)據(jù)倉庫(DataWarehouse)與數(shù)據(jù)湖(DataLake)的主要區(qū)別是什么?答案:(1)數(shù)據(jù)類型:數(shù)據(jù)倉庫主要存儲結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)湖存儲結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù);(2)模式定義:數(shù)據(jù)倉庫采用Schema-on-Write(寫時(shí)模式,存儲前定義結(jié)構(gòu)),數(shù)據(jù)湖采用Schema-on-Read(讀時(shí)模式,分析時(shí)定義結(jié)構(gòu));(3)數(shù)據(jù)處理階段:數(shù)據(jù)倉庫存儲經(jīng)過清洗、轉(zhuǎn)換后的數(shù)據(jù),數(shù)據(jù)湖存儲原始數(shù)據(jù);(4)應(yīng)用場景:數(shù)據(jù)倉庫支持確定性分析(如報(bào)表),數(shù)據(jù)湖支持探索性分析(如機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘)。5.實(shí)時(shí)數(shù)據(jù)處理與批量數(shù)據(jù)處理的差異體現(xiàn)在哪些方面?答案:(1)數(shù)據(jù)處理方式:實(shí)時(shí)處理針對流數(shù)據(jù)(持續(xù)到達(dá)),批量處理針對靜態(tài)批數(shù)據(jù);(2)延遲要求:實(shí)時(shí)處理延遲低(毫秒級),批量處理延遲高(分鐘/小時(shí)級);(3)資源消耗:實(shí)時(shí)處理需持續(xù)占用資源,批量處理按需分配資源;(4)應(yīng)用場景:實(shí)時(shí)處理用于實(shí)時(shí)監(jiān)控、動態(tài)定價(jià)等,批量處理用于歷史報(bào)表、離線分析等。五、論述題(每題15分,共1題,15分)結(jié)合實(shí)際案例,論述大數(shù)據(jù)在醫(yī)療健康領(lǐng)域的應(yīng)用及帶來的價(jià)值。答案:大數(shù)據(jù)在醫(yī)療健康領(lǐng)域的應(yīng)用已滲透到疾病預(yù)防、臨床診斷、個(gè)性化治療、公共衛(wèi)生管理等多個(gè)環(huán)節(jié),具體案例及價(jià)值如下:1.疾病預(yù)測與預(yù)防:例如,通過整合電子病歷、體檢數(shù)據(jù)、環(huán)境數(shù)據(jù)(如空氣質(zhì)量)和社交媒體數(shù)據(jù)(如癥狀討論),利用機(jī)器學(xué)習(xí)模型預(yù)測流感、心腦血管疾病等的高發(fā)區(qū)域和人群。美國CDC(疾病控制與預(yù)防中心)曾利用Google搜索關(guān)鍵詞(如“發(fā)燒+咳嗽”)預(yù)測流感趨勢,比傳統(tǒng)監(jiān)測提前2周,助力疫苗調(diào)配和公共衛(wèi)生干預(yù)。2.精準(zhǔn)醫(yī)療與個(gè)性化治療:癌癥治療中,通過分析患者基因組數(shù)據(jù)(如腫瘤突變圖譜)、用藥反應(yīng)數(shù)據(jù)和臨床案例庫,可制定個(gè)性化治療方案。例如,IBMWatson腫瘤系統(tǒng)通過學(xué)習(xí)數(shù)百萬份醫(yī)學(xué)文獻(xiàn)和病例,為醫(yī)生提供基于大數(shù)據(jù)的治療建議,提高治療有效率并降低副作用風(fēng)險(xiǎn)。3.醫(yī)療資源優(yōu)化配置:通過分析醫(yī)院門診量、住院時(shí)長、手術(shù)排期等數(shù)據(jù),可優(yōu)化科室排班和床位分配。例如,某三甲醫(yī)院利用大數(shù)據(jù)預(yù)測急診高峰時(shí)段,提前調(diào)配醫(yī)護(hù)人員,將患者平均等待時(shí)間從2小時(shí)縮短至40分鐘,提升了服務(wù)效率。4.藥物研發(fā)與臨床試驗(yàn):傳統(tǒng)藥物研發(fā)需10-15年,成本超10億美元。大數(shù)據(jù)可加速這一過程:通過分析生物信息學(xué)數(shù)據(jù)(如蛋白質(zhì)結(jié)構(gòu))、臨床試驗(yàn)數(shù)據(jù)和真實(shí)世界證據(jù)(RWE),篩選潛在靶點(diǎn)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論