信息技術(shù)數(shù)據(jù)挖掘與云計(jì)算相關(guān)知識(shí)試卷真題測(cè)試_第1頁
信息技術(shù)數(shù)據(jù)挖掘與云計(jì)算相關(guān)知識(shí)試卷真題測(cè)試_第2頁
信息技術(shù)數(shù)據(jù)挖掘與云計(jì)算相關(guān)知識(shí)試卷真題測(cè)試_第3頁
信息技術(shù)數(shù)據(jù)挖掘與云計(jì)算相關(guān)知識(shí)試卷真題測(cè)試_第4頁
信息技術(shù)數(shù)據(jù)挖掘與云計(jì)算相關(guān)知識(shí)試卷真題測(cè)試_第5頁
已閱讀5頁,還剩18頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第頁信息技術(shù)數(shù)據(jù)挖掘與云計(jì)算相關(guān)知識(shí)試卷真題測(cè)試1.下列關(guān)于云數(shù)據(jù)庫的描述,哪個(gè)是錯(cuò)誤的?()A、云數(shù)據(jù)庫是部署和虛擬化在云計(jì)算環(huán)境中的數(shù)據(jù)庫B、云數(shù)據(jù)庫是在云計(jì)算的大背景下發(fā)展起來的一種新興的共享基礎(chǔ)架構(gòu)的方法C、云數(shù)據(jù)庫價(jià)格不菲,維護(hù)費(fèi)用極其昂貴D、云數(shù)據(jù)庫具有高可擴(kuò)展性、高可用性、采用多租形式和支持資源有效分發(fā)等特點(diǎn)【正確答案】:C2.下面組件哪個(gè)是負(fù)責(zé)Hadoop集群的安裝、部署、配置和管理的:()A、KafkaB、YARNC、AmbariD、Flume【正確答案】:C3.下列關(guān)于可視化工具中高級(jí)分析工具的說法,錯(cuò)誤的是?()A、R是屬于GNU系統(tǒng)的一個(gè)自由、免費(fèi)、源代碼開放的軟件B、Weka主要用于社交圖譜數(shù)據(jù)可視化分析,可以生成非??犰诺目梢暬瘓D形C、Gephi主要用于社交圖譜數(shù)據(jù)可視化分析,可以生成非??犰诺目梢暬瘓D形D、R通常用于大數(shù)據(jù)集的統(tǒng)計(jì)與分析【正確答案】:B4.下列關(guān)于數(shù)據(jù)可視化的描述,哪個(gè)是錯(cuò)誤的?()A、數(shù)據(jù)可視化是指將大型數(shù)據(jù)集中的數(shù)據(jù)以圖形圖像形式表示B、利用數(shù)據(jù)分析和開發(fā)工具發(fā)現(xiàn)其中未知信息的處理過程C、數(shù)據(jù)可視化技術(shù)的基本思想是將數(shù)據(jù)庫中每一個(gè)數(shù)據(jù)項(xiàng)作為單個(gè)圖元素表示D、將數(shù)據(jù)的各個(gè)屬性值以一維數(shù)據(jù)的形式表示【正確答案】:D5.以下哪個(gè)組件是Spark中用于結(jié)構(gòu)化數(shù)據(jù)處理的組件:()A、SparkSQLB、SparkCoreC、SparkStreamingD、StructuredStreaming【正確答案】:A6.下面關(guān)于手機(jī)軟件采集個(gè)人信息的描述錯(cuò)誤的是:()A、在我們的日常生活中,部分手機(jī)APP往往會(huì)“私自竊密”B、有的APP在提供服務(wù)時(shí),采取特殊方式來獲得用戶授權(quán),這本質(zhì)上仍屬“未經(jīng)同意”C、在微信朋友圈廣泛傳播的各種測(cè)試小程序是安全的,不會(huì)竊取用戶個(gè)人信息D、手機(jī)APP過度采集個(gè)人信息呈現(xiàn)普遍趨勢(shì),最突出的是在非必要的情況下獲取位置信息和訪問聯(lián)系人權(quán)限【正確答案】:C7.云計(jì)算包括3種類型。面向所有用戶提供服務(wù),只要是注冊(cè)付費(fèi)的用戶都可以使用,這種云計(jì)算屬于:()A、公有云B、私有云C、混合云D、獨(dú)立云【正確答案】:A8.下面關(guān)于數(shù)據(jù)的說法,錯(cuò)誤的是:()A、數(shù)據(jù)的根本價(jià)值在于可以為人們找出答案B、數(shù)據(jù)的價(jià)值會(huì)因?yàn)椴粩嗍褂枚鳒pC、數(shù)據(jù)的價(jià)值會(huì)因?yàn)椴粩嘀亟M而產(chǎn)生更大的價(jià)值D、目前階段,數(shù)據(jù)的產(chǎn)生不以人的意志為轉(zhuǎn)移【正確答案】:B9.假設(shè)屬性的最大值和最小值分別是87000元和11000元,現(xiàn)在需要利用Min-Max規(guī)范化方法,將“顧客收入”屬性的值映射到0~1的范圍內(nèi),則“顧客收入”屬性的值為72400元時(shí),對(duì)應(yīng)的轉(zhuǎn)換結(jié)果是:()A、0.808B、0.837C、0.769D、0.987【正確答案】:A10.下面描述錯(cuò)誤的是:()A、數(shù)據(jù)挖掘的目標(biāo)明確,先做假設(shè),然后通過數(shù)據(jù)分析來驗(yàn)證假設(shè)是否正確,從而得到相應(yīng)的結(jié)論B、數(shù)據(jù)挖掘的重點(diǎn)在尋找未知的模式與規(guī)律C、數(shù)據(jù)分析一般都是得到一個(gè)指標(biāo)統(tǒng)計(jì)量結(jié)果,如總和、平均值等D、數(shù)據(jù)挖掘則是輸出模型或規(guī)則,并且可相應(yīng)得到模型得分或標(biāo)簽【正確答案】:A解析:

數(shù)據(jù)挖掘通常并不先做假設(shè)然后通過數(shù)據(jù)分析來驗(yàn)證,而是直接從數(shù)據(jù)中探索模式、規(guī)律和關(guān)系。其重點(diǎn)在于發(fā)現(xiàn)數(shù)據(jù)中的未知模式與規(guī)律,而非驗(yàn)證預(yù)設(shè)的假設(shè)。相比之下,數(shù)據(jù)分析更多地關(guān)注于通過統(tǒng)計(jì)方法得到具體的指標(biāo)結(jié)果,如總和、平均值等。而數(shù)據(jù)挖掘的輸出通常是模型或規(guī)則,并可得到模型得分或標(biāo)簽。因此,選項(xiàng)A的描述是錯(cuò)誤的,正確答案是A。11.以下關(guān)于人機(jī)交互,描述錯(cuò)誤的是:()A、人機(jī)交互是一門研究系統(tǒng)與用戶之間的交互關(guān)系的學(xué)科B、人機(jī)交互界面通常是指用戶不可見的部分C、系統(tǒng)可以是各種各樣的機(jī)器,也可以是計(jì)算機(jī)化的系統(tǒng)和軟件D、用戶通過人機(jī)交互界面與系統(tǒng)交流,并進(jìn)行操作【正確答案】:B12.假設(shè)屬性的取值范圍是-957~924,當(dāng)屬性的值為426時(shí),采用小數(shù)定標(biāo)規(guī)范化方法對(duì)應(yīng)的轉(zhuǎn)換結(jié)果是:()A、0.421B、0.433C、0.426D、0.489【正確答案】:C解析:

這道題考察的是小數(shù)定標(biāo)規(guī)范化方法的應(yīng)用。小數(shù)定標(biāo)規(guī)范化是通過移動(dòng)屬性值的小數(shù)點(diǎn)位置來進(jìn)行規(guī)范化。在這個(gè)問題中,我們需要找到屬性值426在-957~924范圍內(nèi)的小數(shù)定標(biāo)規(guī)范化結(jié)果。由于426已經(jīng)是整數(shù),且其絕對(duì)值小于范圍的最大值924,所以小數(shù)點(diǎn)不需要移動(dòng),即規(guī)范化后的結(jié)果就是其本身0.426。13.下面組件哪個(gè)是負(fù)責(zé)分布式資源調(diào)度與管理的:()A、YARNB、FlumeC、ZookeeperD、Kafka【正確答案】:A解析:

答案解析:在分布式系統(tǒng)中,各個(gè)組件有其特定的職責(zé)。YARN(YetAnotherResourceNegotiator)是Hadoop生態(tài)系統(tǒng)中的一個(gè)關(guān)鍵組件,主要負(fù)責(zé)分布式資源的調(diào)度與管理,它能夠有效分配和管理集群中的計(jì)算資源。而Flume主要用于日志數(shù)據(jù)的收集、聚合和傳輸;Zookeeper是一個(gè)分布式協(xié)調(diào)服務(wù),用于管理大型分布式系統(tǒng)中的數(shù)據(jù);Kafka則是一個(gè)分布式流處理平臺(tái)。因此,根據(jù)這些組件的職責(zé)和功能,可以確定選項(xiàng)AYARN是負(fù)責(zé)分布式資源調(diào)度與管理的正確答案。14.關(guān)于數(shù)據(jù)倉庫Impala的描述錯(cuò)誤的是:()A、Impala作為開源大數(shù)據(jù)分析引擎,支持實(shí)時(shí)計(jì)算,它提供了與Hive類似的功能,并在性能上比Hive高出3~30倍B、Impala是由Cloudera公司開發(fā)的查詢系統(tǒng)C、Impala提供了SQL語義,能查詢存儲(chǔ)在Hadoop的HDFS和HBase上的PB級(jí)別海量數(shù)據(jù)D、Impala最初是參照MySQL系統(tǒng)進(jìn)行設(shè)計(jì)的【正確答案】:D15.下面關(guān)于協(xié)同過濾算法的描述錯(cuò)誤的是:()A、基于用戶的協(xié)同過濾算法(簡稱UserCF算法)是推薦系統(tǒng)中最古老的算法,可以說,UserCF的誕生標(biāo)志著推薦系統(tǒng)的誕生B、基于物品的協(xié)同過濾算法(簡稱ItemCF算法)是目前業(yè)界應(yīng)用最多的算法C、基于模型的協(xié)同過濾算法(ModelCF)是通過已經(jīng)觀察到的所有用戶給產(chǎn)品的打分,來推斷每個(gè)用戶的喜好并向用戶推薦適合的產(chǎn)品D、UserCF算法是給目標(biāo)用戶推薦那些和他們之前喜歡的物品相似的物品。【正確答案】:D16.以下哪個(gè)不是Scrapy體系架構(gòu)的組成部分:()A、Scrapy引擎(Engine)B、爬蟲(Spiders)C、支持者(Support)D、下載器(Downloader)【正確答案】:C17.下面屬于圖計(jì)算技術(shù)的是:()A、PregelB、DremelC、ImpalaDStream【正確答案】:A18.下面關(guān)于反爬機(jī)制描述錯(cuò)誤的是:()A、簡單低級(jí)的網(wǎng)絡(luò)爬蟲,數(shù)據(jù)采集速度快,偽裝度低,如果沒有反爬機(jī)制,它們可以很快地抓取大量數(shù)據(jù),甚至因?yàn)檎?qǐng)求過多,造成網(wǎng)站服務(wù)器不能正常工作,影響了企業(yè)的業(yè)務(wù)開展B、反爬機(jī)制也是一把雙刃劍,一方面可以保護(hù)企業(yè)網(wǎng)站和網(wǎng)站數(shù)據(jù),但是,另一方面,如果反爬機(jī)制過于嚴(yán)格,可能會(huì)誤傷到真正的用戶請(qǐng)求C、如果既要和“網(wǎng)絡(luò)爬蟲”死磕,又要保證很低的誤傷率,那么又會(huì)增加網(wǎng)站研發(fā)的成本D、反爬機(jī)制不利于信息的自由流通,不利于網(wǎng)站發(fā)展,應(yīng)該堅(jiān)決取消【正確答案】:D19.下面關(guān)于Hadoop的描述錯(cuò)誤的是:()A、Hadoop是一個(gè)能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架B、作為并行分布式計(jì)算平臺(tái),Hadoop采用分布式存儲(chǔ)和分布式處理兩大核心技術(shù),能夠高效地處理PB級(jí)數(shù)據(jù)C、Hadoop只支持Java編程語言D、Hadoop可以高效穩(wěn)定地運(yùn)行在廉價(jià)的計(jì)算機(jī)集群上,可以擴(kuò)展到數(shù)以千計(jì)的計(jì)算機(jī)節(jié)點(diǎn)上【正確答案】:C20.Shark與SparkSQL的關(guān)系是:()A、二者沒有任何關(guān)系B、Shark是SparkSQL的前身C、SparkSQL是Shark的前身D、二者是一個(gè)軟件的兩個(gè)不同名稱,本質(zhì)上是一個(gè)東西【正確答案】:B21.以下關(guān)于知識(shí)圖譜,描述錯(cuò)誤的是:()A、又稱為科學(xué)知識(shí)圖譜B、在圖書情報(bào)界稱為知識(shí)域可視化或知識(shí)領(lǐng)域映射地圖C、知識(shí)圖譜屬于密碼學(xué)研究范疇D、知識(shí)圖譜可用于反欺詐、不一致性驗(yàn)證、組團(tuán)欺詐等公共安全保障領(lǐng)域【正確答案】:C22.物聯(lián)網(wǎng)的發(fā)展最終導(dǎo)致了人類社會(huì)數(shù)據(jù)量的第三次躍升,使得數(shù)據(jù)產(chǎn)生方式進(jìn)入了:()A、手工創(chuàng)建階段B、運(yùn)營式系統(tǒng)階段C、用戶原創(chuàng)內(nèi)容階段D、感知式系統(tǒng)階段【正確答案】:D23.以下哪項(xiàng)不屬于大數(shù)據(jù)在城市管理中的應(yīng)用:()A、智能交通B、環(huán)保監(jiān)測(cè)C、城市規(guī)劃D、比賽預(yù)測(cè)【正確答案】:D24.下面屬于流計(jì)算技術(shù)的是:()A、SparkMLLibB、GraphXC、S4D、Hive【正確答案】:C25.下列關(guān)于數(shù)據(jù)處理流程,說法有誤的是?()A、在傳統(tǒng)的數(shù)據(jù)處理流程中,存儲(chǔ)的數(shù)據(jù)是舊的B、在傳統(tǒng)的數(shù)據(jù)處理流程中,需要用戶主動(dòng)發(fā)出查詢來獲取結(jié)果C、傳統(tǒng)的數(shù)據(jù)處理流程,需要先采集數(shù)據(jù)并存儲(chǔ)在關(guān)系數(shù)據(jù)庫等數(shù)據(jù)管理系統(tǒng)中D、流計(jì)算的處理流程一般包含三個(gè)階段:數(shù)據(jù)實(shí)時(shí)采集、數(shù)據(jù)批量計(jì)算、實(shí)時(shí)查詢服務(wù)【正確答案】:D解析:

答案解析:流計(jì)算的處理流程確實(shí)包含數(shù)據(jù)實(shí)時(shí)采集和實(shí)時(shí)查詢服務(wù)這兩個(gè)階段,但其核心特征在于數(shù)據(jù)是實(shí)時(shí)處理的,而不是批量計(jì)算。批量計(jì)算是傳統(tǒng)的數(shù)據(jù)處理方式,與流計(jì)算的實(shí)時(shí)處理相區(qū)分。因此,選項(xiàng)D中的“數(shù)據(jù)批量計(jì)算”是不準(zhǔn)確的,流計(jì)算強(qiáng)調(diào)的是數(shù)據(jù)的實(shí)時(shí)處理能力。所以,正確答案是D。26.假設(shè)A班級(jí)的平均分是80,標(biāo)準(zhǔn)差是10,A考了90分;B班的平均分是400,標(biāo)準(zhǔn)差是100,B考了600分。采用Z-Score規(guī)范化以后,二者誰的成績更加優(yōu)秀:()A的成績更為優(yōu)秀B的成績更為優(yōu)秀C、二者一樣優(yōu)秀D、無法比較【正確答案】:B27.下列關(guān)于鍵值數(shù)據(jù)庫的描述,哪一項(xiàng)是錯(cuò)誤的:()A、擴(kuò)展性好,靈活性好B、大量寫操作時(shí)性能高C、無法存儲(chǔ)結(jié)構(gòu)化信息D、條件查詢效率高【正確答案】:D28.下列關(guān)于流計(jì)算的說法,哪項(xiàng)是錯(cuò)誤的?()A、實(shí)時(shí)獲取來自不同數(shù)據(jù)源的海量數(shù)據(jù),經(jīng)過實(shí)時(shí)分析處理,獲得有價(jià)值的信息B、流計(jì)算秉承一個(gè)基本理念,即數(shù)據(jù)的價(jià)值隨著時(shí)間的流逝而降低C、對(duì)于一個(gè)流計(jì)算系統(tǒng)來說,它應(yīng)該支持TB級(jí)甚至是PB級(jí)的數(shù)據(jù)規(guī)模D、流計(jì)算只需要保證較低的延遲時(shí)間,即只達(dá)到秒級(jí)別即可處理一切問題【正確答案】:D29.下面描述錯(cuò)誤的是:()A、數(shù)據(jù)分析可以分為廣義的數(shù)據(jù)分析和狹義的數(shù)據(jù)分析B、廣義的數(shù)據(jù)分析就包括狹義的數(shù)據(jù)分析和數(shù)據(jù)挖掘。C、數(shù)據(jù)挖掘就是指狹義的數(shù)據(jù)分析D、數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中挖掘出未知的、且有價(jià)值的信息和知識(shí)的過程【正確答案】:C30.在數(shù)據(jù)庫的發(fā)展歷史上,先后出現(xiàn)過多種數(shù)據(jù)庫類型,但是,不包括:()A、網(wǎng)狀數(shù)據(jù)庫B、球形數(shù)據(jù)庫C、層次數(shù)據(jù)庫D、關(guān)系數(shù)據(jù)庫【正確答案】:B31.大數(shù)據(jù)的簡單算法比小數(shù)據(jù)的復(fù)雜算法更有效,體現(xiàn)了哪種大數(shù)據(jù)思維方式:()A、以數(shù)據(jù)為中心B、全樣而非抽樣C、效率而非精確D、相關(guān)而非因果【正確答案】:A32.以下哪個(gè)不是典型的分類方法:()A、決策樹B、樸素貝葉斯C、K-MeansD、人工神經(jīng)網(wǎng)絡(luò)【正確答案】:C33.下面屬于查詢分析計(jì)算技術(shù)的是:()A、SparkStreamingB、StormC、HiveD、Pregel【正確答案】:C34.關(guān)于大數(shù)據(jù)與區(qū)塊鏈的聯(lián)系,下面描述錯(cuò)誤的是:()A、區(qū)塊鏈?zhǔn)勾髷?shù)據(jù)極大降低信用成本B、區(qū)塊鏈?zhǔn)菢?gòu)建大數(shù)據(jù)時(shí)代的信任基石C、區(qū)塊鏈?zhǔn)谴龠M(jìn)大數(shù)據(jù)價(jià)值流通的管道D、區(qū)塊鏈會(huì)提升大數(shù)據(jù)的信用成本【正確答案】:D解析:

這道題考察的是對(duì)大數(shù)據(jù)與區(qū)塊鏈關(guān)系的理解。區(qū)塊鏈技術(shù)通過其去中心化、不可篡改的特性,確實(shí)能夠降低大數(shù)據(jù)的信用成本,因?yàn)樗鰪?qiáng)了數(shù)據(jù)的可靠性和透明度。同時(shí),區(qū)塊鏈也被視為構(gòu)建大數(shù)據(jù)時(shí)代信任的重要基石,因?yàn)樗峁┝艘环N安全、可信的數(shù)據(jù)交換和存儲(chǔ)方式。此外,區(qū)塊鏈還可以作為促進(jìn)大數(shù)據(jù)價(jià)值流通的管道,因?yàn)樗軌驅(qū)崿F(xiàn)數(shù)據(jù)的可追溯和可驗(yàn)證。然而,說區(qū)塊鏈會(huì)提升大數(shù)據(jù)的信用成本是不準(zhǔn)確的,實(shí)際上它是降低了信用成本。因此,選項(xiàng)D是錯(cuò)誤的。35.下列關(guān)于列族數(shù)據(jù)庫的描述,哪一項(xiàng)是錯(cuò)誤的:()A、查找速度慢,可擴(kuò)展性差B、功能較少,大都不支持強(qiáng)事務(wù)一致性C、容易進(jìn)行分布式擴(kuò)展D、復(fù)雜性低【正確答案】:A36.以下哪個(gè)組件是Spark中的機(jī)器學(xué)習(xí)算法庫:()A、MLlibB、SparkCoreC、MachineLeaningD、SparkSQL【正確答案】:A解析:

在ApacheSpark生態(tài)系統(tǒng)中,不同組件承擔(dān)著不同的角色。針對(duì)這個(gè)問題,我們可以逐一分析選項(xiàng):A.MLlib:這是Spark的機(jī)器學(xué)習(xí)庫,提供了常用的機(jī)器學(xué)習(xí)算法和工具,用于在Spark上進(jìn)行大規(guī)模機(jī)器學(xué)習(xí)。B.SparkCore:這是Spark的基礎(chǔ)組件,提供了分布式任務(wù)調(diào)度、輸入/輸出操作等核心功能,并不直接提供機(jī)器學(xué)習(xí)算法。C.MachineLearning(這個(gè)選項(xiàng)的表述可能是一個(gè)筆誤,通常指的是一個(gè)泛泛的概念,而不是Spark的一個(gè)具體組件):它不是一個(gè)具體的Spark組件名稱。D.SparkSQL:這是Spark用于處理結(jié)構(gòu)化數(shù)據(jù)的組件,提供了SQL和DataFrameAPI,用于數(shù)據(jù)查詢和分析,并不專注于機(jī)器學(xué)習(xí)。綜上所述,MLlib是Spark中專門用于機(jī)器學(xué)習(xí)的算法庫,因此答案是A。37.以下關(guān)于分布式文件系統(tǒng),描述錯(cuò)誤的是:()A、是一種通過網(wǎng)絡(luò)實(shí)現(xiàn)文件在多臺(tái)主機(jī)上進(jìn)行分布式存儲(chǔ)的文件系統(tǒng)B、所有的分布式文件系統(tǒng)的設(shè)計(jì)都是采用“客戶機(jī)/服務(wù)器”(Client/Server)模式C、谷歌開發(fā)了分布式文件系統(tǒng)GFSD、Hadoop分布式文件系統(tǒng)(HadoopDistributedFileSystem,HDFS)是針對(duì)GFS的開源實(shí)現(xiàn)【正確答案】:B38.英國的大數(shù)據(jù)發(fā)展戰(zhàn)略是:()A、穩(wěn)步實(shí)施“三步走”戰(zhàn)略,打造面向未來的大數(shù)據(jù)創(chuàng)新生態(tài)B、通過發(fā)展創(chuàng)新性解決方案并應(yīng)用于實(shí)踐來促進(jìn)大數(shù)據(jù)發(fā)展C、以大數(shù)據(jù)等技術(shù)為核心應(yīng)對(duì)第四次工業(yè)革命D、緊抓大數(shù)據(jù)產(chǎn)業(yè)機(jī)遇,應(yīng)對(duì)脫歐后的經(jīng)濟(jì)挑戰(zhàn)【正確答案】:D39.下面關(guān)于回歸分析的描述錯(cuò)誤的是:()A、是確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計(jì)分析方法B、回歸分析按照涉及的變量的多少,分為一元回歸和多元回歸分析C、按照因變量的多少,可分為線性回歸分析和非線性回歸分析D、在大數(shù)據(jù)分析中,回歸分析是一種預(yù)測(cè)性的建模技術(shù)【正確答案】:C40.下面關(guān)于機(jī)械思維的核心思想,描述錯(cuò)誤的是:()A、世界變化的規(guī)律是確定的B、世界變化的規(guī)律是無法確定的C、規(guī)律不僅是可以被認(rèn)識(shí)的,而且可以用簡單的公式或者語言描述清楚D、這些規(guī)律應(yīng)該是放之四海而皆準(zhǔn)的,可以應(yīng)用到各種未知領(lǐng)域指導(dǎo)實(shí)踐【正確答案】:B41.以下哪項(xiàng)不屬于傳統(tǒng)的數(shù)據(jù)存儲(chǔ)和管理技術(shù):()A、NoSQL數(shù)據(jù)庫B、文件系統(tǒng)C、關(guān)系數(shù)據(jù)庫D、數(shù)據(jù)倉庫【正確答案】:A42.下面哪一個(gè)不屬于大數(shù)據(jù)倫理問題:()A、隱私泄露問題B、數(shù)據(jù)安全問題C、數(shù)字鴻溝問題D、數(shù)據(jù)冗余問題【正確答案】:D解析:

大數(shù)據(jù)倫理問題主要涉及數(shù)據(jù)處理和使用過程中的道德和法律問題。隱私泄露問題涉及個(gè)人信息的保護(hù),是大數(shù)據(jù)倫理的重要議題。數(shù)據(jù)安全問題關(guān)注數(shù)據(jù)的存儲(chǔ)、傳輸和處理過程中的安全,同樣是大數(shù)據(jù)倫理的關(guān)鍵問題。數(shù)字鴻溝問題關(guān)注的是不同社會(huì)群體在數(shù)據(jù)訪問和使用能力上的差異,也是大數(shù)據(jù)倫理討論的一個(gè)重要方面。而數(shù)據(jù)冗余問題主要關(guān)注的是數(shù)據(jù)存儲(chǔ)和管理的效率,它并不直接涉及倫理道德問題,而是更多關(guān)聯(lián)于數(shù)據(jù)管理和技術(shù)問題。因此,不屬于大數(shù)據(jù)倫理問題的是D選項(xiàng),即數(shù)據(jù)冗余問題。43.下面組件哪個(gè)是負(fù)責(zé)日志收集的:()AmbariB、ZookeeperC、HDFSD、Flume【正確答案】:D44.關(guān)于推進(jìn)數(shù)據(jù)共享開放的描述,錯(cuò)誤的是:()A、要改變政府職能部門“數(shù)據(jù)孤島”現(xiàn)象,立足于數(shù)據(jù)資源的共享互換,設(shè)定相對(duì)明確的數(shù)據(jù)標(biāo)準(zhǔn),實(shí)現(xiàn)部門之間的數(shù)據(jù)對(duì)接與共享B、要使不同省區(qū)市之間的數(shù)據(jù)實(shí)現(xiàn)對(duì)接與共享,解決數(shù)據(jù)“畫地為牢”的問題,實(shí)現(xiàn)數(shù)據(jù)共享共用C、在企業(yè)內(nèi)部,破除“數(shù)據(jù)孤島”,推進(jìn)數(shù)據(jù)融合D、不同企業(yè)之間,為了保護(hù)各自商業(yè)利益,不宜實(shí)現(xiàn)數(shù)據(jù)共享【正確答案】:D解析:

推進(jìn)數(shù)據(jù)共享開放是當(dāng)前信息化社會(huì)發(fā)展的重要趨勢(shì),旨在打破信息壁壘,促進(jìn)數(shù)據(jù)資源的有效利用。選項(xiàng)A和B描述了政府層面推進(jìn)數(shù)據(jù)共享的必要性和措施,包括改變政府職能部門“數(shù)據(jù)孤島”現(xiàn)象和解決數(shù)據(jù)“畫地為牢”的問題,這是正確的。選項(xiàng)C提到在企業(yè)內(nèi)部破除“數(shù)據(jù)孤島”,推進(jìn)數(shù)據(jù)融合,也是數(shù)據(jù)共享的重要方面。而選項(xiàng)D提到不同企業(yè)之間為了保護(hù)各自商業(yè)利益,不宜實(shí)現(xiàn)數(shù)據(jù)共享,這與數(shù)據(jù)共享開放的理念相悖。實(shí)際上,在合法合規(guī)的前提下,企業(yè)間的數(shù)據(jù)共享有助于提升整體效率和創(chuàng)新能力,因此選項(xiàng)D是錯(cuò)誤的。45.下面關(guān)于SparkStreaming和Storm的描述錯(cuò)誤的是:()A、SparkStreaming可以實(shí)現(xiàn)毫秒級(jí)的流計(jì)算B、Storm可以實(shí)現(xiàn)毫秒級(jí)響應(yīng)C、SparkStreaming構(gòu)建在SparkCore之上D、SparkStreaming可以同時(shí)兼容批量和實(shí)時(shí)數(shù)據(jù)處理的邏輯和算法【正確答案】:A46.下面關(guān)于網(wǎng)絡(luò)爬蟲的描述正確的是:()A、網(wǎng)絡(luò)爬蟲由控制節(jié)點(diǎn)、爬蟲節(jié)點(diǎn)和資源庫構(gòu)成B、網(wǎng)絡(luò)爬蟲中可以有多個(gè)控制節(jié)點(diǎn),每個(gè)控制節(jié)點(diǎn)下可以有多個(gè)爬蟲節(jié)點(diǎn)C、控制節(jié)點(diǎn)之間可以互相通信,控制節(jié)點(diǎn)和其下的各爬蟲節(jié)點(diǎn)之間也可以進(jìn)行互相通信D、屬于同一個(gè)控制節(jié)點(diǎn)下的各爬蟲節(jié)點(diǎn)間不可以互相通信【正確答案】:D解析:

網(wǎng)絡(luò)爬蟲的架構(gòu)設(shè)計(jì)中,通常控制節(jié)點(diǎn)負(fù)責(zé)協(xié)調(diào)任務(wù)分配,爬蟲節(jié)點(diǎn)執(zhí)行具體抓取任務(wù)。在分布式爬蟲系統(tǒng)中,各爬蟲節(jié)點(diǎn)獨(dú)立工作,避免重復(fù)抓取和資源浪費(fèi)。例如,多個(gè)爬蟲節(jié)點(diǎn)在同一控制節(jié)點(diǎn)下時(shí),任務(wù)調(diào)度和數(shù)據(jù)整合由控制節(jié)點(diǎn)統(tǒng)一管理,節(jié)點(diǎn)間無需直接通信?!禬ebScrapingwithPython》提到,分布式爬蟲通過中心節(jié)點(diǎn)分配不同URL,各節(jié)點(diǎn)獨(dú)立執(zhí)行以防止沖突。選項(xiàng)A混淆了資源庫與核心組件的關(guān)系;選項(xiàng)B錯(cuò)誤假設(shè)允許多控制節(jié)點(diǎn),實(shí)際架構(gòu)多為單一或主從結(jié)構(gòu);選項(xiàng)C的錯(cuò)誤在于控制節(jié)點(diǎn)與爬蟲節(jié)點(diǎn)通常單向通信;選項(xiàng)D正確反映了同一控制節(jié)點(diǎn)下爬蟲節(jié)點(diǎn)無直接通信的特點(diǎn)。47.下面關(guān)于棱鏡門事件描述錯(cuò)誤的是:()A、棱鏡計(jì)劃(PRISM)是一項(xiàng)由美國國家安全局(NSA)自2007年起開始實(shí)施的絕密電子監(jiān)聽計(jì)劃B、在該計(jì)劃中,美國國家安全局和聯(lián)邦調(diào)查局利用平臺(tái)和技術(shù)上的優(yōu)勢(shì),開展全球范圍內(nèi)的監(jiān)聽活動(dòng)C、該計(jì)劃的目的是為了促進(jìn)世界和平與發(fā)展D、該計(jì)劃對(duì)全世界重點(diǎn)地區(qū)、部門、公司甚至個(gè)人進(jìn)行布控【正確答案】:C48.以下描述錯(cuò)誤的是:()A、傳統(tǒng)的關(guān)系數(shù)據(jù)庫可以較好地支持結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)和管理B、Web2.0的迅猛發(fā)展以及大數(shù)據(jù)時(shí)代的到來,使關(guān)系數(shù)據(jù)庫的發(fā)展越來越力不從心C、傳統(tǒng)的關(guān)系數(shù)據(jù)庫由于數(shù)據(jù)模型不靈活、水平擴(kuò)展能力較差等局限性,已經(jīng)無法滿足各種類型的非結(jié)構(gòu)化數(shù)據(jù)的大規(guī)模存儲(chǔ)需求D、傳統(tǒng)關(guān)系數(shù)據(jù)庫引以為豪的一些關(guān)鍵特性,如事務(wù)機(jī)制和支持復(fù)雜查詢,在Web2.0時(shí)代成為不可或缺的核心特性【正確答案】:D解析:

答案解析:傳統(tǒng)關(guān)系數(shù)據(jù)庫確實(shí)在結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)和管理方面表現(xiàn)出色,這是其長期以來的優(yōu)勢(shì)。隨著Web2.0的迅猛發(fā)展和大數(shù)據(jù)時(shí)代的到來,關(guān)系數(shù)據(jù)庫在面對(duì)非結(jié)構(gòu)化數(shù)據(jù)的大規(guī)模存儲(chǔ)和處理時(shí)確實(shí)顯得力不從心,這主要是由于其數(shù)據(jù)模型相對(duì)不靈活且水平擴(kuò)展能力有限。因此,選項(xiàng)A、B、C的描述都是正確的。然而,選項(xiàng)D的描述存在問題。雖然傳統(tǒng)關(guān)系數(shù)據(jù)庫的事務(wù)機(jī)制和支持復(fù)雜查詢是其關(guān)鍵特性,但在Web2.0時(shí)代,這些特性并不是所有應(yīng)用場(chǎng)景都必需的。特別是對(duì)于那些需要高度可擴(kuò)展性和對(duì)非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)有需求的應(yīng)用來說,關(guān)系數(shù)據(jù)庫的這些特性可能并不是核心優(yōu)勢(shì),甚至可能成為限制因素。因此,選項(xiàng)D的描述是錯(cuò)誤的,是這道題的正確答案。49.下面關(guān)于數(shù)據(jù)權(quán)的描述,錯(cuò)誤的是:()A、數(shù)據(jù)權(quán)的概念發(fā)起于英國,主要將其視為信息社會(huì)的一項(xiàng)基本公民權(quán)利B、數(shù)據(jù)權(quán)包括兩個(gè)方面:數(shù)據(jù)主權(quán)和數(shù)據(jù)權(quán)利C、數(shù)據(jù)主權(quán)的主體是國家,是一個(gè)國家獨(dú)立自主對(duì)本國數(shù)據(jù)進(jìn)行管理和利用的權(quán)力D、數(shù)據(jù)主權(quán)的主體是公民,是相對(duì)應(yīng)于公民數(shù)據(jù)采集義務(wù)而形成的對(duì)數(shù)據(jù)利用的權(quán)利【正確答案】:D1.傳統(tǒng)的IT資源獲取方式的主要缺點(diǎn)是:()A、初期成本高,建設(shè)周期長B、后期需要自己維護(hù),使用成本高C、IT資源供應(yīng)量有限D(zhuǎn)、IT資源供應(yīng)量無限【正確答案】:ABC解析:

傳統(tǒng)的IT資源獲取方式,如自建數(shù)據(jù)中心或購買硬件設(shè)備等,通常面臨幾個(gè)主要缺點(diǎn)。首先,這種方式往往需要在初期投入大量資金,并且建設(shè)周期長,因此選項(xiàng)A正確。其次,一旦系統(tǒng)建設(shè)完成,后期還需要自己負(fù)責(zé)維護(hù)和升級(jí),這會(huì)導(dǎo)致使用成本較高,所以選項(xiàng)B也是正確的。再者,傳統(tǒng)的IT資源獲取方式受限于物理設(shè)備和空間的限制,IT資源的供應(yīng)量是有限的,這使得擴(kuò)展性成為一個(gè)問題,因此選項(xiàng)C同樣正確。而選項(xiàng)D,“IT資源供應(yīng)量無限”,顯然與前述傳統(tǒng)方式的局限性相悖,因此是錯(cuò)誤的。綜上所述,正確答案是ABC。2.HDFS的局限性包括:()A、不適合低延遲數(shù)據(jù)訪問B、無法用于大規(guī)模數(shù)據(jù)存儲(chǔ)C、無法高效存儲(chǔ)大量小文件D、不支持多用戶寫入及任意修改文件【正確答案】:ACD3.下面關(guān)于SparkStreaming的描述正確的是:()A、SparkStreaming是構(gòu)建在SparkCore上的實(shí)時(shí)計(jì)算框架,它擴(kuò)展了Spark處理大規(guī)模流式數(shù)據(jù)的能力B、SparkStreaming可結(jié)合批處理和交互查詢,適合一些需要對(duì)歷史數(shù)據(jù)和實(shí)時(shí)數(shù)據(jù)進(jìn)行結(jié)合分析的應(yīng)用場(chǎng)景C、SparkStreaming可整合多種輸入數(shù)據(jù)源,如Kafka、Flume、HDFS,甚至是普通的TCP套接字D、SparkStreaming實(shí)際上是以一系列微小批處理來模擬流計(jì)算【正確答案】:ABCD解析:

這道題考察對(duì)SparkStreaming的理解。SparkStreaming確實(shí)是基于SparkCore,用于處理大規(guī)模流式數(shù)據(jù)。它能結(jié)合批處理和交互查詢,適用于結(jié)合歷史數(shù)據(jù)和實(shí)時(shí)數(shù)據(jù)的分析場(chǎng)景。SparkStreaming支持多種數(shù)據(jù)源,包括Kafka、Flume、HDFS和TCP套接字。它通過一系列微小批處理模擬流計(jì)算,實(shí)現(xiàn)實(shí)時(shí)數(shù)據(jù)處理。4.常見的關(guān)聯(lián)規(guī)則挖掘算法包括:()A、MP-Growth算法B、FP-Growth算法C、Apriori算法D、Bpriori算法【正確答案】:BC5.Hadoop的MapReduce的缺點(diǎn)包括:()A、表達(dá)能力有限B、磁盤IO開銷大C、延遲高D、中間結(jié)果多【正確答案】:ABC6.關(guān)于“大數(shù)據(jù)摩爾定律”,以下說法正確的是:()A、人類社會(huì)產(chǎn)生的數(shù)據(jù)一直都在以每年50%的速度增長B、人類社會(huì)的數(shù)據(jù)量大約每兩年就增加一倍C、人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當(dāng)于之前產(chǎn)生的全部數(shù)據(jù)量之和D、人類社會(huì)的數(shù)據(jù)量以每年10%的速度增長【正確答案】:ABC解析:

“大數(shù)據(jù)摩爾定律”描述的是人類社會(huì)數(shù)據(jù)量的快速增長趨勢(shì)。根據(jù)這一理論,數(shù)據(jù)量的增長是呈指數(shù)級(jí)的。A選項(xiàng)指出,人類社會(huì)產(chǎn)生的數(shù)據(jù)一直都在以每年50%的速度增長,這是符合“大數(shù)據(jù)摩爾定律”的描述,即數(shù)據(jù)增長是快速的,并接近或超過每年50%的速度。B選項(xiàng)說,人類社會(huì)的數(shù)據(jù)量大約每兩年就增加一倍,這也是指數(shù)級(jí)增長的體現(xiàn),與“大數(shù)據(jù)摩爾定律”相符。C選項(xiàng)表述,人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當(dāng)于之前產(chǎn)生的全部數(shù)據(jù)量之和,這反映了數(shù)據(jù)增長的迅猛,符合“大數(shù)據(jù)摩爾定律”的核心理念。D選項(xiàng)則提出,人類社會(huì)的數(shù)據(jù)量以每年10%的速度增長,這與“大數(shù)據(jù)摩爾定律”描述的快速增長趨勢(shì)不符,因此是錯(cuò)誤的。綜上所述,選項(xiàng)A、B、C均正確描述了“大數(shù)據(jù)摩爾定律”的特征,所以答案是ABC。7.交易數(shù)據(jù)的來源主要包括哪些:()A、政府公開數(shù)據(jù)B、企業(yè)內(nèi)部數(shù)據(jù)C、數(shù)據(jù)供應(yīng)方數(shù)據(jù)D、網(wǎng)頁爬蟲數(shù)據(jù)【正確答案】:ABCD8.下面關(guān)于大數(shù)據(jù)編程框架Beam的描述正確的是:()A、Beam是由微軟公司貢獻(xiàn)的Apache頂級(jí)項(xiàng)目Beam的目標(biāo)是為開發(fā)者提供一個(gè)易于使用、卻又很強(qiáng)大的數(shù)據(jù)并行處理模型,能夠支持流處理和批處理C、Beam是一個(gè)開源的統(tǒng)一的編程模型,開發(fā)者可以使用BeamSDK來創(chuàng)建數(shù)據(jù)處理管道,然后,這些程序可以在任何支持的執(zhí)行引擎上運(yùn)行D、BeamSDK定義了開發(fā)分布式數(shù)據(jù)處理任務(wù)業(yè)務(wù)邏輯的API接口,即提供一個(gè)統(tǒng)一的編程接口給到上層應(yīng)用的開發(fā)者【正確答案】:BCD解析:

ApacheBeam并非由微軟公司貢獻(xiàn),而是由多家公司和組織共同貢獻(xiàn)的開源項(xiàng)目,因此A選項(xiàng)錯(cuò)誤。Beam的目標(biāo)是提供一個(gè)統(tǒng)一且易于使用的編程模型,支持流處理和批處理,讓開發(fā)者能夠更容易地構(gòu)建分布式數(shù)據(jù)處理管道,故B選項(xiàng)正確。Beam確實(shí)是一個(gè)開源項(xiàng)目,提供了一個(gè)統(tǒng)一的編程模型,開發(fā)者可以使用BeamSDK來創(chuàng)建數(shù)據(jù)處理管道,并在任何支持的執(zhí)行引擎上運(yùn)行,所以C選項(xiàng)正確。BeamSDK定義了用于開發(fā)分布式數(shù)據(jù)處理任務(wù)的業(yè)務(wù)邏輯的API接口,為上層應(yīng)用開發(fā)者提供了一個(gè)統(tǒng)一的編程接口,D選項(xiàng)描述準(zhǔn)確。綜上所述,正確答案是BCD。9.大數(shù)據(jù)交易平臺(tái)的類型主要包括哪兩種:()A、綜合數(shù)據(jù)服務(wù)平臺(tái)B、實(shí)時(shí)數(shù)據(jù)交易平時(shí)C、零散數(shù)據(jù)交易平臺(tái)D、第三方數(shù)據(jù)交易平臺(tái)【正確答案】:AD10.大數(shù)據(jù)在餐飲行業(yè)的應(yīng)用主要包括:()A、大數(shù)據(jù)驅(qū)動(dòng)的團(tuán)購模式B、利用大數(shù)據(jù)為用戶推薦消費(fèi)內(nèi)容C、利用大數(shù)據(jù)調(diào)整線下門店布局D、利用大數(shù)據(jù)控制店內(nèi)人流量【正確答案】:ABCD11.Spark的特點(diǎn)主要包括:()A、運(yùn)行速度快B、容易使用C、通用性D、運(yùn)行模式單一【正確答案】:ABC12.舍恩伯格在《大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革》一書中明確指出,大數(shù)據(jù)時(shí)代最大的轉(zhuǎn)變就是思維方式的3種轉(zhuǎn)變,具體包括:()A、全樣而非抽樣B、效率而非精確C、相關(guān)而非因果D、務(wù)實(shí)而非務(wù)虛【正確答案】:ABC13.大數(shù)據(jù)在金融領(lǐng)域的應(yīng)用主要包括:()A、高頻交易B、市場(chǎng)情緒分析C、信貸風(fēng)險(xiǎn)分析D、大數(shù)據(jù)征信【正確答案】:ABCD14.實(shí)現(xiàn)數(shù)據(jù)共享,在企業(yè)層面面臨的挑戰(zhàn)包括:()A、系統(tǒng)孤島挑戰(zhàn)B、組織架構(gòu)挑戰(zhàn)C、數(shù)據(jù)合作挑戰(zhàn)D、利潤風(fēng)險(xiǎn)挑戰(zhàn)【正確答案】:ABC15.下列關(guān)于數(shù)據(jù)可視化的描述,正確的有?()A、數(shù)據(jù)可視化是指將大型數(shù)據(jù)集中的數(shù)據(jù)以圖形圖像形式表示B、數(shù)據(jù)可視化技術(shù)的基本思想是將數(shù)據(jù)庫中每一個(gè)數(shù)據(jù)項(xiàng)作為單個(gè)圖元素表示C、利用數(shù)據(jù)分析和開發(fā)工具發(fā)現(xiàn)其中未知信息的處理過程D、將數(shù)據(jù)的各個(gè)屬性值以一維數(shù)據(jù)的形式表示【正確答案】:ABC16.下列關(guān)于圖數(shù)據(jù)庫的描述,哪些是正確的?()A、專門用于處理具有高度相互關(guān)聯(lián)關(guān)系的數(shù)據(jù)B、比較適合于社交網(wǎng)絡(luò)、模式識(shí)別、依賴分析、推薦系統(tǒng)以及路徑尋找等問題C、靈活性高,支持復(fù)雜的圖算法D、復(fù)雜性高,只能支持一定的數(shù)據(jù)規(guī)?!菊_答案】:ABCD17.人類社會(huì)的數(shù)據(jù)產(chǎn)生方式大致經(jīng)歷了哪三個(gè)階段:()A、手工生產(chǎn)階段B、運(yùn)營式系統(tǒng)階段C、用戶原創(chuàng)內(nèi)容階段D、感知式系統(tǒng)階段【正確答案】:BCD18.信息圖表是信息、數(shù)據(jù)、知識(shí)等的視覺化表達(dá),下列哪個(gè)說法正確?()A、谷歌公司的制圖服務(wù)接口GoogleChartAPI,可以用來為統(tǒng)計(jì)數(shù)據(jù)并自動(dòng)生成圖片B、D3是最流行的可視化庫之一,是一個(gè)用于網(wǎng)頁作圖、生成互動(dòng)圖形的JavaScript函數(shù)庫C、ECharts是由百度公司前端數(shù)據(jù)可視化團(tuán)隊(duì)研發(fā)的圖表庫,可以流暢地運(yùn)行在PC和移動(dòng)設(shè)備上D、大數(shù)據(jù)魔鏡是一款優(yōu)秀的國產(chǎn)數(shù)據(jù)分析軟件,它豐富的數(shù)據(jù)公式和算法可以讓用戶真正理解探索分析數(shù)據(jù)【正確答案】:ABCD19.下面關(guān)于數(shù)據(jù)獨(dú)裁的描述,正確的是:()A、所謂的“數(shù)據(jù)獨(dú)裁”是指在大數(shù)據(jù)時(shí)代,由于數(shù)據(jù)量的爆炸式增長,導(dǎo)致做出判斷和選擇的難度徒增,迫使人們必須完全依賴數(shù)據(jù)的預(yù)測(cè)和結(jié)論才能做出最終的決策B、從某個(gè)角度來講,數(shù)據(jù)獨(dú)裁就是讓數(shù)據(jù)統(tǒng)治人類,使人類徹底走向唯數(shù)據(jù)主義C、數(shù)據(jù)獨(dú)裁最終將導(dǎo)致人類思維被“空心化”,進(jìn)而是創(chuàng)新意識(shí)的喪失D、數(shù)據(jù)獨(dú)裁還可能使人們喪失了人的自主意識(shí)、反思和批判的能力,最終淪為數(shù)據(jù)的奴隸【正確答案】:ABCD解析:

數(shù)據(jù)獨(dú)裁的概念涉及到大數(shù)據(jù)時(shí)代數(shù)據(jù)量劇增對(duì)人類決策過程的影響。A選項(xiàng)正確描述了數(shù)據(jù)獨(dú)裁的一個(gè)方面,即數(shù)據(jù)量的大幅增長增加了決策的難度,使人們更傾向于依賴數(shù)據(jù)的預(yù)測(cè)和結(jié)論。B選項(xiàng)從另一個(gè)角度解釋了數(shù)據(jù)獨(dú)裁,即數(shù)據(jù)在某種程度上開始“統(tǒng)治”人類,導(dǎo)致人類過度依賴數(shù)據(jù)。C選項(xiàng)指出數(shù)據(jù)獨(dú)裁的潛在后果之一是人類思維可能被“空心化”,進(jìn)而影響到創(chuàng)新意識(shí),這是一個(gè)合理的推斷。D選項(xiàng)進(jìn)一步闡述了數(shù)據(jù)獨(dú)裁可能導(dǎo)致的負(fù)面效應(yīng),即人們可能喪失自主意識(shí)、反思和批判的能力,這也是對(duì)數(shù)據(jù)獨(dú)裁概念的合理擴(kuò)展。因此,ABCD均為正確選項(xiàng)。20.HDFS要實(shí)現(xiàn)哪些設(shè)計(jì)目標(biāo):()A、復(fù)雜的文件模型B、兼容廉價(jià)的硬件設(shè)備C、流數(shù)據(jù)讀寫D、強(qiáng)大的跨平臺(tái)兼容性【正確答案】:BCD21.大數(shù)據(jù)安全表現(xiàn)出與傳統(tǒng)數(shù)據(jù)安全不同的特征,具體來說包括哪幾個(gè)方面:()A、大數(shù)據(jù)成為網(wǎng)絡(luò)攻擊的顯著目標(biāo)B、大數(shù)據(jù)加大隱私泄露風(fēng)險(xiǎn)C、大數(shù)據(jù)技術(shù)被應(yīng)用到攻擊手段中D、大數(shù)據(jù)成為高級(jí)可持續(xù)攻擊(APT)的載體【正確答案】:ABCD22.云計(jì)算的主要優(yōu)點(diǎn)是:()A、初期投入大,需要用戶自己維護(hù)B、初期零成本,瞬時(shí)可獲得C、后期免維護(hù),使用成本低D、在供應(yīng)IT資源量方面“予取予求”【正確答案】:BCD23.一個(gè)典型的數(shù)據(jù)倉庫系統(tǒng)通常包含哪幾個(gè)組成部分:()A、數(shù)據(jù)源B、數(shù)據(jù)存儲(chǔ)和管理C、OLAP服務(wù)器D、前端工具和應(yīng)用【正確答案】:ABCD24.數(shù)據(jù)采集的三大要點(diǎn)是:()A、全面性B、多維性C、高效性D、精確性【正確答案】:ABC解析:

數(shù)據(jù)采集是信息處理和決策制定的基礎(chǔ),其三大要點(diǎn)通常包括全面性、多維性和高效性。全面性意味著數(shù)據(jù)采集過程中應(yīng)盡可能涵蓋所有相關(guān)數(shù)據(jù)和信息,以避免遺漏重要細(xì)節(jié)。多維性強(qiáng)調(diào)數(shù)據(jù)采集應(yīng)從多個(gè)角度和層面進(jìn)行,以獲得更豐富、更立體的數(shù)據(jù)視圖。高效性則要求數(shù)據(jù)采集過程應(yīng)快速、及時(shí),以適應(yīng)快節(jié)奏的業(yè)務(wù)環(huán)境和決策需求。而精確性雖然是數(shù)據(jù)采集的一個(gè)重要方面,但在此題的上下文中,它并不是與全面性、多維性和高效性并列的“三大要點(diǎn)”之一,因此選項(xiàng)D雖重要但不符合題意。所以,正確答案是ABC。25.下面關(guān)于SparkSQL的描述正確的是:()A、SparkSQL在Hive兼容層面僅依賴HiveQL解析和Hive元數(shù)據(jù)B、SparkSQL目前支持Scala、Java編程語言,暫時(shí)不支持Python語言C、SparkSQL執(zhí)行計(jì)劃生成和優(yōu)化都由Catalyst(函數(shù)式關(guān)系查詢優(yōu)化框架)負(fù)責(zé)D、SparkSQL增加了DataFrame(即帶有Schema信息的RDD),使用戶可以在SparkSQL中執(zhí)行SQL語句【正確答案】:ACD解析:

答案解析:A選項(xiàng)正確,SparkSQL確實(shí)在Hive兼容層面主要依賴HiveQL解析和Hive元數(shù)據(jù),這使得它能夠讀取、寫入和查詢存儲(chǔ)在Hive中的數(shù)據(jù)。B選項(xiàng)錯(cuò)誤,SparkSQL支持多種編程語言,包括Scala、Java和Python。因此,說它暫時(shí)不支持Python語言是不準(zhǔn)確的。C選項(xiàng)正確,SparkSQL的執(zhí)行計(jì)劃生成和優(yōu)化確實(shí)是由Catalyst(一個(gè)函數(shù)式關(guān)系查詢優(yōu)化框架)負(fù)責(zé)的。Catalyst提供了可擴(kuò)展的優(yōu)化器,用于對(duì)SparkSQL的查詢進(jìn)行優(yōu)化。D選項(xiàng)正確,SparkSQL引入了DataFrame的概念,它是一個(gè)帶有Schema信息的RDD(彈性分布式數(shù)據(jù)集)。DataFrame使得用戶可以在SparkSQL中執(zhí)行SQL語句,并提供了更加豐富的數(shù)據(jù)處理功能。綜上所述,正確答案是ACD。26.下面關(guān)于GoogleSpanner的描述正確的是:()A、Spanner是一個(gè)可擴(kuò)展的、全球分布式的數(shù)據(jù)庫B、在最高抽象層面,Spanner就是一個(gè)數(shù)據(jù)庫,把數(shù)據(jù)分片存儲(chǔ)在許多Paxos狀態(tài)機(jī)上,這些機(jī)器位于遍布全球的數(shù)據(jù)中心內(nèi)C、隨著數(shù)據(jù)的變化和服務(wù)器的變化,Spanner會(huì)自動(dòng)把數(shù)據(jù)進(jìn)行重新分片,從而有效應(yīng)對(duì)負(fù)載變化和處理失敗D、Spanner被設(shè)計(jì)成可以擴(kuò)展到幾百萬個(gè)機(jī)器節(jié)點(diǎn),跨越成百上千個(gè)數(shù)據(jù)中心,具備幾萬億數(shù)據(jù)庫行的規(guī)模【正確答案】:ABCD解析:

這道題考查對(duì)GoogleSpanner數(shù)據(jù)庫的理解。Spanner確實(shí)是一個(gè)可擴(kuò)展的、全球分布式的數(shù)據(jù)庫,它在最高抽象層面將數(shù)據(jù)分片存儲(chǔ)在Paxos狀態(tài)機(jī)上,這些機(jī)器分布在全球的數(shù)據(jù)中心。Spanner能自動(dòng)重新分片以應(yīng)對(duì)負(fù)載變化和處理失敗,且它被設(shè)計(jì)成可擴(kuò)展到大規(guī)模,包括數(shù)百萬機(jī)器節(jié)點(diǎn)、成百上千的數(shù)據(jù)中心,以及具備處理幾萬億數(shù)據(jù)庫行的能力。27.消除數(shù)據(jù)孤島對(duì)于政府具有哪些重要的意義:()A、有助于提升資源利用率B、有助于推動(dòng)政府轉(zhuǎn)型C、有助于提高行政效率D、有助于促進(jìn)跨部門合作【正確答案】:ABCD28.下面關(guān)于數(shù)字鴻溝問題的描述,正確的是:()A、數(shù)字鴻溝被認(rèn)為是信息時(shí)代的“馬太效應(yīng)”,即先進(jìn)技術(shù)的成果不能為人公正分享,于是造成“富者越富、窮者越窮”的情況B、數(shù)字鴻溝因?yàn)榇髷?shù)據(jù)技術(shù)的誕生而趨向彌合C、數(shù)字鴻溝是一個(gè)涉及公平公正的問題D、在我國,東中西部地區(qū)、城鄉(xiāng)之間等都可以明顯感受到數(shù)字鴻溝的存在【正確答案】:ACD解析:

數(shù)字鴻溝問題關(guān)注的是信息技術(shù)獲取和使用的不平等現(xiàn)象。選項(xiàng)A正確描述了數(shù)字鴻溝作為信息時(shí)代“馬太效應(yīng)”的體現(xiàn),即技術(shù)進(jìn)步的成果未能被公正分享,導(dǎo)致富者更富、窮者更窮的情況。選項(xiàng)C也正確,因?yàn)閿?shù)字鴻溝確實(shí)涉及技術(shù)訪問和使用的不公平,這是一個(gè)公正性問題。選項(xiàng)D同樣正確,指出在中國,不同地區(qū)和城鄉(xiāng)之間都可以明顯感受到數(shù)字鴻溝的存在。而選項(xiàng)B錯(cuò)誤,因?yàn)榇髷?shù)據(jù)技術(shù)的誕生并未自動(dòng)彌合數(shù)字鴻溝,反而可能加劇了技術(shù)獲取和使用的不平等。因此,正確答案是ACD。29.大數(shù)據(jù)產(chǎn)業(yè)是指一切與支撐大數(shù)據(jù)組織管理和價(jià)值發(fā)現(xiàn)相關(guān)的企業(yè)經(jīng)濟(jì)活動(dòng)的集合。以下哪些屬于大數(shù)據(jù)產(chǎn)業(yè)的某個(gè)環(huán)節(jié)():A、IT基礎(chǔ)設(shè)施層B、數(shù)據(jù)源層C、數(shù)據(jù)管理層D、數(shù)據(jù)分析層【正確答案】:ABCD30.下面關(guān)于Flink的描述正確的是:()A、Flink和Spark一樣,都是基于磁盤的計(jì)算框架B、當(dāng)全部運(yùn)行在HadoopYARN之上時(shí),Flink的性能甚至還要略好于SparkC、Flink的流計(jì)算性能和Storm差不多,可以支持毫秒級(jí)的響應(yīng)D、Spark的市場(chǎng)影響力和社區(qū)活躍度明顯超過Flink【正確答案】:BCD31.以下關(guān)于大數(shù)據(jù)與人工智能的聯(lián)系,描述正確的是:()A、人工智能需要數(shù)據(jù)來建立其智能,特別是機(jī)器學(xué)習(xí)B、人工智能應(yīng)用的數(shù)據(jù)越多,其獲得的結(jié)果就越準(zhǔn)確C、大數(shù)據(jù)為人工智能提供了海量的數(shù)據(jù),使得人工智能技術(shù)有了長足的發(fā)展D、大數(shù)據(jù)技術(shù)為人工智能提供了強(qiáng)大的存儲(chǔ)能力和計(jì)算能力【正確答案】:ABCD32.在大數(shù)據(jù)時(shí)代,可視化技術(shù)可以支持實(shí)現(xiàn)哪些目標(biāo)?()A、觀測(cè)、跟蹤數(shù)據(jù)B、分析數(shù)據(jù)C、輔助理解數(shù)據(jù)D、增強(qiáng)數(shù)據(jù)吸引力【正確答案】:ABCD33.下面關(guān)于智能物流的描述,正確的是A、又稱智慧物流,是利用智能化技術(shù),使物流系統(tǒng)能模仿人的智能,具有思維、感知、學(xué)習(xí)、推理判斷和自行解決物流中某些問題的能力B、可以幫助實(shí)現(xiàn)物流資源優(yōu)化調(diào)度和有效配置,并且提升物流系統(tǒng)效率C、智能物流概念源自2010年IBM發(fā)布的研究報(bào)告《智慧的未來供應(yīng)鏈》D、智能物流概念經(jīng)歷了自動(dòng)化、信息化、網(wǎng)絡(luò)化3個(gè)發(fā)展階段【正確答案】:ABCD解析:

這道題考察智能物流的概念和應(yīng)用。智能物流,即智慧物流,確實(shí)利用智能化技術(shù)模仿人的智能,處理物流問題。它能優(yōu)化調(diào)度物流資源,提升效率。智能物流概念源于2010年IBM的研究報(bào)告,且經(jīng)歷了自動(dòng)化、信息化、網(wǎng)絡(luò)化的發(fā)展階段。每個(gè)選項(xiàng)都準(zhǔn)確描述了智能物流的不同方面。34.關(guān)于數(shù)據(jù)倉庫Impala的描述正確的是:()A、Impala是由Oracle公司開發(fā)的查詢系統(tǒng)B、與Hive類似,Impala也可以直接與HDFS和HBase進(jìn)行交互C、Impala采用了與商用MPP并行關(guān)系數(shù)據(jù)庫類似的分布式查詢引擎,可以直接從HDFS或者HBase中用SQL語句查詢數(shù)據(jù),而不需要把SQL語句轉(zhuǎn)化成MapReduce任務(wù)來執(zhí)行D、Impala和Hive采用了不同的SQL語法、ODBC驅(qū)動(dòng)程序和用戶接口【正確答案】:BC解析:

答案解析:A選項(xiàng)錯(cuò)誤,因?yàn)镮mpala并非由Oracle公司開發(fā),而是由Cloudera公司開發(fā)。B選項(xiàng)正確,Impala的設(shè)計(jì)確實(shí)與Hive有相似之處,它可以直接與HDFS和HBase進(jìn)行交互,用于大規(guī)模數(shù)據(jù)的快速查詢。C選項(xiàng)正確,Impala采用了與商用MPP并行關(guān)系數(shù)據(jù)庫類似的分布式查詢引擎,這使得它可以直接從HDFS或HBase中用SQL語句查詢數(shù)據(jù),而無需將SQL語句轉(zhuǎn)換成MapReduce任務(wù)來執(zhí)行,從而提高了查詢效率。D選項(xiàng)錯(cuò)誤,Impala和Hive實(shí)際上采用了相同的SQL語法、ODBC驅(qū)動(dòng)程序和用戶接口,這使得它們?cè)诤芏喾矫婵梢韵嗷ゼ嫒莺吞娲?。綜上所述,正確答案是BC。35.下面關(guān)于大數(shù)據(jù)處理與分析的描述,正確的是:()A、在理論層面,數(shù)據(jù)分析需要統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘等知識(shí)B、在技術(shù)層面,包括單機(jī)分析工具(比如SPSS、SAS等)或單機(jī)編程語言(比如Python、R),以及大數(shù)據(jù)處理與分析技術(shù)(比如MapReduce、Spark、Hive等)C、在大數(shù)據(jù)時(shí)代到來之前,數(shù)據(jù)分析主要以小規(guī)模的抽樣數(shù)據(jù)為主,一般使用單機(jī)分析工具(比如SPSS和SAS)或者單機(jī)編程(比如Python、R)的方式來實(shí)現(xiàn)分析程序D、到了大數(shù)據(jù)時(shí)代,數(shù)據(jù)量爆炸式地增長,數(shù)據(jù)分析就需要采用分布式實(shí)現(xiàn)技術(shù),比如使用MapReduce、Spark或Flink編寫分布式分析程序,借助于集群的多臺(tái)機(jī)器進(jìn)行并行數(shù)據(jù)處理分析【正確答案】:ABCD解析:

這道題考察的是對(duì)大數(shù)據(jù)處理與分析的理解。首先,數(shù)據(jù)分析確實(shí)需要統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘等知識(shí)。其次,技術(shù)層面涵蓋了單機(jī)分析工具、編程語言以及大數(shù)據(jù)處理與分析技術(shù)。在大數(shù)據(jù)時(shí)代前,分析主要基于小規(guī)模抽樣數(shù)據(jù),使用單機(jī)工具或編程。大數(shù)據(jù)時(shí)代后,數(shù)據(jù)量劇增,需要分布式技術(shù)如MapReduce、Spark等進(jìn)行并行處理。選項(xiàng)全面覆蓋了這些核心概念。36.一次BSP計(jì)算過程包括一系列全局超步(超步就是指計(jì)算中的一次迭代),每個(gè)超步主要包括哪幾個(gè)組件:()A、局部計(jì)算B、中間計(jì)算C、通信D、柵欄同步【正確答案】:ACD37.Kafka的架構(gòu)包括哪些組件:()A、話題(Topic)B、生產(chǎn)者(Producer)C、服務(wù)代理(Broker)D、消費(fèi)者(Consumer)【正確答案】:ABCD38.關(guān)于Hive與Hadoop生態(tài)系統(tǒng)中其他組件的關(guān)系,下面描述正確的是:()A、HDFS作為高可靠的底層存儲(chǔ),用來存儲(chǔ)海量數(shù)據(jù)B、MapReduce對(duì)這些海量數(shù)據(jù)進(jìn)行批處理,實(shí)現(xiàn)高性能計(jì)算C、用HiveQL語句編寫的處理邏輯,最終都要轉(zhuǎn)化為MapReduce任務(wù)來運(yùn)行D、Hive的目標(biāo)是取代HBase【正確答案】:ABC39.需要清洗的數(shù)據(jù)的主要類型包括:()A、殘缺數(shù)據(jù)B、干凈數(shù)據(jù)C、錯(cuò)誤數(shù)據(jù)D、重復(fù)數(shù)據(jù)【正確答案】:ACD40.數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論