




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
4.2大數據處理第2課時(分層作業(yè))【夯實基礎】大數據的特征可以用被總結為4V特征,以下哪個不屬于大數據的4V特征()A.種類多(Variety) B.體量大(Volume)C.風險大(Venture) D.速度快(Velocity)下列數據處理中,不屬于文本數據處理的是()A.將中文翻譯成其他國家的文字B.輸入姓名、單位等信息,制作通訊錄C.檢測的論文內容與對比庫中的資料進行對比,檢測論文可信度D.解析大量合同文檔,有效監(jiān)控風險條款,節(jié)省人力和時間成本大數據領域中,為了提高數據質量、降低數據計算的復雜度、提升數據處理的準確性。常用的技術是()A.預處理技術 B.存儲技術 C.管理技術 D.挖掘技術數據處理的一般過程是()。A.采集—分析—整理—可視化表達 B.采集—整理—可視化表達-分析C.采集—整理—分析-可視化表達 D.采集—可視化表達—整理-分析
下列關于大數據的描述中,不正確的是()A.大數據專指Excel軟件收集、加工的數據B.物聯(lián)網、云計算、手機、電腦都是數據的來源C.互聯(lián)網生成的數據量正以爆發(fā)性的速度不斷增長D.在科學實驗中,各種傳感器每時每刻的速度不斷增長下列關于大數據的說法,正確的是()A.大數據要分析的是全體數據,而不是抽樣數據,且要求數據必須是精確無誤的B.處理大數據時,一般采用分治思想C.處理大數據時,更注重事物的因果關系而不是相關性D.實現對實時數據的獲取、傳輸和存儲可以采用分布式系統(tǒng)完成下列關于大數據處理的描述中,不正確的是()A.處理大數據時,一般采用分治思想B.Hadoop是一個可運行于大規(guī)模計算機集群上的分布式系統(tǒng)基礎架構,適用于處理實時數據C.HDFS是一個高度容錯性的系統(tǒng),適合部署在廉價的機器上,云盤、網盤的底層一般采用HDFS實現D.MapReduce是一種分布式并行編程模型,主要由Map(映射)和Reduce(歸納)2個函數構成下列對大數據的理解錯誤的是()。A.從互聯(lián)網產生大數據的角度來看,大數據具有“4V”特征,分別是大量(Volume),多樣(Variety),低價值密度(Value),高速(Velocity)。B.從互聯(lián)網思維的角度來看,大數據具有三個特征:樣本漸趨于總體,精確讓位于模糊,相關性重于因果。C.從大數據存儲與計算的角度來看,大數據具有兩個特征:分布式存儲和分布式并行計算。D.以上都不對【鞏固提升】下列描述的場景與處理方法使用不恰當的是()A.分析前一年的高鐵客流數據優(yōu)化高鐵運行采用批處理計算B.京東網雙12通過實時分析用戶行為實現商品的推薦采用流計算C.圖計算為騰訊超大規(guī)模社交網絡圖數據的各類計算提供支撐D.分析近五年的信息技術選考試卷梳理高頻考點采用流計算某超市曾經研究銷售數據,發(fā)現買商品A的人購買商品B的概率很大,這種屬于數據的()A.聚類分析 B.關聯(lián)分析 C.分類分析 D.回歸分析下列數據處理中,不屬于文本數據處理的是()A.根據白名單和黑名單機制,進行垃圾郵件的識別B.在線客服通過自動應答技術回答問題C.實時監(jiān)測景區(qū)的人流數據,控制過多的游客進入景區(qū)D.分析消費者的意見數據,挖掘用戶觀點,輔助運營決策居民身份證號碼可以反映出常住戶口所在地的行政區(qū)劃、出生日期和性別等信息,這主要體現了數據是()。計算工具識別、存儲和加工的對象 B.信息的載體 C.可處理的 D.可加工的【拓展應用】(簡答題)請寫出大數據處理流程四步驟。
近年來,很多網絡平臺會在年底為用戶生成專屬的個人報表,顯示一年內該用戶在該平臺上的各種使用行為數據。(1)這類個人報表是利用大數據技術收集用戶的個人行為數據,并通過分類和計算獲得。由此可見()A.大數據采集的數據必須準確無誤B.大數據的數據采集主要還是人工方式C.大數據分析的是抽樣數據D.大數據分析能發(fā)現數據間的相關性(2)某數據公司統(tǒng)計了2016-2020年全球每年產生的數據量及其增速,結果如圖。此統(tǒng)計主要采用的數據分析方法是(),使用了()和()兩種圖表來組合進行可視化呈現。()A.聚類分析、餅圖、條形圖B.對比分析、折線圖、柱形圖C.結構分析、餅圖、條形圖D.平均分析、折線圖、柱形圖(3)該網站可實現對數據的加密解密,界面如圖。該應用服務架構體系屬于()A.B/SB.P2PC.C/SD.B/C(4)此網站的加密功能是對輸入的明文(由字母、數字或其他字符組成的字符串)中的每個字符進行處理。算法規(guī)則如下:①將明文中所有的小寫字母轉換為大寫字母,例如:a→A;②將明文中所有的數字加上1變成另一個數字,例如0→1,9→0;③明文中除了小寫字母和數字字符外均不進行轉換;④將加密后的數據倒序輸出,例如“abc”→“cba”,即為該明文的密文。那么,明文為“An95”得到的密文為()A.59nAB.69nAC.60NAD.60nA(5)以上加密算法,如果用Python語言實現,為方便處理,明文和密文一般都被抽象為()數據類型的數據。A.數值B.字符串C.列表D.元組參考答案:【夯實基礎】1.C【詳解】[詳解]:本題主要考查大數據特征。大數據的4V特征分別是Volume(大量性)、Velocity(高速性)、Variety(多樣性)、Value(價值性),故本題選C選項。2.B【詳解】本題考查的是文本數據處理。制作通訊錄的材料是結構化數據,選項B符合題意。3.A【詳解】本題考查大數據技術相關內容。大數據預處理技術是指在進行大數據分析之前,對原始的大量數據進行清洗、轉換、集成和規(guī)范化等一系列操作,以提高數據的質量、可用性和可操作性。故本題答案是A選項。4.C【詳解】本題主要考查數據處理。數據處理的一般過程是采集一分析一整理可視化表達,故本題選C選項。5.A【詳解】本題主要考查大數據的描述。大數據是指無法在可承受的時間范圍內用常規(guī)軟件工具進行高效捕捉、管理和處理的數據集合,是需要新處理模式才能具有更佳的決策力、洞察發(fā)現力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產;物聯(lián)網、云計算、手機、電腦都是數據的來源;互聯(lián)網生成的數據量正以爆發(fā)性的速度不斷增長;在科學實驗中,各種傳感器每時每刻的速度不斷增長,故本題選A選項。6.B【詳解】本題考查大數據相關內容。A選項,大數據要分析的是全體數據,不是抽樣數據,大數據具有低價值密度性,所以大數據無需每個數據都準確無誤,選項錯誤。B選項,處理大數據時,一般采用分治思想(把最初的問題分解成若干子問題,然后,在逐個解決各個子問題的基礎上得到原始問題的解),選項正確。C選項,處理大數據時,更注重事物的相關性而不是因果關系,選項錯誤。D選項,實現對實時數據的獲取、傳輸和存儲可以采用Flink完成。Flink是一個開源的流處理框架,支持窗口操作、聚合操作、連接操作等復雜計算。Flink還提供了容錯機制,可以在數據處理過程中實時修復錯誤,并可以通過Checkpoint機制實現數據的容錯。Flink的優(yōu)點是支持流式計算,可以處理大規(guī)模的數據流,適用于處理實時數據。選項錯誤。故本題答案是B選項。7.B【詳解】本題主要考查大數據處理。hadoop指一個用于大數據分布式存儲(HDFS),分布式計算(MapReduce)和資源調度(YARN)的平臺,Hadoop適用于靜態(tài)數據的批處理計算,不適用于夂處理實時數據,故本題選B選項。項。8.D【詳解】本題主要考查大數據的相關知識。大數據具有“4V”特征,分別是大量(Volume),多樣(Variety),高速(Velocity)、低價值密度(Value),因此A選項正確;從互聯(lián)網思維白的角度來看,大數據具有三個特征:樣本漸趨于總體,精確讓位于模糊,相關性重于因果。因此B選項正確;人從大數據存儲與計算的角度來看,大數據具有兩個特征:分布式存儲和分布式并行計算。因此C選項正確;由上可知D選項不符合題意?!眷柟烫嵘緿【詳解】本題考查的是對不同數據的不同處理方法。一般靜態(tài)數據用批處理計算,流數據用流計算,圖數據用圖計算等。近五年的信息技術選考試卷梳理高頻考點應該屬于靜態(tài)數據,應采用批處理計算。故選項D正確。B【詳解】本題考查的是數據分析。聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標準,聚類分析能夠從樣本數據出發(fā)、自動進行分類。關聯(lián)分析就是分析并發(fā)現存在于大量數據之間的關聯(lián)性或相關性,從而描述一個事物中某些屬性同時出現的規(guī)律和模式。數據分類是數據分析處理中最基本的方法。數據分類通常的做法是,基于樣本數據先訓練構建分類函數或者分類模型(也稱為分類器),該分類器具有將分類數據項映射到某一特點類別的功能?;貧w分析是確定兩種或兩種以上變量間相互依賴的定量關系的一種統(tǒng)計分析方法。某超市曾經研究銷售數據,發(fā)現買商品A的人購買商品B的概率很大,這種屬于數據的關聯(lián)分析。故選項B正確。C【詳解】本題考查的是數據處理。C選項只是掌握游客數量,沒有進行分詞等文本操作。C【詳解】本題主要考查數據處理。數據處理的基本目的是從大量的、雜亂無章的、難以理解的數據中抽取出相對有價值、有意義的數據,故居民身份證號碼可以反映出常住戶口所在地的行政區(qū)劃、出生日期和性別等信息,這主要體現了數據是可處理的,故本題選C選項。【拓展應用】【答案】大數據處理流程主要包括四個關鍵步驟:數據采集、數據預處理、數據存儲與分析以及數據可視化。(1)數據采集是大數據處理流程的第一步,也是至關重要的一步。數據采集的主要目的是從各種數據源中收集、識別和記錄數據。在數據采集階段,需要使用各種不同的技術和工具,例如ETL(提取、轉換、加載)工具、數據清洗工具、數據庫管理系統(tǒng)等等。(2)數據預處理是大數據處理流程的第二步,其主要目的是對數據進行清洗、整合和變換,以提高數據的質量和可用性。在這個階段,需要使用各種數據處理技術和工具,例如數據去重、數據填補、數據規(guī)范化等等。(3)數據存儲與分析是大數據處理流程的第三步,其主要目的是對數據進行存儲和管理,并通過對數據的分析來獲得有用的信息。在這個階段,需要使用各種數據存儲技術和工具,例如分布式文件系統(tǒng)、數據庫管理系統(tǒng)等等。(4)數據可視化是大數據處理流程的最后一步,其主要目的是將數據處理的結果以可視化的方式呈現出來,以便更加直觀地展示數據的特征和規(guī)律。在這個階段,需要使用各種數據可視化技術和工具,例如表格、圖表、地理信息系統(tǒng)等等。大數據處理流程的四大步驟是相互聯(lián)系、相互影響的。通過這四個步驟的執(zhí)行,可以有效地優(yōu)化數據,充分挖掘數據的潛在價值,為決策和業(yè)務運營提供有力支持。同時,隨著技術的不斷發(fā)展和進步,大數據處理的流程和方式也將不斷改變和優(yōu)化,以更好地適應時代的需求和發(fā)展?!驹斀狻勘绢}考查大數據處理流程相關內容。大數據處理流程主要包括四個關鍵步驟:數據采集、數據預處理、數據存儲與分析以及數據可視化?;卮鸪鲆c即可?!敬鸢浮緿BACB【詳解】本題考查數據與大數據相關內容。結合題目內容可知:(1)這類個人報表是利用大數據技術收集用戶的個人行為數據,并通過分類和計算獲得,說明大數據分析能發(fā)現數據間的相關性。故本題答案是:D。(2)①聚類分析就是將研究對象根據一些特征指標,把比較相似的研究對象,按一定的方式歸為同類。②對比分析法是指將兩個或兩個以上的數據進行比較,分析它們的差異,從而揭示這些數據所代表的事物發(fā)展變化情況和規(guī)律性,對比分析可分為靜態(tài)比較和動態(tài)比較兩大類:靜態(tài)比較也叫橫向對比,是同一時間下對不同指標的對比;動態(tài)比較也叫縱向對比,是同一總體條件對不同時期指標數值的比較。③結構分析法指分析總體內的各部分與總體之間進行對比的分析方法及總體內各部分占總體的比例,屬于相對指標,一般某部分的比例越大,說明其重要程度越高,對總體的影響越大。④平均分析法是運用計算平均數的方法來反映總體在一定時間/地點條件下某一數量特征的一般水平,平均
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 第9課《呵護我們的鼻子》教學設計-生命生態(tài)安全四年級下冊 (川教版)
- 2025年農業(yè)產業(yè)集群農業(yè)產業(yè)鏈金融創(chuàng)新報告
- 智能交通系統(tǒng)在高速公路智能化交通信息發(fā)布中的應用報告
- 2025年新能源企業(yè)安全生產標準化建設與市場競爭力報告
- Starter Unit 3 Welcome!Section B1e (writing) 說課稿 2024-2025學年人教版英語七年級上冊
- 一、積木模式編程說課稿初中信息技術新世紀版八年級下冊2018-新世紀版2018
- 2.7《圖形與我的生活》(教案)-一年級下冊數學西師大版
- 2025年中國高純氯化鈦行業(yè)市場分析及投資價值評估前景預測報告
- 2025年中國高純度木糖醇行業(yè)市場分析及投資價值評估前景預測報告
- 2025年中國高DHA魚油行業(yè)市場分析及投資價值評估前景預測報告
- 2024年4月自考08368熱工測量與自動控制試題
- 贏利-未來10年的經營能力-讀后感
- 《中國心力衰竭診斷和治療指南2024》解讀
- 核電站電氣貫穿件介紹課件
- 《冠狀動脈性心臟病》課件
- eOps自動化運維平臺介紹
- 有機場效應晶體管
- 心臟病患者非心臟手術麻醉管理
- 高中日語學習宣講+課件
- 公路交通安全設施工高級工培訓內容
- GB/T 3141-1994工業(yè)液體潤滑劑ISO粘度分類
評論
0/150
提交評論