




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
2025年統(tǒng)計學專業(yè)期末考試:統(tǒng)計軟件應用與數(shù)據(jù)預處理試題庫考試時間:______分鐘總分:______分姓名:______一、單項選擇題(本大題共20小題,每小題1分,共20分。在每小題列出的四個選項中,只有一個是符合題目要求的,請將正確選項的字母填在題后的括號內。)1.在統(tǒng)計軟件中,導入外部數(shù)據(jù)文件時,下列哪種格式通常不需要進行數(shù)據(jù)類型轉換?(A)A.CSV格式B.Excel格式C.SPSS格式D.SAS格式2.當你在統(tǒng)計軟件中遇到數(shù)據(jù)缺失值時,以下哪種處理方法可能會引入偏差?(C)A.刪除含有缺失值的行B.使用均值填補缺失值C.使用眾數(shù)填補缺失值D.使用回歸分析預測缺失值3.在數(shù)據(jù)預處理階段,如何檢測數(shù)據(jù)中的異常值?(B)A.計算數(shù)據(jù)的平均值B.使用箱線圖C.計算數(shù)據(jù)的方差D.使用直方圖4.在統(tǒng)計軟件中,如何對數(shù)據(jù)進行排序?(D)A.使用篩選功能B.使用匯總功能C.使用透視表D.使用排序功能5.當你在統(tǒng)計軟件中處理大數(shù)據(jù)集時,以下哪種方法可以提高數(shù)據(jù)處理效率?(A)A.使用數(shù)據(jù)透視表B.使用數(shù)據(jù)篩選C.使用數(shù)據(jù)排序D.使用數(shù)據(jù)匯總6.在統(tǒng)計軟件中,如何對數(shù)據(jù)進行分組?(C)A.使用篩選功能B.使用匯總功能C.使用數(shù)據(jù)分組功能D.使用透視表7.當你在統(tǒng)計軟件中處理數(shù)據(jù)時,以下哪種方法可以確保數(shù)據(jù)的完整性?(B)A.使用數(shù)據(jù)透視表B.使用數(shù)據(jù)驗證功能C.使用數(shù)據(jù)排序D.使用數(shù)據(jù)匯總8.在統(tǒng)計軟件中,如何進行數(shù)據(jù)透視分析?(D)A.使用篩選功能B.使用匯總功能C.使用數(shù)據(jù)分組功能D.使用數(shù)據(jù)透視表9.當你在統(tǒng)計軟件中處理數(shù)據(jù)時,以下哪種方法可以減少數(shù)據(jù)冗余?(A)A.使用數(shù)據(jù)清洗功能B.使用數(shù)據(jù)篩選C.使用數(shù)據(jù)排序D.使用數(shù)據(jù)匯總10.在統(tǒng)計軟件中,如何進行數(shù)據(jù)標準化?(C)A.使用數(shù)據(jù)篩選功能B.使用數(shù)據(jù)匯總功能C.使用標準化函數(shù)D.使用數(shù)據(jù)透視表11.當你在統(tǒng)計軟件中處理數(shù)據(jù)時,以下哪種方法可以檢測數(shù)據(jù)中的重復值?(B)A.使用數(shù)據(jù)透視表B.使用數(shù)據(jù)查找功能C.使用數(shù)據(jù)排序D.使用數(shù)據(jù)匯總12.在統(tǒng)計軟件中,如何進行數(shù)據(jù)合并?(D)A.使用篩選功能B.使用匯總功能C.使用數(shù)據(jù)分組功能D.使用數(shù)據(jù)合并功能13.當你在統(tǒng)計軟件中處理數(shù)據(jù)時,以下哪種方法可以提高數(shù)據(jù)的可讀性?(A)A.使用數(shù)據(jù)格式化功能B.使用數(shù)據(jù)篩選C.使用數(shù)據(jù)排序D.使用數(shù)據(jù)匯總14.在統(tǒng)計軟件中,如何進行數(shù)據(jù)抽樣?(C)A.使用篩選功能B.使用匯總功能C.使用數(shù)據(jù)抽樣功能D.使用數(shù)據(jù)透視表15.當你在統(tǒng)計軟件中處理數(shù)據(jù)時,以下哪種方法可以確保數(shù)據(jù)的準確性?(B)A.使用數(shù)據(jù)透視表B.使用數(shù)據(jù)驗證功能C.使用數(shù)據(jù)排序D.使用數(shù)據(jù)匯總16.在統(tǒng)計軟件中,如何進行數(shù)據(jù)轉換?(D)A.使用篩選功能B.使用匯總功能C.使用數(shù)據(jù)分組功能D.使用數(shù)據(jù)轉換功能17.當你在統(tǒng)計軟件中處理數(shù)據(jù)時,以下哪種方法可以減少數(shù)據(jù)噪聲?(A)A.使用數(shù)據(jù)清洗功能B.使用數(shù)據(jù)篩選C.使用數(shù)據(jù)排序D.使用數(shù)據(jù)匯總18.在統(tǒng)計軟件中,如何進行數(shù)據(jù)驗證?(C)A.使用篩選功能B.使用匯總功能C.使用數(shù)據(jù)驗證功能D.使用數(shù)據(jù)透視表19.當你在統(tǒng)計軟件中處理數(shù)據(jù)時,以下哪種方法可以提高數(shù)據(jù)的利用率?(B)A.使用數(shù)據(jù)透視表B.使用數(shù)據(jù)匯總功能C.使用數(shù)據(jù)排序D.使用數(shù)據(jù)驗證功能20.在統(tǒng)計軟件中,如何進行數(shù)據(jù)篩選?(A)A.使用數(shù)據(jù)篩選功能B.使用數(shù)據(jù)匯總功能C.使用數(shù)據(jù)分組功能D.使用數(shù)據(jù)透視表二、多項選擇題(本大題共10小題,每小題2分,共20分。在每小題列出的五個選項中,有多項是符合題目要求的,請將正確選項的字母填在題后的括號內。)1.在統(tǒng)計軟件中,導入外部數(shù)據(jù)文件時,以下哪些格式需要進行數(shù)據(jù)類型轉換?(ABC)A.CSV格式B.Excel格式C.SPSS格式D.SAS格式E.STATA格式2.當你在統(tǒng)計軟件中處理數(shù)據(jù)時,以下哪些方法可以提高數(shù)據(jù)處理效率?(AC)A.使用數(shù)據(jù)透視表B.使用數(shù)據(jù)篩選C.使用數(shù)據(jù)分組功能D.使用數(shù)據(jù)排序E.使用數(shù)據(jù)匯總3.在統(tǒng)計軟件中,如何檢測數(shù)據(jù)中的異常值?(AB)A.計算數(shù)據(jù)的平均值B.使用箱線圖C.計算數(shù)據(jù)的方差D.使用直方圖E.使用散點圖4.當你在統(tǒng)計軟件中處理數(shù)據(jù)時,以下哪些方法可以確保數(shù)據(jù)的完整性?(BC)A.使用數(shù)據(jù)透視表B.使用數(shù)據(jù)驗證功能C.使用數(shù)據(jù)清洗功能D.使用數(shù)據(jù)排序E.使用數(shù)據(jù)匯總5.在統(tǒng)計軟件中,如何進行數(shù)據(jù)合并?(ABD)A.使用數(shù)據(jù)合并功能B.使用數(shù)據(jù)查找功能C.使用數(shù)據(jù)分組功能D.使用數(shù)據(jù)透視表E.使用數(shù)據(jù)匯總6.當你在統(tǒng)計軟件中處理數(shù)據(jù)時,以下哪些方法可以減少數(shù)據(jù)冗余?(AC)A.使用數(shù)據(jù)清洗功能B.使用數(shù)據(jù)篩選C.使用數(shù)據(jù)分組功能D.使用數(shù)據(jù)排序E.使用數(shù)據(jù)匯總7.在統(tǒng)計軟件中,如何進行數(shù)據(jù)標準化?(BC)A.使用數(shù)據(jù)篩選功能B.使用標準化函數(shù)C.使用數(shù)據(jù)轉換功能D.使用數(shù)據(jù)透視表E.使用數(shù)據(jù)匯總8.當你在統(tǒng)計軟件中處理數(shù)據(jù)時,以下哪些方法可以檢測數(shù)據(jù)中的重復值?(AB)A.使用數(shù)據(jù)查找功能B.使用數(shù)據(jù)透視表C.使用數(shù)據(jù)排序D.使用數(shù)據(jù)匯總E.使用數(shù)據(jù)驗證功能9.在統(tǒng)計軟件中,如何進行數(shù)據(jù)抽樣?(ACD)A.使用數(shù)據(jù)抽樣功能B.使用數(shù)據(jù)篩選功能C.使用數(shù)據(jù)分組功能D.使用數(shù)據(jù)透視表E.使用數(shù)據(jù)匯總10.當你在統(tǒng)計軟件中處理數(shù)據(jù)時,以下哪些方法可以提高數(shù)據(jù)的可讀性?(AB)A.使用數(shù)據(jù)格式化功能B.使用數(shù)據(jù)透視表C.使用數(shù)據(jù)排序D.使用數(shù)據(jù)匯總E.使用數(shù)據(jù)驗證功能三、判斷題(本大題共10小題,每小題1分,共10分。請判斷下列敘述的正誤,正確的填“√”,錯誤的填“×”。)1.在統(tǒng)計軟件中,導入數(shù)據(jù)文件時,所有數(shù)據(jù)類型都會自動匹配,無需任何手動調整。(×)你想想看,這怎么可能呢?不同軟件的數(shù)據(jù)格式那可是千差萬別的,比如Excel里的文本和數(shù)字,導入SPSS時就需要手動指定類型,不然肯定出問題。2.使用均值填補缺失值是一種簡單快捷的方法,但可能會導致數(shù)據(jù)的分布形態(tài)發(fā)生改變,尤其當缺失值較多或者數(shù)據(jù)偏態(tài)分布時。(√)沒錯,我以前就犯過這種錯誤,用均值填補后,數(shù)據(jù)看起來挺“完美”的,結果分析結果全歪了,真是頭疼。3.箱線圖是檢測數(shù)據(jù)異常值的好工具,通常圖中離群點(Outlier)標記的數(shù)值就是異常值,可以直接刪除。(×)不對不對,離群點不一定是真正的異常值,可能是測量誤差或者真實存在的極端情況,直接刪掉太草率了,應該先調查原因。4.數(shù)據(jù)分組時,選擇合適的分組區(qū)間很重要,分組太粗或太細則會影響數(shù)據(jù)分析結果,比如計算頻率分布時。(√)這話說到點子上了,我教學生時特別強調這一點,分組太細會導致每個組人數(shù)很少,分組太粗又會丟失信息,得拿捏好度。5.數(shù)據(jù)標準化(Z-score)后,所有變量的均值為0,標準差為1,這時候比較不同單位變量的大小就方便多了。(√)沒錯,這是標準化最直觀的好處之一,我在做綜合評價時經(jīng)常用這個方法,不然噸和米怎么比呢?6.使用數(shù)據(jù)透視表可以快速匯總數(shù)據(jù),但只能對數(shù)值型變量進行計算,不能處理文本型變量。(×)這怎么可能?數(shù)據(jù)透視表對文本型變量也能做計數(shù)、頻率分析呢,我平時做市場調研報告時,經(jīng)常會用透視表統(tǒng)計不同地區(qū)的產(chǎn)品銷售情況。7.數(shù)據(jù)排序和篩選是兩個不同的操作,排序是改變數(shù)據(jù)物理順序,篩選是選出滿足條件的數(shù)據(jù),兩者可以結合使用。(√)說得對,排序就像整理書架,篩選像用篩子選沙子,我上課時常用這個比喻,學生好像更容易理解。8.數(shù)據(jù)驗證功能可以防止用戶輸入錯誤數(shù)據(jù),比如限制輸入只能為特定幾個值,或者必須滿足某個數(shù)值范圍。(√)沒錯,這個功能太實用了,我以前做問卷系統(tǒng)時,就用了驗證功能確保答案格式統(tǒng)一,避免后續(xù)整理數(shù)據(jù)時出錯。9.數(shù)據(jù)轉換包括計算新變量、變量類型轉換等操作,這些操作通常是不可逆的,一旦執(zhí)行就需要小心保存原始數(shù)據(jù)。(×)不對,很多轉換是可逆的,比如把數(shù)值型變量轉為字符型,再轉回來還是原樣,不過確實轉換后要備份原始數(shù)據(jù),以防萬一。10.對于大數(shù)據(jù)集,使用統(tǒng)計軟件時內存不足是一個常見問題,這時候可以考慮分塊處理數(shù)據(jù)或者使用專業(yè)的大數(shù)據(jù)處理工具。(√)太對了,我處理過一次包含上百萬條記錄的數(shù)據(jù),SPSS直接卡死,后來換成Python分塊處理才搞定,真是長記性。四、簡答題(本大題共5小題,每小題4分,共20分。請根據(jù)題目要求,簡要回答下列問題。)1.簡述在統(tǒng)計軟件中檢測和處理數(shù)據(jù)缺失值的常用方法,并說明每種方法的優(yōu)缺點。缺失值這東西真是讓人頭疼,我一般會教學生三種方法。首先是刪除法,包括刪除含有缺失值的行或者列,優(yōu)點是操作簡單,缺點是如果缺失太多會損失數(shù)據(jù),樣本量變??;其次是填充法,有均值/中位數(shù)/眾數(shù)填充,還有回歸填充、多重插補等,優(yōu)點是不損失數(shù)據(jù),缺點是填充值可能不準確;最后是模型法,比如決策樹、KNN等,優(yōu)點是能利用其他變量信息,缺點是模型復雜。我告訴學生要根據(jù)數(shù)據(jù)情況選擇,比如缺失不多就考慮刪除,缺失模式明顯就用模型法。2.解釋數(shù)據(jù)清洗的主要步驟,并舉例說明其中某個步驟在實際操作中的注意事項。數(shù)據(jù)清洗真是統(tǒng)計工作的基礎,我一般是按照缺失值處理、異常值檢測、重復值識別、數(shù)據(jù)格式轉換這幾個步驟來教。比如異常值檢測,我讓學生主要用箱線圖和3σ原則,我特別強調要結合業(yè)務背景判斷,不能一刀切刪除,有一次有個學生把所有銷售額超過100萬的訂單都刪了,結果發(fā)現(xiàn)那是正常的大客戶,真是哭笑不得。我教他們先標記異常值,再分析原因,決定如何處理。3.說明在統(tǒng)計軟件中進行數(shù)據(jù)合并的兩種主要方法,并比較它們的適用場景。數(shù)據(jù)合并這操作我常用,主要有兩種,一種是根據(jù)共同關鍵字段合并,像Excel里的VLOOKUP,SPSS里的JOIN;另一種是追加數(shù)據(jù),把兩個數(shù)據(jù)集按行堆疊起來,像Excel里的堆疊,SPSS里的CONCATENATE。合并方法要根據(jù)數(shù)據(jù)結構來選,如果兩個數(shù)據(jù)集要匹配的變量很多,就用第一種;如果只是簡單增加記錄,就用追加,我告訴學生要看清楚合并軸(行或列)和匹配方式(內連接、外連接等)。4.描述數(shù)據(jù)透視表在數(shù)據(jù)預處理中的作用,并列舉至少三個可以應用數(shù)據(jù)透視表的功能。數(shù)據(jù)透視表真是神器,我經(jīng)常用它快速探索數(shù)據(jù)。它的作用主要有:一可以快速匯總統(tǒng)計量,比如按部門統(tǒng)計銷售額;二可以查看變量間關系,比如不同年齡段客戶購買的產(chǎn)品類別;三可以生成交叉表,分析分類變量的交互效應。我讓學生多練習用它生成頻率分布、計算均值、分析分組差異,比手動計算高效多了。5.當你在統(tǒng)計軟件中處理包含重復記錄的數(shù)據(jù)集時,你會采取哪些步驟來識別和刪除這些重復值?處理重復值我有個固定流程,首先用“查找重復個案”功能,按關鍵字段(比如身份證號、訂單號)篩查;然后分析重復記錄產(chǎn)生的原因,可能是錄入錯誤還是系統(tǒng)生成;最后決定刪除策略,一般是保留第一條,刪除后續(xù)重復的,但有些情況下可能需要保留所有記錄,只是標記出來。我特別提醒學生要注意,不是所有字段完全相同的才算重復,有時候關鍵業(yè)務字段一致就算有效重復,得靈活判斷。本次試卷答案如下一、單項選擇題答案及解析1.A解析:CSV格式通常是純文本,默認導入時會自動識別各列數(shù)據(jù)類型,不需要手動轉換。而Excel、SPSS、SAS等格式可能包含預設的數(shù)據(jù)類型或格式,導入時需要用戶確認或轉換。2.C解析:使用眾數(shù)填補缺失值只適用于分類變量,如果用于數(shù)值變量,會掩蓋數(shù)據(jù)真實分布,引入偏差。均值填補數(shù)值變量雖然會改變均值,但相對更平滑。回歸預測和刪除法各有適用場景,但眾數(shù)填補的局限性最大。3.B解析:箱線圖能直觀顯示數(shù)據(jù)的分布和離群點,是檢測異常值的常用方法。計算均值方差只是描述數(shù)據(jù)特征,排序和直方圖主要用于觀察分布形態(tài),不能專門定位異常值。4.D解析:統(tǒng)計軟件都有專門的排序功能,可以按一個或多個變量升序/降序排列。篩選是選出滿足條件的數(shù)據(jù),匯總和透視表是數(shù)據(jù)分析功能,與排序目的不同。5.A解析:數(shù)據(jù)透視表可以快速對大數(shù)據(jù)進行分類匯總和交叉分析,相比逐條篩選或排序,效率高得多。篩選和排序在大數(shù)據(jù)集上會很慢,匯總和透視表本質就是高效計算。6.C解析:數(shù)據(jù)分組功能允許用戶定義分組區(qū)間,將連續(xù)變量轉化為分類變量,便于后續(xù)分析。篩選是選出特定值,匯總是計算統(tǒng)計量,透視表是展示結果,分組是預處理步驟。7.B解析:數(shù)據(jù)驗證功能是在錄入階段設置規(guī)則(如只能輸入特定值或數(shù)值范圍),確保數(shù)據(jù)質量。透視表、排序、匯總都是分析時用的,數(shù)據(jù)驗證是預防性工具。8.D解析:數(shù)據(jù)透視表是專門進行交叉分析的工具,可以動態(tài)調整行、列、值字段,觀察變量間關系。其他選項都是數(shù)據(jù)處理步驟,透視表更側重分析功能。9.A解析:數(shù)據(jù)清洗功能(如去重、識別無效值)可以自動或半自動發(fā)現(xiàn)并處理冗余數(shù)據(jù)。篩選、排序、匯總都是分析操作,清洗是預處理手段。10.C解析:標準化函數(shù)(如Z-score)將數(shù)據(jù)轉化為均值為0、標準差為1的分布,消除量綱影響。其他選項是數(shù)據(jù)操作或分析功能,不是特定計算方法。11.B解析:數(shù)據(jù)查找功能(Find)可以快速定位包含特定值的記錄,常用于檢測重復值。透視表是匯總工具,排序是改變順序,匯總和透視表不直接檢測重復。12.D解析:數(shù)據(jù)合并功能(Merge/Join)專門用于根據(jù)關鍵字段合并兩個數(shù)據(jù)集。篩選、匯總、分組都是其他數(shù)據(jù)處理操作,合并是連接數(shù)據(jù)集的特定功能。13.A解析:數(shù)據(jù)格式化功能(Format)可以調整數(shù)字格式(如千位分隔符)、文本對齊、顏色等,提高可讀性。篩選、排序、匯總都是分析操作,格式化是展示優(yōu)化。14.C解析:數(shù)據(jù)抽樣功能(Sample)可以直接從數(shù)據(jù)集中按指定比例或方法抽取子集,常用于大數(shù)據(jù)預覽或代表性分析。篩選是選特定記錄,透視表是匯總,抽樣是隨機或系統(tǒng)選取。15.B解析:數(shù)據(jù)驗證功能(Validate)是確保輸入數(shù)據(jù)符合預設規(guī)則(如格式、范圍),比手動檢查更可靠。透視表、排序、匯總都是分析時用,驗證是錄入時用。16.D解析:數(shù)據(jù)轉換功能(Transform)包括創(chuàng)建新變量、改變類型、計算衍生指標等。篩選、匯總、分組都是分析操作,轉換是數(shù)據(jù)變形的核心功能。17.A解析:數(shù)據(jù)清洗功能(Clean)可以識別并處理異常值、缺失值、重復值等,減少噪聲干擾。篩選、排序、匯總都是分析操作,清洗是預處理手段。18.C解析:數(shù)據(jù)驗證功能(Validate)是設置輸入限制(如下拉菜單、數(shù)值范圍),防止錯誤數(shù)據(jù)錄入。透視表、排序、匯總都是分析時用,驗證是錄入時用。19.B解析:數(shù)據(jù)匯總功能(Summarize)可以快速計算分組或整體統(tǒng)計量(均值、頻數(shù)等),提高數(shù)據(jù)利用率。透視表是展示匯總結果,排序、篩選是分析輔助,匯總是核心計算。20.A解析:數(shù)據(jù)篩選功能(Filter)是選出滿足條件的數(shù)據(jù)行,保留其他行。透視表是匯總工具,匯總、分組是其他操作,篩選是選擇數(shù)據(jù)的直接方式。二、多項選擇題答案及解析1.ABC解析:CSV是純文本,Excel和SPSS導入時可能需要手動指定類型,SAS和STATA通常能自動匹配或只需簡單調整。我讓學生注意,即使是文本文件,導入SPSS時也要檢查變量視圖里的類型設置。2.AC解析:數(shù)據(jù)透視表適合快速探索和匯總,但對文本處理不如專門文本分析工具。數(shù)據(jù)分組功能在處理分類變量時特別高效。篩選、排序、匯總在大數(shù)據(jù)上效率不高。3.AB解析:箱線圖通過四分位數(shù)和離群點標記異常值,3σ原則基于正態(tài)分布假設。但實際數(shù)據(jù)常不滿足假設,異常值也可能是真實值,需要結合業(yè)務判斷。我教學生要標記異常值再決定處理。4.BC解析:數(shù)據(jù)驗證是保證數(shù)據(jù)質量的利器,尤其用于問卷或錄入系統(tǒng)。數(shù)據(jù)清洗能去除不一致數(shù)據(jù),兩者都間接保證完整性。透視表、排序、匯總都是分析時用。5.ABD解析:數(shù)據(jù)合并功能是核心,查找是輔助手段(用于定位重復)。透視表可以展示合并結果,但不是合并方法本身。匯總和分組是其他數(shù)據(jù)處理操作。6.AC解析:數(shù)據(jù)清洗能去除重復記錄、糾正錯誤值,減少冗余。分組能合并相似記錄,也減少冗余。篩選、排序、匯總不直接處理數(shù)據(jù)冗余。7.BC解析:標準化函數(shù)是標準操作,數(shù)據(jù)轉換功能包含多種變形。篩選、匯總、透視表都是分析工具,不是特定變形方法。8.AB解析:數(shù)據(jù)查找能按值定位重復記錄,透視表可以展示重復記錄的分布。排序、匯總、驗證不專門用于檢測重復。9.ACD解析:數(shù)據(jù)抽樣功能是直接操作,分組是準備抽樣常做的,透視表可用于分析抽樣結果。篩選、匯總是其他數(shù)據(jù)處理方式。10.AB解析:數(shù)據(jù)格式化直接提升展示效果,透視表是交互式分析工具,兩者都提高數(shù)據(jù)可讀性和分析效率。排序、匯總、驗證是其他功能。三、判斷題答案及解析1.×解析:CSV雖然簡單,但導入不同軟件時仍可能需要類型轉換,比如Excel導入SPSS時,日期和文本需要手動設置。我讓學生記住,沒有絕對自動匹配的格式。2.√解析:均值填充簡單但會拉平分布,尤其當缺失值集中在高端時,會低估真實均值。我舉過例子,用均值填缺失后,數(shù)據(jù)看起來很"正常",結果分析發(fā)現(xiàn)系統(tǒng)性低估了極端值。3.×解析:離群點可能是真實但罕見的情況,也可能是錯誤。我教學生要標記離群點,分析產(chǎn)生原因,比如是錄入錯誤還是特殊業(yè)務。直接刪除太武斷。4.√解析:分組太細則樣本量小,統(tǒng)計意義差;太粗會丟失信息。我讓學生畫圖理解,就像看顯微鏡,太粗看不清細胞,太細背景全是噪聲。5.√解析:標準化是消除量綱影響的標準做法,比如比較身高和體重,先標準化再分析才有意義。這是我在回歸分析課上必講的內容。6.×解析:透視表對文本處理很方便,比如統(tǒng)計各省份訂單數(shù),文本字段作為分組變量完全沒問題。我讓學生試試用產(chǎn)品名稱做透視表行標簽。7.√解析:排序是物理位置改變,篩選是邏輯選擇,透視表是重新組織展示,三者目的不同。我常用超市貨架比喻:排序是搬貨架,篩選是選商品,透視表是看銷售報表。8.√解析:數(shù)據(jù)驗證是錄入時保護數(shù)據(jù)質量的利器,我設計問卷系統(tǒng)時必用,比如年齡只能填1-100,不能輸入"很多"。比后期清洗省事多了。9.×解析:數(shù)值轉字符再轉回來,值不變,就像把人民幣換成美元再換回來。但要注意轉換細節(jié),比如小數(shù)位數(shù)可能丟失。我讓學生用SPSS試試看。10.√解析:大數(shù)據(jù)內存問題太常見了,我處理過百萬級數(shù)據(jù),SPSS卡死是常態(tài)。后來改用Python分塊讀,效率高多了。這是硬道理。四、簡答題答案及解析1.缺失值處理方法及優(yōu)缺點:刪除法:簡單,但丟失數(shù)據(jù),樣本量小。適用于缺失不多(<5%)且缺失隨機的情況。我告訴學生,刪除后要檢查分析結果是否改變。填充法:均值/中位數(shù)/眾數(shù)簡單但可能扭曲分布;回歸/多重插補更復雜但用更多信息。適用于缺失有一定模式但非完全隨機。我強調要根據(jù)缺失機制選擇。模型法:決策樹/KNN等能利用其他變量信息。適用于缺失模式復雜或關聯(lián)性強。我讓學生記住,模型法計算量大,結果解釋也可能更難。我教學生要畫圖分析缺失模式(如熱圖),再結合缺失機制選擇方法,不能隨意用均值填充。2.數(shù)據(jù)清洗步驟及注意事項:步驟:缺失值處理(刪除/填充/模型)、異常值檢測(箱線圖/3σ)、重復值識別(查找重復)、數(shù)據(jù)格式統(tǒng)一(類型/日期)、數(shù)據(jù)驗證(設置規(guī)則)。注意事項:異常值要結合業(yè)務判斷,不能簡單刪除。比如銷售額100萬可能是大客戶,直接刪掉不行。我讓學
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年婁底技師學院招聘工作人員(2人)考前自測高頻考點模擬試題及答案詳解(易錯題)
- 2024自考專業(yè)(建筑工程)模擬試題及參考答案詳解【培優(yōu)A卷】
- 隧道設計院試題及答案
- 巡檢工作試題及答案
- 食品專業(yè)自主試題及答案
- 小學全體師生新冠肺炎防疫知識培訓計劃
- DB15T 500.8-2023 防雷裝置檢測技術規(guī)范 第8部分:加油加氣站
- 二年級上學期語文課外閱讀計劃
- 2023年新鄉(xiāng)市五年級語文第四單元考試試卷
- 人工器官用戶反饋收集系統(tǒng)創(chuàng)新創(chuàng)業(yè)項目商業(yè)計劃書
- K31作業(yè)現(xiàn)場安全隱患排除(K3)
- 減肥培訓課件教學
- 中國普通食物營養(yǎng)成分表(修正版)
- 統(tǒng)編版 高中語文 必修上冊 人間煙火勞動最美-《芣苢》《插秧歌》群文閱讀
- 隧道工程施工勞務分包合同
- 安裝維修合同協(xié)議書模板
- 部編版高中語文必修上第六單元任務群教學設計
- 人教版七年級上冊英語UNIT 4 My Favourite Subject單元測試卷
- 光明乳銷售合同范本
- 2022年學習貫徹黨的二十次大會精神知識競賽選擇題含答案
- ISO15614-1 2017 金屬材料焊接工藝規(guī)程及評定(中文版)
評論
0/150
提交評論