




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)分析常用函數(shù)速查與實(shí)例工具表引言在數(shù)據(jù)分析工作中,函數(shù)是提升效率的核心工具。無論是數(shù)據(jù)清洗、統(tǒng)計(jì)分析還是結(jié)果可視化,熟練運(yùn)用常用函數(shù)能快速解決實(shí)際問題。本工具表整合了Excel、Python(pandas庫)中高頻數(shù)據(jù)分析函數(shù),結(jié)合具體使用場(chǎng)景和操作步驟,幫助、等數(shù)據(jù)分析從業(yè)者快速上手,避免重復(fù)試錯(cuò)。一、這些函數(shù)能幫你解決什么問題?1.數(shù)據(jù)清洗:快速規(guī)范原始數(shù)據(jù)問題場(chǎng)景:原始數(shù)據(jù)存在重復(fù)值、缺失值、格式錯(cuò)誤(如日期格式不統(tǒng)一、文本含多余空格),需快速清理。適用函數(shù):Excel的TRIM、SUBSTITUTE、IFERROR;Python的drop_duplicates()、fillna()、replace()。2.數(shù)據(jù)計(jì)算:高效統(tǒng)計(jì)關(guān)鍵指標(biāo)問題場(chǎng)景:需計(jì)算銷售額總和、平均值、同比增長率,或按條件篩選數(shù)據(jù)(如“某區(qū)域銷售額超過10萬的訂單”)。適用函數(shù):Excel的SUMIFS、AVERAGEIFS、IF;Python的group()、sum()、pct_change()。3.數(shù)據(jù)匹配:關(guān)聯(lián)多表信息問題場(chǎng)景:從“員工信息表”匹配“銷售業(yè)績表”的部門名稱,或從“產(chǎn)品庫”提取產(chǎn)品單價(jià)到“訂單表”。適用函數(shù):Excel的VLOOKUP、INDEX+MATCH;Python的merge()、map()。4.日期處理:拆分或計(jì)算時(shí)間差問題場(chǎng)景:從“訂單日期”提取年/月,計(jì)算“訂單到賬周期”,或篩選“近30天”的訂單數(shù)據(jù)。適用函數(shù):Excel的YEAR、DATEDIF、TODAY;Python的pd.to_datetime()、dt.year、timedelta。二、函數(shù)使用分步指南(附實(shí)例)【Excel示例1】用VLOOKUP匹配員工部門場(chǎng)景:已知“員工工號(hào)-姓名”表(Sheet1),需從“部門信息表”(Sheet2)中匹配部門名稱,填充到Sheet1的“部門”列。步驟1:準(zhǔn)備數(shù)據(jù)Sheet1數(shù)據(jù):A列(工號(hào))、B列(姓名),C列需填充“部門”。Sheet2數(shù)據(jù):D列(工號(hào))、E列(部門),工號(hào)列無重復(fù)且為文本格式。步驟2:輸入公式在Sheet1的C2單元格輸入:excel=VLOOKUP(A2,Sheet2!D:E,2,FALSE)參數(shù)說明:A2:查找值(當(dāng)前員工的工號(hào));Sheet2!D:E:查找區(qū)域(包含工號(hào)和部門的列,工號(hào)必須為第一列);2:返回列索引(從查找區(qū)域第一列開始數(shù),部門在第2列);FALSE:精確匹配(保證工號(hào)完全一致)。步驟3:填充公式拖拽C2單元格右下角填充柄,至所有員工數(shù)據(jù)行。結(jié)果驗(yàn)證若A2工號(hào)為“1001”,Sheet2中D列“1001”對(duì)應(yīng)E列為“銷售部”,則C2顯示“銷售部”;若工號(hào)不存在,返回#N/A?!綪ython示例1】用pandas.merge合并銷售數(shù)據(jù)場(chǎng)景:已知“訂單表”(df1,含訂單ID、客戶ID、銷售額)和“客戶信息表”(df2,含客戶ID、客戶名稱、區(qū)域),需合并兩張表,添加客戶名稱和區(qū)域信息。步驟1:導(dǎo)入庫并創(chuàng)建數(shù)據(jù)importpandasaspd訂單表df1=pd.DataFrame({‘訂單ID’:[‘A001’,‘A002’,‘A003’],‘客戶ID’:[‘C01’,‘C02’,‘C01’],‘銷售額’:[1200,800,1500]})客戶信息表df2=pd.DataFrame({‘客戶ID’:[‘C01’,‘C02’,‘C03’],‘客戶名稱’:[‘張公司’,’李店鋪’,’王*工廠’],‘區(qū)域’:[‘華東’,‘華南’,‘華北’]})步驟2:執(zhí)行合并操作df_merge=pd.merge(df1,df2,on=‘客戶ID’,how=‘left’)參數(shù)說明:on='客戶ID':合并依據(jù)的列名(兩張表共有的列);how='left':左連接(保留df1所有訂單,若客戶ID在df2中不存在,則對(duì)應(yīng)列填充NaN)。步驟3:查看結(jié)果print(df_merge)輸出結(jié)果:訂單ID客戶ID銷售額客戶名稱區(qū)域0A001C011200張*公司華東1A002C02800李*店鋪華南2A003C011500張*公司華東三、常用函數(shù)速查與實(shí)例對(duì)照表函數(shù)名稱所屬工具功能描述語法結(jié)構(gòu)/參數(shù)示例實(shí)例數(shù)據(jù)及結(jié)果適用場(chǎng)景VLOOKUPExcel列方向查找并返回對(duì)應(yīng)值=VLOOKUP(查找值,區(qū)域,列索引,[匹配類型])查找工號(hào)“1001”對(duì)應(yīng)部門:=VLOOKUP("1001",D:E,2,FALSE)→返回“銷售部”單列匹配、跨表關(guān)聯(lián)SUMIFSExcel多條件求和=SUMIFS(求和區(qū)域,條件區(qū)域1,條件1,條件區(qū)域2,條件2)計(jì)算華東區(qū)Q1銷售額:=SUMIFS(銷售額列,區(qū)域列,"華東",月份列,"Q1")→返回35000多維度數(shù)據(jù)匯總TRIMExcel刪除文本首尾多余空格=TRIM(文本)=TRIM("數(shù)據(jù)分析")→返回“數(shù)據(jù)分析”清理數(shù)據(jù)中的空格干擾mergePython合并兩個(gè)DataFramepd.merge(df1,df2,on='列名',how='連接方式')合并訂單表與客戶表(見上文)→添加客戶名稱和區(qū)域多表數(shù)據(jù)關(guān)聯(lián)groupPython按分組聚合數(shù)據(jù)df.group('分組列').聚合函數(shù)()計(jì)算各區(qū)域平均銷售額:df.group('區(qū)域')['銷售額'].mean()→返回華東:11000,華南:9000分組統(tǒng)計(jì)、對(duì)比分析IFERRORExcel處理公式錯(cuò)誤值=IFERROR(公式,錯(cuò)誤返回值)=IFERROR(VLOOKUP("A100",D:E,2,FALSE),"未找到")→若工號(hào)不存在,返回“未找到”避免錯(cuò)誤值影響報(bào)表美觀fillnaPython填充缺失值df.fillna(填充值/方法)df.fillna(0)→將所有缺失值填充為0缺失值處理DATEDIFExcel計(jì)算兩個(gè)日期的間隔=DATEDIF(開始日期,結(jié)束日期,"單位")計(jì)算訂單到賬周期:=DATEDIF(下單日期,到賬日期,"D")→返回天數(shù)間隔時(shí)間差計(jì)算四、使用函數(shù)時(shí)容易踩的坑及避坑指南1.數(shù)據(jù)格式不匹配導(dǎo)致錯(cuò)誤常見問題:Excel中工號(hào)列存儲(chǔ)為文本(如”1001”),但查找區(qū)域?yàn)閿?shù)字格式,VLOOKUP返回#N/A。解決方法:統(tǒng)一數(shù)據(jù)格式(如選中工號(hào)列,右鍵“設(shè)置單元格格式”→“文本”)。2.查找區(qū)域引用錯(cuò)誤常見問題:VLOOKUP查找區(qū)域未鎖定絕對(duì)引用(如VLOOKUP(A2,D:E,2,FALSE)),拖拽公式時(shí)區(qū)域偏移。解決方法:使用絕對(duì)引用:VLOOKUP(A2,Sheet2!$D:$E,2,FALSE)。3.忽略how參數(shù)導(dǎo)致數(shù)據(jù)丟失常見問題:Python合并數(shù)據(jù)時(shí)默認(rèn)使用inner內(nèi)連接,僅保留兩張表共有的行,可能導(dǎo)致部分?jǐn)?shù)據(jù)丟失。解決方法:根據(jù)需求選擇連接方式:how='left'(保留左表全部)、how='right'(保留右表全部)、how='outer'(保留全部)。4.嵌套函數(shù)過難維護(hù)常見問題:Excel中嵌套多層IF(如=IF(A1>100,"高",IF(A1>50,"中","低"))),超過3層后公式復(fù)雜難讀。解決方法:改用IFS函數(shù)(Excel2019+):=IFS(A1>100,"高",A1>50,"中",A1<=50,"低"),或用輔助列分步計(jì)算。5.缺失值未處理導(dǎo)致計(jì)算錯(cuò)誤常見問題:Python中含缺失值(NaN)的列直接求和,結(jié)果可能為NaN或不符合預(yù)期。解決方法:先用fillna()填充缺失值(如df['銷售額'].fillna(0).sum()),或用skipna=Tru
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 四年級(jí)有效學(xué)習(xí)方法訓(xùn)練與演講稿
- 1 x照護(hù)理論考試題庫及答案解析
- 基金從業(yè)考試題目組成及答案解析
- 工地安全員c證試題考試題庫及答案解析
- 安全知識(shí)及常識(shí)測(cè)試題及答案解析
- 安全工程師化工題庫及答案解析
- 護(hù)理學(xué)基礎(chǔ)第十二章題庫及答案解析
- 安全生產(chǎn)題庫搜索及答案解析
- 信息安全等級(jí)評(píng)測(cè)師題庫及答案解析
- 企業(yè)內(nèi)部審計(jì)制度執(zhí)行手冊(cè)
- 北師大版小學(xué)數(shù)學(xué)五年級(jí)上冊(cè)專項(xiàng)訓(xùn)練(知識(shí)梳理+典例精講+專項(xiàng)訓(xùn)練)【應(yīng)用題專項(xiàng)】第四單元 多邊形的面積(講義)(含答案)
- 社區(qū)工作中的有效溝通技巧
- 硅灰石市場(chǎng)需求分析報(bào)告
- 學(xué)習(xí)中心教學(xué)論
- 2-綿陽一診地理評(píng)講(2021級(jí)2024屆)
- 易制爆化學(xué)品防盜搶應(yīng)急預(yù)案
- 醫(yī)學(xué)圖像存儲(chǔ)和傳輸系統(tǒng)課件
- 酒店客房價(jià)格折扣規(guī)定
- 顏色科學(xué)-第二章孟塞爾顏色系統(tǒng)課件
- GB/T 6329-1996膠粘劑對(duì)接接頭拉伸強(qiáng)度的測(cè)定
- GB/T 3639-2009冷拔或冷軋精密無縫鋼管
評(píng)論
0/150
提交評(píng)論