盤(pán)點(diǎn):8個(gè)提高數(shù)據(jù)分析工作效率的技巧_第1頁(yè)
盤(pán)點(diǎn):8個(gè)提高數(shù)據(jù)分析工作效率的技巧_第2頁(yè)
盤(pán)點(diǎn):8個(gè)提高數(shù)據(jù)分析工作效率的技巧_第3頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余1頁(yè)可下載查看

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

盤(pán)點(diǎn):8個(gè)提高數(shù)據(jù)分析工作效率的技巧

聽(tīng)起來(lái)是不是很像你的遭遇?你會(huì)不會(huì)在得出像樣的答案之前反復(fù)分析很多次?或者一遍又一遍地為類(lèi)似的活動(dòng)寫(xiě)著代碼?如果是這樣的話(huà),這篇文章正好適合你。我會(huì)分享一些提高效率和減少不必要的重復(fù)工作的方法。備注:請(qǐng)別誤會(huì)。我不是說(shuō)迭代都不好。這篇文章的重點(diǎn)在于如何識(shí)別哪些迭代是必要的,哪些是不必要且需要避免的。什么原因?qū)е铝藬?shù)據(jù)分析中的重復(fù)工作?我認(rèn)為沒(méi)有加入新信息,就沒(méi)必要重復(fù)分析(后面提到一個(gè)例外)。下面這些重復(fù)工作都是可以避免的:1、對(duì)客戶(hù)問(wèn)題的診斷有偏差,不能滿(mǎn)足需求,所以要重做。2、重復(fù)分析的目的在于收集更多的變量,而你之前認(rèn)為不需要這些變量。3、之前沒(méi)有考慮到影響你分析活動(dòng)的偏差或假設(shè),后來(lái)考慮到了所以要重做。哪些迭代是必要的呢?下面舉兩個(gè)例子,一、你先建立了一個(gè)6個(gè)月后的模型,隨后有了新的信息,由此導(dǎo)致的迭代是健康的。二、你有意地從簡(jiǎn)單的模型開(kāi)始逐漸深入理解并構(gòu)建復(fù)雜模型。上面沒(méi)有涵蓋所有可能的情況,但我相信這些例子足夠幫助你判斷你的分析迭代是不是健康的。這些生產(chǎn)力殺手的影響?我們很清楚一點(diǎn)——沒(méi)有人想在分析中出現(xiàn)不健康的迭代和生產(chǎn)力殺手。不是每個(gè)數(shù)據(jù)科學(xué)家都樂(lè)于一邊做一邊增加變量并反復(fù)運(yùn)行整個(gè)分析過(guò)程。分析師和數(shù)據(jù)科學(xué)家會(huì)因?yàn)椴唤】档蛦适识罡写鞌?,缺乏成就感。那么讓我們盡一切努力來(lái)避免它們吧。小貼士:如何避免不健康迭代并增加效率?技巧1:只關(guān)注重大問(wèn)題每個(gè)組織都有很多可以用數(shù)據(jù)解決的小問(wèn)題!但雇一個(gè)數(shù)據(jù)科學(xué)家的主要目的不在于解決這些小問(wèn)題。好鋼要用在刀刃上,應(yīng)該選取3到4個(gè)對(duì)整個(gè)組織影響最大的數(shù)據(jù)問(wèn)題交給數(shù)據(jù)科學(xué)家來(lái)解決。這些問(wèn)題一般具有挑戰(zhàn)性,會(huì)給你的分析活動(dòng)帶來(lái)最大杠桿(或者收獲滿(mǎn)滿(mǎn)或者顆粒無(wú)收,想象一下借貸炒股)。當(dāng)更大的問(wèn)題沒(méi)被解決時(shí),你不應(yīng)當(dāng)去解決小問(wèn)題。聽(tīng)起來(lái)沒(méi)什么,但實(shí)際上很多組織都沒(méi)做好這一點(diǎn)!我看到很多銀行沒(méi)用數(shù)據(jù)分析去改善風(fēng)險(xiǎn)評(píng)分,而是去做市場(chǎng)營(yíng)銷(xiāo)。有些保險(xiǎn)公司沒(méi)用數(shù)據(jù)分析提升客戶(hù)留存率,而是試圖建立針對(duì)代理機(jī)構(gòu)的獎(jiǎng)勵(lì)計(jì)劃。?技巧2:一開(kāi)始就創(chuàng)建數(shù)據(jù)分析的演示文稿(可能的布局和結(jié)構(gòu))我一直這樣做并且受益匪淺。把分析演示稿的框架搭起來(lái)應(yīng)該是項(xiàng)目啟動(dòng)后的第一件事。這聽(tīng)起來(lái)或許有悖常理,然而一旦你養(yǎng)成這個(gè)習(xí)慣,就可以節(jié)省時(shí)間。?如何搭框架呢?你可以用ppt、word、或者一段話(huà)來(lái)搭框架,形式是無(wú)關(guān)緊要的。重要的是一開(kāi)始就要把所有可能情況列出來(lái)。例如,如果你試圖降低壞賬沖銷(xiāo)率,那么可以像下面一樣布局你的演示文稿:接下來(lái),你可以考慮每個(gè)因素如何影響壞賬沖銷(xiāo)率?例如,由于給客戶(hù)增加了信用額度導(dǎo)致銀行的壞賬沖銷(xiāo)率增加,你可以:首先,確定那些信用額度沒(méi)被增加的客戶(hù)并沒(méi)有導(dǎo)致此次壞賬沖銷(xiāo)率增加。下一步,用一個(gè)數(shù)學(xué)公式來(lái)測(cè)量這個(gè)影響。一旦你把分析中的每一個(gè)分支都考慮到了,那么你已經(jīng)為自己創(chuàng)造了一個(gè)良好的起點(diǎn)。技巧3:事先定義數(shù)據(jù)需求數(shù)據(jù)需求直接源于最后的分析結(jié)果。如果你已經(jīng)全面地規(guī)劃了要做哪些分析、產(chǎn)生什么結(jié)果,那么你將知道數(shù)據(jù)需求是什么。這里有幾個(gè)提示來(lái)幫助你:?試著賦予數(shù)據(jù)需求一個(gè)結(jié)構(gòu):不單是記下變量列表,你應(yīng)該分門(mén)別類(lèi)地想清楚分析活動(dòng)需要哪些表格。以上面增加壞賬沖銷(xiāo)率為例,你將需要客戶(hù)人口統(tǒng)計(jì)表,過(guò)往市場(chǎng)營(yíng)銷(xiāo)活動(dòng)統(tǒng)計(jì)表,客戶(hù)過(guò)去12個(gè)月的交易記錄,銀行信貸政策變更文件等資料。?收集你可能需要的所有數(shù)據(jù):即使你不是100%肯定是否需要所有的變量,在這一階段你應(yīng)該把所有數(shù)據(jù)都收集起來(lái)。這樣做工作量大一些,但是與在以后的環(huán)節(jié)增加變量收集數(shù)據(jù)相比,還是更有效率一些。?定義您感興趣的數(shù)據(jù)的時(shí)間區(qū)間。?技巧4:確保你的分析可重現(xiàn)這個(gè)提示聽(tīng)起來(lái)可能很簡(jiǎn)單——但初學(xué)者和高級(jí)分析人員都難以把握好這一點(diǎn)。初學(xué)者會(huì)用Excel執(zhí)行每一步活動(dòng),其中包括復(fù)制粘貼數(shù)據(jù)。對(duì)于高級(jí)用戶(hù),任何通過(guò)命令行界面完成的工作都可能不可重現(xiàn)。同樣,使用記事本(notebook)時(shí)需要格外小心。你應(yīng)該克制自己修改以前的步驟,尤其是在前面的數(shù)據(jù)已經(jīng)被后面的步驟使用的情況下。記事本在維護(hù)這種涉及前后數(shù)據(jù)勾稽關(guān)系的數(shù)據(jù)流方面表現(xiàn)地非常強(qiáng)大。但是如果記事本中沒(méi)維護(hù)這種數(shù)據(jù)流,它也會(huì)非常沒(méi)用。?技巧5:建標(biāo)準(zhǔn)代碼庫(kù)沒(méi)必要為簡(jiǎn)單的操作一次又一次重寫(xiě)代碼。它不僅浪費(fèi)時(shí)間,還可能會(huì)造成語(yǔ)法錯(cuò)誤。另一個(gè)竅門(mén)是創(chuàng)建常見(jiàn)操作的標(biāo)準(zhǔn)代碼庫(kù)并在整個(gè)團(tuán)隊(duì)中共享。這將不僅確保整個(gè)團(tuán)隊(duì)使用相同的代碼,而且也使他們更有效率。?技巧6:建中間數(shù)據(jù)集市很多的時(shí)候,你會(huì)反復(fù)需要同一批信息。例如,你將在多個(gè)分析和報(bào)告中用到所有客戶(hù)信用卡消費(fèi)記錄。雖然你可以每次都從交易記錄表中提取,但是創(chuàng)建包含這些表的中間數(shù)據(jù)集市,可以有效節(jié)省時(shí)間和精力。同樣,市場(chǎng)營(yíng)銷(xiāo)活動(dòng)的匯總表也沒(méi)必要每次都查詢(xún)提取一次。?技巧7:使用保留樣本和交叉驗(yàn)證防止過(guò)度擬合很多初學(xué)者低估了保留樣本和交叉驗(yàn)證的強(qiáng)大。很多人傾向于認(rèn)為只要訓(xùn)練集足夠大,幾乎不會(huì)過(guò)擬合,因此沒(méi)必要交叉驗(yàn)證或保留樣本。有這種想法,往往會(huì)在最后出岔子。不單我這樣說(shuō)——可以看一下Kaggle上任意競(jìng)賽公開(kāi)或非公開(kāi)的排行榜。你會(huì)發(fā)現(xiàn)前十名中有些人不再過(guò)擬合時(shí)他們的排名就不再下降了。你可以想象這些都是高級(jí)數(shù)據(jù)科學(xué)家。?技巧8:集中一段時(shí)間工作并且有規(guī)律地休息對(duì)于我來(lái)說(shuō),最佳的工作狀態(tài)是集中利用2-3小時(shí)解決一個(gè)問(wèn)題或項(xiàng)目。作為一名數(shù)據(jù)科學(xué)家,你很難同時(shí)完成多項(xiàng)任務(wù)。你需要以自己的最佳狀態(tài)對(duì)待一個(gè)單獨(dú)的問(wèn)題。對(duì)于我來(lái)說(shuō),2-3小時(shí)的時(shí)間窗

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論