




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數(shù)據(jù)探勘概念資料探勘(Datamining)是從大型數(shù)據(jù)集中探索有趣(interesting)及有價值(valuable)的問題,并可付諸行動之方案的一個過程。換而言之,數(shù)據(jù)探勘可以衍生/呈現(xiàn)存在于數(shù)據(jù)(data)中的某一種模式(model)和趨勢(trend)。這些模式和趨勢可收集在一起,并定義為數(shù)據(jù)探勘的模型。1-1數(shù)據(jù)探勘概念當我們看到一個現(xiàn)象,例如:新上市的飲料銷售的情形很好,為什么會很好?我們能不能從數(shù)據(jù)當中,找出是哪些原因導致這個現(xiàn)象的發(fā)生?如果要找出導致這個現(xiàn)象發(fā)生的原因,當數(shù)據(jù)量非常的大而且相關的變量很多時,如何從這些變量與數(shù)據(jù)當中,找到跟銷售有關的訊息,來說明為何飲料銷售的很好?1-1數(shù)據(jù)探勘概念所以,我們也可以說,資料探勘并不純粹只是一種技術或是一套軟件,而是一種結合數(shù)個不同問題領域(problemdomain)的專業(yè)技術(technologies),并且將之運用來找出數(shù)據(jù)中信息的一個流程(procedure)。1-1數(shù)據(jù)探勘概念隨著信息科技的快速進展,讓實時處理大量數(shù)據(jù)已不再成為天方夜譚的困難任務。計算機信息系統(tǒng)對數(shù)據(jù)高速處理的能力,讓數(shù)據(jù)的儲存更具有價值,而不再僅是一堆字段與位的組合而已。表1.1說明了計算機信息系統(tǒng)的演進過程。1-2何謂資料探勘?1-2何謂資料探勘?演進步驟目前企業(yè)問題應用技術系統(tǒng)供貨商系統(tǒng)特性文件系統(tǒng)(1960年代)“2002年12月筆記本電腦的銷售明細為何?”計算機、磁帶、磁盤IBM,CDC傳遞歷史性的靜態(tài)數(shù)據(jù)數(shù)據(jù)庫系統(tǒng)(1970年代)“IBMX31筆記本電腦目前的售價是多少?”階層式數(shù)據(jù)庫(hierarchicaldatabase)、網絡式數(shù)據(jù)庫(networkdatabase)、關系數(shù)據(jù)庫(relationaldatabase)、結構化查詢語言(SQL)、開放性數(shù)據(jù)庫鏈接設定(ODBC)Oracle,Sybase,Informix,IBM,Microsoft傳遞實時性的單層次動態(tài)數(shù)據(jù)數(shù)據(jù)倉儲系統(tǒng)(1990年代)“去年北部地區(qū)筆記本電腦的總銷售量是多少?其中臺北市的銷售量是多少?”在線分析處理(OLAP)、多維度數(shù)據(jù)模型(multidimensionaldatamodel)、資料倉儲(datawarehouse)Pilot,Comshare,Arbor,Cognos,Microstrategy,Microsoft傳遞歷史性的多層次動態(tài)數(shù)據(jù)數(shù)據(jù)探勘系統(tǒng)(現(xiàn)代)“明年筆記本電腦的預估銷售量為何?為什么?”進階算法、多處理器計算機系統(tǒng)、大量數(shù)據(jù)儲存技術、人工智能Pilot,Lockheed,IBM,SGI傳遞預知的、鑒往知來的信息表1.1計算機信息系統(tǒng)的演進過程資料探勘的熱烈蓬勃發(fā)展雖是近期的事,背后藉由成熟進展的統(tǒng)計學支持,才能夠更具有說服力,即使如此,但資料探勘和統(tǒng)計學仍有諸多差異。表1.2為資料探勘與統(tǒng)計的差異1-2何謂資料探勘?1-2何謂資料探勘?比較項目資料采礦統(tǒng)計分析數(shù)據(jù)處理量處理大量數(shù)據(jù)1,000,000,000rows,
3,000columns處理大量數(shù)據(jù)10,000rows,
20columns使用數(shù)據(jù)型態(tài)未經整理過的資料有系統(tǒng)、整理過的數(shù)據(jù)合理的軟件價格約$2,000,000約$79.99使用者企業(yè)末端者使用統(tǒng)計學家檢測用統(tǒng)計背景無須太專業(yè)的統(tǒng)計背景需要專業(yè)的統(tǒng)計背景對分析數(shù)據(jù)屬性定義清楚必須必須對解決問題目標明確必須必須提供分析算法統(tǒng)計分析方法、人工智能、判定樹、類神經網絡統(tǒng)計分析方法模式建立提供多種模型,可以在短時間內決定合適者。需要分析者逐一分析變量重要性,模式才能建立。相關變數(shù)可以找出多個變量間之相關性。一次只能檢查一個變量對結果的影響可以預期分析結果不可以可以執(zhí)行方式不斷循環(huán)、不斷修正的過程可以問題為導向,相關問題通常只需分析一次。表1.2資料探勘與統(tǒng)計的差異由于信息科技的演進與人類各種活動(如商業(yè)行為)倍加頻繁的狀態(tài),現(xiàn)今數(shù)據(jù)的格式與內容已非完全使用統(tǒng)計方法可以處理,尤其是許多的數(shù)據(jù)報含多達數(shù)十或數(shù)百種屬性的高維度數(shù)據(jù),因此統(tǒng)計方法僅能使用抽樣的方法,選擇只用一小部分搜集到的資料來分析。資料探勘能夠處理的數(shù)據(jù)量非常龐大,目前處理器指令周期非??欤逵蓴?shù)據(jù)儲存媒體的巨大儲存量,讓數(shù)據(jù)探勘的能力已遠遠超乎人類的計算能力,并在浩瀚且紊亂的數(shù)據(jù)流中找出有趣的類型,進而挖出有價值的金礦(知識)。1-2何謂資料探勘?統(tǒng)計技術的能力,目前僅能處理以經過處理或整理過的數(shù)據(jù)格式,且在其中找出相關的因素與相關性,但是若資料量過多或過大時,將會造成各項的因素都呈現(xiàn)顯著,影響數(shù)據(jù)呈現(xiàn)。1-2何謂資料探勘?統(tǒng)計技術的使用,必須配合使用者具有專業(yè)的統(tǒng)計背景或經過專業(yè)的統(tǒng)計訓練,同時預先完成研究目的與假設,同時設定統(tǒng)計分析方法,并在完成資料搜集后開始依選定的統(tǒng)計軟件分析數(shù)據(jù),并解釋結果。否則對于統(tǒng)計應用的能力將會造成困擾與障礙。資料探勘的使用較為平易近人,用戶僅需了解軟件的使用方式與算法的特點,并將計算出來的結果加以適當?shù)慕忉?,或以圖形接口與窗體格式讓數(shù)據(jù)更加活潑與生動。1-2何謂資料探勘?麻省理工學院2001年元月號科技評論(TechnologyReview)預測,未來會改變世界的10大新興技術中,數(shù)據(jù)探勘技術名列第四,可見資料探勘技術日漸受重視的程度。1-2何謂資料探勘?數(shù)據(jù)探勘是萃取知識的最佳方式之一。Fayyad在1987年就讀密歇根大學參加GM的暑期工作時,為了能自成千上萬的維修記錄中發(fā)掘特定規(guī)則(rule)與類型(pattern),并能夠協(xié)助相關的維修記錄人員迅速的發(fā)現(xiàn)、解決問題。Fayyad所發(fā)展的Pattern辨識算法,不但成了他1991年博士論文的主題,亦衍生出后來資料探勘的發(fā)展。1-2何謂資料探勘?數(shù)據(jù)探勘最早是被應用在天文學上,藉由機械學習(machinelearning)、人工智能(artificialintelligence)、統(tǒng)計(statistics)、數(shù)據(jù)庫查詢(SQL)、類型分析(patternanalysis)、統(tǒng)計(statistics)及專業(yè)知識(domainknowhow)等技術,在短短4小時內所發(fā)現(xiàn)的行星勝過20多位天文學家4年的研究成果;最后連美國軍方也開始應用這樣的技術來增強雷達解讀與辨識數(shù)據(jù)的能力。1-2何謂資料探勘?數(shù)據(jù)的型態(tài)可概分為:1.非結構化數(shù)據(jù)(unstructureddata):如大賣場柜臺收款機的產品事務歷史記錄、人員心理輔導及晤談的記錄等等。非結構化數(shù)據(jù)的特點在于數(shù)據(jù)是屬于破碎、不連續(xù)性的性質,多是用來記載、記錄一些活動的過程。2.結構化數(shù)據(jù)(structureddata):如大賣場進貨的產品數(shù)據(jù)、第三方數(shù)據(jù)、聘雇人員基本數(shù)據(jù),或是學校內值日生的排序表、每日上課的課表等等,都是屬于結構化數(shù)據(jù)的范圍。1-2何謂資料探勘?1-2何謂資料探勘?資料RowData信息Information知識Knowledge數(shù)據(jù)庫資料倉儲資料探勘管理決策者資料分析師數(shù)據(jù)操作員專家系統(tǒng)知識庫系統(tǒng)決策支持系統(tǒng)數(shù)據(jù)庫系統(tǒng)中存放的是未經整理的原始數(shù)據(jù),數(shù)據(jù)倉儲系統(tǒng)內則是經過整理大量現(xiàn)況與歷史數(shù)據(jù)所得的信息,而數(shù)據(jù)探勘系統(tǒng)所儲存的則是經過整理大量信息所得到的知識?!纲Y料」(data)就是原始數(shù)據(jù);「信息」(information)是把所得的資料視為題材,有目的地予以整理,藉以傳達某種訊息;「知識」(knowledge)則是一種藉由分析信息來掌握先機的能力,也是開創(chuàng)價值所需的直接材料;「智慧」(intelligence)是以知識為根基,運用個人的應用能力、實踐能力來創(chuàng)造價值的泉源。1-2何謂資料探勘?數(shù)據(jù)探勘的特性數(shù)據(jù)探勘不只能協(xié)助我們看數(shù)據(jù)表面的現(xiàn)象,也能進一步幫我們找出是什么原因造成所看到的結果。和一般傳統(tǒng)社會科學研究過程不同的是,資料探勘不用統(tǒng)計假設檢定,來推論某個現(xiàn)象發(fā)生的機會是否存在,也因此不會局限在自身先入為主的想法中。1-2何謂資料探勘?數(shù)據(jù)探勘的特性數(shù)據(jù)探勘沒有數(shù)據(jù)量的限制,不會因為數(shù)據(jù)量太大而造成一定顯著的盲點。同時,只要分析的工具與功能足夠,數(shù)據(jù)量與變量的限制,在數(shù)據(jù)采礦的過程中將會減少。資料探勘不單只是數(shù)據(jù)庫與分析工具及方法的概念,在描述現(xiàn)象與建構問題的過程中,必須特過某些專業(yè)的(professional)及專家的(expertise)人員,來將問題領域(problemdomain)之現(xiàn)象表征建構出來,使得決策變量的形成能夠充分的描述現(xiàn)象及問題的核心,以及完成分析后數(shù)據(jù)的判讀工作。1-2何謂資料探勘?Fayyad&Stolorz(1997)定義數(shù)據(jù)探勘為知識發(fā)現(xiàn)的一個步驟,目的在于找出數(shù)據(jù)中有效的、嶄新的、潛在有用的、易于了解樣式之一個不繁瑣的過程。Berry&Linoff(1997)提到數(shù)據(jù)探勘,就是在大量的數(shù)據(jù)中,利用自動或半自動的方式予以分析,并能夠從中找出具有意義的關系或法則。1-3數(shù)據(jù)探勘的定義Hui&Jha(2000)指出新科技或技術可協(xié)助分析、了解以及使大量的儲存數(shù)據(jù)予以聚類。由數(shù)據(jù)庫(database),資料倉儲(datawarehouse)或其他信息的儲存庫中利用己儲存之大量數(shù)據(jù)找到如類型(pattern)、關聯(lián)(association)、改變(change)、異常(anomaly)和重要結構(significantstructures)的知識過程,稱為數(shù)據(jù)探勘。Berson,Smith&Thearling(1999)等學者對于數(shù)據(jù)探勘提出最簡單的定義:就是自動偵測數(shù)據(jù)庫中的相關類型。1-3數(shù)據(jù)探勘的定義數(shù)據(jù)探勘是一種數(shù)據(jù)轉換的過程,先將沒有組織的數(shù)字與文字集合的數(shù)據(jù)轉換為信息,再轉換為知識,最后產生決策。數(shù)據(jù)探勘為知識發(fā)現(xiàn)的一個步驟,目的在于找出數(shù)據(jù)中有效的、嶄新的、潛在有用的易于了解之樣式的一個不繁瑣的過程。由數(shù)據(jù)庫、數(shù)據(jù)倉儲或其他信息的儲存庫中,利用已儲存之大量數(shù)據(jù)找到知識的過程,稱為資料探勘。1-3數(shù)據(jù)探勘的定義數(shù)據(jù)探勘是指尋找隱藏在數(shù)據(jù)中的訊息,如趨勢(trend)、特征(pattern)及相關性(relationship)的過程,也就是從數(shù)據(jù)中發(fā)掘信息或知識(KDD)。數(shù)據(jù)探勘,即為從數(shù)據(jù)庫中發(fā)現(xiàn)知識,因為近來大量商業(yè)化的數(shù)據(jù)涌入,故而需要此種技術以使得數(shù)據(jù)自儲存單元中分析、淬取,甚而能提供可視化的決策支持。1-3數(shù)據(jù)探勘的定義當數(shù)據(jù)量過于龐大時,將有可能會產生數(shù)據(jù)傾銷(datadump)(Keimetal.,2004)。數(shù)據(jù)探勘的流程,就是各家發(fā)展出的各種標準作業(yè)程序,目的都是希望藉由依循各自的概念與邏輯,以完成數(shù)據(jù)采礦的任務。最常被數(shù)據(jù)探勘師所使用的作業(yè)程序是CRISP-DM的挖掘流程約占42%,而由SAS公司所發(fā)展的SEMMA,則約占了10%,其余的方式,包括各企業(yè)的自定義流程、數(shù)據(jù)采礦師的自我喜好方式等等,約占了47%。1-4數(shù)據(jù)探勘的流程1-4數(shù)據(jù)探勘的流程CRISP-DM的英文全名為Cross-IndustryStandardProcessforDataMining(數(shù)據(jù)探勘交叉產業(yè)標準程序)。由SPSS、DaimlerChrysler、NCR、OHRA等世界著名公司依其實務經驗與理論基礎所共同訂定出來的數(shù)據(jù)采礦的一套標準作業(yè)程序處理的流程共計分為商業(yè)理解(businessunderstanding)、資料理解(dataunderstanding)、數(shù)據(jù)預備(datapreparation)、塑模(modeling)、評估(evaluation)、部署(deployment)等六個階段。六個階段形成一個循環(huán)(circle)的過程,在處理的過程中隨時都可以修正,并適時回饋以修正探勘的內容。1-4數(shù)據(jù)探勘的流程1-4數(shù)據(jù)探勘的流程CRISP-DM過程模型商業(yè)理解(businessunderstanding):數(shù)據(jù)探勘最重要的部分。商業(yè)理解包括決定商業(yè)目標、形勢評估、決定數(shù)據(jù)探勘目標,及制訂一個項目計劃。資料理解(dataunderstanding):數(shù)據(jù)提供了數(shù)據(jù)探勘的原始材料。這個部分強調需要了解數(shù)據(jù)源是什么,這些數(shù)據(jù)源的特征是什么。這個部分包括收集原始數(shù)據(jù)、描述數(shù)據(jù)、探索數(shù)據(jù),及證實數(shù)據(jù)的質量。1-4數(shù)據(jù)探勘的流程數(shù)據(jù)預備(datapreparation):將數(shù)據(jù)源分類后,需要準備用于探勘的數(shù)據(jù)。準備過程包括選擇、清理、重構、整合及格式化數(shù)據(jù)。塑模(modeling):這是數(shù)據(jù)探勘中最引人注意的地方,成熟的分析方法將用于從數(shù)據(jù)中提取信息。這個部分包括選擇模型技巧、產生測試計劃,及塑模和模型評估。1-4數(shù)據(jù)探勘的流程評估(evaluation):一旦選擇了模型,就應準備好對數(shù)據(jù)探勘的結果是否達到商業(yè)目標作評估。這部分也包括評估結果、回顧數(shù)據(jù)探勘過程,及確定接下來的步驟。部署(deployment):這個部分著重于將新知識融會到每天的商業(yè)運作過程中,從而解答最初的商業(yè)問題。這個部分包括計劃發(fā)布、監(jiān)控與維護、產生最終報告,及回顧整個項目。1-4數(shù)據(jù)探勘的流程SAS公司提出SEMMA模型。這個過程包含數(shù)據(jù)抽樣、數(shù)據(jù)探索、數(shù)據(jù)轉換、模型建立與模型評價等五個階段:1.資料抽樣(sample):針對企業(yè)的問題,從大型數(shù)據(jù)庫中,抽出一部份數(shù)據(jù)進行分析并建立模型,再透過數(shù)據(jù)庫中抽取一部份數(shù)據(jù)作為測試組以修正模型。2.資料探索(explore):主要是對數(shù)據(jù)有所理解,認識變量間是否存在著某種關聯(lián)性。1-4數(shù)據(jù)探勘的流程3.數(shù)據(jù)轉換(modify):針對數(shù)據(jù)中的變量予以轉換,因為有些數(shù)據(jù)的變量并不存于數(shù)據(jù)中,需藉轉換而獲得,以確保模型的質量。4.模型建立(model):利用各種數(shù)據(jù)采礦技術以解決問題,建立模型、發(fā)現(xiàn)信息。5.模型評價(assess):根據(jù)分析得到的結果與專業(yè)知識結合,找出有用的信息,建立有效的模型,并加以運用。更藉由新進的數(shù)據(jù),作適當調整,延伸模型應用廣度深度。1-4數(shù)據(jù)探勘的流程Hui&Jha(2000)認為數(shù)據(jù)探勘程序由七個階段所組成:1.設定目標。2.選擇數(shù)據(jù)。3.數(shù)據(jù)前處理。4.數(shù)據(jù)轉換。5.資料倉儲化。6.資料探勘。7.評估結果。1-4數(shù)據(jù)探勘的流程設定采擷目標數(shù)據(jù)的選擇數(shù)據(jù)前處理數(shù)據(jù)轉換資料倉儲化資料探勘評估挖掘結果原始資料選擇數(shù)據(jù)處理目前的數(shù)據(jù)轉換數(shù)據(jù)資料倉儲結果&知識Fayyad&Stolorz(1997)認為數(shù)據(jù)探勘程序包含六個步驟分別為:1.數(shù)據(jù)選擇與抽樣。2.數(shù)據(jù)預處理。3.數(shù)據(jù)轉換。4.資料探勘。5.評估效益。6.結果解釋與應用。1-4數(shù)據(jù)探勘的流程Han&Kamber(2001)指出數(shù)據(jù)庫知識發(fā)現(xiàn)包含七個步驟:1.資料清理(datacleaning):移除噪聲和不一致的數(shù)據(jù)。2.數(shù)據(jù)整合(dataintegration):整合不同的數(shù)據(jù)源。3.數(shù)據(jù)選擇(dataselection):從數(shù)據(jù)庫或數(shù)據(jù)倉儲中選取與研究主題相關的數(shù)據(jù)。4.數(shù)據(jù)轉換(datatransformation):將目標數(shù)據(jù)透過摘要或集合的動作使其有利于挖掘進行。1-4數(shù)據(jù)探勘的流程Han&Kamber(2001)指出數(shù)據(jù)庫知識發(fā)現(xiàn)包含七個步驟:5.資料探勘(datamining):應用資探勘掘技術萃取數(shù)據(jù)的型樣。6.型樣評估(patternevaluation):利用衡
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 第八章 西北地區(qū) 單元說課稿-2025-2026學年八年級地理下學期人教版
- 2025年消費與零售行業(yè)可持續(xù)消費理念傳播策略分析報告
- 2025年中國高碳鋼砂行業(yè)市場分析及投資價值評估前景預測報告
- 2024-2025學年人教版物理八年級上冊5.1透鏡說課稿和說課稿
- 2025年儲能電池在數(shù)據(jù)中心能源管理中的應用策略報告
- 第2課 學堂樂歌說課稿初中音樂教科版2024七年級上冊-教科版2024
- 2025年中國高鄰苯二甲酸酯增塑劑行業(yè)市場分析及投資價值評估前景預測報告
- 2025年中國高純氫氧化鈣行業(yè)市場分析及投資價值評估前景預測報告
- 口腔培訓基本知識課件
- 2025年國家電網《安規(guī)》考試判斷題庫及答案
- 2025上海美術館招聘6人備考考試題庫附答案解析
- 檢驗科二級生物實驗室匯報
- 盾構姿態(tài)監(jiān)測-洞察及研究
- 藥店店員技巧培訓
- 2025年四川省巴中市中考數(shù)學試題
- 鄉(xiāng)村振興課件簡介模板
- (一檢)泉州市2026屆高三高中畢業(yè)班質量監(jiān)測(一)數(shù)學試卷(含標準答案)
- 管道熱處理課件
- 2025成人高考試題真卷數(shù)學及答案
- 2025年京東集團校招面試題與答案
評論
0/150
提交評論