數(shù)據(jù)挖掘工具及其選擇_第1頁(yè)
數(shù)據(jù)挖掘工具及其選擇_第2頁(yè)
數(shù)據(jù)挖掘工具及其選擇_第3頁(yè)
數(shù)據(jù)挖掘工具及其選擇_第4頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)挖掘工具及其選擇 一、數(shù)據(jù)挖掘工具 在數(shù)據(jù)挖掘技術(shù)日益發(fā)展的同時(shí),許多數(shù)據(jù)挖掘的商業(yè)軟件工具也逐漸問(wèn)世。數(shù)據(jù)挖掘工具主要有兩類:特定領(lǐng)域的數(shù)據(jù)挖掘工具和通用的數(shù)據(jù)挖掘工具。特定領(lǐng)域的數(shù)據(jù)挖掘工具針對(duì)某個(gè)特定領(lǐng)域的問(wèn)題提供解決方案。在設(shè)計(jì)算法的時(shí)候,充分考慮到數(shù)據(jù)、需求的特殊性,并作了優(yōu)化。對(duì)任何領(lǐng)域,都可以開(kāi)發(fā)特定的數(shù)據(jù)挖掘工具。例如,IBM 公司的Advanced Scout 系統(tǒng)針對(duì)NBA 的數(shù)據(jù),幫助教練優(yōu)化戰(zhàn)術(shù)組合;加州理工學(xué)院噴氣推進(jìn)實(shí)驗(yàn)室與天文科學(xué)家合作開(kāi)發(fā)的SKICAT 系統(tǒng),幫助天文學(xué)家發(fā)現(xiàn)遙遠(yuǎn)的類星體;芬蘭赫爾辛基大學(xué)計(jì)算機(jī)科學(xué)系開(kāi)發(fā)的TASA,幫助預(yù)測(cè)網(wǎng)絡(luò)通信中的警報(bào)。

2、特定領(lǐng)域的數(shù)據(jù)挖掘工具針對(duì)性比較強(qiáng),只能用于一種應(yīng)用;也正因?yàn)獒槍?duì)性強(qiáng),往往采用特殊的算法,可以處理特殊的數(shù)據(jù),實(shí)現(xiàn)特殊的目的,發(fā)現(xiàn)的知識(shí)可靠度也比較高。通用的數(shù)據(jù)挖掘工具不區(qū)分具體數(shù)據(jù)的含義,采用通用的挖掘算法,處理常見(jiàn)的數(shù)據(jù)類型,一般提供六種模式。例如,IBM 公司Almaden 研究中心開(kāi)發(fā)的QUEST 系統(tǒng),SGI 公司開(kāi)發(fā)的MineSet 系統(tǒng),加拿大Simon Fraser 大學(xué)開(kāi)發(fā)的DBMiner 系統(tǒng)。通用的數(shù)據(jù)挖掘工具可以做多種模式的挖掘,挖掘什么、用什么來(lái)挖掘都由用戶根據(jù)自己的應(yīng)用來(lái)選擇。    SAS公司的 Enterprise Miner&

3、#160;    IBM公司的 Intelligent Miner     SPSS公司的 Clementine     Statsoft公司的Statistica Data Miner     DB Miner公司的 DBMiner     NCR公司的Teradata Warehouse Miner     Unica公司的Affinium Model 

4、    Insightful公司的Insightful Miner     Data Miner 公司的RIK, EDM and DMSK     Information Discovery 公司的Data Mining Suite     Angoss 公司的 KnowledgeSTUDIO     Data Mining Technologies 公司的 Nuggets   

5、;  Fujitsu公司的 GhostMiner     Oracle公司的 Darwin下面簡(jiǎn)單介紹幾種數(shù)據(jù)挖掘工具:1. QUEST QUEST 是IBM 公司Almaden 研究中心開(kāi)發(fā)的一個(gè)多任務(wù)數(shù)據(jù)挖掘系統(tǒng),目的是為新一代決策支持系統(tǒng)的應(yīng)用開(kāi)發(fā)提供高效的數(shù)據(jù)開(kāi)采基本構(gòu)件。系統(tǒng)具有如下特點(diǎn):1、提供了專門在大型數(shù)據(jù)庫(kù)上進(jìn)行各種開(kāi)采的功能:關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、時(shí)間序列聚類、決策樹(shù)分類、遞增式主動(dòng)開(kāi)采等。2、各種開(kāi)采算法具有近似線性(O(n))計(jì)算復(fù)雜度,可適用于任意大小的數(shù)據(jù)庫(kù)。3、算法具有找全性,即能將所有滿足指定類型的模式全部

6、尋找出來(lái)。4、為各種發(fā)現(xiàn)功能設(shè)計(jì)了相應(yīng)的并行算法。2. MineSet MineSet 是由SGI 公司和美國(guó)Standford 大學(xué)聯(lián)合開(kāi)發(fā)的多任務(wù)數(shù)據(jù)挖掘系統(tǒng)。MineSet 集成多種數(shù)據(jù)挖掘算法和可視化工具,幫助用戶直觀地、實(shí)時(shí)地發(fā)掘、理解大量數(shù)據(jù)背后的知識(shí)。MineSet 2.6 有如下特點(diǎn):1、MineSet 以先進(jìn)的可視化顯示方法聞名于世。MineSet 2.6 中使用了6 種可視化工具來(lái)表現(xiàn)數(shù)據(jù)和知識(shí)。對(duì)同一個(gè)挖掘結(jié)果可以用不同的可視化工具以各種形式表示,用戶也可以按照個(gè)人的喜好調(diào)整最終效果, 以便更好地理解。MineSet 2.6 中的可視化工具有Splat Visualize

7、、Scatter Visualize、Map Visualize、Tree Visualize、Record Viewer、Statistics Visualize、Cluster Visualizer,其中Record Viewer 是二維表,Statistics Visualize 是二維統(tǒng)計(jì)圖,其余都是三維圖形,用戶可以任意放大、旋轉(zhuǎn)、移動(dòng)圖形,從不同的角度觀看。2、提供多種數(shù)據(jù)挖掘模式。包括分類器、回歸模式、關(guān)聯(lián)規(guī)則、聚類歸、判斷列重要度。3、支持多種關(guān)系數(shù)據(jù)庫(kù)??梢灾苯訌腛racle、Informix、Sybase 的表讀取數(shù)據(jù),也可以通過(guò)SQL 命令執(zhí)行查詢。4、多種數(shù)據(jù)轉(zhuǎn)換功能。

8、在進(jìn)行挖掘前,MineSet 可以去除不必要的數(shù)據(jù)項(xiàng),統(tǒng)計(jì)、集合、分組數(shù)據(jù),轉(zhuǎn)換數(shù)據(jù)類型,構(gòu)造表達(dá)式由已有數(shù)據(jù)項(xiàng)生成新的數(shù)據(jù)項(xiàng),對(duì)數(shù)據(jù)采樣等。5、操作簡(jiǎn)單。6、支持國(guó)際字符。7、可以直接發(fā)布到Web。3. DBMiner DBMiner 是加拿大Simon Fraser 大學(xué)開(kāi)發(fā)的一個(gè)多任務(wù)數(shù)據(jù)挖掘系統(tǒng),它的前身是DBLearn。該系統(tǒng)設(shè)計(jì)的目的是把關(guān)系數(shù)據(jù)庫(kù)和數(shù)據(jù)開(kāi)采集成在一起,以面向?qū)傩缘亩嗉?jí)概念為基礎(chǔ)發(fā)現(xiàn)各種知識(shí)。DBMiner 系統(tǒng)具有如下特色:1、能完成多種知識(shí)的發(fā)現(xiàn):泛化規(guī)則、特性規(guī)則、關(guān)聯(lián)規(guī)則、分類規(guī)則、演化知識(shí)、偏離知識(shí)等。2、綜合了多種數(shù)據(jù)開(kāi)采技術(shù):面向?qū)傩缘臍w納、統(tǒng)計(jì)分析、

9、逐級(jí)深化發(fā)現(xiàn)多級(jí)規(guī)則、元規(guī)則引導(dǎo)發(fā)現(xiàn)等方法。3、提出了一種交互式的類SQL 語(yǔ)言數(shù)據(jù)開(kāi)采查詢語(yǔ)言DMQL。4、能與關(guān)系數(shù)據(jù)庫(kù)平滑集成。5、實(shí)現(xiàn)了基于客戶/ 服務(wù)器體系結(jié)構(gòu)的Unix 和PC(Windows/NT)版本的系統(tǒng)。二、數(shù)據(jù)挖掘工具的選擇如何選擇滿足自己需要的數(shù)據(jù)挖掘工具呢?評(píng)價(jià)一個(gè)數(shù)據(jù)挖掘工具,需要從以下幾個(gè)方面來(lái)考慮:1 可產(chǎn)生的模式種類的多少指本專題第一篇文章提到的六種模式。2 解決復(fù)雜問(wèn)題的能力數(shù)據(jù)量的增大,對(duì)模式精細(xì)度、準(zhǔn)確度要求的增高都會(huì)導(dǎo)致問(wèn)題復(fù)雜性的增大。數(shù)據(jù)挖掘系統(tǒng)可以提供下列方法解決復(fù)雜問(wèn)題:1、多種模式多種類別模式的結(jié)合使用有助于發(fā)現(xiàn)有用的模式,降低問(wèn)題復(fù)雜性。例

10、如,首先用聚類的方法把數(shù)據(jù)分組,然后再在各個(gè)組上挖掘預(yù)測(cè)性的模式,將會(huì)比單純?cè)谡麄€(gè)數(shù)據(jù)集上進(jìn)行操作更有效、準(zhǔn)確度更高。2、多種算法很多模式,特別是與分類有關(guān)的模式,可以有不同的算法來(lái)實(shí)現(xiàn),各有各的優(yōu)缺點(diǎn),適用于不同的需求和環(huán)境。數(shù)據(jù)挖掘系統(tǒng)提供多種途徑產(chǎn)生同種模式,將更有能力解決復(fù)雜問(wèn)題。3、驗(yàn)證方法在評(píng)估模式時(shí),有多種可能的驗(yàn)證方法。比較成熟的方法像N 層交叉驗(yàn)證或Bootstrapping 等可以控制,以達(dá)到最大的準(zhǔn)確度。4、數(shù)據(jù)選擇和轉(zhuǎn)換模式通常被大量的數(shù)據(jù)項(xiàng)隱藏。有些數(shù)據(jù)是冗余的,有些數(shù)據(jù)是完全無(wú)關(guān)的。而這些數(shù)據(jù)項(xiàng)的存在會(huì)影響到有價(jià)值的模式的發(fā)現(xiàn)。數(shù)據(jù)挖掘系統(tǒng)的一個(gè)很重要功能就是能夠處

11、理數(shù)據(jù)復(fù)雜性,提供工具,選擇正確的數(shù)據(jù)項(xiàng)和轉(zhuǎn)換數(shù)據(jù)值。5、可視化可視化工具提供直觀、簡(jiǎn)潔的機(jī)制表示大量的信息。這有助于定位重要的數(shù)據(jù),評(píng)價(jià)模式的質(zhì)量,從而減少建模的復(fù)雜性。6、擴(kuò)展性為了更有效地提高處理大量數(shù)據(jù)的效率,數(shù)據(jù)挖掘系統(tǒng)的擴(kuò)展性十分重要。需要了解的是:數(shù)據(jù)挖掘系統(tǒng)能否充分利用硬件資源?是否支持并行計(jì)算?算法本身設(shè)計(jì)為并行的或利用了DBMS 的并行性能?支持哪種并行計(jì)算機(jī),SMP 服務(wù)器還是MPP 服務(wù)器?當(dāng)處理器的數(shù)量增加時(shí),計(jì)算規(guī)模是否相應(yīng)增長(zhǎng)?是否支持?jǐn)?shù)據(jù)并行存儲(chǔ)?為單處理器的計(jì)算機(jī)編寫(xiě)的數(shù)據(jù)挖掘算法不會(huì)在并行計(jì)算機(jī)上自動(dòng)以更快的速度運(yùn)行。為充分發(fā)揮并行計(jì)算的優(yōu)點(diǎn),需要編寫(xiě)支持并

12、行計(jì)算的算法。3 易操作性易操作性是一個(gè)重要的因素。有的工具有圖形化界面,引導(dǎo)用戶半自動(dòng)化地執(zhí)行任務(wù),有的使用腳本語(yǔ)言。有些工具還提供數(shù)據(jù)挖掘的API,可以嵌入到像C、Visual Basic 、Power Builder 這樣的編程語(yǔ)言中。模式可以運(yùn)用到已存在或新增加的數(shù)據(jù)上。有的工具有圖形化的界面,有的允許通過(guò)使用C 這樣的程序語(yǔ)言或SQL 中的規(guī)則集,把模式導(dǎo)出到程序或數(shù)據(jù)庫(kù)中。4 數(shù)據(jù)存取能力好的數(shù)據(jù)挖掘工具可以使用SQL 語(yǔ)句直接從DBMS 中讀取數(shù)據(jù)。這樣可以簡(jiǎn)化數(shù)據(jù)準(zhǔn)備工作,并且可以充分利用數(shù)據(jù)庫(kù)的優(yōu)點(diǎn)(比如平行讀?。?。沒(méi)有一種工具可以支持大量的DBMS,但可以通過(guò)通用的接口連接大多數(shù)流行的DBMS。Microsoft 的ODBC 就是一個(gè)這樣的接口。5 與其他產(chǎn)品的接口有很多別的工具可以幫助用戶理解數(shù)據(jù),理解結(jié)果。這些工具可以是傳統(tǒng)的查詢工具、可視化工具、OLAP 工具。數(shù)據(jù)挖掘工具是否能提供與這些工具集成的簡(jiǎn)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論