數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)課件_第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)課件_第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)課件_第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)課件_第4頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)課件_第5頁
已閱讀5頁,還剩185頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)

第一章 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘概述1.1 數(shù)據(jù)倉庫引論1.2 數(shù)據(jù)挖掘引論1.3 數(shù)據(jù)挖掘與數(shù)據(jù)倉庫的關(guān)系1.4 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的應(yīng)用第一章 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘概述1.1 數(shù)據(jù)倉庫引論1.1.1 為什么要建立數(shù)據(jù)倉庫數(shù)據(jù)倉庫的作用

傳統(tǒng)數(shù)據(jù)庫系統(tǒng)的例子:超市銷售系統(tǒng)、學(xué)生管理信息系統(tǒng)、圖書管理系統(tǒng)等。

隨著人們對(duì)信息技術(shù)利用能力的增強(qiáng),對(duì)數(shù)據(jù)的應(yīng)用也從低級(jí)的查詢操作,提升到為企業(yè)經(jīng)營(yíng)管理提供決策支持。為滿足管理人員的決策分析需要,就需要構(gòu)建適應(yīng)決策分析的數(shù)據(jù)環(huán)境—數(shù)據(jù)倉庫建立數(shù)據(jù)倉庫的好處作為服務(wù)于企業(yè)級(jí)的應(yīng)用,概括說來有四個(gè)方面的優(yōu)越性:1.減輕系統(tǒng)負(fù)擔(dān)、簡(jiǎn)化日常維護(hù)和管理;2.改進(jìn)數(shù)據(jù)的完整性、兼容性和有效性;3.提高了數(shù)據(jù)存取的效率;4.提供簡(jiǎn)單、統(tǒng)一的查詢和報(bào)表機(jī)制。1.1.1 為什么要建立數(shù)據(jù)倉庫數(shù)據(jù)倉庫的作用1.1.2什么是數(shù)據(jù)倉庫1.?dāng)?shù)據(jù)倉庫的概念

W.H.Inmon在《BuildingtheDataWarehouse》中定義數(shù)據(jù)倉庫為:“數(shù)據(jù)倉庫是面向主題的、集成的、隨時(shí)間變化的、歷史的、穩(wěn)定的、支持決策制定過程的數(shù)據(jù)集合?!奔磾?shù)據(jù)倉庫是在管理人員決策中的面向主題的、集成的、非易失的并且隨時(shí)間而變化的數(shù)據(jù)集合。數(shù)據(jù)倉庫是一種來源于各種渠道的單一的、完整的、穩(wěn)定的數(shù)據(jù)存儲(chǔ)。這種數(shù)據(jù)存儲(chǔ)提供給可以允許最終用戶的可以是一種他們能夠在其業(yè)務(wù)范疇中理解并使用的方式。數(shù)據(jù)倉庫是大量有關(guān)公司數(shù)據(jù)的數(shù)據(jù)存儲(chǔ)。倉庫提供公司數(shù)據(jù)以及組織數(shù)據(jù)的訪問功能,其中的數(shù)據(jù)是一致的(consistent),并且可以按每種可能的商業(yè)度量方式分解和組合;數(shù)據(jù)倉庫也是一套查詢、分析和呈現(xiàn)信息的工具;數(shù)據(jù)倉庫是我們發(fā)布所用數(shù)據(jù)的場(chǎng)所,其中數(shù)據(jù)的質(zhì)量是業(yè)務(wù)再工程的驅(qū)動(dòng)器(driverofbusinessreengineering)。定義的共同特征:首先,數(shù)據(jù)倉庫包含大量數(shù)據(jù),其中一些數(shù)據(jù)來源于組織中的操作數(shù)據(jù),也有一些數(shù)據(jù)可能來自于組織外部;其次,組織數(shù)據(jù)倉庫是為了更加便利地使用數(shù)據(jù)進(jìn)行決策;最后,數(shù)據(jù)倉庫為最終用戶提供了可用來存取數(shù)據(jù)的工具。1.1.2什么是數(shù)據(jù)倉庫1.?dāng)?shù)據(jù)倉庫的概念數(shù)據(jù)倉庫的定義

綜合對(duì)數(shù)據(jù)倉庫的各種理解以及其特征,我們可以定義:

數(shù)據(jù)倉庫是一種為信息分析提供了良好的基礎(chǔ)并支持管理決策活動(dòng)的分析環(huán)境,是面向主題的、集成的、穩(wěn)定的、不可更新的、隨時(shí)間變化的、分層次的多維的集成數(shù)據(jù)集合。數(shù)據(jù)倉庫的定義2.與數(shù)據(jù)倉庫相關(guān)的幾個(gè)概念

數(shù)據(jù)(data)是一組表示數(shù)量、行動(dòng)和目標(biāo)的非隨機(jī)的可以鑒別的符號(hào),是對(duì)客觀事物記錄下來的,可以鑒別的符號(hào)。這些符號(hào)包括數(shù)字、字符、文字、圖形、圖像、聲音。操作數(shù)據(jù)原子數(shù)據(jù)匯總數(shù)據(jù)特定查詢響應(yīng)數(shù)據(jù)倉庫環(huán)境2.與數(shù)據(jù)倉庫相關(guān)的幾個(gè)概念數(shù)據(jù)倉庫環(huán)境數(shù)據(jù)類型的分類元數(shù)據(jù)是指用來描述數(shù)據(jù)倉庫數(shù)據(jù)庫內(nèi)容的數(shù)據(jù)。以后將詳細(xì)討論元數(shù)據(jù)。數(shù)據(jù)庫是一組內(nèi)部相關(guān)聯(lián)的數(shù)據(jù)集合。其中關(guān)系數(shù)據(jù)庫是表的集合,每個(gè)表都有惟一的名字,且每個(gè)表都由一組字段(屬性)所存放的記錄組成。數(shù)據(jù)庫管理系統(tǒng)(DBMS)是用來管理和存取數(shù)據(jù)庫的一組軟件。該軟件具有如下機(jī)制:數(shù)據(jù)庫結(jié)構(gòu)定義,數(shù)據(jù)的存儲(chǔ)、并發(fā)、共享或分布的數(shù)據(jù)訪問,數(shù)據(jù)的一致性和安全性。數(shù)據(jù)庫系統(tǒng)是一個(gè)由硬件、軟件、數(shù)據(jù)庫和管理人員組成的復(fù)雜系統(tǒng)。隨著信息技術(shù)不斷的發(fā)展,對(duì)數(shù)據(jù)處理的技術(shù)和人們對(duì)數(shù)據(jù)的需求也在不斷的進(jìn)化,如圖1.2所示的數(shù)據(jù)庫系統(tǒng)及相關(guān)技術(shù)的演化。數(shù)據(jù)集市(datamarts)通常是指較為小型化、針對(duì)特定目標(biāo)且建設(shè)成本較低的一種數(shù)據(jù)倉庫。為了特定的應(yīng)用目的或應(yīng)用范圍,而從數(shù)據(jù)倉庫中獨(dú)立出來的一部分?jǐn)?shù)據(jù),也可稱為部門數(shù)據(jù)或主題數(shù)據(jù)(subjectdata)。數(shù)據(jù)類型的分類數(shù)據(jù)庫系統(tǒng)及相關(guān)技術(shù)的演化數(shù)據(jù)庫系統(tǒng)及相關(guān)技術(shù)的演化數(shù)據(jù)倉庫技術(shù)從本質(zhì)上講,是一種信息集成技術(shù),它從多個(gè)信息源中獲取原始數(shù)據(jù),經(jīng)過加工處理后,存儲(chǔ)在數(shù)據(jù)倉庫的內(nèi)部數(shù)據(jù)庫中。為了使數(shù)據(jù)倉庫用戶能有效地使用數(shù)據(jù)倉庫中的信息,進(jìn)行深層次的綜合分析和決策,數(shù)據(jù)倉庫系統(tǒng)要向用戶提供一整套數(shù)據(jù)訪問和分析工具。通過所提供的訪問工具,為數(shù)據(jù)倉庫的用戶提供統(tǒng)一、協(xié)調(diào)和集成的信息環(huán)境,支持企業(yè)全局的決策過程和對(duì)企業(yè)經(jīng)營(yíng)管理的深入綜合分析。數(shù)據(jù)倉庫技術(shù)從本質(zhì)上講,是一種信息集成技術(shù),它從多個(gè)信息源中1.1.3數(shù)據(jù)倉庫的特點(diǎn)1.主題與面向主題2.?dāng)?shù)據(jù)倉庫數(shù)據(jù)的集成性3.?dāng)?shù)據(jù)倉庫數(shù)據(jù)的不可更新性4.DW數(shù)據(jù)的時(shí)態(tài)性1.1.3數(shù)據(jù)倉庫的特點(diǎn)1.主題與面向主題1.1.4數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫的基本過程與建立數(shù)據(jù)倉庫的步驟1.?dāng)?shù)據(jù)進(jìn)入數(shù)據(jù)倉庫的基本過程

操作數(shù)據(jù)向數(shù)據(jù)倉庫的移動(dòng)包括以下五個(gè)過程:提取、變換、凈化、加載和匯總。

2.建立數(shù)據(jù)倉庫的步驟

1)收集和分析業(yè)務(wù)需求;

2)建立數(shù)據(jù)模型和數(shù)據(jù)倉庫的物理設(shè)計(jì);

3)定義數(shù)據(jù)源;

4)選擇數(shù)據(jù)倉庫技術(shù)和平臺(tái);

5)從操作型數(shù)據(jù)庫中提取、轉(zhuǎn)換和凈化數(shù)據(jù)到數(shù)據(jù)倉庫;

6)選擇訪問和報(bào)表工具;

7)選擇數(shù)據(jù)庫連接軟件;

8)選擇數(shù)據(jù)分析和數(shù)據(jù)展示軟件;

9)更新數(shù)據(jù)倉庫;1.1.4數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫的基本過程與建立數(shù)據(jù)倉庫的步驟11.1.5分析數(shù)據(jù)倉庫的內(nèi)容操作型數(shù)據(jù)分析型數(shù)據(jù)細(xì)節(jié)的綜合的,或提煉的在存取期間是準(zhǔn)確的代表過去的數(shù)據(jù)可更新不更新操作需求事先可知道操作需求事先不知道生命周期符合SDLC完全不同的生命周期(CLDS)對(duì)性能要求高對(duì)性能要求寬松一個(gè)時(shí)刻操作一單元一個(gè)時(shí)刻操作一人集合事務(wù)驅(qū)動(dòng)分析驅(qū)動(dòng)面向應(yīng)用面向分析一次操作數(shù)據(jù)最小一次操作數(shù)據(jù)量大支持日常操作支持管理需求操作型數(shù)據(jù)和分析型數(shù)據(jù)的區(qū)別

1.1.5分析數(shù)據(jù)倉庫的內(nèi)容操作型數(shù)據(jù)分析型數(shù)據(jù)細(xì)節(jié)的綜合1.2.1為什么要進(jìn)行數(shù)據(jù)挖掘

1.?dāng)?shù)據(jù)挖掘的作用

數(shù)據(jù)挖掘解決諸如欺詐甄別(frauddetection)、保留客戶(customerretention)、消除摩擦(attrition)、數(shù)據(jù)庫營(yíng)銷(databasemarketing)、市場(chǎng)細(xì)分(marketsegmentation)、風(fēng)險(xiǎn)分析(riskanalysis)、親和力分析(affinityanalysis)、客戶滿意度(customersatisfaction)、破產(chǎn)預(yù)測(cè)(bankruptcyprediction)、職務(wù)分析(portfolioanalysis)等業(yè)務(wù)問題提供了有效的方法。1.2.1為什么要進(jìn)行數(shù)據(jù)挖掘1.?dāng)?shù)據(jù)挖掘的作用

2.?dāng)?shù)據(jù)挖掘的背景

(1)數(shù)據(jù)挖掘的商業(yè)背景

(2)數(shù)據(jù)挖掘的技術(shù)背景

(3)數(shù)據(jù)挖掘的社會(huì)背景2.?dāng)?shù)據(jù)挖掘的背景

3.?dāng)?shù)據(jù)挖掘?qū)ζ髽I(yè)的影響零售業(yè)業(yè)務(wù)問題增加對(duì)直接信函(directmail)的響應(yīng)率解決方案銷售人員通過數(shù)據(jù)挖掘建立的預(yù)測(cè)模型以了解哪些人最有可能對(duì)直接信函作出響應(yīng)獲得的收益由于將直接信函發(fā)送給正確的客戶而增加了銷售額保險(xiǎn)業(yè)業(yè)務(wù)問題減少保險(xiǎn)欺詐案件的發(fā)生數(shù)量解決方案業(yè)務(wù)人員通過數(shù)據(jù)挖掘建立預(yù)測(cè)模型識(shí)別出哪些賠償要求最可能具有欺詐性獲得收益由于減少欺詐造成的費(fèi)用而增加了利潤(rùn)金融業(yè)業(yè)務(wù)問題改進(jìn)預(yù)測(cè)市場(chǎng)波動(dòng)的能力,在金融市場(chǎng)建模中得到廣泛應(yīng)用。如何采用神經(jīng)網(wǎng)絡(luò)方法提高金融增益和在采用數(shù)據(jù)挖掘技術(shù)建立股票市場(chǎng)模型。解決方案金融分析員通過數(shù)據(jù)挖掘建立預(yù)測(cè)模型以識(shí)別出歷史上曾引起過市場(chǎng)被動(dòng)的因素所具有的模式獲得收益由于投資更加準(zhǔn)確而增加了收入3.?dāng)?shù)據(jù)挖掘?qū)ζ髽I(yè)的影響零售業(yè)業(yè)務(wù)問題增加對(duì)直接信函(di1.2.2什么是數(shù)據(jù)挖掘1.?dāng)?shù)據(jù)挖掘概念定義1G.PiatetskyShapior,W.J.Frawley等定義數(shù)據(jù)挖掘?yàn)閺臄?shù)據(jù)庫的大量數(shù)據(jù)中揭示出隱含的、先前未知的、潛在有用的信息的非平凡過程。定義2有人簡(jiǎn)單認(rèn)為,數(shù)據(jù)挖掘就是數(shù)據(jù)庫中知識(shí)的發(fā)現(xiàn)。定義3有人認(rèn)為,數(shù)據(jù)挖掘?yàn)榘l(fā)現(xiàn)數(shù)據(jù)中隱藏的模式和關(guān)系的過程。定義4有人認(rèn)為,數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或挖掘知識(shí)。定義5Fayyad等在“知識(shí)發(fā)現(xiàn)96國(guó)際會(huì)議上”認(rèn)為,知識(shí)發(fā)現(xiàn)是從數(shù)據(jù)庫中發(fā)現(xiàn)知識(shí)的全部過程,而數(shù)據(jù)挖掘則是此全部過程中一個(gè)特定的關(guān)鍵一步。這種觀點(diǎn)將數(shù)據(jù)挖掘的對(duì)象局限于數(shù)據(jù)庫。定義6數(shù)據(jù)挖掘廣義的定義為在一些事實(shí)或觀察數(shù)據(jù)的集合中尋找模式的決策支持的過程。

綜上所述,我們定義數(shù)據(jù)挖掘?yàn)?/p>

在不同的數(shù)據(jù)源中包括結(jié)構(gòu)化的數(shù)據(jù)、半結(jié)構(gòu)化的數(shù)據(jù)和非結(jié)構(gòu)化的數(shù)據(jù),即既可以是數(shù)據(jù)庫,也可以是文件系統(tǒng),或其他任何組織在一起的數(shù)據(jù)集合,通過一定的工具與方法尋找出有價(jià)值的知識(shí)的一類深層次的數(shù)據(jù)分析方法。

1.2.2什么是數(shù)據(jù)挖掘1.?dāng)?shù)據(jù)挖掘概念2.?dāng)?shù)據(jù)挖掘的分類分類標(biāo)準(zhǔn)類別按數(shù)據(jù)挖掘方法的直接性直接數(shù)據(jù)挖掘、間接數(shù)據(jù)挖掘按數(shù)據(jù)分析的角度分類描述式數(shù)據(jù)挖掘、預(yù)測(cè)式數(shù)據(jù)挖掘按挖掘的數(shù)據(jù)庫分類關(guān)系型、事務(wù)型、面向?qū)ο笮?、主?dòng)型、空間型、文本型、多媒體、異構(gòu)數(shù)據(jù)庫按挖掘的規(guī)則類關(guān)聯(lián)規(guī)則、分類規(guī)則、聚類規(guī)則、趨勢(shì)分析、偏差分析、模式分析、特征規(guī)則、總結(jié)規(guī)則按采用的技術(shù)分類模糊和粗集方法、人工神經(jīng)網(wǎng)絡(luò)、遺傳算法、決策樹、最近鄰技術(shù)、規(guī)則歸納、可視化技術(shù)按挖掘知識(shí)的抽象層次分類原始層次、高層次和多層次按挖掘知識(shí)的反映事物之間的性質(zhì)分類同類共性廣義知識(shí)、特征型知識(shí)、屬性差別知識(shí)、關(guān)聯(lián)型知識(shí)、預(yù)測(cè)型知識(shí)、離群型知識(shí)、2.?dāng)?shù)據(jù)挖掘的分類分類標(biāo)準(zhǔn)類別按數(shù)據(jù)挖掘方法的直接性直接數(shù)據(jù)3.與數(shù)據(jù)挖掘相關(guān)的幾個(gè)概念1)直接數(shù)據(jù)挖掘利用可用的數(shù)據(jù)建立一個(gè)模型,模型對(duì)剩余的數(shù)據(jù),對(duì)一個(gè)特定的變量(可以理解成數(shù)據(jù)庫中表的屬性,即列)進(jìn)行描述,分類、估值、預(yù)言屬于直接數(shù)據(jù)挖掘。2)間接數(shù)據(jù)挖掘不是選出某一具體的變量用模型進(jìn)行描述;而是在所有的變量中建立起某種關(guān)系。相關(guān)性分組或關(guān)聯(lián)規(guī)則、聚集、描述和可視化屬于間接數(shù)據(jù)挖掘。3)描述式數(shù)據(jù)挖掘以簡(jiǎn)潔概要的方式描述數(shù)據(jù),并提供數(shù)據(jù)的有意義的一般知識(shí)。4)預(yù)測(cè)式數(shù)據(jù)挖掘分析數(shù)據(jù),建立一個(gè)或一組模型,并試圖預(yù)測(cè)新數(shù)據(jù)集的行為。3.與數(shù)據(jù)挖掘相關(guān)的幾個(gè)概念3.與數(shù)據(jù)挖掘相關(guān)的幾個(gè)概念(續(xù))5)數(shù)據(jù)庫查詢工具和數(shù)據(jù)挖掘工具之間的差異查詢工具能幫助用戶從數(shù)據(jù)庫數(shù)據(jù)中找到新的、有意義的事實(shí)。這類問題是查詢所要訪問的是對(duì)象是否在某一特定的位置。這與目前數(shù)據(jù)庫系統(tǒng)中大部分的查詢操作是相似的。通過這類問題使你可以確定對(duì)象將到達(dá)的位置。6)信息7)知識(shí)(knowledge)8)數(shù)據(jù)、信息與知識(shí)的轉(zhuǎn)化關(guān)系3.與數(shù)據(jù)挖掘相關(guān)的幾個(gè)概念(續(xù))1.2.3數(shù)據(jù)挖掘的特點(diǎn)1)處理的數(shù)據(jù)規(guī)模十分龐大;2)由于用戶不能形成精確的查詢要求,因此需要靠DM技術(shù)來尋找其可能感興趣的東西;3)DM對(duì)數(shù)據(jù)的迅速變化做出快速響應(yīng),以提供決策支持信息;4)DM既要發(fā)現(xiàn)潛在規(guī)則,還要管理和維護(hù)規(guī)則,隨著新數(shù)據(jù)的不斷加入,規(guī)則需要隨著新數(shù)據(jù)更新;5)DM中規(guī)則的發(fā)現(xiàn)基于統(tǒng)計(jì)規(guī)律,發(fā)現(xiàn)的規(guī)則不必適合于所有數(shù)據(jù),而且當(dāng)達(dá)到某一閾值時(shí),便認(rèn)為有此規(guī)則。

1.2.3數(shù)據(jù)挖掘的特點(diǎn)1)處理的數(shù)據(jù)規(guī)模十分龐大;1.2.4數(shù)據(jù)挖掘的基本過程與步驟1.?dāng)?shù)據(jù)挖掘的基本過程(1)數(shù)據(jù)準(zhǔn)備數(shù)據(jù)準(zhǔn)備(datapreparation):本階段又可進(jìn)一步細(xì)分成數(shù)據(jù)集成、數(shù)據(jù)選擇和預(yù)分析。(2)挖掘挖掘(mining):DM處理器(dataminingprocessor)綜合利用前面提到的多種DM方法分析數(shù)據(jù)。(3)表述表述(presentation):與檢驗(yàn)證型工具一樣,DM將獲取的信息以便于用戶理解和觀察的方式反映給用戶,這時(shí)可以利用可視化工具。(4)評(píng)價(jià)評(píng)價(jià)(assess):如果分析人員對(duì)分析結(jié)果不滿意,可以遞歸地執(zhí)行上述三個(gè)過程,直到滿意為止。1.2.4數(shù)據(jù)挖掘的基本過程與步驟1.?dāng)?shù)據(jù)挖掘的基本過程2.進(jìn)行數(shù)據(jù)挖掘的步驟

(1)問題定義 問題定義主要是指利用數(shù)據(jù)挖掘可以分析哪些問題。

(2)發(fā)現(xiàn)信息 通過數(shù)據(jù)挖掘分析從其客戶那里發(fā)現(xiàn)更多的信息。

(3)制定計(jì)劃

(4)采取行動(dòng)

(5)監(jiān)測(cè)效果2.進(jìn)行數(shù)據(jù)挖掘的步驟1.2.5分析數(shù)據(jù)挖掘的內(nèi)容1)直銷2)爭(zhēng)取客戶3)保留客戶4)交叉銷售5)趨勢(shì)分析6)欺詐檢測(cè)1.2.5分析數(shù)據(jù)挖掘的內(nèi)容1)直銷1.3數(shù)據(jù)挖掘與數(shù)據(jù)倉庫的關(guān)系1.3數(shù)據(jù)挖掘與數(shù)據(jù)倉庫的關(guān)系用戶包括偶然用戶(casualuser)、高級(jí)用戶(poweruser)和專家(expert)。

查詢協(xié)同管理包括一些訪問工具和系統(tǒng)管理工具,為用戶訪問數(shù)據(jù)倉庫和其他系統(tǒng)提供手段。

數(shù)據(jù)倉庫管理包括安全和特權(quán)管理,跟蹤數(shù)據(jù)的更新,數(shù)據(jù)質(zhì)量檢查,管理和更新元數(shù)據(jù),審計(jì)和報(bào)告數(shù)據(jù)倉庫的使用和狀態(tài),刪除數(shù)據(jù),復(fù)制、分割和分發(fā)數(shù)據(jù),備份和恢復(fù),存儲(chǔ)管理。

信息發(fā)布系統(tǒng)即把數(shù)據(jù)倉庫中的數(shù)據(jù)或其他相關(guān)的數(shù)據(jù)發(fā)送給不同的地點(diǎn)或用戶。用戶包括偶然用戶(casualuser)、高級(jí)用戶(pow1.4.1數(shù)據(jù)挖掘在零售業(yè)的應(yīng)用超市可以采用兩種不同的方式從事信息中介,一種方式是針對(duì)匿名客戶,另一種是針對(duì)注冊(cè)或有忠誠(chéng)卡的客戶。(1)重心從商品轉(zhuǎn)換到客戶

分析特定客戶群的購買模式,廠商可以了解特定的客戶的購買模型。(2)數(shù)據(jù)分析

賣主(供應(yīng)商)可以通過數(shù)據(jù)挖掘技術(shù)來增加商品的利潤(rùn)率,通過競(jìng)爭(zhēng)成為“種類首領(lǐng)”。1.4.1數(shù)據(jù)挖掘在零售業(yè)的應(yīng)用超市可以采用兩種不同的方式1.4.2數(shù)據(jù)挖掘技術(shù)在商業(yè)銀行中的應(yīng)用在銀行業(yè),數(shù)據(jù)挖掘主要用于信用欺詐的建模和預(yù)測(cè)、風(fēng)險(xiǎn)評(píng)估、趨勢(shì)分析、收益分析以及輔助直銷活動(dòng)。在金融市場(chǎng),已將神經(jīng)網(wǎng)絡(luò)用于股票價(jià)格預(yù)測(cè)、購買權(quán)交易、債券等級(jí)評(píng)定、資產(chǎn)組合管理、商品價(jià)格預(yù)測(cè)、合并和買進(jìn)以及金融危機(jī)預(yù)測(cè)等方面。1.4.2數(shù)據(jù)挖掘技術(shù)在商業(yè)銀行中的應(yīng)用在銀行業(yè),數(shù)據(jù)挖掘1996年,《銀行系統(tǒng)和技術(shù)》評(píng)論認(rèn)為“數(shù)據(jù)挖掘技術(shù)將是本年度金融服務(wù)領(lǐng)域最重要的應(yīng)用。”

在進(jìn)行數(shù)據(jù)挖掘的銀行包括美國(guó)第一銀行、Headland抵押公司、FCC國(guó)家銀行、聯(lián)邦住房貸款抵押公司、WellsFargo銀行、NationsBanc服務(wù)公司、N.A.Mellon銀行、Advata抵押公司、化學(xué)銀行、ChevyChase銀行、美國(guó)銀行公司和USAA聯(lián)邦儲(chǔ)蓄銀行1996年,《銀行系統(tǒng)和技術(shù)》評(píng)論認(rèn)為“數(shù)據(jù)挖掘技術(shù)將是本年1.4.3數(shù)據(jù)挖掘在電信部門的應(yīng)用1998年,西部電信用SAS的企業(yè)挖掘數(shù)據(jù)產(chǎn)品作為數(shù)據(jù)挖掘平臺(tái),開發(fā)了一項(xiàng)企業(yè)營(yíng)銷戰(zhàn)略系統(tǒng)。1995年9月,DEC公司的EvanDavies和HosseinPakraven提交的一份報(bào)告對(duì)客戶跳槽造成的損失進(jìn)行了量化,同時(shí)他們估計(jì)獲得一個(gè)新客戶的費(fèi)用高達(dá)400美元。1.4.3數(shù)據(jù)挖掘在電信部門的應(yīng)用1998年,西部電信用S1.4.4數(shù)據(jù)挖掘在貝斯出口公司的應(yīng)用貝斯出口公司是英國(guó)最大的啤酒出口商。該公司選擇了IBM的智能挖掘器作為其數(shù)據(jù)挖掘的商務(wù)解決方案。1.4.4數(shù)據(jù)挖掘在貝斯出口公司的應(yīng)用貝斯出口公司是英國(guó)最1.4.5數(shù)據(jù)挖掘如何預(yù)測(cè)信用卡欺詐對(duì)于這一問題可以有下列3種解決的途徑:1)使用查詢工具從關(guān)系數(shù)據(jù)庫中以適當(dāng)?shù)母袷匠槿∷枰男畔?。采用Brio,BusineeObjects及Congnos等公司開發(fā)的工具將很容易構(gòu)造出模型。由于用這種方法需要將數(shù)據(jù)下載到客戶端計(jì)算機(jī)中,所以能夠從數(shù)據(jù)倉庫中創(chuàng)建視圖來表示將要挖掘的虛擬數(shù)據(jù)。2)通過從關(guān)系數(shù)據(jù)倉庫中抽取記錄數(shù)據(jù),這將會(huì)受到一定的限制。3)通過構(gòu)造SQL語句以適當(dāng)格式得到所需的數(shù)據(jù)。1.4.5數(shù)據(jù)挖掘如何預(yù)測(cè)信用卡欺詐對(duì)于這一問題可以有下列1.4.6數(shù)據(jù)挖掘在證券行業(yè)的應(yīng)用關(guān)于股票預(yù)測(cè),市場(chǎng)上有許多采用數(shù)據(jù)挖掘技術(shù)對(duì)股票進(jìn)行預(yù)測(cè)的軟件。如NETPROPHET是神經(jīng)網(wǎng)絡(luò)應(yīng)用公司開發(fā)的一個(gè)股票預(yù)測(cè)應(yīng)用軟件,它采用了神經(jīng)網(wǎng)絡(luò)技術(shù),將輸出的結(jié)果用兩條曲線分別表示實(shí)際股票值和預(yù)測(cè)股票值。1.4.6數(shù)據(jù)挖掘在證券行業(yè)的應(yīng)用關(guān)于股票預(yù)測(cè),市場(chǎng)上有許第二章數(shù)據(jù)倉庫的分析

2.1 影響數(shù)據(jù)倉庫成功的因素2.2 數(shù)據(jù)倉庫的生命周期2.3 數(shù)據(jù)倉庫的基本體系結(jié)構(gòu)2.4 數(shù)據(jù)倉庫的邏輯結(jié)構(gòu)第二章數(shù)據(jù)倉庫的分析2.1 影響數(shù)據(jù)倉庫成功的因素2.1影響數(shù)據(jù)倉庫成功的因素特征操作(事務(wù)處理)需要數(shù)據(jù)倉庫(DSS)需要易變性動(dòng)態(tài)靜態(tài)通用性當(dāng)前的歷史的時(shí)間維暗指“現(xiàn)在”明確的,可見的粒度原始的,詳細(xì)的詳細(xì)的和可導(dǎo)出的匯總更新連續(xù)的,隨機(jī)的定期的,計(jì)劃的任務(wù)可重復(fù)的不可預(yù)期的靈活性低高性能要求高性能通??山邮艿托阅軟Q策支持系統(tǒng)與事務(wù)之間在數(shù)據(jù)庫要求上的差異2.1影響數(shù)據(jù)倉庫成功的因素特征操作(事務(wù)處理)需要數(shù)據(jù)倉影響數(shù)據(jù)倉庫成功的因素影響數(shù)據(jù)倉庫成功的因素2.2.1數(shù)據(jù)倉庫計(jì)劃與準(zhǔn)備階段1.用戶需求分析2.可行性研究3.用戶的認(rèn)可4.建設(shè)數(shù)據(jù)倉庫的協(xié)調(diào)與阻力分析5.開發(fā)項(xiàng)目計(jì)劃制定6.創(chuàng)建數(shù)據(jù)倉庫所使用的關(guān)鍵資源2.2.1數(shù)據(jù)倉庫計(jì)劃與準(zhǔn)備階段1.用戶需求分析數(shù)據(jù)倉庫的生命周期數(shù)據(jù)倉庫的生命周期2.2.2數(shù)據(jù)倉庫的其他階段1)系統(tǒng)分析2)系統(tǒng)設(shè)計(jì)(整體設(shè)計(jì)與詳細(xì)設(shè)計(jì))3)系統(tǒng)測(cè)試2.2.2數(shù)據(jù)倉庫的其他階段1)系統(tǒng)分析2.3數(shù)據(jù)倉庫的基本體系結(jié)構(gòu)2.3數(shù)據(jù)倉庫的基本體系結(jié)構(gòu)客戶應(yīng)用,是供用戶訪問查詢,并以直觀方式展示分析結(jié)果;數(shù)據(jù)倉庫,是存儲(chǔ)不同程度的數(shù)據(jù)和元數(shù)據(jù);集成器,是將從運(yùn)作數(shù)據(jù)庫中提取的數(shù)據(jù)經(jīng)過轉(zhuǎn)換、計(jì)算、綜合等操作,集成到數(shù)據(jù)倉庫中;監(jiān)視器,是負(fù)責(zé)感知數(shù)據(jù)源發(fā)生的變化,并按需求提取數(shù)據(jù);數(shù)據(jù)源,是為DW提供最底層的運(yùn)作數(shù)據(jù)庫系統(tǒng)及外部數(shù)據(jù)??蛻魬?yīng)用,是供用戶訪問查詢,并以直觀方式展示分析結(jié)果;數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)課件數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)課件2.4.1數(shù)據(jù)倉庫中的粒度2.4.1數(shù)據(jù)倉庫中的粒度2.4.2數(shù)據(jù)倉庫中的數(shù)據(jù)分割數(shù)據(jù)分割的常用標(biāo)準(zhǔn):按時(shí)間、商業(yè)行業(yè)、地理位置、組織單位等。這些標(biāo)準(zhǔn)都是由開發(fā)人員來選擇,且還要選擇是在應(yīng)用層上進(jìn)行分割,還是在系統(tǒng)層上進(jìn)行分割。在系統(tǒng)層進(jìn)行分割在一定程度上是DBMS和系統(tǒng)的一種功能。而在應(yīng)用層分割需要應(yīng)用程序代碼來完成,每年的數(shù)據(jù)定義既可以相同,也可以不相同,同時(shí)從一個(gè)處理集轉(zhuǎn)移到另一個(gè)處理集沒有損失。2.4.2數(shù)據(jù)倉庫中的數(shù)據(jù)分割數(shù)據(jù)分割的常用標(biāo)準(zhǔn):按時(shí)間、2.4.3數(shù)據(jù)倉庫中的數(shù)據(jù)組織數(shù)據(jù)倉庫中有這些數(shù)據(jù)組織:簡(jiǎn)單堆積結(jié)構(gòu)、輪轉(zhuǎn)綜合數(shù)據(jù)存儲(chǔ)、簡(jiǎn)單直接文件和連續(xù)組織。2.4.3數(shù)據(jù)倉庫中的數(shù)據(jù)組織數(shù)據(jù)倉庫中有這些數(shù)據(jù)組織:簡(jiǎn)2.4.4數(shù)據(jù)倉庫中的快照快照是為一些事件的發(fā)生而產(chǎn)生的。本組成形式由4個(gè)部分組成:鍵碼(key)、時(shí)間單元、只和關(guān)鍵碼相關(guān)聯(lián)的初始數(shù)據(jù)、與初始數(shù)據(jù)或關(guān)鍵碼無直接關(guān)系的二次數(shù)據(jù)。2.4.4數(shù)據(jù)倉庫中的快照快照是為一些事件的發(fā)生而產(chǎn)生的。2.4.5數(shù)據(jù)倉庫中的元數(shù)據(jù)元數(shù)據(jù)(metadata)是關(guān)于數(shù)據(jù)的數(shù)據(jù),對(duì)數(shù)據(jù)的結(jié)構(gòu)、內(nèi)容、鍵碼、索引等的描述。元數(shù)據(jù)在操作型的環(huán)境中和分析型的環(huán)境中具有不同的作用。元數(shù)據(jù)是描述數(shù)據(jù)倉庫內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù)??砂雌溆猛镜牟煌譃閮深悾杭夹g(shù)元數(shù)據(jù)和商業(yè)元數(shù)據(jù)。技術(shù)元數(shù)據(jù)是數(shù)據(jù)倉庫的設(shè)計(jì)和管理人員用于開發(fā)和日常管理數(shù)據(jù)倉庫是用的數(shù)據(jù)。2.4.5數(shù)據(jù)倉庫中的元數(shù)據(jù)元數(shù)據(jù)(metadata)是關(guān)第三章數(shù)據(jù)倉庫的設(shè)計(jì)與實(shí)施3.1 從數(shù)據(jù)庫到數(shù)據(jù)倉庫3.2 面向主題的數(shù)據(jù)倉庫設(shè)計(jì)3.3 開發(fā)數(shù)據(jù)倉庫的物理設(shè)計(jì)3.4 數(shù)據(jù)倉庫的實(shí)施第三章數(shù)據(jù)倉庫的設(shè)計(jì)與實(shí)施3.1 從數(shù)據(jù)庫到數(shù)據(jù)倉庫3.1從數(shù)據(jù)庫到數(shù)據(jù)倉庫數(shù)據(jù)庫系統(tǒng)數(shù)據(jù)倉庫系統(tǒng)數(shù)據(jù)類型操作型數(shù)據(jù)分析型數(shù)據(jù)數(shù)據(jù)組織方式面向應(yīng)用面向主題視圖機(jī)制虛表存儲(chǔ),只存視圖結(jié)構(gòu)實(shí)視圖存儲(chǔ)系統(tǒng)開發(fā)方法需求驅(qū)動(dòng)數(shù)據(jù)驅(qū)動(dòng)面向應(yīng)用面向OLTP應(yīng)用面向OLAP應(yīng)用工具數(shù)據(jù)查詢、開發(fā)分析和一般查詢功能復(fù)雜簡(jiǎn)單優(yōu)化事務(wù)處理和訪問系統(tǒng)的決策與分析索引有限數(shù)量完善結(jié)構(gòu)自由空間需要附加數(shù)據(jù)空間無更新開銷大無更新操作增、刪、改頻繁少3.1從數(shù)據(jù)庫到數(shù)據(jù)倉庫數(shù)據(jù)庫系統(tǒng)數(shù)據(jù)倉庫系統(tǒng)數(shù)據(jù)類型操作3.2.1數(shù)據(jù)建模1)數(shù)據(jù)倉庫的開發(fā)過程2)基于開發(fā)過程的數(shù)據(jù)建模型的主要內(nèi)容3.2.1數(shù)據(jù)建模1)數(shù)據(jù)倉庫的開發(fā)過程3.2.2星型連接3.2.2星型連接數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)課件3.3.1數(shù)據(jù)倉庫設(shè)計(jì)工具的選擇1.?dāng)?shù)據(jù)獲取工具的選擇2.?dāng)?shù)據(jù)工具的選擇3.3.1數(shù)據(jù)倉庫設(shè)計(jì)工具的選擇1.?dāng)?shù)據(jù)獲取工具的選擇3.3.2物理數(shù)據(jù)模型設(shè)計(jì)硬件平臺(tái)的選擇:數(shù)據(jù)倉庫的硬盤容量通常是操作數(shù)據(jù)庫硬盤容量的2~3倍。選擇硬件平臺(tái)時(shí)要考慮的問題:是否提供并行的I/O?對(duì)多CPU的支持能力如何?不同存儲(chǔ)介質(zhì)的特點(diǎn)比較表存儲(chǔ)介質(zhì)速度價(jià)格主存非??旆浅YF擴(kuò)展內(nèi)存非??熨F高速緩存非常快貴DASD快適中光盤不慢不貴縮微膠片慢便宜3.3.2物理數(shù)據(jù)模型設(shè)計(jì)硬件平臺(tái)的選擇:數(shù)據(jù)倉庫的硬盤容3.3.3數(shù)據(jù)倉庫中數(shù)據(jù)表的數(shù)量與規(guī)范化在數(shù)據(jù)模型處理過程中,如果程序在很多表中跳轉(zhuǎn),每次程序從一個(gè)表跳到另一個(gè),就要進(jìn)行I/O變換,既要存取數(shù)據(jù),又要存取索引找到數(shù)據(jù)。如果許多程序需要大量的I/O時(shí),性能就會(huì)受到影響,這就要進(jìn)行小計(jì)。當(dāng)數(shù)據(jù)序列產(chǎn)生的數(shù)量是穩(wěn)定的、按序列存取的,且數(shù)據(jù)的創(chuàng)建與修改在統(tǒng)計(jì)上是以很規(guī)律的方式進(jìn)行的時(shí)候,可以采用數(shù)據(jù)數(shù)組。3.3.3數(shù)據(jù)倉庫中數(shù)據(jù)表的數(shù)量與規(guī)范化在數(shù)據(jù)模型處理過3.4.1數(shù)據(jù)倉庫的實(shí)施應(yīng)注意的問題在數(shù)據(jù)倉庫的實(shí)施過程中要考慮以下問題:投資回報(bào)率;在具體實(shí)施時(shí)應(yīng)自頂向下還是自下到上;在人力資源的問題上要考慮培訓(xùn)還是雇用;在設(shè)計(jì)上要有前瞻性,把問題覆蓋的范圍思考大一些,但實(shí)施從小處開始。3.4.1數(shù)據(jù)倉庫的實(shí)施應(yīng)注意的問題在數(shù)據(jù)倉庫的實(shí)施過程中3.4.2在實(shí)施數(shù)據(jù)倉庫過程中應(yīng)避免的錯(cuò)誤1.錯(cuò)誤項(xiàng)目的發(fā)起2.制訂了不可能完成的目標(biāo)3.犯政治幼稚病4.把所有能找到的數(shù)據(jù)全都放到數(shù)據(jù)倉庫中5.認(rèn)為設(shè)計(jì)數(shù)據(jù)倉庫就是設(shè)計(jì)事務(wù)數(shù)據(jù)庫6.選擇一個(gè)面向技術(shù)的而不是面向用戶的人做數(shù)據(jù)倉庫項(xiàng)目經(jīng)理3.4.2在實(shí)施數(shù)據(jù)倉庫過程中應(yīng)避免的錯(cuò)誤1.錯(cuò)誤項(xiàng)目的7.只專注內(nèi)部關(guān)系型數(shù)據(jù),而忽略外部數(shù)據(jù)、文本、圖像甚至聲音、視頻數(shù)據(jù)8.用交疊的或沖突的數(shù)據(jù)定義交付數(shù)據(jù)9.相信軟硬件供應(yīng)商對(duì)性能、能力和可擴(kuò)展性的承諾10.相信一旦數(shù)據(jù)倉庫建立起來并開始運(yùn)行,你的任務(wù)就完成了11.專注于動(dòng)態(tài)生成查詢、數(shù)據(jù)挖掘和定期生成報(bào)表7.只專注內(nèi)部關(guān)系型數(shù)據(jù),而忽略外部數(shù)據(jù)、文本、圖像甚至聲音3.4.3數(shù)據(jù)倉庫項(xiàng)目實(shí)施成功的要訣許多數(shù)據(jù)倉庫項(xiàng)目的指導(dǎo)方針都是成功的。Anahory和Murray提供了足有145組指導(dǎo)方針,所有這些都是為了那些負(fù)責(zé)數(shù)據(jù)倉庫項(xiàng)目的人而設(shè)計(jì)的,目的是幫助他們得到成功的結(jié)論。數(shù)據(jù)倉庫專家LarryGreenfield已經(jīng)出版了他關(guān)于一個(gè)成功數(shù)據(jù)倉庫項(xiàng)目的建議3.4.3數(shù)據(jù)倉庫項(xiàng)目實(shí)施成功的要訣許多數(shù)據(jù)倉庫項(xiàng)目的指導(dǎo)第四章信息分析的基本技術(shù)4.1 自動(dòng)信息分析的基本技術(shù)4.2 聯(lián)機(jī)分析4.3 Rough的信息分析技術(shù)第四章信息分析的基本技術(shù)4.1 自動(dòng)信息分析的基本技術(shù)信息分析技術(shù)的不同方面與層次分類信息分析技術(shù)的不同方面與層次分類4.1.1智能代理智能代理(Agent)是一種在計(jì)算機(jī)網(wǎng)絡(luò)上無疲勞工作執(zhí)行重復(fù)性、可預(yù)料任務(wù)的,為人們建立知識(shí)的軟件包。智能代理具有長(zhǎng)期性、半自動(dòng)化、參與活動(dòng),且具有適應(yīng)性。4.1.1智能代理智能代理(Agent)是一種在計(jì)算機(jī)網(wǎng)絡(luò)上1.智能代理定義Agent的設(shè)計(jì)是用來完成某類任務(wù)的,能在一定環(huán)境中自主發(fā)揮作用、有生命周期的計(jì)算實(shí)體。Agent是一種抽象實(shí)體,它能作用于自身和環(huán)境,并能對(duì)環(huán)境做出反映,具有知識(shí)、目標(biāo)和能力。2.多Agent與移動(dòng)Agent多Agent是由多個(gè)可執(zhí)行網(wǎng)絡(luò)計(jì)算的Agent組成的集合,能對(duì)問題求解,能隨環(huán)境改變而自動(dòng)修改自己的行為,并能通過網(wǎng)絡(luò)與其他Agent進(jìn)行通信、交換、合作,協(xié)同完成求解同一問題的分布式智能系統(tǒng)。移動(dòng)Agent是Agent與Internet技術(shù)相結(jié)合的產(chǎn)物,它可以自主地在網(wǎng)絡(luò)上從一臺(tái)主機(jī)移動(dòng)到另一臺(tái)主機(jī),根據(jù)用戶指定的任務(wù)進(jìn)行自動(dòng)檢索、收據(jù)和過濾信息,代表用戶進(jìn)行商務(wù)活動(dòng)。3.建造Agent的方法1.智能代理定義4.1.2群體智能1.蟻群算法2.多Agent分布式的市場(chǎng)營(yíng)銷知識(shí)獲取結(jié)構(gòu)4.1.2群體智能1.蟻群算法多Agent分布式市場(chǎng)營(yíng)銷知識(shí)獲取結(jié)構(gòu)多Agent分布式市場(chǎng)營(yíng)銷知識(shí)獲取結(jié)構(gòu)4.1.3小波分析小波變換是一種信號(hào)處理技術(shù),它將一個(gè)信號(hào)分解為不同頻率的子波段。在實(shí)際工程中,有用信號(hào)通常表現(xiàn)為低頻信號(hào)或是一些比較平穩(wěn)的信號(hào),而噪聲(離群)則通常表現(xiàn)為高頻信號(hào)。4.1.3小波分析小波變換是一種信號(hào)處理技術(shù),它將一個(gè)信號(hào)4.1.4分形技術(shù)分析分形理論(fractaltheory)的創(chuàng)始人Mandelbrot在20世紀(jì)60年代就應(yīng)用自相似性和標(biāo)度不變性,對(duì)棉花價(jià)格進(jìn)行了研究。稱集F是分形的,是具備如下典型的性質(zhì):1)F具有精細(xì)的結(jié)構(gòu),即有任意小比例的不規(guī)則的細(xì)節(jié);2)F是如此的不規(guī)則以至于無論它的整體和局部都不能用微積分或傳統(tǒng)的幾何語言來描述;3)F通常有某種自相似或自仿射的性質(zhì),可能是近似的,也可能是統(tǒng)計(jì)近似意義上的;4)一般地F有“分形維數(shù)”(以某種定義),通常嚴(yán)格大于它的拓?fù)渚S數(shù);5)在大多令人感興趣情形下,F(xiàn)以非常簡(jiǎn)單的方法,可能由迭代給出定義;6)F通常有“自然”的外貌。4.1.4分形技術(shù)分析分形理論(fractaltheor4.2.1聯(lián)機(jī)分析OLAP的基本術(shù)語定義1OLAP(聯(lián)機(jī)分析處理)是針對(duì)特定問題的聯(lián)機(jī)數(shù)據(jù)訪問和分析。通過對(duì)信息(維數(shù)據(jù))的多種可能的觀察形式進(jìn)行快速、穩(wěn)定一致和交互性的存取,允許管理決策人員對(duì)數(shù)據(jù)進(jìn)行深入觀察。定義2OLAP(聯(lián)機(jī)分析處理)是使分析人員、管理人員或執(zhí)行人員能夠從多種角度對(duì)從原始數(shù)據(jù)中轉(zhuǎn)化出來的、能夠真正為用戶所理解的,并對(duì)真實(shí)反映企業(yè)數(shù)據(jù)特性的信息進(jìn)行快速、一致、交互地存取,從而獲得對(duì)數(shù)據(jù)更深入了解的一類軟件技術(shù)(OLAP委員會(huì)的定義)。OLAP的目標(biāo)是滿足決策支持或多維環(huán)境特定的查詢和報(bào)表需求,它的技術(shù)核心是“維”這個(gè)概念,因此OLAP也可以說是多維數(shù)據(jù)分析工具的集合。4.2.1聯(lián)機(jī)分析OLAP的基本術(shù)語定義1OLAP(聯(lián)機(jī)4.2.2OLAP體系結(jié)構(gòu)和處理的特性4.2.2OLAP體系結(jié)構(gòu)和處理的特性4.2.3OLAP多維數(shù)據(jù)結(jié)構(gòu)與OLAP的分類1.OLAP多維數(shù)據(jù)結(jié)構(gòu)2.OLAP的分類4.2.3OLAP多維數(shù)據(jù)結(jié)構(gòu)與OLAP的分類1.OLAP4.2.4OLAP的多維數(shù)據(jù)分析方法1.切片(slice)2.切塊(Dice)3.旋轉(zhuǎn)(turning)/轉(zhuǎn)軸(pivot)4.鉆取(drill)4.2.4OLAP的多維數(shù)據(jù)分析方法1.切片(slice)4.2.5OLAP評(píng)價(jià)準(zhǔn)則準(zhǔn)則1OLAP模型必須提供多維概念視圖。準(zhǔn)則2透明性準(zhǔn)則。準(zhǔn)則3存取能力準(zhǔn)則。準(zhǔn)則4穩(wěn)定的報(bào)表性能。準(zhǔn)則5客戶/服務(wù)器體系結(jié)構(gòu)。準(zhǔn)則6維的等同性準(zhǔn)則。準(zhǔn)則7動(dòng)態(tài)的稀疏矩陣處理準(zhǔn)則。準(zhǔn)則8多用戶支持能力準(zhǔn)則。準(zhǔn)則9非受限的跨維操作。準(zhǔn)則10直觀的數(shù)據(jù)操縱。準(zhǔn)則11靈活的報(bào)表生成。準(zhǔn)則12非受限維與聚集層次。4.2.5OLAP評(píng)價(jià)準(zhǔn)則準(zhǔn)則1OLAP模型必須提供多4.2.6OLAP的發(fā)展與流行的OLAP工具選擇1.OLAP的發(fā)展2.流行的OLAP工具選擇1)HyperionEssbase:2)OracleExpress3)IBMDB2OLAPServer4)SybasePowerdimension5)InformixMetacube4.2.6OLAP的發(fā)展與流行的OLAP工具選擇1.OLA4.3.1粗糙集理論的基本概念和理論基礎(chǔ)知識(shí)、劃分與等價(jià)關(guān)系信息表、不可分辨關(guān)系和基本集粗糙集的下、上近似及邊界區(qū)4.3.1粗糙集理論的基本概念和理論基礎(chǔ)知識(shí)、劃分與等價(jià)關(guān)4.3.2粗糙集在信息分析中的特征表示定義4設(shè)U≠?是論域,Ω={ω1,ω2,…,ωm}是對(duì)象集,,Ω中任何對(duì)象所具有的特征所組成的集合,稱為特征集(propertyset):T={t1,t2…,tn}。這些特征可由如下的“屬性-值”表示:t=(a,v),,。由特征集構(gòu)成的表,稱之為特征表4.3.2粗糙集在信息分析中的特征表示定義4設(shè)U≠?是論第五章數(shù)據(jù)挖掘過程5.1 數(shù)據(jù)挖掘的方法與基本流程5.2 確定主題和定義數(shù)據(jù)挖掘任務(wù)5.3 數(shù)據(jù)預(yù)處理5.4 數(shù)據(jù)挖掘的模型建立與理解5.5 數(shù)據(jù)挖掘中常見的一些問題5.6 事先無法預(yù)測(cè)的有價(jià)值知識(shí)第五章數(shù)據(jù)挖掘過程5.1 數(shù)據(jù)挖掘的方法與基本流程5.1.1SEMMA方法SAS的EnterpriseMiner中包含了一個(gè)可以影射為SEMMA方法的分析流圖SAS的SEMMA方法即抽樣(sample)、探索(explore)、修改(modify)、模型(model)和評(píng)價(jià)(assess)等英文頭的縮寫,它是由一個(gè)過程流圖驅(qū)動(dòng)的5.1.1SEMMA方法SAS的EnterpriseMi5.1.2數(shù)據(jù)挖掘的基本流程5.1.2數(shù)據(jù)挖掘的基本流程5.2確定主題和定義數(shù)據(jù)挖掘任務(wù)首先確定與任務(wù)相關(guān)的數(shù)據(jù),即我想挖掘什么數(shù)據(jù)集確定數(shù)據(jù)挖掘研究的范圍,即想挖掘什么類型的知識(shí),什么背景知識(shí)在這里可能有用,哪些度量可以用來評(píng)估模式的興趣度5.2確定主題和定義數(shù)據(jù)挖掘任務(wù)首先確定與任務(wù)相關(guān)的數(shù)據(jù)5.2.1確定主題保持力控制、風(fēng)險(xiǎn)預(yù)測(cè)、收益率分析、數(shù)據(jù)趨勢(shì)分析、雇員分析、區(qū)域分析、分類、聚類和可視化研究都可作為主題的類型。5.2.1確定主題保持力控制、風(fēng)險(xiǎn)預(yù)測(cè)、收益率分析、數(shù)據(jù)趨5.2.2定義數(shù)據(jù)挖掘任務(wù)1)首先定義與任務(wù)相關(guān)的數(shù)據(jù),即要確定數(shù)據(jù)選擇的條件、數(shù)據(jù)分組條件、相關(guān)屬性或維等。要使得挖掘效率高,可建立視圖進(jìn)行挖掘,數(shù)據(jù)倉庫可滿足這些條件。2)確定與數(shù)據(jù)挖掘任務(wù)相關(guān)的知識(shí)類型,即從特征化和判別式、關(guān)聯(lián)、分類、預(yù)測(cè)、聚類和演變分析等中找出一種或幾種類型。模式模板,包括元模式(元規(guī)則或元查詢)可以指導(dǎo)知識(shí)的發(fā)現(xiàn)過程。3)獲取一定的背景知識(shí),背景知識(shí)是正確的作出概念分層和用戶對(duì)數(shù)據(jù)保持聯(lián)系。概念分層包括模式分層、集合分組分層、操作導(dǎo)出的分層和基于規(guī)則的分層。4)度量與數(shù)據(jù)挖掘任務(wù)相關(guān)的模式興趣度:興趣度度量包括評(píng)估模式的簡(jiǎn)潔性(如規(guī)則長(zhǎng)度)、確定性(置信度)、實(shí)用性(支持度)和新穎性。5.2.2定義數(shù)據(jù)挖掘任務(wù)1)首先定義與任務(wù)相關(guān)的數(shù)據(jù),即5.3.1數(shù)據(jù)的收集和準(zhǔn)備數(shù)據(jù)的收集和準(zhǔn)備是開展數(shù)據(jù)挖掘的最大障礙。數(shù)據(jù)準(zhǔn)備一般包含兩方面:從多種數(shù)據(jù)源中去綜合數(shù)據(jù)挖掘所需要的數(shù)據(jù),保證數(shù)據(jù)質(zhì)量的綜合性、易用性和時(shí)效性,這有可能要用到數(shù)據(jù)倉庫的思想和技術(shù);如何從現(xiàn)有數(shù)據(jù)中衍生出所需要的指標(biāo),這主要取決于數(shù)據(jù)挖掘者的分析經(jīng)驗(yàn)和工具的方便性。5.3.1數(shù)據(jù)的收集和準(zhǔn)備數(shù)據(jù)的收集和準(zhǔn)備是開展數(shù)據(jù)挖掘的最5.3.2數(shù)據(jù)清理(datacleaning)數(shù)據(jù)清理要解決如下的一些問題:(1)數(shù)據(jù)質(zhì)量(2)冗余數(shù)據(jù)(3)過時(shí)數(shù)據(jù)(4)術(shù)語定義的變化數(shù)據(jù)清洗將會(huì)使數(shù)據(jù)集產(chǎn)生哪些問題1)一致性問題2)失效數(shù)據(jù)的清洗問題3)印刷錯(cuò)誤的清洗問題4)數(shù)值缺失5)數(shù)據(jù)導(dǎo)出5.3.2數(shù)據(jù)清理(datacleaning)數(shù)據(jù)清理5.3.3數(shù)據(jù)集成(dataintegration)數(shù)據(jù)集成的關(guān)鍵是獲取數(shù)據(jù),如訪問數(shù)據(jù)倉庫。通過如下幾種方法訪問數(shù)據(jù):1)通過基于事務(wù)的關(guān)系數(shù)據(jù)庫或基于PC的數(shù)據(jù)庫訪問數(shù)據(jù)2)通過數(shù)據(jù)轉(zhuǎn)換工具訪問數(shù)據(jù)3)用查詢工具訪問數(shù)據(jù)4)從平面文件中訪問數(shù)據(jù)5.3.3數(shù)據(jù)集成(dataintegration)數(shù)據(jù)5.3.4數(shù)據(jù)變換(datatransformation)數(shù)據(jù)變換就是將數(shù)據(jù)進(jìn)行規(guī)范化和聚集。規(guī)范化可以改進(jìn)涉及距離度量的挖掘算法的精度和有效性。常用的方法有平滑(包括分箱、聚類和回歸)來去掉噪聲數(shù)據(jù);聚集來對(duì)數(shù)據(jù)進(jìn)行匯總;數(shù)據(jù)概化使用高層次概念替換低層次“原始”數(shù)據(jù)來進(jìn)行概念分層;規(guī)范化將屬性數(shù)據(jù)按比例縮放,使之落入一個(gè)小的特定區(qū)間;屬性構(gòu)造(特征構(gòu)造)來幫助提高精度和對(duì)高維數(shù)據(jù)結(jié)構(gòu)的理解。5.3.4數(shù)據(jù)變換(datatransformation5.3.5數(shù)據(jù)歸約(datareduction)數(shù)據(jù)歸約通過聚集、刪除冗余特性或聚類等方法來壓縮數(shù)據(jù)。常用的方法:數(shù)據(jù)立方體聚集維歸約數(shù)據(jù)壓縮數(shù)值歸約離散化概念分層產(chǎn)生5.3.5數(shù)據(jù)歸約(datareduction)數(shù)據(jù)歸5.3.6微軟數(shù)據(jù)轉(zhuǎn)換服務(wù)(DTS)微軟數(shù)據(jù)轉(zhuǎn)換服務(wù)(microsoftdatatransformatonserverics,DTS)是一個(gè)從不同的數(shù)據(jù)源收集數(shù)據(jù)的重要工具。DTS是一個(gè)面向批處理的程序。包(package)是基本的DTS單元,DTS對(duì)象包含在包中。包的4種對(duì)象類型包括:數(shù)據(jù)連接、DTS任務(wù)、數(shù)據(jù)轉(zhuǎn)換和工作流。DTS的內(nèi)容包括:COM對(duì)象集合,其中每一個(gè)對(duì)象完成一項(xiàng)特定的任務(wù);OLEDB數(shù)據(jù)連接的中心;工作流程開發(fā)平臺(tái)和應(yīng)用開發(fā)環(huán)境。5.3.6微軟數(shù)據(jù)轉(zhuǎn)換服務(wù)(DTS)微軟數(shù)據(jù)轉(zhuǎn)換服務(wù)(mi5.4數(shù)據(jù)挖掘的模型建立與理解數(shù)據(jù)挖掘中的各種方法:1)概要統(tǒng)計(jì)(summarystatistics)2)關(guān)聯(lián)度分析(finddependencies)3)聚類分析(cluster)4)線性回歸是最常用的統(tǒng)計(jì)分析方法5)市場(chǎng)貨籃分析(marketbasketanalysis)6)分類分析(classify)7)近鄰預(yù)測(cè)(nearestneighbor)8)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè),神經(jīng)網(wǎng)絡(luò)(neuralnetworks)9)決策樹分析(dcisiontree,DT)10)規(guī)則分析(findlaws)算法5.4數(shù)據(jù)挖掘的模型建立與理解數(shù)據(jù)挖掘中的各種方法:5.4.1關(guān)于模型的準(zhǔn)確性由數(shù)據(jù)挖掘工具產(chǎn)生的模型一般可通過時(shí)間來檢驗(yàn)其有多大程度的準(zhǔn)確性,但是如果模型的準(zhǔn)確性受到政府法令的限制并且必須是經(jīng)過驗(yàn)證的,則就有必要綜合地使用幾種不同的數(shù)據(jù)挖掘方法。例如,HNC公司數(shù)據(jù)挖掘產(chǎn)品Falcon在偵測(cè)信用卡欺詐方面是一個(gè)很好的工具。但它并沒有在信用卡貸款審批中得到廣泛使用,其原因是受到了政府規(guī)章的限制。5.4.1關(guān)于模型的準(zhǔn)確性由數(shù)據(jù)挖掘工具產(chǎn)生的模型一般可通5.4.2關(guān)于模型的可理解性可供考慮的因素:

首先,模型是否可以使我們了解輸入對(duì)結(jié)果會(huì)產(chǎn)生什么作用?其次,模型是否可以使我們了解預(yù)測(cè)為什么會(huì)成功或失?。康谌P褪欠窨梢允刮覀儗?duì)復(fù)雜的數(shù)據(jù)集產(chǎn)生預(yù)測(cè)的結(jié)果?第四,模型是否能對(duì)其產(chǎn)生的結(jié)果進(jìn)行檢測(cè)?5.4.2關(guān)于模型的可理解性可供考慮的因素:

5.4.3關(guān)于模型的性能對(duì)模性的性能考慮可以分為兩個(gè)方面:一是你需要以什么速度構(gòu)造出模型;二是你需要以什么速度從模型中獲得預(yù)測(cè)結(jié)果。5.4.3關(guān)于模型的性能對(duì)模性的性能考慮可以分為兩個(gè)方面:5.4.4描述和可視化描述和可視化(descriptionandvisualization),是通過規(guī)則、表、報(bào)告、圖表、圖像、判定樹和數(shù)據(jù)立方體下鉆或上卷等形式對(duì)數(shù)據(jù)挖掘的結(jié)果進(jìn)行表示的方式。圖形可以幫助人們更好的理解原始數(shù)據(jù)。通過在地圖上面疊加產(chǎn)品的銷量來顯示產(chǎn)品的銷量情況。同時(shí),也可用顏色表示各個(gè)地方的銷量,以標(biāo)識(shí)銷量最大的區(qū)域。樹形可視化工具以層次化互連節(jié)點(diǎn)的方式表示數(shù)據(jù),從而展示出這些數(shù)據(jù)的數(shù)量和關(guān)系特征。5.4.4描述和可視化描述和可視化(description5.4.5驗(yàn)證與評(píng)估1.驗(yàn)證

評(píng)價(jià)模型應(yīng)考慮以下幾方面的問題:第一,用與建立模型相同的數(shù)據(jù)集對(duì)模型進(jìn)行評(píng)價(jià)比用不同的數(shù)據(jù)集對(duì)其進(jìn)行評(píng)價(jià)會(huì)獲得更好的結(jié)果;第二,模型的某些預(yù)測(cè)結(jié)果會(huì)比其他預(yù)測(cè)結(jié)果更加準(zhǔn)確;第三,由于模型以樣例數(shù)據(jù)為基礎(chǔ)建立的,應(yīng)具有好的結(jié)果。2.評(píng)估 雖然不同的數(shù)據(jù)挖掘方法分類、聚類、可視化和關(guān)聯(lián)分析等方法都匯集在數(shù)據(jù)挖掘算法下,但它們的確存在著很大的區(qū)別。數(shù)據(jù)挖掘從人工智能領(lǐng)域借鑒了很多東西,既然人工智能技術(shù)的種類繁多,我們也就不難理解存在眾多不同數(shù)據(jù)挖掘方法的原因了。5.4.5驗(yàn)證與評(píng)估1.驗(yàn)證5.5數(shù)據(jù)挖掘中常見的一些問題商業(yè)用戶提出的問題技術(shù)問題數(shù)據(jù)挖掘應(yīng)用問題實(shí)施數(shù)據(jù)挖掘項(xiàng)目考慮的問題數(shù)據(jù)挖掘?qū)ι鐣?huì)的影響―—有關(guān)隱私問題5.5數(shù)據(jù)挖掘中常見的一些問題商業(yè)用戶提出的問題5.6事先無法預(yù)測(cè)的有價(jià)值知識(shí)1)其他候選結(jié)果:我們除了想要知道模型將會(huì)預(yù)測(cè)出什么結(jié)果之外,可能還會(huì)對(duì)其他候選預(yù)測(cè)結(jié)果也產(chǎn)生興趣。2)獲選邊際率:人們對(duì)預(yù)測(cè)結(jié)果非常感興趣的一點(diǎn)是最終預(yù)測(cè)結(jié)果與其他候選結(jié)果之間的差距有多大。3)預(yù)測(cè):我們對(duì)預(yù)測(cè)過程可能想要知道的另一件事情就是模型為什么會(huì)得到這樣的預(yù)測(cè)結(jié)果。5.6事先無法預(yù)測(cè)的有價(jià)值知識(shí)1)其他候選結(jié)果:我們除了想

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)

第一章 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘概述1.1 數(shù)據(jù)倉庫引論1.2 數(shù)據(jù)挖掘引論1.3 數(shù)據(jù)挖掘與數(shù)據(jù)倉庫的關(guān)系1.4 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的應(yīng)用第一章 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘概述1.1 數(shù)據(jù)倉庫引論1.1.1 為什么要建立數(shù)據(jù)倉庫數(shù)據(jù)倉庫的作用

傳統(tǒng)數(shù)據(jù)庫系統(tǒng)的例子:超市銷售系統(tǒng)、學(xué)生管理信息系統(tǒng)、圖書管理系統(tǒng)等。

隨著人們對(duì)信息技術(shù)利用能力的增強(qiáng),對(duì)數(shù)據(jù)的應(yīng)用也從低級(jí)的查詢操作,提升到為企業(yè)經(jīng)營(yíng)管理提供決策支持。為滿足管理人員的決策分析需要,就需要構(gòu)建適應(yīng)決策分析的數(shù)據(jù)環(huán)境—數(shù)據(jù)倉庫建立數(shù)據(jù)倉庫的好處作為服務(wù)于企業(yè)級(jí)的應(yīng)用,概括說來有四個(gè)方面的優(yōu)越性:1.減輕系統(tǒng)負(fù)擔(dān)、簡(jiǎn)化日常維護(hù)和管理;2.改進(jìn)數(shù)據(jù)的完整性、兼容性和有效性;3.提高了數(shù)據(jù)存取的效率;4.提供簡(jiǎn)單、統(tǒng)一的查詢和報(bào)表機(jī)制。1.1.1 為什么要建立數(shù)據(jù)倉庫數(shù)據(jù)倉庫的作用1.1.2什么是數(shù)據(jù)倉庫1.?dāng)?shù)據(jù)倉庫的概念

W.H.Inmon在《BuildingtheDataWarehouse》中定義數(shù)據(jù)倉庫為:“數(shù)據(jù)倉庫是面向主題的、集成的、隨時(shí)間變化的、歷史的、穩(wěn)定的、支持決策制定過程的數(shù)據(jù)集合。”即數(shù)據(jù)倉庫是在管理人員決策中的面向主題的、集成的、非易失的并且隨時(shí)間而變化的數(shù)據(jù)集合。數(shù)據(jù)倉庫是一種來源于各種渠道的單一的、完整的、穩(wěn)定的數(shù)據(jù)存儲(chǔ)。這種數(shù)據(jù)存儲(chǔ)提供給可以允許最終用戶的可以是一種他們能夠在其業(yè)務(wù)范疇中理解并使用的方式。數(shù)據(jù)倉庫是大量有關(guān)公司數(shù)據(jù)的數(shù)據(jù)存儲(chǔ)。倉庫提供公司數(shù)據(jù)以及組織數(shù)據(jù)的訪問功能,其中的數(shù)據(jù)是一致的(consistent),并且可以按每種可能的商業(yè)度量方式分解和組合;數(shù)據(jù)倉庫也是一套查詢、分析和呈現(xiàn)信息的工具;數(shù)據(jù)倉庫是我們發(fā)布所用數(shù)據(jù)的場(chǎng)所,其中數(shù)據(jù)的質(zhì)量是業(yè)務(wù)再工程的驅(qū)動(dòng)器(driverofbusinessreengineering)。定義的共同特征:首先,數(shù)據(jù)倉庫包含大量數(shù)據(jù),其中一些數(shù)據(jù)來源于組織中的操作數(shù)據(jù),也有一些數(shù)據(jù)可能來自于組織外部;其次,組織數(shù)據(jù)倉庫是為了更加便利地使用數(shù)據(jù)進(jìn)行決策;最后,數(shù)據(jù)倉庫為最終用戶提供了可用來存取數(shù)據(jù)的工具。1.1.2什么是數(shù)據(jù)倉庫1.?dāng)?shù)據(jù)倉庫的概念數(shù)據(jù)倉庫的定義

綜合對(duì)數(shù)據(jù)倉庫的各種理解以及其特征,我們可以定義:

數(shù)據(jù)倉庫是一種為信息分析提供了良好的基礎(chǔ)并支持管理決策活動(dòng)的分析環(huán)境,是面向主題的、集成的、穩(wěn)定的、不可更新的、隨時(shí)間變化的、分層次的多維的集成數(shù)據(jù)集合。數(shù)據(jù)倉庫的定義2.與數(shù)據(jù)倉庫相關(guān)的幾個(gè)概念

數(shù)據(jù)(data)是一組表示數(shù)量、行動(dòng)和目標(biāo)的非隨機(jī)的可以鑒別的符號(hào),是對(duì)客觀事物記錄下來的,可以鑒別的符號(hào)。這些符號(hào)包括數(shù)字、字符、文字、圖形、圖像、聲音。操作數(shù)據(jù)原子數(shù)據(jù)匯總數(shù)據(jù)特定查詢響應(yīng)數(shù)據(jù)倉庫環(huán)境2.與數(shù)據(jù)倉庫相關(guān)的幾個(gè)概念數(shù)據(jù)倉庫環(huán)境數(shù)據(jù)類型的分類元數(shù)據(jù)是指用來描述數(shù)據(jù)倉庫數(shù)據(jù)庫內(nèi)容的數(shù)據(jù)。以后將詳細(xì)討論元數(shù)據(jù)。數(shù)據(jù)庫是一組內(nèi)部相關(guān)聯(lián)的數(shù)據(jù)集合。其中關(guān)系數(shù)據(jù)庫是表的集合,每個(gè)表都有惟一的名字,且每個(gè)表都由一組字段(屬性)所存放的記錄組成。數(shù)據(jù)庫管理系統(tǒng)(DBMS)是用來管理和存取數(shù)據(jù)庫的一組軟件。該軟件具有如下機(jī)制:數(shù)據(jù)庫結(jié)構(gòu)定義,數(shù)據(jù)的存儲(chǔ)、并發(fā)、共享或分布的數(shù)據(jù)訪問,數(shù)據(jù)的一致性和安全性。數(shù)據(jù)庫系統(tǒng)是一個(gè)由硬件、軟件、數(shù)據(jù)庫和管理人員組成的復(fù)雜系統(tǒng)。隨著信息技術(shù)不斷的發(fā)展,對(duì)數(shù)據(jù)處理的技術(shù)和人們對(duì)數(shù)據(jù)的需求也在不斷的進(jìn)化,如圖1.2所示的數(shù)據(jù)庫系統(tǒng)及相關(guān)技術(shù)的演化。數(shù)據(jù)集市(datamarts)通常是指較為小型化、針對(duì)特定目標(biāo)且建設(shè)成本較低的一種數(shù)據(jù)倉庫。為了特定的應(yīng)用目的或應(yīng)用范圍,而從數(shù)據(jù)倉庫中獨(dú)立出來的一部分?jǐn)?shù)據(jù),也可稱為部門數(shù)據(jù)或主題數(shù)據(jù)(subjectdata)。數(shù)據(jù)類型的分類數(shù)據(jù)庫系統(tǒng)及相關(guān)技術(shù)的演化數(shù)據(jù)庫系統(tǒng)及相關(guān)技術(shù)的演化數(shù)據(jù)倉庫技術(shù)從本質(zhì)上講,是一種信息集成技術(shù),它從多個(gè)信息源中獲取原始數(shù)據(jù),經(jīng)過加工處理后,存儲(chǔ)在數(shù)據(jù)倉庫的內(nèi)部數(shù)據(jù)庫中。為了使數(shù)據(jù)倉庫用戶能有效地使用數(shù)據(jù)倉庫中的信息,進(jìn)行深層次的綜合分析和決策,數(shù)據(jù)倉庫系統(tǒng)要向用戶提供一整套數(shù)據(jù)訪問和分析工具。通過所提供的訪問工具,為數(shù)據(jù)倉庫的用戶提供統(tǒng)一、協(xié)調(diào)和集成的信息環(huán)境,支持企業(yè)全局的決策過程和對(duì)企業(yè)經(jīng)營(yíng)管理的深入綜合分析。數(shù)據(jù)倉庫技術(shù)從本質(zhì)上講,是一種信息集成技術(shù),它從多個(gè)信息源中1.1.3數(shù)據(jù)倉庫的特點(diǎn)1.主題與面向主題2.?dāng)?shù)據(jù)倉庫數(shù)據(jù)的集成性3.?dāng)?shù)據(jù)倉庫數(shù)據(jù)的不可更新性4.DW數(shù)據(jù)的時(shí)態(tài)性1.1.3數(shù)據(jù)倉庫的特點(diǎn)1.主題與面向主題1.1.4數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫的基本過程與建立數(shù)據(jù)倉庫的步驟1.?dāng)?shù)據(jù)進(jìn)入數(shù)據(jù)倉庫的基本過程

操作數(shù)據(jù)向數(shù)據(jù)倉庫的移動(dòng)包括以下五個(gè)過程:提取、變換、凈化、加載和匯總。

2.建立數(shù)據(jù)倉庫的步驟

1)收集和分析業(yè)務(wù)需求;

2)建立數(shù)據(jù)模型和數(shù)據(jù)倉庫的物理設(shè)計(jì);

3)定義數(shù)據(jù)源;

4)選擇數(shù)據(jù)倉庫技術(shù)和平臺(tái);

5)從操作型數(shù)據(jù)庫中提取、轉(zhuǎn)換和凈化數(shù)據(jù)到數(shù)據(jù)倉庫;

6)選擇訪問和報(bào)表工具;

7)選擇數(shù)據(jù)庫連接軟件;

8)選擇數(shù)據(jù)分析和數(shù)據(jù)展示軟件;

9)更新數(shù)據(jù)倉庫;1.1.4數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫的基本過程與建立數(shù)據(jù)倉庫的步驟11.1.5分析數(shù)據(jù)倉庫的內(nèi)容操作型數(shù)據(jù)分析型數(shù)據(jù)細(xì)節(jié)的綜合的,或提煉的在存取期間是準(zhǔn)確的代表過去的數(shù)據(jù)可更新不更新操作需求事先可知道操作需求事先不知道生命周期符合SDLC完全不同的生命周期(CLDS)對(duì)性能要求高對(duì)性能要求寬松一個(gè)時(shí)刻操作一單元一個(gè)時(shí)刻操作一人集合事務(wù)驅(qū)動(dòng)分析驅(qū)動(dòng)面向應(yīng)用面向分析一次操作數(shù)據(jù)最小一次操作數(shù)據(jù)量大支持日常操作支持管理需求操作型數(shù)據(jù)和分析型數(shù)據(jù)的區(qū)別

1.1.5分析數(shù)據(jù)倉庫的內(nèi)容操作型數(shù)據(jù)分析型數(shù)據(jù)細(xì)節(jié)的綜合1.2.1為什么要進(jìn)行數(shù)據(jù)挖掘

1.?dāng)?shù)據(jù)挖掘的作用

數(shù)據(jù)挖掘解決諸如欺詐甄別(frauddetection)、保留客戶(customerretention)、消除摩擦(attrition)、數(shù)據(jù)庫營(yíng)銷(databasemarketing)、市場(chǎng)細(xì)分(marketsegmentation)、風(fēng)險(xiǎn)分析(riskanalysis)、親和力分析(affinityanalysis)、客戶滿意度(customersatisfaction)、破產(chǎn)預(yù)測(cè)(bankruptcyprediction)、職務(wù)分析(portfolioanalysis)等業(yè)務(wù)問題提供了有效的方法。1.2.1為什么要進(jìn)行數(shù)據(jù)挖掘1.?dāng)?shù)據(jù)挖掘的作用

2.?dāng)?shù)據(jù)挖掘的背景

(1)數(shù)據(jù)挖掘的商業(yè)背景

(2)數(shù)據(jù)挖掘的技術(shù)背景

(3)數(shù)據(jù)挖掘的社會(huì)背景2.?dāng)?shù)據(jù)挖掘的背景

3.?dāng)?shù)據(jù)挖掘?qū)ζ髽I(yè)的影響零售業(yè)業(yè)務(wù)問題增加對(duì)直接信函(directmail)的響應(yīng)率解決方案銷售人員通過數(shù)據(jù)挖掘建立的預(yù)測(cè)模型以了解哪些人最有可能對(duì)直接信函作出響應(yīng)獲得的收益由于將直接信函發(fā)送給正確的客戶而增加了銷售額保險(xiǎn)業(yè)業(yè)務(wù)問題減少保險(xiǎn)欺詐案件的發(fā)生數(shù)量解決方案業(yè)務(wù)人員通過數(shù)據(jù)挖掘建立預(yù)測(cè)模型識(shí)別出哪些賠償要求最可能具有欺詐性獲得收益由于減少欺詐造成的費(fèi)用而增加了利潤(rùn)金融業(yè)業(yè)務(wù)問題改進(jìn)預(yù)測(cè)市場(chǎng)波動(dòng)的能力,在金融市場(chǎng)建模中得到廣泛應(yīng)用。如何采用神經(jīng)網(wǎng)絡(luò)方法提高金融增益和在采用數(shù)據(jù)挖掘技術(shù)建立股票市場(chǎng)模型。解決方案金融分析員通過數(shù)據(jù)挖掘建立預(yù)測(cè)模型以識(shí)別出歷史上曾引起過市場(chǎng)被動(dòng)的因素所具有的模式獲得收益由于投資更加準(zhǔn)確而增加了收入3.?dāng)?shù)據(jù)挖掘?qū)ζ髽I(yè)的影響零售業(yè)業(yè)務(wù)問題增加對(duì)直接信函(di1.2.2什么是數(shù)據(jù)挖掘1.?dāng)?shù)據(jù)挖掘概念定義1G.PiatetskyShapior,W.J.Frawley等定義數(shù)據(jù)挖掘?yàn)閺臄?shù)據(jù)庫的大量數(shù)據(jù)中揭示出隱含的、先前未知的、潛在有用的信息的非平凡過程。定義2有人簡(jiǎn)單認(rèn)為,數(shù)據(jù)挖掘就是數(shù)據(jù)庫中知識(shí)的發(fā)現(xiàn)。定義3有人認(rèn)為,數(shù)據(jù)挖掘?yàn)榘l(fā)現(xiàn)數(shù)據(jù)中隱藏的模式和關(guān)系的過程。定義4有人認(rèn)為,數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或挖掘知識(shí)。定義5Fayyad等在“知識(shí)發(fā)現(xiàn)96國(guó)際會(huì)議上”認(rèn)為,知識(shí)發(fā)現(xiàn)是從數(shù)據(jù)庫中發(fā)現(xiàn)知識(shí)的全部過程,而數(shù)據(jù)挖掘則是此全部過程中一個(gè)特定的關(guān)鍵一步。這種觀點(diǎn)將數(shù)據(jù)挖掘的對(duì)象局限于數(shù)據(jù)庫。定義6數(shù)據(jù)挖掘廣義的定義為在一些事實(shí)或觀察數(shù)據(jù)的集合中尋找模式的決策支持的過程。

綜上所述,我們定義數(shù)據(jù)挖掘?yàn)?/p>

在不同的數(shù)據(jù)源中包括結(jié)構(gòu)化的數(shù)據(jù)、半結(jié)構(gòu)化的數(shù)據(jù)和非結(jié)構(gòu)化的數(shù)據(jù),即既可以是數(shù)據(jù)庫,也可以是文件系統(tǒng),或其他任何組織在一起的數(shù)據(jù)集合,通過一定的工具與方法尋找出有價(jià)值的知識(shí)的一類深層次的數(shù)據(jù)分析方法。

1.2.2什么是數(shù)據(jù)挖掘1.?dāng)?shù)據(jù)挖掘概念2.?dāng)?shù)據(jù)挖掘的分類分類標(biāo)準(zhǔn)類別按數(shù)據(jù)挖掘方法的直接性直接數(shù)據(jù)挖掘、間接數(shù)據(jù)挖掘按數(shù)據(jù)分析的角度分類描述式數(shù)據(jù)挖掘、預(yù)測(cè)式數(shù)據(jù)挖掘按挖掘的數(shù)據(jù)庫分類關(guān)系型、事務(wù)型、面向?qū)ο笮?、主?dòng)型、空間型、文本型、多媒體、異構(gòu)數(shù)據(jù)庫按挖掘的規(guī)則類關(guān)聯(lián)規(guī)則、分類規(guī)則、聚類規(guī)則、趨勢(shì)分析、偏差分析、模式分析、特征規(guī)則、總結(jié)規(guī)則按采用的技術(shù)分類模糊和粗集方法、人工神經(jīng)網(wǎng)絡(luò)、遺傳算法、決策樹、最近鄰技術(shù)、規(guī)則歸納、可視化技術(shù)按挖掘知識(shí)的抽象層次分類原始層次、高層次和多層次按挖掘知識(shí)的反映事物之間的性質(zhì)分類同類共性廣義知識(shí)、特征型知識(shí)、屬性差別知識(shí)、關(guān)聯(lián)型知識(shí)、預(yù)測(cè)型知識(shí)、離群型知識(shí)、2.?dāng)?shù)據(jù)挖掘的分類分類標(biāo)準(zhǔn)類別按數(shù)據(jù)挖掘方法的直接性直接數(shù)據(jù)3.與數(shù)據(jù)挖掘相關(guān)的幾個(gè)概念1)直接數(shù)據(jù)挖掘利用可用的數(shù)據(jù)建立一個(gè)模型,模型對(duì)剩余的數(shù)據(jù),對(duì)一個(gè)特定的變量(可以理解成數(shù)據(jù)庫中表的屬性,即列)進(jìn)行描述,分類、估值、預(yù)言屬于直接數(shù)據(jù)挖掘。2)間接數(shù)據(jù)挖掘不是選出某一具體的變量用模型進(jìn)行描述;而是在所有的變量中建立起某種關(guān)系。相關(guān)性分組或關(guān)聯(lián)規(guī)則、聚集、描述和可視化屬于間接數(shù)據(jù)挖掘。3)描述式數(shù)據(jù)挖掘以簡(jiǎn)潔概要的方式描述數(shù)據(jù),并提供數(shù)據(jù)的有意義的一般知識(shí)。4)預(yù)測(cè)式數(shù)據(jù)挖掘分析數(shù)據(jù),建立一個(gè)或一組模型,并試圖預(yù)測(cè)新數(shù)據(jù)集的行為。3.與數(shù)據(jù)挖掘相關(guān)的幾個(gè)概念3.與數(shù)據(jù)挖掘相關(guān)的幾個(gè)概念(續(xù))5)數(shù)據(jù)庫查詢工具和數(shù)據(jù)挖掘工具之間的差異查詢工具能幫助用戶從數(shù)據(jù)庫數(shù)據(jù)中找到新的、有意義的事實(shí)。這類問題是查詢所要訪問的是對(duì)象是否在某一特定的位置。這與目前數(shù)據(jù)庫系統(tǒng)中大部分的查詢操作是相似的。通過這類問題使你可以確定對(duì)象將到達(dá)的位置。6)信息7)知識(shí)(knowledge)8)數(shù)據(jù)、信息與知識(shí)的轉(zhuǎn)化關(guān)系3.與數(shù)據(jù)挖掘相關(guān)的幾個(gè)概念(續(xù))1.2.3數(shù)據(jù)挖掘的特點(diǎn)1)處理的數(shù)據(jù)規(guī)模十分龐大;2)由于用戶不能形成精確的查詢要求,因此需要靠DM技術(shù)來尋找其可能感興趣的東西;3)DM對(duì)數(shù)據(jù)的迅速變化做出快速響應(yīng),以提供決策支持信息;4)DM既要發(fā)現(xiàn)潛在規(guī)則,還要管理和維護(hù)規(guī)則,隨著新數(shù)據(jù)的不斷加入,規(guī)則需要隨著新數(shù)據(jù)更新;5)DM中規(guī)則的發(fā)現(xiàn)基于統(tǒng)計(jì)規(guī)律,發(fā)現(xiàn)的規(guī)則不必適合于所有數(shù)據(jù),而且當(dāng)達(dá)到某一閾值時(shí),便認(rèn)為有此規(guī)則。

1.2.3數(shù)據(jù)挖掘的特點(diǎn)1)處理的數(shù)據(jù)規(guī)模十分龐大;1.2.4數(shù)據(jù)挖掘的基本過程與步驟1.?dāng)?shù)據(jù)挖掘的基本過程(1)數(shù)據(jù)準(zhǔn)備數(shù)據(jù)準(zhǔn)備(datapreparation):本階段又可進(jìn)一步細(xì)分成數(shù)據(jù)集成、數(shù)據(jù)選擇和預(yù)分析。(2)挖掘挖掘(mining):DM處理器(dataminingprocessor)綜合利用前面提到的多種DM方法分析數(shù)據(jù)。(3)表述表述(presentation):與檢驗(yàn)證型工具一樣,DM將獲取的信息以便于用戶理解和觀察的方式反映給用戶,這時(shí)可以利用可視化工具。(4)評(píng)價(jià)評(píng)價(jià)(assess):如果分析人員對(duì)分析結(jié)果不滿意,可以遞歸地執(zhí)行上述三個(gè)過程,直到滿意為止。1.2.4數(shù)據(jù)挖掘的基本過程與步驟1.?dāng)?shù)據(jù)挖掘的基本過程2.進(jìn)行數(shù)據(jù)挖掘的步驟

(1)問題定義 問題定義主要是指利用數(shù)據(jù)挖掘可以分析哪些問題。

(2)發(fā)現(xiàn)信息 通過數(shù)據(jù)挖掘分析從其客戶那里發(fā)現(xiàn)更多的信息。

(3)制定計(jì)劃

(4)采取行動(dòng)

(5)監(jiān)測(cè)效果2.進(jìn)行數(shù)據(jù)挖掘的步驟1.2.5分析數(shù)據(jù)挖掘的內(nèi)容1)直銷2)爭(zhēng)取客戶3)保留客戶4)交叉銷售5)趨勢(shì)分析6)欺詐檢測(cè)1.2.5分析數(shù)據(jù)挖掘的內(nèi)容1)直銷1.3數(shù)據(jù)挖掘與數(shù)據(jù)倉庫的關(guān)系1.3數(shù)據(jù)挖掘與數(shù)據(jù)倉庫的關(guān)系用戶包括偶然用戶(casualuser)、高級(jí)用戶(poweruser)和專家(expert)。

查詢協(xié)同管理包括一些訪問工具和系統(tǒng)管理工具,為用戶訪問數(shù)據(jù)倉庫和其他系統(tǒng)提供手段。

數(shù)據(jù)倉庫管理包括安全和特權(quán)管理,跟蹤數(shù)據(jù)的更新,數(shù)據(jù)質(zhì)量檢查,管理和更新元數(shù)據(jù),審計(jì)和報(bào)告數(shù)據(jù)倉庫的使用和狀態(tài),刪除數(shù)據(jù),復(fù)制、分割和分發(fā)數(shù)據(jù),備份和恢復(fù),存儲(chǔ)管理。

信息發(fā)布系統(tǒng)即把數(shù)據(jù)倉庫中的數(shù)據(jù)或其他相關(guān)的數(shù)據(jù)發(fā)送給不同的地點(diǎn)或用戶。用戶包括偶然用戶(casualuser)、高級(jí)用戶(pow1.4.1數(shù)據(jù)挖掘在零售業(yè)的應(yīng)用超市可以采用兩種不同的方式從事信息中介,一種方式是針對(duì)匿名客戶,另一種是針對(duì)注冊(cè)或有忠誠(chéng)卡的客戶。(1)重心從商品轉(zhuǎn)換到客戶

分析特定客戶群的購買模式,廠商可以了解特定的客戶的購買模型。(2)數(shù)據(jù)分析

賣主(供應(yīng)商)可以通過數(shù)據(jù)挖掘技術(shù)來增加商品的利潤(rùn)率,通過競(jìng)爭(zhēng)成為“種類首領(lǐng)”。1.4.1數(shù)據(jù)挖掘在零售業(yè)的應(yīng)用超市可以采用兩種不同的方式1.4.2數(shù)據(jù)挖掘技術(shù)在商業(yè)銀行中的應(yīng)用在銀行業(yè),數(shù)據(jù)挖掘主要用于信用欺詐的建模和預(yù)測(cè)、風(fēng)險(xiǎn)評(píng)估、趨勢(shì)分析、收益分析以及輔助直銷活動(dòng)。在金融市場(chǎng),已將神經(jīng)網(wǎng)絡(luò)用于股票價(jià)格預(yù)測(cè)、購買權(quán)交易、債券等級(jí)評(píng)定、資產(chǎn)組合管理、商品價(jià)格預(yù)測(cè)、合并和買進(jìn)以及金融危機(jī)預(yù)測(cè)等方面。1.4.2數(shù)據(jù)挖掘技術(shù)在商業(yè)銀行中的應(yīng)用在銀行業(yè),數(shù)據(jù)挖掘1996年,《銀行系統(tǒng)和技術(shù)》評(píng)論認(rèn)為“數(shù)據(jù)挖掘技術(shù)將是本年度金融服務(wù)領(lǐng)域最重要的應(yīng)用。”

在進(jìn)行數(shù)據(jù)挖掘的銀行包括美國(guó)第一銀行、Headland抵押公司、FCC國(guó)家銀行、聯(lián)邦住房貸款抵押公司、WellsFargo銀行、NationsBanc服務(wù)公司、N.A.Mellon銀行、Advata抵押公司、化學(xué)銀行、ChevyChase銀行、美國(guó)銀行公司和USAA聯(lián)邦儲(chǔ)蓄銀行1996年,《銀行系統(tǒng)和技術(shù)》評(píng)論認(rèn)為“數(shù)據(jù)挖掘技術(shù)將是本年1.4.3數(shù)據(jù)挖掘在電信部門的應(yīng)用1998年,西部電信用SAS的企業(yè)挖掘數(shù)據(jù)產(chǎn)品作為數(shù)據(jù)挖掘平臺(tái),開發(fā)了一項(xiàng)企業(yè)營(yíng)銷戰(zhàn)略系統(tǒng)。1995年9月,DEC公司的EvanDavies和HosseinPakraven提交的一份報(bào)告對(duì)客戶跳槽造成的損失進(jìn)行了量化,同時(shí)他們估計(jì)獲得一個(gè)新客戶的費(fèi)用高達(dá)400美元。1.4.3數(shù)據(jù)挖掘在電信部門的應(yīng)用1998年,西部電信用S1.4.4數(shù)據(jù)挖掘在貝斯出口公司的應(yīng)用貝斯出口公司是英國(guó)最大的啤酒出口商。該公司選擇了IBM的智能挖掘器作為其數(shù)據(jù)挖掘的商務(wù)解決方案。1.4.4數(shù)據(jù)挖掘在貝斯出口公司的應(yīng)用貝斯出口公司是英國(guó)最1.4.5數(shù)據(jù)挖掘如何預(yù)測(cè)信用卡欺詐對(duì)于這一問題可以有下列3種解決的途徑:1)使用查詢工具從關(guān)系數(shù)據(jù)庫中以適當(dāng)?shù)母袷匠槿∷枰男畔?。采用Brio,BusineeObjects及Congnos等公司開發(fā)的工具將很容易構(gòu)造出模型。由于用這種方法需要將數(shù)據(jù)下載到客戶端計(jì)算機(jī)中,所以能夠從數(shù)據(jù)倉庫中創(chuàng)建視圖來表示將要挖掘的虛擬數(shù)據(jù)。2)通過從關(guān)系數(shù)據(jù)倉庫中抽取記錄數(shù)據(jù),這將會(huì)受到一定的限制。3)通過構(gòu)造SQL語句以適當(dāng)格式得到所需的數(shù)據(jù)。1.4.5數(shù)據(jù)挖掘如何預(yù)測(cè)信用卡欺詐對(duì)于這一問題可以有下列1.4.6數(shù)據(jù)挖掘在證券行業(yè)的應(yīng)用關(guān)于股票預(yù)測(cè),市場(chǎng)上有許多采用數(shù)據(jù)挖掘技術(shù)對(duì)股票進(jìn)行預(yù)測(cè)的軟件。如NETPROPHET是神經(jīng)網(wǎng)絡(luò)應(yīng)用公司開發(fā)的一個(gè)股票預(yù)測(cè)應(yīng)用軟件,它采用了神經(jīng)網(wǎng)絡(luò)技術(shù),將輸出的結(jié)果用兩條曲線分別表示實(shí)際股票值和預(yù)測(cè)股票值。1.4.6數(shù)據(jù)挖掘在證券行業(yè)的應(yīng)用關(guān)于股票預(yù)測(cè),市場(chǎng)上有許第二章數(shù)據(jù)倉庫的分析

2.1 影響數(shù)據(jù)倉庫成功的因素2.2 數(shù)據(jù)倉庫的生命周期2.3 數(shù)據(jù)倉庫的基本體系結(jié)構(gòu)2.4 數(shù)據(jù)倉庫的邏輯結(jié)構(gòu)第二章數(shù)據(jù)倉庫的分析2.1 影響數(shù)據(jù)倉庫成功的因素2.1影響數(shù)據(jù)倉庫成功的因素特征操作(事務(wù)處理)需要數(shù)據(jù)倉庫(DSS)需要易變性動(dòng)態(tài)靜態(tài)通用性當(dāng)前的歷史的時(shí)間維暗指“現(xiàn)在”明確的,可見的粒度原始的,詳細(xì)的詳細(xì)的和可導(dǎo)出的匯總更新連續(xù)的,隨機(jī)的定期的,計(jì)劃的任務(wù)可重復(fù)的不可預(yù)期的靈活性低高性能要求高性能通??山邮艿托阅軟Q策支持系統(tǒng)與事務(wù)之間在數(shù)據(jù)庫要求上的差異2.1影響數(shù)據(jù)倉庫成功的因素特征操作(事務(wù)處理)需要數(shù)據(jù)倉影響數(shù)據(jù)倉庫成功的因素影響數(shù)據(jù)倉庫成功的因素2.2.1數(shù)據(jù)倉庫計(jì)劃與準(zhǔn)備階段1.用戶需求分析2.可行性研究3.用戶的認(rèn)可4.建設(shè)數(shù)據(jù)倉庫的協(xié)調(diào)與阻力分析5.開發(fā)項(xiàng)目計(jì)劃制定6.創(chuàng)建數(shù)據(jù)倉庫所使用的關(guān)鍵資源2.2.1數(shù)據(jù)倉庫計(jì)劃與準(zhǔn)備階段1.用戶需求分析數(shù)據(jù)倉庫的生命周期數(shù)據(jù)倉庫的生命周期2.2.2數(shù)據(jù)倉庫的其他階段1)系統(tǒng)分析2)系統(tǒng)設(shè)計(jì)(整體設(shè)計(jì)與詳細(xì)設(shè)計(jì))3)系統(tǒng)測(cè)試2.2.2數(shù)據(jù)倉庫的其他階段1)系統(tǒng)分析2.3數(shù)據(jù)倉庫的基本體系結(jié)構(gòu)2.3數(shù)據(jù)倉庫的基本體系結(jié)構(gòu)客戶應(yīng)用,是供用戶訪問查詢,并以直觀方式展示分析結(jié)果;數(shù)據(jù)倉庫,是存儲(chǔ)不同程度的數(shù)據(jù)和元數(shù)據(jù);集成器,是將從運(yùn)作數(shù)據(jù)庫中提取的數(shù)據(jù)經(jīng)過轉(zhuǎn)換、計(jì)算、綜合等操作,集成到數(shù)據(jù)倉庫中;監(jiān)視器,是負(fù)責(zé)感知數(shù)據(jù)源發(fā)生的變化,并按需求提取數(shù)據(jù);數(shù)據(jù)源,是為DW提供最底層的運(yùn)作數(shù)據(jù)庫系統(tǒng)及外部數(shù)據(jù)??蛻魬?yīng)用,是供用戶訪問查詢,并以直觀方式展示分析結(jié)果;數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)課件數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)課件2.4.1數(shù)據(jù)倉庫中的粒度2.4.1數(shù)據(jù)倉庫中的粒度2.4.2數(shù)據(jù)倉庫中的數(shù)據(jù)分割數(shù)據(jù)分割的常用標(biāo)準(zhǔn):按時(shí)間、商業(yè)行業(yè)、地理位置、組織單位等。這些標(biāo)準(zhǔn)都是由開發(fā)人員來選擇,且還要選擇是在應(yīng)用層上進(jìn)行分割,還是在系統(tǒng)層上進(jìn)行分割。在系統(tǒng)層進(jìn)行分割在一定程度上是DBMS和系統(tǒng)的一種功能。而在應(yīng)用層分割需要應(yīng)用程序代碼來完成,每年的數(shù)據(jù)定義既可以相同,也可以不相同,同時(shí)從一個(gè)處理集轉(zhuǎn)移到另一個(gè)處理集沒有損失。2.4.2數(shù)據(jù)倉庫中的數(shù)據(jù)分割數(shù)據(jù)分割的常用標(biāo)準(zhǔn):按時(shí)間、2.4.3數(shù)據(jù)倉庫中的數(shù)據(jù)組織數(shù)據(jù)倉庫中有這些數(shù)據(jù)組織:簡(jiǎn)單堆積結(jié)構(gòu)、輪轉(zhuǎn)綜合數(shù)據(jù)存儲(chǔ)、簡(jiǎn)單直接文件和連續(xù)組織。2.4.3數(shù)據(jù)倉庫中的數(shù)據(jù)組織數(shù)據(jù)倉庫中有這些數(shù)據(jù)組織:簡(jiǎn)2.4.4數(shù)據(jù)倉庫中的快照快照是為一些事件的發(fā)生而產(chǎn)生的。本組成形式由4個(gè)部分組成:鍵碼(key)、時(shí)間單元、只和關(guān)鍵碼相關(guān)聯(lián)的初始數(shù)據(jù)、與初始數(shù)據(jù)或關(guān)鍵碼無直接關(guān)系的二次數(shù)據(jù)。2.4.4數(shù)據(jù)倉庫中的快照快照是為一些事件的發(fā)生而產(chǎn)生的。2.4.5數(shù)據(jù)倉庫中的元數(shù)據(jù)元數(shù)據(jù)(metadata)是關(guān)于數(shù)據(jù)的數(shù)據(jù),對(duì)數(shù)據(jù)的結(jié)構(gòu)、內(nèi)容、鍵碼、索引等的描述。元數(shù)據(jù)在操作型的環(huán)境中和分析型的環(huán)境中具有不同的作用。元數(shù)據(jù)是描述數(shù)據(jù)倉庫內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù)??砂雌溆猛镜牟煌譃閮深悾杭夹g(shù)元數(shù)據(jù)和商業(yè)元數(shù)據(jù)。技術(shù)元數(shù)據(jù)是數(shù)據(jù)倉庫的設(shè)計(jì)和管理人員用于開發(fā)和日常管理數(shù)據(jù)倉庫是用的數(shù)據(jù)。2.4.5數(shù)據(jù)倉庫中的元數(shù)據(jù)元數(shù)據(jù)(metadata)是關(guān)第三章數(shù)據(jù)倉庫的設(shè)計(jì)與實(shí)施3.1 從數(shù)據(jù)庫到數(shù)據(jù)倉庫3.2 面向主題的數(shù)據(jù)倉庫設(shè)計(jì)3.3 開發(fā)數(shù)據(jù)倉庫的物理設(shè)計(jì)3.4 數(shù)據(jù)倉庫的實(shí)施第三章數(shù)據(jù)倉庫的設(shè)計(jì)與實(shí)施3.1 從數(shù)據(jù)庫到數(shù)據(jù)倉庫3.1從數(shù)據(jù)庫到數(shù)據(jù)倉庫數(shù)據(jù)庫系統(tǒng)數(shù)據(jù)倉庫系統(tǒng)數(shù)據(jù)類型操作型數(shù)據(jù)分析型數(shù)據(jù)數(shù)據(jù)組織方式面向應(yīng)用面向主題視圖機(jī)制虛表存儲(chǔ),只存視圖結(jié)構(gòu)實(shí)視圖存儲(chǔ)系統(tǒng)開發(fā)方法需求驅(qū)動(dòng)數(shù)據(jù)驅(qū)動(dòng)面向應(yīng)用面向OLTP應(yīng)用面向OLAP應(yīng)用工具數(shù)據(jù)查詢、開發(fā)分析和一般查詢功能復(fù)雜簡(jiǎn)單優(yōu)化事務(wù)處理和訪問系統(tǒng)的決策與分析索引有限數(shù)量完善結(jié)構(gòu)自由空間需要附加數(shù)據(jù)空間無更新開銷大無更新操作增、刪、改頻繁少3.1從數(shù)據(jù)庫到數(shù)據(jù)倉庫數(shù)據(jù)庫系統(tǒng)數(shù)據(jù)倉庫系統(tǒng)數(shù)據(jù)類型操作3.2.1數(shù)據(jù)建模1)數(shù)據(jù)倉庫的開發(fā)過程2)基于開發(fā)過程的數(shù)據(jù)建模型的主要內(nèi)容3.2.1數(shù)據(jù)建模1)數(shù)據(jù)倉庫的開發(fā)過程3.2.2星型連接3.2.2星型連接數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)課件3.3.1數(shù)據(jù)倉庫設(shè)計(jì)工具的選擇1.?dāng)?shù)據(jù)獲取工具的選擇2.?dāng)?shù)據(jù)工具的選擇3.3.1數(shù)據(jù)倉庫設(shè)計(jì)工具的選擇1.?dāng)?shù)據(jù)獲取工具的選擇3.3.2物理數(shù)據(jù)模型設(shè)計(jì)硬件平臺(tái)的選擇:數(shù)據(jù)倉庫的硬盤容量通常是操作數(shù)據(jù)庫硬盤容量的2~3倍。選擇硬件平臺(tái)時(shí)要考慮的問題:是否提供并行的I/O?對(duì)多CPU的支持能力如何?不同存儲(chǔ)介質(zhì)的特點(diǎn)比較表存儲(chǔ)介質(zhì)速度價(jià)格主存非常快非常貴擴(kuò)展內(nèi)存非??熨F高速緩存非常快貴DASD快適中光盤不慢不貴縮微膠片慢便宜3.3.2物理數(shù)據(jù)模型設(shè)計(jì)硬件平臺(tái)的選擇:數(shù)據(jù)倉庫的硬盤容3.3.3數(shù)據(jù)倉庫中數(shù)據(jù)表的數(shù)量與規(guī)范化在數(shù)據(jù)模型處理過程中,如果程序在很多表中跳轉(zhuǎn),每次程序從一個(gè)表跳到另一個(gè),就要進(jìn)行I/O變換,既要存取數(shù)據(jù),又要存取索引找到數(shù)據(jù)。如果許多程序需要大量的I/O時(shí),性能就會(huì)受到影響,這就要進(jìn)行小計(jì)。當(dāng)數(shù)據(jù)序列產(chǎn)生的數(shù)量是穩(wěn)定的、按序列存取的,且數(shù)據(jù)的創(chuàng)建與修改在統(tǒng)計(jì)上是以很規(guī)律的方式進(jìn)行的時(shí)候,可以采用數(shù)據(jù)數(shù)組。3.3.3數(shù)據(jù)倉庫中數(shù)據(jù)表的數(shù)量與規(guī)范化在數(shù)據(jù)模型處理過3.4.1數(shù)據(jù)倉庫的實(shí)施應(yīng)注意的問題在數(shù)據(jù)倉庫的實(shí)施過程中要考慮以下問題:投資回報(bào)率;在具體實(shí)施時(shí)應(yīng)自頂向下還是自下到上;在人力資源的問題上要考慮培訓(xùn)還是雇用;在設(shè)計(jì)上要有前瞻性,把問題覆蓋的范圍思考大一些,但實(shí)施從小處開始。3.4.1數(shù)據(jù)倉庫的實(shí)施應(yīng)注意的問題在數(shù)據(jù)倉庫的實(shí)施過程中3.4.2在實(shí)施數(shù)據(jù)倉庫過程中應(yīng)避免的錯(cuò)誤1.錯(cuò)誤項(xiàng)目的發(fā)起2.制訂了不可能完成的目標(biāo)3.犯政治幼稚病4.把所有能找到的數(shù)據(jù)全都放到數(shù)據(jù)倉庫中5.認(rèn)為設(shè)計(jì)數(shù)據(jù)倉庫就是設(shè)計(jì)事務(wù)數(shù)據(jù)庫6.選擇一個(gè)面向技術(shù)的而不是面向用戶的人做數(shù)據(jù)倉庫項(xiàng)目經(jīng)理3.4.2在實(shí)施數(shù)據(jù)倉庫過程中應(yīng)避免的錯(cuò)誤1.錯(cuò)誤項(xiàng)目的7.只專注內(nèi)部關(guān)系型數(shù)據(jù),而忽略外部數(shù)據(jù)、文本、圖像甚至聲音、視頻數(shù)據(jù)8.用交疊的或沖突的數(shù)據(jù)定義交付數(shù)據(jù)9.相信軟硬件供應(yīng)商對(duì)性能、能力和可擴(kuò)展性的承諾10.相信一旦數(shù)據(jù)倉庫建立起來并開始運(yùn)行,你的任務(wù)就完成了11.專注于動(dòng)態(tài)生成查詢、數(shù)據(jù)挖掘和定期生成報(bào)表7.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論