




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
人工智能
——數(shù)據(jù)挖掘之數(shù)據(jù)倉庫目錄一、什么是數(shù)據(jù)挖掘?二、什么是數(shù)據(jù)倉庫?數(shù)據(jù)倉庫的特征。三、數(shù)據(jù)倉庫設計四、從數(shù)據(jù)倉庫到數(shù)據(jù)挖掘02二月2023數(shù)據(jù)挖掘:概念與技術(shù)3什么是數(shù)據(jù)挖掘數(shù)據(jù)挖掘(數(shù)據(jù)庫中知識發(fā)現(xiàn)):
從大型數(shù)據(jù)庫中提取有趣的(非平凡的,蘊涵的,先前未知的并且是潛在有用的)信息或模式數(shù)據(jù)挖掘:用詞不當?其它名稱:數(shù)據(jù)庫中知識發(fā)現(xiàn)(Knowledgediscoveryindatabases,KDD)知識提取(knowledgeextraction)數(shù)據(jù)/模式分析(data/patternanalysis)數(shù)據(jù)考古(dataarcheology)數(shù)據(jù)捕撈(datadredging)信息收獲(informationharvesting)商務智能(businessintelligence),等.什么不是數(shù)據(jù)挖掘?(演繹)查詢處理.專家系統(tǒng)或小型機器學習(ML)/統(tǒng)計程序02二月2023數(shù)據(jù)挖掘:概念與技術(shù)4數(shù)據(jù)挖掘:在數(shù)據(jù)中發(fā)現(xiàn)知識/模式02二月2023數(shù)據(jù)挖掘:概念與技術(shù)5數(shù)據(jù)挖掘過程數(shù)據(jù)庫文件數(shù)據(jù)倉庫清理與集成選擇與變換數(shù)據(jù)挖掘模式評估知識什么是數(shù)據(jù)倉庫用不同的方法定義,但不是嚴格的是一個決策支持數(shù)據(jù)庫,它與組織的操作數(shù)據(jù)庫分離地維護數(shù)據(jù)倉庫系統(tǒng)允許將各種應用系統(tǒng)集成在一起,通過為統(tǒng)一的歷史數(shù)據(jù)分析提供堅實的平臺,支持信息處理.數(shù)據(jù)倉庫是一種信息環(huán)境,它將各種應用系統(tǒng)集成在一起,提供了企業(yè)信息的完整概括,為靈活的、交互的數(shù)據(jù)分析提供堅實的平臺,為決策提供支持.W.H.Inmon的定義:數(shù)據(jù)倉庫是面向主題的(subject-oriented),集成的,時變的,和非易失的數(shù)據(jù)集合,支持管理決策過程建立數(shù)據(jù)倉庫(Datawarehousing):構(gòu)造和使用數(shù)據(jù)倉庫的過程2023/2/2數(shù)據(jù)倉庫與OLAP技術(shù)6數(shù)據(jù)倉庫的特征面向主題的(subject-oriented)數(shù)據(jù)倉庫圍繞一些主題,如顧客、供應商、產(chǎn)品和銷售組織數(shù)據(jù)倉庫關(guān)注決策者的數(shù)據(jù)建模與分析,而不是集中于組織機構(gòu)的日常操作和事務處理.
數(shù)據(jù)倉庫排除對于決策無用的數(shù)據(jù),提供特定主題的簡明視圖集成的(integrated)通常,構(gòu)造數(shù)據(jù)倉庫是將多個異種數(shù)據(jù)源,如關(guān)系數(shù)據(jù)庫、一般文件和聯(lián)機事務處理記錄,集成在一起使用數(shù)據(jù)清理和數(shù)據(jù)集成技術(shù),確保命名約定、編關(guān)鍵字結(jié)構(gòu)、屬性度量等的一致性當數(shù)據(jù)裝入數(shù)據(jù)倉庫時,數(shù)據(jù)將被轉(zhuǎn)換2023/2/2數(shù)據(jù)倉庫與OLAP技術(shù)7數(shù)據(jù)倉庫的特征(續(xù))時變的(time-variant)數(shù)據(jù)存儲從歷史的角度(例如過去5-10年)提供信息.操作數(shù)據(jù)庫數(shù)據(jù):當前值數(shù)據(jù)數(shù)據(jù)倉庫中的關(guān)鍵結(jié)構(gòu),隱式或顯式地包含時間元素非易失的(nonvolatile)數(shù)據(jù)倉庫總是物理地分離存放數(shù)據(jù);這些數(shù)據(jù)源于操作環(huán)境下的應用數(shù)據(jù)由于這種分離,數(shù)據(jù)倉庫不需要事務處理、恢復和并發(fā)控制機制.通常,它只需要兩種數(shù)據(jù)訪問操作:數(shù)據(jù)的初始化裝入和數(shù)據(jù)訪問2023/2/2數(shù)據(jù)倉庫與OLAP技術(shù)8如何使用數(shù)據(jù)倉庫中的信息數(shù)據(jù)倉庫用于商務決策活動,包括增加顧客關(guān)注包括分析顧客購買模式,如喜愛買什么、購買時間、預算周期、消費習慣根據(jù)季度、年和地區(qū)的營銷情況比較,重新配置產(chǎn)品和管理產(chǎn)品的投資,調(diào)整生產(chǎn)策略分析運營情況和查找利潤源管理顧客關(guān)系、進行環(huán)境調(diào)整、管理公司資產(chǎn)開銷2023/2/2數(shù)據(jù)倉庫與OLAP技術(shù)9數(shù)據(jù)倉庫vs.操作數(shù)據(jù)庫OLTP(on-linetransactionprocessing,聯(lián)機事務處理)傳統(tǒng)關(guān)系DBMS的主要任務日常事務處理:購買,庫存,銀行,制造,工資單,注冊,記帳等.OLAP(on-lineanalyticalprocessing,聯(lián)機分析處理)數(shù)據(jù)倉庫系統(tǒng)的主要任務數(shù)據(jù)分析和決策制定2023/2/2數(shù)據(jù)倉庫與OLAP技術(shù)10數(shù)據(jù)倉庫vs.操作數(shù)據(jù)庫(續(xù))不同的特點(OLTPvs.OLAP):用戶和系統(tǒng)的面向性:顧客vs.市場OLTP是面向顧客的,用于辦事員、客戶、和信息技術(shù)專業(yè)人員的事務和查詢處理OLAP是面向市場的,用于知識工人(包括經(jīng)理、主管、和分析人員)的數(shù)據(jù)分析數(shù)據(jù)內(nèi)容:當前的,細節(jié)的vs.歷史的,合并的OLTP系統(tǒng)管理當前數(shù)據(jù)這種數(shù)據(jù)太瑣碎,很難用于決策OLAP系統(tǒng)管理大量歷史數(shù)據(jù),提供匯總和聚集機制,并在不同的粒度級別上存儲和管理信息這些特點使得數(shù)據(jù)更容易用于決策2023/2/2數(shù)據(jù)倉庫與OLAP技術(shù)11數(shù)據(jù)倉庫vs.操作數(shù)據(jù)庫(續(xù))2023/2/2數(shù)據(jù)倉庫與OLAP技術(shù)12數(shù)據(jù)倉庫設計
數(shù)據(jù)倉庫為商務分析提供了什么
擁有數(shù)據(jù)倉庫可以提供競爭優(yōu)勢通過提供相關(guān)信息,據(jù)此測量性能并作出重要調(diào)整,以幫助戰(zhàn)勝其它競爭對手數(shù)據(jù)倉庫可以提高企業(yè)生產(chǎn)力因為它能夠快速有效地搜集準確描述組織機構(gòu)的信息數(shù)據(jù)倉庫有利于顧客的聯(lián)系管理因為它跨越所有商務、所有部門和所有市場,提供了顧客和商品的一致視圖數(shù)據(jù)倉庫可以帶來費用的降低通過以一致和可靠的方式長期跟蹤趨勢、模式和異常2023/2/2數(shù)據(jù)倉庫與OLAP技術(shù)13數(shù)據(jù)倉庫設計(續(xù))四種視圖自頂向下視圖使得我們可以選擇數(shù)據(jù)倉庫所需的相關(guān)信息.這些信息能夠滿足當前和未來商務的需求數(shù)據(jù)源視圖揭示被操作數(shù)據(jù)庫系統(tǒng)捕獲、存儲和管理的信息通常,數(shù)據(jù)源用傳統(tǒng)的數(shù)據(jù)建模技術(shù),如實體-聯(lián)系模型或CASE工具建模數(shù)據(jù)倉庫視圖包括事實表和維表.它們提供存放在數(shù)據(jù)倉庫內(nèi)部的信息,包括預計算的總和與計數(shù),以及增加的提供歷史背景的關(guān)于源、原來的日期和時間等信息商務查詢視圖從最終用戶的角度透視數(shù)據(jù)倉庫中的數(shù)據(jù)2023/2/2數(shù)據(jù)倉庫與OLAP技術(shù)14數(shù)據(jù)倉庫設計(續(xù))建立和使用數(shù)據(jù)倉庫是一項復雜的任務,需要商務技巧、技術(shù)技巧和程序管理技巧商務技巧建立數(shù)據(jù)倉庫涉及理解系統(tǒng)如何存儲和管理數(shù)據(jù);如何構(gòu)造一個提取程序,將數(shù)據(jù)由操作數(shù)據(jù)庫轉(zhuǎn)換到數(shù)據(jù)倉庫;如何構(gòu)造一個倉庫刷新軟件,合理地保持數(shù)據(jù)倉庫中的數(shù)據(jù)相對于操作數(shù)據(jù)庫中數(shù)據(jù)的當前性使用數(shù)據(jù)倉庫涉及理解它所包含的數(shù)據(jù)的含義理解商務需求并將它轉(zhuǎn)換成數(shù)據(jù)倉庫查詢2023/2/2數(shù)據(jù)倉庫與OLAP技術(shù)15數(shù)據(jù)倉庫設計(續(xù))技術(shù)技巧數(shù)據(jù)分析需要理解如何由定量信息作出估價如何根據(jù)數(shù)據(jù)倉庫中的歷史信息得到的結(jié)論推導事實這些技巧包括發(fā)現(xiàn)模式和趨勢,根據(jù)歷史推斷趨勢和發(fā)現(xiàn)異?;蚰J狡?并根據(jù)這種分析提出相應的管理建議的能力程序管理技巧涉及與許多技術(shù)人員、經(jīng)銷商和最終用戶交往,以便以及時和合算的方式提交結(jié)果2023/2/2數(shù)據(jù)倉庫與OLAP技術(shù)16數(shù)據(jù)倉庫設計(續(xù))數(shù)據(jù)倉庫可以使用自頂向下方法、自底向上方法,或二者結(jié)合的混合方法設計自頂向下方法由總體設計和規(guī)劃開始當技術(shù)成熟并且已經(jīng)掌握,對必須解決的商務問題清楚并且已經(jīng)很好理解時,這種方法是有用的自底向上方法以實驗和原型開始在商務建模和技術(shù)開發(fā)的早期階段,這種方法是有用的混合方法既能利用自頂向下方法的規(guī)劃和戰(zhàn)略特點,又能保持象自底向上方法一樣快速實現(xiàn)和立即應用2023/2/2數(shù)據(jù)倉庫與OLAP技術(shù)17數(shù)據(jù)倉庫設計(續(xù))典型的數(shù)據(jù)倉庫設計過程選取待建模的商務處理例如,訂單、發(fā)票、出貨、庫存、記帳管理、銷售或一般分類帳選用數(shù)據(jù)倉庫模型vs.選擇數(shù)據(jù)集市選取商務處理的粒度該粒度是基本的,在事實表中是數(shù)據(jù)的原子級例如,單個事務、一天的快照等選取用于每個事實表記錄的維典型的維是時間、商品、顧客、供應商、倉庫、事務類型和狀態(tài)選取將安放在事實表中的度量典型的度量是可加的數(shù)值量,如dollars_sold和units_sold
2023/2/2數(shù)據(jù)倉庫與OLAP技術(shù)18三層數(shù)據(jù)倉庫結(jié)構(gòu)2023/2/2數(shù)據(jù)倉庫與OLAP技術(shù)19三層數(shù)據(jù)倉庫結(jié)構(gòu)(續(xù))底層是倉庫數(shù)據(jù)服務器一般是關(guān)系數(shù)據(jù)庫系統(tǒng)使用后端工具和實用程序,由操作數(shù)據(jù)庫或其他外部數(shù)據(jù)源(如由外部咨詢者提供的顧客側(cè)面信息)提取數(shù)據(jù),放入底層這一層還包括元數(shù)據(jù)庫,存放關(guān)于數(shù)據(jù)倉庫和它的內(nèi)容的信息中間層是OLAP服務器關(guān)系OLAP(ROLAP)模型即擴充的關(guān)系DBMS,它將多維數(shù)據(jù)上的操作映射為標準的關(guān)系操作多維OLAP(MOLAP)模型即專門的服務器,它直接實現(xiàn)多維數(shù)據(jù)和操作頂層是前端客戶層包括查詢和報告工具、分析工具和/或數(shù)據(jù)挖掘工具
2023/2/2數(shù)據(jù)倉庫與OLAP技術(shù)20三種數(shù)據(jù)倉庫
企業(yè)倉庫(enterprisewarehouse)搜集了跨越整個組織的關(guān)于主題的所有信息提供企業(yè)范圍內(nèi)的數(shù)據(jù)集成數(shù)據(jù)集市(datamart)包含企業(yè)范圍數(shù)據(jù)的一個子集,對于特定的用戶是有用的根據(jù)數(shù)據(jù)的來源不同,數(shù)據(jù)集市分為獨立的和依賴的兩類獨立的數(shù)據(jù)集市:數(shù)據(jù)來自一個或多個操作的系統(tǒng)或外部信息提供者,或者來自在一個特定的部門或地域局部產(chǎn)生的數(shù)據(jù)依賴的數(shù)據(jù)集市中的數(shù)據(jù)直接來自企業(yè)數(shù)據(jù)倉庫虛擬倉庫(virtualwarehouse)是操作數(shù)據(jù)庫上視圖的集合.為了有效地處理查詢,只有一些可能的匯總視圖被物化虛擬倉庫易于建立,但需要操作數(shù)據(jù)庫服務器具有剩余能力2023/2/2數(shù)據(jù)倉庫與OLAP技術(shù)21數(shù)據(jù)倉庫開發(fā):一種推薦的方法以遞增、進化的方式實現(xiàn)數(shù)據(jù)倉庫
定義一個高層企業(yè)數(shù)據(jù)模型數(shù)據(jù)集市分布式數(shù)據(jù)集市多層數(shù)據(jù)倉庫企業(yè)數(shù)據(jù)倉庫模型提煉數(shù)據(jù)集市模型提煉2023/2/2數(shù)據(jù)倉庫與OLAP技術(shù)22數(shù)據(jù)倉庫的使用通常,數(shù)據(jù)倉庫使用時間越長,它進化得越好數(shù)據(jù)倉庫應用的三種類型信息處理支持查詢,基本統(tǒng)計分析,使用交叉表,表,圖表和圖進行報告分析處理數(shù)據(jù)倉庫數(shù)據(jù)的多維分析支持基本的OLAP操作,切片-切塊,上下鉆,轉(zhuǎn)軸數(shù)據(jù)挖掘隱藏模式的知識發(fā)現(xiàn)支持關(guān)聯(lián),構(gòu)造分析模型,進行分類和預測,并使用可視化工具提供挖掘結(jié)果.2023/2/2數(shù)據(jù)倉庫與OLAP技術(shù)23OLAP與數(shù)據(jù)挖掘OLAP向數(shù)據(jù)挖掘走近了一步它可以由用戶選定的數(shù)據(jù)倉庫子集,在多粒度上導出匯總的信息。這種描述等價于類/概念描述數(shù)據(jù)挖掘系統(tǒng)能挖掘更一般的類/概念描述數(shù)據(jù)挖掘比傳統(tǒng)的OLAP前進了一步OLAP是數(shù)據(jù)匯總/聚集
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025內(nèi)蒙古峰市教育科學研究中心競爭性比選教研員5人考前自測高頻考點模擬試題附答案詳解(考試直接用)
- 2025黑龍江雙鴨山市友誼縣招聘就業(yè)見習人員考前自測高頻考點模擬試題及答案詳解(名師系列)
- 2025年南平邵武市立醫(yī)院護理崗位招聘模擬試卷及1套完整答案詳解
- 2025河南安陽市龍安區(qū)人社局招聘7名模擬試卷及參考答案詳解
- 2025河南推拿職業(yè)學院招聘6人考前自測高頻考點模擬試題及完整答案詳解1套
- 2025年中國混凝土減水劑行業(yè)市場分析及投資價值評估前景預測報告
- 2025年福建省南平市光澤縣招聘醫(yī)療人才10人考前自測高頻考點模擬試題及完整答案詳解
- 2025年合肥市第二人民醫(yī)院招聘72人模擬試卷及答案詳解(名師系列)
- 2025年湖南湘潭市岳塘區(qū)事業(yè)單位急需緊缺專業(yè)人才引進55人模擬試卷及答案詳解(網(wǎng)校專用)
- 2025年甘肅省甘南州臨潭縣衛(wèi)生健康系統(tǒng)引進緊缺衛(wèi)生專業(yè)技術(shù)人才20人考前自測高頻考點模擬試題及答案詳解一套
- 2025呼和浩特市總工會社會工作者、專職集體協(xié)商指導員招聘29人考試參考題庫及答案解析
- 2025年礦業(yè)權(quán)評估師考試(礦業(yè)權(quán)評估地質(zhì)與礦業(yè)工程專業(yè)能力)全真沖刺試題及答案
- 【公開課】兩種電荷-2025-2026學年物理人教版(2024)九年級全一冊
- 2025年秋招:人力資源專員筆試題庫及答案
- 汽車發(fā)動機課件
- 一節(jié)好課的標準簡短課件
- 殯葬行業(yè)專業(yè)知識培訓課件
- 直播游戲基礎知識培訓
- 德清縣福曜洗滌有限公司年產(chǎn)100萬套牛仔服裝項目環(huán)境影響報告表
- 重慶市城市建設投資(集團)有限公司招聘筆試題庫2025
- 3.2 中國的礦產(chǎn)資源教學課件 初中地理湘教版(2024)八年級上冊
評論
0/150
提交評論