




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
2/5/2023大數(shù)據(jù)培訓-數(shù)據(jù)倉庫概述講師:楊勇2015年7月電話:133820447282/5/2023數(shù)據(jù)倉庫提綱數(shù)據(jù)倉庫概念數(shù)據(jù)倉庫體系結構及組件數(shù)據(jù)倉庫設計數(shù)據(jù)倉庫技術(與數(shù)據(jù)庫技術的區(qū)別)2/5/2023基本概念—數(shù)據(jù)倉庫產生背景數(shù)據(jù)倉庫技術是隨著人們對大型數(shù)據(jù)庫系統(tǒng)研究的不斷深入,在傳統(tǒng)數(shù)據(jù)庫技術基礎之上發(fā)展而來的,其主要目的就是為決策提供支持,為OLAP、數(shù)據(jù)挖掘深層次的分析提供平臺。數(shù)據(jù)倉庫是一個和實際應用密不可分的研究領域,與傳統(tǒng)數(shù)據(jù)庫相比,數(shù)據(jù)倉庫不僅引入了許多新的概念,而且在體系結構、數(shù)據(jù)組織等方面,均有其自身的特點。2/5/2023基本概念—數(shù)據(jù)倉庫定義數(shù)據(jù)倉庫(DataWarehouse)是一個面向主題的(SubjectOriented)、集成的(Integrated)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化(TimeVariant)的數(shù)據(jù)集合,主要用于支持管理決策和信息的全局共享。-----------數(shù)據(jù)倉庫之父BillInmon在1991年出版的“BuildingtheDataWarehouse”(《建立數(shù)據(jù)倉庫》)
2/5/2023基本概念—數(shù)據(jù)倉庫特征 [Inmon,1996]面向主題一個主題領域的表來源于多個操作型應用(如:客戶主題,來源于:定單處理;應收帳目;應付帳目;…)典型的主題領域:客戶;產品;交易;帳目主題領域以一組相關的表來具體實現(xiàn)相關的表通過公共的鍵碼聯(lián)系起來(如:顧客標識號CustomerID)每個鍵碼都有時間元素(從日期到日期;每月累積;單獨日期…)主題內數(shù)據(jù)可以存儲在不同介質上(綜合級,細節(jié)級,多粒度)集成數(shù)據(jù)提取、凈化、轉換、裝載穩(wěn)定性批處理增加,倉庫已經(jīng)存在的數(shù)據(jù)不會改變隨時間而變化(時間維)管理決策支持2/5/2023基本概念—DataMart,ODSDataMart數(shù)據(jù)集市--
小型的,面向部門或工作組級數(shù)據(jù)倉庫。OperationDataStore操作數(shù)據(jù)存儲—ODS是能支持企業(yè)日常的全局應用的數(shù)據(jù)集合,是不同于DB的一種新的數(shù)據(jù)環(huán)境,是DW擴展后得到的一個混合形式。四個基本特點:面向主題的(Subject-Oriented)、集成的、可變的、當前或接近當前的。2/5/2023基本概念—ETL,元數(shù)據(jù),粒度,分割ETL(也有ELT)ETL(Extract/Transformation/Load)—數(shù)據(jù)裝載、轉換、抽取工具。MicrosoftDTS;IBMVisualWarehouseetc.元數(shù)據(jù)關于數(shù)據(jù)的數(shù)據(jù),用于構造、維持、管理、和使用數(shù)據(jù)倉庫,在數(shù)據(jù)倉庫中尤為重要。粒度數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細化或綜合程度的級別。細化程度越高,粒度越小。分割數(shù)據(jù)分散到各自的物理單元中去,它們能獨立地處理。2/5/2023數(shù)據(jù)
數(shù)據(jù)倉庫是一個建設過程,而不是一個產品。數(shù)據(jù)倉庫是通過對來自不同的數(shù)據(jù)源進行統(tǒng)一處理及管理,通過靈活的展現(xiàn)方法來幫助決策支持。數(shù)據(jù)倉庫最新理解數(shù)據(jù)信息知識決策獲取管理使用2/5/2023數(shù)據(jù)倉庫提綱數(shù)據(jù)倉庫概念數(shù)據(jù)倉庫體系結構及組件數(shù)據(jù)倉庫設計數(shù)據(jù)倉庫技術(與數(shù)據(jù)庫技術的區(qū)別)2/5/2023數(shù)據(jù)倉庫體系結構及組件體系結構ETL工具元數(shù)據(jù)庫(Repository)及元數(shù)據(jù)管理數(shù)據(jù)訪問和分析工具2/5/2023體系結構
源數(shù)據(jù)庫系統(tǒng)數(shù)據(jù)抽取、轉換加載WarehouseAdmin.ToolsExtract,TransformandLoadDataModelingToolCentralMetadata數(shù)據(jù)集市數(shù)據(jù)訪問與分析中央數(shù)據(jù)倉庫CentralDataWarehouseMid-TierMid-TierDataMartDataMartLocalMetadataLocalMetadataLocalMetadataMetadataExchangeMDBDataCleansingToolRelationalAppl.PackageLegacyExternalRDBMSRDBMS2/5/2023帶ODS的體系結構源數(shù)據(jù)庫系統(tǒng)數(shù)據(jù)抽取、轉換、加載WarehouseAdmin.ToolsExtract,TransformandLoadDataModelingToolCentralMetadata數(shù)據(jù)集市數(shù)據(jù)訪問與分析中央數(shù)據(jù)倉庫和ODSCentralDataWarehouseMid-TierRDBMSDataMartMid-TierRDBMSDataMartLocalMetadataLocalMetadataLocalMetadataMetadataExchangeODSOLTPToolsDataCleansingToolRelationalAppl.PackageLegacyExternalMDBEnd-UserDWTools2/5/2023一個實際的數(shù)據(jù)倉庫的完整架構數(shù)據(jù)轉換中央數(shù)據(jù)倉庫信息展現(xiàn)業(yè)務用戶源數(shù)據(jù)數(shù)據(jù)獲取數(shù)據(jù)管理數(shù)據(jù)使用項目管理數(shù)據(jù)倉庫實施指導方法論業(yè)務規(guī)劃信息評估邏輯數(shù)據(jù)模型設計物理數(shù)據(jù)模型設計數(shù)據(jù)庫管理元數(shù)據(jù)管理應用開發(fā)顧問咨詢知識轉移營銷系統(tǒng)財務系統(tǒng)物資系統(tǒng)PMS系統(tǒng)抽取轉化過濾加載隨即查詢報表多維分析數(shù)據(jù)挖掘Portal集成RelationalTransformationOLAPDataMining數(shù)據(jù)集市企業(yè)級EDW直接用戶(客戶端)Olap用戶Web用戶應用服務器決策者分析員研究員查詢人員2/5/2023數(shù)據(jù)倉庫的焦點問題-數(shù)據(jù)的獲得、存儲和使用數(shù)據(jù)倉庫和集市的加載能力至關重要數(shù)據(jù)倉庫和集市的查詢輸出能力至關重要RelationalPackageLegacyExternalsourceDataCleanToolDataStagingEnterpriseDataWarehouseDatamartDatamartRDBMSROLAPRDBMSEnd-UserToolEnd-UserToolMDBEnd-UserToolEnd-UserTool2/5/2023ETL工具去掉操作型數(shù)據(jù)庫中的不需要的數(shù)據(jù)統(tǒng)一轉換數(shù)據(jù)的名稱和定義計算匯總數(shù)據(jù)和派生數(shù)據(jù)估計遺失數(shù)據(jù)的缺省值調節(jié)源數(shù)據(jù)的定義變化
2/5/2023ETL工具體系結構2/5/2023元數(shù)據(jù)庫及元數(shù)據(jù)管理元數(shù)據(jù)分類:技術元數(shù)據(jù);商業(yè)元數(shù)據(jù);數(shù)據(jù)倉庫操作型信息。-[AlexBersonetc,1999]技術元數(shù)據(jù)包括為數(shù)據(jù)倉庫設計人員和管理員使用的數(shù)據(jù)倉庫數(shù)據(jù)信息,用于執(zhí)行數(shù)據(jù)倉庫開發(fā)和管理任務。包括:數(shù)據(jù)源信息轉換描述(從操作數(shù)據(jù)庫到數(shù)據(jù)倉庫的映射方法,以及轉換數(shù)據(jù)的算法)目標數(shù)據(jù)的倉庫對象和數(shù)據(jù)結構定義數(shù)據(jù)清洗和數(shù)據(jù)增加的規(guī)則數(shù)據(jù)映射操作訪問權限,備份歷史,存檔歷史,信息傳輸歷史,數(shù)據(jù)獲取歷史,數(shù)據(jù)訪問,等等2/5/2023元數(shù)據(jù)庫及元數(shù)據(jù)管理
商業(yè)元數(shù)據(jù)給用戶易于理解的信息,包括:主題區(qū)和信息對象類型,包括查詢、報表、圖像、音頻、視頻等Internet主頁支持數(shù)據(jù)倉庫的其它信息,例如對于信息傳輸系統(tǒng)包括預約信息、調度信息、傳送目標的詳細描述、商業(yè)查詢對象,等數(shù)據(jù)倉庫操作型信息例如,數(shù)據(jù)歷史(快照,版本),擁有權,抽取的審計軌跡,數(shù)據(jù)用法
2/5/2023數(shù)據(jù)訪問和分析工具報表OLAP數(shù)據(jù)挖掘2/5/2023數(shù)據(jù)倉庫設計自上而下(Top-Down)自底而上(BottomUp)混合的方法數(shù)據(jù)倉庫建模2/5/2023自上而下設計方法建立企業(yè)數(shù)據(jù)倉庫通用數(shù)據(jù)模型數(shù)據(jù)重新執(zhí)行減少冗余和不一致
詳細和歷史數(shù)據(jù);
全局數(shù)據(jù)知識發(fā)現(xiàn)根據(jù)企業(yè)數(shù)據(jù)倉庫(EDW)建立數(shù)據(jù)集市部門級數(shù)據(jù)倉庫主要為匯總數(shù)據(jù)直接依賴有效的數(shù)據(jù)倉庫本地數(shù)據(jù)集市外部數(shù)據(jù)本地數(shù)據(jù)集市操作數(shù)據(jù)企業(yè)數(shù)據(jù)倉庫2/5/2023自底而上設計方法創(chuàng)建部門的數(shù)據(jù)集市范圍局限于一個主題區(qū)域快速的ROI--局部的商業(yè)需求得到滿足本部門自治--設計上具有靈活性對其他部門數(shù)據(jù)集市是一個好的指導容易復制到其他部門需要為每個部門做數(shù)據(jù)重建有一定級別的冗余和不一致性一個切實可行的方法擴大到企業(yè)數(shù)據(jù)倉庫創(chuàng)建EDB作為一個長期的目標局部數(shù)據(jù)集市外部數(shù)據(jù)操作型數(shù)據(jù)(全部)操作型數(shù)據(jù)(局部)操作型數(shù)據(jù)(局部)局部數(shù)據(jù)集市企業(yè)數(shù)據(jù)倉庫EDB2/5/2023數(shù)據(jù)倉庫建?!切湍J紻ateMonthYearDateCustIdCustNameCustCityCustCountryCust銷售事實表
Date
Product
Store
Customer
unit_sales
dollar_sales
Yen_sales度量ProductNoProdNameProdDescCategoryQOHProductStoreIDCityStateCountryRegionStore2/5/2023數(shù)據(jù)倉庫建模—雪花模式
DateMonthDateCustIdCustNameCustCityCustCountryCustSalesFactTable
Date
Product
Store
Customer
unit_sales
dollar_sales
Yen_sales度量ProductNoProdNameProdDescCategoryQOHProductMonthYearMonthYearYearCityStateCityCountryRegionCountryStateCountryStateStoreIDCityStore2/5/2023提綱數(shù)據(jù)倉庫概念數(shù)據(jù)倉庫體系結構及組件數(shù)據(jù)倉庫設計數(shù)據(jù)倉庫技術(與數(shù)據(jù)庫技術的區(qū)別)2/5/2023數(shù)據(jù)倉庫技術管理大量數(shù)據(jù)能夠管理大量數(shù)據(jù)的能力能夠管理好的能力管理多介質(層次)主存、擴展內存、高速緩存、DASD、光盤、縮微膠片監(jiān)視數(shù)據(jù)決定是否應數(shù)據(jù)重組決定索引是否建立得不恰當決定是否有太多數(shù)據(jù)溢出決定剩余的可用空間利用多種技術獲得和傳送數(shù)據(jù)批模式,聯(lián)機模式并不非常有用程序員/設計者對數(shù)據(jù)存放位置的控制(塊/頁)數(shù)據(jù)的并行存儲/管理元數(shù)據(jù)管理2/5/2023數(shù)據(jù)倉庫技術數(shù)據(jù)倉庫語言接口能夠一次訪問一組數(shù)據(jù)能夠一次訪問一條記錄支持一個或多個索引有SQL接口數(shù)據(jù)的高效裝入高效索引的利用用位映像的方法、多級索引等數(shù)據(jù)壓縮I/O資源比CPU資源少得多,因此數(shù)據(jù)解壓縮不是主要問題復合鍵碼(因為數(shù)據(jù)隨時間變化)變長數(shù)據(jù)加鎖管理(程序員能顯式控制鎖管理程序)單獨索引處理(查看索引就能提供某些服務)快速恢復2/5/2023數(shù)據(jù)倉庫技術其他技術特征,傳統(tǒng)技術起很小作用事務集成性、高速緩存、行/頁級鎖定、參照完整性、數(shù)據(jù)視圖傳統(tǒng)DBMS與數(shù)據(jù)倉庫DBMS區(qū)別為數(shù)據(jù)倉庫和決策支持優(yōu)化設計管理更多數(shù)據(jù):10GB/100GB/TB傳統(tǒng)DBMS適合記錄級更新,提供:鎖定Lock、提交Commit、檢測點CheckPoint、日志處理Log、死鎖處理DeadLock、回退Roolback.基本數(shù)據(jù)管理,如:塊管理,傳統(tǒng)DBMS需要預留空間索引區(qū)別:傳統(tǒng)DBMS限制索引數(shù)量,數(shù)據(jù)倉庫DBMS沒有限制通用DBMS物理上優(yōu)化便于事務訪問處理,而數(shù)據(jù)倉庫便于DSS訪問分析改變DBMS技術多維DBMS和數(shù)據(jù)倉庫多維DBMS作為數(shù)據(jù)倉庫的數(shù)據(jù)庫技術,這種想法是不正確的多維DBMS(OLAP)是一種技術,數(shù)據(jù)倉庫是一種體系結構的基礎雙重粒度級別(DASD/磁帶)2/5/2023數(shù)據(jù)倉庫技術其他技術特征,傳統(tǒng)技術起很小作用事務集成性、高速緩存、行/頁級鎖定、參照完整性、數(shù)據(jù)視圖傳統(tǒng)DBMS與數(shù)據(jù)倉庫DBMS區(qū)別為數(shù)據(jù)倉庫和決策支持優(yōu)化設計管理更多數(shù)據(jù):10GB/100GB/TB傳統(tǒng)DBMS適合記錄級更新,提供:鎖定Lock、提交Co
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025廣西中馬投控集團招聘42人考前自測高頻考點模擬試題及答案詳解(全優(yōu))
- 2025江西吉安市七葉荊文化旅游有限公司招聘安排模擬試卷附答案詳解(完整版)
- 2025年安徽皖信人力招聘管內客運站12名安檢工作人員考前自測高頻考點模擬試題有完整答案詳解
- 2025年南平邵武市醫(yī)療單位醫(yī)療類儲備人才引進8人模擬試卷及答案詳解(典優(yōu))
- 2025江西贛州市第五人民醫(yī)院勞務派遣招聘助理護士20人模擬試卷附答案詳解(黃金題型)
- 2025年寧波市鄞州區(qū)第二醫(yī)院醫(yī)共體招聘第二批高層次緊缺人才13人考前自測高頻考點模擬試題及答案詳解(必刷)
- 2025吉林長春經(jīng)濟技術開發(fā)區(qū)人民法院面向社會招聘審判輔助人員聘用人員模擬試卷有完整答案詳解
- 2025年湖南永州市冷水灘區(qū)人民法院招聘9名聘用制審判輔助人員考前自測高頻考點模擬試題完整參考答案詳解
- 2025廣東惠州龍門縣教育局招聘教師80人考前自測高頻考點模擬試題及完整答案詳解
- 2025年南平邵武市立醫(yī)院護理崗位招聘考前自測高頻考點模擬試題有完整答案詳解
- 經(jīng)濟與社會 思維導圖式復習課件高中政治統(tǒng)編版必修二經(jīng)濟與社會
- 金融體系培訓
- 變頻器基礎知識培訓
- 湘教版(2024)七年級上冊地理第二章 認識地球 測試卷(含答案)
- 我愛你中國 女聲領唱與混聲四部合唱譜
- 智慧樹知到《星期音樂會(同濟大學)》章節(jié)測試答案
- 聯(lián)合體施工協(xié)議書
- 居家無障礙知識講座
- 照片檔案整理規(guī)范
- 糖尿病胰島素泵的護理查房課件
- 2023新能源集控中心及智慧電廠建設方案
評論
0/150
提交評論