




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
..1.數(shù)據(jù)倉庫的概念和特點(diǎn)p11定義:一個(gè)面向主題的、集成的、非易失的且隨時(shí)間變化的數(shù)據(jù)集合,用來支持管理人員作出決策。特性:面向主題的、集成的、非易失的、隨時(shí)間不斷變化的。1、面向主題的:數(shù)據(jù)倉庫以一個(gè)奇特或組織機(jī)構(gòu)中固有的業(yè)務(wù)主題作為處理的主體,是從整體的、全局的角度來衡量這些主題在企業(yè)中的作用。2、集成的〔最重要〕:數(shù)據(jù)倉庫必須將不一致的數(shù)據(jù)進(jìn)展有效的集成,使之在數(shù)據(jù)倉庫中有一致性的表示形式。一致性問題只是集成所包含的一局部工作,另外還需要根據(jù)主題進(jìn)展有效的數(shù)據(jù)組織。3、非易失性:一旦操作型數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫,只要數(shù)據(jù)未超過數(shù)據(jù)倉庫的數(shù)據(jù)存儲期限,通常不對數(shù)據(jù)進(jìn)展更新操作,而只進(jìn)展查詢操作。即不進(jìn)展一般意義上的更新,而且與操作型數(shù)據(jù)相比,更新頻率要低得多,對時(shí)間的要求更為寬松。4、隨時(shí)間不斷變化的〔數(shù)據(jù)因時(shí)而變的特點(diǎn)〕"與操作型數(shù)據(jù)比擬的,書上14頁":〔1〕數(shù)據(jù)倉庫中的數(shù)據(jù)的時(shí)間期限要遠(yuǎn)遠(yuǎn)長于操作型環(huán)境中的數(shù)據(jù)的時(shí)間期限。操作型環(huán)境一般60-90天,數(shù)據(jù)倉庫5-10年。=2\*GB2⑵操作型環(huán)境中的數(shù)據(jù)庫含有數(shù)據(jù)的"當(dāng)前值〞,其準(zhǔn)確性訪問是有效的,其當(dāng)前值能被更新,數(shù)據(jù)倉庫中的數(shù)據(jù)只是一系列某一時(shí)刻所生成的數(shù)據(jù)的復(fù)雜快照。=3\*GB2⑶操作型環(huán)境中的數(shù)據(jù)鍵碼構(gòu)造可能含有也可能不含有;數(shù)據(jù)倉庫的鍵碼構(gòu)造總是包含某時(shí)間元素。2.數(shù)據(jù)倉庫中的關(guān)鍵概念14外部數(shù)據(jù)源:就是從系統(tǒng)外部獲取的同分析主題相關(guān)的數(shù)據(jù)。數(shù)據(jù)抽取:是數(shù)據(jù)倉庫按分析的主題從業(yè)務(wù)數(shù)據(jù)庫抽取相關(guān)數(shù)據(jù)的過程。數(shù)據(jù)清洗:所謂"清洗〞是指在放入數(shù)據(jù)倉庫之前將錯誤的、不一致的數(shù)據(jù)予以更正或刪除,以免影響DSS決策的正確性。數(shù)據(jù)轉(zhuǎn)換:各種數(shù)據(jù)庫產(chǎn)品所提供的數(shù)據(jù)類型可能不同,需要將不同格式的數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一的數(shù)據(jù)格式,稱為數(shù)據(jù)轉(zhuǎn)換。數(shù)據(jù)加載:是指把清洗后的數(shù)據(jù)裝入數(shù)據(jù)倉庫的過程。數(shù)據(jù)加載策略包括數(shù)據(jù)加載周期和數(shù)據(jù)追加策略。數(shù)據(jù)加載周期要綜合考慮經(jīng)營分析需求和系統(tǒng)加載代價(jià),對不同業(yè)務(wù)的數(shù)據(jù)采用不同的加載周期,但必須保持同一時(shí)刻業(yè)務(wù)數(shù)據(jù)的完整性和一致性。元數(shù)據(jù):元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù)。元數(shù)據(jù)位于數(shù)據(jù)倉庫的上層,而且能夠記錄數(shù)據(jù)倉庫中對象的位置。數(shù)據(jù)集市:面向企業(yè)中的某個(gè)部門〔主題〕而在邏輯上或物理上劃分出來的數(shù)據(jù)倉庫中的數(shù)據(jù)子集成為數(shù)據(jù)集市。數(shù)據(jù)粒度:粒度是數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細(xì)化程度或綜合的級別。細(xì)化程度越高,粒度級別就越低。相反,細(xì)化程度越低,粒度級別就越高。數(shù)據(jù)倉庫的數(shù)據(jù)組織構(gòu)造:早期細(xì)節(jié)級〔通常用于備用的、批量化的存儲〕、當(dāng)前細(xì)節(jié)級、輕度綜合數(shù)據(jù)級〔數(shù)據(jù)集市〕以及高度綜合數(shù)據(jù)級。一旦數(shù)據(jù)過期,就由當(dāng)前細(xì)節(jié)級進(jìn)入早期細(xì)節(jié)級。經(jīng)綜合后的數(shù)據(jù)由當(dāng)前細(xì)節(jié)級進(jìn)入輕度綜合數(shù)據(jù)級,然后由輕度綜合數(shù)據(jù)級進(jìn)入高度綜合數(shù)據(jù)級。數(shù)據(jù)粒度的兩種形式:第一種形式的粒度是對數(shù)據(jù)倉庫中的數(shù)據(jù)的綜合程度上下的一種度量,另一種形式即樣本數(shù)據(jù)庫,是針對數(shù)據(jù)挖掘的,樣本數(shù)據(jù)庫是以一定的采樣率〔或按數(shù)據(jù)的重要程度的不同〕從細(xì)節(jié)檔案數(shù)據(jù)或輕度綜合數(shù)據(jù)中抽取的一個(gè)子集。數(shù)據(jù)分割:分割是指將數(shù)據(jù)分割到各自的物理單元中以便能分別進(jìn)展處理,提高數(shù)據(jù)處理效率,數(shù)據(jù)分割后形成的數(shù)據(jù)單元稱為分片。數(shù)據(jù)庫數(shù)據(jù)倉庫面向應(yīng)用數(shù)據(jù)是詳細(xì)保持當(dāng)前數(shù)據(jù)數(shù)據(jù)是可更新對數(shù)據(jù)的操作是重復(fù)的操作需事先可知的一個(gè)操作只存取一條記錄數(shù)據(jù)非冗余操作較頻繁所查詢的是原始數(shù)據(jù)事務(wù)處理需要當(dāng)前數(shù)據(jù)鮮有復(fù)雜的計(jì)算支持事務(wù)處理面向主題數(shù)據(jù)是綜合的或提煉的保存過去的和現(xiàn)在的數(shù)據(jù)數(shù)據(jù)是不可更新對數(shù)據(jù)的操作是啟發(fā)式的操作需臨時(shí)決定的一個(gè)操作存取一個(gè)數(shù)據(jù)集合數(shù)據(jù)常冗余操作相對不頻繁所查詢的是經(jīng)過加工的數(shù)據(jù)決策分析需要過去的和現(xiàn)在的數(shù)據(jù)需做復(fù)雜的計(jì)算支持決策分析操作型數(shù)據(jù)分析型數(shù)據(jù)細(xì)節(jié)的在存取瞬間,數(shù)據(jù)是準(zhǔn)確的可更新的事先可知操作需求生命周期符合SDLC〔軟件開發(fā)生命周期〕對性能的要求較高某一時(shí)刻操作一個(gè)單元事務(wù)驅(qū)動面向應(yīng)用一次操作的數(shù)據(jù)量較小支持日常操作綜合的或提煉的歷史數(shù)據(jù)不可更新操作需求事先不可知完全不同的生命周期對性能的要求較為寬松某一時(shí)刻操作一個(gè)集合分析驅(qū)動面向分析一次操作的數(shù)據(jù)量較大支持管理需求4.數(shù)據(jù)倉庫的數(shù)據(jù)追加與方法數(shù)據(jù)追加:數(shù)據(jù)倉庫中的數(shù)據(jù)初裝完成后,再向數(shù)據(jù)倉庫輸入數(shù)據(jù)的過程。數(shù)據(jù)倉庫的容僅限于上一次向數(shù)據(jù)倉庫輸入數(shù)據(jù)后在OLTP數(shù)據(jù)庫中發(fā)生變化的數(shù)據(jù)。捕捉變化數(shù)據(jù)的常用途徑如下:〔1〕時(shí)標(biāo)方法:如果數(shù)據(jù)含有時(shí)標(biāo),對于插入或更新的數(shù)據(jù)記錄,在記錄中設(shè)置相應(yīng)的時(shí)標(biāo),那么只需根據(jù)時(shí)標(biāo)判斷哪些數(shù)據(jù)是上次追加后變化的即可。但并非所有數(shù)據(jù)庫中的數(shù)據(jù)都含有時(shí)標(biāo)?!?〕DELTA文件1.DELTA文件是由應(yīng)用生成的,記錄應(yīng)用所改變的所有容。2.利用DELTA文件效率很高,它防止掃描整個(gè)數(shù)據(jù)庫。但因應(yīng)用系統(tǒng)常由不同的軟件開發(fā)商開發(fā),生成DELTA文件的應(yīng)用并不普遍,還有更改應(yīng)用代碼的方法,可在生成新數(shù)據(jù)時(shí)將其自動記錄下來,但應(yīng)用數(shù)目龐大,修改的代碼十分繁瑣?!?〕前后映像文件的方法:1.在抽取數(shù)據(jù)前后對數(shù)據(jù)庫各做一次快照,然后比擬兩幅快照從而確定新數(shù)據(jù)。2.它占用大量資源,對性能影響極大,因此無實(shí)際意義?!?〕日志文件〔最切實(shí)有效〕日志是DMBS的固有機(jī)制系統(tǒng)日志能把數(shù)據(jù)庫效勞器所執(zhí)行的所有操作詳細(xì)記錄下來,通過分析日志獲取數(shù)據(jù)變化情況。它還具有DELTA文件的優(yōu)越性質(zhì),提取數(shù)據(jù)只要局限日志文件即可,不用掃描整個(gè)數(shù)據(jù)庫。固有機(jī)制,不影響OLTP性能。5..數(shù)據(jù)倉庫的數(shù)據(jù)清理1.數(shù)據(jù)參加失去原有細(xì)節(jié)的一個(gè)定期綜合文件2.數(shù)據(jù)從高性能介質(zhì)轉(zhuǎn)移到大容量介質(zhì)上3.數(shù)據(jù)從系統(tǒng)中實(shí)質(zhì)性的去除4.數(shù)據(jù)從體系構(gòu)造的某一個(gè)層次轉(zhuǎn)至另一個(gè)層次,必須從操作型層次轉(zhuǎn)至數(shù)據(jù)倉庫層次6.數(shù)據(jù)集市的類型概念,在企業(yè)中很重要的作用數(shù)據(jù)集市(DataMart),也叫數(shù)據(jù)市場,是一個(gè)從操作的數(shù)據(jù)和其他的為某個(gè)特殊的專業(yè)人員團(tuán)體效勞的數(shù)據(jù)源中收集數(shù)據(jù)的倉庫。數(shù)據(jù)倉庫在整個(gè)組織圍為各個(gè)部門提供管理與決策支持,而數(shù)據(jù)集市通常處于部門級,只能為某個(gè)局部圍的管理人員提供效勞,因此也稱為部門級數(shù)據(jù)倉庫。因此可以說數(shù)據(jù)集市是針對特定應(yīng)用的數(shù)據(jù)倉庫,即針對某個(gè)具有戰(zhàn)略意義的應(yīng)用或部門級應(yīng)用,支持用戶利用已有的數(shù)據(jù)做出管理決策。數(shù)據(jù)集市〔DataMarts〕是一種更小、更集中的數(shù)據(jù)倉庫,為公司提供分析商業(yè)數(shù)據(jù)的一條廉價(jià)途徑。1.獨(dú)立型數(shù)據(jù)集市〔獨(dú)立數(shù)據(jù)集市〕其數(shù)據(jù)直接來自各個(gè)生產(chǎn)系統(tǒng),許多企業(yè)考慮投資問題,最終建成獨(dú)立數(shù)據(jù)集市,用來解決個(gè)別部門較為迫切的決策問題。從這種意義上講,它和企業(yè)數(shù)據(jù)倉庫除了在數(shù)據(jù)量和效勞對象上存在差異外,邏輯構(gòu)造并無多大區(qū)別,也許就是把數(shù)據(jù)集市成為部門級數(shù)據(jù)倉庫的主要原因。2.附屬性數(shù)據(jù)集市〔附屬集市〕:數(shù)據(jù)直接來自中央數(shù)據(jù)倉庫訪問數(shù)據(jù)倉庫頻繁的關(guān)鍵業(yè)務(wù)部門建立附屬數(shù)據(jù)集市,可以提供查詢操作的反響速度。7.數(shù)據(jù)倉庫VS數(shù)據(jù)集市工程數(shù)據(jù)倉庫數(shù)據(jù)集市數(shù)據(jù)來源圍主題數(shù)據(jù)粒度數(shù)據(jù)構(gòu)造歷史數(shù)據(jù)優(yōu)化索引遺留系統(tǒng)、OLTP系統(tǒng)、外部數(shù)據(jù)企業(yè)級企業(yè)主題最細(xì)的粒度規(guī)化構(gòu)造〔第三式〕大量的歷史數(shù)據(jù)處理海量數(shù)據(jù)/數(shù)據(jù)索引高度索引數(shù)據(jù)倉庫部門級或工作級部門級或特殊的分析主題較粗的粒度星型模式、雪花模式、兩者混合適量的歷史數(shù)據(jù)便于訪問、分析、快速查詢高度索引8.數(shù)據(jù)倉庫的體系構(gòu)造數(shù)據(jù)倉庫系統(tǒng)的層次構(gòu)造數(shù)據(jù)倉庫在邏輯上可以分為:數(shù)據(jù)獲取/管理層、數(shù)據(jù)存儲層、數(shù)據(jù)分析/應(yīng)用層1.數(shù)據(jù)獲取/管理層:〔1〕.數(shù)據(jù)倉庫的定義與修改、〔2〕.數(shù)據(jù)的獲取、〔3.〕數(shù)據(jù)倉庫系統(tǒng)的管理2.數(shù)據(jù)存儲層:是數(shù)據(jù)倉庫的主體,包括〔1〕.從外部數(shù)據(jù)源抽取數(shù)據(jù),經(jīng)清洗、轉(zhuǎn)換處理,并按主題進(jìn)展組織和存放稱其為業(yè)務(wù)數(shù)據(jù)倉庫〔2〕.數(shù)據(jù)倉庫的元數(shù)據(jù)〔3.〕針對不同的數(shù)據(jù)挖掘和分析主題而生成的數(shù)據(jù)集市3.數(shù)據(jù)分析/應(yīng)用層:〔1〕查詢/統(tǒng)計(jì)功能〔2〕OLAP效勞〔3〕數(shù)據(jù)挖掘效勞9.數(shù)據(jù)倉庫的構(gòu)造模式〔加上有反響的~~~六種〕自頂向下模式自底向上模式、平行開發(fā)模式1.自定向下模式特點(diǎn):在這種模式下,數(shù)據(jù)集市是數(shù)據(jù)倉庫的真子集,數(shù)據(jù)由數(shù)據(jù)倉庫流向數(shù)據(jù)集市。數(shù)據(jù)倉庫的設(shè)計(jì)過程直觀,概念清晰,易于只要對外部數(shù)據(jù)源所支持的決策有較深入的額理解,保證各數(shù)據(jù)集市都是數(shù)據(jù)倉庫的真子集,就可以完全消除信息之間的"蜘蛛網(wǎng)〞現(xiàn)象。這種模式缺乏之處在于要求設(shè)計(jì)者對具體業(yè)務(wù)有較深入的理解,系統(tǒng)設(shè)計(jì)規(guī)模較大,實(shí)施周期過長,工程見效緩慢,尤其是在工程實(shí)施初期,成效并不明顯構(gòu)造方向:從左到右決策分析主題<數(shù)據(jù)集市數(shù)據(jù)倉庫外部數(shù)據(jù)源2.自底向上模式自底向上模式設(shè)計(jì)思路是先具體,后綜合構(gòu)造方向:從右到左決策分析主題<數(shù)據(jù)倉庫數(shù)據(jù)集市外部數(shù)據(jù)源特點(diǎn):投資少,見效快,由于數(shù)據(jù)集市缺少元數(shù)據(jù),因而最終構(gòu)造數(shù)據(jù)倉庫的過程具有一定的難度,并有可能影響數(shù)據(jù)倉庫整體構(gòu)造的合理性以及系統(tǒng)的運(yùn)行效率3.平行開發(fā)模式〔又稱企業(yè)級數(shù)據(jù)集市模式〕平行模式是在自頂向下模式的根底上,吸收了自底向上的優(yōu)點(diǎn)開展而成的,是他們的有機(jī)結(jié)合。4.改良的開發(fā)模式均在上面介紹的根底上經(jīng)改良開展而來,共同特點(diǎn)是:按照軟件工程學(xué)的觀點(diǎn),接收用戶對所構(gòu)建的數(shù)據(jù)倉庫系統(tǒng)的反響信息,加以分析和整理,并以此為依據(jù),對數(shù)據(jù)倉庫進(jìn)展修改,以不斷提高數(shù)據(jù)系統(tǒng)對決策的支持能力。12.聯(lián)機(jī)分析處理p40聯(lián)機(jī)分析處理OLAP定義:OLAP是一種軟件技術(shù),它使分析人員能夠迅速、一致、交互地從各個(gè)方面觀察信息,以到達(dá)深入理解數(shù)據(jù)的目的。目標(biāo)是滿足決策支持或多維環(huán)境下特定的查詢和報(bào)表需求,因此OLAP可以說是多維數(shù)據(jù)分析工具的集合。OLAP是針對特定問題的聯(lián)機(jī)數(shù)據(jù)訪問和分析處理OLAP功能:數(shù)據(jù)分析、報(bào)表〔p67〕13.OLAP相關(guān)的根本概念p41變量:是數(shù)據(jù)的實(shí)際意義,用來描述數(shù)據(jù)〞是什么〞維:是人們觀察數(shù)據(jù)的特定角度維的層次:人們觀察數(shù)據(jù)的某個(gè)特定角度還可以存在細(xì)節(jié)程度不同的多個(gè)描述,這就是維的層次維的成員:維的一個(gè)取值稱為該維的的一個(gè)成員多維數(shù)組:是維和變量的組合表示數(shù)據(jù)單元:是多維數(shù)據(jù)的取值14.OLAP準(zhǔn)那么〔12條,選擇題〕p441.OLAP模型必須提供多維概念2.透明性3.存取能力準(zhǔn)那么4.穩(wěn)定的報(bào)表能力5.客戶—效勞器體系構(gòu)造6.維的等同性準(zhǔn)那么7.動態(tài)的稀疏矩陣處理準(zhǔn)那么8.多用戶支持能力9.非受限的夸維操作10.直觀的數(shù)據(jù)操作11.靈活的報(bào)表的生成12.非受限維語聚集層次簡化的5條原那么:1.快速性、2.可分析性、3.共享性、4.多維性、5.信息性15.OLAP根本分析動作,每個(gè)動作是什么意思p49數(shù)據(jù)切片:多維數(shù)據(jù)的子集是多維數(shù)據(jù)的維i上切片數(shù)據(jù)切片是一種優(yōu)化功能,可以幫助將查詢指向相應(yīng)的數(shù)據(jù)。數(shù)據(jù)切片無法為分區(qū)指定數(shù)據(jù)源。也就是說,數(shù)據(jù)切片不能用于限制從分區(qū)事實(shí)數(shù)據(jù)表中選擇的數(shù)據(jù)和包含在分區(qū)中的數(shù)據(jù)。數(shù)據(jù)切片僅適用于使用ROLAP存儲模式的對象。使用分區(qū)向?qū)?chuàng)立分區(qū)時(shí),可以指定一個(gè)數(shù)據(jù)切片。數(shù)據(jù)切塊:是將完整的數(shù)據(jù)立方體切取一局部數(shù)據(jù)而得到得心的數(shù)據(jù)立方體數(shù)據(jù)鉆?。壕褪菑妮^高的維度層次下降到較低的維度層次上來觀察多維數(shù)組數(shù)據(jù)聚合:是鉆取得逆向操作,是對數(shù)據(jù)進(jìn)展高層次綜合的操作數(shù)據(jù)旋轉(zhuǎn):16.OLAP數(shù)據(jù)組織1、多維數(shù)據(jù)組織MOLAPp57多維數(shù)據(jù)庫基于多維數(shù)據(jù)庫的MOLAP〔多維聯(lián)機(jī)分析處理〕是以多維數(shù)據(jù)庫〔MDDB〕為核心的。簡言之,多維數(shù)據(jù)庫是以多維方式來組織和存儲數(shù)據(jù)。2、關(guān)系數(shù)據(jù)組織ROLAPp60ROLAP〔關(guān)系聯(lián)機(jī)分析處理〕將多維構(gòu)造進(jìn)展分解,利用兩種表來表達(dá)多維信息。17.星形構(gòu)造的存儲實(shí)現(xiàn)p61-62、雪花構(gòu)造星型模型由事實(shí)表和多個(gè)維度表組成。事實(shí)表中存放大量關(guān)于企業(yè)的事實(shí)數(shù)據(jù),對象個(gè)數(shù)通常都很大,而且非規(guī)化程度很高。為度表中存放描述性數(shù)據(jù),維度表是圍繞事實(shí)表建立的較小的表。事實(shí)表是星型模型的核心,數(shù)據(jù)量大,冗余小維度表是事實(shí)表的附屬表優(yōu)點(diǎn):星形模型是非規(guī)化的,以增加存儲空間的代價(jià),提高了多維數(shù)據(jù)的查詢速度。而規(guī)化的關(guān)系數(shù)據(jù)庫設(shè)計(jì)是使數(shù)據(jù)的冗余保持在最少,并減少了當(dāng)數(shù)據(jù)改變時(shí)系統(tǒng)必須執(zhí)行的動作。容易從維度表中的數(shù)據(jù)分析開場,獲得維度關(guān)鍵字,以便連接到事實(shí)表進(jìn)展查詢,減少事實(shí)表中掃描數(shù)據(jù)量,從而提高查詢性能缺點(diǎn):當(dāng)事務(wù)問題發(fā)生變化,原來的維度不能滿足要求時(shí),需要增加新的維。由于事實(shí)表的主鍵由所有的圍標(biāo)的主鍵組成,這種維度的變化帶來數(shù)據(jù)變化將是非常復(fù)雜非常耗時(shí)的。星形模型的數(shù)據(jù)冗余量很大。2.雪花模型雪花模型由一個(gè)事實(shí)表和多個(gè)維度表組成雪花模型增加了用戶必須處理的表的數(shù)量,增加了某些查詢的復(fù)雜性。但這種方式可以是系統(tǒng)進(jìn)一步專業(yè)化和實(shí)用化,同時(shí)降低了系統(tǒng)的通用程度。優(yōu)點(diǎn):雪花模型在星型模型根底上,引入一個(gè)新表-----詳細(xì)類別表,借助這個(gè)表對維度表進(jìn)展描述,提高了數(shù)據(jù)模型的規(guī)化程度,并使之具有較低的粒度。雪花模型減少冗余,將表細(xì)化,具有較高的靈活性;是最大限度的減少數(shù)據(jù)存儲量,以及把較小的維度表聯(lián)合在一起來改善查詢性能。缺點(diǎn):隨著表的數(shù)量的增多,表之間的關(guān)聯(lián)會增加,存在著降低系統(tǒng)性能的可能。雪花模型是對星形模型的擴(kuò)展,雪花模型對星形模型的維度表進(jìn)一步層次化,原來的各維度可能被擴(kuò)展為小的事實(shí)表,形成一些局部的"層次〞區(qū)域。18.星形模型和雪花模型的差異〔p63,好似是選擇?〕星型模式VS雪花模式1.雪花模式的維表可能是規(guī)化的,以便減少冗余。這種表易于維護(hù),并節(jié)省存儲空間。2.實(shí)際上,與巨大的事實(shí)表相比,這種空間的節(jié)省可以忽略。3.由于執(zhí)行查詢需要更多的連接操作,雪花構(gòu)造可能降低瀏覽的性能。4.在數(shù)據(jù)倉庫設(shè)計(jì)中,雪花模式不如星型模式流行。一樣點(diǎn):進(jìn)展OLAP處理,是以外鍵為根底進(jìn)展維表與事實(shí)表、維表與維表之間的關(guān)聯(lián)操作不同點(diǎn):雪花模型雖然具有較小的事實(shí)表,但在執(zhí)行某些查詢時(shí),需要做表間的二次運(yùn)算,占用CPU資源較多,因而其與運(yùn)行效率可能低于星型構(gòu)造模型19.兩種數(shù)據(jù)組織的比擬〔MOLAP、ROLAP〕P66表格1.構(gòu)造分析:兩種組織都滿足OLAP數(shù)據(jù)處理流程,即數(shù)據(jù)裝入、匯總、建立索引和提高使用方法。MOLAP較之ROLAP要簡明一些。MOLAP的索引及數(shù)據(jù)綜合可以自動完成,根據(jù)元數(shù)據(jù)。自動管理所有的索引及模式,靈活性弱;ROLAP的實(shí)現(xiàn)較為復(fù)雜,但靈活性強(qiáng)2.數(shù)據(jù)存取速度:MOLAP相應(yīng)速度快,ROLAP相應(yīng)速度慢3.數(shù)據(jù)存儲容量:ROLAP對于存儲容量沒有限制,MOLAP有限制4.維度變化的適應(yīng)性:MOLAP支持高性能的決策型計(jì)算,包括跨維計(jì)算、行級計(jì)算;ROLAP無法完成多行的計(jì)算和維之間的計(jì)算5.多維計(jì)算機(jī)能力:ROLAP適應(yīng)性更好6.數(shù)據(jù)變化的適應(yīng)性:ROLAP對于數(shù)據(jù)變化的適應(yīng)性高7.軟硬臺平臺的適應(yīng)性:ROLAP對軟硬件平臺的適應(yīng)性很好,MOLAP那么相對性差8.元數(shù)據(jù)管理:元數(shù)據(jù)是OLAP和數(shù)據(jù)倉庫的核心數(shù)據(jù),OLAP的元數(shù)據(jù)包括層次關(guān)系、計(jì)算轉(zhuǎn)化信息、報(bào)表中的數(shù)據(jù)項(xiàng)描述、平安存取控制等MOLAP以多維數(shù)據(jù)庫為核心,在數(shù)據(jù)的存儲和綜合上有明顯的優(yōu)勢,但它不適應(yīng)太大的數(shù)據(jù)存儲,特別對于汗大量稀疏數(shù)據(jù)的存儲將浪費(fèi)大量的存儲空間;ROLAP以RDBMS為根底,利用成熟的技術(shù)為用戶的使用和數(shù)據(jù)管理帶來方便9.系統(tǒng)培訓(xùn)和維護(hù)工作工程數(shù)據(jù)存儲技術(shù)特征MOLAP詳細(xì)數(shù)據(jù)通過關(guān)系表存儲在數(shù)據(jù)倉庫中;各種匯總數(shù)據(jù)保存在多維數(shù)據(jù)庫中;從數(shù)據(jù)倉庫中詢問詳細(xì)數(shù)據(jù),從多維數(shù)據(jù)庫中詢問匯總數(shù)據(jù)有MOLAP引擎創(chuàng)立;預(yù)先建立多維數(shù)據(jù)立方體;多維視圖存儲在陣列而非表格中;可以高速檢索矩陣數(shù)據(jù);利用稀疏矩陣技術(shù)來管理匯總的稀疏數(shù)據(jù)詢問的相應(yīng)速度快;能輕松的適應(yīng)多維分析;有廣泛的鉆取和多層次/多視角查詢能力ROLAP全部數(shù)據(jù)以關(guān)系表形式存儲在數(shù)據(jù)倉庫中,可獲得細(xì)節(jié)的綜合匯總的數(shù)據(jù);有非常大的數(shù)據(jù)容量;從數(shù)據(jù)倉庫中詢問所有數(shù)據(jù)使用復(fù)雜SQL從數(shù)據(jù)庫中獲取數(shù)據(jù);ROLAP引擎在數(shù)據(jù)分析中創(chuàng)立多維數(shù)據(jù)立方體;表示層能夠表示多維視圖在復(fù)雜的數(shù)據(jù)分析功能上具有局限性,需要采用優(yōu)化的OLAP;向下鉆取數(shù)據(jù)較容易,但死跨維向下鉆取數(shù)據(jù)較困難24.概念模型設(shè)計(jì)p83很多,自己看特點(diǎn):1.反映現(xiàn)實(shí)世界,滿足用戶對數(shù)據(jù)的需求,能幫助用戶做出決策,是現(xiàn)實(shí)世界的真實(shí)模型2.易于用戶理解和參與,便于與用戶交流3.易于修改,能夠隨時(shí)根據(jù)用戶需求的變化對模型進(jìn)展修正與擴(kuò)大4.易于向數(shù)據(jù)倉庫的數(shù)據(jù)模型〔星型模型、雪花模型、事實(shí)星座模型〕進(jìn)展轉(zhuǎn)換24.1邏輯模型設(shè)計(jì)邏輯模型包括:1.初始數(shù)據(jù)組、2.二次數(shù)據(jù)組、3.連接數(shù)據(jù)組、4.類型數(shù)據(jù)組維度表的設(shè)計(jì):維度表示事實(shí)表的進(jìn)一步細(xì)化,它也要基于邏輯模型來設(shè)計(jì);維度表就是將這些詳細(xì)說明的額數(shù)據(jù)按邏輯關(guān)系進(jìn)展存放工具。一個(gè)維度表擁有很多屬性,參考事實(shí)表的數(shù)據(jù)。事實(shí)表的設(shè)計(jì):事實(shí)表是星型模型的核心,通常包括:鍵〔主鍵、外鍵〕和詳細(xì)指標(biāo),事實(shí)表需要大量的數(shù)據(jù)來對其屬性和細(xì)節(jié)加以詳細(xì)說明索引策略:了解B樹P9925.元數(shù)據(jù)的類型p1021、按元數(shù)據(jù)描述的容分基于根本數(shù)據(jù)的元數(shù)據(jù)、關(guān)于數(shù)據(jù)處理的元數(shù)據(jù)、關(guān)于企業(yè)組織的元數(shù)據(jù)2、按用戶的角度分技術(shù)元數(shù)據(jù)、業(yè)務(wù)元數(shù)據(jù)3、按元數(shù)據(jù)在數(shù)據(jù)倉庫中承當(dāng)?shù)娜蝿?wù)分靜態(tài)元數(shù)據(jù)動態(tài)元數(shù)據(jù)4、按數(shù)據(jù)倉庫的功能區(qū)域分類:1.數(shù)據(jù)獲取、2.數(shù)據(jù)存儲、3.信息傳遞螺旋式開發(fā)方式:26.元數(shù)據(jù)的作用:P1041、元數(shù)據(jù)在數(shù)據(jù)求精、開發(fā)、重構(gòu)中的作用〔1〕描述業(yè)務(wù)規(guī)那么與數(shù)據(jù)之間的映射〔2〕數(shù)據(jù)分割〔3〕概括與聚集〔4〕提高系統(tǒng)靈活性〔5〕定義標(biāo)準(zhǔn)處理規(guī)那么〔6〕預(yù)算與推導(dǎo)〔7〕轉(zhuǎn)換與再映射2.元數(shù)據(jù)在數(shù)據(jù)抽取與轉(zhuǎn)換中作用〔1〕確定數(shù)據(jù)源〔2〕保證數(shù)據(jù)倉庫容的質(zhì)量〔3〕實(shí)現(xiàn)屬性間的映射與轉(zhuǎn)換元數(shù)據(jù)的收集:1.來源于源系統(tǒng)、2.來源于抽取的數(shù)據(jù)、3.來源于轉(zhuǎn)換與抽取和清洗的數(shù)據(jù)、4.來源于存儲的數(shù)據(jù)、5.來源于裝載的數(shù)據(jù)、6.來源于信息傳遞26.粒度的劃分:粒度數(shù)據(jù)倉庫數(shù)據(jù)單元的詳細(xì)程度和級別每個(gè)表的存儲空間應(yīng)是其數(shù)據(jù)存儲空間和索引空間之和〔1〕數(shù)據(jù)存儲空間的估算數(shù)據(jù)存儲空間=表的行數(shù)X每行占用的空間〔2〕索引存儲空間估算索引存儲空間=表的行數(shù)X碼占用的客戶一年數(shù)據(jù)5年數(shù)據(jù)10000000雙重粒度,仔細(xì)設(shè)計(jì)20000000雙重粒度,仔細(xì)設(shè)計(jì)1000000雙重粒度10000000雙重粒度100000單粒度,仔細(xì)設(shè)計(jì)1000000單粒度,仔細(xì)設(shè)計(jì)10000不考慮100000不考慮28.建立數(shù)據(jù)倉庫的的步驟:〔1〕收集并分析業(yè)務(wù)需求〔2〕建立數(shù)據(jù)模型和數(shù)據(jù)倉庫的物理設(shè)計(jì)〔3〕定義數(shù)據(jù)源〔4〕選擇數(shù)據(jù)倉庫技術(shù)和平臺〔5〕從操作型數(shù)據(jù)庫提取、轉(zhuǎn)換和凈化數(shù)據(jù)并將其加載至數(shù)據(jù)倉庫〔6〕選擇訪問和報(bào)表工具〔7〕選擇數(shù)據(jù)庫連接軟件〔8〕選擇數(shù)據(jù)分析和數(shù)據(jù)展示軟件〔9〕更新數(shù)據(jù)倉庫30.SQLServer2005是基于客戶
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 初中學(xué)校安全知識培訓(xùn)課件
- 創(chuàng)傷病人容量復(fù)蘇課件
- 創(chuàng)業(yè)板交易規(guī)則課件
- 進(jìn)五年高考數(shù)學(xué)試卷
- 以純品牌現(xiàn)狀深度分析-
- 南昌高考三模數(shù)學(xué)試卷
- 南昌三中初二數(shù)學(xué)試卷
- 龍南縣初一數(shù)學(xué)試卷
- 隴南市一診數(shù)學(xué)試卷
- 遼寧省新中考改革數(shù)學(xué)試卷
- Q-CSG1211016-2025 光伏發(fā)電站接入電網(wǎng)技術(shù)規(guī)范
- 初中英語:1000組固定詞組及句型搭配
- GB 5009.236-2016食品安全國家標(biāo)準(zhǔn)動植物油脂水分及揮發(fā)物的測定
- GA 95-2007滅火器維修與報(bào)廢規(guī)程
- 26個(gè)英文字母(課堂PPT)
- 統(tǒng)計(jì)學(xué)方法-課后習(xí)題答案
- 高溫高壓天然氣井固井水泥漿防氣竄技術(shù)研究新進(jìn)展-郭小陽
- [江西]220千伏輸變電工程監(jiān)理規(guī)劃(144頁)
- 華為TaiShan服務(wù)器產(chǎn)品彩頁
- DB36T 1331-2020 水利工程維修養(yǎng)護(hù)技術(shù)規(guī)范_(高清版)
- JJF 1809-2020 逆反射測量儀校準(zhǔn)規(guī)范(高清版)
評論
0/150
提交評論