




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
事務(wù)型處理事務(wù)型處理:即操作型處理,是指對(duì)數(shù)據(jù)庫(kù)的聯(lián)機(jī)操作處理OLTP。事務(wù)型處理是用來(lái)協(xié)助企業(yè)對(duì)響應(yīng)事件或事務(wù)的日常商務(wù)活動(dòng)進(jìn)行處理。它是事件驅(qū)動(dòng)、面向應(yīng)用的,通常是對(duì)一個(gè)或一組記錄的增、刪、改以及簡(jiǎn)單查詢等(大量、簡(jiǎn)單、重復(fù)和例行性)。在事務(wù)型處理環(huán)境中,數(shù)據(jù)庫(kù)要求能支持日常事務(wù)中的大量事務(wù),用戶對(duì)數(shù)據(jù)的存取操作頻率高,但每次操作處理的時(shí)間短。分析型處理分析型處理:用于管理人員的決策分析,例如決策支持系統(tǒng)(DSS)、經(jīng)理信息系統(tǒng)(EIS)和多維分析等。它幫助決策者分析數(shù)據(jù)以觀察趨向、判斷問(wèn)題。分析型處理經(jīng)常要訪問(wèn)大量的歷史數(shù)據(jù),支持復(fù)雜的查詢。分析型處理過(guò)程中經(jīng)常用到外部數(shù)據(jù),這部分?jǐn)?shù)據(jù)不是由事務(wù)型處理系統(tǒng)產(chǎn)生的,而是來(lái)自于其他外部數(shù)據(jù)源。分析型處理事務(wù)型處理和分析型處理具有不同的特征,主要體現(xiàn)在以下幾個(gè)方面處理性能數(shù)據(jù)集成數(shù)據(jù)更新數(shù)據(jù)時(shí)限數(shù)據(jù)綜合事務(wù)型處理數(shù)據(jù)和分析型處理數(shù)據(jù)的區(qū)別特性O(shè)LTPOLAP特征面向用戶功能DB設(shè)計(jì)數(shù)據(jù)匯總視圖工作單位存取關(guān)注操作訪問(wèn)記錄數(shù)用戶數(shù)DB規(guī)模優(yōu)先度量操作處理事務(wù)辦事員、DBA、數(shù)據(jù)庫(kù)專業(yè)人員日常操作基于E-R,面向應(yīng)用當(dāng)前的;確保最新原始的,高度詳細(xì)詳細(xì),一般關(guān)系短的、簡(jiǎn)單事務(wù)讀/寫數(shù)據(jù)進(jìn)入主關(guān)鍵字上索引/散列數(shù)十個(gè)數(shù)千100MB到GB高性能,高可用性事務(wù)吞吐量信息處理分析知識(shí)工人(如經(jīng)理、主管、分析員)長(zhǎng)期信息需求,決策支持星形/雪花,面向主題歷史的;跨時(shí)間維護(hù)匯總的,統(tǒng)一的匯總的,多維的復(fù)雜查詢大多為讀信息輸出大量掃描數(shù)百萬(wàn)數(shù)百100GB到TB高靈活性,端點(diǎn)用戶自治查詢吞吐量,響應(yīng)時(shí)間數(shù)據(jù)庫(kù)系統(tǒng)的局限性數(shù)據(jù)庫(kù)適于存儲(chǔ)高度結(jié)構(gòu)化的日常事務(wù)細(xì)節(jié)數(shù)據(jù),而決策型數(shù)據(jù)多為歷史性、匯總性或計(jì)算性的數(shù)據(jù),多表現(xiàn)為靜態(tài)數(shù)據(jù),不需直接更新,但可周期性刷新。決策分析型數(shù)據(jù)是多維性,分析內(nèi)容復(fù)雜。在事務(wù)處理環(huán)境中,決策者可能并不關(guān)心具體的細(xì)節(jié)信息,在決策分析環(huán)境中,如果這些細(xì)節(jié)數(shù)據(jù)量太大,一方面會(huì)嚴(yán)重影響分析效率,另一方面這些細(xì)節(jié)數(shù)據(jù)會(huì)分散決策者的注意力。DB2OracleSQLServerExcelspreadsheetXMLdocumentInternetSSLclientapplicationsBrowsersDatamanagementlayerApplicationlayerWebservers數(shù)據(jù)庫(kù)系統(tǒng)的局限性(續(xù))當(dāng)事務(wù)型處理環(huán)境和分析型處理環(huán)境在同一個(gè)數(shù)據(jù)庫(kù)系統(tǒng)中,事務(wù)型處理對(duì)數(shù)據(jù)的存取操作頻率高,操作處理的時(shí)間短,而分析型處理可能需要連續(xù)運(yùn)行幾個(gè)小時(shí),從而消耗大量的系統(tǒng)資源。決策型分析數(shù)據(jù)的數(shù)據(jù)量大,這些數(shù)據(jù)來(lái)自企業(yè)內(nèi)部或外部。來(lái)自企業(yè)外部的數(shù)據(jù)又可能來(lái)自不同的數(shù)據(jù)庫(kù)系統(tǒng),在分析時(shí)直接對(duì)這些數(shù)據(jù)操作會(huì)造成分析的混亂。對(duì)于外部數(shù)據(jù)中的一些非結(jié)構(gòu)化數(shù)據(jù),傳統(tǒng)數(shù)據(jù)庫(kù)系統(tǒng)常常是無(wú)能為力。多庫(kù)系統(tǒng)的限制可用性:源站點(diǎn)或通信網(wǎng)絡(luò)故障將導(dǎo)致系統(tǒng)癱瘓,源站點(diǎn)不能通過(guò)網(wǎng)絡(luò)在線連入多庫(kù)系統(tǒng)。響應(yīng)速度:全局查詢多級(jí)轉(zhuǎn)換和通信傳輸,延遲和低層效率影響響應(yīng)速度。系統(tǒng)性能:總體性能取決于源站點(diǎn)中性能最低的系統(tǒng),影響系統(tǒng)性能的發(fā)揮。系統(tǒng)開(kāi)銷:每次查詢要啟動(dòng)多個(gè)局部系統(tǒng),通信和運(yùn)行開(kāi)銷大。實(shí)施數(shù)據(jù)倉(cāng)庫(kù)的條件數(shù)據(jù)積累已達(dá)到一定規(guī)模。面臨激烈的市場(chǎng)競(jìng)爭(zhēng)。在IT方面的資金能得到保障。數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展WalMart建立了第一個(gè)數(shù)據(jù)倉(cāng)庫(kù)。早期的數(shù)據(jù)倉(cāng)庫(kù)大都采用當(dāng)時(shí)流行的客戶/服務(wù)器結(jié)構(gòu)。近年來(lái)分布式對(duì)象技術(shù)飛速發(fā)展,整個(gè)數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)從功能上劃分為若干個(gè)分布式對(duì)象,這些分布式對(duì)象不僅可以直接用于建立數(shù)據(jù)倉(cāng)庫(kù),還可以在應(yīng)用程序中向用戶提供調(diào)用的接口。IBM的實(shí)驗(yàn)室在數(shù)據(jù)倉(cāng)庫(kù)方面已經(jīng)進(jìn)行了10多年的研究,并將研究成果發(fā)展成為商用產(chǎn)品。其他數(shù)據(jù)庫(kù)廠商在數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域也紛紛提出了各自的解決方案。數(shù)據(jù)倉(cāng)庫(kù)(DataWarehouse)數(shù)據(jù)倉(cāng)庫(kù)用來(lái)保存從多個(gè)數(shù)據(jù)庫(kù)或其它信息源選取的數(shù)據(jù),并為上層應(yīng)用提供統(tǒng)一用戶接口,完成數(shù)據(jù)查詢和分析。支持整個(gè)企業(yè)范圍的決策支持,提供大量面向整個(gè)企業(yè)的綜合信息。數(shù)據(jù)倉(cāng)庫(kù)是作為決策服務(wù)的分析型數(shù)據(jù)庫(kù),用來(lái)存放大容量的只讀數(shù)據(jù),為制定決策提供所需要的信息。數(shù)據(jù)倉(cāng)庫(kù)是與業(yè)務(wù)系統(tǒng)相分離的、基于標(biāo)準(zhǔn)企業(yè)模型集成的、帶有時(shí)間屬性的、面向主題及不可更新的數(shù)據(jù)集合。以1992年數(shù)據(jù)倉(cāng)庫(kù)之父Inmon出版《BuildingtheDataWarehouse》為標(biāo)志,數(shù)據(jù)倉(cāng)庫(kù)發(fā)展速度很快。Inmon對(duì)數(shù)據(jù)倉(cāng)庫(kù)的認(rèn)識(shí):數(shù)據(jù)倉(cāng)庫(kù)是面向主題的、集成的、穩(wěn)定的、隨時(shí)間變化的數(shù)據(jù)集合,用以支持管理決策的過(guò)程。數(shù)據(jù)倉(cāng)庫(kù)的特性面向主題集成性數(shù)據(jù)的非易失性數(shù)據(jù)的時(shí)變性面向主題數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是按照各種主題來(lái)組織的。主題在數(shù)據(jù)倉(cāng)庫(kù)中的物理實(shí)現(xiàn)是一系列的相關(guān)表。如保險(xiǎn)公司的主題可能是汽車保險(xiǎn)、生命保險(xiǎn)、傷亡保險(xiǎn),而數(shù)據(jù)倉(cāng)庫(kù)是按照客戶、政策、保險(xiǎn)金和索賠來(lái)組織數(shù)據(jù)。面向主題的數(shù)據(jù)組織方式可在較高層次上對(duì)分析對(duì)象的數(shù)據(jù)給出完整、一致的描述,能完整、統(tǒng)一地刻畫(huà)各個(gè)分析對(duì)象所涉及的各項(xiàng)數(shù)據(jù)以及數(shù)據(jù)之間的聯(lián)系。一些主題相關(guān)的數(shù)據(jù)通常分布在多個(gè)業(yè)務(wù)系統(tǒng)中。集成性數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是從原有分散的源數(shù)據(jù)庫(kù)中提取出來(lái),每一個(gè)主題所對(duì)應(yīng)的源數(shù)據(jù)在原有的數(shù)據(jù)庫(kù)中有許多冗余和不一致,且與不同的應(yīng)用邏輯相關(guān)。為了創(chuàng)建一個(gè)有效的主題,必須將這些來(lái)自不同數(shù)據(jù)源的數(shù)據(jù)集成起來(lái),使之遵循統(tǒng)一的編碼規(guī)則。數(shù)據(jù)的非易失性數(shù)據(jù)倉(cāng)庫(kù)內(nèi)的數(shù)據(jù)有很長(zhǎng)的時(shí)間跨度,通常是5-10年。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)反映了一段時(shí)間內(nèi)歷史數(shù)據(jù)的內(nèi)容,是不同時(shí)點(diǎn)的數(shù)據(jù)庫(kù)快照的集合,以及基于撰寫快照進(jìn)行統(tǒng)計(jì)、綜合和重組的導(dǎo)出數(shù)據(jù)。主要供企業(yè)高層決策分析之用,所涉及的數(shù)據(jù)操作主要是查詢,一般情況下并不進(jìn)行修改操作。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是不可實(shí)時(shí)更新的,僅當(dāng)超過(guò)規(guī)定的存儲(chǔ)期限,才將其從數(shù)據(jù)倉(cāng)庫(kù)中刪除,提取新的數(shù)據(jù)經(jīng)集成后輸入數(shù)據(jù)倉(cāng)庫(kù)。經(jīng)過(guò)加工和集成進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)是極少更新的,通常只需要定期加載和更新。不同類型數(shù)據(jù)的更新頻率是不同的。例如,產(chǎn)品屬性的變化每個(gè)星期更新一次,地理位置的變化每個(gè)月更新一次,銷售數(shù)據(jù)每天更新一次。數(shù)據(jù)的時(shí)變性許多商業(yè)分析要求對(duì)發(fā)展趨勢(shì)做出預(yù)測(cè),對(duì)發(fā)展趨勢(shì)的分析需要訪問(wèn)歷史數(shù)據(jù)。因此數(shù)據(jù)倉(cāng)庫(kù)必需要不斷捕捉OLTP數(shù)據(jù)庫(kù)中變化的數(shù)據(jù),生成數(shù)據(jù)庫(kù)的快照,經(jīng)集成后導(dǎo)入到數(shù)據(jù)倉(cāng)庫(kù);另外數(shù)據(jù)倉(cāng)庫(kù)還需要隨時(shí)間的變化刪去過(guò)期的、對(duì)分析沒(méi)有價(jià)值的數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)隨時(shí)間變化主要變現(xiàn)在以下幾個(gè)方面:數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)時(shí)限一般要遠(yuǎn)遠(yuǎn)長(zhǎng)于業(yè)務(wù)系統(tǒng)的數(shù)據(jù)時(shí)限。業(yè)務(wù)系統(tǒng)存儲(chǔ)的是當(dāng)前數(shù)據(jù),而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是歷史數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是按照時(shí)間順序追加的,它們都帶有時(shí)間屬性。支持管理決策數(shù)據(jù)倉(cāng)庫(kù)支持OLAP(聯(lián)機(jī)分析處理)、數(shù)據(jù)挖掘,提供決策支持。OLAP從數(shù)據(jù)倉(cāng)庫(kù)中的綜合數(shù)據(jù)出發(fā),提供面向分析的多維模型,并使用多維分析的方法從多個(gè)角度、多個(gè)層次對(duì)多維數(shù)據(jù)進(jìn)行分析。數(shù)據(jù)挖掘則以數(shù)據(jù)倉(cāng)庫(kù)和多維數(shù)據(jù)庫(kù)中的數(shù)據(jù)為基礎(chǔ),發(fā)現(xiàn)數(shù)據(jù)中的潛在模式和進(jìn)行預(yù)測(cè)。因此,數(shù)據(jù)倉(cāng)庫(kù)的功能是支持管理層進(jìn)行科學(xué)決策,而不是事務(wù)處理。數(shù)據(jù)倉(cāng)庫(kù)的技術(shù)要求復(fù)雜分析的高性能體現(xiàn):涉及大量數(shù)據(jù)的聚集、綜合等,在進(jìn)行復(fù)雜查詢時(shí)經(jīng)常會(huì)使用多表的聯(lián)接、累計(jì)、分類、排序等操作。對(duì)提取出來(lái)的數(shù)據(jù)進(jìn)行集成:數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是從多個(gè)應(yīng)用領(lǐng)域中提取出來(lái)的,在不同的應(yīng)用領(lǐng)域和不同的數(shù)據(jù)庫(kù)系統(tǒng)中都有不同的結(jié)構(gòu)和形式,對(duì)數(shù)據(jù)進(jìn)行集成也是構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)重要方面。對(duì)進(jìn)行高層決策的最終用戶的界面支持:提供各種分析應(yīng)用工具。數(shù)據(jù)倉(cāng)庫(kù)的結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)主要包括數(shù)據(jù)的提取、轉(zhuǎn)換與裝載(ETL)、元數(shù)據(jù)、數(shù)據(jù)集市和操作數(shù)據(jù)存儲(chǔ)等部分,常用的數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)如下圖。數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的組成源數(shù)據(jù):數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)來(lái)源于多個(gè)數(shù)據(jù)源,它不僅可以是企業(yè)內(nèi)部的關(guān)系型數(shù)據(jù)庫(kù),還包括非傳統(tǒng)數(shù)據(jù),如文件、HTML文檔等。數(shù)據(jù)倉(cāng)庫(kù)管理系統(tǒng):元數(shù)據(jù)庫(kù)及元數(shù)據(jù)管理部件:元數(shù)據(jù)庫(kù)用來(lái)存儲(chǔ)由定義部件生成的關(guān)于源數(shù)據(jù)、目標(biāo)數(shù)據(jù)、提取規(guī)則、轉(zhuǎn)換規(guī)則以及源數(shù)據(jù)與數(shù)據(jù)倉(cāng)庫(kù)之間的映射信息等。數(shù)據(jù)轉(zhuǎn)換部件:該部件把數(shù)據(jù)從源數(shù)據(jù)中提取出來(lái),依定義部件的規(guī)則將不同數(shù)據(jù)格式的源數(shù)據(jù)轉(zhuǎn)換成數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)格式并裝載進(jìn)數(shù)據(jù)倉(cāng)庫(kù)。數(shù)據(jù)集成部件:該部件根據(jù)定義部件的規(guī)則、統(tǒng)一各源數(shù)據(jù)的編碼規(guī)則,并凈化數(shù)據(jù),根據(jù)元數(shù)據(jù)中定義的數(shù)據(jù)組織形式對(duì)數(shù)據(jù)進(jìn)行匯總、聚合計(jì)算。數(shù)據(jù)倉(cāng)庫(kù)管理部件:它主要用于維護(hù)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù),備份、恢復(fù)數(shù)據(jù)以及管理數(shù)據(jù)的安全權(quán)限問(wèn)題。 數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的組成(續(xù))數(shù)據(jù)倉(cāng)庫(kù)前端工具集查詢/報(bào)表工具:以圖形化方式和報(bào)表方式顯示數(shù)據(jù),幫助了解數(shù)據(jù)的結(jié)構(gòu)、關(guān)系以及動(dòng)態(tài)性。OLAP工具:通過(guò)對(duì)信息的多種可能的觀察形式進(jìn)行快速、一致和交互性的存取,便于用戶對(duì)數(shù)據(jù)進(jìn)行深入的分析。數(shù)據(jù)挖掘工具:從大量數(shù)據(jù)中挖掘出具有規(guī)律性的知識(shí),以及數(shù)據(jù)之間的內(nèi)在聯(lián)系。前端開(kāi)發(fā)工具:提供用戶編程接口,便于在現(xiàn)有系統(tǒng)的基礎(chǔ)上進(jìn)行二次開(kāi)發(fā),增強(qiáng)系統(tǒng)的伸縮性。數(shù)據(jù)倉(cāng)庫(kù):在數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中,數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)數(shù)據(jù)存儲(chǔ)集合,它的存儲(chǔ)形式通常有多維數(shù)據(jù)庫(kù)、關(guān)系型數(shù)據(jù)庫(kù)及其他存儲(chǔ)方式。數(shù)據(jù)集市數(shù)據(jù)倉(cāng)庫(kù)是企業(yè)級(jí)的,能為整個(gè)企業(yè)各部門的運(yùn)行提供決策支持手段。而數(shù)據(jù)集市(DataMart)是部門級(jí)別的,一般只能為某個(gè)局部范圍內(nèi)的管理人員服務(wù),也稱為部門級(jí)的數(shù)據(jù)倉(cāng)庫(kù)。數(shù)據(jù)集市有兩種:獨(dú)立的數(shù)據(jù)集市和從屬的數(shù)據(jù)集市。數(shù)據(jù)集市是專門為某一部門或某個(gè)特定的商業(yè)需求定制的,而不是根據(jù)數(shù)據(jù)容量命名的。數(shù)據(jù)集市不是數(shù)據(jù)倉(cāng)庫(kù),也并非小的數(shù)據(jù)倉(cāng)庫(kù),多個(gè)數(shù)據(jù)集市集合并不簡(jiǎn)單構(gòu)成數(shù)據(jù)倉(cāng)庫(kù)。元數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)中的元數(shù)據(jù)是關(guān)于數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的數(shù)據(jù),作用類似于數(shù)據(jù)庫(kù)管理系統(tǒng)的數(shù)據(jù)字典,用于保存邏輯數(shù)據(jù)結(jié)構(gòu)、文件、地址和索引等信息。數(shù)據(jù)倉(cāng)庫(kù)的所有數(shù)據(jù)都要通過(guò)元數(shù)據(jù)來(lái)管理和控制。元數(shù)據(jù)是用來(lái)描述數(shù)據(jù)的數(shù)據(jù),它描述關(guān)于源數(shù)據(jù)的說(shuō)明,包括源數(shù)據(jù)的來(lái)源、源數(shù)據(jù)的名稱、源數(shù)據(jù)的定義、源數(shù)據(jù)的創(chuàng)建時(shí)間等對(duì)源數(shù)據(jù)進(jìn)行管理所需要的信息,也可反映數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)項(xiàng)是從哪個(gè)特定的數(shù)據(jù)源填充的,經(jīng)過(guò)哪些轉(zhuǎn)換、集成過(guò)程。用戶在使用數(shù)據(jù)倉(cāng)庫(kù)時(shí),通過(guò)元數(shù)據(jù)訪問(wèn)數(shù)據(jù),明確數(shù)據(jù)項(xiàng)的含義以及定制報(bào)表。數(shù)據(jù)倉(cāng)庫(kù)的規(guī)模及其復(fù)雜性離不開(kāi)正確的元數(shù)據(jù)管理,包括增加或移除外部數(shù)據(jù)源,改變數(shù)據(jù)清洗方法、控制出錯(cuò)的查詢以及安排備份等。元數(shù)據(jù)(續(xù))技術(shù)元數(shù)據(jù)與業(yè)務(wù)元數(shù)據(jù)元數(shù)據(jù)可分為技術(shù)元數(shù)據(jù)與業(yè)務(wù)元數(shù)據(jù)。技術(shù)元數(shù)據(jù)技術(shù)元數(shù)據(jù)為開(kāi)發(fā)和管理數(shù)據(jù)倉(cāng)庫(kù)的IT人員使用,描述與數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)、管理和維護(hù)相關(guān)的數(shù)據(jù),包括數(shù)據(jù)源信息、數(shù)據(jù)轉(zhuǎn)換描述、數(shù)據(jù)倉(cāng)庫(kù)模型、數(shù)據(jù)清洗與更新規(guī)則、數(shù)據(jù)映射和訪問(wèn)權(quán)限等。業(yè)務(wù)元數(shù)據(jù)業(yè)務(wù)元數(shù)據(jù)為管理層和業(yè)務(wù)分析人員服務(wù),從業(yè)務(wù)角度描述數(shù)據(jù),包括商務(wù)術(shù)語(yǔ)、數(shù)據(jù)倉(cāng)庫(kù)中有什么數(shù)據(jù)、數(shù)據(jù)的位置和數(shù)據(jù)的可用性等,使業(yè)務(wù)人員更好地理解數(shù)據(jù)倉(cāng)庫(kù)中哪些數(shù)據(jù)是可用的以及如何使用它們。元數(shù)據(jù)的作用描述哪些數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)中,幫助決策分析者對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)定位。定義數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)的方式,作為數(shù)據(jù)匯總、映射和清洗的指南。記錄業(yè)務(wù)事件的發(fā)生和隨之進(jìn)行的數(shù)據(jù)抽取的時(shí)間安排。記錄并檢測(cè)系統(tǒng)數(shù)據(jù)一致性的要求和執(zhí)行情況。評(píng)估數(shù)據(jù)質(zhì)量。粒度粒度:對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)綜合程度高低的一個(gè)度量,它既影響數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)量的多少,也影響數(shù)據(jù)倉(cāng)庫(kù)所能回答詢問(wèn)的種類。粒度越小,數(shù)據(jù)越細(xì),查詢的范圍就越廣;粒度越高,細(xì)節(jié)程度越低,查詢的范圍就越小。在數(shù)據(jù)倉(cāng)庫(kù)中可將小粒度的數(shù)據(jù)存儲(chǔ)在低速存儲(chǔ)器上;大粒度的數(shù)據(jù)存儲(chǔ)在高速存儲(chǔ)器上。根據(jù)粒度的不同,可以把數(shù)據(jù)劃分為早期細(xì)節(jié)級(jí)、當(dāng)前細(xì)節(jié)級(jí)、輕度綜合級(jí)和高度綜合級(jí)等。數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的多粒度化為用戶使用數(shù)據(jù)提供了一定的靈活性。高度綜合級(jí)輕度綜合級(jí)當(dāng)前細(xì)節(jié)級(jí)早期細(xì)節(jié)級(jí)通用數(shù)據(jù)倉(cāng)庫(kù)元模型目前大部分商務(wù)智能產(chǎn)品都有不同的元數(shù)據(jù)模型,因而元數(shù)據(jù)模型的標(biāo)準(zhǔn)化管理是有必要的。通用數(shù)據(jù)倉(cāng)庫(kù)元模型(CWM)就是不同元數(shù)據(jù)的存儲(chǔ)和管理標(biāo)準(zhǔn),得到IBM、Oracle、NCR、Sun和HP等公司的支持。通過(guò)通用數(shù)據(jù)倉(cāng)庫(kù)元模型,元數(shù)據(jù)就可以在不同商務(wù)智能系統(tǒng)之間交換和共享,從而減少商務(wù)智能構(gòu)建的費(fèi)用。ETL數(shù)據(jù)倉(cāng)庫(kù)并非只是數(shù)據(jù)的簡(jiǎn)單累積,而是要經(jīng)過(guò)一系列的抽取、轉(zhuǎn)換和裝載的過(guò)程,即ETL。ETL是構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的重要環(huán)節(jié),也是企業(yè)數(shù)據(jù)管理的核心,對(duì)數(shù)據(jù)倉(cāng)庫(kù)的后續(xù)環(huán)節(jié)影響大。ETL的主要功能分為數(shù)據(jù)抽取、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)清洗以及數(shù)據(jù)裝載。數(shù)據(jù)抽取確認(rèn)數(shù)據(jù)源的數(shù)據(jù)及其含義。抽取。確定訪問(wèn)元數(shù)據(jù)庫(kù)中的哪些文件或表,需要提取其中哪些字段。抽取頻率。需要定期更新數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù),因此對(duì)不同的數(shù)據(jù)源需要確定數(shù)據(jù)抽取的頻率,如每天、每星期、每月或每季度等。輸出。數(shù)據(jù)輸出的目的地和輸出的格式。異常處理。當(dāng)需要的數(shù)據(jù)無(wú)法抽取時(shí)如何處理。數(shù)據(jù)轉(zhuǎn)換不一致數(shù)據(jù)的轉(zhuǎn)換數(shù)據(jù)不一致包括數(shù)據(jù)源內(nèi)部的不一致和多個(gè)數(shù)據(jù)源之間的數(shù)據(jù)不一致等。不同業(yè)務(wù)系統(tǒng)的數(shù)量單位、編碼、值域或語(yǔ)義等都需要統(tǒng)一。數(shù)據(jù)粒度的轉(zhuǎn)換數(shù)據(jù)粒度的轉(zhuǎn)換。業(yè)務(wù)系統(tǒng)一般存儲(chǔ)細(xì)粒度的事務(wù)型數(shù)據(jù),而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是用于查詢、分析,因此需要多種不同粒度的數(shù)據(jù)。這些不同粒度的數(shù)據(jù)可以通過(guò)對(duì)細(xì)粒度的事務(wù)型數(shù)據(jù)進(jìn)行聚合(aggregation)而產(chǎn)生。數(shù)據(jù)清洗數(shù)據(jù)源中數(shù)據(jù)的質(zhì)量是非常重要的,低劣的“臟”數(shù)據(jù)容易導(dǎo)致低質(zhì)量的決策甚至是錯(cuò)誤的決策。此外,這些“臟”數(shù)據(jù)或不可用數(shù)據(jù)也可能造成報(bào)表的不一致等問(wèn)題。因此有必要全面校驗(yàn)數(shù)據(jù)源的數(shù)據(jù)質(zhì)量,此過(guò)程就是數(shù)據(jù)清洗(datacleaning)。主要的數(shù)據(jù)質(zhì)量問(wèn)題有以下幾種:缺失(missing)數(shù)據(jù),即數(shù)據(jù)值的缺失。錯(cuò)誤數(shù)據(jù)。常見(jiàn)的錯(cuò)誤數(shù)據(jù)包括字段的虛假值、異常取值等。這些錯(cuò)誤數(shù)據(jù)產(chǎn)生的主要原因是由于業(yè)務(wù)系統(tǒng)在數(shù)據(jù)輸入后不能進(jìn)行正確性判斷而被錄入數(shù)據(jù)庫(kù)。錯(cuò)誤數(shù)據(jù)需要被及時(shí)找出并限期修正。數(shù)據(jù)重復(fù)。數(shù)據(jù)重復(fù)是反復(fù)錄入同樣的數(shù)據(jù)記錄,這類數(shù)據(jù)會(huì)增加數(shù)據(jù)分析的開(kāi)銷。數(shù)據(jù)沖突。數(shù)據(jù)沖突包括同一數(shù)據(jù)源內(nèi)部的數(shù)據(jù)沖突和多個(gè)數(shù)據(jù)源之間的數(shù)據(jù)沖突。沖突的數(shù)據(jù)也需要及時(shí)地修正。更新與刷新在初始裝載完成后,為維護(hù)和保持?jǐn)?shù)據(jù)的有效性,可以采用更新和刷新的方式。更新:對(duì)數(shù)據(jù)源的變化進(jìn)行記錄。刷新:對(duì)特定周期數(shù)據(jù)進(jìn)行重新裝載。操作數(shù)據(jù)存儲(chǔ)數(shù)據(jù)倉(cāng)庫(kù)實(shí)現(xiàn)操作型數(shù)據(jù)與分析型數(shù)據(jù)的分離,建立了數(shù)據(jù)庫(kù)-數(shù)據(jù)倉(cāng)庫(kù)(DB-DW)兩層體系結(jié)構(gòu)。然而DB-DW并不能完全滿足企業(yè)所有的數(shù)據(jù)處理需求,有時(shí)企業(yè)需要全局一致的、細(xì)粒度、面向主題、集成的和時(shí)變的當(dāng)前或接近當(dāng)前的數(shù)據(jù),因而需要在DB-DW之間增加一個(gè)新的層次——操作數(shù)據(jù)存儲(chǔ),構(gòu)建DB-ODS-DW結(jié)構(gòu),滿足實(shí)時(shí)或近實(shí)時(shí)的查詢要求和報(bào)表需求。也有人將操作數(shù)據(jù)存儲(chǔ)稱為實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)。Businessdatawarehouse業(yè)務(wù)系統(tǒng)(Operationalsystems)數(shù)據(jù)集市(Datamarts)操作數(shù)據(jù)存儲(chǔ)(Operationaldatastore)元數(shù)據(jù)(MetaData)操作型數(shù)據(jù)庫(kù)、操作數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)倉(cāng)庫(kù)之間的比較數(shù)據(jù)倉(cāng)庫(kù)模型
星型圖模型
物理數(shù)據(jù)模型概念模型邏輯模型物理模型面向用戶的需求細(xì)化層次更詳細(xì)的技術(shù)細(xì)節(jié)信息包圖概念模型概念模型用來(lái)表達(dá)信息世界中的信息結(jié)構(gòu),關(guān)系數(shù)據(jù)庫(kù)一般采用實(shí)體-關(guān)系(E-R)圖來(lái)作為概念模型的表示方法。由于大多數(shù)商務(wù)數(shù)據(jù)是多維的,傳統(tǒng)的數(shù)據(jù)模型表示三維以上的數(shù)據(jù)有一定困難。概念模型簡(jiǎn)化了這個(gè)過(guò)程并且允許用戶與開(kāi)發(fā)者和其他用戶建立聯(lián)系:確定系統(tǒng)邊界:決策類型、需要的信息、原始信息確定主題域及其內(nèi)容:主題域的公共鍵碼、聯(lián)系、屬性組確定維度:如時(shí)間維、銷售位置維、產(chǎn)品維、組別維等確定類別:相應(yīng)維的詳細(xì)類別確定指標(biāo)和事實(shí):用于進(jìn)行分析的數(shù)值化信息實(shí)例〖例〗試畫(huà)出銷售分析的概念模型。首先根據(jù)銷售分析的實(shí)際需求,確定信息包的維度、類別和指標(biāo)與事實(shí):(1)維度:包括日期維、銷售地點(diǎn)維、銷售產(chǎn)品維、年齡組別維、性別維等。(2)類別:確定各維的詳細(xì)類別,如:日期維包括年(10)、季度(40)、月(120)等類別,括號(hào)中的數(shù)字分別指出各類別的數(shù)量;銷售地點(diǎn)維包括國(guó)家(15)、區(qū)域(45)、城市(280)、區(qū)(880)、商店(2000)等類別,括號(hào)中的數(shù)字同樣分別指出各類別的數(shù)量;類似地,可以確定銷售產(chǎn)品、年齡組別維、性別維等的詳細(xì)類別。(3)度量和事實(shí):確定用于進(jìn)行分析的數(shù)值化信息,包括預(yù)測(cè)銷售量、實(shí)際銷售量和預(yù)測(cè)偏差等。銷售分析的概念模型日期銷售地點(diǎn)銷售產(chǎn)品年齡組別性別年(10)國(guó)家(15)產(chǎn)品類(6)年齡組(8)性別組(2)季度(40)區(qū)域(45)產(chǎn)品組(48)月(120)城市(280)產(chǎn)品(240)區(qū)(880)商店(2000)度量和事實(shí):預(yù)測(cè)銷售量、實(shí)際銷售量、預(yù)測(cè)偏差信息包:銷售分析 維度類別邏輯模型(1)星型模型數(shù)據(jù)倉(cāng)庫(kù)通常有兩種基本的邏輯模型:星型模型和雪花模型。星型模型的核心是事實(shí)表,事實(shí)表把各種不同的維表連接起來(lái)。與傳統(tǒng)的關(guān)系模型相比,星型模型簡(jiǎn)化了用戶分析所需的關(guān)系,從支持決策的角度去定義數(shù)據(jù)實(shí)體,更適合大量復(fù)雜查詢。星型圖包括了三種邏輯實(shí)體:指標(biāo)、維度和詳細(xì)類別。維表的本質(zhì)是多維分析空間在某個(gè)角度上的投影,多個(gè)維表共同建立一個(gè)多維分析空間。邏輯模型(2)雪花模型雪花模型是星型模型的擴(kuò)展,某些維表中的數(shù)據(jù)可以進(jìn)一步分解到附加的表中,以便減少冗余,節(jié)省存儲(chǔ)空間。雪花模型對(duì)星型模型中的維表進(jìn)行進(jìn)一步標(biāo)準(zhǔn)化、規(guī)范化處理。物理模型數(shù)據(jù)倉(cāng)庫(kù)的物理模型是邏輯模型在數(shù)據(jù)倉(cāng)庫(kù)中的實(shí)現(xiàn),主要包含數(shù)據(jù)倉(cāng)庫(kù)的軟硬件配置、數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)與索引、數(shù)據(jù)存儲(chǔ)位置和存儲(chǔ)分配等。在物理設(shè)計(jì)時(shí),常常要按數(shù)據(jù)的重要程度、使用頻率以及對(duì)響應(yīng)時(shí)間的要求進(jìn)行分類,并將不同類的數(shù)據(jù)分別存儲(chǔ)在不同的存儲(chǔ)設(shè)備中。重要程度高、經(jīng)常存取并對(duì)響應(yīng)時(shí)間高的數(shù)據(jù)就存放在高速存儲(chǔ)設(shè)備上;存取頻率低或?qū)Υ嫒№憫?yīng)時(shí)間要求低的數(shù)據(jù)則可以放在低速存儲(chǔ)設(shè)備上。同一個(gè)主題的數(shù)據(jù)并不一定要存儲(chǔ)在相同的介質(zhì)上。設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)的物理模型需要考慮的問(wèn)題確定項(xiàng)目資源。需要對(duì)該項(xiàng)目的成本、周期和資源進(jìn)行估算。確定軟硬件配置。需要對(duì)數(shù)據(jù)容量進(jìn)行估算,進(jìn)而推算數(shù)據(jù)倉(cāng)庫(kù)的預(yù)計(jì)容量,在發(fā)揮軟件的功能,滿足實(shí)際的處理需求同時(shí),又為將來(lái)的系統(tǒng)擴(kuò)展預(yù)留出一定的空間。數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)設(shè)計(jì)。一般采用分層設(shè)計(jì),即ODS層、數(shù)據(jù)倉(cāng)庫(kù)層、數(shù)據(jù)倉(cāng)庫(kù)聚合層和數(shù)據(jù)集市等。數(shù)據(jù)倉(cāng)庫(kù)ETL策略:數(shù)據(jù)抽取策略。數(shù)據(jù)抽取不僅需要滿足業(yè)務(wù)處理和決策分析的要求,而且不能影響業(yè)務(wù)系統(tǒng)的性能。數(shù)據(jù)轉(zhuǎn)換策略。數(shù)據(jù)轉(zhuǎn)換是根據(jù)決策分析主題的要求,對(duì)業(yè)務(wù)系統(tǒng)中抽取的源數(shù)據(jù)進(jìn)行轉(zhuǎn)換、清洗等處理,保證來(lái)自不同數(shù)據(jù)源的數(shù)據(jù)的一致性和完整性。數(shù)據(jù)加載策略。數(shù)據(jù)加載是指從業(yè)務(wù)系統(tǒng)中抽取轉(zhuǎn)換后的數(shù)據(jù)裝載到數(shù)據(jù)倉(cāng)庫(kù)中。數(shù)據(jù)挖掘查詢語(yǔ)言數(shù)據(jù)挖掘原語(yǔ)可以用來(lái)定義數(shù)據(jù)挖掘任務(wù),如數(shù)據(jù)挖掘查詢語(yǔ)言(DataMiningQueryLanguage,DMQL)。DMQL是一種具SQL的數(shù)據(jù)挖掘查詢語(yǔ)言,包括定義數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)集市、挖掘概念/類描述、關(guān)聯(lián)和分類等數(shù)據(jù)挖掘原語(yǔ)。數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市可以使用兩種數(shù)據(jù)挖掘原語(yǔ)定義:一種是立方體定義;另一種是維定義。立方體定義和維定義的語(yǔ)法:定義雪花模型銷售主題的雪花模型定義星系模型事實(shí)表共享維表的模式可以看作星型模型集,也稱為星系模型或事實(shí)星座。度量度量包括分布度量和代數(shù)度量。分布度量:可以用分布聚集函數(shù)count()、sum()、min()和max()等計(jì)算。代數(shù)度量:可以用代數(shù)聚集函數(shù)average()和standard_deviation()來(lái)進(jìn)行計(jì)算。醫(yī)保數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)實(shí)例(1)醫(yī)保的業(yè)務(wù)分析某市醫(yī)保體系涵蓋實(shí)時(shí)交易、個(gè)人賬戶管理、醫(yī)保事務(wù)管理、醫(yī)保服務(wù)點(diǎn)管理、審核結(jié)算管理和顧客服務(wù)系統(tǒng)等多項(xiàng)業(yè)務(wù),但由于初期缺乏嚴(yán)格的整體規(guī)劃,每個(gè)子系統(tǒng)都有局部的業(yè)務(wù)數(shù)據(jù),數(shù)據(jù)缺乏標(biāo)準(zhǔn)化和完整性,數(shù)據(jù)雜亂、冗余和數(shù)據(jù)交換繁雜,造成了數(shù)據(jù)的綜合分析、利用能力不足,影響了醫(yī)保管理的時(shí)效性,使決策者難以及時(shí)獲得醫(yī)療狀況的宏觀情況。從業(yè)務(wù)子系統(tǒng)中采集的各種基礎(chǔ)數(shù)據(jù)量約有500GB,并且隨著醫(yī)保數(shù)據(jù)采集力度加大,數(shù)據(jù)量按每月50GB左右的速度急速增長(zhǎng)。按此預(yù)測(cè),未來(lái)數(shù)據(jù)中心存儲(chǔ)的數(shù)據(jù)量將達(dá)到TB級(jí)或PB級(jí),醫(yī)保信息系統(tǒng)將負(fù)載龐大的數(shù)據(jù)。因而決定采用數(shù)據(jù)倉(cāng)庫(kù)建立集成的數(shù)據(jù)平臺(tái),以整合各分部系統(tǒng)源的數(shù)據(jù),解決信息孤島問(wèn)題,提高醫(yī)保管理的綜合分析能力,及時(shí)、有效地反映醫(yī)?;鸬倪\(yùn)作情況。醫(yī)保數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)實(shí)例(2)醫(yī)保數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)架構(gòu)采用典型的數(shù)據(jù)倉(cāng)庫(kù)三層架構(gòu)。從數(shù)據(jù)源到最終呈現(xiàn)給用戶,中間經(jīng)過(guò)數(shù)據(jù)獲取、數(shù)據(jù)管理和信息傳遞等過(guò)程。數(shù)據(jù)獲?。翰捎肊TL工具從分布異構(gòu)的數(shù)據(jù)源抽取相關(guān)的源數(shù)據(jù),經(jīng)過(guò)ETL過(guò)程裝載到操作型數(shù)據(jù)存儲(chǔ)(ODS)以及數(shù)據(jù)倉(cāng)庫(kù)中。數(shù)據(jù)管理:考慮現(xiàn)有業(yè)務(wù)系統(tǒng)核心數(shù)據(jù)庫(kù)的加載速度和轉(zhuǎn)換復(fù)雜度,醫(yī)保系統(tǒng)選用Oracle數(shù)據(jù)倉(cāng)庫(kù)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 樓梯運(yùn)動(dòng)考試題及答案
- 肺結(jié)核試題及答案
- 2026屆貴州省貴陽(yáng)市德為教育化學(xué)高二第一學(xué)期期末聯(lián)考試題含答案
- 人才來(lái)源考試題及答案
- 細(xì)骨料考試題及答案
- 動(dòng)詞名詞試題及答案
- 迎新年幼兒園活動(dòng)總結(jié)
- 現(xiàn)金出納年終工作總結(jié)
- 肛裂護(hù)理試題及答案
- 2026屆天津大學(xué)附屬中學(xué)高二化學(xué)第一學(xué)期期中學(xué)業(yè)水平測(cè)試試題含解析
- 2025年《工會(huì)法》知識(shí)競(jìng)賽試題庫(kù)及答案
- 維克多高中英語(yǔ)3500詞匯
- LY/T 2501-2015野生動(dòng)物及其產(chǎn)品的物種鑒定規(guī)范
- GB/T 748-2005抗硫酸鹽硅酸鹽水泥
- GB 15763.1-2001建筑用安全玻璃防火玻璃
- 走好群眾路線-做好群眾工作(黃相懷)課件
- 民間文學(xué)(全套課件)
- 專升本00465心理衛(wèi)生與心理輔導(dǎo)歷年試題題庫(kù)(考試必備)
- 既有重載鐵路無(wú)縫線路改造及運(yùn)維技術(shù)探索
- 2022年教師副高職稱評(píng)答辯范文(七篇)
- 高壓羅茨風(fēng)機(jī)選型參數(shù)表
評(píng)論
0/150
提交評(píng)論