ETL數(shù)據(jù)提取轉(zhuǎn)換和加載解釋_第1頁
ETL數(shù)據(jù)提取轉(zhuǎn)換和加載解釋_第2頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

基本簡介ETL,Extraction-Transformation-Loading的縮寫,中文名稱為數(shù)據(jù)提取、轉(zhuǎn)換和加載。主要特點(diǎn)ETL負(fù)責(zé)將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等抽取到臨時(shí)中間層后進(jìn)行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中,成為聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘的基礎(chǔ)。ETL一詞較常出現(xiàn)在數(shù)據(jù)倉庫,但其對象并不局限于數(shù)據(jù)倉庫。ETL是數(shù)據(jù)倉庫中的非常重要的一環(huán)。它是承前啟后的必要的一步。相對于關(guān)系數(shù)據(jù)庫,數(shù)據(jù)倉庫技術(shù)沒有嚴(yán)格的數(shù)學(xué)理論基礎(chǔ),它更面向?qū)嶋H工程應(yīng)用。所以從工程應(yīng)用的角度來考慮,按著物理數(shù)據(jù)模型的要求加載數(shù)據(jù)并對數(shù)據(jù)進(jìn)行一些系列處理,處理過程與經(jīng)驗(yàn)直接相關(guān),同時(shí)這部分的工作直接關(guān)系數(shù)據(jù)倉庫中數(shù)據(jù)的質(zhì)量,從而影響到聯(lián)機(jī)分析處理和數(shù)據(jù)挖掘的結(jié)果的質(zhì)量。數(shù)據(jù)倉庫是一個(gè)獨(dú)立的數(shù)據(jù)環(huán)境,需要通過抽取過程將數(shù)據(jù)從聯(lián)機(jī)事務(wù)處理環(huán)境、外部數(shù)據(jù)源和脫機(jī)的數(shù)據(jù)存儲介質(zhì)導(dǎo)入到數(shù)據(jù)倉庫中;在技術(shù)上,ETL主要涉及到關(guān)聯(lián)、轉(zhuǎn)換、增量、調(diào)度和監(jiān)控等幾個(gè)方面;數(shù)據(jù)倉庫系統(tǒng)中數(shù)據(jù)不要求與聯(lián)機(jī)事務(wù)處理系統(tǒng)中數(shù)據(jù)實(shí)時(shí)同步,所以ETL可以定時(shí)進(jìn)行。但多個(gè)ETL的操作時(shí)間、順序和成敗對數(shù)據(jù)倉庫中信息的有效性至關(guān)重要?;拘g(shù)語ETL過程在很大程度上受企業(yè)對源數(shù)據(jù)的理解程度的影響,也就是說從業(yè)務(wù)的角度看數(shù)據(jù)集成非常重要。一個(gè)優(yōu)秀的ETL設(shè)計(jì)應(yīng)該具有如下功能:3.11、管理簡單采用元數(shù)據(jù)方法,集中進(jìn)行管理;接口、數(shù)據(jù)格式、傳輸有嚴(yán)格的規(guī)范;盡量不在外部數(shù)據(jù)源安裝軟件;數(shù)據(jù)抽取系統(tǒng)流程自動(dòng)化,并有自動(dòng)調(diào)度功能;抽取的數(shù)據(jù)及時(shí)、準(zhǔn)確、完整;可以提供同各種數(shù)據(jù)系統(tǒng)的接口,系統(tǒng)適應(yīng)性強(qiáng);提供軟件框架系統(tǒng),系統(tǒng)功能改變時(shí),應(yīng)用程序很少改變便可適應(yīng)變化;可擴(kuò)展性強(qiáng)。3.22、標(biāo)準(zhǔn)定義數(shù)據(jù)合理的業(yè)務(wù)模型設(shè)計(jì)對ETL至關(guān)重要。數(shù)據(jù)倉庫是企業(yè)唯一、真實(shí)、可靠的綜合數(shù)據(jù)平臺。數(shù)據(jù)倉庫的設(shè)計(jì)建模一般都依照三范式、星型模型、雪花模型,無論哪種設(shè)計(jì)思想,都應(yīng)該最大化地涵蓋關(guān)鍵業(yè)務(wù)數(shù)據(jù),把運(yùn)營環(huán)境中雜亂無序的數(shù)據(jù)結(jié)構(gòu)統(tǒng)一成為合理的、關(guān)聯(lián)的、分析型的新結(jié)構(gòu),而ETL則會(huì)依照模型的定義去提取數(shù)據(jù)源,進(jìn)行轉(zhuǎn)換、清洗,并最終加載到目標(biāo)數(shù)據(jù)倉庫中。模型的重要之處在于對數(shù)據(jù)做標(biāo)準(zhǔn)化定義,實(shí)現(xiàn)統(tǒng)一的編碼、統(tǒng)一的分類和組織。標(biāo)準(zhǔn)化定義的內(nèi)容包括:標(biāo)準(zhǔn)代碼統(tǒng)一、業(yè)務(wù)術(shù)語統(tǒng)一。ETL依照模型進(jìn)行初始加載、增量加載、緩慢增長維、慢速變化維、事實(shí)表加載等數(shù)據(jù)集成,并根據(jù)業(yè)務(wù)需求制定相應(yīng)的加載策略、刷新策略、匯總策略、維護(hù)策略。3.33、拓展新型應(yīng)用對業(yè)務(wù)數(shù)據(jù)本身及其運(yùn)行環(huán)境的描述與定義的數(shù)據(jù),稱之為元數(shù)據(jù)(metadata)。元數(shù)據(jù)是描述數(shù)據(jù)的數(shù)據(jù)。從某種意義上說,業(yè)務(wù)數(shù)據(jù)主要用于支持業(yè)務(wù)系統(tǒng)應(yīng)用的數(shù)據(jù),而元數(shù)據(jù)則是企業(yè)信息門戶、客戶關(guān)系管理、數(shù)據(jù)倉庫、決策支持和B2B等新型應(yīng)用所不可或缺的內(nèi)容。元數(shù)據(jù)的典型表現(xiàn)為對象的描述,即對數(shù)據(jù)庫、表、列、列屬性(類型、格式、約束等)以及主鍵/外部鍵關(guān)聯(lián)等等的描述。特別是現(xiàn)行應(yīng)用的異構(gòu)性與分布性越來越普遍的情況下,統(tǒng)一的元數(shù)據(jù)就愈發(fā)重要了“。信息孤島”曾經(jīng)是很多企業(yè)對其應(yīng)用現(xiàn)狀的一種抱怨和概括,而合理的元數(shù)據(jù)則會(huì)有效地描繪出信息的關(guān)聯(lián)性。而元數(shù)據(jù)對于ETL的集中表現(xiàn)為:定義數(shù)據(jù)源的位置及數(shù)據(jù)源的屬性、確定從源數(shù)據(jù)到目標(biāo)數(shù)據(jù)的對應(yīng)規(guī)則、確定相關(guān)的業(yè)務(wù)邏輯、在數(shù)據(jù)實(shí)際加載前的其他必要的準(zhǔn)備工作,等等,它一般貫穿整個(gè)數(shù)據(jù)倉庫項(xiàng)目,而ETL的所有過程必須最大化地參照元數(shù)據(jù),這樣才能快速實(shí)現(xiàn)ETL。TPI(TruePerformanceInitiative)理念,即所謂真實(shí)性能標(biāo)準(zhǔn)理念,是指協(xié)助用戶全面理解適合實(shí)際應(yīng)用需求的電腦性能的一種理念。根據(jù)TPI將制定一種全新的、更為精確的測評處理器運(yùn)行應(yīng)用程序性能的標(biāo)準(zhǔn)。這一標(biāo)準(zhǔn)稱為TPI標(biāo)準(zhǔn)。其實(shí)TPI理念并不是什么新東西,早就有人在自覺不自覺地按照它去做了,DIY的發(fā)燒友們就是它的忠實(shí)實(shí)踐者。他們都是在自己的TPI理念指導(dǎo)下來選配電腦配件來搭配電腦的,從而使自己的PC能夠符合自己的應(yīng)用需求。如果你隨某個(gè)DIY迷光顧電腦配套市場,你就會(huì)看到他詢問銷售商:“我要買一個(gè)'QuickIII'能打到80幀的,需把什么卡和CPU放在一起,你這個(gè)行不行?不行?那我再看看其它的吧?!被蛘邌枺骸拔乙鯬HOTHSHOP,渲染時(shí)要達(dá)到XX速度,你這個(gè)可以做到么?”……其實(shí)所有這些都是TPI理念。其精髓就是根據(jù)實(shí)際應(yīng)用的性能要求,選擇合適的配置,最終得到性價(jià)比最高的PC。評價(jià)計(jì)算機(jī)系統(tǒng)性能最重要的一個(gè)指標(biāo),是完成給定任務(wù)所需的時(shí)間,即真實(shí)應(yīng)用性能。CPU是計(jì)算機(jī)的核心,相當(dāng)于整個(gè)系統(tǒng)的心臟,是決定計(jì)算機(jī)系統(tǒng)能否在最短的時(shí)間里有效完成特定任務(wù)的關(guān)鍵部件。關(guān)于CPU的性能,人們通常認(rèn)為其時(shí)鐘頻率越高,性能就越好,事實(shí)往往并非如此,特別是出現(xiàn)高頻芯片以后,僅以CPU的時(shí)鐘頻率來衡量計(jì)算機(jī)的性能好壞就是一種片面的誤解。因?yàn)闀r(shí)鐘頻率本身并不能單獨(dú)決定PC的真實(shí)應(yīng)用性能,就如同小孩和成人一起散步,小孩需要走更多步才能趕上成人。由于成人的步子比小孩大,每步走的路程比小孩長,因此小孩需要更快走動(dòng)也就是需要更高的頻率才能趕上大人,所僅通過邁步的頻率來確定走的路程的長短是不合理的,處理器也是一樣。而AMDAthlonXP處理器則與成人一樣,它每步完成的任務(wù)多,因此其不需要很高的頻率就能很大的提高產(chǎn)品的實(shí)際性PC的真實(shí)應(yīng)用性能反映的是PC的效率,它既取決于CPU的時(shí)鐘頻率(以MHz或GHz計(jì)量),又取決于CPU在規(guī)定時(shí)鐘周期內(nèi)可以完成的工作量(以每時(shí)鐘周期完

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論