《新編計算機導(dǎo)論》課件-12第12章 數(shù)據(jù)庫、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘_第1頁
《新編計算機導(dǎo)論》課件-12第12章 數(shù)據(jù)庫、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘_第2頁
《新編計算機導(dǎo)論》課件-12第12章 數(shù)據(jù)庫、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘_第3頁
《新編計算機導(dǎo)論》課件-12第12章 數(shù)據(jù)庫、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘_第4頁
《新編計算機導(dǎo)論》課件-12第12章 數(shù)據(jù)庫、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘_第5頁
已閱讀5頁,還剩60頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第12章數(shù)據(jù)庫、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘根據(jù)工作環(huán)境的不同,“數(shù)據(jù)文件”可能有不同的含義。例如,可以把數(shù)據(jù)文件當(dāng)作是包含任何類型數(shù)據(jù)的文件,例如文本、數(shù)字、圖形、聲音,甚至是軟件模塊等;同樣,也可以把數(shù)據(jù)文件當(dāng)作任何不可執(zhí)行或者不是程序的文件。當(dāng)然,數(shù)據(jù)文件也可能指的是某個結(jié)構(gòu)化文件或者數(shù)據(jù)庫,比如電子郵件地址簿,其中包含了按照固定格式組織的信息。第12章數(shù)據(jù)庫、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘由于數(shù)據(jù)文件有多種定義,因此,當(dāng)閱讀計算機專業(yè)雜志或者文檔時,也許應(yīng)該根據(jù)文本的上下文來決定該術(shù)語的具體含義是什么。例如,在這一章中,“數(shù)據(jù)文件”指的是以統(tǒng)一格式組織信息的文件,這種數(shù)據(jù)文件可以保存簡單地址簿、庫存列表、學(xué)生花名冊、航班時刻表等信息。與維護(hù)和訪問數(shù)據(jù)文件中數(shù)據(jù)相關(guān)的任務(wù)稱為數(shù)據(jù)管理。12.1數(shù)據(jù)庫基礎(chǔ)數(shù)據(jù)庫(DB,DataBase)是依照某種數(shù)據(jù)模型組織并存儲的數(shù)據(jù)集合。這種數(shù)據(jù)集合具有如下特點:盡可能不重復(fù),以最優(yōu)方式為某個特定組織的多種應(yīng)用服務(wù),其數(shù)據(jù)結(jié)構(gòu)獨立于使用它的應(yīng)用程序,對數(shù)據(jù)的增、刪、改和檢索由統(tǒng)一的軟件進(jìn)行管理和控制等。12.1數(shù)據(jù)庫基礎(chǔ)從發(fā)展歷史看,數(shù)據(jù)管理技術(shù)大致經(jīng)歷了三個階段。1)自由管理階段:用戶以文件形式將數(shù)據(jù)組織起來,并附屬在各自的應(yīng)用程序下。2)文件管理階段:操作系統(tǒng)中的文件系統(tǒng)給出了統(tǒng)一的文件結(jié)構(gòu)和共同存取的方法,用戶可以把數(shù)據(jù)和信息作為文件長期地保存在計算機系統(tǒng)中,并可以方便地進(jìn)行查詢和處理。3)數(shù)據(jù)庫管理階段:為了適應(yīng)大量數(shù)據(jù)的集中存儲,并提供給多個用戶共享的要求,使數(shù)據(jù)與程序完全獨立,最大限度地減少數(shù)據(jù)的冗余度,出現(xiàn)了數(shù)據(jù)庫管理系統(tǒng)(DBMS,DatabaseManagementSystem)。12.1.1數(shù)據(jù)庫的基本結(jié)構(gòu)在數(shù)據(jù)文件中,字段是有意義數(shù)據(jù)的最小單元(例如二維表格的列),稱為數(shù)據(jù)文件的基本組成模塊。字段有字段名,用來描述字段中的內(nèi)容。例如,字段Name可能描述了一組職工姓名數(shù)據(jù)。字段可以設(shè)置為可變長度或者固定長度。輸入在字段中的數(shù)據(jù)依賴于字段的數(shù)據(jù)類型。從技術(shù)上講,數(shù)據(jù)類型定義了數(shù)據(jù)在磁盤和內(nèi)存中表示的方式;從用戶的角度來說,數(shù)據(jù)類型決定了操作數(shù)據(jù)的方式。文件中的每個字段都分配有數(shù)據(jù)類型,最常用的數(shù)據(jù)類型是字符和數(shù)值。數(shù)值類型的字段可以進(jìn)行數(shù)值運算;字符類型的字段包含了那些不需要進(jìn)行數(shù)學(xué)操作的數(shù)據(jù),例如名字、描述、城市、縮寫、電話號碼和學(xué)號等。還有一些其他數(shù)據(jù)類型,如日期、邏輯和備注類型等。12.1.1數(shù)據(jù)庫的基本結(jié)構(gòu)實體是人、地方、物品或事件等用來存儲數(shù)據(jù)的對象,而記錄(例如二維表格的行)包括了描述實體的字段。記錄長度表示記錄可以存儲的最大字節(jié)數(shù),計算文件的記錄長度有助于確定存儲需求。一般情況下,創(chuàng)建數(shù)據(jù)文件中文件結(jié)構(gòu)的人定義了它所應(yīng)該包含的字段,記錄中字段的個數(shù)和字段名依賴于記錄所包含的數(shù)據(jù)。12.1.1數(shù)據(jù)庫的基本結(jié)構(gòu)數(shù)據(jù)庫的基本結(jié)構(gòu)分三個層次,反映了觀察數(shù)據(jù)庫的三種不同角度(視圖)。1)物理數(shù)據(jù)層。是數(shù)據(jù)庫的最內(nèi)層,是物理存儲設(shè)備上實際存儲的數(shù)據(jù)的集合。這些數(shù)據(jù)是原始數(shù)據(jù),是用戶加工的對象,由內(nèi)部模式描述的指令操作處理的位串、字符和字組成。2)概念數(shù)據(jù)層。是數(shù)據(jù)庫的中間層,是數(shù)據(jù)庫的整體邏輯表示。指出了每個數(shù)據(jù)的邏輯定義及數(shù)據(jù)間的邏輯聯(lián)系,是存儲記錄的集合。它所涉及的是數(shù)據(jù)庫所有對象的邏輯關(guān)系,而非物理情況,是數(shù)據(jù)庫管理員(DBA)概念下的數(shù)據(jù)庫。3)邏輯數(shù)據(jù)層。它是用戶所看到和使用的數(shù)據(jù)庫,表示了一個或一些特定用戶使用的數(shù)據(jù)集合,即邏輯記錄的集合。12.1.2數(shù)據(jù)庫的特點數(shù)據(jù)庫不同層次之間的聯(lián)系是通過映射進(jìn)行轉(zhuǎn)換的。數(shù)據(jù)庫具有以下主要特點:1)實現(xiàn)數(shù)據(jù)共享。數(shù)據(jù)共享包含所有用戶可同時存取數(shù)據(jù)庫中的數(shù)據(jù),也包括用戶可以用各種方式通過接口使用數(shù)據(jù)庫,并提供數(shù)據(jù)共享。2)減少數(shù)據(jù)的冗余度。由于數(shù)據(jù)庫實現(xiàn)了數(shù)據(jù)共享,從而避免了用戶各自建立應(yīng)用文件,減少了大量重復(fù)數(shù)據(jù),減少了數(shù)據(jù)冗余,維護(hù)了數(shù)據(jù)的一致性。3)數(shù)據(jù)的獨立性。包括數(shù)據(jù)庫中數(shù)據(jù)的邏輯結(jié)構(gòu)和應(yīng)用程序相互獨立,也包括數(shù)據(jù)物理結(jié)構(gòu)的變化不影響數(shù)據(jù)的邏輯結(jié)構(gòu)。4)數(shù)據(jù)實現(xiàn)集中控制。利用數(shù)據(jù)庫可以對數(shù)據(jù)進(jìn)行集中控制和管理,并通過數(shù)據(jù)模型表示各種數(shù)據(jù)的組織以及數(shù)據(jù)間的聯(lián)系。12.1.2數(shù)據(jù)庫的特點5)數(shù)據(jù)一致性和可維護(hù)性,以確保數(shù)據(jù)的安全性和可靠性。主要包括如下幾點。安全性控制:以防止數(shù)據(jù)丟失、錯誤更新和越權(quán)使用;完整性控制:保證數(shù)據(jù)的正確性、有效性和相容性;并發(fā)控制:使在同一時間周期內(nèi),允許對數(shù)據(jù)實現(xiàn)多路存取,又能防止用戶之間的不正常交互作用;故障的發(fā)現(xiàn)和恢復(fù):由DBMS提供一套方法,可及時發(fā)現(xiàn)和修復(fù)故障,從而防止數(shù)據(jù)被破壞。12.1.3數(shù)據(jù)模型數(shù)據(jù)模型用來描述數(shù)據(jù)庫中數(shù)據(jù)存儲的方式。當(dāng)使用有效的數(shù)據(jù)模型創(chuàng)建數(shù)據(jù)庫時,就可以按照能夠為公司或者組織機構(gòu)提供有用信息的方式來輸入、定位和操作數(shù)據(jù)。設(shè)計數(shù)據(jù)庫結(jié)構(gòu)時,數(shù)據(jù)模型可以幫助理解實體之間的關(guān)系,創(chuàng)建最有效的結(jié)構(gòu)來存儲數(shù)據(jù)。12.1.3數(shù)據(jù)模型(1)實體關(guān)系記錄代表著一個實體,并且由一系列字段組成,關(guān)系是實體之間的聯(lián)系關(guān)系。數(shù)據(jù)模型用來描述實體之間的關(guān)系,并且在創(chuàng)建數(shù)據(jù)庫結(jié)構(gòu)時把這些定義作為記錄類型之間的關(guān)系。數(shù)據(jù)庫設(shè)計者使用如實體關(guān)系表等技術(shù)來圖形化表示數(shù)據(jù)模型。例如,圖12-1中的圖表表示了職工和考勤卡之間的關(guān)系。12.1.3數(shù)據(jù)模型圖12-1實體-關(guān)系圖表示12.1.3數(shù)據(jù)模型數(shù)據(jù)圖表可用來顯示基數(shù),即兩個記錄類型之間存在的對應(yīng)關(guān)系。有三種可能的基數(shù):一對一、一對多和多對多,如圖12-2所示。

圖12-2表示基數(shù)12.1.3數(shù)據(jù)模型一對多關(guān)系意味著一個特定記錄類型中的一個記錄可以和另外一個記錄類型中的多個記錄相關(guān)聯(lián)。例如,一個職工可以有多個考勤卡,一個工作需要多個員工等。多對多關(guān)系意味著一個特定記錄類型中的多個記錄可以和另外一個記錄類型中的多個記錄相關(guān)聯(lián),反之亦然。例如,一個部門可以提供許多不同的工作,如護(hù)士、技術(shù)人員等,但同時,某個特定的工作也可能出現(xiàn)在多個部門中,例如,急救中心和門診都需要護(hù)士。12.1.3數(shù)據(jù)模型數(shù)據(jù)模型可以幫助數(shù)據(jù)庫設(shè)計者為數(shù)據(jù)庫創(chuàng)建最高效的結(jié)構(gòu),并且可以決定哪一種數(shù)據(jù)模型能提供最高效的數(shù)據(jù)庫環(huán)境。有四種主要的數(shù)據(jù)庫模型,即層次、網(wǎng)狀、關(guān)系和面向?qū)ο髷?shù)據(jù)庫模型,它們采用不同的方式末表示實體之間的關(guān)系。對于理解所有的模型來說,記錄類型、字段和關(guān)系等概念都是很重要的。12.1.3數(shù)據(jù)模型(2)關(guān)系數(shù)據(jù)庫模型過去,大型機數(shù)據(jù)庫通常使用層次或網(wǎng)狀數(shù)據(jù)庫。20世紀(jì)80年代中,關(guān)系數(shù)據(jù)庫逐漸流行,在微機上使用的數(shù)據(jù)庫大多是關(guān)系模型,并且,面向?qū)ο竽P鸵苍絹碓搅餍?。對于關(guān)系數(shù)據(jù)庫的用戶來說,關(guān)系數(shù)據(jù)庫就像一個表的集合,它大致上等價于記錄類型集合。表的一行被稱作一個元組(記錄),表的列被稱作屬性(字段)。12.1.3數(shù)據(jù)模型在關(guān)系模型中,記錄是通過字段之間的關(guān)系而關(guān)聯(lián)的。關(guān)系數(shù)據(jù)庫模型的價值在于表實際上看起來是獨立的,但是卻可以多種靈活的方式相關(guān)聯(lián)。而且,因為表只是一個概念性的東西,用戶不需要處理數(shù)據(jù)的物理存儲方案。12.1.3數(shù)據(jù)模型(3)面向?qū)ο髷?shù)據(jù)庫模型面向?qū)ο髷?shù)據(jù)庫(OODB)可以替代層次、網(wǎng)狀和關(guān)系模型。面向?qū)ο髷?shù)據(jù)庫模型把實體看作根據(jù)屬性定義的對象,其中屬性等價于數(shù)據(jù)字段。對象可以用方法進(jìn)行操作,具有類似屬性的對象可以分組為類??梢允褂妙惐葋斫忉岊悺ο蟆傩院头椒ǖ暮x。12.1.3數(shù)據(jù)模型假設(shè)有一個類稱為“固定某物的裝置”(或稱為扣件、緊固件)的東西,包括螺釘和釘子等對象。每個對象都有屬性,釘子有一個尖尖的點,并且有一個平平的頭;螺釘也有一個尖尖的點,還有一個有凹槽的頭,并且有螺紋。有什么方法可以應(yīng)用到釘子上呢?可以用錘子敲打。又有什么方法可以應(yīng)用到螺釘上呢?可以用螺絲刀擰。面向?qū)ο髷?shù)據(jù)庫提供了定義復(fù)雜數(shù)據(jù)關(guān)系的結(jié)構(gòu)能力,同時它也提供了靈活創(chuàng)建單個數(shù)據(jù)類型的變種能力。12.1.4數(shù)據(jù)庫的發(fā)展數(shù)據(jù)庫技術(shù)是計算機科學(xué)中發(fā)展最快的領(lǐng)域之一。1)分布式數(shù)據(jù)庫系統(tǒng)隨著20世紀(jì)70年代后期分布計算機系統(tǒng)的發(fā)展,相應(yīng)地研究成功了分布式數(shù)據(jù)庫系統(tǒng)。分布式數(shù)據(jù)庫系統(tǒng)結(jié)構(gòu)復(fù)雜,是一個在邏輯上完整,而物理上分散在若干臺互相連接的結(jié)點機上的數(shù)據(jù)庫系統(tǒng),它既具有分布性又具有數(shù)據(jù)庫的綜合性,是數(shù)據(jù)庫系統(tǒng)發(fā)展的一個重要方向。12.1.4數(shù)據(jù)庫的發(fā)展2)數(shù)據(jù)庫機器所謂“數(shù)據(jù)庫機器”是一種新的計算機系統(tǒng)的體系結(jié)構(gòu),它把由中央處理器包辦的數(shù)據(jù)庫操作分散給一些局部的部件來執(zhí)行,或轉(zhuǎn)移到一個與主計算機相連的專用計算機去執(zhí)行,以提高并行性。數(shù)據(jù)庫機器的發(fā)展,包括了智能控制器和存儲器,專用處理機和數(shù)據(jù)庫計算機。12.1.4數(shù)據(jù)庫的發(fā)展3)數(shù)據(jù)庫語義模型一般數(shù)據(jù)庫的數(shù)據(jù)模型基本上屬于語法模型,語義體現(xiàn)很不完備,不能明顯地含有現(xiàn)實世界的意義。因此,用戶只能按照DBMS所提供的數(shù)據(jù)操縱語言訪問數(shù)據(jù)庫。而語義數(shù)據(jù)模型能準(zhǔn)確描述現(xiàn)實世界中某個部門的信息集合及其意義,使用戶能基于對現(xiàn)實世界的認(rèn)識或用類似于自然語言的形式來訪問數(shù)據(jù)庫。這方面的研究已發(fā)展為數(shù)據(jù)語義學(xué)。12.1.4數(shù)據(jù)庫的發(fā)展4)數(shù)據(jù)庫智能檢索數(shù)據(jù)庫技術(shù)和人工智能相結(jié)合,根據(jù)數(shù)據(jù)庫中的事實和知識進(jìn)行推理,演繹出正確答案,這就是數(shù)據(jù)庫的智能檢索。這涉及到自然語言用戶接口、邏輯演繹功能和數(shù)據(jù)庫語義模型等問題,例如20世紀(jì)70年代末開始的知識庫管理系統(tǒng)和演繹數(shù)據(jù)庫的研究等。5)辦公室自動化系統(tǒng)中的數(shù)據(jù)庫研究在辦公室自動化系統(tǒng)中數(shù)據(jù)庫技術(shù)的應(yīng)用,其中主要研究對各種非格式化數(shù)據(jù)如圖像、聲音、正文的處理,以及面向端點用戶的高級語言接口等。12.2數(shù)據(jù)庫管理系統(tǒng)數(shù)據(jù)庫管理系統(tǒng)(DBMS)是一種操縱和管理數(shù)據(jù)庫的大型軟件,用于建立、使用和維護(hù)數(shù)據(jù)庫,以適應(yīng)信息化社會對數(shù)據(jù)管理技術(shù)的需求,是十多年來迅速發(fā)展起來的一門學(xué)科。DBMS對數(shù)據(jù)庫進(jìn)行統(tǒng)一的管理和控制,以保證數(shù)據(jù)庫的安全性和完整性。用戶通過DBMS訪問數(shù)據(jù)庫中的數(shù)據(jù),數(shù)據(jù)庫管理員也通過DBMS進(jìn)行數(shù)據(jù)庫的維護(hù)工作。DBMS提供了多種功能,可使多個應(yīng)用程序和用戶用不同的方法在同時或不同時刻去建立,修改和詢問數(shù)據(jù)庫。12.2.1數(shù)據(jù)庫管理系統(tǒng)功能數(shù)據(jù)庫管理系統(tǒng)是從圖書館的管理方法改進(jìn)而來的。人們將越來越多的資料存入計算機中,并通過一些編制好的計算機程序?qū)@些資料進(jìn)行管理,這些程序后來就被稱為“數(shù)據(jù)庫管理系統(tǒng)”,它可以幫助管理輸入到計算機中的大量數(shù)據(jù),就像圖書館的管理員。12.2.1數(shù)據(jù)庫管理系統(tǒng)功能按功能劃分,DBMS大致分為六個部分。1)模式翻譯。提供數(shù)據(jù)定義語言(DDL)。用它書寫的數(shù)據(jù)庫模式被翻譯為內(nèi)部表示。數(shù)據(jù)庫的邏輯結(jié)構(gòu)、完整性約束和物理儲存結(jié)構(gòu)保存在內(nèi)部的數(shù)據(jù)字典中。數(shù)據(jù)庫的各種數(shù)據(jù)操作(如查找、修改、插入和刪除等)和數(shù)據(jù)庫的維護(hù)管理都是以數(shù)據(jù)庫模式為依據(jù)的。2)應(yīng)用程序的編譯。把包含著訪問數(shù)據(jù)庫語句的應(yīng)用程序,編譯成在DBMS支持下可運行的目標(biāo)程序。12.2.1數(shù)據(jù)庫管理系統(tǒng)功能3)交互式查詢。提供易使用的交互式查詢語言,例如SQL。DBMS負(fù)責(zé)執(zhí)行查詢命令,并將查詢結(jié)果顯示在屏幕上。4)數(shù)據(jù)的組織與存取。提供數(shù)據(jù)在外圍儲存設(shè)備上的物理組織與存取方法。5)事務(wù)運行管理。提供事務(wù)運行管理及運行日志,事務(wù)運行的安全性監(jiān)控和數(shù)據(jù)完整性檢查,事務(wù)的并發(fā)控制及系統(tǒng)恢復(fù)等功能。6)數(shù)據(jù)庫的維護(hù)。為DBA提供軟件支持,包括數(shù)據(jù)安全控制、完整性保障、數(shù)據(jù)庫備份、數(shù)據(jù)庫重組以及性能監(jiān)控等維護(hù)工具。12.2.1數(shù)據(jù)庫管理系統(tǒng)功能基于關(guān)系模型的數(shù)據(jù)庫管理系統(tǒng)已日臻完善,并已作為商品化軟件廣泛應(yīng)用于各行各業(yè)。它在客戶/服務(wù)器結(jié)構(gòu)的分布式多用戶環(huán)境中的應(yīng)用,使數(shù)據(jù)庫系統(tǒng)的應(yīng)用進(jìn)一步擴(kuò)展。隨著新型數(shù)據(jù)模型及數(shù)據(jù)管理的實現(xiàn)技術(shù)的推進(jìn),可以預(yù)期DBMS軟件的性能還將更新和完善,應(yīng)用領(lǐng)域也將被進(jìn)一步拓寬。12.2.2面向?qū)ο髷?shù)據(jù)庫文件管理系統(tǒng)和數(shù)據(jù)庫管理系統(tǒng)是對被動數(shù)據(jù)集進(jìn)行操作的,在這個集合中,數(shù)據(jù)只是簡單地等待程序來處理它。然而,面向?qū)ο髷?shù)據(jù)庫通常包含在數(shù)據(jù)上執(zhí)行動作的方法。要創(chuàng)建一個面向?qū)ο髷?shù)據(jù)庫,需要使用面向?qū)ο蠊芾硐到y(tǒng)(OODBMS),或者可以用定義操作對象和定義方法的編程語言,如Small-talk等。在面向?qū)ο髷?shù)據(jù)庫的情況下,從外部操作數(shù)據(jù)庫的程序只有那些用于定義數(shù)據(jù)庫對象、方法和類的程序。盡管這些程序并不是數(shù)據(jù)庫的一部分,但是它們通常包含在面向?qū)ο髷?shù)據(jù)庫軟件中。圖12-3演示了面向?qū)ο蟮姆椒ā?2.2.2面向?qū)ο髷?shù)據(jù)庫圖12-3面向?qū)ο蠓椒ㄊ纠?2.2.3基于Web的數(shù)據(jù)庫工具基于Web的數(shù)據(jù)庫允許通過因特網(wǎng)用標(biāo)準(zhǔn)的Web瀏覽器來訪問數(shù)據(jù)庫。要和基于Web的數(shù)據(jù)庫交互,必須將請求從瀏覽器送到數(shù)據(jù)庫,然后將結(jié)果送回瀏覽器。CGI(網(wǎng)關(guān)接口)程序能滿足這個要求。這些程序可以用編程語言如Perl、C、VlsualBasic等來編寫,和CGI功能相似且性能較高的有專用接口ISAPI(InternetServerApplicationProgrammingInterface,因特網(wǎng)服務(wù)器應(yīng)用編程接口)和NSAPI(NetscapeServerApplicationProgrammingInterface,網(wǎng)景服務(wù)器應(yīng)用編程接口)等。高速度,但是非專用的工具是活動服務(wù)器頁面(ASP,ActiveServerPage),該頁面包含與數(shù)據(jù)庫進(jìn)行交互的編程代碼。Web數(shù)據(jù)庫開發(fā)工具都包括在許多流行的數(shù)據(jù)庫包中,例如MicrosoftAccess。12.2.4主流的數(shù)據(jù)庫管理系統(tǒng)目前有許多數(shù)據(jù)庫產(chǎn)品,如IBMDB2、Oracle、Sybase、MicrosoftSQLServer、MicrosoftAccess和MySQL等,各以自己特有的功能在數(shù)據(jù)庫市場上占有一席之地。12.2.4主流的數(shù)據(jù)庫管理系統(tǒng)(1)OracleOracle是一個最早商品化的關(guān)系型DBMS,應(yīng)用廣泛、功能強大。作為一個通用的數(shù)據(jù)庫管理系統(tǒng),Oracle不僅具有完整的數(shù)據(jù)管理功能,還是一個分布式數(shù)據(jù)庫系統(tǒng),支持各種分布式功能,支持因特網(wǎng)應(yīng)用。作為一個應(yīng)用開發(fā)環(huán)境,Oracle提供了一套界面友好、功能齊全的數(shù)據(jù)庫開發(fā)工具。Oracle使用PL/SQL語言執(zhí)行各種操作,具有可開放性、可移植性、可伸縮性等功能。特別是在Oracle8i中,支持面向?qū)ο蟮墓δ?,如支持類、方法、屬性等,使得Oracle產(chǎn)品成為一種對象/關(guān)系型數(shù)據(jù)庫管理系統(tǒng)。12.2.4主流的數(shù)據(jù)庫管理系統(tǒng)(2)MicrosoftSQLServerMicrosoftSQLServer是一種典型的關(guān)系型DBMS,它使用Transact-SQL語言完成數(shù)據(jù)操作。由于MicrosoftSQLServer是開放式的系統(tǒng),其他系統(tǒng)可以與它進(jìn)行完好的交互操作,具有可靠性、可伸縮性、可用性、可管理性等特點,為用戶提供完整的數(shù)據(jù)庫解決方案。12.2.4主流的數(shù)據(jù)庫管理系統(tǒng)(3)MicrosoftOfficeAccess作為MicrosoftOffice組件之一的MicrosoftAccess是在Windows環(huán)境下非常流行的桌面型數(shù)據(jù)庫管理系統(tǒng)。使用Access無須編寫任何代碼,只需通過直觀的可視化操作就可以完成大部分?jǐn)?shù)據(jù)管理任務(wù)。在Access數(shù)據(jù)庫中包括許多組成數(shù)據(jù)庫的基本要素,如存儲信息的表、顯示人機交互界面的窗體、有效檢索數(shù)據(jù)的查詢、信息輸出載體的報表、提高應(yīng)用效率的宏、功能強大的模塊工具等。它不僅可以通過ODBC與其他數(shù)據(jù)庫相連,實現(xiàn)數(shù)據(jù)交換和共享,還可以與Word、Excel等辦公軟件進(jìn)行數(shù)據(jù)交換和共享,并且通過對象鏈接與嵌入技術(shù)(OLE)在數(shù)據(jù)庫中嵌入和鏈接聲音、圖像等多媒體數(shù)據(jù)。12.3數(shù)據(jù)庫檢索從廣義上講,數(shù)據(jù)庫就是存儲在一臺或多臺計算機上信息的集合。在實際應(yīng)用中,使用數(shù)據(jù)庫95%都是為了查找信息,而不是創(chuàng)建和增加信息。12.3.1結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)庫有許多數(shù)據(jù)庫技術(shù)應(yīng)用的例子,例如圖書卡分類、包含賬號信息的銀行賬戶、光盤百科全書、公司計算機的文件系統(tǒng),以及電子郵件地址簿等。在通過因特網(wǎng)訪問股市、人才市場或旅游網(wǎng)站時,本質(zhì)上也是在訪問一個巨大的數(shù)據(jù)庫。數(shù)據(jù)庫可以分成兩種:結(jié)構(gòu)化數(shù)據(jù)庫和非結(jié)構(gòu)化數(shù)據(jù)庫。結(jié)構(gòu)化數(shù)據(jù)庫(又稱為結(jié)構(gòu)化數(shù)據(jù)文件)是使用統(tǒng)一格式的記錄和域來組織信息的文件,如圖3-7所示,存儲的數(shù)據(jù)通常描述的是相似實體的集合。比如,醫(yī)療數(shù)據(jù)庫存儲的數(shù)據(jù)一般是病人的信息,庫存數(shù)據(jù)庫的數(shù)據(jù)則是存儲在倉庫的貨物和貨架信息。12.3.1結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)庫非結(jié)構(gòu)化數(shù)據(jù)庫是信息的松散結(jié)構(gòu)化組合,一般是按照文檔而不是記錄來存儲的。比如,可以把使用文字處理軟件生成的文檔看成是一個個人作品的非結(jié)構(gòu)化數(shù)據(jù)庫。萬維網(wǎng),在世界范圍中存儲了數(shù)以百萬計的各式各樣的文檔,它也是一種非結(jié)構(gòu)化數(shù)據(jù)庫。無論存儲在硬盤、光盤,還是因特網(wǎng)上,非結(jié)構(gòu)化數(shù)據(jù)庫能夠為人們存儲各種各樣的信息。12.3.2信息檢索當(dāng)在數(shù)據(jù)庫中檢索信息(而不是創(chuàng)建和維護(hù)數(shù)據(jù)庫)的時候,通常不需要知道目前訪問的數(shù)據(jù)庫是結(jié)構(gòu)化的,還是非結(jié)構(gòu)化的,相關(guān)的數(shù)據(jù)訪問軟件會隱含這些信息。數(shù)據(jù)訪問軟件提供了在數(shù)據(jù)庫中檢索信息的界面,只需要告訴它所需要的信息,它就去進(jìn)行檢索。數(shù)據(jù)訪問軟件了解數(shù)據(jù)庫的結(jié)構(gòu),因此用戶不需要考慮技術(shù)細(xì)節(jié)。不同的數(shù)據(jù)庫通常使用不同的訪問軟件。因此,要在信息時代有效地獲取信息,就必須掌握不同數(shù)據(jù)訪問軟件的檢索過程。根據(jù)所使用的訪問軟件,可能使用菜單、超文本索引、關(guān)鍵字搜索引擎、實例查詢、查詢語言或自然語言進(jìn)行檢索。12.3.3菜單和超文本索引在銀行自動賬戶信息系統(tǒng)中,系統(tǒng)會有“查詢信息請按1,獲得幫助請按2”等提示。這個系統(tǒng)就是用戶與銀行數(shù)據(jù)庫的界面。由于許多人要使用這個系統(tǒng),因此訪問過程必須簡單。銀行客戶系統(tǒng)的大多數(shù)數(shù)據(jù)訪問軟件都是基于菜單的。數(shù)據(jù)庫菜單類似于大多數(shù)其他軟件中的菜單。訪問數(shù)據(jù)庫信息的菜單可以是基于屏幕的,或基于語音提示的。菜單通常是層次化排列的,選擇了第一級菜單,第二級菜單才會出來。使用語音菜單時,要時刻準(zhǔn)備著按下自己希望的選項,當(dāng)聽到所需要的選項就立刻按下按鈕。當(dāng)語音完成菜單選項的解釋后,無須回憶這個希望按下的號碼。12.3.3菜單和超文本索引相比之下,基于屏幕的菜單更容易使用,因為所有的選項都可以一目了然。因此,它們可能更加復(fù)雜,使用多級菜單顯示更多選項。如果經(jīng)常使用同一個基于菜單的數(shù)據(jù)訪問軟件,就會非常熟練地從菜單中找到需要的選項?;谄聊坏牟藛卧谝蛱鼐W(wǎng)上成為訪問信息的流行格式。許多流行的提供因特網(wǎng)信息檢索的網(wǎng)點使用的是稱為超文本索引的方法。將信息按照教育、娛樂和商業(yè)等分類,方便信息檢索。使用這樣的超文本索引,首先要選擇所需信息所在的分類,系統(tǒng)會給出關(guān)于這部分的主題列表,從表中選擇后將會顯示另外一個選擇列表。這樣,當(dāng)瀏覽完這個列表后,就會找到包含所需信息的文檔了。12.3.4關(guān)鍵字搜索傳統(tǒng)上,由于習(xí)慣,我們會覺得分類存放信息易于查找,但有些事物不好分類,再加上計算機功能和處理速度的提高,現(xiàn)在,我們還可以按照關(guān)鍵字而不是分類主題進(jìn)行搜索。關(guān)鍵字搜索引擎使我們避免了檢索數(shù)據(jù)時在主題分類菜單中浪費時間。關(guān)鍵字搜索引擎在類似于萬維網(wǎng)這樣的非結(jié)構(gòu)化數(shù)據(jù)庫中得到了廣泛應(yīng)用。使用關(guān)鍵字搜索引擎檢索數(shù)據(jù),只需要輸入像“數(shù)據(jù)挖掘”這樣的詞,搜索引擎就會定位相關(guān)信息。通常,它會顯示出包含該關(guān)鍵字的文檔摘要,可以從中選擇認(rèn)為最有用的文檔。關(guān)鍵字搜索引擎的用戶界面通常非常簡單,如圖12-4所示。搜索引擎還允許使用更加詳細(xì)的搜索條件來生成“高級”搜索。12.3.4關(guān)鍵字搜索圖12-4百度搜索引擎12.3.5實例查詢?nèi)绻杆僭L問數(shù)據(jù)庫中的信息,最好是把信息存儲在結(jié)構(gòu)化數(shù)據(jù)庫中。由于結(jié)構(gòu)規(guī)整,計算機的定位速度要比在非結(jié)構(gòu)化數(shù)據(jù)庫中定位的速度快許多。但是,結(jié)構(gòu)會引起一些問題,例如用戶可能不知道數(shù)據(jù)庫的記錄格式。因此,為了幫助用戶搜索結(jié)構(gòu)化數(shù)據(jù)庫,有一種稱為實例查詢(縮寫為QBE)的方法,如圖12-5所示。12.3.5實例查詢圖12-5互動出版網(wǎng)的實例查詢12.4數(shù)據(jù)倉庫數(shù)據(jù)倉庫(DW,DataWarehouse)是一個環(huán)境,而不是一件單一產(chǎn)品,它提供了用戶用于決策支持的當(dāng)前和歷史數(shù)據(jù),這些數(shù)據(jù)在傳統(tǒng)的操作型數(shù)據(jù)庫中很難或不能得到。數(shù)據(jù)倉庫技術(shù)是為了把操作型數(shù)據(jù)有效地集成到統(tǒng)一環(huán)境中,以提供決策型數(shù)據(jù)訪問的各種技術(shù)和模塊的總稱,其目的就是為了讓用戶更快、更方便查詢所需要的信息,提供決策支持。12.4.1數(shù)據(jù)倉庫的特點數(shù)據(jù)倉庫有如下一些特點。1)面向主題。操作型數(shù)據(jù)庫的數(shù)據(jù)組織面向事務(wù)處理任務(wù),各個業(yè)務(wù)系統(tǒng)之間各自分離,而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織的。主題是一個抽象的概念,是指用戶使用數(shù)據(jù)倉庫進(jìn)行決策時所關(guān)心的重點方面,一個主題通常與多個操作型信息系統(tǒng)相關(guān)。2)集成的。面向事務(wù)處理的操作型數(shù)據(jù)庫通常與某些特定的應(yīng)用相關(guān),數(shù)據(jù)庫之間相互獨立,并且往往是異構(gòu)的。而數(shù)據(jù)倉庫中的數(shù)據(jù)是在對原有分散的數(shù)據(jù)庫數(shù)據(jù)抽取、清理的基礎(chǔ)上,經(jīng)過系統(tǒng)加工、匯總和整理得到的。必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉庫內(nèi)的信息是關(guān)于整個企業(yè)的一致的全局信息。12.4.1數(shù)據(jù)倉庫的特點3)相對穩(wěn)定。操作型數(shù)據(jù)庫中的數(shù)據(jù)通常實時更新,數(shù)據(jù)根據(jù)需要及時發(fā)生變化。數(shù)據(jù)倉庫的數(shù)據(jù)主要供企業(yè)決策分析用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢。某個數(shù)據(jù)一旦進(jìn)入數(shù)據(jù)倉庫,一般情況下將被長期保留,亦即,數(shù)據(jù)倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。4)反映歷史變化。操作型數(shù)據(jù)庫主要關(guān)心當(dāng)前某一個時間段內(nèi)的數(shù)據(jù),而數(shù)據(jù)倉庫中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過去某一時點(如開始應(yīng)用數(shù)據(jù)倉庫的時點)到目前的各個階段的信息,通過這些信息,可以對企業(yè)的發(fā)展歷程和未來趨勢做出定量分析和預(yù)測。12.4.2數(shù)據(jù)倉庫的組成數(shù)據(jù)倉庫由數(shù)據(jù)倉庫數(shù)據(jù)庫、數(shù)據(jù)抽取工具、元數(shù)據(jù)等內(nèi)容組成。1)數(shù)據(jù)倉庫數(shù)據(jù)庫。這是整個數(shù)據(jù)倉庫環(huán)境的核心,是數(shù)據(jù)存放的地方,提供對數(shù)據(jù)檢索的支持。相對于操縱型數(shù)據(jù)庫來說,其突出特點是對海量數(shù)據(jù)的支持和快速的檢索技術(shù)。2)數(shù)據(jù)抽取工具。把數(shù)據(jù)從各種各樣的存儲方式中拿出來,進(jìn)行必要的轉(zhuǎn)化、整理,再存放到數(shù)據(jù)倉庫內(nèi)。對各種不同數(shù)據(jù)存儲方式的訪問能力是數(shù)據(jù)抽取工具的關(guān)鍵,以訪問不同的數(shù)據(jù)。數(shù)據(jù)轉(zhuǎn)換包括刪除對決策應(yīng)用沒有意義的數(shù)據(jù)段;轉(zhuǎn)換到統(tǒng)一的數(shù)據(jù)名稱和定義;計算統(tǒng)計和衍生數(shù)據(jù);給缺值數(shù)據(jù)賦以缺省值;把不同的數(shù)據(jù)定義方式統(tǒng)一等。12.4.2數(shù)據(jù)倉庫的組成3)元數(shù)據(jù)。是指描述數(shù)據(jù)倉庫內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù)。可將其按用途不同分為兩類,即技術(shù)元數(shù)據(jù)和商業(yè)元數(shù)據(jù)。技術(shù)元數(shù)據(jù)是數(shù)據(jù)倉庫的設(shè)計和管理人員用于開發(fā)和日常管理數(shù)據(jù)倉庫時用的數(shù)據(jù)。包括數(shù)據(jù)源信息、數(shù)據(jù)轉(zhuǎn)換的描述、數(shù)據(jù)倉庫內(nèi)對象和數(shù)據(jù)結(jié)構(gòu)的定義、數(shù)據(jù)清理和數(shù)據(jù)更新的規(guī)則、源數(shù)據(jù)到目的數(shù)據(jù)的映射、用戶訪問權(quán)限、數(shù)據(jù)備份歷史記錄、數(shù)據(jù)導(dǎo)入歷史記錄、信息發(fā)布?xì)v史記錄等。12.4.2數(shù)據(jù)倉庫的組成商業(yè)元數(shù)據(jù)從商業(yè)業(yè)務(wù)的角度描述了數(shù)據(jù)倉庫中的數(shù)據(jù)。包括業(yè)務(wù)主題的描述、包含的數(shù)據(jù)、查詢、報表等。元數(shù)據(jù)為訪問數(shù)據(jù)倉庫提供了一個信息目錄,這個目錄全面描述了數(shù)據(jù)倉庫中有什么數(shù)據(jù)、這些數(shù)據(jù)是怎么得到的和怎么訪問這些數(shù)據(jù),它是數(shù)據(jù)倉庫運行和維護(hù)的中心,數(shù)據(jù)倉庫服務(wù)器利用它來存儲和更新數(shù)據(jù),用戶通過它來了解和訪問數(shù)據(jù)。12.4.2數(shù)據(jù)倉庫的組成4)訪問工具。為用戶訪問數(shù)據(jù)倉庫提供手段。有數(shù)據(jù)查詢和報表工具、應(yīng)用開發(fā)工具、管理信息系統(tǒng)(EIS)工具、在線分析(OLAP)工具、數(shù)據(jù)挖掘工具等。5)數(shù)據(jù)集市(DataMarts)。是指為了特定的應(yīng)用目的或應(yīng)用范圍,而從數(shù)據(jù)倉庫中獨立出來的一部分?jǐn)?shù)據(jù),也可稱為部門數(shù)據(jù)或主題數(shù)據(jù)。在數(shù)據(jù)倉庫的實施過程中,往往可以從一個部門的數(shù)據(jù)集市著手,以后再用幾個數(shù)據(jù)集市組成一個完整的數(shù)據(jù)倉庫。需要注意的是,在實施不同的數(shù)據(jù)集市時,同一含義的字段定義一定要相容,這樣以后實施數(shù)據(jù)倉庫時才不會造成大麻煩。12.4.2數(shù)據(jù)倉庫的組成6)數(shù)據(jù)倉庫管理。包括安全和特權(quán)管理、跟蹤數(shù)據(jù)的更新、數(shù)據(jù)質(zhì)量檢查、管理和更新元數(shù)據(jù)、審計和報告數(shù)據(jù)倉庫的使用和狀態(tài)、刪除數(shù)據(jù)、復(fù)制/分割和分發(fā)數(shù)據(jù)、備份和恢復(fù)、存儲管理等。7)信息發(fā)布系統(tǒng)。把數(shù)據(jù)倉庫中的數(shù)據(jù)或其他相關(guān)的數(shù)據(jù)發(fā)送給不同的地點或用戶?;赪eb的信息發(fā)布系統(tǒng)是對付多用戶訪問的最有效方法。12.4.3數(shù)據(jù)倉庫與數(shù)據(jù)庫作為數(shù)據(jù)管理手段,傳統(tǒng)的數(shù)據(jù)庫技術(shù)是單一的數(shù)據(jù)資源,主要用于事務(wù)處理,也稱為操作型處理。它以數(shù)據(jù)庫為中心,進(jìn)行從事務(wù)處理、批處理到?jīng)Q策分析的各種類型的數(shù)據(jù)處理工作。用戶關(guān)心的是響應(yīng)時間、數(shù)據(jù)的安全性和完整性。12.4.3數(shù)據(jù)倉庫與數(shù)據(jù)庫數(shù)據(jù)倉庫用于決策支持,也稱分析型處理,它是建立決策支持系統(tǒng)(DSS)的基礎(chǔ)。數(shù)據(jù)倉庫對關(guān)系數(shù)據(jù)庫的聯(lián)機分析能力提出了更高的要求,采用普通關(guān)系型數(shù)據(jù)庫作為數(shù)據(jù)倉庫在功能和性能上都是不夠的,它們必須有專門的改進(jìn)。因此,數(shù)據(jù)倉庫與數(shù)據(jù)庫的區(qū)別不僅僅表現(xiàn)在應(yīng)用的方法和目的方面,同時也涉及到產(chǎn)品和配置上的不同。因此,數(shù)據(jù)倉庫是一種新的數(shù)據(jù)處理體系結(jié)構(gòu)和信息管理技術(shù),它是企業(yè)內(nèi)部各部門業(yè)務(wù)數(shù)據(jù)進(jìn)行統(tǒng)一和綜合的中央數(shù)據(jù)倉庫。它為企業(yè)決策支持系統(tǒng)和行政信息系統(tǒng)提供所需的信息,為預(yù)測利潤、風(fēng)險分析、市場分析以及加強客戶服務(wù)與營銷活動等管理決策提供支持。12.4.3數(shù)據(jù)倉庫與數(shù)據(jù)庫要提高分析與決策的效率和有效性,分析型處理及其數(shù)據(jù)必須與操作型處理及其數(shù)據(jù)相分離,必須把分析型數(shù)據(jù)從事務(wù)處理環(huán)境中提取出來,按照DSS處理的需要進(jìn)行重新組織,建立單獨的分析處理環(huán)境。數(shù)據(jù)倉庫正是為了構(gòu)建這種新的分析處理環(huán)境而出現(xiàn)的一種數(shù)據(jù)存儲和組織技術(shù)。12.5數(shù)據(jù)挖掘作為決策支持新技術(shù),數(shù)據(jù)挖掘也和數(shù)據(jù)倉庫一樣,近年來得到了迅速發(fā)展。數(shù)據(jù)挖掘(DM,DataMining,也稱數(shù)據(jù)開采)是從大型數(shù)據(jù)庫或數(shù)據(jù)倉庫中發(fā)現(xiàn)并提取隱藏在其中的有用信息或知識信息的一種技術(shù),它主要是利用某些特定的知識發(fā)現(xiàn)(KDD,KnowledgeDiscoveryinDatabase)算法,在一定的運算效率的限制內(nèi),從數(shù)據(jù)對象(例如數(shù)據(jù)庫或數(shù)據(jù)倉庫,也可以是文件系統(tǒng)或其他任何組織在一起的數(shù)據(jù)集合)中發(fā)現(xiàn)有關(guān)的知識。它幫助決策者尋找數(shù)據(jù)間潛在的關(guān)聯(lián),發(fā)現(xiàn)被忽略的因素。而這些信息和因素對預(yù)測趨勢和決策行為是至關(guān)重要的。數(shù)據(jù)挖掘方法的提出,讓人們有能力最終認(rèn)識數(shù)據(jù)的真正價值,即蘊藏在數(shù)據(jù)中的信息和知識。知識即意味著數(shù)據(jù)元素之間的關(guān)系和模式。12.5數(shù)據(jù)挖掘因此,數(shù)據(jù)挖掘可以定義為:應(yīng)用一系列技術(shù)從大型數(shù)據(jù)庫或數(shù)據(jù)倉庫的數(shù)據(jù)中提取人們感興趣的信息和知識,這些知識或信息是隱含的、事先未知而潛在有用的,提取的知識表示為概念、規(guī)則、規(guī)律、模式等形式。作為知識發(fā)現(xiàn)過程的一個特定步驟,數(shù)據(jù)挖掘是一系列技術(shù)及應(yīng)用,或者說是對大容量數(shù)據(jù)及數(shù)據(jù)間關(guān)系進(jìn)行考察和建模的方法集。它的目標(biāo)是將大容量數(shù)據(jù)轉(zhuǎn)化為有用的知識和信息。12.5數(shù)據(jù)挖掘知識發(fā)現(xiàn)是一個多步驟的對大量數(shù)據(jù)進(jìn)行分析的過程,包括數(shù)據(jù)預(yù)處理、模式提取、知識評估及過程優(yōu)化。知識獲取往往需要經(jīng)過多次的反復(fù),通過對相關(guān)數(shù)據(jù)的再處理及知識發(fā)現(xiàn)算法的優(yōu)化,不斷提高學(xué)習(xí)效率。如在分析影響信用風(fēng)險的因素時,可能先假設(shè)幾種可能的因素,然后通過不斷反復(fù)的實驗,不斷增加或刪除因素,最終得到對信用風(fēng)險最具影響的因素。數(shù)據(jù)倉庫是一種存儲技術(shù),它的數(shù)據(jù)存儲量是一般數(shù)據(jù)庫的100倍,它包含大量的歷史數(shù)據(jù)、當(dāng)前的詳

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論