




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
第7章:多媒體數(shù)據(jù)庫技術第7章多媒體數(shù)據(jù)庫技術多媒體數(shù)據(jù)庫技術是數(shù)據(jù)庫技術與多媒體技術結合的產(chǎn)物。多媒體數(shù)據(jù)庫要解決三個難題。第一是信息媒體的多樣化,多媒體數(shù)據(jù)的存儲、組織、使用和管理。第二要解決多媒體數(shù)據(jù)集成或表現(xiàn)集成,實現(xiàn)多媒體數(shù)據(jù)之間的交叉調用和融合,集成粒度越細,多媒體一體化表現(xiàn)才越強,應用的價值也才越大。第三是多媒體數(shù)據(jù)與人之間的交互性,也就是多媒體數(shù)據(jù)的檢索問題,其中包括基于元數(shù)據(jù)的檢索模式和基于內(nèi)容的檢索模式。MEDIAASSETMANAGEMENTMEDIAASSETMANAGEMENT第7章多媒體數(shù)據(jù)庫技術關系數(shù)據(jù)庫概述1多媒體數(shù)據(jù)庫概述
2面向對象數(shù)據(jù)庫技術
3分布式多媒體數(shù)據(jù)庫
4檢索技術簡介
5§7.1.1關系數(shù)據(jù)庫基本知識數(shù)據(jù)庫的數(shù)據(jù)模型先后經(jīng)歷了網(wǎng)狀模型、層次模型、關系模型和面向對象模型等階段。其中關系模型因為有完整的理論基礎,取代了網(wǎng)狀模型和層次模型,目前關系數(shù)據(jù)庫在實際應用中居于主導地位。MEDIAASSETMANAGEMENT面向對象模型關系模型層次模型網(wǎng)狀模型§7.1.1關系數(shù)據(jù)庫基本知識1.關系數(shù)據(jù)庫的特征數(shù)據(jù)結構化。按照某種數(shù)據(jù)模型組織成為一個結構化的數(shù)據(jù)整體。它不僅描述了數(shù)據(jù)本身的特性,而且描述了數(shù)據(jù)與數(shù)據(jù)之間的各種聯(lián)系,這使數(shù)據(jù)庫具備了復雜的內(nèi)部組織結構。實現(xiàn)數(shù)據(jù)共享。實現(xiàn)了多個應用程序、多種語言及多個用戶共享一個庫中的數(shù)據(jù),甚至在一個單位或更大的范圍內(nèi)共享,因而大大提高了數(shù)據(jù)的利用率,提高了工作效率。MEDIAASSETMANAGEMENT§7.1.1關系數(shù)據(jù)庫基本知識減少數(shù)據(jù)冗余度。由于數(shù)據(jù)庫實現(xiàn)了數(shù)據(jù)共享,因而減少了數(shù)據(jù)的重復存儲,節(jié)省了存儲空間,減少了數(shù)據(jù)冗余。數(shù)據(jù)獨立性。數(shù)據(jù)庫技術中的數(shù)據(jù)與程序相互獨立,互不依賴,不因一方的改變而改變另一方,這大大簡化了應用程序設計與維護的工作量,同時數(shù)據(jù)也不會隨程序的結束而消失,可長期保留在計算機系統(tǒng)中。MEDIAASSETMANAGEMENT§7.1.1關系數(shù)據(jù)庫基本知識姓名
地址年齡月薪工齡張非北京
2750004李奎上海2965003王西風廣州38800010MEDIAASSETMANAGEMENT數(shù)據(jù)庫示例2.關系數(shù)據(jù)庫的基本組成關系數(shù)據(jù)庫由一組數(shù)據(jù)表組成。表中的每行稱為記錄,每列稱為字段。表是一組彼此相關的記錄的組合。例如,有一張包含公司中員工信息的表。每條記錄里都存儲了公司一名員工的姓名、地址和月薪等數(shù)據(jù)?!?.1.1關系數(shù)據(jù)庫基本知識3.DBS和DBMS數(shù)據(jù)庫系統(tǒng)(DBS)是采用了數(shù)據(jù)庫(DB)技術的計算機系統(tǒng)。DBS是一個實際可運行的,按照數(shù)據(jù)庫方法存儲、維護和向應用系統(tǒng)提供數(shù)據(jù)支持的系統(tǒng),它是數(shù)據(jù)庫、硬件、軟件和數(shù)據(jù)庫管理員的集合體。數(shù)據(jù)庫管理系統(tǒng)(DBMS)是指數(shù)據(jù)庫系統(tǒng)中對數(shù)據(jù)進行管理的軟件系統(tǒng),它是DBS的核心組成部分。對DB的一切操作,包括定義、查詢、更新及各種控制,都是通過DBMS進行的。MEDIAASSETMANAGEMENT§7.1.2關系數(shù)據(jù)庫管理系統(tǒng)RDBMS通常利用數(shù)據(jù)庫管理系統(tǒng)來處理諸如人們用文件柜來完成的那樣一些任務。從某種意義上來說,數(shù)據(jù)庫就像一個大文件柜,只不過是一個內(nèi)建的文件編排系統(tǒng)而已。電子化處理記錄相對手工處理記錄有很多優(yōu)點:MEDIAASSETMANAGEMENT§7.1.3關系數(shù)據(jù)庫的數(shù)據(jù)模型關系數(shù)據(jù)庫是一些相關的表和其他數(shù)據(jù)庫對象的集合。該定義表達了三部分含義:第一,在關系數(shù)據(jù)庫中,信息被存放在二維表格結構的表(table)中,一個關系數(shù)據(jù)庫包含了多個數(shù)據(jù)表,而每一個表又包含行(記錄)和列(字段),可以將表想象為一個電子表格,其中與行對應的是記錄,與列對應的是字段;第二,這些表之間是相互關聯(lián)的,表之間的這種關聯(lián)性是由主鍵和外鍵所體現(xiàn)的參照關系來實現(xiàn)的;第三,數(shù)據(jù)庫不僅包合表,而且包含了其他數(shù)據(jù)庫對象,如視圖、存儲過程、索引等。MEDIAASSETMANAGEMENT§7.1.3關系數(shù)據(jù)庫的數(shù)據(jù)模型主關鍵字(primarykey,也稱主鍵)是指表中的某一列,該列的值可唯一標識一行。外部關鍵字(foreignkey,也稱外鍵)是指如果表中含有與另一個表的主關鍵字相對應的列組,那么該列組就被稱為外部關鍵字。從該定義可以看出,外部關鍵字也是由一個或多個列組成。如果兩個表中具有相同的列或列組,那么該列或列組就被稱為這兩個表的公共關鍵字(commonkey)。如果公共關鍵字是其中一個表的主關鍵字,那么該公共關鍵字在另一個表中就被稱為外部關鍵字。MEDIAASSETMANAGEMENT§7.1.4RDBMS的特點RDBMS的特點如下:數(shù)據(jù)完整性:所有RDBMS都使用SQL或其變體來控制包含在任意數(shù)據(jù)庫中的數(shù)據(jù)。RDBMS必須保證數(shù)據(jù)的完整性。數(shù)據(jù)的安全性:多數(shù)RDBMS都堅持把實際數(shù)據(jù)和業(yè)務邏輯區(qū)分開,以確保數(shù)據(jù)庫中的數(shù)據(jù)可以保持持久狀態(tài)。MEDIAASSETMANAGEMENTMEDIAASSETMANAGEMENT第7章多媒體數(shù)據(jù)庫技術關系數(shù)據(jù)庫概述1多媒體數(shù)據(jù)庫概述
2面向對象數(shù)據(jù)庫技術
3分布式多媒體數(shù)據(jù)庫
4檢索技術簡介
5§7.2多媒體數(shù)據(jù)庫概述多媒體數(shù)據(jù)庫(MMDB)與傳統(tǒng)的關系數(shù)據(jù)庫相比,具有數(shù)據(jù)量大、數(shù)據(jù)類型多、數(shù)據(jù)類型之間差距大、多媒體數(shù)據(jù)的輸入和輸出復雜的特點。當今時代,網(wǎng)絡技術與信息傳輸技術的發(fā)達,更增加了多媒體數(shù)據(jù)的復雜性。一般來講,多媒體數(shù)據(jù)有靜態(tài)與動態(tài)之分,靜態(tài)數(shù)據(jù)有字符、數(shù)值、文本、圖形、圖像等靜態(tài)的數(shù)據(jù),而動態(tài)數(shù)據(jù)有音頻、視頻、動畫等。
MEDIAASSETMANAGEMENT§7.2.1多媒體數(shù)據(jù)的特點多媒體數(shù)據(jù)庫信息媒體的多樣性MEDIAASSETMANAGEMENT§7.2.1多媒體數(shù)據(jù)的特點(1)數(shù)據(jù)量大圖像、聲頻和視頻對象一般需要大的存儲容量。(2)數(shù)據(jù)長度可變多媒體數(shù)據(jù)的數(shù)據(jù)量大小可變,且無法預先估計。(3)多數(shù)據(jù)流多媒體展示時涉及多種數(shù)據(jù)類型的靜態(tài)和連續(xù)媒體的集成及顯示。(4)數(shù)據(jù)流的連續(xù)記錄和檢索多媒體數(shù)據(jù)要求連續(xù)記錄(存儲)和播放(檢索),否則將導致嚴重失真,大大影響效果,使用戶無法接受。MEDIAASSETMANAGEMENT§7.2.2MMDB的主要需求多媒體數(shù)據(jù)庫(MMDB)就是要實現(xiàn)對結構化和非結構化的多媒體數(shù)據(jù)的存儲、管理和查詢,其主要需求有:1.MMDB應能夠表示多種媒體的數(shù)據(jù),如圖形、圖像、聲音等。非結構化數(shù)據(jù)表示起來比較復雜,需要根據(jù)多媒體系統(tǒng)的特點來決定表示方法。
2.MMDB應能夠協(xié)調處理各種媒體數(shù)據(jù),正確識別各種媒體數(shù)據(jù)之間在空間或時間上的關系。3.除必須滿足物理數(shù)據(jù)獨立性和邏輯數(shù)據(jù)獨立性外,還應該滿足媒體數(shù)據(jù)獨立性。
MEDIAASSETMANAGEMENT§7.2.2MMDB的主要需求4.更強的數(shù)據(jù)查詢和操縱。多媒體數(shù)據(jù)既有其外在的表現(xiàn)形式,又有其自身內(nèi)在的結構。
5.媒體的集成和編輯。媒體的有機組合(集成)是多媒體數(shù)據(jù)庫系統(tǒng)的一項重要而且難度較大的功能。6.網(wǎng)絡功能。應解決分布在網(wǎng)絡上的MMDB中的數(shù)據(jù)的定義、存儲、操作問題,并對數(shù)據(jù)的一致性、安全性、并發(fā)性進行管理。7.多媒體數(shù)據(jù)庫系統(tǒng)(MMDBS)應具有開放功能,提供MMDB的應用程序接口API。
MEDIAASSETMANAGEMENT§7.2.2MMDB的主要需求8.交互性強。最常見的是用鼠標選擇調用有關的信息,供用戶觀察、決策。9.MMDB還應提供數(shù)據(jù)和版本管理功能。MEDIAASSETMANAGEMENT§7.2.3MMDBS的層次結構
MEDIAASSETMANAGEMENT§7.2.3MMDBS的層次結構(1)物理存儲層:描述如何在文件系統(tǒng)中存儲多媒體數(shù)據(jù)。(2)數(shù)據(jù)描述層:也是核心層。這一層負責對原始信息的解釋和描述,并處理索引提出的數(shù)據(jù)快速存取請求。(3)網(wǎng)絡層:媒體對象可能存儲在不同的系統(tǒng)中,用戶可以在計算機網(wǎng)絡上進行數(shù)據(jù)存取。(4)過濾層:負責分析和處理用戶的查詢要求。用戶可以用不同的方法查詢數(shù)據(jù)庫,這取決于用戶所需要信息的類型。(5)用戶層:應用和用戶之間的接口,負責實現(xiàn)數(shù)據(jù)庫中數(shù)據(jù)的瀏覽以及人機交互。MEDIAASSETMANAGEMENT§7.2.4多媒體數(shù)據(jù)模型(1)支持結構化數(shù)據(jù)(如字符數(shù)值)和非結構化數(shù)據(jù)(如視頻、聲音、圖象等)的表示及其屬性特征的描述。(2)支持多媒體的表現(xiàn)(Presentation)建模,即多媒體數(shù)據(jù)模型應能表示各媒體對象間的語義關系、時態(tài)關系和空間關系。MEDIAASSETMANAGEMENT§7.2.4多媒體數(shù)據(jù)模型目前開發(fā)出來的MMDBS大多是專用的MMDB,對信息的處理進行了折中,缺乏通用性。在多媒體數(shù)據(jù)模型方面主要存在以下問題:(1)沒有表示多媒體數(shù)據(jù)模型經(jīng)典完善的理論及技術。在建立多媒體數(shù)據(jù)模型時,雖然可能借助其它方面的研究成果,但表示多媒體數(shù)據(jù)的統(tǒng)一完善的理論還沒有形成。(2)目前研究者各自從不同的方向對多媒體數(shù)據(jù)模型進行探討,所建立的多媒體數(shù)據(jù)模型一般也只能反映和強調多媒體數(shù)據(jù)的某一類特征,其應用也側重于某一類領域。(3)受目前圖像理解、計算機視覺、人工智能等學科發(fā)展水平的限制。圖像數(shù)據(jù)自動語義識別和視頻數(shù)據(jù)自動分段,以及抽取高級語義特征還存在不少困難。MEDIAASSETMANAGEMENT§7.2.4多媒體數(shù)據(jù)模型建立多媒體數(shù)據(jù)模型的方法可以概括為如下幾種:擴充關系的模型:在傳統(tǒng)關系數(shù)據(jù)庫的基礎上加以擴充,使之支持多媒體數(shù)據(jù)類型?;诿嫦驅ο笳Z言的模型:在面向對象語言中嵌入數(shù)據(jù)庫功能而形成MMDB。
基于超文本或超媒體的模型:此種模型由節(jié)點和鏈組成,節(jié)點是信息單位(信息元),鏈用于組織信息,表達信息間的關系,把節(jié)點連接成網(wǎng)狀結構。
開發(fā)全新的數(shù)據(jù)模型:該方法從低層來實現(xiàn)MMDBS,首先建立一個包含面向對象數(shù)據(jù)庫核心概念的數(shù)據(jù)模型,然后設計相應的語言和相應的面向對象數(shù)據(jù)庫管理系統(tǒng)的核心。MEDIAASSETMANAGEMENT§7.2.4多媒體數(shù)據(jù)模型1.擴充關系的模型:傳統(tǒng)的關系模型結構簡單,是單一的二維表,很難用于空間數(shù)據(jù)和時態(tài)數(shù)據(jù),缺乏演繹和推理操作,表達數(shù)據(jù)特性的能力有限。在基于RDB的MMDB中,必須對現(xiàn)有的關系模型進行擴充,使它不但能支持結構化數(shù)據(jù),也能處理非結構化數(shù)據(jù),分為以下三種擴充方式:
MEDIAASSETMANAGEMENT§7.2.4多媒體數(shù)據(jù)模型(1)擴展現(xiàn)有的數(shù)據(jù)類型
一般是利用標準擴展字段(General)來描述多媒體數(shù)據(jù)。在Oracle和Sybase系統(tǒng)中采用二進制大對象(BLOB)存放各種多媒體數(shù)據(jù)(可達2GB)。常規(guī)數(shù)據(jù)用關系數(shù)據(jù)庫處理,多媒體數(shù)據(jù)則存儲在數(shù)據(jù)庫之外的圖像或視頻服務器上,關系數(shù)據(jù)庫中包括了BLOB的位置信息,這些位置信息相當于指向多媒體文件的指針。MEDIAASSETMANAGEMENT§7.2.4多媒體數(shù)據(jù)模型(2)擴充用戶自定義的數(shù)據(jù)類型用戶自定義一個抽象數(shù)據(jù)類型作為另一關系的值,而不僅僅是采用系統(tǒng)己定義的數(shù)據(jù)類型。
例如,用函數(shù)定義的擴展系統(tǒng)允許用戶將程序加到一個關系上,使系統(tǒng)的查詢語言具備調用程序的能力。這種方法旨在擴充關系數(shù)據(jù)庫,使之支持ADT(抽象數(shù)據(jù)類型)的定義和使用。以極小的代價拓寬的對多種媒體的管理能力。但由于基于二維構造的多媒體數(shù)據(jù)模型無法反映各媒體之間的空間、時間和語義關系,有關的處理必須用其它應用程序來實現(xiàn),所以在多媒體數(shù)據(jù)的同步和集成方面存在很多問題,且對多媒體數(shù)據(jù)的基于內(nèi)容的檢索和查詢更加難以實現(xiàn)。MEDIAASSETMANAGEMENT§7.2.4多媒體數(shù)據(jù)模型3)擴充嵌套語義,采用NF2數(shù)據(jù)模型。傳統(tǒng)的關系模型要求關系數(shù)據(jù)庫中的所有關系必須滿足第一范式(FirstNormalForm,1NF),即一個關系中的所有屬性都必須是原子型的,表中不能有表。由于MMDB具有各種各樣的媒體數(shù)據(jù),格式、大小都不相同,因此必須打破關系數(shù)據(jù)庫中關于范式的要求,允許表中有表,即采用非第一范式(NonFirstNormalForm,NF2)模型,也叫嵌套關系數(shù)據(jù)模型。NF2模型提供描述屬性嵌套定義的手段,一個對象的值也可以是一個對象。雖然NF2方法可以利用關系數(shù)據(jù)庫傳統(tǒng)優(yōu)勢,延用關系數(shù)據(jù)庫語言或其他通用語言。但無法增強建模能力,不能較好地反映多媒體數(shù)據(jù)所特有的時空關系,同時多媒體對象的存取、檢索或其它處理上仍存在相當大的困難。MEDIAASSETMANAGEMENT§7.2.4多媒體數(shù)據(jù)模型2.面向對象的數(shù)據(jù)模型面向對象數(shù)據(jù)庫建立在對象模型的基礎上,以定義對象的屬性、集合、行為、狀態(tài)和聯(lián)系等為主要描述方式,引入了類、對象、方法、消息、封裝、繼承等概念。面向對象的方法為新一代的多媒體數(shù)據(jù)模型打下了良好的基礎,許多多媒體資料可以抽象為被類型鏈連接在一起的結點網(wǎng)絡,可以自然地用面向對象方法所描述。這種機制可以很好地滿足MMDB在建模方面的要求,并且能更好地實現(xiàn)數(shù)據(jù)庫的存儲、查詢以及其他操作。MEDIAASSETMANAGEMENT§7.2.4多媒體數(shù)據(jù)模型其特點主要表現(xiàn)為:(1)面向對象模型支持“聚合”與“概括”的概念,從而可以更好地處理多媒體數(shù)據(jù)等復雜對象的結構語義。(2)面向對象模型支持抽象數(shù)據(jù)類型和用戶定義的方法,便于系統(tǒng)支持定義新的數(shù)據(jù)類型和操作。(3)面向對象系統(tǒng)的數(shù)據(jù)抽象、功能抽象與消息傳遞的特點使對象在系統(tǒng)中是獨立的,具有良好的封閉性,封閉了多媒體數(shù)據(jù)之間的類型及其它方面的巨大差異,并且容易實現(xiàn)并行處理,也便于系統(tǒng)模式的擴充和修改。(4)面向對象系統(tǒng)的對象類、類層次和繼承性的特點,不僅減少了冗余和由此引起的一系列問題,還非常有利于版本控制。MEDIAASSETMANAGEMENT§7.2.4多媒體數(shù)據(jù)模型(5)面向對象系統(tǒng)中實體是獨立于值存在的,因而避免了關系數(shù)據(jù)庫中討論的各種異常。(6)面向對象系統(tǒng)的查詢語言通常是沿著系統(tǒng)提供的內(nèi)部固有聯(lián)系進行的,避免了大量的查詢優(yōu)化工作。MEDIAASSETMANAGEMENT§7.2.5MMDBMS的體系結構1.組合型結構通過整合技術連接的。如圖,組合型結構中可以擁有多個獨立的媒體數(shù)據(jù)庫,每一種媒體數(shù)據(jù)庫的設計都有自己獨立的數(shù)據(jù)庫管理系統(tǒng)。MEDIAASSETMANAGEMENT§7.2.5MMDBMS的體系結構2.集中統(tǒng)一型結構各種媒體被集中統(tǒng)一地建在單一的MMDB里,由單一的MMDBMS統(tǒng)一管理和操縱。實際較難實現(xiàn)。MEDIAASSETMANAGEMENT§7.2.5MMDBMS的體系結構3.客戶/服務型結構各種單媒體數(shù)據(jù)仍然相對獨立,各用一個服務器來實現(xiàn)管理和操縱,客戶與服務器之間通過特定的中間件系統(tǒng)連接。MEDIAASSETMANAGEMENT§7.2.5MMDBMS的體系結構4.超媒體型結構數(shù)據(jù)庫分散到網(wǎng)絡上,把它看成一個信息空間,只要設計好訪問工具就能夠訪問和使用這些信息。在多媒體的數(shù)據(jù)模型上,通過超鏈接建立起各種數(shù)據(jù)的時空關系。MEDIAASSETMANAGEMENT§7.2.6MMDBMS的查詢管理數(shù)據(jù)庫的查詢是數(shù)據(jù)庫最重要的功能之一。MMDBMS查詢系統(tǒng)需完成以下幾個方面的設計:用戶查詢接口、多媒體數(shù)據(jù)提交、提交過程干預。用戶查詢接口應允許用戶根據(jù)內(nèi)容、實例、時間、空間及其可能的組合進行查詢。對實例查詢,用戶接口需從適當?shù)脑O備中獲得實例對象(如實例對象可通過掃描儀或存儲的文件獲得)。MEDIAASSETMANAGEMENT§7.2.6MMDBMS的查詢管理查詢生成器產(chǎn)生一個適當?shù)目杀徊樵兲幚砥魈幚淼牟樵儯徊樵兲幚砥髟L問需要的元數(shù)據(jù)并作出反應;響應表示模塊向用戶提供顯示和反饋。如果用戶對響應不滿意,可重新設計并生成新的查詢。MEDIAASSETMANAGEMENTMEDIAASSETMANAGEMENT第7章多媒體數(shù)據(jù)庫技術關系數(shù)據(jù)庫概述1多媒體數(shù)據(jù)庫概述
2面向對象數(shù)據(jù)庫技術
3分布式多媒體數(shù)據(jù)庫
4檢索技術簡介
5§7.3面向對象的數(shù)據(jù)庫技術面向對象數(shù)據(jù)庫系統(tǒng)(OODB)的思想產(chǎn)生于上世紀80年代初。結合特定應用領域,分為:多媒體數(shù)據(jù)庫(結合多媒體技術)、空間數(shù)據(jù)庫(結合空間信息學和GIS)、演繹數(shù)據(jù)庫(結合人工智能)、工程數(shù)據(jù)庫(結合軟件工程)等。與傳統(tǒng)數(shù)據(jù)庫相比,它們既具有多樣性(學科交叉的必然結果),又有統(tǒng)一性,建立它們的主要目的是為了處理海量信息和復雜數(shù)據(jù)結構。MEDIAASSETMANAGEMENT§7.3面向對象的數(shù)據(jù)庫技術與擴充的RDB不同,OODB傾向于以數(shù)據(jù)模型入手,重新考慮系統(tǒng)結構、對象類層次的存儲結構、存取方法和繼承性的實現(xiàn)方法、用戶定義的數(shù)據(jù)類型和方法的處理策略、必要的版本控制和友好的用戶界面,建立一個全新的DBMS。對于大型應用而言,OODB技術是解決多媒體數(shù)據(jù)庫中復雜關系的最根本的解決辦法。MEDIAASSETMANAGEMENT§7.3.1OODB的特點首先,它是一個數(shù)據(jù)庫管理系統(tǒng),具有數(shù)據(jù)庫管理系統(tǒng)的基本功能:一是永久性,數(shù)據(jù)庫中的數(shù)據(jù)永久保存;二是存儲管理,包括索引管理、數(shù)據(jù)聚集、數(shù)據(jù)緩沖、存取路徑選擇、查詢優(yōu)化等;三是能并發(fā)控制,提供高于當前已有數(shù)據(jù)庫管理系統(tǒng)同樣級別的、對多個用戶并發(fā)操作的支持;四是故障恢復能力,提供不低于當前已有的數(shù)據(jù)庫管理系統(tǒng)同樣級別的、將數(shù)據(jù)庫從故障后的錯誤狀態(tài)中恢復到某個正確狀態(tài)的功能;五是交互式查詢功能,且是非過程化的、高效的、獨立于應用的。MEDIAASSETMANAGEMENT§7.3.1OODB的特點其次,它是一個面向對象的系統(tǒng),具有支持OODB模型,支持復雜對象,具有運用各種構造機制從簡單對象組成復雜對象的能力。復雜對象構造能力加強了對客觀現(xiàn)實世界的模擬能力,且方法自然、易理解、具有對象標識,對象標識獨立于其值而存在的特性,可以極大地加快查詢速度。對象既封裝了數(shù)據(jù),又封裝操作,實現(xiàn)了信息隱藏,使用戶不必知道操作的實現(xiàn)細節(jié),只利用設計者提供的消息即可訪問對象。MEDIAASSETMANAGEMENT§7.3.1OODB的特點OODB與傳統(tǒng)的RDB相比,其優(yōu)勢主要體現(xiàn)在:1.OODB更易于掌握OODB可基于面向對象程序設計語言,如C++。熟悉面向對象程序設計語言的人能很方便地掌握并使用這類系統(tǒng)。2.支持復雜應用面向對象模型主要用于復雜應用。將特定對象放入高緩沖區(qū)或內(nèi)存,使系統(tǒng)性能得到優(yōu)化。3.存儲大型數(shù)據(jù)結構OODB不僅能存儲復雜的應用數(shù)據(jù),而且還能存儲較大的數(shù)據(jù)結構。OODB不會因為有大量對象的存在而降低了性能。4.直接引用對象OODB支持對象的直接引用,減少了系統(tǒng)的數(shù)據(jù)冗余,提供了數(shù)據(jù)共享能力,有利于數(shù)據(jù)完整性維護,同時還大大提高了搜索和導航訪問能力。MEDIAASSETMANAGEMENT§7.3.1OODB的特點5.優(yōu)良的應用開發(fā)環(huán)境RDB的應用開發(fā)離不開數(shù)據(jù)操作語言和相應的宿主語言等。OODB的應用開發(fā)并沒有這些限制。6.簡化并發(fā)控制在RDB中,并發(fā)控制理論實現(xiàn)起來卻比較復雜。而OODB的并發(fā)控制以對象為封鎖單位,相關數(shù)據(jù)由對象本身的結構決定,一些控制可由對象的方法和觸發(fā)器完成,并發(fā)控制簡單而有效。7.實現(xiàn)無縫連接OODB的產(chǎn)生主要是為了解決“阻抗失配”,它強調高級程序設計語言與數(shù)據(jù)庫的無縫連接。由于實現(xiàn)了無縫連接,使得OODB能夠支持非常復雜的數(shù)據(jù)模型,從而特別適用于工程設計領域。MEDIAASSETMANAGEMENT§7.3.1OODB的特點OODB技術可望成為繼RDB技術之后的新一代數(shù)據(jù)管理技術。存在的問題如下:1.性能方面:由于OODB中數(shù)據(jù)被存放在許多地方,因此,有效對象聚集是性能好壞的關鍵因素。2.模式修改:當需要OODB的升級或新版本時,數(shù)據(jù)庫的模式修改或重構將是個問題。3.標準化:標準化和形式化是OODB研究和發(fā)展的一個重要方向。4.技術仍須趨向成熟:OODB的發(fā)展有賴于面向對象語言的發(fā)展。隨著面向對象語言的發(fā)展,OODB將趨于成熟。MEDIAASSETMANAGEMENT§7.3.2OODB的系統(tǒng)結構現(xiàn)有OODB管理系統(tǒng)功能各異,因而有各種不同的系統(tǒng)結構。下面介紹一種由美國MCC公司研制的ORION系統(tǒng)的系統(tǒng)結構。ORION系統(tǒng)由4個子系統(tǒng)構成:MEDIAASSETMANAGEMENT§7.3.2OODB的系統(tǒng)結構ORION系統(tǒng)由4個子系統(tǒng)構成:(1)消息處理子系統(tǒng):處理發(fā)送到系統(tǒng)中的所有消息。(2)對象子系統(tǒng):提供高級數(shù)據(jù)管理功能,包括查詢優(yōu)化、模式管理、長數(shù)據(jù)管理(包括全文檢索),以及支持版本對象、復合對象和多媒體對象。(3)存儲子系統(tǒng):完成對存儲在磁盤上對象的存取,它包括兩個子系統(tǒng)——頁緩沖區(qū)管理和磁盤段管理,分別負責內(nèi)存頁緩沖區(qū)管理和磁盤中頁段管理。(4)事務管理子系統(tǒng):采用鎖和日志技術協(xié)調系統(tǒng)的并發(fā)控制與恢復機制。MEDIAASSETMANAGEMENT§7.3.2OODB的系統(tǒng)結構ORION系統(tǒng)的客戶機/服務器視圖
:MEDIAASSETMANAGEMENT§7.3.3OODBS的存儲管理存儲管理是一個數(shù)據(jù)庫系統(tǒng)的物理實現(xiàn)層,存儲管理設計與實現(xiàn)的好壞直接影響著系統(tǒng)的性能、安全與恢復,并與整個系統(tǒng)的總體結構和數(shù)據(jù)模型息息相關。存儲管理主要涉及對象存儲、聚簇策略和索引等內(nèi)容。MEDIAASSETMANAGEMENT§7.3.3OODBS的存儲管理1.對象存儲(1)對象數(shù)據(jù)的存儲結構對象的存儲由兩部分組成第一部分是數(shù)據(jù)庫類的結構信息和語義關聯(lián),包括數(shù)據(jù)項構成、函數(shù)動作及與其它類的語義關聯(lián)等。同一類的所有對象具有相同的結構和行為,因此這些信息只需存儲一次,我們把它們存放在該類的數(shù)據(jù)字典中。函數(shù)體的源代碼和目標代碼則分別存于系統(tǒng)的源代碼庫和目標代碼庫中。第二部分是該類對象的實例數(shù)據(jù),它們被一一存放在對象庫中。MEDIAASSETMANAGEMENT§7.3.3OODBS的存儲管理(2)對象數(shù)據(jù)的存儲一個OODB系統(tǒng)包含若干個磁盤卷,每個磁盤卷包含若干個頁面,對象存儲在頁面上。頁面包含一個頁首和一組頁槽。對象的物理地址由磁盤卷號、頁面號和頁槽號組成。頁槽用于記錄對象在頁面中的位置,也就是距離頁面開始處的偏移量。當向一個空頁面中插人第一個對象(即對象0)時,對象0緊接頁首位置,其位置由頁槽0記錄。對象標識符(ObjectIdentifier,OID)被用來唯一標識數(shù)據(jù)庫中的每個對象,對象標識符分為物理對象標識符和邏輯對象標識符。MEDIAASSETMANAGEMENT§7.3.3OODBS的存儲管理通常,根據(jù)對象的大小,將對象進行分類,如果對象大小超過頁面的大小,那么稱其為大對象;否則,稱為小對象。大對象的存儲方法主要分為兩種:基于塊的大對象存儲方法和基于段的大對象存儲方法。目前,許多對象存儲系統(tǒng)都采用基于段的大對象存儲方法。基于段的大對象存儲方法是將大對象存儲在物理上相鄰的若干磁盤塊上的存儲方法。對于合成對象,OODB系統(tǒng)采用把主體對象與成員對象分開存儲的策略。主體對象中相應位置存放成員對象的標識符(OID),成員對象則存放在其對應的數(shù)據(jù)文件中。MEDIAASSETMANAGEMENT§7.3.3OODBS的存儲管理對象的分開存儲策略具有以下優(yōu)點:(1)查詢效率高,尤其是對那些從某個類中找出滿足條件的所有對象這樣的查詢。(2)能很好地支持對象變遷。如某一對象在某一時刻變?yōu)槠渥宇愔械囊粋€實例或退化為其超類的一個實例,此時只需增減某些片段,只對某一類的數(shù)據(jù)文件進行修改而不會影響其他抽象類的存儲。(3)方便大對象的處理。一個大對象在按抽象類分割后就變成了一些較小的片段,這些片段具有相對的獨立性,可以單獨調入內(nèi)存處理。(4)能為不同版本的對象提供共享機制。如果一個對象的不同版本在某些數(shù)據(jù)片段上沒有差異,則這兩個版本在這些數(shù)據(jù)片段上可以共享同一份存儲。MEDIAASSETMANAGEMENT§7.3.3OODBS的存儲管理2.聚簇策略聚簇是指將相關對象組合起來的過程。聚簇過程的基本意圖是為了當用戶程序存取一個對象時,可以在相同或相鄰物理頁中很快找到該對象或其相關對象。聚簇的基本目標是將頻繁相互引用的對象彼此相近地存放在內(nèi)存或外存上,物理存儲單元通常都作為聚簇的容器,這些容器的參數(shù)決定了聚簇的大小尺寸,從而減少查詢處理所需要的I/O操作數(shù)。MEDIAASSETMANAGEMENT§7.3.3OODBS的存儲管理聚簇策略有靜態(tài)和動態(tài)之分:(1)靜態(tài)聚簇:此種聚簇是在對象創(chuàng)建時實施的,當對象之間的鏈被更新時,不重新進行。(2)動態(tài)聚簇:此種聚簇是在運行時實施的,在做聚簇的同時還可以并發(fā)地訪問對象。一個聚簇策略到底選取靜態(tài)技術還是動態(tài)技術,這取決于對象庫的行為方面的特征,包括更新操作頻度的高低、讀寫比率的大小等。動態(tài)聚簇技術需要一定的CPU時間開銷,它對寫者的響應速度要慢些,對讀者的響應速度要快些。僅當一個系統(tǒng)讀操作的次數(shù)遠遠超過寫操作的次數(shù)時,動態(tài)聚簇技術才可能提高系統(tǒng)的整體性能。MEDIAASSETMANAGEMENT§7.3.3OODBS的存儲管理3.索引在OODB中,索引是加速查詢操作的一種重要技術。與傳統(tǒng)的關系數(shù)據(jù)庫在一個屬性或一組屬性上建立一個索引有所不同,OODB引入三類新的索引:類層次索引、嵌套屬性索引和復雜的二維索引。其中嵌套屬性索引建立在一個聚集類層次上,又可分為嵌套索引、路徑索引和多重索引。嵌套索引維護比較困難,但檢索性能最好,適用于對象的反向引用存在的情況;路徑索引不需要反向游歷,實現(xiàn)起來較方便,檢索性能次之;多重索引結構簡單,維護最方便,但檢索性能不理想。選用何種索引,須對索引性能、維護代價和實現(xiàn)技術復雜度綜合權衡而定。MEDIAASSETMANAGEMENTMEDIAASSETMANAGEMENT第7章多媒體數(shù)據(jù)庫技術關系數(shù)據(jù)庫概述1多媒體數(shù)據(jù)庫概述
2面向對象數(shù)據(jù)庫技術
3分布式多媒體數(shù)據(jù)庫
4檢索技術簡介
5§7.4.1DDBS的基本概念
分布式數(shù)據(jù)庫系統(tǒng)(DDBS)是數(shù)據(jù)庫技術與網(wǎng)絡技術相結合的產(chǎn)物,在數(shù)據(jù)庫領域已形成一個重要分支。分布式數(shù)據(jù)庫的研究始于20世紀70年代中期。世界上第一個DDBS是由美國計算機公司(CCA)于1979年在DEC計算機上實現(xiàn)的。20世紀90年代以來,DDBS進入商品化應用階段,傳統(tǒng)的關系數(shù)據(jù)庫產(chǎn)品均發(fā)展成以計算機網(wǎng)絡及多任務操作系統(tǒng)為核心的分布式數(shù)據(jù)庫產(chǎn)品,同時分布式數(shù)據(jù)庫逐步向客戶機/服務器模式發(fā)展。MEDIAASSETMANAGEMENT§7.4.1DDBS的基本概念
MEDIAASSETMANAGEMENT網(wǎng)絡CMGDBMSLDBMSCMGDBMSLDBMSCMGDBMSLDBMS全局用戶GDD/GDB局部用戶LDDLDB全局用戶GDD/GDB局部用戶LDDLDBGDD/GDB局部用戶GDD/GDB全局用戶
分布式數(shù)據(jù)庫系統(tǒng)的系統(tǒng)結構§7.4.1DDBS的基本概念
DDBS系統(tǒng)組成如下:1.硬件:分布式系統(tǒng)所依賴的硬件環(huán)境是分布的。這需要多臺計算機設備,計算機網(wǎng)絡設備,并由計算機網(wǎng)絡連接。2.軟件:每個場地必須選擇一個適合的操作系統(tǒng),還必須配備高層的DDBMS(分布式數(shù)據(jù)庫管理系統(tǒng)),它包括GDBMS(全局數(shù)據(jù)庫管理系統(tǒng))、LDBMS(局部數(shù)據(jù)庫管理系統(tǒng))和CM(通信管理器)。3.數(shù)據(jù):DDBS中的數(shù)據(jù)是以DDB為核心的,包括GDB(全局數(shù)據(jù)庫)和LDB(局部數(shù)據(jù)庫),以及對應的LDD(局部數(shù)據(jù)目錄)和GDD(全局數(shù)據(jù)目錄)。4.管理員:DDBA(分布式數(shù)據(jù)庫管理員),它可分為兩級,一級為GDBA(全局數(shù)據(jù)庫管理員),另一級為局部或自治場地數(shù)據(jù)庫管理員,稱為LDBA(局部數(shù)據(jù)庫管理員)。MEDIAASSETMANAGEMENT§7.4.1DDBS的基本概念
分布式數(shù)據(jù)庫(DDB)是計算機網(wǎng)絡環(huán)境中各場地(Site)或節(jié)點(Node)上數(shù)據(jù)庫的邏輯集合。它是一組結構化的數(shù)據(jù)集合,邏輯上屬于同一系統(tǒng),而物理上分布在計算機網(wǎng)絡的不同節(jié)點上,具有分布性和邏輯協(xié)調性的特點。分布性是指數(shù)據(jù)不是存放在單一場地為單個計算機配置的存儲設備上,而是按全局需要將數(shù)據(jù)劃分成一定結構的數(shù)據(jù)子集,分散地存儲在各個場地(節(jié)點)上。邏輯協(xié)調性是指各場地上的數(shù)據(jù)子集,相互間由嚴密的約束規(guī)則加以限定,而在邏輯上是一個整體。MEDIAASSETMANAGEMENT§7.4.1DDBS的基本概念
一個分布式的數(shù)據(jù)庫系統(tǒng)應滿足以下四個假設條件:1是數(shù)據(jù)存儲在一些場所(任意地理位置)中,每個場所邏輯上假定為單個處理器;2是場所中的處理器由計算機網(wǎng)絡互聯(lián)。松散互聯(lián)的處理器有它們自己的操作系統(tǒng),并可進行獨立操作(獨立計算機);3是分布式數(shù)據(jù)庫不是一個能在每個網(wǎng)絡節(jié)點上單獨存儲的文件的匯集,而是一個實實在在的數(shù)據(jù)庫(獨立數(shù)據(jù)庫)。4是系統(tǒng)具有DBMS的完備功能,它不僅包括事務處理和分布式文件系統(tǒng),還有查詢處理和結構數(shù)據(jù)組織等功能(完備的管理功能)。MEDIAASSETMANAGEMENT§7.4.2DDBS的數(shù)據(jù)分片在構成DDBS的運行環(huán)境時,必須考慮構成DDBS所應用的各個組成部分各自如何使用數(shù)據(jù)的問題,所以,DDBS同樣存在著分布式數(shù)據(jù)庫(DDB)的設計問題,這就是數(shù)據(jù)分片。它包括了分布式數(shù)據(jù)庫的邏輯劃分和物理分配,以及用戶對分布式數(shù)據(jù)庫的劃分或分配的感知程度(透明度)。數(shù)據(jù)分片的主要目的是提高訪問的局部性。當然,既然是分布式數(shù)據(jù)庫,就不可能使所有數(shù)據(jù)的訪問都局部化。一個成功的DDBS的設計應使訪問的局部性能更好,盡量減少遠程訪問,這就是數(shù)據(jù)分片的目的。MEDIAASSETMANAGEMENT§7.4.2DDBS的數(shù)據(jù)分片數(shù)據(jù)分片包括兩個步驟:數(shù)據(jù)分割和數(shù)據(jù)分配:先從邏輯上將全局關系模式劃分成若干邏輯片斷(子關系)——分割;再按一定的冗余度將片斷分配到各個節(jié)點上,這時邏輯片斷就成為具體的物理映象(數(shù)據(jù)存儲)——分配。分割后的各邏輯關系之間應遵循下列原則:1.完整性原則:全局關系的所有數(shù)據(jù)項必須包括在任何一個片斷中。不允許出現(xiàn)某個數(shù)據(jù)項屬于全局關系,但卻不屬于任何片斷。2.重構性原則:所有片斷必須能重構(逆操作)成全局關系。3.不相交原則:不相交原則不是必須的,但有這條原則可以使分割不致引起太復雜。分割時不相交,則分配時的冗余可以得到控制。MEDIAASSETMANAGEMENT§7.4.2DDBS的數(shù)據(jù)分片1.水平分割將關系R按行分為若干個互不相交的子集R1,R2,……,Rn,每個子集Ri
稱為一個水平片段。一個水平片段可以看成是關系上的一個選擇:R=R1∪R2∪…∪Rn通過對全局關系施加選擇運算得到,并可通過對這些片段執(zhí)行合并操作來恢復該全局關系。2.垂直分割將關系R按列分為若干屬性子集R1,R2,……,Rn,每個子集Ri
稱為一個垂直片段。一個垂直片段可以看成是關系上的一個投影。關系的重構可以通過連接運算來實現(xiàn):R=R1∧R2∧…∧RnMEDIAASSETMANAGEMENT§7.4.2DDBS的數(shù)據(jù)分片3.導出分割導出水平分割,分割的條件不是關系本身屬性條件,而是其它關系的屬性條件。4.混合分割混合分割是水平分割和垂直分割的混合操作,即對關系的選擇和投影視應用需要進行操作。MEDIAASSETMANAGEMENT學號姓名出生年月籍貫入學時間畢業(yè)時間200414013001張菲1986河北20042008200512312001吳空1987陜西20052009200710213001李奎1988山東20072011201010013012朱各良1990河南2010在讀201110124025伍永1991廣東2011在讀201210235058趙蓋1992北京2012在讀已畢業(yè)學生表在讀學生表§7.4.2DDBS的數(shù)據(jù)分片MEDIAASSETMANAGEMENT水平分割垂直分割§7.4.2DDBS的數(shù)據(jù)分片分割的輸出是分配的輸入。顯然,分割與分配有著天然的聯(lián)系,二者的區(qū)別僅在于分割著眼于全局,分配則考慮片斷關系。分割是在邏輯上對數(shù)據(jù)庫進行分解,所以分割的片段稱之為邏輯片段;而分配的內(nèi)容是考慮物理上數(shù)據(jù)表的存儲,因此稱為物理映象。MEDIAASSETMANAGEMENT§7.4.2DDBS的數(shù)據(jù)分片數(shù)據(jù)分配一般有以下幾種方式:1.集中型數(shù)據(jù)雖經(jīng)分片,但所有邏輯片斷完全集中在一個場地上,仍然像一個集中數(shù)據(jù)庫一樣。2.分割型數(shù)據(jù)被分片后,所有邏輯片斷各自分配在一個場地上,所有場地上分配的只是全局關系的一個子關系。3.混合型數(shù)據(jù)被分片后的邏輯片斷根據(jù)需要分配,共享的片斷在需要共享的場地上重復設置,高度私用的片斷只設置在所需要的場地上。MEDIAASSETMANAGEMENT§7.4.2DDBS的數(shù)據(jù)分片為了保證數(shù)據(jù)分片的有效性,需滿足以下幾項條件:1.完備性條件:必須把全局關系的所有數(shù)據(jù)映射到片段中,決不允許有屬于全局關系的數(shù)據(jù)卻不屬于它的任何一個片段。2.可重構條件:必須保證能夠由同一個全局關系的各個片段來重建該全局關系。對于水平分片可用并操作重構全局關系;對于垂直分片可用聯(lián)接操作重構全局關系。3.不相交條件:要求一個全局關系被分割后所得的各個數(shù)據(jù)片段互不重疊(對垂直分片的主鍵除外)。MEDIAASSETMANAGEMENT§7.4.3DDBS的一些特點1.數(shù)據(jù)的物理分布性與邏輯整體性這種邏輯整體性也可以稱之為數(shù)據(jù)的分布透明性。也就是用戶不必關心數(shù)據(jù)的邏輯分片,不必關心數(shù)據(jù)物理位置的分布細節(jié),同時也不必關心數(shù)據(jù)的冗余處理、不必關心具體某個場地的數(shù)據(jù)庫類型。在用戶看來,所有的這些不同的數(shù)據(jù)庫都是一個完整的整體。
MEDIAASSETMANAGEMENT§7.4.3DDBS的一些特點2.場地自治和協(xié)調
數(shù)據(jù)的共享分為兩個層次,局部共享和全局共享。局部共享是指局部場地上存儲的該場地上用戶之間的共享數(shù)據(jù),在本地用戶之間共享這些數(shù)據(jù);全局共享則是DDBS中各個場地存儲的供其它場地用戶使用的共享數(shù)據(jù),支持全局的應用。所以,DDBS常采用集中和自治相結合的控制策略。局部的DBMS可以管理該場地的數(shù)據(jù)庫,具有自治功能;同時,系統(tǒng)中又設置有全局集中控制機構,來對各個獨立的數(shù)據(jù)庫進行協(xié)調,執(zhí)行全局應用。
MEDIAASSETMANAGEMENT§7.4.3DDBS的一些特點3.數(shù)據(jù)的冗余及冗余透明性
在DDBS中,常常需要增加冗余數(shù)據(jù),在不同的場地存儲數(shù)據(jù)的多個副本。通過增加冗余數(shù)據(jù),可以提高系統(tǒng)的可靠性,當某個場地的數(shù)據(jù)出現(xiàn)故障之后,可以利用其它場地的數(shù)據(jù)進行操作;另外也提高了系統(tǒng)性能,用戶可以選擇最近的副本,減小網(wǎng)絡開銷。這種冗余對用戶來說是透明的,但是,數(shù)據(jù)冗余也增加了分布式數(shù)據(jù)庫更新維護方面的操作成本,需要著重處理數(shù)據(jù)的不一致問題。
MEDIAASSETMANAGEMENT§7.4.3DDBS的一些特點4.事務管理的分布性
數(shù)據(jù)分布性造成事務執(zhí)行和管理的分布性。在DDBS中,全局的應用需要涉及到兩個以上的節(jié)點,而全局的事務則可能由不同場地上的多個操作組成。這樣,如果在一個某一個節(jié)點發(fā)生故障,操作失敗了,那么就會有這樣的一些問題:如何執(zhí)行事務的回滾,如何通知其它節(jié)點撤回操作,或者是其它節(jié)點不必執(zhí)行事務其它操作等等。
MEDIAASSETMANAGEMENT§7.4.4DMDBS的特點傳統(tǒng)的DDBS提倡有一定的數(shù)據(jù)冗余,以增加數(shù)據(jù)通信量為代價,增加局部數(shù)據(jù)庫的自治性。但是,分布式多媒體數(shù)據(jù)庫系統(tǒng)(DMDBS)已不再提倡這種數(shù)據(jù)冗余,這是因為多媒體數(shù)據(jù)的尺寸龐大,冗余存儲這樣的數(shù)據(jù)會造成嚴重的資源浪費。傳統(tǒng)DDBS的其它特點仍適用于多媒體的情況,除此之外,DMDBS還增加了一些新的特點:MEDIAASSETMANAGEMENT§7.4.4DMDBS的特點1.實時性多媒體數(shù)據(jù)的展示具有實時性,即數(shù)據(jù)按一定的速率進行展示,傳統(tǒng)的DDBS總是將查詢的結果一并傳送到用戶所在結點,對于具有實時性的多媒體數(shù)據(jù)已不再適合,其原因有兩方面:用戶的等待時間過長:具有時序屬性的多媒體對象的尺寸巨大,一次性地傳輸會花費很長的時間。用戶所在結點的存儲容量有限:用于存儲連續(xù)媒體的節(jié)點計算機一般都要采用磁盤陣列,但網(wǎng)絡系統(tǒng)中不可能每個節(jié)點都具有這樣的存儲容量。連續(xù)媒體需要高速、等時的傳輸,而對于傳輸時所產(chǎn)生的誤碼并不特別敏感;傳統(tǒng)數(shù)據(jù)對傳輸?shù)恼_性要求較高,但對傳輸時的延時與抖動并不敏感。這種要求對傳統(tǒng)的網(wǎng)絡通信協(xié)議提出了新的挑戰(zhàn)。MEDIAASSETMANAGEMENT§7.4.4DMDBS的特點2.同步性對于傳統(tǒng)的DDBS,其查詢結果的輸出,一般只考慮各片段的聯(lián)結運算。對于多媒體數(shù)據(jù)而言,不但要考慮內(nèi)容上的合成,而且還要考慮各多媒體對象在時序以及空間上的合成。所以,分布式MMDB需要在同步的描述和同步的實現(xiàn)這兩個層次上考慮多媒體對象的同步集成。MEDIAASSETMANAGEMENT§7.4.4DMDBS的特點3.服務質量QoS系統(tǒng)的資源是有限的,不可能滿足無限多用戶的需求。各個用戶針對自己的具體應用,并不一定需要嚴格按存儲數(shù)據(jù)的原始的分辨率、播放速率和展示尺寸提供。為了能夠得到系統(tǒng)的服務,用戶一般容許有一定的質量降低,這與用戶對傳統(tǒng)數(shù)據(jù)的需求有很大差別。例如,字符數(shù)值串所反映的含義會因為串中某一碼的丟失或錯誤而不能被理解。但對于視頻、聲頻、圖像等多媒體數(shù)據(jù),即使其分辨率降低、部分碼丟失,用戶一般也能理解其展示的含義。所以,為了盡量多地增加用戶數(shù)量,充分滿足不同用戶的需求,系統(tǒng)應提供服務質量(QoS)的描述接口。MEDIAASSETMANAGEMENT§7.4.5DMDBS的系統(tǒng)結構分布式MMDBS的典型結構。全局模式管理完成數(shù)據(jù)的一致性維護,進行必要的模式變換以及對全局事務的并發(fā)控制,使數(shù)據(jù)的結構、物理存儲、分布性等對外透明,向上提供一個統(tǒng)一的多媒體操作接口。MEDIAASSETMANAGEMENT§7.4.6DMDBS的實現(xiàn)途徑1.遠程調用范型對于DDBS,RPC(遠程調用)是實現(xiàn)Client/Server結構的最原始的方法。但是傳統(tǒng)的RPC方式一般只適合于短消息的通信控制,而連續(xù)媒體的操作則要求批量數(shù)據(jù)的均勻的、長時間無干擾的通信控制。因此,RPC接口標準中應增加對多媒體數(shù)據(jù)時序同步描述的定義。另外,RPC接口標準應該能夠處理用戶對服務質量的定義,以便盡可能多地增加用戶數(shù)。遠程調用方式的不足:企業(yè)可能有多個數(shù)據(jù)庫服務器,用戶必須了解它們所提供的不同接口、數(shù)據(jù)的分布情況,以協(xié)調對各個服務器的調用;軟件的復用性差,企業(yè)的各個數(shù)據(jù)庫服務器可能是在不同時期建立的,當需要利用各服務器中的數(shù)據(jù)共同完成某項任務時,用戶不得不在RPC接口層上重新編輯應用程序,這樣就極大地浪費了人力和物力。MEDIAASSETMANAGEMENT§7.4.6DMDBS的實現(xiàn)途徑2.中間件(Middleware)技術為了提高分布式系統(tǒng)構造的靈活性和軟件的可復用性,屏蔽各廠家數(shù)據(jù)庫服務器接口的不統(tǒng)一,現(xiàn)在多采用中間件技術。中間件的作用是為了屏蔽不同操作系統(tǒng)接口的差異及分布性,為用戶提供一個統(tǒng)一的應用開發(fā)接口。MEDIAASSETMANAGEMENT§7.4.6DMDBS的實現(xiàn)途徑分布式面向對象范型是另一類中間件技術,這一范型標準充分利用面向對象模型的優(yōu)點,屏蔽了由于對象所在平臺的不同、位置的不同以及對象的遷移等所帶來的問題,為用戶提供了一個一致的、分布透明的面向對象接口。因為MMDB一般傾向于采用面向對象的范型實現(xiàn),所以這種接口方式對于MMDB的分布式構造較為平滑。這一范型的工業(yè)標準較多,如Microsoft公司的COM(ComponentObjectModel)、IBM公司的SOM(SystemObjectModel)、國際標準組織(CommonManagementGroup,CMG)的CORBA等。MEDIAASSETMANAGEMENT§7.4.6DMDBS的實現(xiàn)途徑3.Agent技術利用Agent模型構造分布式系統(tǒng)。Agent技術是分布式人工智能領域中發(fā)展起來的一種新型計算模型,具有智能化程度高、分布式系統(tǒng)構造靈活、軟件的復用性強等優(yōu)點。Agent能夠感知外界發(fā)生的消息,根據(jù)自己所具有的知識自動做出反應。利用這一技術實現(xiàn)DMDBS時,應考慮:(1)如何將已有的計算實體(多媒體對象、元組、一般的數(shù)據(jù)文件等)構造成Agent;(2)如何實現(xiàn)Agent之間的通信。Agent技術還有待進一步標準化。MEDIAASSETMANAGEMENTMEDIAASSETMANAGEMENT第7章多媒體數(shù)據(jù)庫技術關系數(shù)據(jù)庫概述1多媒體數(shù)據(jù)庫概述
2面向對象數(shù)據(jù)庫技術
3分布式多媒體數(shù)據(jù)庫
4檢索技術簡介
5§7.5.1
全文檢索全文檢索也稱為自然語言檢索,是指不對信息資源進行人工標引,由計算機直接對文本正文進行匹配查找。全文檢索解決了一般非結構化文字信息內(nèi)容的查詢問題,有效解決了關系數(shù)據(jù)庫管理系統(tǒng)不能很好查詢非結構化信息的問題。全文檢索通常有兩種方式:一是文本正文用分詞詞典進行自動切詞,使用停用詞表排除無檢索意義的詞語,將所有有用的詞建立索引,實際檢索時,不是在文本中檢索,而是在詞語索引中檢索。二是不建立索引,直接對檢索文本逐字進行匹配。MEDIAASSETMANAGEMENT§7.5.1
全文檢索文本檢索系統(tǒng)的系列檢索的技術方法:(1)精確檢索。就是要與用戶的檢索詞精確匹配。在英文檢索中對大小寫敏感。(2)布爾檢索。即按照布爾邏輯,采用邏輯運算符將檢索提問轉換為相應的邏輯表達式進行檢索。一般包括邏輯與(概念的限定)、邏輯或(概念的聯(lián)合)、邏輯非(概念的排除)。(3)截詞檢索。采用截斷的方式,利用詞的片段進行檢索。截詞檢索是一種用字面相似檢索相關資料的檢索方法,在西文檢索中使用較為普遍,例如在西文中利用詞根進行檢索。中文檢索系統(tǒng)中的模糊檢索實際上就是一種截詞檢索。
MEDIAASSETMANAGEMENT§7.5.1
全文檢索(4)限定范圍檢索??梢酝ㄟ^限定檢索范圍(或字段),縮小檢索范圍,使檢索更具有針對性。幾個字段的邏輯組合檢索及位置檢索也屬于限定范圍檢索。(5)相關檢索。即提供各種相關資料檢索的手段。包括:在顯示檢索結果時,也顯示相似檢索結果,供用戶擴大檢索范圍;在顯示檢索結果的同時顯示相關詞,只有當用戶點擊這些相關詞時,系統(tǒng)才利用這些相關詞檢索并顯示相關檢索結果。(6)二次檢索。這是目前的全文檢索系統(tǒng)中使用最為廣泛的一種檢索方法。就是對檢出的結果進一步加以限定,改進查準率。MEDIAASSETMANAGEMENT§7.5.1
全文檢索另外,在全文檢索系統(tǒng)中,檢索結果的顯示也是影響檢索效果的一個重要方面。檢索結果的排序方式有很多種,如:按時間排序、按檢索詞在命中資源中的詞頻排序、按范疇分組排序等。目前,較多的是采用相關度排序。它以檢索詞與信息資源的相關性為依據(jù)對檢索結果排序,相關性是對詞頻、詞語在信息資源中出現(xiàn)的位置以及其它的一些因素加權得到的結果。MEDIAASSETMANAGEMENT§7.5.1
全文檢索衡量全文檢索系統(tǒng)的優(yōu)劣,主要包括如下幾個方面:(1)查全率:指系統(tǒng)在進行某一檢索時,檢索出的相關資料量與系統(tǒng)資料庫中相關資料總量的比率。(2)查準率:指系統(tǒng)在進行某一檢索時,檢索出的有用資料數(shù)量與檢索出資料總量的比率。(3)響應時間:指的是從提交檢索課題到查出資料結果所需的時間。最基本的檢索速度是應該達到“千萬漢字,秒級響應”。(4)用戶負擔:指用戶在檢索過程中付出精力的總和。(5)輸出形式:指全文檢索系統(tǒng)的檢索結果的排序方式和顯示方式。MEDIAASSETMANAGEMENT§7.5.1
全文檢索在全文檢索系統(tǒng)中查全率并不是一個很突出的問題。查準率卻顯得日益重要。查全率與查準率是互為消長的。也就是說,當要保證系統(tǒng)有較高的查全率時,必然會犧牲系統(tǒng)的查準率,反之亦然。當信息量非常大時,查全率高不僅要犧牲系統(tǒng)的查準率,還會給用戶帶來比較大的負擔。因為,用戶需要從數(shù)量巨大的檢索結果中挑選其真正需要的信息。雖然,系統(tǒng)可以通過改進相關性排序的算法,來減少用戶的挑選時間,但是對于相關性的判斷卻具有很強的主觀性,不同知識結構和不同需求的用戶對同一資源的相關性判斷可能會不同。因此,提高系統(tǒng)的查準率是非常重要的。MEDIAASSETMANAGEMENT§7.5.1
全文檢索2.后控詞檢索“后控”是相對于“先控”而言的,是指在標引階段不進行控制,而在檢索階段進行控制,一般的后控檢索在后臺都有一個后控詞表。在標引階段,類似于自然語言的標引階段,通過自由標引,利用作者語言或標引員的語言來描述文本,也可以不標引。在檢索階段,拋棄了自然語言不作任何控制的作法,而是借鑒了先控語言的思想,在用戶概念化其信息需求,形成自己的檢索表達式之后,由檢索系統(tǒng)自動用事先已經(jīng)建立好的后控詞表,進行同義檢索、等級檢索和相關檢索。MEDIAASSETMANAGEMENT§7.5.1
全文檢索在全文檢索系統(tǒng)中使用后控詞檢索技術,是因為:(1)在全文檢索系統(tǒng)中,由于沒有進行同義控制,同一主題文獻在檢索系統(tǒng)中大量分散,系統(tǒng)的查全率相應降低。(2)在全文檢索系統(tǒng)中,非同一主題的文獻由于沒有區(qū)分多義詞和詞義含糊詞,只是一種簡單的字面匹配,必然會造成在檢出的條目中有大量的無用信息,這樣在很大程度上降低了檢索系統(tǒng)的查準率,增加了用戶的檢索負擔。(3)由于自然語言檢索所用的詞語都是相互獨立的,詞語之間缺乏關系的控制與揭示,所以,在全文檢索系統(tǒng)中難以靈活地進行擴檢、縮檢和改變檢索范圍。(4)在全文檢索系統(tǒng)中,由于對檢索者的要求相對較高。檢索輸出的條目信息數(shù)量非常大,也增加了檢索者判斷和挑選的時間,從這個角度講,也增加了檢索者的智力負擔。MEDIAASSETMANAGEMENT§7.5.1
全文檢索利用后控詞表進行檢索,既可以提高查全率,又可以提高查準率。后控詞表主要通過進行詞間關系控制,來實現(xiàn)檢索時的后控作用。包括:(1)等級關系控制:指上下位概念之間的關系。作用是用于揭示主題詞之間的分屬關系,通過對它們的顯示,引導用戶擴大和縮小檢索范圍,提高檢索的靈活性。(2)等同關系控制:作用是通過對同義關系詞的聯(lián)結,增加檢索入口,提高檢全率。等同關系涉及的類型包括:語義同義詞之間、近義詞之間、學稱與俗稱之間、全稱與簡稱之間、外文與中文名之間以及短語和它的各種組配形式之間等多種情況。MEDIAASSETMANAGEMENT§7.5.1
全文檢索(3)相關關系控制:指主題詞之間除等同關系、等級關系之外,語義相關的一種關系。相關關系是揭示主題詞之間各種聯(lián)系、擴大檢索范圍、進行相關資料查找的重要手段。相關關系涉及范圍廣、種類多、靈活性大,很難嚴格界定,一般無法也沒有必要做到完全意義上的相關關系控制。在有后控詞檢索的全文檢索系統(tǒng)中,當用戶輸入檢索詞后,系統(tǒng)不直接進行檢索,而是先與后控詞表里的詞進行匹配,如果詞表中有這個檢索詞,系統(tǒng)將自動利用這個詞及其等同詞進行檢索,同時在檢索結果中顯示等級關系詞和相關詞,供檢索用戶參考、選用。這樣將大大提高檢索系統(tǒng)的查全率和查準率。MEDIAASSETMANAGEMENT§7.5.2多媒體數(shù)據(jù)的檢索對于多媒體數(shù)據(jù)檢索而言,從其檢索模式來看,經(jīng)歷了從上世紀70年代到80年代的基于元數(shù)據(jù)(文本)的多媒體檢索,發(fā)展到上世紀90年代初的基于內(nèi)容的多媒體檢索,再發(fā)展到上世紀90年代末的基于語義和內(nèi)容相結合的混合多媒體檢索,最后發(fā)展到目前正在研究的跨媒體檢索。其中前兩者是針對單一類型的媒體對象的檢索,后兩者則針對多種類型媒體對象的綜合檢索。MEDIAASSETMANAGEMENT§7.5.2多媒體數(shù)據(jù)的檢索1.基于元數(shù)據(jù)(文本)的檢索模式文本信息檢索技術在過去的幾十年中得到了充分的研究,并已成功運用于諸如Google、Lycos等商用搜索引擎中。在
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026屆閩粵贛三省十?;瘜W高三上期末學業(yè)質量監(jiān)測試題含解析
- 情景劇模板課件
- 悲慘世界課件
- 2025年秋季部編版初中數(shù)學教學設計八年級上冊12.1 全等三角形
- 班級圣誕活動策劃方案
- 四班級班主任家訪方案
- 主題營銷的策劃方案
- 2026屆天津市第100中學高二化學第一學期期中綜合測試試題含解析
- 勞動活動獎懲方案
- 電路基礎試題及答案
- 婦女維權法律知識講座
- 2025年內(nèi)蒙古自治區(qū)中考語文真題含答案
- 2025版危險貨物道路運輸綜合預案(電石)
- 2025年中醫(yī)確有專長考試試題及答案
- DB32∕T 4553-2023 醫(yī)療機構醫(yī)療器械不良事件監(jiān)測工作指南
- 2025年機關事業(yè)單位技能資格考試-政工歷年參考題庫含答案解析(5套共100道單選合輯)
- 關于工勤人員管理辦法
- 傳統(tǒng)喪事流程安排方案
- 老中醫(yī)講辟谷課件
- 殯葬政策培訓課件
- 原核生物(細菌、藍藻等)的主要類群和特征測試題帶答案
評論
0/150
提交評論