




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
機器視覺原理與應用第1章機器視覺理論簡介1.1機器視覺簡介1.2機器視覺的發(fā)展1.3Marr視覺計算理論1.3.1機器視覺的三個層次1.3.2視覺表示框架1.4深度學習1.5機器視覺的研究內容及面臨的問題1.5.1機器視覺的研究內容1.5.2機器視覺研究面臨的問題1.6機器視覺的應用1.1
機器視覺簡介機器視覺(MachineVision)機器視覺是一個系統(tǒng)的概念,集成了光學、機械、電子、計算機軟硬件等方面的技術,涉及計算機、圖像處理、模式識別、機械工程、電光源照明、人工智能、信號處理、光機電一體化、光學成像、傳感器、模擬與數字視頻技術、計算機軟硬件技術(圖像增強和分析算法、圖像卡、
I/O卡等)等多個領域。一個典型的機器視覺應用系統(tǒng)包括圖像捕捉、光源系統(tǒng)、圖像數字化模塊、數字圖像處理模塊、智能判斷決策模塊和機械控制執(zhí)行模塊。1.1
機器視覺簡介國際制造工程師學會(SME)機器視覺分會和美國機器人工業(yè)協會(RIA)自動化視覺分會關于機器視覺的定義為:機器視覺是使用光學器件進行非接觸感知,自動獲取和解釋一個真實場景的圖像,以獲取信息和用于控制機器運動的裝置。通俗地講,機器視覺就是為機器安裝上一雙“智慧的眼睛”,讓機器具有像人一樣的視覺功能,從而實現引導、檢測、測量、識別等功能。1.1
機器視覺簡介機器視覺與計算機視覺既有區(qū)別又有聯系。機器視覺側重于機器,也就是機器應用。而計算機視覺側重于計算機,也就是計算機圖像處理。從學科上說,計算機視覺是計算機科學發(fā)展出來的一個分支,機器視覺則是系統(tǒng)工程領域內多學科知識的交叉應用。機器視覺屬于應用領域,更多的是利用現有的各學科理論來實現機器替代,最終結果是完成現實生產目標。計算機視覺則側重于理論研究,其研究在實踐中存在著不確定性。機器視覺系統(tǒng)是可以自動獲取一幅或多幅目標物體圖像,對所獲取圖像的各種特征量進行處理、分析和測量,根據最終結果做出定性分析和定量解釋,從而得到有關目標物體的某種認識并作出相應決策,執(zhí)行可直接創(chuàng)造經濟價值或社會價值的功能活動。1.1
機器視覺簡介機器視覺對于計算機的圖像處理功能存在極強的依賴性。計算機視覺為機器視覺提供了圖像處理分析的理論和算法,而機器視覺則實現了計算機視覺研究成果向實際應用的轉化。機器視覺和計算機視覺的區(qū)別機器視覺機器視覺側重于機器,也就是機器應用從學科上說,機器視覺則是系統(tǒng)工程領域內多學科知識的交叉應用機器視覺屬于應用領域,更多的是利用現有的各學科理論來實現機器替代,最終結果是完成現實生產目標。計算機視覺計算機視覺側重于計算機,也就是計算機圖像處理從學科上說,計算機視覺是計算機科學發(fā)展出來的一個分支計算機視覺則側重于理論研究,其研究在實踐中存在著不確定性。71.2機器視覺的發(fā)展機器視覺的發(fā)展經過初期的數字圖像處理,20世紀80年代的卡爾曼濾波及正則化時代,20世紀90年代的圖像分割,21世紀的計算攝像學與機器視覺中的深度學習等。20世紀70年代:初期的數字圖像處理階段機器視覺始于20世紀70年代早期,它被視為模擬人類智能并賦予機器人智能行為的感知組成部分。人工智能和機器人的早期研究者(麻省理工大學、斯坦福大學、卡內基梅隆大學的研究者)認為,在解決高層次推理和規(guī)劃等更困難問題的過程中,針對“視覺輸入”問題應該是一個簡單的步驟。比如,1966年麻省理工大學的MarvinMinsky讓他的本科生GeraldJaySussman在暑期將相機連接到計算機上,讓計算機描述它所看到的事物?,F在我們覺得很簡單,但是在當時是不容易解決的。1.2機器視覺的發(fā)展20世紀70年代,人們對物體的三位建模進行了研究。Barrow、Tenenbaum與Marr提出了一種理解亮度和陰影變化的方法,并通過表面朝向和陰影等恢復三維結構。同時出現了基于特征的立體視覺對應(stereocorrespondence)算法和基于亮度的光流(opticalflow)算法。在這個時期,DavidMarr介紹了視覺信息處理表達的三個層次。20世紀80年代:卡爾曼濾波及正則化時代20世紀80年代,計算機視覺獲得蓬勃發(fā)展,新概念、新方法和新理論不斷涌現,如基于感知特征群的物體識別理論框架、主動識別理論框架、視覺集成理論框架等。圖像金字塔和尺度空間用于對應點搜索。三維視覺重建中出現“由X到形狀”的方法,包括由陰影到形狀、由光度立體視覺到形狀、由紋理到形狀及由聚焦到形狀。1.2機器視覺的發(fā)展20世紀90年代:圖像分割計算機視覺技術進入深入發(fā)展、廣泛應用時期。在這段時期,光流方法得到了不斷改進,產生了完整三維表面的多視圖立體視覺算法,同時跟蹤算法也得到了很多改進,包括使用“活動輪廓”方法的輪廓跟蹤(如蛇形、粒子濾波和水平集方法)和基于亮度的跟蹤方法。21世紀:計算攝像學與機器視覺中的深度學習計算機視覺與計算機圖形學之間的交叉越來越明顯,特別是在基于圖像的建模和繪制交叉領域。計算攝像學得到深入發(fā)展,其中光場獲取和繪制以及通過多曝光實現的高動態(tài)范圍成像得到了發(fā)展。1.3Marr視覺計算理論Marr視覺計算理論立足于計算機科學,系統(tǒng)地概括了心理生理學、神經生理學等方面業(yè)已取得的所有重要成果,是視覺研究中迄今為止最為完善的視覺理論。Marr建立的視覺計算理論,使計算機視覺研究有了一個比較明確的體系,并大大推動了計算機視覺研究的發(fā)展。人們普遍認為,計算機視覺這門學科的形成與Marr的視覺理論有著密切的關系。事實上,盡管20世紀70年代初期就有人使用計算機視覺這個名詞,但正是Marr于70年代末建立的視覺理論促使計算機視覺這一名詞的流行。下面簡要地介紹Marr視覺理論的基本思想及其理論框架。1.3.1機器視覺的三個層次計算理論表示和算法硬件實現計算的目的是什么?為什么這一計算是合適的?執(zhí)行計算的策略是什么?如何實現這個理論計算?輸入、輸出的表示是什么?表示與表示之間的變換是什么?在物理上如何實現這些表示和算法?
Marr認為,視覺是一個信息處理系統(tǒng)。因此,系統(tǒng)研究分為三個層次:計算理論層次,表示(epresenain)與算法層次,硬件實現層次,如表1-1所示。:表1-1Marr視覺理論的三個層次1.3.1機器視覺的三個層次按照Marr的理論,計算視覺理論要回答視覺系統(tǒng)的計算目的和策略是什么,或視覺系統(tǒng)的輸入和輸出是什么,如何由系統(tǒng)的輸入求出系統(tǒng)的輸出:在這個層次上,信息系統(tǒng)的特征,是將一種信息(輸入)映射為另一種信息(輸出)。比如,系統(tǒng)輸入是二維灰度圖象,輸出則是三維物體的形狀、位置和姿態(tài),視覺系統(tǒng)的任務就是研究如何建立輸入輸出之間的關系和約束,如何由二維灰度圖象恢復物體的三維信息。表示與算法層次:進一步回答如何表示輸入和輸出信息,如何實現計算理論所對應的功能的算法,以及如何由一種表示變換成另一種表示,比如創(chuàng)建數據結構和符號。一般來說,不同的輸入、輸出和計算理論對應不同的表示,而同一種輸入、輸出或計算理論可能對應若干種表示。1.3.1機器視覺的三個層次硬件實現層次:在解決了理論問題和表示問題后,最后一個層次是解決用硬件實現上述表示和算法的問題。比如計算機體系結構及具體的計算裝置及其細節(jié)。從信息處理的觀點來看,至關重要的乃是最高層次,即計算理論層次。這是因為構成知覺的計算本質,取決于解決計算問題本身。而不取決于用來解決計算問題的特殊硬件。換句話說,通過正確理解待解決問題的本質,將有助于理解并創(chuàng)造算法。如果考慮解決問題的機制和物理實現,則對理解算法往往無濟于事。1.3.1機器視覺的三個層次上述三個層次之間存在著邏輯的因果關系,但它們之間的聯系不是十分緊密。因此,某些現象只能在其中一個或兩個層次上進行解釋。比如神經解剖學原則上與第三層次(即物理實現)聯系在一起。突觸機制、動作電位抑制性相互作用都在第三個層次上。心理物理學與第二層次(即表示與算法)有著更直接的聯系。更一般地說,不同的現象必須在不同的層次上進行解釋,這會有助于人們把握正確的研究方向。例如,人們常說,人腦完全不同于計算機,因為前者是并行加工的,后者是串行的。對于這個問題,應該這樣回答:并行加工和串行加工是在算法這個層次上的區(qū)別,而不是根本性的區(qū)別,因為任何一個并行的計算程序都可以寫成串行的程序。因此,這種并行與串行的區(qū)別并不支持這種觀點,即人腦的運行與計算機的運算是不同的,因而人腦所完成的任務是不可能通過編制程序用計算機來完成。1.3.1機器視覺的三個層次16計算視覺理論層次:回答視覺系統(tǒng)的計算目的和策略是什么,或視覺系統(tǒng)的輸入和輸出是什么,如何由系統(tǒng)的輸入求出系統(tǒng)的輸出表示與算法層次:進一步回答如何表示輸入和輸出信息,如何實現計算理論所對應的功能的算法,以及如何由一種表示變換成另一種表示硬件實現層次:在解決了理論問題和表示問題后,最后一個層次是解決用硬件實現上述表示和算法的問題三個層次之間存在著邏輯的因果關系,但它們之間的聯系不是十分緊密。因此,某些現象只能在其中一個或兩個層次上進行解釋1.3.2視覺表示框架視覺過程可劃分為三個階段,如表1-2所示。第一階段(也稱為早期階段)是將輸入的原始圖象進行處理,抽取圖象中諸如角點、邊緣、紋理、線條、邊界等基本特征。這些特征的集合稱為基元圖(primitivesketch);第二階段(中期階段)是指在以觀測者為中心的坐標系中,由輸入圖象和基元圖恢復場景可見部分的深度、法線方向、輪廓等,這些信息包含了深度信息,但不是真正的物體三維表示。因此,稱為二維半圖(2.5dimensionalsketch);在以物體為中心的坐標系中,由輸入圖象、基元圖、二維半圖來恢復、表示和識別三維物體的過程稱為視覺的第三階段(后期階段)。1.3.2視覺表示框架Marr理論是計算機視覺研究領域的劃時代成就,但該理論不是十分完善的,許多方面還有爭議。比如,該理論所建立的視覺處理框架基本上是自下而上,沒有反饋。還有,該理論沒有足夠地重視知識的應用。盡管如此,Marr理論給了我們研究計算機視覺許多珍貴的哲學思想和研究方法,同時也給計算機視覺研究領域創(chuàng)造了許多研究起點。1.3.2視覺表示框架視覺過程可分為三個階段表1-2由圖像恢復形狀信息的表示框架名
稱目的基元圖像亮度表示圖像中每一點的亮度值基元圖表示二維圖像的重要信息,主要是圖像中的亮度變化位置及其幾何分布和組織結構零交叉、斑點,端點和不連接點,邊緣,有效線段,組合群,曲線組織,邊界2.5維圖在以觀測者為中心的坐標系中,表示可見表面的方向,深度值和不連續(xù)的輪廓局部表面朝上(“針”基元)離觀測者的距離深度上的不連續(xù)點表面朝上的不連續(xù)點3維模型表示在以物體為中心的坐標系中,用三維體積基元面積構成的模塊化多層次表示,描述形狀及空間組織形式分層次組成若干三維模型,每個三維模型都是在幾個軸線空間的基礎上構成的,所有體積基元或面積形狀基元都附著在軸線上1.4深度學習深度學習(Deeplearning)是機器學習的分支,它是使用包含復雜結構或由多重非線性變換構成的多個處理層對數據進行高層抽象的機器學習的算法。它和機器學習以及人工智能的關系如圖1-1所示,在最外面的一環(huán)是人工智能(ArtificialIntelligence,AI),使用計算推理,里面的一環(huán)是機器學習(Machinelearning),深度學習在最中心。1.4深度學習圖1-1深度學習在人工智能中的位置211.4深度學習在過去的若干年中,由于功能更強大和價格更便宜的計算的出現,許多研究人員開始采用復雜(深層)神經網絡的體系結構來實現20年前難以想象的目標。自1957年Rosenblatt發(fā)明感知器后,人們對神經網絡的興趣變得越來越大。然而,許多限制(擔心內存和CPU速度)阻礙了此方面的研究,并且限制了算法的大量應用。在過去十年中,研究人員開始瞄準越來越大的模型,建立幾個不同層次的神經網絡模型(這就是為什么這種方法被稱為深度學習),以解決新的具有挑戰(zhàn)性的問題。便宜和快速的計算機的可用性允許他們使用非常大的數據集(由圖像、文本和動畫組成的數據)在可接受的時間范圍內獲得結果。這一努力產生了令人印象深刻的成果,如基于圖片元素的分類和使用強化學習的實時智能交互。1.4深度學習這些技術背后的想法是創(chuàng)建像大腦一樣工作的算法,由于神經科學和認知心理學的貢獻,這一領域已經有了很多重要進展。特別是人們對于模式識別和聯想記憶的研究興趣越來越濃厚,采用了與人類大腦皮層相似的結構和功能。神經網絡還包括更簡單的稱為無模型(model-free)的算法,這些算法更多是基于通用學習技巧和重復經驗,而不是基于特定問題的數學物理方法。當然,對不同的構架和優(yōu)化算法的測試可以通過并行處理來進行,從而使得其比定義一個復雜的模型要簡單得多,并且復雜的模型也更難以適應不同的情況,此外,即使是沒有基于上下文的模型,深度學習也表現出比其他方法更好的性能。這表明在許多情況下,最好是用不確定性做出不太精確的決定,而不是由非常復雜的模型(通常不是很快)輸出確定的精確決策。對于動物來說,這種決策往往生死攸關,如果決策成功,也是因為它隱含地放棄了一些精確性。1.4深度學習常見的深度學習應用包括:圖像分類、實時視覺跟蹤、自動駕駛、物流優(yōu)化、生物信息、語音識別。這些問題中,有許多也可以使用經典方法來求解,但有時候要復雜很多,而深度學習的效果更好。此外,深度學習可以將其應用擴展到最初被認為非常復雜的情況下,例如自動駕駛汽車或實現視覺對象識別。本書詳細介紹了一些經典算法。然而,有許多介紹性和更高級的討論資源可供參考。GeogleDeepMind團隊已經得到了許多有趣的結果,建議訪問他們的網站,了解他們的最新研究結果。1.4深度學習深度學習(Deeplearning)是機器學習的分支,它是使用包含復雜結構或由多重非線性變換構成的多個處理層對數據進行高層抽象的機器學習的算法。25常見的深度學習的應用圖像分類1.4深度學習26實時視覺跟蹤自動駕駛物流優(yōu)化、生物信息、語音識別……1.5.1機器視覺的研究內容輸入設備輸入設備包括成像設備和數字化設備。成像設備是指通過光學攝像機或紅外、激光、超聲、X射線對周圍場景或物體進行探測成像,然后使用數字化設備得到關于場景或物體的二維或三維數字化圖像。獲取數字化圖像是機器視覺系統(tǒng)的最基本功能。目前用于研究視覺的大多數輸入設備是商業(yè)化產品,如CCD黑白或彩色攝像機、數字掃描儀、超聲成像探測儀、CT(計算機斷層掃描)成像設備等。但是這些商業(yè)化的輸入設備遠遠不能滿足實際的需要,因此研究人員正在研究各種性能先進的成像系統(tǒng),如紅外成像系統(tǒng)、激光成像系統(tǒng)、計算機成像系統(tǒng)、高分辨率智能成像顯微儀器(RUSH,每秒能夠拍到百億像素,是國際上首個能實現小鼠全腦皮層范圍神經活動高分辨率成像的儀器。)1.5.1機器視覺的研究內容圖像生成圖像生成主要研究相機內參數和外參數,使用線性或非線性對相機進行標定,光源類型及其產生的效果、光照及陰影,色彩匹配及線性顏色空間和非線性顏色空間,圖像顏色模型中的漫反射項及鏡面反射項受表面的顏色與光源的互反射的顏色影響。1.5.1機器視覺的研究內容低層視覺低層視覺主要對輸入的原始圖像進行處理,主要包括圖像線性濾波或非線性濾波、圖像增強、邊緣檢測、圖像紋理檢測、圖像運動檢測,由紋理恢復形狀、圖像去噪等。中層視覺中層視覺的主要任務是恢復場景深度、表面法線方向、輪廓等有關場景的2.5維信息,實現途徑有立體視覺、測距成像、運動估計以及利用明暗特征、紋理特征等進行形狀恢復的方法。291.5.1機器視覺的研究內容高層視覺高層視覺的主要任務是在以物體為中心的坐標系中,根據原始輸入圖像及基本特征,恢復物體的三維結構,并確定物體的位置和方向。另外,利用微分幾何知識,描述物體的平滑表面及輪廓,同時利用滑動窗口法進行的人臉檢測、行人檢測和邊界檢測,形變物體檢測等。301.5.2機器視覺研究面臨的問題目前所建立的各種機器視覺系統(tǒng)只適用于某種特定環(huán)境或應用場合,而要建立一個可以與人類視覺相比擬的通用視覺系統(tǒng)是非常困難的,機器視覺研究面臨的困難如下。信息損失在相機或者人眼圖像獲取過程中,會出現3D向2D轉換過程中信息損失。這是由針孔模型的近似或者透鏡成像模型決定的,在成像過程中丟失了深度等的信息,在投影變換過程中,會將點沿著射線做映射,但不保持角度和共線性。局部窗口和對全局視圖的需要一般來說,圖像分析與處理的是全局圖像的一部分像素,也就是說通過小孔來看圖像。因此通過局部(小孔)很難實現全局上下文的理解。20世紀80年代,1.5.2機器視覺研究面臨的問題McCarthy指出構造上下文是解決推廣性問題的關鍵,而僅從局部來看或只有一些局部小孔可供觀察時,解釋一幅圖像一般時非常困難的。噪聲實際的視覺檢測都含有噪聲,需要使用相應的數學工具和方法對含有噪聲的視覺感知結果進行分析與處理,進而獲得復原真實視覺數據。亮度測量輻射率用圖像亮度近似表示。輻射率依賴于輻照度(輻照度與光源類型、強度和位置有關)、觀察者位置、表面的局部幾何性質。大數據灰度圖像、彩色圖像、深度圖像的信息量是巨大的,視頻數據會更大。巨大的數據量處理的相率仍然是一個重要的問題。1.6機器視覺的應用機器視覺在很多領域已經得到了廣發(fā)應用,如工業(yè)自動化生產線、視覺導航、光學字符識別、人機交互、醫(yī)學成像及虛擬現實等
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030中國管理咨詢行業(yè)區(qū)域發(fā)展不平衡與投資機會差異化研究
- 2025-2030中國社區(qū)鮮啤工坊商業(yè)模式創(chuàng)新與盈利可持續(xù)性分析報告
- 第1課 走進校園卡教學設計小學信息技術(信息科技)四年級下冊魯教版(信息科技)
- 八年級語文下冊 第一單元 第3課《安塞腰鼓》說課稿 新人教版
- Lesson 4 Colours and feelings說課稿-2025-2026學年初中英語冀教版2024七年級上冊-冀教版2024
- 5.體操4(四) 說課稿-七年級上學期體育與健康
- 經典讀后感鑒賞及寫作指導
- 高一數學函數專題輔導資料
- 工業(yè)廢水處理廠安全管理操作規(guī)程
- 電力設備檢修安全操作規(guī)程
- 2025-2030中國光纖傳感技術在風電設備狀態(tài)監(jiān)測中的應用實踐報告
- 2025年下半年銀行從業(yè)資格證考試風險管理復習題庫及答案
- 2026華能西藏雅魯藏布江水電開發(fā)投資有限公司應屆畢業(yè)生校園招聘筆試模擬試題及答案解析
- 圍堰施工工序質量驗收評定規(guī)范
- 2025年高考英語試卷(全國Ⅱ卷)(解析卷)
- 2025年成人高考專升本《政治》真題(含答案)
- 老舊小區(qū)改造監(jiān)理實施細則
- 禮品售后服務承諾書
- 音樂治療和心理劇演出你內心的音樂
- 掩耳盜鈴兒童故事繪本PPT
- CIED植入圍手術期抗凝治療
評論
0/150
提交評論