《機器視覺》-陳兵旗(習題及解答)_第1頁
《機器視覺》-陳兵旗(習題及解答)_第2頁
《機器視覺》-陳兵旗(習題及解答)_第3頁
《機器視覺》-陳兵旗(習題及解答)_第4頁
《機器視覺》-陳兵旗(習題及解答)_第5頁
已閱讀5頁,還剩3頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

《機器視覺》陳兵旗,陳思遙,王僑思考題緒論思考題1、“機器視覺”相當于機器的“眼睛”,請結合“人眼視覺”的信息獲取原理,論述“機器視覺”與“圖像處理”的關系。答:“人眼視覺”是通過眼球把物體成像到視網膜上,然后通過人腦識別出物體?!皺C器視覺”是通過攝像機把物體成像到傳感器上,然后通過計算機(電腦)識別出物體。因此,“機器視覺”與“圖像處理”的關系,相當于人的眼睛與大腦的關系。2、目前,機器視覺技術已在日常生活中獲得廣泛應用,如人臉識別、車牌照識別、掃地機器人、交通違規(guī)監(jiān)控等,請問你認為下一個基于機器視覺技術的日用產品可能會是什么?答:基于機器視覺技術的日用產品可能會是廚房用機器人、老人和幼兒等的看護機器人,這些已經有樣機產品,不久的將來可能會推廣應用。圖像數據及存儲與采集思考題為什么灰度圖像中黑色像素點的像素值為0、白色像素點的像素值為255?答:像素的數據類型是BYTE(unsignedchar),BYTE的大小是一個字節(jié),一個字節(jié)有8位,每一位有0、1兩個狀態(tài),因此一個字節(jié)有28=256個數據,其最小值是0(黑色像素)、最大值是255(白色像素),0與255之間分別表示不同灰度值的像素。請問1200萬像素的彩色圖像,最多包含多少種顏色?答:最多包含256*256*256=16777216種顏色。像素分布與圖像分割思考題請問模態(tài)法與大津法自動分割圖像的本質區(qū)別是什么?答:模態(tài)法是通過分析直方圖的形態(tài),找到兩個峰之間的凹點,作為閾值進行圖像分割;大津法是將直方圖分為左右兩個區(qū)域,逐步移動分割位置,計算獲得兩個區(qū)域的數據方差最大的位置,作為閾值進行圖像分割。2、對公路上的車道線進行二值化提取,請問選用RGB中的哪個顏色分量較為合適,以便能同時有效完成白色和黃色車道線的檢測?為什么?答:選用R分量比較合適。因為白色像素的R、G、B分量值都為255,黃色像素的R、G分量值為255,B分量值為0。雖然白色和黃色的R和G分量都是255,但是為了避免道路旁邊綠色草木(G分量)的影響,選用R分量比較合適。3、基于圖像處理檢測禁區(qū)人員闖入情況,請問幀間差分或背景差分采用哪個比較好?為什么?答:用幀間差分比較好。因為幀間差分不僅可以檢測出運動物體,而且可以避免光照變化的影響。顏色空間及測量與變換思考題請問彩色中的3原色是指哪3種顏色?答:彩色中的3原色是指紅(R)、綠(G)、藍(B)3種顏色。請問HSI顏色空間中的I分量與YUV顏色空間中的Y分量,有什么不同?答:HSI的I分量和YUV的Y分量都是表示亮度信息,沒有什么不同。在農田視覺導航中,為什么不適合采用L(朗格)變換、γ(伽馬)變換、直方圖平滑化等方法來強調導航目標?答:因為車輛行駛速度較快,要求視覺導航的圖像處理速度要盡量快速,由于L(朗格)變換、γ(伽馬)變換、直方圖平滑化等方法比較花費時間,因此一般不用這些方法,而是采用R、G、B分量之間差分的方法,這樣不僅處理速度快,而且可以避免光照變化的影響。幾何變換及單目視覺檢測思考題請列舉日常生活中圖像幾何變換的兩類應用場景。答:衛(wèi)星的地面定位,廣告效果圖像,等。通常圖像處理的坐標原點在圖像的哪個位置?圖像幾何變換為什么要將圖像原點移動至其中心位置?答:通常圖像處理的坐標原點在圖像的左上角。因為在進行圖像放大處理時,超出畫面的部分看不到,而人眼關注的是圖像中心位置,以圖像中心向外放大,可以感覺圖像放大比較自然。3、請問相機標定的目的是什么?答:相機標定的目的是將實際空間的位置與圖像中對應點之間建立相互關系(計算公式),以便通過圖像坐標計算出實際空間位置。該計算公式決定于相機的安裝位置、角度等外部參數(外參)和相機的焦距、鏡頭變形等內部參數(內參),通過相機標定獲得外參和內參數據,從而確定該計算公式。傅里葉變換思考題請問圖像頻率與電信號頻率有什么不同?答:圖像頻率是指圖像上紋理強弱(深淺)的變化規(guī)律,電信號頻率是指電信號強弱的變化規(guī)律。2、檢測圖像邊緣時,應該去掉頻譜圖上哪部分頻譜區(qū)域后,再進行逆傅里葉變換?答:檢測圖像邊緣時,應該去掉頻譜圖像上的低頻譜(圖像中心附件的頻譜)區(qū)域后,再進行逆傅里葉變換。小波變換思考題請問線性小波平滑與線性移動平滑的主要區(qū)別什么?答:線性小波平滑是去除了分布曲線上的小波(小波動)部分,而分布曲線的大結構(大波動)部分沒有損害。移動平滑是取平滑區(qū)間的平均值,對分布曲線整體進行了統(tǒng)一的平均處理。圖像通過小波變換去掉低頻分量后再恢復圖像,請問類似變換在傅里葉變換里被稱為高通濾波還是低通濾波?答:類似變換在傅里葉變換里被稱為高通濾波。濾波增強思考題請問對圓球進行邊緣檢測,選用哪個模版的哪個方向的微分算子比較好?答:選用Prewitt或Kirsch或Robinson的M1~M8模版比較好。中值濾波為什么能夠去除圖像上的小噪聲?答:小噪聲存在于像素值產生突變的位置,該突變包括突然變大和突然變小,無論哪種突變,在進行像素值排序時,突變的像素值一定處于排序的兩端,取中間值作為濾波后像素值,就可以避免取到兩端的突變值,起到濾波的作用。微分處理、傅里葉變換和小波變換均可用于圖像平滑和邊緣檢測,請列舉3種方法的優(yōu)缺點。答:列舉優(yōu)缺點如下表所示,可以根據實踐總結出更多內容。方法優(yōu)點缺點微分邊緣檢測直觀,處理速度快,操作方便,便于自動處理。算子種類多,需要測試后選用。傅里葉變換不僅可以去除紋理,也可以添加紋理,可以用于圖像加密。快速傅立葉變換需要變換區(qū)域大小是2的次方數,操作不方便;執(zhí)行流程:傅里葉變換--去除不需要頻率—逆傅里葉變換,流程復雜,速度慢,不利于自動計算。小波變換平滑效果好,可以進行區(qū)域放大處理,可以進行多級小波變換處理。執(zhí)行流程:小波變換--去除不需要方向的小波—恢復圖像,流程復雜,速度慢,不利于自動計算。二值運算與參數測量思考題對二值圖像進行去噪聲處理,請問什么情況下使用面積去噪較好,什么情況下使用膨脹與腐蝕去噪較好?答:在噪聲較大或最大噪聲面積能夠確定時,使用面積去噪較好。對于噪聲面積較小的噪聲(椒鹽噪聲),使用膨脹與腐蝕去噪較好。請參考圖9.1、圖9.3和表9.2,說明哪些幾何參數適用于提取橘子區(qū)域?答:面積、周長或圓形度,適用于提取橘子區(qū)域。請問采用過已知點的哈夫變換檢測直線,需要先檢測出哪些參數?答:需要先檢測出方向候補點群(數組)和已知點。 雙目視覺測量思考題請問相機的內部參數和外部參數分別包含哪些內容?答:相機的內部參數包含:相機的焦距、像素的大小、鏡頭畸變等相機本身的參數;外部參數包含:相機安裝的高度、距離、俯視角度、旋轉角等安裝參數。請論述直接線性標定法和棋盤標定法各自的優(yōu)缺點。答:直接線性標定法的優(yōu)點是簡單快速,對于大視場標定比較方便;缺點是沒有考慮相機鏡頭的畸變,對于鏡頭畸變較大的相機,標定精度較低。棋盤標定法的優(yōu)點是考慮了相機鏡頭的畸變,標定精度較高;缺點是計算復雜,不適合大視場標定,因為需要做大的棋盤。二維三維運動圖像測量實踐思考題本章介紹的二維、三維運動圖像檢測系統(tǒng),均是目標在運動,而圖像拍攝系統(tǒng)不動。如果目標不動而攝像機移動,例如人形機器人抓取桌面上的水杯,請問此時應該如何跟蹤目標?答:如果目標不動而攝像機移動,可以通過將目標移動到圖像中心位置的方法,來確定(控制)相機的移動方向。2、對于運動系統(tǒng)跟蹤運動目標,例如無人機跟蹤野外奔跑的動物,請問該如何實現(xiàn)?答:運動系統(tǒng)跟蹤運動目標的目的也是實現(xiàn)運動目標在運動相機的圖像中心,只是由于雙方都在運動,實現(xiàn)方法更為復雜。首先需要建立一個跟蹤模型,跟蹤過程可以分為預測和校正兩個階段。在預測階段,用從過去得到的信息進一步修正模型以取得運動目標在下一個測量圖像上將出現(xiàn)的位置。在校正階段,獲得一個測量,然后與基于前一次測量的預測值(即模型)進行調整。具體過程比較復雜,不做具體說明。模式識別思考題請闡述基于模式識別的人臉識別技術流程。答:人臉圖像采集—人臉區(qū)域定位—人臉區(qū)域預處理—人臉特征提取—人臉圖像匹配與識別。通過刑事案件現(xiàn)場視頻發(fā)現(xiàn)一名可疑人員,為了跟蹤可疑人員的行動軌跡,往往需要查看大量的周圍監(jiān)控視頻,為了通過圖像處理自動查看這些視頻,試設計一個模式識別方案。答:(1)從確認可疑人員的視頻中截取嫌疑人圖像。(2)處理分析嫌疑人的外形特征和行為特征。外形特征包括:外衣顏色,是否戴帽子及顏色,頭發(fā)長短、顏色,頭部、上身、腿部等的長度比例,等等;行為特征包括:行走速度,步幅大小,手臂擺動幅度,等等。(3)對待檢測視頻的每一幀圖像進行分析,檢測出與嫌疑人特征相似的人時報警,然后進行人工確認。神經網絡思考題論述BP神經網絡的基本結構及其工作原理。答:BP神經網絡,又稱誤差逆?zhèn)鞑ド窠浘W絡,或多層前饋神經網絡。它是單向傳播的多層前向神經網絡,第一層是輸入節(jié)點,最后一層是輸出節(jié)點,其間有一層或多層隱含層節(jié)點。特點是:各層神經元僅與相鄰層神經元之間有連接,各層內神經元之間無任何連接,各層神經元之間無反饋連接。工作原理:在確定了BP網絡的結構后,利用輸入輸出樣本集對其進行訓練,也即對網絡的權值和閾值進行學習和調整,以使網絡實現(xiàn)給定的輸入輸出映射關系。請問什么是泛化能力,BP神經網絡有沒有泛化能力?答:泛化能力指,機器學習方法訓練出來一個模型,對于訓練集數據性能表現(xiàn)良好,對于未知的數據集也能表現(xiàn)出良好的性能。BP神經網絡具有泛化功能。深度學習思考題為什么不同應用領域的機器學習都可以使用CNN,CNN解決了這些領域的哪些共性問題?它是如何解決的?答:卷積神經網絡(CNN)是人工神經網絡的一種,已成為當前語音分析和圖像識別領域的研究熱點。它的權值共享網絡結構,降低了網絡模型的復雜度,減少了權值的數量,使圖像可以直接作為網絡的輸入,避免了傳統(tǒng)識別算法中復雜的特征提取和數據重建過程。CNN是為識別二維形狀而特殊設計的一個多層感知器,這種網絡結構對平移、比例縮放、傾斜或者其他形式的變形具有高度不變性。CNNs是受早期的延時神經網絡(TDNN)的影響。延時神經網絡通過在時間維度上共享權值降低學習復雜度,適用于語音和時間序列信號的處理。舉例說明常用的3種深度學習框架,并概述其主要特點和應用方向。答:可以列舉以下3個:(1)1.TensorFlowTensorFlow是由谷歌公司Google’sBrain(谷歌大腦)團隊開發(fā)的深度學習框架,于2015年底開源(Apache2.0許可),并迅速成為最流行的開源深度學習框架之一。主要特點:=1\*GB2⑴具有較高的深度學習運行效率;=2\*GB2⑵可以運行在CPU、GPU、TPU等處理器上,包括服務器、個人PC、手機等移動設備上;=3\*GB2⑶提供主流的編程語言接口,包括:Python、C++、Java、Go,及社區(qū)支持的C#、Haskell、Julia、Rust、Ruby、Scala、R、JavaScript和PHP等;=4\*GB2⑷支持GPU、TPU、NPU等硬件加速;等。應用方向:主要是文本和語音搜索、語言翻譯和圖像搜索等。(2)PaddlePaddlePaddlePaddle又名飛槳,是由百度開發(fā)并開源的深度學習框架。主要特點:中國首個開源開放、技術領先、功能完備的產業(yè)級深度學習平臺,集深度學習核心訓練和推理框架、基礎模型庫、端到端開發(fā)套件和豐富的工具組件于一體。飛槳助力開發(fā)者快速實現(xiàn)AI想法,快速上線AI業(yè)務。應用方向:對不同行業(yè)的AI賦能,實現(xiàn)產業(yè)智能化升級。(3)YOLOJosephRedmon于2015年提出了YOLO算法。YOLO是YouOnlyLookOn

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論