工業(yè)機器視覺技術應用課件:工業(yè)機器視覺常用算法認知_第1頁
工業(yè)機器視覺技術應用課件:工業(yè)機器視覺常用算法認知_第2頁
工業(yè)機器視覺技術應用課件:工業(yè)機器視覺常用算法認知_第3頁
工業(yè)機器視覺技術應用課件:工業(yè)機器視覺常用算法認知_第4頁
工業(yè)機器視覺技術應用課件:工業(yè)機器視覺常用算法認知_第5頁
已閱讀5頁,還剩67頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

工業(yè)機器視覺常用算法認知數(shù)字圖像處理算法介紹?1.1數(shù)字圖像介紹?1.2圖像運算?1.3圖像濾波?1.4圖像基本變換?1.5圖像灰度信息?1.6圖像學?1.7圖像特征?1.8圖像配準目錄1.1數(shù)字圖像介紹數(shù)字圖像,又稱數(shù)碼圖像或者數(shù)位圖像,是由模擬圖像數(shù)字化后得到的可以用數(shù)字計算機或數(shù)字電路進行儲存和處理的圖像。數(shù)字圖像的基本元素為像素,像素是在模擬圖像數(shù)字化時對連續(xù)空間進行離散后得到的。每個像素具有整數(shù)行和列的位置坐標,同時每個像素都具有整數(shù)灰度值或顏色值。每張數(shù)字圖像都可以視為由多個采樣值組成的二維數(shù)組,根據(jù)這些采樣值以及特性的不同,數(shù)字圖像主要分為二值圖像、灰度圖像和彩色圖像。二值圖像指圖像中每個像素的亮度值僅可以取自0到1的圖像,如圖1-

1a)所示。灰度圖像指圖像中每個像素的灰度等級根據(jù)像元深度可覆蓋多個等級,如圖1-1b)所示。在數(shù)字圖像中,灰度圖像的像元深度通常為8位,因此常見的灰度圖像的灰度等級可以覆蓋0~255級,其中0表示純黑色,255表示純白色。彩色圖像的每幅彩色圖像是由多個通道組合而成的,最常見的彩色圖像為RBG三通道彩色圖像,如圖1-1c)所示,三個通道分別代表紅色、藍色、綠色。圖1-1不同種類的數(shù)字圖像b)灰度圖像a)二值圖像c)彩色圖像1.1數(shù)字圖像介紹數(shù)字圖像上的每一個像素都由坐標來確定位置,而在不同的坐標系下,同一坐標值所表示的位置也會有所不同,因此在進行數(shù)字圖像處理前需要明確所使用的機器視覺處理軟件的坐標系設置。例如,廣東奧普特公司的Smart3軟件的坐標系設置如下圖1-2所示,左上角為原點(0,0),向右水平方向為x軸正方向,向下豎直方向為y軸正方向,本模塊在闡述設計坐標變換的內(nèi)容時也會以這一坐標系為基準。圖1-2數(shù)字圖像的坐標系常見的圖像文件格式有許多種,如BMP

、TIFF

、JPEG

、PNG等。各個圖像格式各有優(yōu)缺點,有的質量好,包含信息全,占用空間大;有的壓縮率高,占用空間小,圖像細節(jié)有損失。機器視覺所采用的圖像一般都是未經(jīng)壓縮的原始數(shù)據(jù),因為BMP文件格式中包含著原始的圖像數(shù)據(jù),一般常用BMP格式。1.2圖像運算圖像是像素點及對應的灰度值的集合,通過運算操作各個像素點的灰度值可以改變圖像的特征。如圖1-3所示,使用黑白的掩膜(白色區(qū)域為1,黑色區(qū)域為0)與原圖進行乘法運算,獲得白色掩膜所代表的工件的區(qū)域,消除背景的影響。圖像運算是數(shù)字圖像處理的基礎,圖像處理算法基于圖像運算的組合。圖1-3圖像邏輯運算示例圖像運算主要可分為數(shù)學運算、位運算與比較運算,需要通過其工作原理與期望效果來選擇使用。設原圖像灰度值為g1,常量值或輸入圖像的灰度值為g2

,輸出的范圍為0~255的整數(shù)。數(shù)學運算的主要操作類型有加、減、乘、除、平均值、絕對差值6種類型,其運算規(guī)則如表1-1所示,其中加運算的效果如圖1-4所示,通過兩張圖像的疊加提高了圖像的亮度。c)運算結果b)掩膜a)原圖運算類型加減乘除平均值絕對差值輸出值g1

+g2g1

?g2g1

g2g1

g2(g1

+g2

)2g1

?g2

1.2圖像運算表1-1數(shù)學運算規(guī)則圖1-4加運算效果b)輸入圖像c)輸出圖像a)原圖運算類型與(&)或(|)取反(~

)異或(⊕)規(guī)則如同一位都為1,則運算結果的相同位取1,否則取0如同一位都為0,則運算結果的相同位取0,否則取1若原位為0,則運算結果的相同位取1,否則取0如同一位數(shù)字相同,則運算結果的相同位取0,否則取1輸入00101011&0111001100101011|01110011~0010101100101011⊕01110011輸出00100011011110111101010001011000效果保留掩膜圖像中白色覆蓋的區(qū)域保留掩膜圖像中黑色覆蓋的區(qū)域使圖像顏色反轉使掩膜圖像中白色覆蓋的區(qū)域顏色反轉1.2圖像運算位運算包含的操作類型主要有與、或、取反、或非4種類型。位運算是將灰度值轉換為二進制數(shù)后再進行的運算。設像素點1的灰度值為43,轉換為二進制后表達為00101011;像素點2的灰度值為115,轉換為二進制后表達為01110011,則以上4種位運算的運算規(guī)則及示例如表1-2所示。其中在圖像處理中常用的是與運算,通過與運算可以將特定的區(qū)域灰度值置為0,效果如圖1-5所示,掩膜圖中的黑色區(qū)域灰度值為0,白色區(qū)域灰度值設255,經(jīng)過與原圖與操作后,原圖背景區(qū)域變成了黑色,而中間前景區(qū)域圖像被提取出來,前景和背景對比更明顯。表1-2位運算規(guī)則a)原圖b)掩膜c)輸出圖像圖1-5與運算效果比較運算包括的運算類型主要有較大值、較小值、小于時清零等。其運算規(guī)則如表1-3所示,其中小于時清零的效果如圖1-6所示,此處掩膜圖中的黑色區(qū)域灰度值為0,白色區(qū)域灰度值設255,當采用小于時清零運算時,由于原像亮度小于中間圖片白色區(qū)域亮度,所以輸出圖像中間區(qū)域變成了黑色。1.2圖像運算ggggggggggggggggg22222221111111111

運算類型較大值較小值小于時清零等于時清零大于時清零條件g1

>

g2g1

<

g2g1

<

g2g1

=

g2g1

>

g2條件成立時輸出值11000條件不成立時輸出值221111.2圖像運算表1-3比較運算規(guī)則b)掩膜圖1-6小于時清零運算效果c)輸出圖像a)原圖gggggggg圖像在成像、傳輸和描述等過程中往往會受到多種信號的干擾而產(chǎn)生噪聲,對成像質量造成影響,而圖像濾波算法能夠在盡量保留圖像細節(jié)特征的條件下對圖像中的噪聲信號進行抑制,圖1-7展示了濾波對圖像質量的影響,圖中的亮色斑點得到了抑制。圖像濾波分為空間域濾波和頻域濾波。1.3圖像濾波圖1-7濾波對圖像質量的影響b)濾波后a)濾波前1.3圖像濾波1.3.1空間域濾波空間域濾波指的是對構成數(shù)字圖像的每個像素進行處理,也就是直接對像素的值進行操作的過程。空間域濾波的關鍵要素是濾波核,濾波核可以視為一種模板,它包含了待處理的像素點及其周圍的數(shù)個像素點,并使得這些被包含在濾波核中的像素點按照某種定義進行運算,得到待處理像素點的最終像素值。根據(jù)濾波核選取的不同,空間域濾波還可分為均值濾波、高斯濾波、中值濾波以及Canny濾波。1.均值濾波均值濾波也稱為線性濾波,其采用的主要方法為鄰域平均法。均值濾波的基本原理是用均值代替原圖像中的各個像素值,即對待處理的當前像素點(x,y),求取該像素點以及其鄰近范圍內(nèi)數(shù)個像素點的灰度值的均值,其中包含的像素點的數(shù)量是由濾波核的尺寸決定的。把該均值賦予當前像素點作為處理后圖像上該點的灰度值g(x,

y),即g

(x,

y)

=

f

(x,

y)/

m

,m

為該濾波核中包含當前像素在內(nèi)的像素總個數(shù)。均值濾波的運算過程如圖1-8所示,實例中選取了尺寸為1×1的濾波核,對待處理像素點及其周圍八鄰域內(nèi)的像素點進行處理。濾波核計算的基本規(guī)則就是待處理像素點及其鄰近點的像素值分別與濾波核中對應位置的權重系數(shù)相乘后相加,最后除以濾波核中權重系數(shù)的總和。均值濾波運算簡單、計算速度快,但是在去噪的同時也破壞了圖像的細節(jié),從而使圖像變得模糊,對椒鹽噪聲和高斯噪聲的平滑效果也不夠理想。因此均值濾波的一個重要應用是給感興趣的區(qū)域一個粗略的描述,他可以與動態(tài)閾值分割算法配合使用,來對光線不均勻的圖像進行二值化。b)均值濾波核圖1-8均值濾波計算1.3圖像濾波a)待處理像素點及其鄰域c)處理后像素值1.3圖像濾波2.高斯濾波高斯濾波是一種線性平滑濾波,適用于消除高斯噪聲。高斯濾波核的計算規(guī)則和均值濾波核一致,其與均值濾波核的不同之處在于,濾波核內(nèi)的權重分布是對高斯函數(shù)進行了模擬,具有對稱性且數(shù)值由中心向四周不斷減小,如圖1-9所示即為兩種高斯函數(shù)的濾波核。b)5×5,總權重系數(shù)為273a)3×3,總權重系數(shù)為16圖1-9高斯濾波核1.3圖像濾波3.中值濾波中值濾波是一種非線性平滑濾波,其濾波核計算規(guī)則與均值濾波和高斯濾波有所不同。在濾波核范圍內(nèi)的像素點按像素值從大到小進行排列,選取對應的中值作為處理后圖像上該點的灰度值。中值濾波可以去除孤立線或點,在處理椒鹽噪聲方面有很好的效果,但對高斯噪聲的平滑效果不如高斯濾波。4.Canny濾波當需要關注圖像中的邊緣信息而非紋理信息時,可以使用Canny算子對圖像邊緣進行突出。Canny算子通過判斷圖像中灰度變化的梯度來對邊緣進行初步篩選,然后采用滯后閾值的方式對初步篩選的結果進行跟蹤,避免將沒有組成連續(xù)虛線的噪聲像素當成邊緣。Canny算子的濾波效果如圖1-10所示。a)原圖

b)濾波后圖1-10Canny濾波效果圖1-11頻域濾波過程其中f

(x,

y)

為原圖,F(xiàn)(u,

v)

為f(x,y)

頻率域正變換的結果,H(u,

v)

為頻率域中的修正函數(shù),也稱濾波器;G(u,v)為濾波修正后的結果,g(x,

y)

G(u,

v)逆變換后的結果,即增強后的圖像。對于在頻域中修正前的圖像F(u,v)和修正后的圖像G(u,

v)

,存在如下關系:G(u,v)=F(u,v)H(u,

v)(1.1)頻率域濾波的好處在于:將空間域中復雜的卷積濾波操作轉換為頻率域中簡單的乘積計算。頻域濾波是采用傅里葉變換將圖像從空間域變換到頻率域,在頻率域對圖像進行濾波,最后采用傅里葉逆變換將圖像從頻率域轉換回空間域,從而對圖像效果進行增強。該處理過程如圖1-11所示。傅里葉變換F(u,v)修正H(u,v)G(u,v)傅里葉逆變換g(x,y)1.3圖像濾波1.3.2頻域濾波f(x,y)1.3圖像濾波1.低通濾波低通濾波是一種抑制圖像頻譜的高頻信號而保留低頻信號的濾波方式。低通濾波器可以起到突出背景、平滑圖像的作用,常用的低通濾波器包括理想低通濾波器、巴特沃斯低通濾波器、指數(shù)低通濾波器和梯形低通濾波器等。其中理想低通濾波器的傳遞函數(shù)表示如下:(1,D(u,v)D0H(u,v)=〈

0,D(u,v)>D0(1.2)其中D0表示理想低通濾波器的截止頻率,即圖像頻譜中小于等于D0的部分都將得到保留,而大于D0

的部分將會得到濾除。圖1-12中展示了低通濾波的效果。理想低通濾波器的平滑效果較為明顯,但隨

著D0設置的變小,其處

理后圖像的模糊情況會

愈發(fā)嚴重。圖3-12低通濾波前后的圖像對比(0,D(u,v)D0H(u,v)=〈

1,D(u,v)>D0其中D0

表示理想高通濾波器的截止頻率,即圖像頻譜中小于等于的部分將會得到濾除,圖1-13中展示了高通濾波的效果。高通濾波是一種抑制圖像頻譜的低頻信號而保留高頻信號的濾波方式。高通濾波器可以起到銳化并突出圖像邊緣的作用,常用的高通濾波器包括理想高通濾波器、巴特沃斯高通濾波器、指數(shù)高通濾波器和梯形高通濾波器等。其中理想高通濾波器的傳遞函數(shù)表示如下:(1.3)D0

的部分都將得到保留,而大于D01.3圖像濾波2.高通濾波圖1-13高通濾波前后的圖像對比1.4圖像基本變換有時需要對圖像的位置進行一定處理,使它符合檢測的需求,這時就需要用到圖像的基本變換。通過對圖像的位置進行改變,可以使得圖像更便于觀察,并初步突出感興趣的特征。1.4.1圖像平移變換圖像平移變換是指將圖像中的所有像素一同沿著同一的水平/豎直方向進行移動。設圖像中某一點的像素坐標為

(x0

,

y0

)

,則經(jīng)過平移變換后的坐標

(x,

y)

為:(x

=x0

+

x〈

y

=

y0

+

y

(1.4)其中

x

和y

分別表示該像素點在x

方向和y

方向上移動過的距離,圖像平移的效果如圖1-14所示,圖中的的圖像就是沿x

方向移動了3個像素后再沿y

方向移動了1個像素。a)原圖

b)平移后的效果圖1-14圖像平移1.4圖像基本變換1.4.2圖像鏡像變換圖像鏡像變換是指將圖像整體沿著某一條軸線進行翻轉的變換,常用的鏡像變換為水平鏡像變換和垂直鏡像變換。設圖像上一點的像素坐標為(x0

,

y0

)

,水平鏡像變換即是保持像素點的縱坐標不變,對橫坐標進行取反,即鏡像后該像素點的坐標變?yōu)??x0,

y0)

。機器視覺處理軟件中,圖像的坐標一般

是從(0,0)開始增加的,沒有負數(shù),因此一般的計算思路是先將橫坐標取反后,再將圖像進行平移。設一圖像的水平方向長度為M

,豎直方向長度為N

,則對于圖像上一像素點(x0

,

y0

),其經(jīng)過水平鏡像變換后的坐標(x,y)有:(x

=M

?1?x0〈

y

=

y0(1.5)水平鏡像變換的效果如圖1-15所示:圖1-15水平鏡像變換b)水平鏡像變換后的效果a)原圖1.4圖像基本變換垂直鏡像變換與水平鏡像變換同理,設一圖像的水平方向長度為M

,豎直方向長度為N

,則對于圖像上一像素點(x0

,

y0)

,經(jīng)過垂直鏡像變換后的坐標(x,

y)

有:(x

=x0〈

y

=

N

?1?

y0(1.6)垂直鏡像變換的效果如圖3-16所示。圖1-16垂直鏡像變換b)垂直鏡像變換后的效果a)原圖1.4圖像基本變換1.4.3圖像旋轉變換圖像旋轉變換是指以圖像中的某點為旋轉原點,按照順時針或逆時針方向將圖像整體旋轉一定的角度。設圖像上一點(x0

,y0

),則該點以圖像原點作為旋轉原點,逆時針旋轉9度的理論坐標變換公式為:需要指出的是,由于數(shù)字圖像中像素點的坐標均為整數(shù),相鄰的像素之間只能有八個方向,而需要進行旋轉的角度可能是任意的,這會使得旋轉后原有像素點之間的關系往往不再符合原有的相鄰關系。此外,經(jīng)旋轉后的圖像會出現(xiàn)許多空洞點,可采用差值的方式對空洞點進行填補,常見的插值法有近鄰插值法和均值插值法。近鄰插值法是將被判斷為空洞點的像素使用其同一行或列中的相鄰像素進行填充,均值插值法是將空洞點像素用其相鄰四個像素的平均灰度值作為像素值來填充。(x

=x0

cos9+y0

sin9〈

y

=?x0

sin9+y0

cos9(1.7)在進行旋轉變換之后,計算得到的新的像素點值有可能超過原圖像所在的空間的范圍,為了避免信息的丟失,應當根據(jù)計算結果創(chuàng)建尺寸更大的畫布,并將計算結果轉移到新的畫布上,如圖1-17所示。1.4圖像基本變換圖1-17旋轉變換對畫布尺寸的影響b)旋轉變換的效果a)原圖1.5圖像灰度信息圖像的灰度信息是指圖像中每個像素的灰度級及其分布。通過灰度信息可以分析圖像的亮度分布、對比度和紋理等特征。常見的圖像處理任務,如邊緣檢測、圖像增強和物體識別,都可以基于灰度信息進行。1.5.1灰度直方圖灰度直方圖是關于灰度級分布的函數(shù),是對圖像中灰度級分布的統(tǒng)計?;叶戎狈綀D是將數(shù)字圖像中的所有像素,按照灰度值的大小,統(tǒng)計其出現(xiàn)的頻率?;叶戎狈綀D是灰度級的函數(shù),它表示圖像中具有某種灰度級的像素的個數(shù),反映了圖像中某種灰度出現(xiàn)的頻率。圖1-18展示了四種圖像的灰度直方圖,其中橫坐標表示灰度等級,縱坐標表示某一灰度等級的像素點的個數(shù),也表征了該灰度等級出現(xiàn)的頻率。可以看出,圖像較暗時,灰度直方圖集中在灰度較低的一側;圖像較亮時,灰度直方圖集中在灰度較高的一側。圖像對

比度大時,灰度直方圖的灰度等級分布更廣,對比度小時灰度分布更加集中。c)亮圖像d)暗圖像圖1-18四種灰度區(qū)間的圖像及其灰度直方圖b)低對比度圖像a)高對比度圖像1.5圖像灰度信息1.5.2閾值分割閾值分割即是將圖像中灰度等級滿足要求的部分分離出來,主要可以分為全局閾值分割和動態(tài)閾值分割。全局閾值分割又稱二值化,即將整幅圖像都采用一個固定的閾值范圍來進行分割,分割后的圖像只有0和255兩種像素值,非黑即白。二值化實現(xiàn)簡單,可以通過觀察圖像的灰度直方圖,選取一個感興趣的閾值區(qū)間,設其下限為Gdown

,上限為Gup

,如果圖像中某一處像素的灰度值落入該閾值區(qū)間則將該值置為255,若不處于該區(qū)間內(nèi)則置為0。二值化的變化函數(shù)如下所示,其中T為選取的閾值。(0,G

<

Gdown圖1-19展示了圖像二值化的效果,通過二值化將主要關注的區(qū)域分離出來。|Gnew

=〈255,Gdown

G

Gup

|圖1-19全局閾值分割效果展示

0,G

>

Gdownb)二值化后a)原圖(1.8)1.5圖像灰度信息有時由于圖像的背景并不均勻,難以確定全局閾值,全局閾值的方法則不再適用,此時可以通過動態(tài)閾值分割對圖像局部的閾值進行分割。動態(tài)閾值分割是指在圖像分割的過程中,不用人為的去設置閾值,而是根據(jù)圖像中存在的特征進行分割。動態(tài)分割的原理一般是將原圖像與處理后的圖像作差,然后去計算差值圖像中的亮色區(qū)域或者暗色區(qū)域。其本質相當于對圖像灰度直方圖的平滑,進而求取圖像中的波谷或者波峰。動態(tài)閾值分割具有抗干擾性強、穩(wěn)定性強的特點,對光照變化不敏感。圖1-20展示了動態(tài)閾值分割和全局閾值分割之間的差異。全局閾值分割能夠對圖像中灰度值較高的部分進行分割,但灰度較低的字符區(qū)未被分割出來,動態(tài)閾值分割則較好地將字符部分獨立地分割出來。a)原圖

b)全局閾值分割效果c)動態(tài)閾值分割效果圖1-20全局閾值分割和動態(tài)閾值分割的對比1.5圖像灰度信息1.5.3顏色顏色特征是一種全局特征,描述了圖像或圖像區(qū)域所對應的物體的表面性質。顏色的主要描述方法為顏色直方圖,其與灰度直方圖類似,能簡單描述一幅圖像中顏色的全局分布,即不同色彩在整幅圖像中所占的比例,特別適用于描述那些難以自動分割的圖像和不需要考慮物體空間位置的圖像。缺點在于無法描述圖像中顏色的局部分布及每種色彩所處的空間位置,即無法描述圖像中的某一具體的對象或物體。在機器視覺中,通常直接對灰度圖而非彩色圖進行處理。當需要對某種顏色的對象進行提取時,會選擇將圖像轉變到某一顏色空間下或提取當前顏色空間的單通道分量。常見的顏色空間為RGB空間,RGB圖像是三通道圖像,其三個通道分別代表圖像在紅色、綠色和藍色的分量,如圖1-21所示,紅色、綠色、藍色分別在R、G

、B三個通道下表現(xiàn)出更高的灰度值,因此可以對單通道數(shù)據(jù)進行處理提取對應特征。a)彩色圖像b)R通道c)G通道

d)B通道圖1-21RGB顏色空間的三通道分量1.5圖像灰度信息1.5.4紋理紋理特征也是一種全局特征,它也描述了圖像或圖像區(qū)域所對應景物的表面性質。由于紋理只是一種物體表面的特性,并不能完全反映出物體的本質屬性,所以僅僅利用紋理特征是無法獲得高層次圖像內(nèi)容的。與顏色特征不同,紋理特征不是基于像素點的特征,需要在包含多個像素點的區(qū)域中進行統(tǒng)計計算。統(tǒng)計方法的典型代表是一種稱為灰度共生矩陣的紋理特征分析方法,即所有估計的值可以表示成一個矩陣的形式,因此被稱為灰度共生矩陣。對于紋理變化緩慢的圖像,其灰度共生矩陣對角線上的數(shù)值較大;而對于紋理變化較快的圖像,其灰度共生矩陣對角線上的數(shù)值較小,對角線兩側的值較大。通過這種方式可以對圖像中具有相似紋理的部分進行提取。1.6圖像形態(tài)學形態(tài)學是圖像處理中應用最為廣泛的技術之一,主要用于從圖像中提取對表達和描繪區(qū)域形狀有意義的圖像分量,使后續(xù)的識別工作能夠抓住目標對象最為本質的形狀特征,如連通區(qū)域、邊界等。1.6.1連通性分析通過閾值分割所得到像素點的集合稱為區(qū)域。區(qū)域之間關系分為連通和分離。相互連通區(qū)域之間存在聯(lián)系,在后續(xù)的形態(tài)學處理中需要對其進行處理和分析,因此如何判斷區(qū)域之間的連通性顯得尤為重要。區(qū)域是否連通要通過鄰域進行判斷。鄰域指的是圖像中一個像素點周圍的區(qū)域,如圖1-22所示,有四鄰域和八鄰域之分。當兩個區(qū)域存在公共像素點,則可以說這兩個區(qū)域是連通的。圖1-22像素的鄰域b)八鄰域a)四鄰域1.6圖像形態(tài)學連通性分析中常用到的方法為種子填充法和兩次遍歷法,這里對種子填充法的思路進行介紹。種子填充法需要選擇一個像素點作為種子,從這一種子像素點開始向鄰域周圍搜索,發(fā)現(xiàn)有相等灰度值的像素點則將其標記為相同的序號,然后繼續(xù)在被標記為相同序號的像素點鄰域進行搜索。直到所有序號相同的像素點鄰域內(nèi)周圍都沒有相同灰度值的點后,這些序號相同的像素點的集合就可以視為一個連通區(qū)域。然后再以其他的像素點作為種子,繼續(xù)搜索下一個連通區(qū)域。種子填充法的示意如圖1-23所示。a)閾值分割結果(白色像素點)圖1-23種子填充法判斷連通性b)進行連通性判斷1.6圖像形態(tài)學1.6.2腐蝕與膨脹腐蝕與膨脹是形態(tài)學處理中較為基本的算法。腐蝕是指消除目標的邊界點,使目標的邊界向內(nèi)部收縮。從圖1-24所示的對比效果圖中可以看出,原圖的白色方形輪廓框比較粗,而經(jīng)過腐蝕后變細了,這就是邊界向內(nèi)部收縮的過程。原圖上有很多白色小噪聲干擾,經(jīng)過腐蝕后基本消失。圖1-24圖像的腐蝕b)腐蝕效果圖a)原圖1.6圖像形態(tài)學膨脹的效果與腐蝕相反,簡單理解就是將與物體接觸的所有背景點合并到該物體中,使邊界向外部擴張的過程,從圖1-25中的對比可以看出,原圖中間有劃痕與白色孔洞,而經(jīng)過膨脹后消失,這就是邊界向外部擴張的過程。說明膨脹可有效填補劃痕、孔洞等缺陷。圖1-25圖像的膨脹b)膨脹效果圖a)原圖當使用膨脹或者腐蝕對圖像進行處理時,如果結構元素過大,會對圖像造成嚴重的形態(tài)失真。為了保持圖像較好的原始形態(tài),可以使用開運算或者閉運算。開運算就是先腐蝕后膨脹的過程,閉運算就是先

膨脹后腐蝕的過程,兩者的具體效果如圖1-26所示。由圖中的運算結果可以看出,開運算具有斷開狹窄的間斷和消除細的突出物的功能,閉運算具有填充物體細小空間、消除縫隙、連接鄰近物體的功能。1.6圖像形態(tài)學1.6.3開運算與閉運算圖1-26開運算與閉運算b)開運算迭代3次c)閉運算迭代3次a)原圖1.6圖像形態(tài)學1.6.4形態(tài)學邊緣圖像中區(qū)域的邊緣可以通過形態(tài)學處理的方式來提取。使用膨脹后的圖像減去腐蝕后的圖像便可以得到區(qū)域的邊界。如圖1-27所示,墊片的原始圖像經(jīng)過了形態(tài)學處理后,得到了圖1-27b)的邊界輪廓圖。圖1-27基于形態(tài)學處理的邊緣提取b)形態(tài)學處理得到的邊緣a)原圖1.7圖像特征圖像特征主要有顏色特征、紋理特征、形狀特征,其中形狀特征涵蓋的類別相對較多,因此在本節(jié)中將著重介紹幾何形狀、中心線與骨架特征的提取。1.7.1幾何形狀圖像中的部分特征會呈現(xiàn)為常見的幾何形狀,如圓形的孔洞、直線的劃痕等,可以通過霍夫變換的方式對這些幾何形狀特征進行提取?;舴蜃儞Q是一種在圖像中尋找直線、圓形以及其他簡單形狀的方法?;舴蜃儞Q采用類似于投票的方式來獲取當前圖像內(nèi)的形狀集合,該變換由霍夫于1962年首次提出。最初的霍夫變換只能用于檢測直線,經(jīng)過發(fā)展后,霍夫變換不僅能夠識別直線,還能識別其他簡單的圖形結構,常見的有圓、橢圓等。實際上,只要是能夠用一個參數(shù)方程表示的對象,都適合用霍夫變換來檢測。接下來將主要介紹霍夫直線變換的原理,其它形狀的霍夫變換原理與之類似?;舴蛑本€變換的原理是將待測對象的參數(shù)方程從x?

y

坐標空間轉換到參數(shù)空間a

?

b

中,在圖像坐標空間中通過點(xi

,

yi

)

和點(xj

,

yj

)

的直線上的每一點在參數(shù)空間a

?

b

上各自對應一條直線,這些直線都相交于點(a0

,

b0

)

,而a0

、b0

就是圖像坐標空間x?

y

中點(xi

,

yi

)

和點(xj

,

yj

)

所確定的直線的參數(shù)。反之,在參數(shù)空間相交于同一點的所有直線,在圖像坐標空間都有共線的點與之對應。根據(jù)這個特性,給定圖像坐標空間的一些邊緣點,就可以通過霍夫變換確定連接這些點的直線方程。1.7圖像特征1.7.2中心線中心線提取常用于道路檢測、掃描儀、管道檢測等。常見的中心線提取方法有區(qū)域中心法、灰度重心法和Steger法。區(qū)域中心法是在求取區(qū)域的邊緣之后,通過計算兩側邊緣的中點作為中心線上的追蹤點的方法;灰度重心法是通過計算目標位置的灰度分布并求出灰度權重質心的坐標作為中心線上的追蹤點的方法。Steger算法是目前使用最廣泛的線結構光條紋中心提取算法之一,該算法是基于Hessian矩陣得到圖像中光條紋的法線方向,Hessian矩陣如下式所示:圖像中點的法線方向由該點的Hessian矩陣最大特征值的絕對值對應的特征向量給出,通過在法線方向上求極值點得到光條紋中心的亞像素位置。g(x,

y)

是二維高斯卷積核,用于突出光條的灰度分布特征。z(x,

y)

是以圖像上的點(x,

y)為中心,與二維高斯核大小相等的圖像矩陣。Steger算法的提取效果如圖1-28所示。該方法具有精度高、穩(wěn)定好等優(yōu)點,可以獲得亞像素級精度的中心線,但是Hessian矩陣對圖像求方向導數(shù)的過程運算量巨大,無法實現(xiàn)光條紋中心實時提取的效果?!竌2

g(x,y)

a2

g(x,y)]|

ax2

axay

|

「rxx|

a2

g(x,

y)

a2

g(x,

y)

|

|Lrxy|L

axay

ay2

」||ryy

」|(1.9)H(x,

y)

=

|

|

z(x,

y)

=

||

|rxy

]圖1-28Steger算法效果1.7圖像特征b)中心線提取a)結構光條紋1.7圖像特征1.7.3骨架圖像的骨架特征,可以簡單地理解為圖像的中軸。骨架雖然從原來的物體圖像中去掉了一些點,但仍然保持了原來物體的結構信息。骨架提取技術可以用于壓縮圖像,用在圖像識別中可以降低計算量。骨架的獲取主要有兩種方法,一種是火燒模型,即圖像的四周被相同火勢點燃,燃燒速度一致,火勢由圖像四周向內(nèi)部燃燒時,火焰相與處即為骨架。第二種是最大圓盤法,最大圓盤為完全包含在物體內(nèi)部并且與物體邊界至少有兩個切點的圓,而骨架就是由目標內(nèi)所有內(nèi)切圓盤的圓心組成的,如圖1-29所示。圖1-29最大圓盤法示意1.7圖像特征如圖1-30所示的圖像,通過二值化提取其主要區(qū)域之后,通過求取該區(qū)域的骨架線并對骨架線進行分析,用于檢測零件中是否存在損壞的區(qū)域。圖1-30區(qū)域的骨架提取c)獲得骨架線b)二值化a)原圖1.8圖像配準圖像配準就是將不同時間、不同傳感器或不同條件下(天候、照度、攝像位置和角度等)獲取的兩幅或多幅圖像進行匹配的過程。當待測對象的體積過大,相機的視野范圍無法滿足時,就可以在圖像配準的基礎上對多幅圖像進行拼接,從而獲得待測對象的整體圖像。此外,在雙目視覺成像中,有時也需要通過圖像配準的方式獲取左右相機對應特征點,從而對拍攝到的物體進行三維重建。圖像配準技術的流程如下:首先對兩幅圖像進行特征提取得到特征點,通過進行相似性度量找到匹配的特征點對,然后通過匹配的特征點對得到圖像空間坐標變換參數(shù),最后由坐標變換參數(shù)進行圖像配準。特征提取是配準技術中的關鍵,準確的特征提取為特征匹配的成功進行提供了保障。因此,尋求具有良好不變性和準確性的特征提取方法,對于匹配精度至關重要。下面將介紹一種經(jīng)典的特征點提取及匹配算法——SIFT算法。尺度不變特征轉換(Scale-Invariant

FeatureTransform

,SIFT)是一種用來偵測與描述影像中的局部性特征,它在空間尺度中尋找極值點,并提取其位置、尺度、旋轉不變量。SIFT算法主要分為以下四個步驟:1)尺度空間極值檢測。搜索所有尺度上的圖像位置,識別潛在的對于尺度和旋轉不變的興趣點;2)關鍵點定位。在每個候選的位置上,通過一個擬合精細的模型來確定位置和尺度。關鍵點的選擇依據(jù)于它們的穩(wěn)定程度,在關鍵點定位步驟中會剔除低對比度的候選點和邊緣候選點;3)方向確定。基于圖像局部的梯度方向,分配給每個關鍵點位置一個或多個方向。所有后面的對圖像數(shù)據(jù)的操作都相對于關鍵點的方向、尺度和位置進行變換,從而提供對于這些變換的不變性;4)關鍵點描述。在每個關鍵點周圍的鄰域內(nèi),在選定的尺度上測量圖像局部的梯度。這些梯度被變換成一種描述子,這種描述子允許比較大的局部形狀的變形和光照變化。在待配準的兩幅圖像的描述子生成后,就將兩圖中的各個描述子進行配準,獲得配準后的特征點對。SIFT算子的配準效果如圖1-31所示,連線兩端點為配準的特征點對。圖1-31SIFT算法配準效果1.8圖像配準THANKS感謝您的觀看三維點云處理算法?1.1點云簡介?1.2點云精簡?1.3點云濾波?1.4點云匹配?1.5點云分割?1.6點云重建目錄點云是空間中點的數(shù)據(jù)集,可以表示三維形狀或對象,通常由三維掃描儀獲取。點云中每個點的位置都由一組笛卡爾坐標(x,

y,

z)

描述,有些還含有色彩信息或物體反射面強度信息。根據(jù)點云的不同應用需求,其來源呈現(xiàn)多樣化的特征,常見的獲取方法有三維激光掃描和相機掃描。三維激光掃描是通過發(fā)射激光來獲取點云數(shù)據(jù),若將激光束按照某種軌跡進行掃描,便會邊掃描邊記錄到反射的激光點信息,用這種方法獲得的點云一般具有三維空間坐標值和激光反射強度這兩種信息。相機掃描是通過攝影測量原理獲得點云,一般具有三維空間坐標值以及顏色信息。點云根據(jù)點與點之間的間距差異可以進行細分,通常使用三維激光掃描儀或照相式掃描儀得到的點云數(shù)量比較大且比較密集,稱為密集點云;而通過三坐標測量機等接觸式測量手段所得到的點云數(shù)量較少,點與點的間距也比較大,稱為稀疏點云。此外,按照點云的獲取途徑還可以分為靜態(tài)點云、動態(tài)點云、動態(tài)獲取點云三類。靜態(tài)點云指物體是靜止的,獲取點云的設備也是靜止的;動態(tài)點云指物體是運動的,但獲取點云的設備是靜止的;動態(tài)獲取點云指獲取點云的設備是運動的。1.1點云簡介1.2點云精簡點云精簡就是在精度允許下減少點云數(shù)據(jù)的數(shù)據(jù)量,提取有效信息,精簡效果如圖1-1所示。一般分為兩種:去除冗余與抽稀簡化。冗余數(shù)據(jù)是指在數(shù)據(jù)配準之后,存在重復區(qū)域的數(shù)據(jù),這部分數(shù)據(jù)多為無用數(shù)據(jù),對建模的速度以及質量有很大影響,因此要予以去除。抽稀簡化是指掃描的數(shù)據(jù)密度過大,數(shù)量過多,其中一部分數(shù)據(jù)對于后期分析用處不大,所以在滿足一定精度以及保持被測物體幾何特征的前提下對點云數(shù)據(jù)進行精簡,以提高數(shù)據(jù)的操作運算速度與效率。點云精簡的方法較多,這里主要介紹常用的均勻精簡方法和曲率適應性精簡方法。圖1-1點云精簡b)精簡后a)精簡前1.2點云精簡1.2.1均勻柵格精簡均勻柵格精簡適用于簡單曲面,其主要思想是構建一個覆蓋所有測點的包圍盒,按照設定柵格大小或精簡比例,在分割后的柵格中選取采樣點。如圖1-2所示,對點云進行柵格劃分后,計算同一柵格內(nèi)所有點的重心作為采樣點。通過改變柵格的邊長a可以改變柵格的大小,從而控制精簡后點云的規(guī)模。圖1-2建立長方體包圍盒并計算唯一采樣點1.2.2曲率適應性精簡曲率適應性精簡主要用于具有高低曲率特征、薄壁特征的曲面。根據(jù)點云局部的法矢量變化和平均曲率的變化對精簡參數(shù)進行自適應的調整,在曲面平坦區(qū)域保留均勻的點云,在曲面高曲率區(qū)域保留相對密集的點云。曲率自適應精簡能使曲面結構特征得到保持,相較于柵格精簡更有優(yōu)勢。1.3點云濾波點云濾波用于去除噪聲點、平滑點云等。采集后的點云常會包含噪聲數(shù)據(jù),點云噪聲數(shù)據(jù)一方面來自設備,比如用掃描儀、深度相機等設備獲取點云數(shù)據(jù)時,設備掃描精度、電磁波衍射特性等都會引入噪聲。另一方面來自環(huán)境因素帶來的影響,比如被測物體表面性質發(fā)生變化。噪聲數(shù)據(jù)使局部點云特征(如表面法線或曲率變化)的估計復雜化,可能導致點云配準失敗,對后續(xù)操作的影響比較大,而且這些噪聲數(shù)據(jù)造成的誤差還會隨著積累進行傳導,因此在對點云數(shù)據(jù)進行分析處理前需要通過濾波來消除噪聲數(shù)據(jù)。接下來將介紹四種常用的點云濾波方法。1.3.1統(tǒng)計濾波器統(tǒng)計濾波器用于去除明顯離群點。離群點是指在空間中分布稀疏的點,考慮到離群點的特征,可以定義若某處點云密度小于某一閾值時,則將該點云視為無效的離群點云。計算點云中每個點到其最近數(shù)個點的平均距離,則點云中所有點的距離應構成高斯分布。根據(jù)給定均值與方差,可剔除離群點。1.3.2半徑濾波器半徑濾波器的思想是根據(jù)空間點半徑范圍臨近點數(shù)量進行濾波。即在點云數(shù)據(jù)中,設定每個點一定半徑范圍內(nèi)周圍有足夠多的近鄰,不滿足就會被剔除。因為空間點的坐標已知,所以可以方便的計算某個點與周圍所有點的距離,并通過直接指定具體的距離閾值進行篩選,對于三維建模很實用。圖1-3展示了該濾波器的篩選方法,假設白色圓圈代表指定半徑d

,然后指定該半徑內(nèi)至少有1個鄰近點,那么圖中黃色點將從點云中刪除;如果指定了半徑內(nèi)至少有2個臨近點,那么黃色和綠色的點都將從點云中刪除。圖1-3半徑濾波器示意圖1.3.3高斯濾波器高斯濾波是一種非線性濾波器,采用加權平均的方式。在指定域內(nèi)的權重是根據(jù)歐式距離的高斯分布,通過權重加權平均的方式得到當前點的濾波后的點。高斯濾波的主要特點是平滑效果較好,但是目標點云邊緣角點也會被進行一定的平滑處理,可能會導致這些區(qū)域的信息丟失。1.3.4雙邊濾波器雙邊濾波是一種非線性濾波器,是結合圖像空間鄰近度和像素值相似度的一種折中處理,同時考慮了空域信息和灰度相似性,達到保邊去噪的目的,具有簡單、非迭代、局部處理的特點。雙邊濾波器的主要優(yōu)點是它可以達到保持邊緣、降噪平滑的效果,對高斯噪聲效果比較好,在一定程度上彌補了高斯濾波的缺點。主要缺點是對于彩色圖像中高頻噪聲的去噪效果不佳。1.3點云濾波1.4點云匹配點云匹配又稱配準、對齊、拼合或定位,其本質是通過計算三維空間的剛體變換參數(shù),建立點云—設計模型、點云—點云之間的空間位姿關系,用于曲面誤差計算、加工余量分配、機器人加工定位等。點云匹配根據(jù)處理階段可分為粗匹配和精匹配,精匹配的準確度高,但效率低下。可先利用效率高但精度低的粗匹配為精匹配提供一個比較好的初始位置,從而縮短精配準迭代計算所需時間。點云匹配方法較多,不同方法在匹配速度、匹配穩(wěn)定性方面各有優(yōu)劣,接下來將介紹用于粗匹配的4PCS算法以及用于精匹配的迭代最近點(IterativeClosestPoint

,ICP)與方差最小化兩種算法。1.4.1

4PCS算法4PCS

(4-Points

Congruent

Sets)算法是計算機圖形學中一種流行的配準工具。給定兩個點集P

、Q

,首先在點集P

中隨機選擇3個點,再根據(jù)點集P

、Q

的重疊比例f

選擇距離其它3個點足夠遠的第4個共面點,組成共面四點

基B

;然后根據(jù)仿射不變比從點集Q

中提取出所有在一定距離δ內(nèi)可能與B

相符合的4點集合U

=

U1

,

U2

,

U3

,對任一Ui

,通過B

和Ui

的關系計算剛性變換

T

;根據(jù)重疊比例測試

L

組不同的基,當P

中恒定數(shù)量的隨機采樣點在

Q

中有足夠多的對應點時,得到完成粗配準的最佳剛性變換矩陣Tbest

。1.4.2

ICP算法ICP算法是一種以點集對點集配準方法為基礎的曲面擬合算法,是一種基于四元數(shù)的點集到點集配準方法。ICP算法的基本原理是:分別在待匹配的目標點云P

和源點云Q

中,按照一定的約束條件,找到最鄰近點pi

、qi

,

然后計算出最優(yōu)匹配參數(shù)R

和t

,使得誤差函數(shù)最小。誤差函數(shù)為E

(R,

t

)為:E

(R,

t

)=

qi

?

(Rpi

+

t

)2(1.1)1.4點云匹配其中n

為最鄰近點對的個數(shù),為目標點云P

中的一點,qi

為源點云Q

中與pi

對應的最近點,

R

為旋轉矩陣,t為平移向量。ICP算法的關鍵問題是初值的選取,初值的選取直接影響最后的匹配結果,如果選取不當,算法就有可能陷入局部最優(yōu)值,無法計算出最佳剛體變換矩陣。此外,初值選取不當也會導致ICP計算的迭代時間過長,嚴重影響計算效率,因此在進行ICP精匹配前需要進行粗匹配。1.4.3方差最小化匹配算法上述的ICP算法是一種以點云到曲面距離平方和最小化為目標的匹配方法,但絕對距離平方最小化使得測點匹配過程傾向于滿足高密度點云、有點云區(qū)域靠近曲面模型(如圖1-4所示),最終可能導致匹配失真。受光學傳感器測量范圍、測量景深以及曲面結構復雜性影響,往往需要多次多角度掃描工件,很容易出現(xiàn)測量的點云密度不均、局部缺失、層疊等現(xiàn)場測量缺陷。為此下面將介紹一種基于方差最小化原理的匹配方法,有助于解決含固有測量缺陷的復雜曲面匹配失真問題。圖1-4匹配后高密度點云區(qū)域和有測量數(shù)據(jù)區(qū)域更靠近曲面設計模型(藍色線)其中符號di

表示移動點pi+

到切平面i

的垂直距離,對應圖1-5中所示的pi+a

,符號d

表示di

的均值。該目標函數(shù)是以所有點云到對應切平面有向距離組成樣本的方差最小化為目標計算(R,

t

)

,有利于保持匹配后所有測點與曲面設計模型最近距離的一致性,克服了ICP算法采用絕對距離平方最小化導致的高密度點云傾斜問題,有利于避免陷入局部最優(yōu)和匹配失真,計算出最佳剛體變換矩陣。1.4點云匹配方差最小化匹配的目標函數(shù)定義為:min

F

(R,

t

)=

(di

?

d

)

22圖1-5方差最小化匹配計算示意圖iig

(R,t

)pi+(1.2)n

ip

qai1.5點云分割點云分割是通過人為設計提取特征或者利用幾何關系進行約束,將原始三維點云分組為非重疊的點云區(qū)域,這些點云區(qū)域對應于一個場景中的特定結構或特定對象。由于這種分割過程不需要有監(jiān)督的先驗知識,因此所得到的結果沒有很強的語義信息。點云分割方法主要分為四類:基于邊緣的分割、基于區(qū)域增長的分割、基于模型擬合的分割與基于聚類的分割。1.5.1基于邊緣的分割邊緣是描述點云物體形狀的基本特征,基于邊緣的分割方法通過檢測點云的邊緣來分割點云區(qū)域。點云的邊緣可以通過點云表面梯度的變化來判斷和獲取,通過計算梯度可以得到點云表面單位法向量方向的變化,一般而言法向量方向產(chǎn)生較大突變的位置就可以認為是邊緣點所在處,如圖1-6所示。將邊緣點進行擬合,擬合得到的空間線就是邊緣線,最后基于邊緣線對點云進行分割?;谶吘壍姆椒m然分割速度快,但容易受噪聲影響,有時難以準確提取邊緣。表面1法向齒面邊緣線表面2法向圖1-6點云邊緣提取示意1.5點云分割1.5.2基于區(qū)域增長的分割基于區(qū)域的方法使用鄰域信息將具有相似屬性的附近點歸類,以獲得分割區(qū)域,并區(qū)分出不同區(qū)域之間的差異性?;趨^(qū)域的方法比基于邊緣的方法更準確,但是他們在分割過度或不足以及在如何準確確定區(qū)域邊界方面存在問題,同時這些方法也需要大量的先驗知識(例如對象模型、區(qū)域數(shù)量等)。這里主要介紹種子區(qū)域方法和非種子區(qū)域方法?;诜N子的區(qū)域分割通過選擇多個種子點來分割,以這些種子點為起始點,通過添加種子的鄰域點的方式逐漸形成點云區(qū)域,主要包含兩個步驟:首先基于每個點的曲率識別種子點,然后根據(jù)預定標準來生長種子點,該標準可以是點的相似度和點云表面的相似度。種子生長法對噪聲點敏感且計算耗時大。種子區(qū)域方法高度依賴于選定的種子點,不準確的種子點選擇會影響分割過程,并可能導致分割不足或過度分割,同時選擇種子點以及控制生長過程耗時也比較高。非種子區(qū)域方法的過程與種子區(qū)域方法相反,是一種自上而下的方法。首先將所有點都分為一個區(qū)域,然后細分過程開始并將其劃分為更小區(qū)域,非種子區(qū)域方法的主要困難是如何決定細分的位置和方式。1.5.3基于模型擬合的分割基于模型擬合的分割方法是通過幾何形狀(例如球形、圓錐、平面和圓柱)對點云進行分組,具有相同的數(shù)學表示的點將會被分割為同一組點。這一方法目前通過引入隨機樣本一致算法(Random

Sample

Consensus

,RANSAC)檢測直線、圓等數(shù)

學特征,這種應用極為廣泛且可以認為是模型擬合的最先進技術,在點云的分割中需要改進的方法都是繼承了這種方法?;谀P偷姆椒ň哂屑兇獾臄?shù)學原理,效率高且分割效果好,其主要局限性在于處理不同點云時的不準確性。通常零件需要具有設計模型,通過點云匹配來將設計模型與測量點云進行匹配,再根據(jù)設計模型的引導來將點云中待檢測分析的區(qū)域分割出

來,相較使用基礎幾何形狀的擬合分割方式而言具有更高的準確性。這一分割方式的具體思路如圖1-7所示。1.5.4基于聚類的分割基于聚類的分割方法是基于點云數(shù)據(jù)屬性的一種魯棒性較好的分割方法,這種方法一般包括兩個單獨的步驟:第一步先計算出各個點云數(shù)據(jù)的屬性,第二步根據(jù)計算點的屬性進行聚類。這種聚類方法一般能適應空間關系和點云各種屬性,最終將不同屬性的點云分割出來,但是這種方法局限性在于高度依賴派生屬性的質量,所以要求第一步能夠精確的計算點云數(shù)據(jù)的屬性,這樣才會在第二步中根據(jù)屬性類別分割出最佳的效果。這里主要介紹歐式聚類與基于圖像區(qū)域聚類兩種方法。b)設計模型與點云匹配圖1-7基于設計模型的點云分割1.5點云分割c)分割出局部區(qū)域a)設計模型(局部1.5點云分割1.歐式聚類歐式聚類的聚類判斷準則即為點云之間的歐氏距離。對于空間某點p

,通過KD

-Tree近鄰搜索找到

k個離p

點最近的點,這些點中距離小于設定閾值的便聚類到集合Q

中。如果Q

中元素的數(shù)目不再增加,整個

聚類過程便結束;否則須在集合

Q

中選取

p

點以外的點,重復上述過程,直到Q

中元素的數(shù)目

不再增加為止。若在歐氏距離外增加其余限制條件,這一方法就將被稱為條件歐式聚類,即除了滿足

歐氏距離的限制外,還需同時滿足給定的條件才可以被加入集合Q

中,相較最初的歐式聚類方法分割效果更好。2.基于圖像的聚類基于圖像的區(qū)域聚類方法主要通過將點云轉換成二值圖像,再通過圖像方法中的區(qū)域增長進行聚類,再轉換成點云。優(yōu)點是速度快,而缺點是存在過度分割以及分割不足問題?,F(xiàn)有的改進方法是將二維圖像與三維點云根據(jù)掃描儀與相機之間的標定關系關聯(lián)起來,將三維點云投影到二維圖像平面后,再利用二維圖像中各區(qū)域的語義信息對各個點云區(qū)域進行聚類,分割效果較優(yōu)。1.6點云重建點云重建是指將點云數(shù)據(jù)轉化為三維模型的過程,便于執(zhí)行三維建模、模型渲染等操作,點云重建效果如圖1-8所示。常用點云重建方法包括基于體素的重建、基于網(wǎng)格的重建和基于光滑曲面的重建等。a)三維離散點云b)重建后的三維模型圖1-8點云重建THANKS感謝您的觀看深度學習算法介紹?1.1深度學習簡介?1.2卷積神經(jīng)網(wǎng)絡?1.3生成對抗網(wǎng)絡?1.4Transformer網(wǎng)絡?1.5應用案例目錄深度學習(DeepLearning,DL)是機器學習(Machine

Learning

,ML)領域一個新的研究方向,

它被引入機器學習使其更接近于最初的目標—人工智能(Artificial

Intelligence

,AI)。深度學習是學習樣本數(shù)據(jù)的內(nèi)在規(guī)律和表示層次,這些學習過程中獲得的信息對諸如文字、圖像和聲音等數(shù)據(jù)的解釋有很大的幫助。最終目標是讓機器能夠像人一樣具有分析學習能力,能夠識別文字、圖像和聲音等數(shù)據(jù),因此深度學習在圖像識別中的應用研究是現(xiàn)在和未來很長一段時間內(nèi)圖像識別領域的重要研究課題。深度學習是一個復雜的機器學習算法,在語音和圖像識別方面取得的效果,遠遠超過先前相關技術。深度學習在搜索技術、數(shù)據(jù)挖掘、機器學習、機器翻譯、自然語言處理、多媒體學習、知識推薦和個性化技術,以及其他相關領域都取得了很多成果。深度學習使機器能夠模仿視聽、思考、決策等人類的活動,解決了很多復雜的模式識別難題,使得人工智能相關技術取得了很大進步。本節(jié)將主要對卷積神經(jīng)網(wǎng)絡、生成對抗網(wǎng)絡以及近些年關注較多的Transformer架構進行介紹。1.1深度學習簡介1.2卷積神經(jīng)網(wǎng)絡卷積神經(jīng)網(wǎng)絡(Convolutional

Neural

Network

,CNN)是一種深度學習模型,特別適用于處理具有網(wǎng)格結構的數(shù)據(jù),例如圖像和音頻。它通過多個卷積層、池化層和全連接層等組件,實現(xiàn)了對輸入數(shù)據(jù)的高效特征提取和模式識別能力。CNN的核心組件是卷積層,它使用一組可學習的濾波器(也稱為卷積核)在輸入數(shù)據(jù)上進行卷積操作,從而提取輸入數(shù)據(jù)中的空間局部特征。卷積操作通過對濾波器與輸入數(shù)據(jù)的逐元素乘積求和,將輸入數(shù)據(jù)的局部信息轉化為特征映射。這種局部連接和權重共享的方式使得CNN能夠更有效地處理大規(guī)模輸入數(shù)據(jù)。另一個重要的組件是池化層,它用于降低特征映射的空間維度,減少參數(shù)數(shù)量,同時保留重要的特征信息。常用的池化操作是最大池化,它選擇每個區(qū)域中的最大值作為池化結果。全連接層將特征映射轉換為模型的輸出,全連接層中的每個神經(jīng)元與前一層的所有神經(jīng)元相連接,通過學習權重和偏置來實現(xiàn)對輸入特征的分類或回歸。卷積神經(jīng)網(wǎng)絡在圖像處理中常用于進行圖像的分類、目標檢測以及分割,下面介紹用于這三類任務的經(jīng)典網(wǎng)絡ResNet、YOLO和UNet。1.2.1ResNet網(wǎng)絡ResNet

(Residual

Neural

Network)是由Microsoft

Research的Kaiming

He等人在2015年提出的深度學習架構,它在圖像識別任務中取得了重大的突破,也是深度學習中一個重要的里程碑。傳統(tǒng)的深度卷積神經(jīng)網(wǎng)絡隨著層數(shù)增加,會遇到梯度消失或梯度爆炸等問題,導致訓練過程困難,難以讓網(wǎng)絡更深。ResNet的主要創(chuàng)新在于引入了“殘差學習”(Residual

Learning)的概念,允許在訓練過程中直接對殘差進行學習。殘差學習的基本思想是將原始輸入與輸出之間的差值(即殘差)作為學習目標,這樣網(wǎng)絡可以更容易地學習恒等映射,從而解決了梯度問題。ResNet通過引入殘差塊來實現(xiàn)殘差學習。如圖1-

1所示,每個殘差塊包含兩個或更多的卷積層,其中在輸入和輸出之間引入了跳躍連接。跳躍連接允許梯度直接通過網(wǎng)絡層傳播,減少了信息的丟失,使得可以訓練更深的網(wǎng)絡。在訓練過程中,如果某個殘差塊的輸出與輸入相同(即殘差為零),那么該塊就類似于恒等映射,網(wǎng)絡就可以選擇不學習該塊。ResNet的創(chuàng)新設計使得訓練深層網(wǎng)絡成為可能,例如ResNet-50、ResNet-101和ResNet-152等。

ResNet的成功極大地促進了深度學習模型的發(fā)展,成為許多計算機視覺任務的基礎網(wǎng)絡結構。ResNet的思想也在其他任務和領域得到了廣泛應用,并激發(fā)了更多深度學習架構的設計和改進。卷積層卷積層1.2卷積神經(jīng)網(wǎng)絡圖1-1殘差塊示意圖卷積運算F(x)輸出F(x)+x激活函數(shù)激活函數(shù)輸入x1.2卷積神經(jīng)網(wǎng)絡1.2.2YOLO網(wǎng)絡YOLO

(You

Only

Look

Once)是一種實時目標檢測算法,由Joseph

Redmon等人于2015年提出。相比于傳統(tǒng)的目標檢測算法,YOLO具有高速和高準確性的特點,已成為計算機視覺領域中廣泛應用的算法之一。YOLO的主要創(chuàng)新在于將目標檢測問題轉化為一個回歸問題,并將整個圖像劃分為網(wǎng)格,每個網(wǎng)格預測一組邊界框及其對應的類別概率。YOLO的設計思路可以概括為網(wǎng)格劃分、特征提取、邊界框預測、類別預測以及預測處理五個關鍵步驟。網(wǎng)格劃分用于將

輸入圖像劃分為固定大小的網(wǎng)格,每個網(wǎng)格負責預測該網(wǎng)格內(nèi)是否存在目標物體以及目標物體的邊界框和類別概率,并使用預訓練的卷積神經(jīng)網(wǎng)絡通過多個卷積和池化層來提取特征。然后每個網(wǎng)格預測一組邊界框,每個邊界框包含物體的位置和類別概率,并進一步預測每個邊界框的類別概率,表示該邊界框內(nèi)可能存在的不同物體類別。最后根據(jù)邊界框的位置、類別概率和置信度,通過非極大值抑制(Non-Maximum

Suppression

,NMS)算法篩選最終檢測結果。圖1-2為YOLO的檢測示意圖。圖1-2YOLO檢測過程示意圖YOLO算法具有較快的速度和較高的準確性,適用于實時目標檢測和視頻分析任務。可以同時檢測多個目標,具有端到端

的優(yōu)勢,并且在目標尺寸和縱橫比變化較大的情況下仍具有較好性能。隨著YOLO算法不斷提升,衍生出了多個版本(如YOLOv2、YOLOv3、YOLOv4等),進一步提高了檢測精度和速度。1.2卷積神經(jīng)網(wǎng)絡1.2.3UNet網(wǎng)絡UNet是一種用于圖像分割任務的深度學習架構,由Olaf

Ronneberger

、Philipp

Fischer和Thomas

Brox于2015年提出。UNet的設計初衷是解決醫(yī)學圖像分割中的挑戰(zhàn),但后來也在其他領域廣泛應用。UNet的架構特點是U形架構,由對稱的下采樣 (編碼器)和上采樣(解碼器)部分組成,中間有一個跳躍連接用于跨越編碼器和解碼器之間的層級,如圖1-3所示。跳躍

連接通過將輸入圖像下采樣時產(chǎn)生的特征與上采樣時產(chǎn)生的特征進行結合,從而減少了池化操作導致的圖像高級細節(jié)信息損失對分割結果的影響。圖1-3跳躍連接示意圖UNet的架構使得網(wǎng)絡能夠捕獲不同尺度的特征信息,并保留更多的細節(jié)。跳躍連接有助于將低級別和高級別的特征結合起來,提高分割結果的準確性。UNet在醫(yī)學圖像分割中表現(xiàn)出色,尤其適用于訓練數(shù)據(jù)有限的情況。隨著時間的推移,UNet的變體和擴展算法不斷涌現(xiàn),如UNet++、ResUNet等,進一步提升了性能,并適用于更廣泛的應用領域。解碼器深層特征上采樣卷積編碼器特征跳躍連接結合特征卷積1.3生成對抗網(wǎng)絡生成對抗網(wǎng)絡(Generative

Adversarial

Networks

,GAN

)是一種深度學習模型,由生成器(Generator

)和判別器

(Discriminator)組成。GAN的目標是讓生成器能夠生成與真實數(shù)據(jù)相似的樣本,GAN的基本思想是通過兩個模型的對抗來實現(xiàn)訓練。生成器的目標是生成盡可能逼真的樣本,而判別器的目標是盡可能準確地區(qū)分生成的樣本和真實的樣本。二者通過對

抗的方式相互競爭,逐漸提高自己的能力。訓練過程中,生成器接收一個隨機噪聲作為輸入,并生成一個與真實樣本相似的樣

本。判別器則接收真實樣本和生成器生成的樣本,并嘗試區(qū)分它們。生成器和判別器之間的對抗通過梯度下降進行優(yōu)化。生成

器希望生成的樣本能夠騙過判別器,使其無法準確區(qū)分真實樣本和生成樣本;而判別器希望能夠盡可能準確地區(qū)分真實樣本和生成樣本。通過反復迭代訓練,生成器逐漸學習到生成逼真的樣本,而判別器也逐漸提高區(qū)分能力。當訓練達到平衡狀態(tài)時,生成器能夠生成與真實樣本相似的樣本,而判別器無法準確區(qū)分。在實際工業(yè)檢測應用中,往往存在缺陷樣本量較少的問題,因此在訓練過程中正負樣本量是非常不均衡的,這極大的限制了

模型的性能,甚至導致模型完全不可用。在缺陷外觀多變的場景下,有監(jiān)督學習的方法往往無法滿足正常的生產(chǎn)需求。此外在

實際的工業(yè)缺陷檢測場景中,通常存在許多不同種類的缺陷,檢測的標準和質量指標往往也不同,這就需要付出大量的人力資

源來進行大量的數(shù)據(jù)標注。因此基于GAN進行無監(jiān)督的正樣本檢測成為了一種研究趨勢,這類研究的經(jīng)典網(wǎng)絡為AnoGAN。AnoGAN

(Adversarial

Networks

for

Anomaly

Detection)是一種無監(jiān)督學習的異常檢測方法,它由Schlegl等人基于GAN的思想在2017年提出,旨在通過學習正常樣本的分布來檢測異常樣本。AnoGAN的關鍵思想是通過對抗訓練生成器和判別器學習正

常樣本的分布,并利用生成器進行異常樣本的重建。對于給定的異常樣本,通過最小化重建誤差來找到與其最匹配的潛在向量,使生成器能夠生成與異常樣本最相似的重建樣本

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論