




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
3D視覺3D視覺的模型傳統(tǒng)計算機視覺以二維圖像為模型,但一般的二維圖像顯然不能夠完整表示出物體的三維信息,這使得傳統(tǒng)視覺技術(shù)的應(yīng)用和發(fā)展受到了很大的限制,越發(fā)不能滿足人們對于三維世界的認知和識別的需求。隨著三維測量及重建技術(shù)不斷發(fā)展,衍生出了多種不同形式的三維模型,其中以深度圖像、點云、體素模型這三種最為常見。(1)深度圖像傳統(tǒng)視覺將三維場景投影成二維圖像,二維圖像反應(yīng)的是場景的光強和顏色信息,由于投影成像的原理,它丟失了現(xiàn)實世界中的三維深度信息。通過對二維圖像灰度或顏色的分析來實現(xiàn)場景形貌的識別和測量,會受到環(huán)境光照、陰影等因素的干擾以及物體幾何特征的限制,極大的增加了識別的難度和測量的精確度。而深度圖像(RGB-D)將深度信息作為圖像的一個通道進行保存,即可有效解決二維圖像的不足。深度圖像由包含顏色亮度信息普通RGB圖像(如圖a)和包含深度信息的深度圖(Depthmap,如圖b)組成??梢钥闯觯疃葓D與環(huán)境光照和陰影無關(guān),它的像素點清晰地表達了景物的表面幾何形狀。
(a)普通RGB圖像
(b)深度圖(2)點云深度圖像可以直觀的表現(xiàn)出三維物體的幾何特征,然而圖像的尺度與真實世界的尺度并不相同,需要結(jié)合相機的內(nèi)外參進一步解算才可得到物體在世界坐標系中的真實尺寸和位置。深度圖像更適合物體識別、特征匹配等定性的分析處理,在測量、定位等定量的處理方面則比較麻煩,點云模型則彌補了這一不足。在獲取物體表面每個采樣點的空間坐標后,得到的是點的集合,稱之為“點云”(PointCloud)。點云是在同一空間參考系下表達目標空間分布和目標表面特性的海量點集合,點云中每個點的坐標值,以及相互之間的位置關(guān)系都與真實空間的尺度相同,這方便我們在提取到所需要的形狀特征后,可以直接使用到真實世界中。由于點云模型對真實世界高度還原的特點,其被廣泛應(yīng)用到三維建模、逆向工程、文物保護、車輛導(dǎo)航等領(lǐng)域中,是目前3D視覺技術(shù)中最為常用的一種三維模型。如燈泡的點云模型,如圖所示。燈泡的點云模型(3)體素模型“像素”是對二維圖像的離散劃分,而“體素”則可認為是對三維模型的離散劃分。傳統(tǒng)面圖形學以面和邊等元素來描述物體,而體表示法則以三維體單元來描述整個物體,與二維數(shù)字圖像的像素類似,每個體單元被稱為體素(Volumeelement,簡稱voxel),如圖所示為體素模型。
(a)原模型
(b)體素模型點云的數(shù)據(jù)結(jié)構(gòu)通常是散亂無序的,而體素模型是一個有序的三維陣列,由于體素陣列的離散性和規(guī)則性,可以方便地設(shè)計針對體素的各種運算。但是相比點云,體素模型隨著分辨率的增大,其數(shù)據(jù)量以立方級的速度增加,對儲存空間和傳輸速度的要求也更高。體素模型由于其離散有序特點,在3D打印、醫(yī)學影像重建等領(lǐng)域得到廣泛應(yīng)用。深度圖像和點云之間可以通過傳感器的內(nèi)外參數(shù)實現(xiàn)相互轉(zhuǎn)換,點云和體素模型也可由體素化算法實現(xiàn)相互轉(zhuǎn)換。不同的模型有各自的優(yōu)勢和不足,隨著3D傳感技術(shù)及模型重建方法的發(fā)展,多種模型的結(jié)合使用為解決實際問題提供了更多選擇。3D視覺的重建方法基于視覺的三維模型重建是實現(xiàn)3D視覺技術(shù)的關(guān)鍵環(huán)節(jié)和前提條件。在基于視覺的重建方法出現(xiàn)之前,往往要使用標準的尺度工具通過復(fù)雜的接觸式測量來獲取物體的三維形狀數(shù)據(jù),無論在效率還是精度上都難以滿足生產(chǎn)生活的需求。使用視覺方法進行測量重建具有非接觸、快速、精確且不受人為因素影響等優(yōu)勢。隨著傳感技術(shù)的發(fā)展,出現(xiàn)了多種形式的3D視覺測量設(shè)備,比較具有代表性的有雙目相機、Microsoft的Kinect深度相機、iPhone的結(jié)構(gòu)光三維傳感器等,這些設(shè)備分別基于雙目立體視覺法、飛行時間法、結(jié)構(gòu)光法來實現(xiàn)三維的測量重建,這也是目前最為常見的三種重建方法,具有很高的研究價值和實際意義。(1)雙目立體視覺法雙目立體視覺(BinocularStereoVision)是視覺技術(shù)最基本的一種形式,它是基于視差原理并利用成像設(shè)備從不同的位置獲取被測物體的兩幅圖像,通過計算圖像對應(yīng)點間的位置偏差,來獲取物體三維幾何信息的方法。對生物視覺系統(tǒng),人們早就注意到,幾乎所有具有視覺的生物都有兩個眼睛。用兩個眼睛同時觀察物體時,會有深度或遠近的感覺。1982年,美國麻省理工學院的Marr首次從信息處理的角度綜合了圖像處理、心理物理學、神經(jīng)生理學及臨床神經(jīng)病學等方面已取得的重要研究成果,提出了第一個較為完善的視覺系統(tǒng)框架,這也是雙目視覺技術(shù)的起源,它在研究人眼的視覺原理以及各種基于視覺的工程領(lǐng)域都有很重要的應(yīng)用。
因此,雙目視覺可以看成是由圖像坐標向三維世界坐標映射的一個過程。只要在左右兩部相機上找到匹配的像點,即可解算出此像點在空間中的三維坐標。雙目法是3D視覺重建最基礎(chǔ)和經(jīng)典的方法,但其重建的結(jié)果在分辨率上受限于特征點檢測的數(shù)量;在精度上受特征點匹配結(jié)果的影響,只適合在特征明顯的場景下進行稀疏的重建,但在此基礎(chǔ)上衍生出了結(jié)構(gòu)光法,進一步提升了三維重建的效果。(2)結(jié)構(gòu)光法結(jié)構(gòu)光法在重建的數(shù)學原理上與雙目法基本相同,如圖所示,但結(jié)構(gòu)光法通過投射固定形狀結(jié)構(gòu)的光源,來人為地制造特征點,從而解決雙目法中圖像特征點檢測數(shù)目和匹配精度的問題。結(jié)構(gòu)光測量示意圖結(jié)構(gòu)光的使用最早出現(xiàn)在80年代早期,Rioux等人使用點激光測距法,通過不斷獲取經(jīng)物體表面反射回的結(jié)構(gòu)光點,結(jié)合三角原理獲取物體三維信息。這種方法也稱為點結(jié)構(gòu)光法,由于需要逐點掃描,要獲得物體全部表面信息,耗時較長。隨著光學投影技術(shù)的發(fā)展,出現(xiàn)了投射線激光以及二維圖像投影的方法。線結(jié)構(gòu)光指的是投向待測物體的為線光,這種方法逐線掃描物體,每次得到待測物體位于同一投影光線上的各點的三維坐標,這種方法的測量速度有所提高,計算量相應(yīng)減小,但是測量效率仍較低。面結(jié)構(gòu)光是指將一整個經(jīng)由計算的特定圖案投向待測物體的表面,然后大范圍的獲取由物體表面調(diào)制的信息,再經(jīng)過解調(diào)得到整個覆蓋面的三維信息,因而測量效率高,計算速度快。在面結(jié)構(gòu)光中,又主要有光柵光和編碼光兩類:光柵光即使用物理或模擬光柵向待測物體投影,而編碼光則投影的是一些經(jīng)由編碼的特制圖案,某種程度上說,光柵光也是一種特殊的編碼光。如圖所示分別為光柵型結(jié)構(gòu)光、二值編碼型結(jié)構(gòu)光、隨機編碼型結(jié)構(gòu)光的投影圖案。面結(jié)構(gòu)光測量的精度較高,而且圖像獲取時間短,測量速度快,是目前3D視覺測量重建技術(shù)的主要發(fā)展方向之一。(a)光柵型結(jié)構(gòu)光
(b)二值編碼型結(jié)構(gòu)光
(c)隨機編碼型結(jié)構(gòu)光
光柵型、二值編碼型、隨機編碼型結(jié)構(gòu)光圖案作為一種有效而可靠的三維重建和主動測量手段,結(jié)構(gòu)光三維視覺技術(shù)以其低成本、高精度、大視場、實時性好和抗干擾能力強等特點,工業(yè)方面,廣泛應(yīng)用于自動化測量、機器人引導(dǎo)、大規(guī)模復(fù)雜三維場景重建等領(lǐng)域,而在日常的生活中,也被應(yīng)用在人臉識別、車輛導(dǎo)航、VR設(shè)備等領(lǐng)域中,為我們的生活帶來了新的體驗。(3)飛行時間法飛行時間法也稱為TOF,是Timeofflight的簡寫。所謂飛行時間法3D成像,是通過給目標連續(xù)發(fā)送光脈沖,然后用傳感器接收從物體返回的光,通過探測光脈沖的飛行(往返)時間來得到目標物距離。TOF相機是近十年發(fā)展起來的3D成像設(shè)備,它不僅能像傳統(tǒng)2D相機那樣獲得強度圖像,還能實時獲得感光器件上每個像素點到目標物體對應(yīng)點的距離。下圖演示了TOF相機測距系統(tǒng)的基本原理。測量開始時,由相機上的二極管陣列向整個場景投射調(diào)制光線,用返回相機感光元件表面的反射信號與參考信號卷積、采樣,得到反射信號的相位,進而得出測量信號的飛行時間,結(jié)合光速,就可計算相機到被測物體的距離。TOF相機測距的基本公式是:基于TOF技術(shù)的3D相機是一種新型的、小型化立體成像設(shè)備,該相機可實時高效的捕捉動態(tài)目標的亮度信息與距離信息。這種相機操作簡便,信息最大,有著廣闊的發(fā)展?jié)摿εc市場前景,將會給許多領(lǐng)域帶來革命性的改變。3D視覺的典型應(yīng)用3D視覺作為一個學科來講,是多學科的交叉融合,包含了計算機視覺、計算機圖形學、人工智能、自動化控制等學科領(lǐng)域的內(nèi)容,這也使得3D視覺技術(shù)在許多領(lǐng)域都能發(fā)揮重要作用。近年來,在國內(nèi)外相關(guān)企業(yè)和科研人士的不懈努力下,不斷有新的產(chǎn)品,產(chǎn)業(yè)線等應(yīng)用上了3D視覺技術(shù),在人們的日常生活上帶來更加便捷的體驗,在工業(yè)上也進一步提升了自動化、智能化的水平。本節(jié)將通過描述幾個具體的實施案例來展現(xiàn)3D視覺技術(shù)的強大實力。(1)工業(yè)機器人定位引導(dǎo)隨著我國工業(yè)化與信息化進程的不斷發(fā)展,以及國家“工業(yè)4.0”戰(zhàn)略的實施,工業(yè)機器人正在被廣泛應(yīng)用在自動裝配、航空領(lǐng)域、智能制造、交通導(dǎo)航等領(lǐng)域,在工業(yè)流水線上主要用于分揀、碼垛、焊接等流程工藝。傳統(tǒng)的機器人引導(dǎo)通過手動示教或離線編程的方式來規(guī)劃機器人的工作路徑,這種方法制約了機器人的工作效率、靈活性和智能性,無法滿足柔性生產(chǎn)系統(tǒng)的要求。而通過3D視覺引導(dǎo)的方式協(xié)助機器人完成對目標對象的定位,這種方法可以有效地提高生產(chǎn)線的工作效率和自動化水平。隨機箱體抓取系統(tǒng)(RandomBinPicking,RBP)是目前普及率最高的一種機器人3D視覺引導(dǎo)系統(tǒng),典型的bin-picking系統(tǒng)包括三個部分:機器人(機械臂),視覺模塊和計算機控制模塊。整個系統(tǒng)的工作流程大致為:通過視覺傳感器對目標檢測區(qū)域進行掃描分析,獲取場景內(nèi)的工件三維信息,并計算出目標工件的位置姿態(tài),根據(jù)位姿不同規(guī)劃機械臂的抓取路徑。視覺模塊中的視覺算法是RBP系統(tǒng)的核心部分,算法主要分為3D數(shù)據(jù)采集和目標定位。3D數(shù)據(jù)采集可以通過線結(jié)構(gòu)光的方法,結(jié)合機器人機械臂可移動平臺來對工件進行掃描,從而解算出工件的三維坐標信息(如圖所示),近年來也有使用面結(jié)構(gòu)光來直接獲取工件表面三維數(shù)據(jù)的方法,進一步提升了數(shù)據(jù)采集的速度。BRP系統(tǒng)示意圖目標定位則是視覺系統(tǒng)對3D數(shù)據(jù)的分析和理解,一般采集到的3D數(shù)據(jù)用點云模型表示,通過提取目標點云的特征,并進行特征匹配,可以從場景中提取出具有固定特征的工件點云(如圖所示)。實現(xiàn)目標定位后,再通過傳感器和機器人坐標系之間的關(guān)系,將定位結(jié)果轉(zhuǎn)換為機器人參考系下的坐標數(shù)據(jù),即可引導(dǎo)機器人對目標工件進行抓取。
(a)工件圖片
(b)工件點云RBP技術(shù)在工業(yè)自動化、流水線生產(chǎn)、智慧工廠、無人倉庫等領(lǐng)域有著非常廣闊的應(yīng)用前景。在未來,機器人的3D視覺引導(dǎo)技術(shù)還可能往可移動機器人、大視場、復(fù)雜場景等方向發(fā)展,逐漸提升工業(yè)生產(chǎn)的自動化智能化水平,帶來更高的效益和產(chǎn)能。(2)視覺SLAMSLAM(simultaneouslocalizationandmapping)即同時定位與地圖構(gòu)建。它是指搭載特定傳感器的主體,在沒有環(huán)境先驗信息的條件下,于運動過程中建立環(huán)境的模型,同時估計自身的運動軌跡。如果搭載的傳感器為視覺傳感器,就稱為“視覺SLAM”,其流程圖如圖所示。視覺SLAM流程圖通俗得講,以機器人為例,SLAM解決的問題可以描述為:將一個機器人隨機放入某一空間中,機器人需要感知周圍的環(huán)境并判斷自己的位置。SLAM不同于傳統(tǒng)意義上機器人的行為方式在于所處的環(huán)境沒有先驗性,也就是說從采集環(huán)境形貌,到認知環(huán)境特征,再到判斷機器人自己的位置都是由機器人自發(fā)地去完成。這其實是一個很直觀的問題,因為人類自己走進陌生環(huán)境時就是這么做的。目前的SLAM技術(shù)主要分為激光SLAM和視覺SLAM。激光SLAM使用激光雷達作為傳感器,目前已經(jīng)有比較成熟的產(chǎn)品,但是成本較高,而視覺SLAM則是使用雙目相機、結(jié)構(gòu)光3D傳感器、深度相機等作為視覺傳感器,應(yīng)用場景相比激光雷達更加豐富,成本也相對較低。作為3D視覺技術(shù)未來最重要的發(fā)展方向之一,視覺SLAM已經(jīng)開始應(yīng)用在車輛輔助駕駛、無人機自主導(dǎo)航、城市3D地圖重建、增強現(xiàn)實等領(lǐng)域。隨著城市物聯(lián)網(wǎng)和智能系統(tǒng)的完善,視覺SLAM必是大勢所趨。雖然目前視覺SLAM技術(shù)方面還存在著一些問題,但這些都會隨著消費刺激和產(chǎn)業(yè)鏈的發(fā)展逐步解決、趨于完善。(3)人臉識別人臉識別因具有非接觸性、易被人們接受等優(yōu)勢,在個人身份認證中具有廣闊的應(yīng)用前景。傳統(tǒng)基于2D圖像的人臉識別技術(shù),提取到的人臉特征比較有限,并且受光照、姿態(tài)、遮擋、妝容的影響比較大,魯棒性較差,適用場合也受到很大限制。種種制約使得2D人臉識別技術(shù)一直難以推廣,而隨著3D成像技術(shù)的發(fā)展,從3D數(shù)據(jù)模型中提取到的人臉特征,不僅數(shù)量豐富,且受上述干擾因素的影響小,發(fā)展至今,已經(jīng)成為了主流的身份認證方式之一。人臉識別的是實現(xiàn)的步驟分為:數(shù)據(jù)獲取,人臉檢測,特征提取,信息比對。主要的步驟上2D和3D的都是相同的,但在具體的實施方式上3D識別則更加豐富,如圖所示,分別描述了2D和3D人臉識別的流程。人臉識別流程基于3D視覺技術(shù)的人臉識別目前已經(jīng)進入我們?nèi)粘I畹姆椒矫婷?。我國在這方面發(fā)展迅速,有許多成功的案例。比如現(xiàn)在眾多手機廠商都在使用的faceID,在識別速度相近的情況下識別精度是指紋識別的20倍;支付包的人臉支付也在線下得到了極大的推廣,幾乎實現(xiàn)了空手出門即可把東西買回家;??低暋⒋笕A、科大訊飛等國內(nèi)視覺企業(yè)推出了許多相關(guān)產(chǎn)品,將人臉識別推廣到了企業(yè)門禁、交通違章、安防監(jiān)控等領(lǐng)域,很大程度上改善了人們的生活習慣。而隨著深度學習技術(shù)的發(fā)展,3D人臉識別已經(jīng)不僅局限于識別人的身份,甚至可以通過面部表情來判斷人的情緒狀態(tài)。隨著3D人臉識別技術(shù)的發(fā)展與成熟,其也越來越多地應(yīng)用于各行各業(yè)中,成為智慧物聯(lián)的重要組成部分。(4)交互式游戲早在2010年,微軟就推出了第一代的Kinect,作為XBOX360的體感周邊外設(shè),Kinect徹底顛覆了游戲的單一操作,使人機互動的理念更加徹底的展現(xiàn)出來。一經(jīng)發(fā)布便風靡全球,成為至今銷售最快的消費者設(shè)備。Kinect其實是一臺3D數(shù)據(jù)采集設(shè)備,第一代的數(shù)據(jù)采集原理為結(jié)構(gòu)光法,第二代產(chǎn)品增加了TOF原理。它通過捕捉三維空間中玩家姿態(tài)和運動特征,進行實時的分析和處理,從而實現(xiàn)玩家通過手勢、運動等行為特征來控制游戲中的人物。Kinect也是3D視覺技術(shù)應(yīng)用在消費者交互設(shè)備上的第一次嘗試,它帶來了更真實、更豐富的游戲體驗,雖然最初是應(yīng)用在游戲上,但Kinect在三維數(shù)據(jù)采集上的優(yōu)勢,使其被很多科研人員用于3D交互式技術(shù)的研發(fā)。時至今日,VR技術(shù)出現(xiàn)與Kinect這樣的體感設(shè)備結(jié)合,使交互式游戲可以做到真正的身臨其境。同樣,游戲的思路也可以應(yīng)用在影音娛樂方面,比如三星的智能電視、華為智慧屏等,都用上了與Kinect類似的體感設(shè)備,使用戶可以通過動作來實現(xiàn)與多媒體設(shè)備的交互。深度學習神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)的發(fā)展歷史曲折蕩漾,既有被人捧上天的時刻,也有摔落在街頭無人問津的時段,中間經(jīng)歷了數(shù)次大起大落。從單層神經(jīng)網(wǎng)絡(luò)(感知器)開始,到包含一個隱藏層的兩層神經(jīng)網(wǎng)絡(luò),再到多層的深度神經(jīng)網(wǎng)絡(luò),一共有三次興起過程,如圖所示。圖中的頂點與谷底可以看作神經(jīng)網(wǎng)絡(luò)發(fā)展的高峰與低谷。圖中的橫軸是時間,以年為單位??v軸是一個神經(jīng)網(wǎng)絡(luò)影響力的示意表示。如果把1949年Hebb模型提出到1958年的感知機誕生這個10年視為落下(沒有興起)的話,那么神經(jīng)網(wǎng)絡(luò)算是經(jīng)歷了“三起三落”這樣一個過程。神經(jīng)網(wǎng)絡(luò)為什么能這么火熱?簡而言之,就是其學習效果的強大。隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,其表示性能越來越強。從單層神經(jīng)網(wǎng)絡(luò),到兩層神經(jīng)網(wǎng)絡(luò),再到多層神經(jīng)網(wǎng)絡(luò),隨著網(wǎng)絡(luò)層數(shù)的增加,以及激活函數(shù)的調(diào)整,神經(jīng)網(wǎng)絡(luò)所能擬合的決策分界平面的能力。當然,光有強大的內(nèi)在能力,并不一定能成功。一個成功的技術(shù)與方法,不僅需要內(nèi)因的作用,還需要時勢與環(huán)境的配合。神經(jīng)網(wǎng)絡(luò)的發(fā)展背后的外在原因可以被總結(jié)為:更強的計算性能,更多的數(shù)據(jù),以及更好的訓練方法。只有滿足這些條件時,神經(jīng)網(wǎng)絡(luò)的函數(shù)擬合能力才能得已體現(xiàn)。深度神經(jīng)網(wǎng)絡(luò)(DeepNeuralNetworks,以下簡稱DNN)是深度學習的基礎(chǔ)。DNN可以理解為有很多隱藏層的神經(jīng)網(wǎng)絡(luò)。這個很多其實也沒有什么度量標準,多層神經(jīng)網(wǎng)絡(luò)和深度神經(jīng)網(wǎng)絡(luò)DNN其實也是指的一個東西,當然,DNN有時也叫做多層感知機(Multi-Layerperceptron,MLP)。從DNN按不同層的位置劃分,DNN內(nèi)部的神經(jīng)網(wǎng)絡(luò)層可以分為三類,輸入層,隱藏層和輸出層,如圖所示,一般來說第一層是輸入層,最后一層是輸出層,而中間的層數(shù)都是隱藏層。層與層之間是全連接的,也就是說,第i層的任意一個神經(jīng)元一定與第i+1層的任意一個神經(jīng)元相連。雖然DNN看起來很復(fù)雜,但是從小的局部模型來說,還是和感知機一樣。典型深度學習模型(1)卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)(con-volutionalneuralnetwork),是一種專門用來處理具有類似網(wǎng)格結(jié)構(gòu)的數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)。例如圖像數(shù)據(jù)(可以看作是二維的像素網(wǎng)格)和時間序列數(shù)據(jù)(可以認為是在時間軸上有規(guī)律地采樣形成的一維網(wǎng)格)。卷積神經(jīng)網(wǎng)絡(luò)聽起來像是計算機科學、生物學和數(shù)學的詭異組合,但它們在諸多應(yīng)用都表現(xiàn)優(yōu)異,特別是已經(jīng)成為計算機視覺領(lǐng)域中最具影響力的革新的一部分。神經(jīng)網(wǎng)絡(luò)在2012年嶄露頭角,AlexKrizhevsky憑借它們贏得了那一年的ImageNet挑戰(zhàn)賽(大體上相當于計算機視覺的年度奧林匹克),他把分類誤差記錄從26%降到了15%,在當時震驚了世界。自那之后,大量公司開始將深度學習用作服務(wù)的核心。Facebook將神經(jīng)網(wǎng)絡(luò)用于自動標注算法、谷歌將它用于圖片搜索、亞馬遜將它用于商品推薦、Pinterest將它用于個性化主頁推送、Instagram將它用于搜索架構(gòu)。(2)循環(huán)神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrentneuralnetwork)是一類用于處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),就像卷積網(wǎng)絡(luò)是專門用于處理網(wǎng)格化數(shù)據(jù)X(如一個圖像)的神經(jīng)網(wǎng)絡(luò),循環(huán)神經(jīng)網(wǎng)絡(luò)是專門用于處理序列x(1),…,x(n)的神經(jīng)網(wǎng)絡(luò)。RNN是一種強大的技術(shù),如果你使用智能手機或經(jīng)常上網(wǎng),那么你會經(jīng)常使用RNN的應(yīng)用程序。因為循環(huán)神經(jīng)網(wǎng)絡(luò)已經(jīng)被用于語音識別、語言翻譯、股票預(yù)測等等,它甚至用于圖像識別來描述圖片中的內(nèi)容。(3)深度強化學習深度強化學習(DeepQLearning)就是將Q-learning和DeepLearning兩者結(jié)合起來。Q-learning是通過不停地探索和更新Q表中的Q值從而計算出智能體行動的最佳路徑的。深度學習就是用神經(jīng)網(wǎng)絡(luò)來學習數(shù)據(jù),常見的深度學習網(wǎng)絡(luò)如全連接的,CNN,RNN等等。人工智能AlphaGo擊敗圍棋冠軍的新聞受到了廣泛關(guān)注,這個AlphaGo技術(shù)的內(nèi)部也用了深度學習和強化學習,AlphaGo學習了3000萬個專業(yè)棋手的棋譜,并且不停地重復(fù)自己和自己的決戰(zhàn),積累了大量的學習經(jīng)驗。AlphaGo和DQL都是Google的DeepMind公司進行的研究。(4)生成式對抗網(wǎng)絡(luò)生成式對抗網(wǎng)絡(luò)(GenerativeAdversarialNetworks)是一種深度學習模型,是近年來復(fù)雜分布上無監(jiān)督學習最具前景的方法之一。模型通過框架中(至少)兩個模塊:生成模型和判別模型的互相博弈學習產(chǎn)生相當好的輸出。GAN的潛力巨大,因為它們可以學習模仿任何數(shù)據(jù)分布。也就是說,GAN經(jīng)過學習后,可以創(chuàng)造出類似于我們真實世界的一些東西,比如:圖像、音樂、散文等等。從某種意義來說,它們是“機器人藝術(shù)家”,有些確實能夠讓人印象深刻。深度學習典型應(yīng)用深度神經(jīng)網(wǎng)絡(luò)是一種能適應(yīng)新環(huán)境的系統(tǒng),它針對過去經(jīng)驗(信息)的重覆學習,而具有分析、預(yù)測、推理、分類等能力,是當今能夠仿效人類大腦去解決復(fù)雜問題的系統(tǒng),比起常規(guī)的系統(tǒng)(使用統(tǒng)計方法、模式識別、分類、線性或非線性方法)而言,以深度神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的系統(tǒng)具有更強大的功能和分析問題技巧,可以用來解決信號處理、仿真預(yù)測、分析決策等復(fù)雜的問題。目前,深度學習已經(jīng)在各個方向有了非常廣泛的應(yīng)用。(1)計算機視覺典型的計算機視覺應(yīng)用包括目標檢測、語義分割、超分辨率重建、行人重識別。目標檢測(ObjectDetection)是當前計算機視覺和機器學習領(lǐng)域的研究熱點之一,核心任務(wù)是篩選出給定圖像中所有感興趣的目標,確定其位置和大小。其中難點便是遮擋,光照,姿態(tài)等造成的像素級誤差,這是目標檢測所要挑戰(zhàn)和避免的問題?,F(xiàn)如今深度學習中一般通過搭建DNN提取目標特征,利用ROI映射和IoU確定閾值以及區(qū)域建議網(wǎng)絡(luò)RPN統(tǒng)一坐標回歸損失和二分類損失來聯(lián)合訓練。廣泛應(yīng)用于工業(yè)中的瑕疵檢測,標簽識別等。語義分割(SemanticSegmentation)旨在將圖像中的物體作為可解釋的語義類別,該類別將是DNN學習的特征聚類得到。和目標檢測一樣,在深度學習中需要IoU作為評價指標評估設(shè)計的語義分割網(wǎng)絡(luò)。值得注意的是,語義類別對應(yīng)于不同的顏色,生成的結(jié)果需要和原始的標注圖像相比較,較為一致才能算是一個可分辨不同語義信息的網(wǎng)絡(luò)。它的應(yīng)用場景非常廣泛,比如是利用土地的衛(wèi)星影像測量土地覆蓋信息,監(jiān)測地區(qū)的森林砍伐和城市化、道路和建筑物檢測,醫(yī)療影像中病灶的分割(病灶定靶,體積計算用于診斷等,手術(shù)導(dǎo)航,如腫瘤分割)等。超分辨率重建(SuperResolutionConstruction)的主要任務(wù)是通過軟件和硬件的方法,從觀測到的低分辨率圖像重建出高分辨率圖像,這樣的技術(shù)在醫(yī)療影像和視頻編碼通信中十分重要。該領(lǐng)域一般分為單圖像超分和視頻超分,一般在視頻序列中通過該技術(shù)解決丟幀,幀圖像模糊等問題,而在單圖像在中主要為了提升細節(jié)和質(zhì)感。在深度學習中一般采用殘差形式網(wǎng)絡(luò)學習雙二次或雙三次下采樣帶來的精度損失,以提升大圖細節(jié);對于視頻超分一般采用光流或者運動補償來解決幀圖像的重建任務(wù)。行人重識別(PersonRe-identification)也稱行人再識別,是利用計算機視覺技術(shù)判斷圖像或者視頻序列中是否存在特定行人的技術(shù)。其廣泛被認為是一個圖像檢索的子問題。核心任務(wù)是給定一個監(jiān)控行人圖像,檢索跨設(shè)備下的該行人圖像。現(xiàn)如今一般人臉識別和該技術(shù)進行聯(lián)合,用于在人臉識別的輔助以及人臉識別失效(人臉模糊,人臉被遮擋)時發(fā)揮作用。在深度學習中一般通過全局和局部特征提取和以及度量學習對多組行人圖片進行分類和身份查詢。(2)語音識別語音識別(SpeechRecognization)是一門交叉學科,近十幾年進步顯著。除了需要數(shù)字信號處理,模式識別,概率論等理論知識,深度學習的發(fā)展也使其有了很大幅度的效果提升。深度學習中將聲音轉(zhuǎn)化為比特的目的類似于在計算機視覺中處理圖像數(shù)據(jù)一樣,轉(zhuǎn)換為特征向量,與圖像處理不太一樣的是需要對波(聲音的形式)進行采樣,采樣的方式,采樣點的個數(shù)和坐標也是關(guān)鍵信息,然后對這些數(shù)字信息進行處理輸入到網(wǎng)絡(luò)中進行訓練,得到一個可以進行語音識別的模型。語音識別的難點有很多,例如克服發(fā)音音節(jié)相似度高進行精準識別,實時語音轉(zhuǎn)寫等,這就需要很多不同人樣本的聲音作為數(shù)據(jù)集來讓深度網(wǎng)絡(luò)具有更強的泛化性,以及需要設(shè)計的網(wǎng)絡(luò)本身的復(fù)雜程度是否得當?shù)葪l件。語音識別的應(yīng)用場景很多,例如微軟從2012年開始,利用深度學習進行機器翻譯和中文語音合成工作,其人工智能小娜背后就是一套自然語言處理和語音識別的數(shù)據(jù)算法??拼笥嶏w實時語音轉(zhuǎn)寫同樣可以接收來自人類語音信息,將其轉(zhuǎn)化為文字以便進行自然語言處理。(3)自然語言處理自然語言處理(NLP)是計算機科學和人工智能領(lǐng)域的方向之一,研究能實現(xiàn)人與計算機之間用自然語言進行有效通信的各種理論和方法。深度學習由于其非線性的復(fù)雜結(jié)構(gòu),將低維稠密且連續(xù)的向量表示為不同粒度的語言單元,例如詞、短語、句子和文章,讓計算機可以理解通過網(wǎng)絡(luò)模型參與編織的語言,進而使得人類和計算機進行溝通。此外深度學習領(lǐng)域中研究人員使用循環(huán)、卷積、遞歸等神經(jīng)網(wǎng)絡(luò)模型對不同的語言單元向量進行組合,獲得更大語言單元的表示。不同的向量空間擁有的組合越復(fù)雜,計算機越是能處理更加難以理解的語義信息。將人類的文本作為輸入,本身就具有挑戰(zhàn)性,因此得到的自然語言計算機如何處理就更難上加難,而這也是NLP不斷探索的領(lǐng)域。通過深度學習,人們已經(jīng)在AI領(lǐng)域向前邁出一大步,相信人與機器溝通中“信、達、雅”這三個方面終將實現(xiàn)。NLP的應(yīng)用場景非常廣泛,例如:機器翻譯,情感分析,問答系統(tǒng),自動摘要,聊天機器人,文本分類,行業(yè)資訊熱點實時挖掘,用戶留言評論
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2030中國家禽蛋類行業(yè)發(fā)展趨勢分析與未來投資戰(zhàn)略咨詢研究報告
- 2025-2030明礬石行業(yè)專利技術(shù)布局分析與企業(yè)創(chuàng)新競爭力排名研究
- 2025-2030無人機物流配送網(wǎng)絡(luò)布局與經(jīng)濟可行性研究分析報告
- 紅河衛(wèi)生職業(yè)學院《社會體育指導(dǎo)員概論》2024-2025學年第一學期期末試卷
- 2025-2030年中國防護服紡織品行業(yè)市場現(xiàn)狀供需分析及投資評估規(guī)劃分析研究報告
- 四川音樂學院《虛擬交互設(shè)計》2024-2025學年第一學期期末試卷
- 廣州南方學院《植物病蟲害防治實踐》2024-2025學年第一學期期末試卷
- 寧波職業(yè)技術(shù)學院《裝飾材料構(gòu)造與人體工程學》2024-2025學年第一學期期末試卷
- 成都師范學院《軟件工程研究方法》2024-2025學年第一學期期末試卷
- 呼和浩特職業(yè)學院《生物儀器分析及實驗》2024-2025學年第一學期期末試卷
- 小海豚加油站加盟合同范本
- 初中物理實驗教案匯編
- 浙江省消防技術(shù)規(guī)范難點問題操作技術(shù)指南(2020版)
- 武理工水處理生物學課件第11章 污水生物處理系統(tǒng)中的微生物
- 臨床實驗中不良事件的管理
- 如何開展課題研究
- 英語選修4單詞表
- 煉鋼廠電工應(yīng)知應(yīng)會考試題庫500題(含各題型)
- GB/T 3840-1991制定地方大氣污染物排放標準的技術(shù)方法
- 旅游區(qū)獎懲制度管理辦法
- 小學語文人教六年級上冊《童年》整書閱讀課件
評論
0/150
提交評論