機器視覺技術及應用 課件 任務2 深度學習_第1頁
機器視覺技術及應用 課件 任務2 深度學習_第2頁
機器視覺技術及應用 課件 任務2 深度學習_第3頁
機器視覺技術及應用 課件 任務2 深度學習_第4頁
機器視覺技術及應用 課件 任務2 深度學習_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

深度學習神經(jīng)網(wǎng)絡神經(jīng)網(wǎng)絡的發(fā)展歷史曲折蕩漾,既有被人捧上天的時刻,也有摔落在街頭無人問津的時段,中間經(jīng)歷了數(shù)次大起大落。從單層神經(jīng)網(wǎng)絡(感知器)開始,到包含一個隱藏層的兩層神經(jīng)網(wǎng)絡,再到多層的深度神經(jīng)網(wǎng)絡,一共有三次興起過程,如圖所示。圖中的頂點與谷底可以看作神經(jīng)網(wǎng)絡發(fā)展的高峰與低谷。圖中的橫軸是時間,以年為單位??v軸是一個神經(jīng)網(wǎng)絡影響力的示意表示。如果把1949年Hebb模型提出到1958年的感知機誕生這個10年視為落下(沒有興起)的話,那么神經(jīng)網(wǎng)絡算是經(jīng)歷了“三起三落”這樣一個過程。神經(jīng)網(wǎng)絡為什么能這么火熱?簡而言之,就是其學習效果的強大。隨著神經(jīng)網(wǎng)絡的發(fā)展,其表示性能越來越強。從單層神經(jīng)網(wǎng)絡,到兩層神經(jīng)網(wǎng)絡,再到多層神經(jīng)網(wǎng)絡,隨著網(wǎng)絡層數(shù)的增加,以及激活函數(shù)的調(diào)整,神經(jīng)網(wǎng)絡所能擬合的決策分界平面的能力。當然,光有強大的內(nèi)在能力,并不一定能成功。一個成功的技術與方法,不僅需要內(nèi)因的作用,還需要時勢與環(huán)境的配合。神經(jīng)網(wǎng)絡的發(fā)展背后的外在原因可以被總結為:更強的計算性能,更多的數(shù)據(jù),以及更好的訓練方法。只有滿足這些條件時,神經(jīng)網(wǎng)絡的函數(shù)擬合能力才能得已體現(xiàn)。深度神經(jīng)網(wǎng)絡(DeepNeuralNetworks,以下簡稱DNN)是深度學習的基礎。DNN可以理解為有很多隱藏層的神經(jīng)網(wǎng)絡。這個很多其實也沒有什么度量標準,多層神經(jīng)網(wǎng)絡和深度神經(jīng)網(wǎng)絡DNN其實也是指的一個東西,當然,DNN有時也叫做多層感知機(Multi-Layerperceptron,MLP)。從DNN按不同層的位置劃分,DNN內(nèi)部的神經(jīng)網(wǎng)絡層可以分為三類,輸入層,隱藏層和輸出層,如圖所示,一般來說第一層是輸入層,最后一層是輸出層,而中間的層數(shù)都是隱藏層。層與層之間是全連接的,也就是說,第i層的任意一個神經(jīng)元一定與第i+1層的任意一個神經(jīng)元相連。雖然DNN看起來很復雜,但是從小的局部模型來說,還是和感知機一樣。典型深度學習模型(1)卷積神經(jīng)網(wǎng)絡卷積神經(jīng)網(wǎng)絡(con-volutionalneuralnetwork),是一種專門用來處理具有類似網(wǎng)格結構的數(shù)據(jù)的神經(jīng)網(wǎng)絡。例如圖像數(shù)據(jù)(可以看作是二維的像素網(wǎng)格)和時間序列數(shù)據(jù)(可以認為是在時間軸上有規(guī)律地采樣形成的一維網(wǎng)格)。卷積神經(jīng)網(wǎng)絡聽起來像是計算機科學、生物學和數(shù)學的詭異組合,但它們在諸多應用都表現(xiàn)優(yōu)異,特別是已經(jīng)成為計算機視覺領域中最具影響力的革新的一部分。神經(jīng)網(wǎng)絡在2012年嶄露頭角,AlexKrizhevsky憑借它們贏得了那一年的ImageNet挑戰(zhàn)賽(大體上相當于計算機視覺的年度奧林匹克),他把分類誤差記錄從26%降到了15%,在當時震驚了世界。自那之后,大量公司開始將深度學習用作服務的核心。Facebook將神經(jīng)網(wǎng)絡用于自動標注算法、谷歌將它用于圖片搜索、亞馬遜將它用于商品推薦、Pinterest將它用于個性化主頁推送、Instagram將它用于搜索架構。(2)循環(huán)神經(jīng)網(wǎng)絡循環(huán)神經(jīng)網(wǎng)絡(recurrentneuralnetwork)是一類用于處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡,就像卷積網(wǎng)絡是專門用于處理網(wǎng)格化數(shù)據(jù)X(如一個圖像)的神經(jīng)網(wǎng)絡,循環(huán)神經(jīng)網(wǎng)絡是專門用于處理序列x(1),…,x(n)的神經(jīng)網(wǎng)絡。RNN是一種強大的技術,如果你使用智能手機或經(jīng)常上網(wǎng),那么你會經(jīng)常使用RNN的應用程序。因為循環(huán)神經(jīng)網(wǎng)絡已經(jīng)被用于語音識別、語言翻譯、股票預測等等,它甚至用于圖像識別來描述圖片中的內(nèi)容。(3)深度強化學習深度強化學習(DeepQLearning)就是將Q-learning和DeepLearning兩者結合起來。Q-learning是通過不停地探索和更新Q表中的Q值從而計算出智能體行動的最佳路徑的。深度學習就是用神經(jīng)網(wǎng)絡來學習數(shù)據(jù),常見的深度學習網(wǎng)絡如全連接的,CNN,RNN等等。人工智能AlphaGo擊敗圍棋冠軍的新聞受到了廣泛關注,這個AlphaGo技術的內(nèi)部也用了深度學習和強化學習,AlphaGo學習了3000萬個專業(yè)棋手的棋譜,并且不停地重復自己和自己的決戰(zhàn),積累了大量的學習經(jīng)驗。AlphaGo和DQL都是Google的DeepMind公司進行的研究。(4)生成式對抗網(wǎng)絡生成式對抗網(wǎng)絡(GenerativeAdversarialNetworks)是一種深度學習模型,是近年來復雜分布上無監(jiān)督學習最具前景的方法之一。模型通過框架中(至少)兩個模塊:生成模型和判別模型的互相博弈學習產(chǎn)生相當好的輸出。GAN的潛力巨大,因為它們可以學習模仿任何數(shù)據(jù)分布。也就是說,GAN經(jīng)過學習后,可以創(chuàng)造出類似于我們真實世界的一些東西,比如:圖像、音樂、散文等等。從某種意義來說,它們是“機器人藝術家”,有些確實能夠讓人印象深刻。深度學習典型應用深度神經(jīng)網(wǎng)絡是一種能適應新環(huán)境的系統(tǒng),它針對過去經(jīng)驗(信息)的重覆學習,而具有分析、預測、推理、分類等能力,是當今能夠仿效人類大腦去解決復雜問題的系統(tǒng),比起常規(guī)的系統(tǒng)(使用統(tǒng)計方法、模式識別、分類、線性或非線性方法)而言,以深度神經(jīng)網(wǎng)絡為基礎的系統(tǒng)具有更強大的功能和分析問題技巧,可以用來解決信號處理、仿真預測、分析決策等復雜的問題。目前,深度學習已經(jīng)在各個方向有了非常廣泛的應用。(1)計算機視覺典型的計算機視覺應用包括目標檢測、語義分割、超分辨率重建、行人重識別。目標檢測(ObjectDetection)是當前計算機視覺和機器學習領域的研究熱點之一,核心任務是篩選出給定圖像中所有感興趣的目標,確定其位置和大小。其中難點便是遮擋,光照,姿態(tài)等造成的像素級誤差,這是目標檢測所要挑戰(zhàn)和避免的問題?,F(xiàn)如今深度學習中一般通過搭建DNN提取目標特征,利用ROI映射和IoU確定閾值以及區(qū)域建議網(wǎng)絡RPN統(tǒng)一坐標回歸損失和二分類損失來聯(lián)合訓練。廣泛應用于工業(yè)中的瑕疵檢測,標簽識別等。語義分割(SemanticSegmentation)旨在將圖像中的物體作為可解釋的語義類別,該類別將是DNN學習的特征聚類得到。和目標檢測一樣,在深度學習中需要IoU作為評價指標評估設計的語義分割網(wǎng)絡。值得注意的是,語義類別對應于不同的顏色,生成的結果需要和原始的標注圖像相比較,較為一致才能算是一個可分辨不同語義信息的網(wǎng)絡。它的應用場景非常廣泛,比如是利用土地的衛(wèi)星影像測量土地覆蓋信息,監(jiān)測地區(qū)的森林砍伐和城市化、道路和建筑物檢測,醫(yī)療影像中病灶的分割(病灶定靶,體積計算用于診斷等,手術導航,如腫瘤分割)等。超分辨率重建(SuperResolutionConstruction)的主要任務是通過軟件和硬件的方法,從觀測到的低分辨率圖像重建出高分辨率圖像,這樣的技術在醫(yī)療影像和視頻編碼通信中十分重要。該領域一般分為單圖像超分和視頻超分,一般在視頻序列中通過該技術解決丟幀,幀圖像模糊等問題,而在單圖像在中主要為了提升細節(jié)和質感。在深度學習中一般采用殘差形式網(wǎng)絡學習雙二次或雙三次下采樣帶來的精度損失,以提升大圖細節(jié);對于視頻超分一般采用光流或者運動補償來解決幀圖像的重建任務。行人重識別(PersonRe-identification)也稱行人再識別,是利用計算機視覺技術判斷圖像或者視頻序列中是否存在特定行人的技術。其廣泛被認為是一個圖像檢索的子問題。核心任務是給定一個監(jiān)控行人圖像,檢索跨設備下的該行人圖像?,F(xiàn)如今一般人臉識別和該技術進行聯(lián)合,用于在人臉識別的輔助以及人臉識別失效(人臉模糊,人臉被遮擋)時發(fā)揮作用。在深度學習中一般通過全局和局部特征提取和以及度量學習對多組行人圖片進行分類和身份查詢。(2)語音識別語音識別(SpeechRecognization)是一門交叉學科,近十幾年進步顯著。除了需要數(shù)字信號處理,模式識別,概率論等理論知識,深度學習的發(fā)展也使其有了很大幅度的效果提升。深度學習中將聲音轉化為比特的目的類似于在計算機視覺中處理圖像數(shù)據(jù)一樣,轉換為特征向量,與圖像處理不太一樣的是需要對波(聲音的形式)進行采樣,采樣的方式,采樣點的個數(shù)和坐標也是關鍵信息,然后對這些數(shù)字信息進行處理輸入到網(wǎng)絡中進行訓練,得到一個可以進行語音識別的模型。語音識別的難點有很多,例如克服發(fā)音音節(jié)相似度高進行精準識別,實時語音轉寫等,這就需要很多不同人樣本的聲音作為數(shù)據(jù)集來讓深度網(wǎng)絡具有更強的泛化性,以及需要設計的網(wǎng)絡本身的復雜程度是否得當?shù)葪l件。語音識別的應用場景很多,例如微軟從2012年開始,利用深度學習進行機器翻譯和中文語音合成工作,其人工智能小娜背后就是一套自然語言處理和語音識別的數(shù)據(jù)算法??拼笥嶏w實時語音轉寫同樣可以接收來自人類語音信息,將其轉化為文字以便進行自然語言處理。(3)自然語言處理自然語言處理(NLP)是計算機科學和人工智能領域的方向之一,研究能實現(xiàn)人與計算機之間用自然語言進行有效通信的各種理論和方法。深度學習由于其非線性的復雜結構,將低維稠密且連續(xù)的向量表示為不同粒度的語言單元,例如詞、短語、句子和文章,讓計算機可以理解通過網(wǎng)絡模型參與編織的語言,進而使得人類和計算機進行溝通。此外深度學習領域中研究人員使用循環(huán)、卷積、遞歸等神經(jīng)網(wǎng)絡模型對不同的語言單元向量進行組合,獲得更大語言單元的表示。不同的向量空間擁有的組合越復雜,計算機越是能處理更加難以理解的語義信息。將人類的文本作為輸入,本身就具有挑戰(zhàn)性,因此得到的自然語言計算機如何處理就更難上加難,而這也是NLP不斷探索的領域。通過深度學習,人們已經(jīng)在AI領域向前邁出一大步,相信人與機器溝通中“信、達、雅”這三個方面終將實現(xiàn)。NLP的應用場景非常廣泛,例如:機器翻譯,情感分析,問答系統(tǒng),自動摘要,聊天機器人,文本分類,行業(yè)資訊熱點實時挖掘,用戶留言評論熱點分析,客戶投訴電話語音分析等。(4)深度推薦系統(tǒng)信息技術部門中機器學習的主要應用之一是向潛在用戶或客戶推薦項目。這可以分為兩種主要的應用:在線廣告和項目建議(通常這些建議的目的仍然是為了銷售產(chǎn)品)。兩者都依賴于預測用戶和項目之間的關聯(lián),一旦向該用戶展示了廣告或推薦了該產(chǎn)品,推薦系統(tǒng)要么預測一些行為的概率(用戶購買產(chǎn)品或該行為的一些代替)或預期增益(其可取決于產(chǎn)品的價值)。推薦系統(tǒng)的應用場景也很廣泛,例如猜你喜歡、推薦歌單、推薦路線、熱搜榜單、美食推薦、頭條推薦,智能套餐個性化匹配,供應鏈需求預測等等這些都是推薦系統(tǒng)的輸出內(nèi)容。深度學習發(fā)展趨勢(1)量子計算回到我們對神經(jīng)網(wǎng)絡歷史的討論,根據(jù)歷史趨勢圖來看,神經(jīng)網(wǎng)絡以及深度學習會不會像以往一樣再次陷入谷底?這個過程可能取決于量子計算機的發(fā)展。根據(jù)一些最近的研究發(fā)現(xiàn),人腦內(nèi)部進行的計算可能是類似于量子計算形態(tài)的東西。而且目前已知的最大神經(jīng)網(wǎng)絡跟人腦的神經(jīng)元數(shù)量相比,仍然顯得非常小,僅不及1%左右。所以未來真正想實現(xiàn)人腦神經(jīng)網(wǎng)絡的模擬,可能需要借助量子計算的強大計算能力。各大研究組也已經(jīng)認識到了量子計算的重要性。谷歌就在開展量子計算機D-wave的研究,希望用量子計算來進行機器學習,并且在前段時間有了突破性的進展。國內(nèi)方面,阿里和中科院合作成立了量子計算實驗室,意圖進行量子計算的研究。如果量子計算發(fā)展不力,仍然需要數(shù)十年才能使我們的計算能力得以突飛猛進的發(fā)展,那么缺少了強大計算能力的神經(jīng)網(wǎng)絡可能會無法一帆風順的發(fā)展下去。這種情況可以類比為80-90年時期神經(jīng)網(wǎng)絡因為計算能力的限制而被低估與忽視。假設量子計算機真的能夠與神經(jīng)網(wǎng)絡結合,并且助力真正的人工智能技術的誕生,而且量子計算機發(fā)展需要10年的話,那么神經(jīng)網(wǎng)絡可能還有10年的發(fā)展期。直到那時期以后,神經(jīng)網(wǎng)絡才能真正接近實現(xiàn)AI這一目標。(2)人工智能雖然現(xiàn)在人工智能非?;馃幔蔷嚯x真正的人工智能還有很大的距離。就拿計算機視覺方向來說,面對稍微復雜一些的場景,以及易于混淆的圖像,計算機就可能難以識別。因此,這個方向還有很多的工作要做。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論