




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第1章引論1.1模式識(shí)別及模式識(shí)別系統(tǒng)1.2模式識(shí)別的基本方法1.3模式識(shí)別的一些基本準(zhǔn)則1.4模式識(shí)別的應(yīng)用
在日常生活中,我們能夠輕而易舉地識(shí)別出蘋果和香蕉;能認(rèn)出對(duì)面的人是張三還是李四;能從口袋里摸出鑰匙;聞到氣味,能區(qū)分出是汽油還是油漆;聽(tīng)到聲音,能辨識(shí)出是貓叫還是狗吠等。實(shí)際上,這些行為都是人類在進(jìn)行模式識(shí)別。為了具備這種能力,在過(guò)去的幾千萬(wàn)年里,人類進(jìn)化出了高度復(fù)雜的神經(jīng)和認(rèn)知系統(tǒng)。然而,人們對(duì)于自己所具有的模式識(shí)別能力見(jiàn)慣不驚,沒(méi)有注意到模式識(shí)別是一個(gè)值得研究的問(wèn)題。伴隨著20世紀(jì)40年代計(jì)算機(jī)的出現(xiàn)和50年代人工智能的興起,人們開(kāi)始嘗試使用計(jì)算機(jī)來(lái)代替或擴(kuò)展人類的部分腦力勞動(dòng)。隨后,(計(jì)算機(jī))模式識(shí)別得到迅速發(fā)展,并在20世紀(jì)60年代初迅速發(fā)展成為一門新的學(xué)科領(lǐng)域。至今,它所研究的理論和方法在很多領(lǐng)域得到了廣泛的應(yīng)用,涉及生活中的方方面面。本章首先討論模式識(shí)別的基本概念和模式識(shí)別系統(tǒng)的構(gòu)成,然后介紹模式識(shí)別的基本方法,接著討論模式識(shí)別中的主要問(wèn)題,最后探討模式識(shí)別的應(yīng)用。
1.1模式識(shí)別及模式識(shí)別系統(tǒng)
1.1.1模式識(shí)別的基本概念
“模式”一詞的英文“Pattern”源于法文“Patron”,本來(lái)是指可作為大家典范的理想的人,或用以模仿復(fù)制的完美的樣品。模式識(shí)別是包括人類在內(nèi)的生物體的一項(xiàng)基本智能。對(duì)于模式和模式識(shí)別,有“廣義”和“狹義”兩種解釋。廣義地說(shuō),存在于時(shí)間和空間中可觀察的事物,如果可以區(qū)別它們是否相同或相似,都可以稱之為模式。此時(shí),模式識(shí)別是生物體(包括人)的基本活動(dòng),與感覺(jué)、記憶、學(xué)習(xí)、思維等心理過(guò)程緊密聯(lián)系,是透視人類心理活動(dòng)的重要窗口之一。從這個(gè)角度講,模式識(shí)別是研究生物體如何感知對(duì)象的學(xué)科,屬于認(rèn)識(shí)科學(xué)的范疇,是生理學(xué)家、心理學(xué)家、生物學(xué)家和神經(jīng)生理學(xué)家的研究?jī)?nèi)容,常被稱做認(rèn)知模式識(shí)別。具體來(lái)說(shuō),它是指人們把接收到的有關(guān)客觀事物或人的刺激信息與他在大腦里已有的知識(shí)結(jié)構(gòu)中有關(guān)單元的信息進(jìn)行比較和匹配,從而辨認(rèn)和確定該刺激信息意義的過(guò)程。正是通過(guò)認(rèn)知模式識(shí)別,我們才能認(rèn)識(shí)世界,才能辨別出各個(gè)物體之間的差別,才能更好地學(xué)習(xí)和生活。
狹義地說(shuō),模式是為了能讓計(jì)算機(jī)執(zhí)行和完成分類識(shí)別任務(wù),通過(guò)對(duì)具體的個(gè)別事物進(jìn)行觀測(cè)所得到的具有時(shí)間和空間分布的信息。把模式所屬的類別或同一類中模式的總體稱為模式類(或簡(jiǎn)稱為類)。計(jì)算機(jī)模式識(shí)別就是指根據(jù)待識(shí)別對(duì)象的特征或?qū)傩?,利用以?jì)算機(jī)為中心的機(jī)器系統(tǒng),運(yùn)用一定的分析算法確定對(duì)象的類別的學(xué)科,是數(shù)學(xué)家、信息學(xué)專家和計(jì)算機(jī)專家的研究?jī)?nèi)容。
因此,模式識(shí)別的研究主要集中在認(rèn)知模式識(shí)別和計(jì)算機(jī)模式識(shí)別這兩個(gè)方面。下面分別對(duì)這兩方面內(nèi)容進(jìn)行詳細(xì)介紹。1.1.2認(rèn)知模式識(shí)別
認(rèn)知模式識(shí)別是認(rèn)知心理學(xué)研究領(lǐng)域中的核心問(wèn)題之一,是人的一種基本的認(rèn)知能力或智能,在人的各種活動(dòng)中都有重要的作用。模式識(shí)別可看做一個(gè)典型的知覺(jué)過(guò)程,它依賴于人已有的知識(shí)和經(jīng)驗(yàn)。模式識(shí)別過(guò)程主要經(jīng)歷分析、比較和決策三個(gè)階段。一般說(shuō)來(lái),模式識(shí)別過(guò)程是將感覺(jué)信息與長(zhǎng)時(shí)記憶中的有關(guān)信息進(jìn)行比較,再?zèng)Q定它與哪個(gè)長(zhǎng)時(shí)記憶中的項(xiàng)目有著最佳匹配的過(guò)程。
在認(rèn)知心理學(xué)中,匹配過(guò)程可以采用模板匹配理論、原型匹配理論、特征匹配理論和結(jié)構(gòu)優(yōu)勢(shì)描述理論來(lái)實(shí)現(xiàn)。
1.模板匹配理論
模板匹配理論是模式識(shí)別的最簡(jiǎn)單的一種理論假設(shè),最早是針對(duì)計(jì)算機(jī)的模式識(shí)別而提出來(lái)的,后來(lái)被用來(lái)解釋人類的模式識(shí)別過(guò)程。它的核心思想是,人的長(zhǎng)時(shí)記憶中的編碼信息存儲(chǔ)著各式各樣的來(lái)自個(gè)體過(guò)去經(jīng)歷的各種外部模式的拷貝或復(fù)本,即模板,它們與外部的刺激模式存在著一一對(duì)應(yīng)的關(guān)系。當(dāng)一個(gè)刺激作用于人的感覺(jué)器官時(shí),刺激信息得到編碼并與頭腦中所存儲(chǔ)的模板進(jìn)行比較和匹配,然后確定哪一個(gè)模板與刺激信息最為吻合,就把該刺激信息確認(rèn)為是與頭腦中的某個(gè)模板相同,即產(chǎn)生模式識(shí)別效應(yīng),反之則不能被辨別與認(rèn)識(shí)??梢?jiàn),模式識(shí)別是刺激信息與腦中某個(gè)或某些模板產(chǎn)生最佳匹配的過(guò)程。
該理論的基本觀點(diǎn)是刺激信息與腦中模板的最佳匹配,而且這種匹配要求兩者具有最大相似的重疊。該理論假設(shè)個(gè)體在長(zhǎng)時(shí)記憶中存儲(chǔ)有大量的,甚至是無(wú)窮的相應(yīng)的特定模板,否則就不能得到模式識(shí)別或發(fā)生錯(cuò)誤的模式識(shí)別。如果要得到正確的模式識(shí)別,就需要在人的長(zhǎng)時(shí)記憶中存儲(chǔ)不計(jì)其數(shù)的模板,但這就會(huì)極大地增加人的記憶負(fù)擔(dān),這與人在模式識(shí)別過(guò)程中所表現(xiàn)出來(lái)的高度靈活性是不一致的。有兩種改進(jìn)方法可以彌補(bǔ)該理論的不足:一是假設(shè)每一個(gè)模式要由幾個(gè)模板來(lái)表征,這樣模式識(shí)別就有了更大的靈活性,但是,這樣就與模板匹配的理論假設(shè)相異了。二是假設(shè)刺激信息在與模板匹配之前,刺激信息需要先進(jìn)行標(biāo)準(zhǔn)化過(guò)程,通過(guò)改變刺激信息的某些原始特征,使它與長(zhǎng)時(shí)記憶中模板的標(biāo)準(zhǔn)大小和標(biāo)準(zhǔn)方位等相似,以此來(lái)達(dá)到模式識(shí)別的目的。模板匹配理論雖然得到來(lái)自實(shí)驗(yàn)與應(yīng)用兩個(gè)方面的支持,但是不容回避的是,它仍然存在著明顯的不足與局限。首先,人的長(zhǎng)時(shí)記憶需要存儲(chǔ)無(wú)數(shù)個(gè)模板,這既會(huì)給記憶帶來(lái)沉重的負(fù)擔(dān),也會(huì)使人在識(shí)別事物時(shí)缺少靈活性。其次,無(wú)法解釋人為何有時(shí)能夠非常迅速地識(shí)別一個(gè)新的、不熟悉的事物的這種常見(jiàn)情況。第三,沒(méi)有說(shuō)明模板匹配的信息編碼形式,即外部刺激模式與腦中模板的比較是平行加工還是系列加工的;是從事物的局部特征開(kāi)始的,還是從事物的整體特征開(kāi)始的。這些問(wèn)題都與知覺(jué)活動(dòng)過(guò)程和知識(shí)表征有關(guān)。
2.原型匹配理論
原型匹配理論是針對(duì)模板匹配理論的不足而提出的模式識(shí)別理論假說(shuō)。原型匹配理論認(rèn)為,在人的長(zhǎng)時(shí)記憶中存儲(chǔ)著的不是與外部事物模式一一對(duì)應(yīng)的模板,而是事物的某種“原型”。原型是指一類客觀事物的抽象物,是一類客觀事物所共有的關(guān)鍵性特征。由于原型是一種概括化了的內(nèi)部表征,因此它們并不要求與外部刺激信息嚴(yán)格匹配,只需近似匹配即可。一旦外部刺激信息與人腦中的某個(gè)原型有最近似的匹配,就可以把它納入這一原型所概括的范疇內(nèi)得到識(shí)別。如果幾個(gè)外部刺激信息同屬于一個(gè)類別或范疇,即使它們之間可能在形狀、大小、高低等方面存在著差異,也可以通過(guò)與人腦中原型的匹配得到準(zhǔn)確識(shí)別。這樣,不僅能夠大大減輕記憶負(fù)擔(dān),也能夠使人的模式識(shí)別活動(dòng)更加靈活,從而能夠更好地適應(yīng)錯(cuò)綜復(fù)雜的環(huán)境變化與外部的刺激信息。
M.I.Posner和J.D.Keele用實(shí)驗(yàn)支持了模式識(shí)別的原型匹配理論。這些實(shí)驗(yàn)結(jié)果證實(shí)了人腦中原型的存在以及原型在模式識(shí)別中的重要作用。在類似研究的基礎(chǔ)上,S.K.Reed提出了一個(gè)原型匹配的模式識(shí)別模型,原型匹配模型在一定程度上還能夠容納模板匹配理論。因此,原型匹配模型顯得比較靈活、富有彈性。但是,不足的是,原型匹配模型只具有自下而上的加工過(guò)程,而沒(méi)有自上而下的加工過(guò)程。其實(shí),在人的知覺(jué)過(guò)程中,自上而下的加工過(guò)程有時(shí)更加重要。
3.特征匹配理論
模式或事物是由若干個(gè)元素或特征按照一定的關(guān)系組合在一起構(gòu)成的。因此,要識(shí)別事物或模式,就可以分析它們的基本特征。任何模式都可以被分解為諸多特征或?qū)傩裕J阶R(shí)別就是通過(guò)對(duì)刺激信息特征進(jìn)行分析,然后與其存儲(chǔ)在長(zhǎng)時(shí)記憶中的模式相比較后,決定與哪個(gè)模式進(jìn)行匹配的過(guò)程。
特征匹配理論提出,各種模式在長(zhǎng)時(shí)記憶系統(tǒng)中的編碼,既不是具體事物的模板,也不是某類事物的原型,而是該模式所具有的基本特征和基本屬性的存儲(chǔ)。模式識(shí)別的特征匹配理論及其模型,目前備受認(rèn)知心理學(xué)的重視,它也在計(jì)算機(jī)的模式識(shí)別中得到了應(yīng)用。與其他模式識(shí)別模型相比,它能更加靈活有效地解釋人的模式識(shí)別過(guò)程。特征匹配理論僅對(duì)刺激信息的部分特征識(shí)別過(guò)程作出解釋,即它只關(guān)心自下而上的加工部分,卻忽略了基于背景信息和主觀期待的自上而下的加工過(guò)程。
4.結(jié)構(gòu)優(yōu)勢(shì)描述理論
在對(duì)刺激信息的知覺(jué)過(guò)程中,人的經(jīng)驗(yàn)起著很重要的作用。由于刺激模式不是孤立地出現(xiàn)的,它們總是處于與其他模式或其他模式屬性的聯(lián)系中,為此在模式識(shí)別過(guò)程中,這種自上而下的加工作用隨著模式識(shí)別研究的深入而日益受到重視。
1996年,Bruce等人提出了結(jié)構(gòu)優(yōu)勢(shì)描述理論。結(jié)構(gòu)描述理論認(rèn)為,結(jié)構(gòu)是由“一些描述特定構(gòu)成的命題組成的,這些命題是象征性的,雖然用詞匯來(lái)描述它們,但是它卻不是語(yǔ)言的”。為此,Marr和Biederrman提出了很有影響的計(jì)算理論,即“馬爾計(jì)算理論”。結(jié)構(gòu)描述的優(yōu)點(diǎn)是它關(guān)注刺激信息中的最重要的部分。但是,這個(gè)模式識(shí)別理論忽視了情境信息對(duì)知覺(jué)過(guò)程的重要影響。同時(shí),在對(duì)模式識(shí)別時(shí)的精細(xì)區(qū)分與辨別方面,認(rèn)知心理學(xué)家們?nèi)匀淮嬖谥煌目捶ā?.1.3計(jì)算機(jī)模式識(shí)別
早期的計(jì)算機(jī)模式識(shí)別將研究重點(diǎn)放在模型的建立上。20世紀(jì)50年代末,F(xiàn).Rosenblatt提出了一種簡(jiǎn)化的模擬人腦進(jìn)行識(shí)別的數(shù)學(xué)模型——感知機(jī),初步實(shí)現(xiàn)了通過(guò)給定類別的各個(gè)樣本對(duì)識(shí)別系統(tǒng)進(jìn)行訓(xùn)練,使系統(tǒng)在學(xué)習(xí)完畢后具有對(duì)其他未知類別的模式進(jìn)行正確分類的能力。20世紀(jì)60年代,用統(tǒng)計(jì)決策理論求解模式識(shí)別問(wèn)題的研究得到了迅速的發(fā)展。20世紀(jì)70年代前后出版了一系列反映統(tǒng)計(jì)模式識(shí)別理論和方法的專著。1962年,R.Narasimahan提出了一種基于基元關(guān)系的句法識(shí)別方法,美籍華人傅京孫在這個(gè)領(lǐng)域進(jìn)行了卓有成效的工作,形成了句法模式識(shí)別的系統(tǒng)理論。20世紀(jì)80年代,J.J.Hopfield深刻揭示了人工神經(jīng)元網(wǎng)絡(luò)所具有的聯(lián)想存儲(chǔ)和計(jì)算能力,為模式識(shí)別技術(shù)提出了一種新的途徑,短短幾年在很多方面取得了顯著成果,從而形成了模式識(shí)別的人工神經(jīng)元網(wǎng)絡(luò)方法。
一個(gè)功能完善的計(jì)算機(jī)模式識(shí)別系統(tǒng)除了具有分類識(shí)別過(guò)程外,通常還應(yīng)該具有學(xué)習(xí)過(guò)程。圖1.1給出了一個(gè)模式識(shí)別系統(tǒng)的原理框圖,虛線的上部是分類識(shí)別過(guò)程,虛線的下部是學(xué)習(xí)過(guò)程。學(xué)習(xí)階段是對(duì)樣本進(jìn)行特征選擇,尋找分類的規(guī)律;實(shí)現(xiàn)(分類識(shí)別)階段則是根據(jù)分類規(guī)律對(duì)未知樣本集進(jìn)行分類和識(shí)別。數(shù)據(jù)的采集及預(yù)處理、特征提取和選擇、學(xué)習(xí)和訓(xùn)練、分類識(shí)別是任何模式識(shí)別系統(tǒng)中都具有的主要環(huán)節(jié)。
圖1.1模式識(shí)別系統(tǒng)的原理框圖
1.數(shù)據(jù)采集及預(yù)處理
數(shù)據(jù)采集及預(yù)處理是指通過(guò)各種傳感器把被研究對(duì)象的各種物理變量轉(zhuǎn)換為計(jì)算機(jī)可以接受的數(shù)值或符號(hào)(串)集合。習(xí)慣上,稱這種數(shù)值或符號(hào)(串)所組成的空間為模式空間。
2.特征提取和選擇
在進(jìn)行分類識(shí)別和訓(xùn)練學(xué)習(xí)之前,首先需要對(duì)待識(shí)別對(duì)象的本質(zhì)特征和重要屬性進(jìn)行測(cè)量,從而獲得描述對(duì)象的模式,這個(gè)過(guò)程稱為特征提取。然而,能描述對(duì)象的特征或?qū)傩缘姆N類有很多。實(shí)際上,對(duì)于某些分類算法來(lái)說(shuō),并不是特征越多越有益于分類,過(guò)多的特征會(huì)降低算法運(yùn)行的可行性。同時(shí),為了節(jié)省計(jì)算機(jī)存儲(chǔ)空間、算法運(yùn)行時(shí)間和特征提取的費(fèi)用,在滿足一定的分類識(shí)別正確率的前提下,也需要按照某種準(zhǔn)則選用對(duì)分類識(shí)別作用較大的特征來(lái)完成分類識(shí)別任務(wù),這個(gè)過(guò)程就稱為特征選擇。需要指出的是,特征提取和選擇依賴于具體問(wèn)題和具體領(lǐng)域,需要在相應(yīng)領(lǐng)域知識(shí)的指導(dǎo)下完成。
3.學(xué)習(xí)和訓(xùn)練
在日常生活和工作中,人們?cè)絹?lái)越依賴計(jì)算機(jī),幾乎認(rèn)為計(jì)算機(jī)無(wú)所不能,甚至把計(jì)算機(jī)稱為電腦。但與人腦相比,電腦是小巫見(jiàn)大巫,這不僅僅在于人腦約有1011~1012個(gè)神經(jīng)元,更在于每個(gè)神經(jīng)元約有103~104個(gè)突觸,即一個(gè)神經(jīng)元可以通過(guò)突觸與8000個(gè)其他神經(jīng)元交換信息,當(dāng)生物電流通過(guò)某一突觸時(shí),神經(jīng)元就將信息傳遞給下一個(gè)神經(jīng)元。所以,人腦有極其豐富的聯(lián)想、判別與推理能力。計(jì)算機(jī)的聯(lián)想、判別等能力與人腦相差甚遠(yuǎn),特別是在對(duì)外界信息的感知能力方面更遠(yuǎn)不如人腦。為了使計(jì)算機(jī)如同人一樣具有分類識(shí)別能力,需要對(duì)機(jī)器進(jìn)行訓(xùn)練。首先將人類的識(shí)別知識(shí)和方法以及分類識(shí)別對(duì)象的信息輸入到計(jì)算機(jī)中,產(chǎn)生分類識(shí)別的規(guī)則和程序,這個(gè)過(guò)程就是機(jī)器學(xué)習(xí)的過(guò)程。該過(guò)程要反復(fù)進(jìn)行多次,不斷地修正和改進(jìn),最后使系統(tǒng)的正確識(shí)別率達(dá)到規(guī)定要求。目前,機(jī)器學(xué)習(xí)通常需要人為干預(yù)。
4.分類識(shí)別
學(xué)習(xí)訓(xùn)練結(jié)束之后,產(chǎn)生的分類識(shí)別規(guī)則和程序用來(lái)對(duì)未知類別對(duì)象進(jìn)行分類識(shí)別。很明顯,輸入機(jī)器的人類識(shí)別知識(shí)和有關(guān)分類識(shí)別對(duì)象的信息越充分,機(jī)器中的知識(shí)與待識(shí)別對(duì)象越匹配,知識(shí)的運(yùn)用就越合理,系統(tǒng)的識(shí)別能力就越強(qiáng),獲得的識(shí)別率就越高。
針對(duì)不同的應(yīng)用目的,上述四部分的內(nèi)容可以有很大的差別,特別是在數(shù)據(jù)處理和識(shí)別部分,為了提高識(shí)別結(jié)果的可靠性,往往需要加入規(guī)則以對(duì)可能產(chǎn)生的錯(cuò)誤進(jìn)行修正,或通過(guò)引入限制條件大大縮小待識(shí)別模式在模型庫(kù)中的搜索空間,以減少匹配計(jì)算量。在一個(gè)模式識(shí)別系統(tǒng)的學(xué)習(xí)階段,需要在一個(gè)樣本集上進(jìn)行學(xué)習(xí)或訓(xùn)練。此訓(xùn)練集是非常關(guān)鍵的,訓(xùn)練的數(shù)據(jù)量要足夠大而且要足夠典型,這樣才能保證算法的可靠性。訓(xùn)練集的選取和應(yīng)用需注意以下幾點(diǎn):訓(xùn)練樣本的個(gè)數(shù)應(yīng)該10倍于特性數(shù)據(jù)維數(shù);相對(duì)于訓(xùn)練樣本,分類器的未知參數(shù)不能過(guò)多;分類器不能出現(xiàn)過(guò)度訓(xùn)練的問(wèn)題。
1961年,Bellman首先提出維數(shù)災(zāi)難問(wèn)題,他指出,估計(jì)一個(gè)變量函數(shù)所需要的樣本采樣點(diǎn)數(shù)會(huì)隨著變量個(gè)數(shù)的增加呈指數(shù)增長(zhǎng)。在模式識(shí)別領(lǐng)域,為了提高分類識(shí)別的正確率,人們通常需要采集數(shù)量巨大的原始特征,使得原始特征空間或輸入空間的維數(shù)高達(dá)幾千維或幾萬(wàn)維。對(duì)高維樣本數(shù)據(jù)進(jìn)行處理時(shí),需要的樣本點(diǎn)數(shù)很多,而實(shí)際中可以利用的樣本點(diǎn)數(shù)相對(duì)樣本維數(shù)來(lái)說(shuō)卻少得多,這就是模式識(shí)別領(lǐng)域中的維數(shù)災(zāi)難。維數(shù)災(zāi)難給模式識(shí)別帶來(lái)了兩個(gè)方面的重要影響:一是使得很多在低維空間具有良好性能的分類算法在計(jì)算上變得不可行;二是在訓(xùn)練樣本數(shù)量一定的前提下,特征維數(shù)的增加使得樣本統(tǒng)計(jì)特性的估計(jì)變得更加困難,從而降低了分類器的泛化能力,出現(xiàn)“過(guò)學(xué)習(xí)”或“過(guò)訓(xùn)練”的現(xiàn)象。特征降維是解決維數(shù)災(zāi)難問(wèn)題的有效手段之一,它通過(guò)對(duì)高維數(shù)據(jù)的分析來(lái)尋找嵌入在高維數(shù)據(jù)空間中的本征低維結(jié)構(gòu),以達(dá)到數(shù)據(jù)降維的目的。在很多模式識(shí)別領(lǐng)域中,人們都用到了特征降維技術(shù)。下面以人臉識(shí)別為例說(shuō)明特征降維在模式識(shí)別中的作用。人臉識(shí)別是利用人的臉部特征進(jìn)行身份鑒定的生物特征識(shí)別技術(shù),它是典型需要特征降維的模式識(shí)別應(yīng)用技術(shù)。人臉識(shí)別需要處理的對(duì)象是二維或者高維數(shù)據(jù),灰度人臉圖像是二維數(shù)據(jù),彩色人臉圖像則是三維數(shù)據(jù)。人們?cè)谌四樧R(shí)別中通常要把二維或者高維數(shù)據(jù)轉(zhuǎn)變成一維的向量數(shù)據(jù),然后再進(jìn)行后續(xù)處理。然而,把二維或高維數(shù)據(jù)轉(zhuǎn)變成一維數(shù)據(jù)后,數(shù)據(jù)維數(shù)會(huì)變得非常大,例如一個(gè)128×128的灰度人臉圖像,轉(zhuǎn)變成一維數(shù)據(jù)后是16384維,這就出現(xiàn)了維數(shù)災(zāi)難問(wèn)題。因此,為了進(jìn)行分類器設(shè)計(jì),需要把圖像從測(cè)量空間變換到維數(shù)大大減少的特征空間,使得人臉圖像在這個(gè)特征空間中可以由一個(gè)特征向量有效表示,進(jìn)而使得計(jì)算機(jī)可以對(duì)其進(jìn)行高效處理。在圖1.2中,應(yīng)用某種降維算法將灰度人臉圖像通過(guò)降維處理,嵌入到了一個(gè)二維特征空間,橫軸反映面部表情的變化,縱軸反映頭部角度的變化。可以看出,該特征空間可以有效刻畫人臉圖像的本質(zhì)特征,為后續(xù)的分類識(shí)別提供了很大的方便。
除非特別聲明,下面凡是提到模式識(shí)別,均指計(jì)算機(jī)模式識(shí)別。圖1.2人臉識(shí)別中的特征降維
1.2模式識(shí)別的基本方法
分類識(shí)別是人類時(shí)時(shí)刻刻都在進(jìn)行的活動(dòng),人們希望機(jī)器能代替人類進(jìn)行分類識(shí)別工作。因此,對(duì)于模式識(shí)別的研究引起了人們極大的興趣。模式識(shí)別伴隨著計(jì)算機(jī)的研究和應(yīng)用日益發(fā)展起來(lái),其應(yīng)用領(lǐng)域涉及社會(huì)生活的各個(gè)方面,而且還在不斷發(fā)展擴(kuò)大。目前,模式識(shí)別已經(jīng)發(fā)展成一門多學(xué)科的交叉學(xué)科,涉及數(shù)學(xué)、計(jì)算機(jī)科學(xué)、神經(jīng)心理學(xué)、信息論、控制論、信號(hào)處理等。根據(jù)是否利用已知類別的訓(xùn)練樣本,可將模式識(shí)別分為監(jiān)督模式識(shí)別和非監(jiān)督模式識(shí)別。對(duì)于不同的分類對(duì)象和不同的分類目的,可以采用不同的模式識(shí)別方法。根據(jù)采用的模式識(shí)別方法,可將模式識(shí)別分為統(tǒng)計(jì)模式識(shí)別、結(jié)構(gòu)模式識(shí)別、模糊模式識(shí)別、神經(jīng)網(wǎng)絡(luò)模式識(shí)別等。本節(jié)簡(jiǎn)要介紹這些基本的模式識(shí)別方法。
1.2.1統(tǒng)計(jì)模式識(shí)別
統(tǒng)計(jì)模式識(shí)別方法是應(yīng)用最廣泛的一類模式識(shí)別方法。從本質(zhì)上說(shuō),該類方法都是利用各個(gè)類的概率密度函數(shù)、后驗(yàn)概率等概念進(jìn)行分類識(shí)別的。其中,聚類分析法、最近鄰法、判別域代數(shù)界面法和統(tǒng)計(jì)決策法是最經(jīng)典的四種統(tǒng)計(jì)模式識(shí)別方法。
聚類分析法的基本思想是利用模式之間的相似性進(jìn)行分類,相似的模式歸為一類,不相似的模式歸入不同類。需要指出的是,聚類算法看似沒(méi)有利用概率密度函數(shù)等概念,其實(shí)不然。在分類過(guò)程中,算法不斷地計(jì)算各個(gè)聚類的中心,并將模式與各個(gè)聚類中心的距離作為分類的依據(jù),這實(shí)際上是在隱含地利用概率分布的思想,因?yàn)樵谝话愕母怕拭芏群瘮?shù)下,距離期望值較近的點(diǎn)具有較大的概率密度值。
最近鄰法是根據(jù)待識(shí)別模式的一個(gè)或k個(gè)近鄰訓(xùn)練樣本的類別來(lái)確定其類別的方法。實(shí)際上k-近鄰法是利用最大后驗(yàn)概率準(zhǔn)則進(jìn)行分類判決的。判別域代數(shù)界面法首先利用已知類別的訓(xùn)練樣本產(chǎn)生判別函數(shù),然后根據(jù)待識(shí)別模式代入判別函數(shù)后的值的正負(fù)確定其類別。判別函數(shù)產(chǎn)生了相鄰兩類的判別界面,其對(duì)應(yīng)于兩類概率函數(shù)之差。
統(tǒng)計(jì)決策法是在一些分類識(shí)別準(zhǔn)則下,按照概率統(tǒng)計(jì)理論產(chǎn)生各種判別準(zhǔn)則,然后利用這些判別準(zhǔn)則生成最終的分類識(shí)別結(jié)果。1.2.2結(jié)構(gòu)模式識(shí)別
對(duì)于具有復(fù)雜結(jié)構(gòu)特征的對(duì)象,僅用一些數(shù)值特征已不能對(duì)其進(jìn)行充分描述,這時(shí)需要采用結(jié)構(gòu)模式識(shí)別方法。該方法首先將對(duì)象分解為若干基本單元(稱為基元),然后利用這些基元和它們之間的結(jié)構(gòu)關(guān)系來(lái)描述對(duì)象。
在結(jié)構(gòu)模式識(shí)別方法中,基元以及基元之間的結(jié)構(gòu)關(guān)系采用圖或字符串來(lái)表示,這些圖或字符串稱為形式語(yǔ)言的句子,然后根據(jù)代表類的文法運(yùn)用形式語(yǔ)言理論和技術(shù)對(duì)句子進(jìn)行句法分析,根據(jù)其是否符合某一類的文法來(lái)確定其類別。因此,結(jié)構(gòu)模式識(shí)別又稱為句法模式識(shí)別。1.2.3模糊模式識(shí)別
在傳統(tǒng)的集合論中,元素和集合是要么屬于、要么不屬于的關(guān)系,兩者必居其一,而且二者僅居其一。在模糊集合論中,元素是以一定的程度(隸屬度)屬于某一個(gè)模糊集合,也可以屬于多個(gè)模糊集合。模糊集合主要用來(lái)描述不精確的、模糊的概念。模糊數(shù)學(xué)就是建立在模糊集合基礎(chǔ)之上的數(shù)學(xué)分支。模糊模式識(shí)別是利用模糊數(shù)學(xué)的理論和方法來(lái)分析和解決模式識(shí)別問(wèn)題,其基本思想是首先將模式類看成模糊集合,將模式的屬性轉(zhuǎn)化為對(duì)于模糊集合的隸屬程度,然后利用隸屬函數(shù)、模糊推理和模糊關(guān)系進(jìn)行分類識(shí)別。模糊模式識(shí)別利用模糊技術(shù)來(lái)設(shè)計(jì)機(jī)器識(shí)別系統(tǒng),可以更廣泛、更深入地模擬人腦的思維過(guò)程,從而對(duì)客觀事物進(jìn)行更為有效的分類和識(shí)別。模糊模式識(shí)別方法已在工業(yè)、農(nóng)業(yè)、軍事、醫(yī)學(xué)、管理科學(xué)、信息科學(xué)和工程技術(shù)等學(xué)科和領(lǐng)域中發(fā)揮著非常重要的作用。1.2.4神經(jīng)網(wǎng)絡(luò)模式識(shí)別
人工神經(jīng)網(wǎng)絡(luò)簡(jiǎn)稱神經(jīng)網(wǎng)絡(luò),是由大量簡(jiǎn)單的基本單元(為神經(jīng)元)相互連接而構(gòu)成的復(fù)雜網(wǎng)絡(luò)系統(tǒng)。其中,每個(gè)神經(jīng)元的結(jié)構(gòu)和功能比較簡(jiǎn)單,而構(gòu)成的系統(tǒng)可以非常復(fù)雜。人類感知外界信息依靠的生理基礎(chǔ)是神經(jīng)系統(tǒng)。人工神經(jīng)網(wǎng)絡(luò)就是在現(xiàn)代生物學(xué)研究人腦組織所取得成果的基礎(chǔ)上提出的,用以模擬人類大腦神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和行為。人工神經(jīng)網(wǎng)絡(luò)具有生物神經(jīng)網(wǎng)絡(luò)的某些特性,在自學(xué)習(xí)、自組織、聯(lián)想記憶和容錯(cuò)方面具有較強(qiáng)的能力。因此,人工神經(jīng)網(wǎng)絡(luò)具有用于模式識(shí)別的理論和結(jié)構(gòu)基礎(chǔ),可以處理一些環(huán)境信息十分復(fù)雜、背景知識(shí)不清楚、推理規(guī)則不明確的模式識(shí)別問(wèn)題。實(shí)際上,模式識(shí)別是人工神經(jīng)網(wǎng)絡(luò)公認(rèn)的最成功的應(yīng)用領(lǐng)域之一。
1.3模式識(shí)別的一些基本準(zhǔn)則
盡管計(jì)算機(jī)模式識(shí)別發(fā)展至今已經(jīng)取得了令人矚目的成就,但人們逐漸認(rèn)識(shí)到在實(shí)際的研究和應(yīng)用中,面臨很多限制或需遵循的原則。這些原則既對(duì)人們的探討提出了“警示”,也對(duì)實(shí)際操作具有指導(dǎo)價(jià)值。下面敘述幾個(gè)已經(jīng)得到大家認(rèn)可的基本準(zhǔn)則。1.3.1奧卡姆剃刀原理
奧卡姆剃刀(Occam′sRazor)原理是由14世紀(jì)邏輯學(xué)家、圣方濟(jì)各會(huì)修士奧卡姆的威廉(WilliamofOccam)提出的一個(gè)原理。這個(gè)原理簡(jiǎn)稱為“如無(wú)必要,勿增實(shí)體”(在多種等價(jià)物和多種實(shí)現(xiàn)方法中提倡選擇最簡(jiǎn)單的模型或假設(shè),盡量避免產(chǎn)生超出解釋、觀察所嚴(yán)格需要的更為復(fù)雜的理論)。也就是說(shuō)殺雞焉用牛刀,盡量不要把問(wèn)題復(fù)雜化,要盡力把沒(méi)用的、會(huì)引起問(wèn)題復(fù)雜化的因素剔除掉。對(duì)于識(shí)別算法而言,并不是越復(fù)雜的算法越有用,有時(shí)簡(jiǎn)單的算法也能夠達(dá)到較好的性能。這正如愛(ài)因斯坦所講的:描述一個(gè)問(wèn)題,解決一個(gè)問(wèn)題,要盡可能的簡(jiǎn)單,但不能過(guò)于簡(jiǎn)單??傊?,設(shè)計(jì)的分類器要盡可能保持簡(jiǎn)單,因?yàn)楹?jiǎn)單的通常是最有效的。盡管在模式識(shí)別領(lǐng)域有一個(gè)主流觀點(diǎn),學(xué)習(xí)系統(tǒng)不要比限定的需求更復(fù)雜,需遵從奧卡姆剃刀原理,但這個(gè)原則讓人無(wú)法明白系統(tǒng)要做到多大才能不用去適配數(shù)據(jù)的特殊點(diǎn)(所謂過(guò)學(xué)習(xí))就能具有推廣能力。1.3.2沒(méi)有免費(fèi)的午餐定理
在1.2節(jié)中,我們介紹了模式識(shí)別的基本方法,在每一個(gè)基本方法下,又有很多學(xué)習(xí)算法和技術(shù)。面對(duì)這么多的算法,人們自然要問(wèn)是否存在最好的算法?答案是否定的。1997年,Wolpert和Macerday提出了沒(méi)有免費(fèi)的午餐定理(NoFreeLunch,NFL)。該定理指出,沒(méi)有最好的算法,每種算法總有它的優(yōu)勢(shì)和缺陷。NFL定理可以簡(jiǎn)單表述為:對(duì)于所有可能的問(wèn)題,任意給定兩個(gè)算法A和A′,如果A在某些問(wèn)題上表現(xiàn)比A′好(差),那么,A在其他問(wèn)題上的表現(xiàn)一定比A′差(好)。也就是說(shuō),任意兩個(gè)算法A、A′對(duì)所有問(wèn)題的平均表現(xiàn)度量是完全一樣的。該定理隱含指出,任何一種分類算法甚至都不比搜索空間的線性列舉或者純隨機(jī)搜索算法更優(yōu)。圖1.3給出了沒(méi)有免費(fèi)的午餐定理的圖示。
圖1.3沒(méi)有免費(fèi)的午餐在圖中,每個(gè)方塊表示所有可能的分類問(wèn)題,所在的空間是問(wèn)題空間,其中,“+”號(hào)表示算法的推廣性能比平均性能要好,“-”號(hào)表示算法的推廣性能比平均性能要差,“0”表示恰好是平均性能,這些符號(hào)的尺寸表示“好”或“差”的程度。例如,圖(a)表示算法在一個(gè)小區(qū)域上的推廣性能比平均性能好得多,但在其他區(qū)域都比平均性能略差一些;圖(d)表示算法在所有區(qū)域上的推廣性能都比平均性能要好;圖(e)表示算法在一個(gè)小區(qū)域上的推廣性能比平均性能要好,在其他區(qū)域上都為平均性能。根據(jù)沒(méi)有免費(fèi)的午餐定理可知,圖(a)、(b)和(c)都是可能出現(xiàn)的情況,圖(d)、(e)和(f)都是不可能出現(xiàn)的情況。根據(jù)沒(méi)有免費(fèi)的午餐定理可知,我們?cè)诮鉀Q實(shí)際的模式識(shí)別問(wèn)題時(shí),要根據(jù)特定的問(wèn)題,選擇合適的模式識(shí)別算法;不要太迷信于某一個(gè)算法的絕對(duì)優(yōu)勢(shì),在采用某一算法時(shí)要明白“得”與“失”;單一的算法往往不能滿足實(shí)際需要,需要采用多個(gè)算法來(lái)提高識(shí)別性能,即可以采用集成的策略來(lái)獲得更符合實(shí)際需要的結(jié)果。1.3.3丑小鴨定理
20世紀(jì)60年代,模式識(shí)別研究的鼻祖之一、美籍日本學(xué)者渡邊慧證明了“丑小鴨定理”。這個(gè)定理說(shuō)的是“丑小鴨與白天鵝之間的區(qū)別和兩只白天鵝之間的區(qū)別一樣大”。這個(gè)看起來(lái)完全違背常識(shí)的定理實(shí)際上說(shuō)的是:世界上不存在分類的客觀標(biāo)準(zhǔn),一切分類的標(biāo)準(zhǔn)都是主觀的。假設(shè)對(duì)象被描述成一個(gè)原子性質(zhì)集,我們考慮由這些性質(zhì)進(jìn)行所有可能的邏輯組合的謂詞,以便訓(xùn)練一個(gè)模式識(shí)別系統(tǒng)。那么,依據(jù)它們擁有的謂詞數(shù),所有對(duì)象對(duì)的相似程度是一樣的。這是由于,無(wú)論存在與否,所有的原子性質(zhì)具有一樣的初始權(quán)值。這導(dǎo)致訓(xùn)練集是沒(méi)有用的。簡(jiǎn)而言之,如果我們對(duì)問(wèn)題沒(méi)有任何了解,我們不可能從觀察中學(xué)習(xí)(推廣或推導(dǎo))。
1.4模式識(shí)別的應(yīng)用
隨著模式識(shí)別理論和方法的快速發(fā)展,模式識(shí)別已在目標(biāo)識(shí)別、生物特征識(shí)別、圖像識(shí)別、圖形識(shí)別和故障診斷等很多領(lǐng)域中得到了廣泛的應(yīng)用。
1.4.1生物特征識(shí)別
隨著社會(huì)的進(jìn)步和發(fā)展,各個(gè)領(lǐng)域都對(duì)人的身份鑒別提出了更高、更全面的要求。鑒于人的生物特征具有唯一性、穩(wěn)定性、不能盜用、不會(huì)遺忘、難以偽造等特性,現(xiàn)有的身份鑒別方法大都針對(duì)人的各種生物特征來(lái)實(shí)現(xiàn)。需要指出的是,人的生物特征包括生理特征和行為特征兩大類。生理特征是先天的,例如臉、指紋、手掌紋、虹膜、視網(wǎng)膜、聲音等;行為特征是后天的,習(xí)慣使然,例如簽名、步態(tài)、鍵盤打字習(xí)慣等。迄今為止,生物特征識(shí)別涉及人臉識(shí)別、指紋識(shí)別、掌紋識(shí)別、掌形識(shí)別、虹膜識(shí)別、視網(wǎng)膜識(shí)別、語(yǔ)音識(shí)別、耳廓識(shí)別、體形識(shí)別、靜脈識(shí)別、步態(tài)識(shí)別、簽名識(shí)別以及鍵盤敲擊識(shí)別等。比爾·蓋茨曾預(yù)言:“以人類生物
特征(指紋、語(yǔ)音、臉像等)進(jìn)行身份驗(yàn)證的生物識(shí)別技術(shù),在今后數(shù)年內(nèi)將成為IT產(chǎn)業(yè)最為重要的技術(shù)革命?!毕旅婧?jiǎn)單介紹人臉識(shí)別、指紋識(shí)別和語(yǔ)音識(shí)別。
1.人臉識(shí)別
人臉是指人的面部視覺(jué)特征,主要包括兩眼、鼻、口等特征。人臉識(shí)別就是利用計(jì)算機(jī)技術(shù)從人臉圖像分析中提取出有效的識(shí)別信息,用以鑒別人的身份。人臉識(shí)別技術(shù)已經(jīng)廣泛應(yīng)用于公安刑偵破案、門禁系統(tǒng)、攝像監(jiān)視系統(tǒng)、網(wǎng)絡(luò)應(yīng)用和信息安全等領(lǐng)域。例如,圖1.4所示為北京奧運(yùn)會(huì)的人臉識(shí)別系統(tǒng)。圖1.4北京奧運(yùn)會(huì)的人臉識(shí)別系統(tǒng)人臉識(shí)別的主要方法有基于幾何特征的人臉識(shí)別方法、基于特征臉的人臉識(shí)別方法、基于神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別方法、基于彈性圖匹配的人臉識(shí)別方法以及基于支持向量機(jī)(SVM)的人臉識(shí)別方法等。
與基于其他生物特征的識(shí)別方式相比,人臉識(shí)別具有自然和不易被察覺(jué)兩個(gè)特點(diǎn)。自然性是指該識(shí)別方式同人類進(jìn)行個(gè)體識(shí)別時(shí)利用的生物特征相同。與人臉識(shí)別類似,人類也是通過(guò)觀察比較人臉來(lái)確認(rèn)身份的。另外,語(yǔ)音識(shí)別、體形識(shí)別也是具有自然性的識(shí)別方式,而指紋識(shí)別、虹膜識(shí)別等都不具有自然性,這是因?yàn)槿祟惢蛘咂渌锊⒉煌ㄟ^(guò)這些生物特征來(lái)區(qū)別個(gè)體。不易被察覺(jué)性是指該識(shí)別方式不容易引起人的注意,進(jìn)而不容易被欺騙,也不會(huì)引起人的反感。人臉識(shí)別完全利用可見(jiàn)光獲取人臉圖像信息,不易引起人的注意,具有一定的友好性和方便性。指紋識(shí)別或者虹膜識(shí)別都不具有這個(gè)特性,因?yàn)樗鼈冃枰秒娮訅毫鞲衅鞑杉讣y或者利用紅外線采集虹膜圖像,這些采集方式很容易被人察覺(jué),一方面有可能會(huì)引起人的反感,另一方面更有可能
被偽裝欺騙。人臉識(shí)別是計(jì)算機(jī)視覺(jué)和模式識(shí)別領(lǐng)域最具挑戰(zhàn)性的研究?jī)?nèi)容之一。首先,人臉是復(fù)雜的三維形體,很難用數(shù)學(xué)語(yǔ)言具體地描述;其次,人臉在不同個(gè)體之間的區(qū)別不大,所有的人臉結(jié)構(gòu)都很相似,甚至面部器官的結(jié)構(gòu)外形都很相似,這個(gè)特點(diǎn)有利于人臉定位,但是不利于人臉識(shí)別。此外,隨著人的年齡增長(zhǎng),面部特征會(huì)有一定變化。另外,人臉容易受到光照、姿勢(shì)、表情、觀察角度和遮蓋物(例如眼鏡、口罩、頭發(fā)、胡須等)等的影響。
2.指紋識(shí)別
指紋是指人類手指末端正面皮膚上凹凸不平產(chǎn)生的紋路,其形成依賴于胚胎發(fā)育時(shí)的環(huán)境。指紋紋線有規(guī)律地排列形成了不同的紋型,這些紋線的起點(diǎn)、終點(diǎn)、結(jié)合點(diǎn)和分叉點(diǎn)是指紋的細(xì)節(jié)特征點(diǎn)。與其他生物特征相比,指紋具有兩個(gè)突出的優(yōu)點(diǎn):一是穩(wěn)定性,指紋具有很強(qiáng)的穩(wěn)定性,從胎兒在6個(gè)月時(shí)指紋完全形成到人死后尸體腐爛,指紋的紋型和細(xì)節(jié)特征點(diǎn)等不會(huì)有明顯變化;二是獨(dú)特性,指紋具有明顯的獨(dú)特性,至今還沒(méi)發(fā)現(xiàn)兩個(gè)指紋完全相同的人?;谶@兩個(gè)特點(diǎn),指紋識(shí)別能夠非常可靠地進(jìn)行人的身份鑒別,已經(jīng)在公安刑偵破案、網(wǎng)絡(luò)管理、銀行、社保、雇員證明、門禁系統(tǒng)等領(lǐng)域得到了非常廣泛的應(yīng)用。指紋識(shí)別示例如圖1.5所示。圖1.5指紋識(shí)別指紋識(shí)別是指通過(guò)圖像采集設(shè)備讀取指紋圖像,然后利用計(jì)算機(jī)識(shí)別軟件提取指紋的特征數(shù)據(jù),最后通過(guò)匹配識(shí)別算法得到識(shí)別結(jié)果,以確定指紋所有人身份的技術(shù)。指紋識(shí)別系統(tǒng)是一個(gè)典型的模式識(shí)別系統(tǒng),主要包括指紋圖像采集、指紋圖像處理、特征提取、保存數(shù)據(jù)、特征值比對(duì)與匹配等過(guò)程。指紋識(shí)別技術(shù)涉及圖像處理、模式識(shí)別、機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué)、數(shù)學(xué)形態(tài)學(xué)、小波分析等眾多學(xué)科。指紋識(shí)別是生物特征識(shí)別領(lǐng)域發(fā)展最成熟、最可接受的一種識(shí)別技術(shù)。然而,指紋識(shí)別還面臨一定的挑戰(zhàn)。在日常生活中,有一部分人的指紋是無(wú)法采集的,這里既有先天遺傳的問(wèn)題,也有后天因素造成的。例如由于手指皮膚有傷疤、長(zhǎng)繭、病態(tài)皮膚、皮膚干燥、皮膚老化、采集設(shè)備受污染等原因,會(huì)使得圖像采集設(shè)備無(wú)法采集或者不能提供高質(zhì)量的指紋圖像。此外,由于每次捺印的方位不完全一樣,著力點(diǎn)不同會(huì)帶來(lái)不同程度的變形,也會(huì)給后續(xù)正確提取特征和實(shí)現(xiàn)正確匹配帶來(lái)一定的困難。
3.語(yǔ)音識(shí)別
語(yǔ)音是人類信息交流的基本手段,語(yǔ)音中包含語(yǔ)義信息、語(yǔ)言信息、說(shuō)話人信息和情感信息等。語(yǔ)音識(shí)別就是讓機(jī)器通過(guò)識(shí)別和理解過(guò)程把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù),即讓計(jì)算機(jī)識(shí)別出人類語(yǔ)音中的各種信息。語(yǔ)音識(shí)別涉及信號(hào)處理、模式識(shí)別、概率論、信息論、發(fā)聲機(jī)理和聽(tīng)覺(jué)機(jī)理、人工智能等學(xué)科。語(yǔ)音識(shí)別已經(jīng)在語(yǔ)音輸入系統(tǒng)、語(yǔ)音控制系統(tǒng)和智能對(duì)話查詢系統(tǒng)中得到了廣泛的應(yīng)用。例如在語(yǔ)音控制系統(tǒng)中,就是利用語(yǔ)音來(lái)控制設(shè)備的運(yùn)行,相對(duì)于手動(dòng)控制來(lái)說(shuō)更加快捷、方便。另外,語(yǔ)音識(shí)別可以用在諸如工業(yè)控制、語(yǔ)音撥號(hào)系統(tǒng)、智能家電等許多領(lǐng)域,如圖1.6所示。圖1.6語(yǔ)音識(shí)別在智能家電中的應(yīng)用一個(gè)語(yǔ)音識(shí)別系統(tǒng)主要包括預(yù)處理、特征提取、模型建立、模式匹配和判決規(guī)則等五個(gè)主要部分。語(yǔ)音識(shí)別的基本方法有三種:基于聲道模型和語(yǔ)音知識(shí)的方法、模板匹配的方法以及利用人工神經(jīng)網(wǎng)絡(luò)的方法。按照識(shí)別任務(wù)的不同,語(yǔ)音識(shí)別可以分為四類:聲紋識(shí)別、語(yǔ)種識(shí)別、關(guān)鍵詞識(shí)別和連續(xù)語(yǔ)音識(shí)別。所謂聲紋識(shí)別,就是從語(yǔ)音信號(hào)中提取說(shuō)話人的信息以鑒別說(shuō)話人身份的技術(shù)。語(yǔ)種識(shí)別就是識(shí)別出語(yǔ)音所屬的語(yǔ)言,廣泛應(yīng)用于語(yǔ)音信息檢索和軍事領(lǐng)域。關(guān)鍵詞識(shí)別就是從說(shuō)話人的連續(xù)語(yǔ)音中把特定的關(guān)鍵詞檢測(cè)出來(lái),例如,人名、地名和事件名等。關(guān)鍵詞識(shí)別廣泛應(yīng)用于語(yǔ)音檢索和語(yǔ)音監(jiān)控中。連續(xù)語(yǔ)音識(shí)別就是識(shí)別人類的自然語(yǔ)言,將這種口述語(yǔ)言轉(zhuǎn)換為相應(yīng)的文本,或者對(duì)口述語(yǔ)言中包含的要求或詢問(wèn)做出正確的反應(yīng)。語(yǔ)音識(shí)別面臨以下幾個(gè)問(wèn)題。
第一,不同人具有不同的語(yǔ)音模式,即使同一說(shuō)話人的語(yǔ)音模式有時(shí)也會(huì)不同。例如,同一說(shuō)話人在隨意說(shuō)話和認(rèn)真說(shuō)話時(shí)的語(yǔ)音信息是不同的,而且,一個(gè)人的說(shuō)話方式會(huì)隨著時(shí)間變化。
第二,語(yǔ)音具有一定模糊性,說(shuō)話人在講話時(shí),不同的詞可能聽(tīng)起來(lái)是相似的。
第三,單個(gè)字母或詞、
字的語(yǔ)音特性受上下文的影響,以致改變了重音、音調(diào)、音量和發(fā)音速度等,對(duì)于語(yǔ)音識(shí)別有一定的影響。
第四,環(huán)境噪聲和干擾對(duì)語(yǔ)音識(shí)別有很大影響。
1.4.2目標(biāo)識(shí)別
目標(biāo)識(shí)別有“狹義”和“廣義”兩種解釋。狹義地說(shuō),目標(biāo)識(shí)別是利用雷達(dá)回波中的幅度、相位、頻譜和極化等目標(biāo)特征信息,通過(guò)數(shù)學(xué)上的各種多維空間變換來(lái)估算目標(biāo)的大小、形狀、重量和表面層的物理特性參數(shù),最后根據(jù)大量訓(xùn)練樣本所確定的鑒別函數(shù),在分類器中進(jìn)行識(shí)別判決的技術(shù)。廣義地說(shuō),目標(biāo)識(shí)別是將一個(gè)特殊目標(biāo)(或一種類型的目標(biāo))從其他目標(biāo)(或其他類型的目標(biāo))中區(qū)分出來(lái)。例如,從一幅遙感或自然圖像中識(shí)別出感興趣的目標(biāo)就屬于目標(biāo)識(shí)別。目標(biāo)識(shí)別已經(jīng)成功應(yīng)用于國(guó)民經(jīng)濟(jì)、空間技術(shù)和國(guó)防等領(lǐng)域,包括利用雷達(dá)和計(jì)算機(jī)對(duì)飛機(jī)或艦船等目標(biāo)進(jìn)行辨認(rèn),利用微波遙感儀器勘探礦藏或石油等地球資源,利用圖像特定內(nèi)容對(duì)Internet上的圖片進(jìn)行檢索等。下面介紹兩種經(jīng)典的目標(biāo)識(shí)別:雷達(dá)目標(biāo)識(shí)別和水下目標(biāo)識(shí)別。
1.雷達(dá)目標(biāo)識(shí)別
雷達(dá)目標(biāo)識(shí)別是從目標(biāo)的雷達(dá)回波中提取目標(biāo)的有關(guān)信息標(biāo)志和穩(wěn)定特征并判斷其屬性的識(shí)別技術(shù)。在雷達(dá)目標(biāo)識(shí)別問(wèn)題中,首先可以利用回波信號(hào)的幅值、相位、頻率和極化等獲得用于目標(biāo)識(shí)別的信息,然后對(duì)目標(biāo)信息進(jìn)行訓(xùn)練和識(shí)別。進(jìn)行雷達(dá)目標(biāo)識(shí)別,必須依靠目標(biāo)識(shí)別技術(shù),模式識(shí)別技術(shù)的發(fā)展為該問(wèn)題的研究提供了有利的條件。統(tǒng)計(jì)模式識(shí)別方法、模糊模式識(shí)別方法、基于模型和基于知識(shí)的模式識(shí)別方法以及神經(jīng)網(wǎng)絡(luò)模式識(shí)別方法等在雷達(dá)目標(biāo)識(shí)別中均有成功的應(yīng)用。
2.水下目標(biāo)識(shí)別
水下目標(biāo)識(shí)別是現(xiàn)代聲納系統(tǒng)與水聲對(duì)抗的一個(gè)重要組成部分,是水面艦艇和潛艇急需解決的關(guān)鍵技術(shù)。在水下目標(biāo)識(shí)別中,由于艦船的輻射噪聲包含了豐富的目標(biāo)相關(guān)信息,因此基于艦船輻射噪聲的目標(biāo)識(shí)別已經(jīng)成為一個(gè)重要的研究方向,其基本任務(wù)就是正確采集各種艦船的輻射噪聲并進(jìn)行分類識(shí)別。由于水下目標(biāo)型號(hào)繁多,目標(biāo)所處環(huán)境多變,因此在實(shí)際的分類識(shí)別應(yīng)用中很難達(dá)到預(yù)期的性能。神經(jīng)網(wǎng)絡(luò)的在線學(xué)習(xí)、自適應(yīng)性能使得其在水下目標(biāo)識(shí)別問(wèn)題中應(yīng)用比較普遍。此外,也可以將模糊集理論與神經(jīng)網(wǎng)絡(luò)系統(tǒng)結(jié)合在一起,得到模糊神經(jīng)網(wǎng)絡(luò)分類器,從而提高目標(biāo)判別的靈活度,增加判決的可信度。1.4.3圖像識(shí)別
圖像是指各種圖形和影像的總稱。圖像識(shí)別就是利用計(jì)算機(jī)對(duì)圖像進(jìn)行處理、分析和理解,以識(shí)別各種不同模式的目標(biāo)和對(duì)象的技術(shù)。目前,圖像識(shí)別涉及遙感和航空?qǐng)D像分析、顯微圖像、熱像及超聲圖像檢查、金相圖分析與鑒定、車牌
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年資產(chǎn)評(píng)估師之資產(chǎn)評(píng)估基礎(chǔ)??寄M試題(含答案)
- 江西省九江市2024-2025學(xué)年八年級(jí)下學(xué)期期末語(yǔ)文試題(解析版)
- 攝影技巧基礎(chǔ)知識(shí)培訓(xùn)班課件
- 網(wǎng)絡(luò)信息安全技術(shù)試題及答案
- 2025醫(yī)療耗材采購(gòu)合同范本
- 2025合同無(wú)效的示范文本
- 攝像助理基礎(chǔ)知識(shí)培訓(xùn)
- 2025年齊齊哈爾市軟件公司勞務(wù)派遣合同范本
- 搞笑課件文案
- 如何開(kāi)展年度民主評(píng)議黨員工作有效加強(qiáng)黨員黨性鍛煉增強(qiáng)黨的組織生活活力
- 老年髖部骨折圍術(shù)期護(hù)理臨床實(shí)踐專家共識(shí)2024版解讀課件
- 國(guó)家電網(wǎng)公司招聘高校畢業(yè)生應(yīng)聘登記表
- 咨詢公司市場(chǎng)洞察五看方法論手冊(cè)
- 初中7年級(jí)下數(shù)學(xué)練習(xí)題
- 2024年全國(guó)寄生蟲病防治技能競(jìng)賽備賽試題庫(kù)-上(血吸蟲病、瘧疾)
- 氣血疏通中級(jí)班教材
- 空調(diào)安裝服務(wù)合同
- 2022年畢節(jié)市黔西市城區(qū)學(xué)校鄉(xiāng)鎮(zhèn)考調(diào)教師考試試卷及答案解析
- 組裝工藝中SI全稱
- (高清版)DZT 0400-2022 礦產(chǎn)資源儲(chǔ)量規(guī)模劃分標(biāo)準(zhǔn)
- 網(wǎng)絡(luò)安全服務(wù)項(xiàng)目服務(wù)質(zhì)量保障措施(實(shí)施方案)
評(píng)論
0/150
提交評(píng)論