色欲国产麻豆一精品一av一免费-髙清国产性猛交xxxand-久久久精品免费-国产一区二区精品久久

計(jì)算機(jī)視覺(jué)發(fā)展的四個(gè)主要階段1:馬爾計(jì)算視覺(jué)

盡管人們對(duì)計(jì)算機(jī)視覺(jué)這門學(xué)科的起始時(shí)間和發(fā)展歷史有不同的看法,但應(yīng)該說(shuō), 1982年馬爾( David Marr )《視覺(jué)》(Marr, 1982)一書的問(wèn)世,標(biāo)志著計(jì)算機(jī)視覺(jué)成為了一門獨(dú)立學(xué)科。計(jì)算機(jī)視覺(jué)的研究?jī)?nèi)容,大體可以分為物體視覺(jué)(object vision)和空間視覺(jué)(spatial vision)二大部分. 物體視覺(jué)在于對(duì)物體進(jìn)行精細(xì)分類和鑒別,而空間視覺(jué)在于確定物體的位置和形狀,為“動(dòng)作(action)” 服務(wù)。正像認(rèn)知心理學(xué)家J.J. Gibson 所言,視覺(jué)的主要功能在于“適應(yīng)外界環(huán)境,控制自身運(yùn)動(dòng)”。 適應(yīng)外界環(huán)境和控制自身運(yùn)動(dòng),是生物生存的需求,這些功能的實(shí)現(xiàn)需要靠物體視覺(jué)和空間視覺(jué)協(xié)調(diào)完成。

 

計(jì)算機(jī)視覺(jué)40多年的發(fā)展中,盡管人們提出了大量的理論和方法,但總體上說(shuō),計(jì)算機(jī)視覺(jué)經(jīng)歷了4個(gè)主要?dú)v程。即: 馬爾計(jì)算視覺(jué)、主動(dòng)和目的視覺(jué)、多視幾何與分層三維重建和基于學(xué)習(xí)的視覺(jué)。下面將對(duì)這4項(xiàng)主要內(nèi)容進(jìn)行簡(jiǎn)要介紹。

馬爾計(jì)算視覺(jué)(Computational Vision)

現(xiàn)在很多計(jì)算機(jī)視覺(jué)的研究人員,恐怕對(duì)“馬爾計(jì)算視覺(jué)”根本不了解,這不能不說(shuō)是一件非常遺憾的事。目前,在計(jì)算機(jī)上調(diào)“深度網(wǎng)絡(luò)”來(lái)提高物體識(shí)別的精度似乎就等于從事“視覺(jué)研究”。事實(shí)上,馬爾的計(jì)算視覺(jué)的提出,不論在理論上還是研究視覺(jué)的方法論上,均具有劃時(shí)代的意義。

 

馬爾的計(jì)算視覺(jué)分為三個(gè)層次: 計(jì)算理論、表達(dá)和算法以及算法實(shí)現(xiàn)。由于馬爾認(rèn)為算法實(shí)現(xiàn)并不影響算法的功能和效果,所以,馬爾計(jì)算視覺(jué)理論主要討論“計(jì)算理論”和“表達(dá)與算法”二部分內(nèi)容。馬爾認(rèn)為,大腦的神經(jīng)計(jì)算和計(jì)算機(jī)的數(shù)值計(jì)算沒(méi)有本質(zhì)區(qū)別,所以馬爾沒(méi)有對(duì)“算法實(shí)現(xiàn)”進(jìn)行任何探討。從現(xiàn)在神經(jīng)科學(xué)的進(jìn)展看,“神經(jīng)計(jì)算”與數(shù)值計(jì)算在有些情況下會(huì)產(chǎn)生本質(zhì)區(qū)別,如目前興起的神經(jīng)形態(tài)計(jì)算( Neuromorphological computing),但總體上說(shuō),“數(shù)值計(jì)算”可以“模擬神經(jīng)計(jì)算”。至少?gòu)默F(xiàn)在看,“算法的不同實(shí)現(xiàn)途徑”,并不影響馬爾計(jì)算視覺(jué)理論的本質(zhì)屬性。

 

1)計(jì)算理論(Computational Theory)

計(jì)算理論需要明確視覺(jué)目的, 或視覺(jué)的主要功能是什么。上世紀(jì)70年代,人們對(duì)大腦的認(rèn)識(shí)還非常粗淺,目前普遍使用的非創(chuàng)傷型成像手段,如功能核磁共振(FMRI)等,還沒(méi)有普及。所以,人們主要靠病理學(xué)和心理學(xué)結(jié)果來(lái)推斷生理功能。即使目前,人們對(duì)“視覺(jué)的主要功能”到底是什么,也仍然沒(méi)有定論。如近幾年,MIT的 DiCarlo等人提出了所謂的“目標(biāo)驅(qū)動(dòng)的感知信息建?!狈椒ǎ╕amins &DiCarlo et al. 2016a)。他們猜測(cè),猴子IT區(qū)(IT: interiortemporal cortex, 物體識(shí)別區(qū))的神經(jīng)元對(duì)物體的響應(yīng)(neuronal responses)“可以通過(guò)層次化的卷積神經(jīng)網(wǎng)絡(luò)”(HCNN: Hierarchical Convolutional Neural Networks )來(lái)建模。他們認(rèn)為,只要對(duì)HCNN在圖像物體分類任務(wù)下進(jìn)行訓(xùn)練,則訓(xùn)練好的HCNN 可以很好定量預(yù)測(cè)IT 區(qū)神經(jīng)元的響應(yīng)(Yamins et al. 2014, 2016b)。由于僅僅“控制圖像分類性能”對(duì)IT神經(jīng)元響應(yīng)(群體神經(jīng)元對(duì)某一輸入圖像物體的響應(yīng),就是神經(jīng)元對(duì)該物體的表達(dá)或編碼)進(jìn)行定量預(yù)測(cè),所以他們將這種框架稱之為“目標(biāo)驅(qū)動(dòng)的框架”。目標(biāo)驅(qū)動(dòng)的框架提供了一種新的比較通用的建模群體神經(jīng)元編碼的途徑,但也存在很大的不足。能否像作者所言的那樣,僅僅靠“訓(xùn)練圖像分類的HCNN”就可以定量預(yù)測(cè)神經(jīng)元對(duì)圖像物體的響應(yīng),仍是一個(gè)有待進(jìn)一步深入研究的課題。

 

馬爾認(rèn)為視覺(jué)不管有多少功能,主要功能在于“從視網(wǎng)膜成像的二維圖像來(lái)恢復(fù)空間物體的可見(jiàn)三維表面形狀”,稱之為“三維重建”(3D reconstruction)。而且,馬爾認(rèn)為,這種重建過(guò)程不是天生就有的,而是可以通過(guò)計(jì)算完成的。J.J. Gibson 等心理學(xué)家,包括格式塔心里學(xué)學(xué)派( Gestalt psychology),認(rèn)為視覺(jué)的很多功能是天生就有的??梢韵胂耄绻环N視覺(jué)功能與生具有,不可建模,就談不上計(jì)算,也許就不存在今天的“計(jì)算機(jī)視覺(jué)”這門學(xué)科了。

 

那么,馬爾的計(jì)算理論是什么呢?這一方面,馬爾在其書中似乎并不是介紹得特別具體。他舉了一個(gè)購(gòu)買商品的例子,說(shuō)明計(jì)算理論的重要性。如商店結(jié)賬要用加法而不是乘法。試想如果用乘法結(jié)賬,每個(gè)商品1元錢,則不管你購(gòu)買多少件商品,你僅僅需要付一元錢。

 

馬爾的計(jì)算理論認(rèn)為,圖像是物理空間在視網(wǎng)膜上的投影,所以圖像信息蘊(yùn)含了物理空間的內(nèi)在信息,因此,任何計(jì)算視覺(jué)計(jì)算理論和方法都應(yīng)該從圖像出發(fā),充分挖掘圖像所蘊(yùn)含的對(duì)應(yīng)物理空間的內(nèi)在屬性。也就是說(shuō),馬爾的視覺(jué)計(jì)算理論就是要“挖掘關(guān)于成像物理場(chǎng)景的內(nèi)在屬性來(lái)完成相應(yīng)的視覺(jué)問(wèn)題計(jì)算”。因?yàn)閺臄?shù)學(xué)的觀點(diǎn)看,僅僅從圖像出發(fā),很多視覺(jué)問(wèn)題具有“歧義性”,如典型的左右眼圖像之間的對(duì)應(yīng)問(wèn)題。如果沒(méi)有任何先驗(yàn)知識(shí),圖像點(diǎn)對(duì)應(yīng)關(guān)系不能確定。不管任何動(dòng)物或人,生活的環(huán)境都不是隨機(jī)的,不管有意識(shí)或無(wú)意識(shí),時(shí)時(shí)刻刻都在利用這些先驗(yàn)知識(shí),來(lái)解釋看到的場(chǎng)景和指導(dǎo)日常的行為和行動(dòng)。如桌子上放一個(gè)水杯的場(chǎng)景,人們會(huì)正確地解釋為桌子上放了一個(gè)水杯,而不把他們看作一個(gè)新物體。當(dāng)然,人類也會(huì)經(jīng)常出錯(cuò),如大量錯(cuò)覺(jué)現(xiàn)象。從這個(gè)意義上來(lái)說(shuō),讓計(jì)算機(jī)來(lái)模仿人類視覺(jué)是否一定是一條好的途徑也是一個(gè)未知的命題。飛機(jī)的飛行需要借助空氣動(dòng)力學(xué)知識(shí),而不是機(jī)械地模仿鳥(niǎo)如何飛。

 

2)表達(dá)和算法(Representationand Algorithm)

識(shí)別物體之前,不管是計(jì)算機(jī)還是人,大腦(或計(jì)算機(jī)內(nèi)存)中事先要有對(duì)該物體的存儲(chǔ)形式,稱之為物體表達(dá)(object representation). 馬爾視覺(jué)計(jì)算理論認(rèn)為,物體的表達(dá)形式為該物體的三維幾何形狀。馬爾當(dāng)時(shí)猜測(cè),由于人在識(shí)別物體時(shí)與觀察物體的視角無(wú)關(guān),而不同視角下同一物體在視網(wǎng)膜上的成像又不同,所以物體在大腦中的表達(dá)不可能是二維的,可能是三維形狀,因?yàn)槿S形狀不依賴于觀察視角。另外,當(dāng)時(shí)病理學(xué)研究發(fā)現(xiàn),有些病人無(wú)法辨認(rèn)“茶杯”,但可以毫無(wú)困難地畫出茶杯的形狀,因此馬爾覺(jué)得,這些病人也佐證了他的猜測(cè)。從目前對(duì)大腦的研究看,大腦的功能是分區(qū)的。物體的“幾何形狀”和“語(yǔ)義”儲(chǔ)存在不同的腦區(qū)。另外,物體識(shí)別也不是確切要與視角無(wú)關(guān),僅僅在一個(gè)比較小的變化范圍內(nèi)與視角無(wú)關(guān)。所以,從當(dāng)前的研究看,馬爾的物體的“三維表達(dá)”猜測(cè)基本上是不正確的,至少是不完全正確的,但馬爾的計(jì)算理論仍具有重要的理論意義和應(yīng)用價(jià)值。

 

簡(jiǎn)言之,馬爾視覺(jué)計(jì)算理論的“物體表達(dá)”,是指“物體坐標(biāo)系下的三維形狀表達(dá)”。注意,從數(shù)學(xué)上來(lái)說(shuō),一個(gè)三維幾何形狀,選取的坐標(biāo)系不同,表達(dá)函數(shù)亦不同。如一個(gè)球體,如果以球心為坐標(biāo)原點(diǎn),則球面可以簡(jiǎn)單表達(dá)為:x^2+y^2+z^2=1。 但如果觀測(cè)者在x軸上2倍半徑處觀測(cè),則可見(jiàn)球面部分在觀測(cè)者坐標(biāo)系下的方程為:x=2-sqrt(1-y^2-z^2)。由此可見(jiàn),同一物體,選用的坐標(biāo)系不同,表達(dá)方式亦不同。馬爾將“觀測(cè)者坐標(biāo)系下的三維幾何形狀表達(dá)”稱之為“2.5維表達(dá)”,物體坐標(biāo)系下的表達(dá)為“三維表達(dá)”。所以,在后續(xù)的算法部分,馬爾研究了如何從圖像先計(jì)算“2.5維表達(dá)”,然后轉(zhuǎn)化為“三維表達(dá)”的計(jì)算方法和過(guò)程。

 

算法部分是馬爾計(jì)算視覺(jué)的主體內(nèi)容。馬爾認(rèn)為,從圖像到三維表達(dá),要經(jīng)過(guò)三個(gè)計(jì)算層次:首先從圖像得到一些基元(primal sketch), 然后通過(guò)立體視覺(jué)(stereopsis)等模塊將基元提升到2.5維表達(dá),提升到三維表達(dá)。

馬爾計(jì)算理論中算法的三個(gè)計(jì)算層次,首先從圖像提取邊緣信息(二階導(dǎo)數(shù)的過(guò)零點(diǎn)),然后提取點(diǎn)狀基元(blob, 線狀基元(edge)和桿狀基元 (bar), 進(jìn)而對(duì)這些初級(jí)基元(raw primal sketch)組合形成完整基元(full primal sketch),上述過(guò)程為視覺(jué)計(jì)算理論的特征提取階段。在此基礎(chǔ)上,通過(guò)立體視覺(jué)和運(yùn)動(dòng)視覺(jué)等模塊,將基元提升到2.5維表達(dá)。將2.5維表達(dá)提升到三維表達(dá)。在馬爾的《視覺(jué)》一書中,著重介紹了特征提取和2.5維表達(dá)對(duì)應(yīng)的計(jì)算方法。在2.5維表達(dá)部分,也僅僅著重介紹了立體視覺(jué)和運(yùn)動(dòng)視覺(jué)部分。由于當(dāng)雙眼(左右相機(jī))的相互位置已知時(shí)(計(jì)算機(jī)視覺(jué)中稱之為相機(jī)外參數(shù)),立體視覺(jué)就轉(zhuǎn)化為“左右圖像點(diǎn)的對(duì)應(yīng)問(wèn)題”(image point correspondence), 所以,馬爾在立體視覺(jué)部分著重介紹了圖像點(diǎn)之間的匹配問(wèn)題,即如何剔除誤匹配,并給出了對(duì)應(yīng)算法。

 

立體視覺(jué)等計(jì)算得到的三維空間點(diǎn)僅僅是在“觀測(cè)者坐標(biāo)系下的坐標(biāo)”,是物體的2.5維表示。如何進(jìn)一步提升到物體坐標(biāo)系下的三維表示,馬爾給出了一些思路,但這方面都很粗泛。如確定物體的旋轉(zhuǎn)主軸等等,這部分內(nèi)容,類似于后來(lái)人們提出的“骨架模型”(skeleton model)構(gòu)造.