[物體識別中的視點問題] 物體識別
發(fā)布時間:2020-03-03 來源: 感恩親情 點擊:
摘要 視點問題是物體識別研究中的熱點問題。文章回顧了兩個主要的物體識別理論:結(jié)構(gòu)描述模型和基于圖像的模型,前者認為物體識別是視點獨立的(viewpoint-invariant),后者認為物體識別是視點依賴的(viewpoint-dependent)。在介紹了物體識別領域的一些最新研究進展和分析了當前研究存在的問題之后,文章進一步探討解決視點爭論的可能的途徑: 完善現(xiàn)存的物體心理表征模型。
關鍵詞 物體識別,視點,表征。
分類號 B842
1 引言
物體識別是人類日常生活中必需的一種能力。人類的適應性活動如尋找食物、繞過障礙物等等,都要有物體識別的參與才能正常進行。外部世界的三維物體投射到觀察者視網(wǎng)膜上形成二維圖像,由視覺系統(tǒng)對其進行加工得到物體映像,并將物體映像與記憶中該物體的心理表征進行匹配。當物體映像能與其心理表征相匹配時,物體識別就得以實現(xiàn)。
物體識別過程中存在著物體恒常(object constancy)現(xiàn)象[1]:即當觀察者的視點(viewpoint)發(fā)生變化時,雖然落在視網(wǎng)膜上的物體的幾何形狀和表面特征會發(fā)生相應的變化,但觀察者仍然能夠識別出物體。視覺系統(tǒng)如何適應這種視點的變化而實現(xiàn)物體恒常?這就是所謂的“視點問題”。
視點問題處于物體識別這個功能體系中的核心位置,它的解決,既有助于揭示物體的識別過程和學習過程(即在人類識別時,陌生物體逐漸變?yōu)槭煜の矬w的過程,物體心理表征變化的過程),又有助于解釋類別識別現(xiàn)象(即物體識別是分類別水平的,人類可以從多個類別水平對物體進行識別。這是物體識別的又一大熱點問題)。
解決視點問題的關鍵在于確定物體的心理表征,研究者們對其具體形式一直進行著激烈爭論[2~9]。研究初期,爭論的焦點集中于物體識別的坐標系[10]。Marr認為在物體識別的初期,視覺加工形成的物體映像是建立在以觀察者為中心的坐標系中的;但在物體識別的最后階段,物體映像的坐標系要轉(zhuǎn)換為以物體為中心的坐標系。最后形成的對物體的描述與視點無關[11]。而Ullman認為,物體映像是建立在以觀察者為中心的坐標系中的[12]。由于用實驗的方法研究坐標系問題比較困難,后來爭論的焦點轉(zhuǎn)移到物體識別是視點獨立的還是視點依賴的問題上[10]。Biederman和Gerhardstein認為物體識別是視點獨立的,視點變化不會影響識別績效[2]。而Hayward和Tarr認為物體識別是視點依賴的,視點變化會影響識別績效,不同視點的識別績效是不同的[9]。
2 物體識別模型及它們對視點問題的看法
視點問題產(chǎn)生爭論的根本原因是研究者對物體的心理表征有不同的看法。當前兩個主要的物體識別模型是視點獨立的結(jié)構(gòu)描述模型(structural description model)和視點依賴的基于圖像的模型(image-based model)。
2.1結(jié)構(gòu)描述模型
結(jié)構(gòu)描述模型認為物體識別的任務是從二維圖像中重建三維物體描述。
Marr的視覺計算理論[11,13]是結(jié)構(gòu)描述模型的基礎。視覺計算理論認為,物體識別是一個從簡單的局部特征描述到復雜的三維物體描述的層次加工過程。物體識別開始于投射在視網(wǎng)膜上的二維圖像。視覺系統(tǒng)對圖像中強度不連續(xù)點的強度變化進行加工,得到零交叉片斷(zero-crossing segment),進而逐步構(gòu)建出線段、輪廓、表面(2D)。Marr假設從2D到3D的加工過程中,存在一個二維半(2.5D)的階段,在這個階段中形成了由物體可見部分的表面加上局部朝向和深度構(gòu)成的一個表征,建立在以觀察者為中心的坐標系中。視覺系統(tǒng)加工這個表征,得到三維物體描述。三維物體描述是由三維基元構(gòu)成的分層次的描述,建立在以物體為中心的坐標系中,且在二維圖像變化時相對穩(wěn)定[11,13]。
Biederman在Marr視覺計算理論的基礎上,提出了部件認知理論(Recognition-by-Components,簡稱為“RBC”),認為物體由三維部件組成[14]。物體識別從二維圖像中物體邊界提取開始,之后同時檢測圖像邊界的基本特征(nonaccidental properties)和從凹狀區(qū)域分割圖像。由被分割區(qū)域的基本特征確定部件,這種組成物體的部件被稱為幾何離子(“geometrical ion”,簡稱為“geon”)。視覺系統(tǒng)根據(jù)幾何離子和它們之間的關系對三維物體進行描述。決定物體部件的五個基本特征(彎曲、共線、對稱、平行、連接)在視點變化的情況下保持不變,保證了新異視點下的物體識別也能正常進行[14]。
Biederman和Gerhardstein進一步的研究提出了幾何離子結(jié)構(gòu)描述模型(geon structural description,簡稱為“GSD”),認為視覺系統(tǒng)是通過描述幾何離子和它們之間的關系來表征三維物體的[2]。根據(jù)GSD模型,如果滿足以下三個條件,則物體識別與視點無關:
。1)物體可以分解成幾何離子,以便用GSD進行描述;
。2)每個物體的GSD是獨特的,不同物體的GSD是不同的;
(3)從同一物體的兩個圖像可以得到相同的GSD[2]。
Biederman和Gerhardstein進行了熟悉物體的命名啟動實驗、幾何離子的系列匹配實驗和新異物體的異同判斷實驗[2]。實驗結(jié)果支持了視點獨立的三個條件。同時他們認為,識別的視點依賴現(xiàn)象其實是非識別系統(tǒng)(nonrecognition systems)產(chǎn)生的[2]。這里的非識別系統(tǒng)指的是視覺系統(tǒng)的背側(cè)通路系統(tǒng)(dorsal systems)[2]。
2.2 基于圖像的模型
Tarr和Vuong提出,輸入圖像需先經(jīng)過標準化(normalize)加工,然后再與心理表征進行匹配,標準化機制可以分為四類[15]:Ullman的校正模型( alignment model)[12]、Tarr和Pinker的心理轉(zhuǎn)換模型(mental transformation model)[5]、Bülthoff和Edelman的視圖插值模型(view-interpolation model)[8]以及Perrett等人的證據(jù)累積模型(evidence accumulation model)[16]。校正模型認為可以把輸入圖像校正為記憶中的單一典型(canonical)圖像進行識別[12]。Tarr認為識別績效隨輸入圖像與典型圖像的差距變化而變化[6]。因為單一圖像不能充分描述三維物體,Tarr和Pinker提出多視圖模型(multiple-views-plus-transformation),認為物體可以用一系列熟悉視點的圖像(“views”,稱為“視圖”)進行表征,每個視圖描述了不同的特殊視點的物體表征[5]。輸入圖像可以直接與這些視圖進行匹配;當輸入圖像在記憶中沒有對應的視圖時,通過心理轉(zhuǎn)換機制(mental transformation),與最接近的熟悉視圖進行匹配[5]。視圖插值模型認為通過視圖插值的方法可以更好地完成輸入圖像與多視圖表征的匹配[8]。Perrett等人認為,基于圖像的表征由一些特定視點下的局部圖像特征(顏色、形狀、紋理等)構(gòu)成,物體深度旋轉(zhuǎn)和照明方向等條件的改變會影響局部特征值而產(chǎn)生不同的圖像描述[16]。物體識別速度取決于視覺系統(tǒng)神經(jīng)元活動的累計率(the rate of accumulation):不熟悉視圖激活的神經(jīng)元數(shù)量少,需要更長的時間以提供充分的視覺輸入。當神經(jīng)活動超過一個特定的閾限時,識別就可以實現(xiàn),不需要比較視圖間的相似程度,也不需要心理轉(zhuǎn)換機制的參與[16]。
上面四種基于圖像的物體識別模型中,Tarr和Pinker的多視圖模型是占主導地位的,并在與Biederman等人的結(jié)構(gòu)描述模型的爭論中得到了發(fā)展。
Tarr和Bülthoff認為[7] Biederman和Gerhardstein提出的視點獨立的識別機制[2]缺乏普遍性,只能在有限的視點情況下起作用,不能完整地解釋物體識別現(xiàn)象;且視點依賴的識別現(xiàn)象,也不能用非識別系統(tǒng)進行解釋。他們解釋了視點依賴的識別績效:當輸入圖像與記憶中存儲的視圖不能匹配時,需要轉(zhuǎn)換到最接近的熟悉視點的視圖,識別時間和正確率隨著心理轉(zhuǎn)換的程度變化而變化;而當輸入圖像與熟悉視點的視圖可以匹配時,物體識別績效沒有差別,與視點無關。他們還提到,1981年Palmer等人證明大多數(shù)普通物體都有一個典型視圖(“canonical” view),識別績效在物體處于典型視圖時最高,并隨著和典型視圖的差距增加而下降。Tarr和Bülthoff認為典型視圖現(xiàn)象和多視圖模型是一致的[7]。Tarr的四個實驗研究[6]支持了上述觀點。
Hayward和Tarr進一步的研究[9],在命名實驗和異同判斷實驗中采用類似Biederman和Gerhardstein研究中的實驗材料[2](幾何離子狀單組分物體和多組分物體),通過操縱幾何離子的兩種視點變化――劇烈的質(zhì)的變化(qualitative)和平緩的量的變化(quantitative),發(fā)現(xiàn)質(zhì)的變化的識別績效比量的變化下降得更快,在符合Biederman和Gerhardstein提出的視點獨立三個條件的情況下,物體識別仍然表現(xiàn)出視點依賴性。他們認為,識別績效不僅跟視點變化的角度有關,而且與圖像幾何特征的變化有關;實驗中物體識別受到影響,是質(zhì)的變化改變了圖像中的特征造成的,而不是GSD變化造成的[9]。
3 物體識別理論的最新發(fā)展
對于視點問題,研究者一直爭論不休,他們的模型也不斷得到完善發(fā)展,如Wong和Hayward對視圖整合(view combination)進行了研究[17],Ullman和Bart認為可以利用延伸性特征實現(xiàn)視點獨立的物體識別[18]。但他們的模型都不能獨立完整地解釋物體識別現(xiàn)象。當前主要的兩個模型(結(jié)構(gòu)描述模型和基于圖像的模型)有融合的趨勢。
Tarr和Bülthoff認為結(jié)構(gòu)描述模型和基于圖像的模型各有長處,但都存在問題,未來的識別模型應該是兩者的整合。未來的模型必須滿足以下條件:第一,在視點依賴性的問題上,必須能同時解釋視點獨立和視點依賴的識別現(xiàn)象;第二,能說明物體心理表征是如何支持多類別水平識別的;第三,必須充分靈活,以適應不同的物體類別經(jīng)驗;第四,識別任務的績效是以下因素交互影響的結(jié)果:刺激類別的同質(zhì)性(homogeneity of the stimulus class)、分類水平(categorical level)和經(jīng)驗水平(level of expertise),研究必須同時考慮這些因素[19]。
基于整合兩個物體識別模型的考慮,研究者們進行了多方面的研究。
結(jié)構(gòu)描述模型使用了物體的3D結(jié)構(gòu)信息,基于圖像的模型使用了特殊視點下的物體表面信息(視圖信息)。多個研究表明,結(jié)構(gòu)信息和視圖信息在物體識別中都起作用[20,21]。Foster和Gilson提出的模型整合了結(jié)構(gòu)信息和視圖信息。他們采用一個整合了結(jié)構(gòu)信息和視圖信息的實驗材料,進行同時匹配實驗,發(fā)現(xiàn)結(jié)構(gòu)信息和視圖信息的加工是相互獨立的。他們認為視覺系統(tǒng)通過整合這兩種信息完成物體識別[22]。
Newell等人提出物體部件的形狀信息和位置信息在物體識別中起重要作用,認為視覺物體加工存在一個“what+where”表征階段,在這個階段中物體部件的形狀(what)和位置(where)被聯(lián)合表征[23]。
Tanaka等人研究了顏色在高級視覺中的作用,提出顏色與形狀一樣,對物體識別有重要作用,并提出形狀加表面(Shape+Surface)的識別模型[24]。Rossion和Pourtois的研究[25]也支持了這個模型。
生理機制方面的研究也支持了兩個識別模型整合的構(gòu)想。Vuilleumier等人通過事件相關功能磁共振成像技術(shù)(event-related fMRI)研究了人類物體識別的視覺神經(jīng)機制,他們認為在腹側(cè)視覺皮層(ventral visual cortex)中同時存在著視點依賴和視點獨立的物體表征[26]。
4 視點問題研究的不足和前景展望
正如前面提到的,多年來,研究者們在物體識別領域做了大量卓有成效的工作,他們提出的模型已經(jīng)建構(gòu)了物體識別的整體框架,并能合理說明許多物體識別現(xiàn)象。但在物體識別的很多方面,他們的模型都存在異議,且不能完整說明物體識別現(xiàn)象。尤其是其中的視點問題,他們的研究結(jié)果存在很大差異,有些甚至是完全相反的。
引起視點問題爭論可能有以下幾個原因:
首先,他們的研究存在差異和爭論的最大原因,可能是提出的識別模型本身是片面的,不能完整反映物體識別過程。多個研究已表明,結(jié)構(gòu)信息和視圖信息對物體識別都起作用,結(jié)構(gòu)描述模型很好地描述了3D結(jié)構(gòu)信息,基于圖像的模型更多地表現(xiàn)了物體視圖信息[20~22]。它們都沒有全面表現(xiàn)物體信息。已經(jīng)有研究者注意到這個問題,并提出了修正模型。Tarr提出,因為實驗任務和具體情景的不同,物體識別不能由單一的識別機制進行解釋,應該有兩個或更多的識別機制同時存在[6]。物體識別機制被假想為一個連續(xù)體,在連續(xù)體的兩端分別是視點依賴機制和視點獨立機制(如“GSD模型”)。物體識別根據(jù)不同的任務和情景,在連續(xù)體中選擇不同的識別機制[6]。Tarr的連續(xù)體模型對物體識別研究的發(fā)展提出了新的思路。但對于兩個機制對物體識別起作用的具體情況,沒有進行詳細說明;對于兩個機制共存時物體的心理表征形式,也沒有明確說明。基于對模型本身的考慮,我們認為,從物體心理表征角度進行研究,也許可以更好地說明物體識別現(xiàn)象。視點問題之爭,就是因為爭論雙方對物體心理表征有不同看法,導致了他們提出的識別模型的不同。所以只有提出一個合理完善的心理表征,才能建立一個完整的識別模型,從而對物體識別的心理機制做出合理解釋。Stankiewicz也認為視點問題研究遇到困難的原因是,沒有弄清楚物體的心理表征[27]。
其次,實驗材料的選取不當,會對物體識別研究產(chǎn)生影響。研究中經(jīng)常會用到熟悉物和新異物。所謂熟悉物,就是人們?nèi)粘I钪锌梢砸姷降奈矬w;所謂新異物,就是日常生活中沒有的物體,大多是實驗者重新構(gòu)造出來的。當使用熟悉物時,不同被試對不同物體的熟悉程度是不同的。Biederman和Gerhardstein在1993年的關鍵文章中[2],采用了熟悉物作為實驗材料。物體的熟悉程度受被試的日常經(jīng)驗影響,具有個體差異;而且它是一個模糊的,不易精確測量的概念。熟悉程度會影響實驗績效,但在研究中沒有被精確控制,所以實驗效度必然會受到影響。他們以此結(jié)果來說明熟悉物體的識別過程是不夠嚴謹?shù)。當使用新異物時,又可以分為兩種情況,一種是由我們?nèi)粘J煜さ膸缀误w組合成的新異物(如Biederman和Gerhardstein的1993年文章中實驗3和實驗5的情況[2]),一種是人造的變形蟲狀的物體(amoeba-like)[28]。第一種新異物雖然日常生活中沒有,但對其組成部分人們是熟悉的;第二種新異物是完全不熟悉的。這兩種物體的識別情況應該是有差別的,不能混為一談來說明新異物的識別。在今后的實驗研究中,必須明確分清物體的熟悉情況,并有效操控它,才能準確說明物體識別心理機制。
再次,實驗操控問題也會引起爭論。視點研究常用的實驗范式是異同判斷,即首先呈現(xiàn)一幅物體圖像,然后是掩蔽,再呈現(xiàn)一幅物體圖像,最后還是掩蔽,要求被試判斷先后呈現(xiàn)的兩副圖像中的物體是否是同一物體,后面呈現(xiàn)的圖像中的物體通常是前一幅圖像中的物體在深度上旋轉(zhuǎn)一定的角度所產(chǎn)生的。隨著深度上旋轉(zhuǎn),物體圖像會發(fā)生或多或少的變化,旋轉(zhuǎn)角度與圖像的變化并沒有直接聯(lián)系。識別績效最終是與圖像的變化程度有關的。所以,完善的實驗研究應該分析圖像變化與識別績效間的關系,而不是只停留在旋轉(zhuǎn)角度與識別績效的關系上;且應該全面分析因為深度旋轉(zhuǎn)而使物體圖像產(chǎn)生的變化趨勢,以及這些變化導致的物體識別績效的變化。要探討物體識別機制,僅依靠局部的變化情況是不夠的。Biederman和Gerhardstein的1993年文章[2]中實驗4驗證了單個幾何離子的識別是視點獨立的。Hayward和Tarr[9] 1997年采用了類似Biederman和Gerhardstein研究中的實驗材料――幾何離子[2],將幾何離子的視點變化分為質(zhì)的變化和量的變化進行研究。質(zhì)的變化指物體圖像發(fā)生劇烈的變化,量的變化指物體圖像發(fā)生平緩的變化。實驗結(jié)果表明單個幾何離子的識別是視點依賴的。他們的實驗結(jié)果出現(xiàn)差異的原因是:Hayward和Tarr的實驗操控結(jié)果與Biederman和Gerhardstein的實驗操控結(jié)果不同,所以被試看到的圖像變化是不同的,會得出不同的實驗績效。Hayward和Tarr根據(jù)他們的實驗結(jié)果對Biederman和Gerhardstein的研究[2]提出質(zhì)疑,是不妥當?shù)摹?
最后,被試的日常經(jīng)驗難以控制,也會對實驗研究造成很大影響。被試的日常經(jīng)驗受多個因素影響:家庭環(huán)境、所受教育、社會背景等等,難以進行有效的控制。被試對物體的熟悉程度可以分為兩方面描述:熟悉物的不同描述維度和各維度的熟悉程度。研究者通常將實驗材料分為熟悉物和新異物,新異物又可分兩種情況:完全新異[28]和部分新異[2](即整體是新異的,但組成部分是熟悉的)。但這種分類并沒有解決熟悉性問題。因為即使進行了實驗材料的分類,類別內(nèi)還是有熟悉性差異的。如部分新異的情況:雖然整體是新異的,但各組成部分是熟悉的;因為被試對各組成部分的熟悉程度是不同的,所以實驗績效也會不同,以致不能根據(jù)這樣的實驗結(jié)果得出正確結(jié)論。因此,在以后的研究中,對被試的日常經(jīng)驗必須嚴格控制或平衡,才能保證實驗結(jié)果的有效性。
綜上所述,如果能注重對識別模型的完善,并選取合適的實驗材料、實驗范式和被試,就可以增強研究的有效性,并使視點問題的研究向正確方向發(fā)展。
參考文獻
[1] Tarr M J. Vision: object recognition. In: L Nadel (ed.), R Goldstone (Section ed.). Encyclopedia of cognitive science. London, UK: Nature Publishing Group/Macmillan Publishers Limited, 2002. 490~494
[2] Biederman I, Gerhardstein P C. Recognizing depth-rotated objects: evidence and conditions for three-dimensional viewpoint invariance. Journal of Experimental Psychology: Human Perception and Performance, 1993, 19(6): 1162~1182
[3] Biederman I, Gerhardstein P C. Viewpoint-dependent mechanisms in visual object recognition: reply to Tarr and Bülthoff (1995). Journal of Experimental Psychology: Human Perception and Performance, 1995, 21(6): 1506~1514
[4] Biederman I, Bar M. One-shot viewpoint invariance in matching novel objects. Vision Research, 1999, 39: 2885~2899
[5] Tarr M J, Pinker S. Mental rotation and orientation-dependence in shape recognition. Cognitive Psychology, 1989, 21(2): 233~282
[6] Tarr M J. Rotating objects to recognition them: a case study of the role of viewpoint dependency in the recognition of three-dimensional objects. Psychonomic Bulletin & Review, 1995, 2(1): 55~82
[7] Tarr M J, Bülthoff H H. Is human object recognition better described by geon-structural-descriptions or by multiple- views? comment on Biederman and Gerhardstein (1993). Journal of Experimental Psychology: Human Perception and Performance, 1995, 21(6): 1494~1505
[8] Bülthoff H H, Edelman S. Psychophysical support for a two-dimensional view interpolation theory of object recognition. Proceedings of the National Academy of Science of the United States of America, 1992, 89: 60~64
[9] Hayward W G, Tarr M J. Testing conditions for viewpoint invariance in object recognition. Journal of Experimental Psychology: Human Perception and Performance, 1997, 23(5): 1511~1521
[10] Bar M. Viewpoint dependency in visual object recognition does not necessarily imply view-centered representation. Journal of Cognitive Neuroscience, 2001, 13(6): 793~799
[11] Marr D. 視覺計算理論. 姚國正等譯. 北京: 科學出版社, 1988. 282~345
[12] Ullman S. An approach to object recognition: aligning pictorial descriptions. A.I. Memo 931, The Artificial Intelligence Lab., M.I.T., 1986. 1~57
[13] Marr D, Nishihara H K. Representation and recognition of the spatial organization of three dimensional shapes. A.I. Memo 416, The Artificial Intelligence Lab., M.I.T., 1977. 1~33
[14] Biederman I. Recognition-by-Components: a theory of human image understanding. Psychological Review, 1987, 94(2): 115~147
[15] Tarr M J, Vuong Q C. Visual object recognition. In: H Pashler (Series ed.), S Yantis (ed.). Stevens’ handbook of experimental psychology: Vol. 1. sensation and perception (3rd ed., Vol.1). New York, NY: John Wiley & Sons, Inc., 2002. 287~314
[16] Perrett D I, Oram M W, Ashbridge E.Evidence accumulation in cell populations responsive to faces: an account of generalisation of recognition without mental transformations. Cognition, 1998, 67(1, 2): 111~145
[17] Wong A C-N, Hayward W G. Constraints on view combination: effects of self-occlusion and differences among familiar and novel views. Journal of Experimental Psychology: Human Perception and Performance, 2005, 31(1): 110~121
[18] Ullman S, Bart E. Recognition invariance obtained by extended and invariant features. Neural Networks, 2004, 17: 833~848
[19] Tarr M J, Bülthoff H H. Image-based object recognition in man, monkey and machine. Cognition, 1998, 67: 1~20
[20] Stankiewicz B J. Empirical evidence for independent dimensions in the visual representation of three-dimensional shape. Journal of Experimental Psychology: Human Perception and Performance, 2002, 28: 913~932
[21] Wilson K D, Farah M J. When does the visual system use viewpoint-invariant representations during recognition? Cognitive Brain Research, 2003, 16: 399~415
[22] Foster D H, Gilson S J. Recognizing novel three-dimensional objects by summing signals from parts and views. Proceedings of the Royal Society of London, B, 2002, 269: 1939~1947
[23] Newell F N, Sheppard D M, Edelman S, et al. The interaction of shape- and location-based priming in object categorization: evidence for a hybrid “what + where” representation stage. Vision Research, 2005, 45: 2065~2080
[24] Tanaka J, Weiskopf D, Williams P. The role of color in high-level vision. Trends in Cognitive Sciences, 2001, 5(5): 211~215
[25] Rossion B, Pourtois G. Revisiting Snodgrass and Vanderwart’s object pictorial set: the role surface detail in basic-level object recognition. Perception, 2004, 33: 217~236
[26] Vuilleumier P, Henson R N, Driver J, et al. Multiple levels of visual object constancy revealed by event-related fMRI of repetition priming. Nature Neuroscience, 2002, 5(5): 491~499
[27] Stankiewicz B J. Just another view. Trends in Cognitive Sciences, 2003, 7(12): 526
[28] Edelman S, Bülthoff H H. Orientation dependence in the recognition of familiar and novel views of three-dimensional objects. Vision Research, 1992, 32(12): 2385~2400
The Viewpoint Debates in Object Recognition
Chen Peng, Fu Dejiang
(Department of Psychology Behavioral Sciences, Zhejiang University, Hangzhou 310028, China)
Abstract: The viewpoint has been the focus of the debates in many recent object recognition studies. Two major theories about the viewpoint, structural description model and image-based model, and some recent research are reviewed. The shortcomings of the current research are pointed out, and the solution to the debate, which is that improving the object representation model, is discussed in this article.
Key words: object recognition, viewpoint, representation.
收稿日期:2005-04-28
通訊作者:符德江,E-mail: fdj@mail.hz.省略
相關熱詞搜索:物體 視點 識別 物體識別中的視點問題 疊加物體摩擦力問題 疊放物體的摩擦力分析
熱點文章閱讀