這是一個相當好的問題,我最近一直在思考一些新的論文,強調了面孔各個特徵之間的相互關係與鏈接。尤其是反思 Calder & Young (2005)的精彩綜述之後特意查閲了相關論文, 深感面孔處理的精妙,以及深藏的處理 ‘算法’ 之巧妙。儘讓我斗膽在此大致介紹下自己的理解,望批評指正。
(最近我有個 Live,在週六,也是説關於面孔識別。有興趣可以來看看華沙的 Live—— 看臉的科學第二集)
按照 David Marr 等視覺研究大神的精彩觀點,我們任何的視覺處理都是信息處理(而非簡單地、粗暴地處理看到東西本身);很顯然面孔,這一種最為重要的、與社會生活息息相關的視覺信息不能免俗,也是一種信息處理過程。所以題主提到能不能用計算機模擬其實是個非常好的問題,馮諾依曼機作為以人類為原本的計算機,完全應該有人類的能力。不過,很抱歉,我們目前都沒有完全理解視覺過程,而目前計算機的很多 CV 研究並不完全按照人類的識別方法進行(老實説,可能計算機視覺和人類視覺的交際也就到 70 年代 Hubel & Wiseal 的論文為止了吧)。所以我的觀點其實很簡單,計算機目前基於更強的計算能力,完全可以利用已知的一些大腦處理面孔方式對於面孔進行分析,但是效率和準確度和人類不好比(嚴格説是效率);當我們更加理解了大腦的原理之後,相信不在不遠的將來,計算機完全可以做到更好。
那麼人類本身用什麼算法呢?
很簡單,整體識別。
我先説下,面孔識別的相關大腦結構。按照經典的面孔識別模型(Bruce & Young, 1986; Haxby, Hoffman, & Gobbinni, 2000),我們大腦利用 FFA(梭狀回面孔區;Kanwisher, McDermott, & Chun, 1997),pSTS(後顳上溝皮層; Hoffman & Haxby, 2000),OFA(枕葉面孔區; 如 Yovel, Kanwisher, 2005)這三個核心面孔處理區域以及 ‘借用’ 其餘的視覺和高級處理皮層達到面孔的識別。這幾個腦區有多重要呢,我舉個不恰當的例子,人類的好朋友狗狗們,就是因為有類似人一樣的面孔識別區域(也在下顳葉,和人類位置很接近;Dilks et al., 2015),才能記住主人的面孔。
就如同 Mishkin 與 Ungerleider 教授(1982)的精彩研究結論一樣,我們處理面孔的時候也把信息分為了兩束進行分析。第一束往下顳葉走更加依賴於 FFA,往往是處理面孔上不變的信息,比如身份(是誰);而另一束往頂葉走,依賴於 pSTS,處理面孔上動態的信息,比如表情,面孔方向等。這就是面孔處理的一個基本算法。也就是依賴核心腦區(佐以其餘神經系統幫助),把面孔信息進行粗略劃分之後進行分析。當然杏仁核等邊緣系統可以從上丘直接獲得輸出(此處不展開,可以看看我專欄提到的),但是大致途徑類似。總體而言,面孔上的信息會在 FFA 進行彙總(Yovel, Kanwisher, 2006),然後往更高級視覺皮層傳遞。那麼這部分信息到底是什麼呢?這就是整體識別的關鍵信息。
可能和大家想象的不一樣,我們識別面孔的時候其實並不是只依賴一些局部的信息,比如眼睛、嘴巴。而是把面孔上的信息彙總在一起,成為一個整體來進行分析(如 Yin,1969 發現的面孔倒置效應就是整體識別的一個好佐證)。這樣的分析高效快捷。那麼整體是怎麼分析的呢?這就得説道一個筆者特別喜歡的觀點:面孔模板假説。
我們對於面孔的理解和分析都基於我們所看到的面孔(Webster & MacLeod, 2011)。倘若我們把所有面孔都假設存放與一張平面上,那就是一張面孔的地圖(Valentine, 1991)。這一章地圖就是反映我們識別面孔的方法:我們的算法就是通過上述大腦區域的羣體編碼,根據不同神經細胞的活動程度,我們可以在腦海中形成一個 ‘矩陣’,這個矩陣編碼了看到的圖片在某個判斷維度上(如表情)與模板(如表情模板)的距離;通過這個距離,我們可以清楚明白這張面孔傳遞的信息。因為通過模板,信息得到簡化,可以更高效分析。甚至可以説面孔的處理基本都是以這個方法進行,所以説面孔處理可以説在算法層面互有重疊(Calder & Young,2005)。
再具體一點,整體識別中的信息就是面孔上的二階關係信息(second-order rational information)比如説五官之間的距離,嘴角的彎曲程度之類的(Maurer, 2002)。這部分信息與模板的對比就是筆者所提到的 ‘矩陣’ (用矩陣更方便理解)。基於篇幅原因不展開討論。
簡而言之,大腦處理面孔信息的時候,往往提取出面孔上信息的相互關係,以與模板距離的方法整體識別面孔。這就是大腦處理面孔信息 ‘算法’ 的一個簡單介紹。
參考文獻
Bruce, V., & Young, A. (1986). Understanding face recognition. British journal of psychology, 77(3), 305-327.
Burton, N., Jeffery, L., Calder, A. J., & Rhodes, G. (2015). How is facial expression coded?. Journal of vision, 15(1), 1-1.
Calder, A. J., & Young, A. W. (2005). Understanding the recognition of facial identity and facial expression. Nature Reviews Neuroscience, 6(8), 641-651.
Dilks, D. D., Cook, P., Weiller, S. K., Berns, H. P., Spivak, M., & Berns, G. S. (2015). Awake fMRI reveals a specialized region in dog temporal cortex for face processing. PeerJ, 3, e1115.
Haxby, J. V., Hoffman, E. A., & Gobbini, M. I. (2000). The distributed human neural system for face perception. Trends in cognitive sciences, 4(6), 223-233.
Hoffman, E. A., & Haxby, J. V. (2000). Distinct representations of eye gaze and identity in the distributed human neural system for face perception.Nature neuroscience, 3(1), 80-84.
Kanwisher, N., & Yovel, G. (2006). The fusiform face area: a cortical region specialized for the perception of faces. Philosophical Transactions of the Royal Society of London B: Biological Sciences, 361(1476), 2109-2128.
Kanwisher, N., McDermott, J., & Chun, M. M. (1997). The fusiform face area: a module in human extrastriate cortex specialized for face perception. The Journal of neuroscience, 17(11), 4302-4311.
Valentine T. (1991). A unified account of the effects of distinctiveness, inversion, and race in face recognition. Quarterly Journal of Experimental Psychology, 43A, 161–240.
Webster, M. A., & MacLeod, D. I. (2011). Visual adaptation and face perception. Philosophical Transactions of the Royal Society B: Biological Sciences, 366(1571), 1702-1725.
Yin, R. K. (1969). Looking at upside-down faces. Journal of experimental psychology, 81(1), 141.
Yovel, G., & Kanwisher, N. (2005). The neural basis of the behavioral face-inversion effect. Current Biology, 15(24), 2256-2262.
Zeth
如大多數人説的那樣,機制未完全清楚。我從一個外行人的角度將目前瞭解到的部分信息進行粗略整理及推測
1. 時間上:
2. 空間上:和以下兩個區域有關
FFA (Fusiform face area,不知道中文怎麼譯,梭形人臉識別區?)
ATL (anterior temporal lobe,前顳葉)
1. 時間上
用經顱磁刺激(經顱磁刺激)在識別材料出現後 40~50 毫秒對人進行刺激,發現這同等程度地影響人臉識別 vs. 身體識別、人臉識別相關區域 (rOFA) vs. 身體識別相關區域 (rEBA) 4 種組合下兩個相關區域的活動程度;由此推測在這個時間段內,人腦對材料進行無差別的預處理 (Goldhaber et al., 2012)
用經顱磁刺激在識別材料出現後 100~110 毫秒對人進行刺激,發現隻影響人臉識別情況下 rOFA 的活動,以及身體識別情況下 rEBA 的活動 (Goldhaber et al., 2012)。另外,腦磁圖(腦磁圖)研究發現,材料出現後 100 毫秒那一刻出現了一個和人臉識別相關的腦磁波(M100),它和材料分類的成功率相關,而和材料識別的成功率無顯著相關 (Liu, Harris & Kanwisher, 2002)。由此推測在這個時間段內,人腦對材料進行分類處理
130~200 毫秒這個階段,和它有關的就是比較有名的腦電波 N170。研究發現這個腦電波和結構編碼有關 (Rossion & Jacques, 2008);而它的強度在進行明星臉、陌生人臉時無顯著差異 (Gosling & Eimer, 2011)。簡而言之,人腦在這個階段對人臉的結構進行處理,但沒有進行身份信息的處理
230~400 毫秒階段出現的腦電波 N250,研究發現它在進行明星臉孔識別時有更強的負向信號(對比在進行陌生人臉孔識別時);由此推測在這個階段,人腦對人臉進行身份信息的處理 (Gosling & Eimer, 2011)
400~700 毫秒階段,研究發現在對明星臉孔進行識別時,左腦區的 P600f 顯著更強(對比一在進行陌生人臉孔識別時);左腦區被認為有語言信息的特異性處理功能;由此推測在這個階段,人腦進行人臉和姓名的配對(Gosling & Eimer, 2011)
2. 空間上
FFA 在人臉識別上的特異性已經得到比較廣泛的認可,最初發現這塊區域印象中是讓人看人臉和房子的圖片時做功能性磁共振成像,然後發現有一個區域只在看人臉時活動強度比看房子時大,這個區域後來被命名為 FFA。大概位置看下面兩個圖
最近幾年發現了一個新的區域(位於前顳葉 ATL),這個區域同樣只在看到人臉時被激活(對比看房子)。另外研究還發現即使是看倒立臉孔時,FFA 和 ATL 都被激活,而且識別成功率和 ATL 激活程度有顯著相關,但和 FFA 激活程度相關不顯著 (Nasr & Tootell, 2012)
參考資料
Goldhaber, T., Duchaine, B., Walsh, V., Pitcher, D., & Kanwisher, N. (2012). Two Critical and Functionally Distinct Stages of Face and Body Perception.
Gosling, A., & Eimer, M. (2011). An event-related brain potential study of explicit face recognition. Neuropsychologia, 49(9), 2736-2745.
Liu, J., Harris, A., & Kanwisher, N. (2002). Stages of processing in face perception: an MEG study. Nature neuroscience, 5(9), 910-916.
Nasr, S., & Tootell, R. B. (2012). Role of fusiform and anterior temporal cortical areas in facial recognition. Neuroimage, 63(3), 1743-1753.
Rossion, B., & Jacques, C. (2008). Does physical interstimulus variance account for early electrophysiological face sensitive responses in the human brain? Ten lessons on the N170. Neuroimage, 39(4), 1959-1979.