新聞動态

NEWS

人臉識别技(jì)術(shù)的前世今生(shēng)
來源: | 作者:jungle | 發布時間: 2021-02-22 | 6093 次浏覽 | 分享到(dào):

  武漢安裝人臉識别門(mén)禁一(yī)卡通(tōng)系統|無人值守車牌識别停車場|景區電(diàn)子票務系統掃碼檢票閘機(jī)|擺閘通(tōng)道閘機(jī)|考勤機(jī)|消費(fèi)機(jī)|水(shuǐ)控機(jī)|手機(jī)二維碼門(mén)禁考勤系統。   
      在我們生(shēng)存的這個(gè)地球上(shàng),居住著(zhe)近65億人。每個(gè)人的面孔都由額頭、眉毛、眼睛、鼻子、嘴巴、雙頰等少數幾個(gè)區域組合而成,它們之間的大體位置關系也是固定的,并且每張臉的大小(xiǎo)不過七八寸見(jiàn)方。然而,它們居然就(jiù)形成了那麽複雜(zá)的模式,即使是面容極其相(xiàng)似的雙胞胎,其家人通(tōng)常也能(néng)夠非常容易地根據他們面孔上(shàng)的細微差異将他們區分開(kāi)來。這使得我們不得不承認這個(gè)世界上(shàng)找不出兩張完全相(xiàng)同的人臉!那麽,區分如此衆多(duō)的不同人臉的“特征”到(dào)底是什麽?能(néng)否設計出具有與人類一(yī)樣的人臉識别能(néng)力的自(zì)動機(jī)器(qì)?這種自(zì)動機(jī)器(qì)的人臉識别能(néng)力是否能(néng)夠超越人類自(zì)身?對這些問題的分析和解答無疑具有重要的理論和應用價值,這正是衆多(duō)從(cóng)事(shì)自(zì)動人臉識别研究的研究人員(yuán)所面臨的挑戰。

然而,對這些問題的回答并不像看(kàn)起來那麽容易。即使在大量來自(zì)模式識别、計算(suàn)機(jī)視覺、神經計算(suàn)、生(shēng)理學等領域的研究人員(yuán)對自(zì)動人臉識别艱苦工(gōng)作40餘年(nián)之後,這些最基本的科學問題仍然困惑著(zhe)研究人員(yuán)。而退一(yī)步講,即使對我們自(zì)己,盡管我們每天都在根據面孔區分著(zhe)親人、同學、朋友(yǒu)、同事(shì)等,大多(duō)數人卻很難準确地描述出自(zì)己到(dào)底是如何區分他們的,甚至描述不出自(zì)己熟悉的人有什麽具體的特征。即使專門(mén)從(cóng)事(shì)相(xiàng)關的生(shēng)理學、心理學、神經科學研究的一(yī)些專家,也很難描述清楚人類人臉識别的生(shēng)理學過程。這意味著(zhe)基于仿生(shēng)學的人臉識别研究路(lù)線在實踐上(shàng)是難以操作的。當然,飛(fēi)機(jī)的翅膀并不需要像鳥兒的翅膀一(yī)樣煽動,自(zì)動人臉識别的計算(suàn)模型也未必需要模拟“人腦(nǎo)”。我們也許可以通(tōng)過另外的途徑,例如建立人臉識别的計算(suàn)模型,這種計算(suàn)模型可能(néng)是基于仿生(shēng)神經網絡的,也可能(néng)是純粹基于統計的,或者是這二者之外的第三隻眼睛,并通(tōng)過構建實用的自(zì)動人臉識别系統來驗證這些計算(suàn)模型,從(cóng)而找出對上(shàng)述基本科學問題的解答。

本文首先給出了人臉識别的一(yī)個(gè)一(yī)般計算(suàn)模型,然後簡單回顧自(zì)動人臉識别的研究曆史,接下(xià)來闡述人臉識别的研究現狀并介紹幾種主流的技(jì)術(shù)方法,簡單介紹計算(suàn)所人臉識别研究組的研究進展,最後對上(shàng)述哲學層面的問題作了一(yī)些簡單的探讨。

2         計算(suàn)模型初探
通(tōng)常我們所說的人臉識别是基于光(guāng)學人臉圖像的身份識别與驗證的簡稱。光(guāng)學人臉圖像(以下(xià)簡稱人臉圖像)是外界光(guāng)源(包括太陽、室内人造光(guāng)源和其他物(wù)體表面反射)的光(guāng)線照(zhào)射在人臉上(shàng),經人臉表面反射後傳播到(dào)攝像機(jī)傳感器(qì)的光(guāng)線強度的度量。不難理解,這一(yī)成像過程實際上(shàng)涉及到(dào)三大類關鍵要素:

1.         人臉内部屬性:包括人臉表面的反射屬性(如反射系數等,通(tōng)常簡稱為(wèi)紋理--Texture)、人臉3D形狀(表面法向量方向)、人臉表情、胡須等屬性的變化;

2.         外部成像條件(jiàn):包括光(guāng)源(位置和強度等)、其他物(wù)體(比如眼鏡、帽子)或者人體其他部件(jiàn)(比如頭發)對人臉的遮擋等;

3.         攝像機(jī)成像參數:包括攝像機(jī)位置(視點)、攝像機(jī)的焦距、光(guāng)圈、快門(mén)速度等内外部參數

因此,光(guāng)學人臉圖像的成像過程可以簡單地形式化為(wèi):

 (1) 其中,函數f表示成像函數,F,L和C分别表示人臉内部屬性、外部成像條件(jiàn)和攝像機(jī)成像參數這三類要素,I為(wèi)生(shēng)成的人臉圖像。如果我們進一(yī)步假設:人臉皮膚的反射屬性滿足朗博(Lambertian)模型,人臉為(wèi)凸表面結構,光(guāng)源為(wèi)無窮遠(yuǎn)處的單色點光(guāng)源,上(shàng)述成像公式可以進一(yī)步改寫為(wèi):

 (2) 其中, 表示人臉表面的一(yī)點P的三維坐标; 表示P點的表面反射率; 表示P點的表面法向量方向; 表示光(guāng)源的方向和強度; 表示攝像機(jī)的成像函數;而 則為(wèi)攝像機(jī)最終輸出的對應P點的圖像像素的強度。不難理解,在上(shàng)述成像過程中,人臉表面3D結構及其反射屬性才是人臉相(xiàng)對穩定的本質屬性,是人臉識别算(suàn)法應該賴以區分不同人臉的主要特征。而人臉表情變化、有無胡須等盡管也屬于人臉内部屬性,但因為(wèi)具有可變性而不能(néng)作為(wèi)人臉的區分特征。光(guāng)源等外部成像條件(jiàn)以及攝像機(jī)參數等外部因素就(jiù)更不能(néng)作為(wèi)人臉識别依賴的屬性。

綜上(shàng)所述,理想情況下(xià),要根據人臉圖像區分出不同的人臉,根本上(shàng)似乎需要從(cóng)人臉圖像表觀中分離開(kāi)人臉穩定不變的本質屬性(3D形狀與表面反射率)與外界條件(jiàn)和攝像參數。然後,從(cóng)3D形狀與表面反射率屬性中提取不同人臉的差異信息,饋入到(dào)後端的判别分類器(qì)中進行識别。設輸入圖像為(wèi)I,這一(yī)過程可以形式化為(wèi)以下(xià)三個(gè)步驟:

1.         屬性分離。分離人臉本質屬性要素與光(guāng)源條件(jiàn)s*、攝像參數c*等外部參數要素:

2.         特征提取。從(cóng)人臉屬性要素中提取能(néng)夠體現特定人臉身份的特征:其中,T表示特征提取過程。

3.         分類判别。将提取的特征與數據庫中存儲的已知人臉特征進行對比,選擇相(xiàng)似度最大的人臉作為(wèi)輸入人臉的身份信息:

其中,Sim(.)表示計算(suàn)特征之間的相(xiàng)似度, 表示已知人臉集合。

然而,這一(yī)過程并不那麽簡單直接:從(cóng)單一(yī)未知光(guāng)源條件(jiàn)的圖像中恢複3D形狀信息和表面反射率是經典的視覺難題,本質上(shàng)是一(yī)個(gè)病态的問題。盡管近年(nián)來研究人員(yuán)通(tōng)過利用各種約束條件(jiàn)和先驗知識可以在一(yī)定程度上(shàng)實現該功能(néng),或者要求多(duō)幅不同光(guāng)照(zhào)條件(jiàn)下(xià)的圖像以便得到(dào)更精确的估計結果,但直到(dào)現在仍沒有取得本質的突破。除了少數采用特殊設備獲取人臉3D結構的系統外,多(duō)數系統不得不退而求其次,采用的人臉建模方法仍然停留在圖像表觀層面上(shàng),并沒有使用對3D形狀和紋理進行顯式分離的步驟,而是直接從(cóng)圖像表觀中提取判别特征并進行分類來完成識别,此時公式(2-4)相(xiàng)應地改寫為(wèi):
例如,在基于面部結構幾何特征的人臉識别方法中,T通(tōng)常是一(yī)個(gè)計算(suàn)面部主要器(qì)官(眉毛、眼睛、鼻子、嘴巴和下(xià)巴)的大小(xiǎo)、形狀、位置和角度關系等幾何度量參數的過程,最終形成的特征F*是一(yī)個(gè)反映這些幾何度量的特征向量。對于模闆匹配方法而言,T是對人臉圖像進行幾何歸一(yī)化和亮度校正的過程,得到(dào)的F*則是一(yī)個(gè)反映圖像各像素點亮度的二維數據矩陣。再比如對“特征臉”方法而言,T是一(yī)個(gè)将高(gāo)維空間中的人臉圖像降維到(dào)一(yī)個(gè)低(dī)維子空間中的變換(主成分分析),形成的特征F*是降維後的主成分特征分量。

需要指出的是,近年(nián)來布蘭茲(Blanz)和維特(Vetter)等人提出的3D變形模型方法是上(shàng)述理論計算(suàn)模型的重要嘗試,已經引起了研究人員(yuán)的高(gāo)度重視。盡管還(hái)存在很多(duō)困難,比如速度和恢複精度問題,但相(xiàng)信此方面的工(gōng)作近期會(huì)有更大的突破。

研究簡史
人臉識别的研究曆史比較悠久。高(gāo)爾頓(Galton)早在1888年(nián)和1910年(nián)就(jiù)分别在《Nature》雜(zá)志(zhì)發表了兩篇關于利用人臉進行身份識别的文章,對人類自(zì)身的人臉識别能(néng)力進行了分析。但當時還(hái)不可能(néng)涉及到(dào)人臉的自(zì)動識别問題。最早的AFR[1]的研究論文見(jiàn)于1965年(nián)陳(Chan)和布萊索(Bledsoe)在Panoramic Research Inc.發表的技(jì)術(shù)報(bào)告,至今已有四十年(nián)的曆史。近年(nián)來,人臉識别研究得到(dào)了諸多(duō)研究人員(yuán)的青睐,湧現出了諸多(duō)技(jì)術(shù)方法。尤其是1990年(nián)以來,人臉識别更得到(dào)了長(cháng)足的發展。幾乎所有知名的理工(gōng)科大學和主要IT産業(yè)公司都有研究組在從(cóng)事(shì)相(xiàng)關研究。

表1 人臉識别發展曆史簡表

階段
1964~1990
1991~1997
1998-現在

主要
特征
作為(wèi)一(yī)般識别問題研究,基于特征的方法是主流
重點是較理想條件(jiàn)下(xià)、用戶配合、中小(xiǎo)規模數據庫上(shàng)的識别問題;基于表觀的子空間分析和統計方法是主流;
重點是非理想條件(jiàn)、用戶不配合、大規模數據庫的識别問題;3D和非線性是趨勢;

代表性的人臉識别技(jì)術(shù)與方法
及其關鍵性事(shì)件(jiàn)和作品
已知的最早的AFR研究論文
特征臉(Eigenface)
光(guāng)照(zhào)錐技(jì)術(shù)


基于特征的方法與基于模闆的方法對比
SVM[2]用于人臉識别中

首個(gè)半自(zì)動人臉識别系統
 
美國(guó)DARPA[3]啓動FERET[4]測試項目
3D可變形模型

第一(yī)篇AFR方面的博士論文
局部特征分析(LFA[5])人臉識别方法發展成為(wèi)Visionics公司FaceIt商業(yè)系統
基于AdaBoost[6]的人臉檢測技(jì)術(shù)


基于剪影分析的人臉識别
基于雙子空間的貝葉斯概率學習
流形學習ISOMAP[7], LLE[8]


人臉識别研究綜述
朗博反射與線性空間分析


人臉的低(dī)維表示
Fisherface[9]
基于商圖像的識别方法


彈性圖匹配技(jì)術(shù)
人臉檢測綜述


ASM/AAM[10]
FRVT[11]2000, 2002測試

技(jì)術(shù)特點
基于特征的方法
基于模闆的方法


---
基于神經網絡的識别方法
---

---
基于表觀的2D人臉子空間分析與統計學習方法

線性模型方法
非線性流形分析技(jì)術(shù)

基于2D圖像模型的人臉識别
基于3D模型的人臉識别

人臉識别是一(yī)個(gè)被廣泛研究著(zhe)的熱門(mén)問題,大量的研究論文層出不窮,在一(yī)定程度上(shàng)有泛濫成“災”之嫌。為(wèi)了更好地對人臉識别研究的曆史和現狀進行介紹,本文将AFR的研究曆史按照(zhào)研究内容、技(jì)術(shù)方法等方面的特點大體劃分為(wèi)三個(gè)時間階段,如表1所示。該表格概括了人臉識别研究的發展簡史及其每個(gè)曆史階段代表性的研究工(gōng)作及其技(jì)術(shù)特點。下(xià)面對三個(gè)階段的研究進展情況作簡單介紹:

第一(yī)階段(1964年(nián)~1990年(nián))

這一(yī)階段人臉識别通(tōng)常隻是作為(wèi)一(yī)個(gè)一(yī)般性的模式識别問題來研究,所采用的主要技(jì)術(shù)方案是基于人臉幾何結構特征(Geometric feature based)的方法。這集中體現在人們對于剪影(Profile)的研究上(shàng),人們對面部剪影曲線的結構特征提取與分析方面進行了大量研究。人工(gōng)神經網絡也一(yī)度曾經被研究人員(yuán)用于人臉識别問題中。較早從(cóng)事(shì)AFR研究的研究人員(yuán)除了布萊索(Bledsoe)外還(hái)有戈登斯泰因(Goldstein)、哈蒙(Harmon)以及金出武雄(Kanade Takeo)等。金出武雄于1973年(nián)在京都大學完成了第一(yī)篇AFR方面的博士論文,直到(dào)現在,作為(wèi)卡内基-梅隆大學(CMU)機(jī)器(qì)人研究院的一(yī)名教授,仍然是人臉識别領域的活躍人物(wù)之一(yī)。他所在的研究組也是人臉識别領域的一(yī)支重要力量。總體而言,這一(yī)階段是人臉識别研究的初級階段,非常重要的成果不是很多(duō),也基本沒有獲得實際應用。

第二階段(1991年(nián)~1997年(nián))

這一(yī)階段盡管時間相(xiàng)對短暫,但卻是人臉識别研究的高(gāo)潮期,可謂碩果累累:不但誕生(shēng)了若幹代表性的人臉識别算(suàn)法,美國(guó)軍方還(hái)組織了著名的FERET人臉識别算(suàn)法測試,并出現了若幹商業(yè)化運作的人臉識别系統,比如最為(wèi)著名的Visionics(現為(wèi)Identix)的FaceIt系統。

美國(guó)麻省理工(gōng)學院(MIT)媒體實驗室的特克(Turk)和潘特蘭德(Pentland)提出的“特征臉”方法無疑是這一(yī)時期内最負盛名的人臉識别方法。其後的很多(duō)人臉識别技(jì)術(shù)都或多(duō)或少與特征臉有關系,現在特征臉已經與歸一(yī)化的協相(xiàng)關量(Normalized Correlation)方法一(yī)道成為(wèi)人臉識别的性能(néng)測試基準算(suàn)法。

這一(yī)時期的另一(yī)個(gè)重要工(gōng)作是麻省理工(gōng)學院人工(gōng)智能(néng)實驗室的布魯内裡(lǐ)(Brunelli)和波基奧(Poggio)于1992年(nián)左右做的一(yī)個(gè)對比實驗,他們對比了基于結構特征的方法與基于模闆匹配的方法的識别性能(néng),并給出了一(yī)個(gè)比較确定的結論:模闆匹配的方法優于基于特征的方法。這一(yī)導向性的結論與特征臉共同作用,基本中止了純粹的基于結構特征的人臉識别方法研究,并在很大程度上(shàng)促進了基于表觀(Appearance-based)的線性子空間建模和基于統計模式識别技(jì)術(shù)的人臉識别方法的發展,使其逐漸成為(wèi)主流的人臉識别技(jì)術(shù)。

貝爾胡米爾(Belhumeur)等提出的Fisherface人臉識别方法是這一(yī)時期的另一(yī)重要成果。該方法首先采用主成分分析(Principal Component Analysis,PCA,亦即特征臉)對圖像表觀特征進行降維。在此基礎上(shàng),采用線性判别分析(Linear Discriminant Analysis, LDA)的方法變換降維後的主成分以期獲得“盡量大的類間散度和盡量小(xiǎo)的類内散度”。該方法目前仍然是主流的人臉識别方法之一(yī),産生(shēng)了很多(duō)不同的變種,比如零空間法、子空間判别模型、增強判别模型、直接的LDA判别方法以及近期的一(yī)些基于核學習的改進策略。

麻省理工(gōng)學院的馬哈丹(Moghaddam)則在特征臉的基礎上(shàng),提出了基于雙子空間進行貝葉斯概率估計的人臉識别方法。該方法通(tōng)過“作差法”,将兩幅人臉圖像對的相(xiàng)似度計算(suàn)問題轉換為(wèi)一(yī)個(gè)兩類(類内差和類間差)分類問題,類内差和類間差數據都要首先通(tōng)過主成分分析(PCA)技(jì)術(shù)進行降維,計算(suàn)兩個(gè)類别的類條件(jiàn)概率密度,最後通(tōng)過貝葉斯決策(最大似然或者最大後驗概率)的方法來進行人臉識别。

人臉識别中的另一(yī)種重要方法——彈性圖匹配技(jì)術(shù)(Elastic Graph Matching,EGM) 也是在這一(yī)階段提出的。其基本思想是用一(yī)個(gè)屬性圖來描述人臉:屬性圖的頂點代表面部關鍵特征點,其屬性為(wèi)相(xiàng)應特征點處的多(duō)分辨率、多(duō)方向局部特征——Gabor變換[12]特征,稱為(wèi)Jet;邊的屬性則為(wèi)不同特征點之間的幾何關系。對任意輸入人臉圖像,彈性圖匹配通(tōng)過一(yī)種優化搜索策略來定位預先定義的若幹面部關鍵特征點,同時提取它們的Jet特征,得到(dào)輸入圖像的屬性圖。最後通(tōng)過計算(suàn)其與已知人臉屬性圖的相(xiàng)似度來完成識别過程。該方法的優點是既保留了面部的全局結構特征,也對人臉的關鍵局部特征進行了建模。近來還(hái)出現了一(yī)些對該方法的擴展。

局部特征分析技(jì)術(shù)是由洛克菲勒大學(Rockefeller University)的艾提克(Atick)等人提出的。LFA在本質上(shàng)是一(yī)種基于統計的低(dī)維對象描述方法,與隻能(néng)提取全局特征而且不能(néng)保留局部拓撲結構的PCA相(xiàng)比,LFA在全局PCA描述的基礎上(shàng)提取的特征是局部的,并能(néng)夠同時保留全局拓撲信息,從(cóng)而具有更佳的描述和判别能(néng)力。LFA技(jì)術(shù)已商業(yè)化為(wèi)著名的FaceIt系統,因此後期沒有發表新的學術(shù)進展。

由美國(guó)國(guó)防部反毒品技(jì)術(shù)發展計劃辦公室資助的FERET項目無疑是該階段内的一(yī)個(gè)至關重要的事(shì)件(jiàn)。FERET項目的目标是要開(kāi)發能(néng)夠為(wèi)安全、情報(bào)和執法部門(mén)使用的AFR技(jì)術(shù)。該項目包括三部分内容:資助若幹項人臉識别研究、創建FERET人臉圖像數據庫、組織FERET人臉識别性能(néng)評測。該項目分别于1994年(nián),1995年(nián)和1996年(nián)組織了3次人臉識别評測,幾種最知名的人臉識别算(suàn)法都參加了測試,極大地促進了這些算(suàn)法的改進和實用化。該測試的另一(yī)個(gè)重要貢獻是給出了人臉識别的進一(yī)步發展方向:光(guāng)照(zhào)、姿态等非理想采集條件(jiàn)下(xià)的人臉識别問題逐漸成為(wèi)熱點的研究方向。

柔性模型(Flexible Models)——包括主動形狀模型(ASM)和主動表觀模型(AAM)是這一(yī)時期内在人臉建模方面的一(yī)個(gè)重要貢獻。ASM/AAM将人臉描述為(wèi)2D形狀和紋理兩個(gè)分離的部分,分别用統計的方法進行建模(PCA),然後再進一(yī)步通(tōng)過PCA将二者融合起來對人臉進行統計建模。柔性模型具有良好的人臉合成能(néng)力,可以采用基于合成的圖像分析技(jì)術(shù)來對人臉圖像進行特征提取與建模。柔性模型目前已被廣泛用于人臉特征對準(Face Alignment)和識别中,并出現了很多(duō)的改進模型。

總體而言,這一(yī)階段的人臉識别技(jì)術(shù)發展非常迅速,所提出的算(suàn)法在較理想圖像采集條件(jiàn)、對象配合、中小(xiǎo)規模正面人臉數據庫上(shàng)達到(dào)了非常好的性能(néng),也因此出現了若幹知名的人臉識别商業(yè)公司。從(cóng)技(jì)術(shù)方案上(shàng)看(kàn), 2D人臉圖像線性子空間判别分析、統計表觀模型、統計模式識别方法是這一(yī)階段内的主流技(jì)術(shù)。

第三階段(1998年(nián)~現在)

FERET’96人臉識别算(suàn)法評估表明:主流的人臉識别技(jì)術(shù)對光(guāng)照(zhào)、姿态等由于非理想采集條件(jiàn)或者對象不配合造成的變化魯棒性比較差。因此,光(guāng)照(zhào)、姿态問題逐漸成為(wèi)研究熱點。與此同時,人臉識别的商業(yè)系統進一(yī)步發展。為(wèi)此,美國(guó)軍方在FERET測試的基礎上(shàng)分别于2000年(nián)和2002年(nián)組織了兩次商業(yè)系統評測。

基奧蓋蒂斯(Georghiades)等人提出的基于光(guāng)照(zhào)錐 (Illumination Cones) 模型的多(duō)姿态、多(duō)光(guāng)照(zhào)條件(jiàn)人臉識别方法是這一(yī)時期的重要成果之一(yī),他們證明了一(yī)個(gè)重要結論:同一(yī)人臉在同一(yī)視角、不同光(guāng)照(zhào)條件(jiàn)下(xià)的所有圖像在圖像空間中形成一(yī)個(gè)凸錐——即光(guāng)照(zhào)錐。為(wèi)了能(néng)夠從(cóng)少量未知光(guāng)照(zhào)條件(jiàn)的人臉圖像中計算(suàn)光(guāng)照(zhào)錐,他們還(hái)對傳統的光(guāng)度立體視覺方法進行了擴展,能(néng)夠在朗博模型、凸表面和遠(yuǎn)點光(guāng)源假設條件(jiàn)下(xià),根據未知光(guāng)照(zhào)條件(jiàn)的7幅同一(yī)視點圖像恢複物(wù)體的3D形狀和表面點的表面反射系數(傳統光(guāng)度立體視覺能(néng)夠根據給定的3幅已知光(guāng)照(zhào)條件(jiàn)的圖像恢複物(wù)體表面的法向量方向),從(cóng)而可以容易地合成該視角下(xià)任意光(guāng)照(zhào)條件(jiàn)的圖像,完成光(guāng)照(zhào)錐的計算(suàn)。識别則通(tōng)過計算(suàn)輸入圖像到(dào)每個(gè)光(guāng)照(zhào)錐的距離來完成。

以支持向量機(jī)為(wèi)代表的統計學習理論也在這一(yī)時期内被應用到(dào)了人臉識别與确認中來。支持向量機(jī)是一(yī)個(gè)兩類分類器(qì),而人臉識别則是一(yī)個(gè)多(duō)類問題。通(tōng)常有三種策略解決這個(gè)問題,即:類内差/類間差法、一(yī)對多(duō)法(one-to-rest)和一(yī)對一(yī)法(one-to-one)。

布蘭茲(Blanz)和維特(Vetter)等提出的基于3D變形(3D Morphable Model)模型的多(duō)姿态、多(duō)光(guāng)照(zhào)條件(jiàn)人臉圖像分析與識别方法是這一(yī)階段内一(yī)項開(kāi)創性的工(gōng)作。該方法在本質上(shàng)屬于基于合成的分析技(jì)術(shù),其主要貢獻在于它在3D形狀和紋理統計變形模型(類似于2D時候的AAM)的基礎上(shàng),同時還(hái)采用圖形學模拟的方法對圖像采集過程的透視投影和光(guāng)照(zhào)模型參數進行建模,從(cóng)而可以使得人臉形狀和紋理等人臉内部屬性與攝像機(jī)配置、光(guāng)照(zhào)情況等外部參數完全分開(kāi),更加有利于人臉圖像的分析與識别。Blanz的實驗表明,該方法在CMU-PIE(多(duō)姿态、光(guāng)照(zhào)和表情)人臉庫和FERET多(duō)姿态人臉庫上(shàng)都達到(dào)了相(xiàng)當高(gāo)的識别率,證明了該方法的有效性。

2001年(nián)的國(guó)際計算(suàn)機(jī)視覺大會(huì)(ICCV)上(shàng),康柏研究院的研究員(yuán)維奧拉(Viola)和瓊斯(Jones)展示了他們的一(yī)個(gè)基于簡單矩形特征和AdaBoost的實時人臉檢測系統,在CIF格式上(shàng)檢測準正面人臉的速度達到(dào)了每秒(miǎo)15幀以上(shàng)。該方法的主要貢獻包括:1)用可以快速計算(suàn)的簡單矩形特征作為(wèi)人臉圖像特征;2)基于AdaBoost将大量弱分類器(qì)進行組合形成強分類器(qì)的學習方法;3)采用了級聯(Cascade)技(jì)術(shù)提高(gāo)檢測速度。目前,基于這種人臉/非人臉學習的策略已經能(néng)夠實現準實時的多(duō)姿态人臉檢測與跟蹤。這為(wèi)後端的人臉識别提供了良好的基礎。

沙蘇哈(Shashua)等于2001年(nián)提出了一(yī)種基于商圖像[13]的人臉圖像識别與繪制技(jì)術(shù)。該技(jì)術(shù)是一(yī)種基于特定對象類圖像集合學習的繪制技(jì)術(shù),能(néng)夠根據訓練集合中的少量不同光(guāng)照(zhào)的圖像,合成任意輸入人臉圖像在各種光(guāng)照(zhào)條件(jiàn)下(xià)的合成圖像。基于此,沙蘇哈等還(hái)給出了對各種光(guāng)照(zhào)條件(jiàn)不變的人臉簽名(Signature)圖像的定義,可以用于光(guāng)照(zhào)不變的人臉識别,實驗表明了其有效性。

巴斯裡(lǐ)(Basri)和雅各布(Jacobs)則利用球面諧波(Spherical Harmonics)表示光(guāng)照(zhào)、用卷積過程描述朗博反射的方法解析地證明了一(yī)個(gè)重要的結論:由任意遠(yuǎn)點光(guāng)源獲得的所有朗博反射函數的集合形成一(yī)個(gè)線性子空間。這意味著(zhe)一(yī)個(gè)凸的朗博表面物(wù)體在各種光(guāng)照(zhào)條件(jiàn)下(xià)的圖像集合可以用一(yī)個(gè)低(dī)維的線性子空間來近似。這不僅與先前的光(guāng)照(zhào)統計建模方法的經驗實驗結果相(xiàng)吻合,更進一(yī)步從(cóng)理論上(shàng)促進了線性子空間對象識别方法的發展。而且,這使得用凸優化方法來強制光(guāng)照(zhào)函數非負成為(wèi)可能(néng),為(wèi)光(guāng)照(zhào)問題的解決提供了重要思路(lù)。

FERET項目之後,湧現了若幹人臉識别商業(yè)系統。美國(guó)國(guó)防部有關部門(mén)進一(yī)步組織了針對人臉識别商業(yè)系統的評測FRVT,至今已經舉辦了兩次:FRVT2000和FRVT2002。這兩次測試一(yī)方面對知名的人臉識别系統進行了性能(néng)比較,例如FRVT2002測試就(jiù)表明Cognitec, Identix和Eyematic三個(gè)商業(yè)産品遙遙領先于其他系統,而它們之間的差别不大。另一(yī)方面則全面總結了人臉識别技(jì)術(shù)發展的現狀:較理想條件(jiàn)下(xià)(正面簽證照(zhào)),針對37437人121,589 幅圖像的人臉識别(Identification)最高(gāo)首選識别率為(wèi)73%,人臉驗證(Verification)的等錯(cuò)誤率(EER[14])大約為(wèi)6%。FRVT測試的另一(yī)個(gè)重要貢獻是還(hái)進一(yī)步指出了目前的人臉識别算(suàn)法亟待解決的若幹問題。例如,FRVT2002測試就(jiù)表明:目前的人臉識别商業(yè)系統的性能(néng)仍然對于室内外光(guāng)照(zhào)變化、姿态、時間跨度等變化條件(jiàn)非常敏感,大規模人臉庫上(shàng)的有效識别問題也很嚴重,這些問題都仍然需要進一(yī)步的努力。

總體而言,目前非理想成像條件(jiàn)下(xià)(尤其是光(guāng)照(zhào)和姿态)、對象不配合、大規模人臉數據庫上(shàng)的人臉識别問題逐漸成為(wèi)研究的熱點問題。而非線性建模方法、統計學習理論、基于Boosting[15]的學習技(jì)術(shù)、基于3D模型的人臉建模與識别方法等逐漸成為(wèi)備受重視的技(jì)術(shù)發展趨勢。

4         從(cóng)FRVT2002看(kàn)研究現狀
FRVT2002人臉識别測試集中反映了目前人臉識别理論與應用研究的最高(gāo)學術(shù)水(shuǐ)平。該測試所使用的數據庫的規模達到(dào)了37,437人,共121,589幅圖像,大多(duō)數知名的人臉識别商業(yè)系統公司都參加了此次評測。此次測試分為(wèi)高(gāo)計算(suàn)強度(HCInt)和中等計算(suàn)強度(MCInt)兩種。其中HCInt測試使用的數據庫規模達到(dào)了37,437人的121,589幅圖像,所有圖像全部由美國(guó)國(guó)務院(DOS)下(xià)屬的領事(shì)事(shì)務局(Bureau of Consular Affairs)簽證服務處提供。每人至少三幅标準的簽證照(zhào),圖像質量很高(gāo),采集環境也非常一(yī)緻。而MCInt測試使用的數據庫則既包括室内也包括室外采集的圖像,最長(cháng)時間跨度為(wèi)三年(nián)。基于這些數據,FRVT2002測試了身份認證、閉集識别、開(kāi)集識别三類不同的人臉識别任務的性能(néng),結果表明:

n         對目前最好的人臉識别系統,在37,437人簽證照(zhào)測試庫上(shàng),閉集識别任務的最高(gāo)首選識别率為(wèi)73%,前10候選累計識别率82%,前50候選識别率87%。

n         目前最好的人臉識别系統對簽證照(zhào)質量的人臉圖像,人臉驗證錯(cuò)誤接收率為(wèi)0.01%時,最低(dī)錯(cuò)誤拒絕率30%左右;錯(cuò)誤接受率為(wèi)0.1%時,最低(dī)錯(cuò)誤拒絕率18%左右;錯(cuò)誤接受率為(wèi)1%時,最低(dī)錯(cuò)誤拒絕率10%左右。

n         虛警率控制在1%時,最好的識别系統在25人規模的觀察對象表(Watch list)上(shàng)的正确檢測識别率為(wèi)77%,而在3000人的觀察對象表上(shàng),正确率則下(xià)降為(wèi)56%。因此,如果可能(néng),要盡量減少觀察對象表中人臉的數量。

n         非理想圖像采集條件(jiàn)下(xià),虛警率為(wèi)1%時,在787人的數據庫上(shàng),圖像樣本庫中圖像均為(wèi)正面中性表情,室内白(bái)熾燈光(guāng)源條件(jiàn)下(xià)采集,對室外同一(yī)天測試圖像最高(gāo)首選識别率54%,室外152-505天之間的測試圖像最高(gāo)首選識别率46%。

n         對姿态,在87人的人臉庫上(shàng),圖像樣本庫和測試圖像光(guāng)照(zhào)條件(jiàn)一(yī)緻,左右深度旋轉45度時最高(gāo)首選識别率42%,低(dī)頭/擡頭30度時最高(gāo)首選識别率53%。

n         對大約3年(nián)後的照(zhào)片,在錯(cuò)誤接受率為(wèi)1%時,最高(gāo)首選識别率60%左右,而最低(dī)的錯(cuò)誤拒絕率則為(wèi)15%左右。而時間跨度增加一(yī)年(nián),最好系統的識别性能(néng)大約下(xià)降5個(gè)百分點。

n         人臉數據庫的規模每增加一(yī)倍,最好的商業(yè)識别系統的首選識别率大約會(huì)下(xià)降2到(dào)3個(gè)百分點。而不同屬性的人群識别性能(néng)也有差别,例如男性比女性更易于識别(大約有6到(dào)9個(gè)百分點的差别);年(nián)輕人比老年(nián)人難識别。

5         計算(suàn)所人臉識别研究組
計算(suàn)所-哈工(gōng)大人臉識别聯合研究組從(cóng)九十年(nián)代中期開(kāi)始人臉識别的研究,并于2000年(nián)5月(yuè)與成都銀(yín)晨網訊(現上(shàng)海銀(yín)晨科技(jì)的前身)聯合創立了國(guó)内首家專門(mén)從(cóng)事(shì)面像識别核心技(jì)術(shù)研究與開(kāi)發的實驗室——ICT-ISVISION面像識别聯合實驗室。該聯合實驗室從(cóng)2001年(nián)起一(yī)直維持著(zhe)20人左右規模的研究隊伍。目前核心研究隊伍包括2名教授,2名助理研究員(yuán),1名講師(shī)和來自(zì)中國(guó)科學院計算(suàn)技(jì)術(shù)研究所、哈爾濱工(gōng)業(yè)大學計算(suàn)機(jī)科學與技(jì)術(shù)學院以及中國(guó)科學院研究生(shēng)院的十多(duō)名博士、碩士研究生(shēng)。經過不懈努力,聯合實驗室近年(nián)來取得了一(yī)定的成果,主要包括:

在預處理、人臉檢測、人臉識别與确認等方面,提出了一(yī)系列新算(suàn)法和改進算(suàn)法。在光(guāng)照(zhào)可變、多(duō)姿态等條件(jiàn)下(xià)獲得了優于其他系統的性能(néng):1)性能(néng)明顯優于FERET'97測試(美國(guó)DARPA組織的最近一(yī)次人臉識别比賽)的最好結果;2)與在FRVT2002(美國(guó)NIST組織的最近一(yī)次人臉識别比賽)中取得第一(yī)的FaceVACS系統(Cognitec公司)性能(néng)基本接近,在光(guāng)照(zhào)子庫上(shàng)性能(néng)明顯超出對方;3)在中國(guó)首屆生(shēng)物(wù)特征識别評測競賽BVC2004中,以絕對優勢取得了第一(yī)名。

在基礎數據建設方面,收集整理了萬人以上(shàng)超過百萬幅圖像的人臉圖像數據庫CAS-PEAL,公布了包含3萬多(duō)幅人臉圖像的大規模中國(guó)人臉圖像數據庫CAS-PEAL-R1,已被國(guó)内外50餘單位使用,在國(guó)際上(shàng)率先提供了大規模共享中國(guó)人臉圖像數據庫。

在應用系統和成果轉化方面,開(kāi)發了會(huì)議代表身份認證/識别系統、銀(yín)行智能(néng)視頻監控系統、嫌疑人面像比對系統、面像識别考勤/門(mén)禁系統、出入口黑(hēi)名單監控系統等19種産品;申請各類專利26項(8項已獲授權),軟件(jiàn)著作權11項。産品已成功應用于人民(mín)大會(huì)堂、天安門(mén)廣場等重要場所及海南(nán)、雲南(nán)省建行等多(duō)處。成果轉化的産品在公安、金融等領域推廣,取得了較好的經濟和社會(huì)效益。這些研究成果結束了國(guó)内企業(yè)長(cháng)期依賴國(guó)外技(jì)術(shù)、隻能(néng)做二次開(kāi)發商的曆史,從(cóng)總體上(shàng)提高(gāo)了我國(guó)相(xiàng)關技(jì)術(shù)的國(guó)際競争力,也為(wèi)我國(guó)生(shēng)物(wù)特征識别及其相(xiàng)關産業(yè)發展起到(dào)了積極的推動作用。

6         挑戰
經過四十多(duō)年(nián)的發展,尤其是近十年(nián)來的研究,人臉識别技(jì)術(shù)已經取得了長(cháng)足的進步。目前最好的人臉識别系統在注冊和認證環境條件(jiàn)比較一(yī)緻、對象比較配合的情況下(xià)已經能(néng)夠達到(dào)令人滿意的效果。對1000人左右的識别系統,其正确識别率可以在95%左右;驗證系統的等錯(cuò)誤率性能(néng)也在2%以下(xià)。然而,這并不意味著(zhe)人臉識别技(jì)術(shù)已經非常成熟了。恰恰相(xiàng)反,因為(wèi)更大量的人臉識别應用系統需要在更大大規模人臉庫、攝像環境不可控、對象不配合的情況下(xià)使用,即使是目前最好的識别系統在這樣的情況下(xià)識别性能(néng)下(xià)降也非常快,很多(duō)情況下(xià)識别系統正确識别率陡降至75%以下(xià),驗證系統等錯(cuò)誤率攀升到(dào)10%以上(shàng)——這樣的性能(néng)顯然是應用系統用戶根本無法接受的!因此,現有的人臉識别系統尤其需要有針對性地解決在非理想攝像條件(jiàn)下(xià)(光(guāng)照(zhào)變化、背景變化、攝像設備差異)和對象不配合(視角變化、表情變化、佩帶飾物(wù)乃至化妝)時必然遇到(dào)識别性能(néng)下(xià)降問題。這些變化因素在不同的應用系統中均會(huì)有不同程度的出現,因而會(huì)極大地影響實用識别系統的性能(néng),導緻識别系統性能(néng)的下(xià)降。概括而言,目前人臉識别領域面臨的主要挑戰包括:魯棒性、準确的特征配準問題,對各種圖像采集條件(jiàn)變化魯棒的核心識别算(suàn)法,識别算(suàn)法的泛化能(néng)力和自(zì)适應學習問題,光(guāng)照(zhào)變化問題,尤其是室外光(guāng)照(zhào)變化,姿态不變的人臉識别算(suàn)法,人臉信息采集設備帶來的問題,低(dī)質量照(zhào)片的檢測識别問題,年(nián)齡變化導緻的照(zhào)片老化問題,墨鏡、帽子、口罩等造成的遮擋問題,化妝、整容帶來的問題。而且上(shàng)述挑戰并不是單獨作用的,例如姿态和光(guāng)照(zhào)問題同時出現,會(huì)更進一(yī)步地增加問題的難度。

7         結束語
人臉識别是一(yī)項既有科學研究價值,又(yòu)有廣泛應用前景的研究課題。國(guó)際上(shàng)大量研究人員(yuán)幾十年(nián)的研究取得了豐碩的研究成果,自(zì)動人臉識别技(jì)術(shù)已經在某些限定條件(jiàn)下(xià)得到(dào)了成功應用。這些成果更加深了我們對于自(zì)動人臉識别這個(gè)問題的理解,尤其是對其挑戰性的認識。盡管在海量人臉數據比對速度甚至精度方面,現有的自(zì)動人臉識别系統可能(néng)已經超過了人類,但對于複雜(zá)變化條件(jiàn)下(xià)的一(yī)般人臉識别問題,自(zì)動人臉識别系統的魯棒性和準确度還(hái)遠(yuǎn)不及人類。這種差距産生(shēng)的本質原因現在還(hái)不得而知,畢竟我們對于人類自(zì)身的視覺系統的認識還(hái)十分膚淺。但從(cóng)模式識别和計算(suàn)機(jī)視覺等學科的角度判斷,這既可能(néng)意味著(zhe)我們尚未找到(dào)對面部信息進行合理采樣的有效傳感器(qì)(考慮單目攝像機(jī)與人類雙眼系統的差别),更可能(néng)意味著(zhe)我們采用了不合适的人臉建模方法(人臉的内部表示問題),還(hái)有可能(néng)意味著(zhe)我們并沒有認識到(dào)自(zì)動人臉識别技(jì)術(shù)所能(néng)夠達到(dào)的極限精度。但無論如何,賦予計算(suàn)設備與人類似的人臉識别能(néng)力是衆多(duō)該領域研究人員(yuán)的夢想。相(xiàng)信随著(zhe)研究的繼續深入,我們的認識應該能(néng)夠更加準确地逼近這些問題的正确答案。

計算(suàn)所人臉識别課題組經過多(duō)年(nián)努力,終于逐漸進入了國(guó)際人臉識别競争的第一(yī)方陣。我們提出的新穎算(suàn)法、完成的高(gāo)效識别系統也逐漸得到(dào)了國(guó)内外同行的認可。但我們也必須清醒地看(kàn)到(dào),在人臉識别領域,其實很難說誰的算(suàn)法就(jiù)比别的算(suàn)法真正地好了多(duō)少。而且衆多(duō)的研究人員(yuán)正在加入進來,逆水(shuǐ)行舟,慢(màn)進則退。我們必須付出更多(duō)的艱辛才能(néng)真正在算(suàn)法和系統兩方面超越前人,取得更大的研究成果!


作者簡介:

山世光(guāng) 中國(guó)科學院計算(suàn)技(jì)術(shù)研究所數字化技(jì)術(shù)研究室,助理研究員(yuán),博士

服務熱線:027-87785008