人臉識别技(jì)術(shù)的前世今生(shēng)

設為(wèi)首頁☆加入收藏

首頁 ☆ 新聞動态 ☆ 人臉識别技(jì)術(shù)的前世今生(shēng)

新聞動态

NEWS

人臉識别技(jì)術(shù)的前世今生(shēng)

來源: | 作者:jungle | 發布時間: 2021-02-22 | 6093 次浏覽 | 分享到(dào):

武漢安裝人臉識别門(mén)禁一(yī)卡通(tōng)系統|無人值守車牌識别停車場|景區電(diàn)子票務系統掃碼檢票閘機(jī)|擺閘通(tōng)道閘機(jī)|考勤機(jī)|消費(fèi)機(jī)|水(shuǐ)控機(jī)|手機(jī)二維碼門(mén)禁考勤系統。
在我們生(shēng)存的這個(gè)地球上(shàng)，居住著(zhe)近65億人。每個(gè)人的面孔都由額頭、眉毛、眼睛、鼻子、嘴巴、雙頰等少數幾個(gè)區域組合而成，它們之間的大體位置關系也是固定的，并且每張臉的大小(xiǎo)不過七八寸見(jiàn)方。然而，它們居然就(jiù)形成了那麽複雜(zá)的模式，即使是面容極其相(xiàng)似的雙胞胎，其家人通(tōng)常也能(néng)夠非常容易地根據他們面孔上(shàng)的細微差異将他們區分開(kāi)來。這使得我們不得不承認這個(gè)世界上(shàng)找不出兩張完全相(xiàng)同的人臉！那麽，區分如此衆多(duō)的不同人臉的“特征”到(dào)底是什麽？能(néng)否設計出具有與人類一(yī)樣的人臉識别能(néng)力的自(zì)動機(jī)器(qì)？這種自(zì)動機(jī)器(qì)的人臉識别能(néng)力是否能(néng)夠超越人類自(zì)身？對這些問題的分析和解答無疑具有重要的理論和應用價值，這正是衆多(duō)從(cóng)事(shì)自(zì)動人臉識别研究的研究人員(yuán)所面臨的挑戰。

然而，對這些問題的回答并不像看(kàn)起來那麽容易。即使在大量來自(zì)模式識别、計算(suàn)機(jī)視覺、神經計算(suàn)、生(shēng)理學等領域的研究人員(yuán)對自(zì)動人臉識别艱苦工(gōng)作40餘年(nián)之後，這些最基本的科學問題仍然困惑著(zhe)研究人員(yuán)。而退一(yī)步講，即使對我們自(zì)己，盡管我們每天都在根據面孔區分著(zhe)親人、同學、朋友(yǒu)、同事(shì)等，大多(duō)數人卻很難準确地描述出自(zì)己到(dào)底是如何區分他們的，甚至描述不出自(zì)己熟悉的人有什麽具體的特征。即使專門(mén)從(cóng)事(shì)相(xiàng)關的生(shēng)理學、心理學、神經科學研究的一(yī)些專家，也很難描述清楚人類人臉識别的生(shēng)理學過程。這意味著(zhe)基于仿生(shēng)學的人臉識别研究路(lù)線在實踐上(shàng)是難以操作的。當然，飛(fēi)機(jī)的翅膀并不需要像鳥兒的翅膀一(yī)樣煽動，自(zì)動人臉識别的計算(suàn)模型也未必需要模拟“人腦(nǎo)”。我們也許可以通(tōng)過另外的途徑，例如建立人臉識别的計算(suàn)模型，這種計算(suàn)模型可能(néng)是基于仿生(shēng)神經網絡的，也可能(néng)是純粹基于統計的，或者是這二者之外的第三隻眼睛，并通(tōng)過構建實用的自(zì)動人臉識别系統來驗證這些計算(suàn)模型，從(cóng)而找出對上(shàng)述基本科學問題的解答。

本文首先給出了人臉識别的一(yī)個(gè)一(yī)般計算(suàn)模型，然後簡單回顧自(zì)動人臉識别的研究曆史，接下(xià)來闡述人臉識别的研究現狀并介紹幾種主流的技(jì)術(shù)方法，簡單介紹計算(suàn)所人臉識别研究組的研究進展，最後對上(shàng)述哲學層面的問題作了一(yī)些簡單的探讨。

2 計算(suàn)模型初探
通(tōng)常我們所說的人臉識别是基于光(guāng)學人臉圖像的身份識别與驗證的簡稱。光(guāng)學人臉圖像（以下(xià)簡稱人臉圖像）是外界光(guāng)源（包括太陽、室内人造光(guāng)源和其他物(wù)體表面反射）的光(guāng)線照(zhào)射在人臉上(shàng)，經人臉表面反射後傳播到(dào)攝像機(jī)傳感器(qì)的光(guāng)線強度的度量。不難理解，這一(yī)成像過程實際上(shàng)涉及到(dào)三大類關鍵要素：

1. 人臉内部屬性：包括人臉表面的反射屬性（如反射系數等，通(tōng)常簡稱為(wèi)紋理--Texture）、人臉3D形狀（表面法向量方向）、人臉表情、胡須等屬性的變化；

2. 外部成像條件(jiàn)：包括光(guāng)源（位置和強度等）、其他物(wù)體（比如眼鏡、帽子）或者人體其他部件(jiàn)（比如頭發）對人臉的遮擋等；

3. 攝像機(jī)成像參數：包括攝像機(jī)位置（視點）、攝像機(jī)的焦距、光(guāng)圈、快門(mén)速度等内外部參數

因此，光(guāng)學人臉圖像的成像過程可以簡單地形式化為(wèi)：

(1) 其中，函數f表示成像函數，F，L和C分别表示人臉内部屬性、外部成像條件(jiàn)和攝像機(jī)成像參數這三類要素，I為(wèi)生(shēng)成的人臉圖像。如果我們進一(yī)步假設：人臉皮膚的反射屬性滿足朗博（Lambertian）模型，人臉為(wèi)凸表面結構，光(guāng)源為(wèi)無窮遠(yuǎn)處的單色點光(guāng)源，上(shàng)述成像公式可以進一(yī)步改寫為(wèi)：

(2) 其中，表示人臉表面的一(yī)點P的三維坐标；表示P點的表面反射率；表示P點的表面法向量方向；表示光(guāng)源的方向和強度; 表示攝像機(jī)的成像函數；而則為(wèi)攝像機(jī)最終輸出的對應P點的圖像像素的強度。不難理解，在上(shàng)述成像過程中，人臉表面3D結構及其反射屬性才是人臉相(xiàng)對穩定的本質屬性，是人臉識别算(suàn)法應該賴以區分不同人臉的主要特征。而人臉表情變化、有無胡須等盡管也屬于人臉内部屬性，但因為(wèi)具有可變性而不能(néng)作為(wèi)人臉的區分特征。光(guāng)源等外部成像條件(jiàn)以及攝像機(jī)參數等外部因素就(jiù)更不能(néng)作為(wèi)人臉識别依賴的屬性。

綜上(shàng)所述，理想情況下(xià)，要根據人臉圖像區分出不同的人臉，根本上(shàng)似乎需要從(cóng)人臉圖像表觀中分離開(kāi)人臉穩定不變的本質屬性（3D形狀與表面反射率）與外界條件(jiàn)和攝像參數。然後，從(cóng)3D形狀與表面反射率屬性中提取不同人臉的差異信息，饋入到(dào)後端的判别分類器(qì)中進行識别。設輸入圖像為(wèi)I，這一(yī)過程可以形式化為(wèi)以下(xià)三個(gè)步驟：

1. 屬性分離。分離人臉本質屬性要素與光(guāng)源條件(jiàn)s*、攝像參數c*等外部參數要素：

2. 特征提取。從(cóng)人臉屬性要素中提取能(néng)夠體現特定人臉身份的特征：其中，T表示特征提取過程。

3. 分類判别。将提取的特征與數據庫中存儲的已知人臉特征進行對比，選擇相(xiàng)似度最大的人臉作為(wèi)輸入人臉的身份信息：

其中，Sim(.)表示計算(suàn)特征之間的相(xiàng)似度，表示已知人臉集合。

然而，這一(yī)過程并不那麽簡單直接：從(cóng)單一(yī)未知光(guāng)源條件(jiàn)的圖像中恢複3D形狀信息和表面反射率是經典的視覺難題，本質上(shàng)是一(yī)個(gè)病态的問題。盡管近年(nián)來研究人員(yuán)通(tōng)過利用各種約束條件(jiàn)和先驗知識可以在一(yī)定程度上(shàng)實現該功能(néng)，或者要求多(duō)幅不同光(guāng)照(zhào)條件(jiàn)下(xià)的圖像以便得到(dào)更精确的估計結果，但直到(dào)現在仍沒有取得本質的突破。除了少數采用特殊設備獲取人臉3D結構的系統外，多(duō)數系統不得不退而求其次，采用的人臉建模方法仍然停留在圖像表觀層面上(shàng)，并沒有使用對3D形狀和紋理進行顯式分離的步驟，而是直接從(cóng)圖像表觀中提取判别特征并進行分類來完成識别，此時公式（2-4）相(xiàng)應地改寫為(wèi)：
例如，在基于面部結構幾何特征的人臉識别方法中，T通(tōng)常是一(yī)個(gè)計算(suàn)面部主要器(qì)官（眉毛、眼睛、鼻子、嘴巴和下(xià)巴）的大小(xiǎo)、形狀、位置和角度關系等幾何度量參數的過程，最終形成的特征F*是一(yī)個(gè)反映這些幾何度量的特征向量。對于模闆匹配方法而言，T是對人臉圖像進行幾何歸一(yī)化和亮度校正的過程，得到(dào)的F*則是一(yī)個(gè)反映圖像各像素點亮度的二維數據矩陣。再比如對“特征臉”方法而言，T是一(yī)個(gè)将高(gāo)維空間中的人臉圖像降維到(dào)一(yī)個(gè)低(dī)維子空間中的變換（主成分分析），形成的特征F*是降維後的主成分特征分量。

需要指出的是，近年(nián)來布蘭茲（Blanz）和維特（Vetter）等人提出的3D變形模型方法是上(shàng)述理論計算(suàn)模型的重要嘗試，已經引起了研究人員(yuán)的高(gāo)度重視。盡管還(hái)存在很多(duō)困難，比如速度和恢複精度問題，但相(xiàng)信此方面的工(gōng)作近期會(huì)有更大的突破。

3 研究簡史
人臉識别的研究曆史比較悠久。高(gāo)爾頓(Galton)早在1888年(nián)和1910年(nián)就(jiù)分别在《Nature》雜(zá)志(zhì)發表了兩篇關于利用人臉進行身份識别的文章，對人類自(zì)身的人臉識别能(néng)力進行了分析。但當時還(hái)不可能(néng)涉及到(dào)人臉的自(zì)動識别問題。最早的AFR[1]的研究論文見(jiàn)于1965年(nián)陳（Chan）和布萊索（Bledsoe）在Panoramic Research Inc.發表的技(jì)術(shù)報(bào)告，至今已有四十年(nián)的曆史。近年(nián)來，人臉識别研究得到(dào)了諸多(duō)研究人員(yuán)的青睐，湧現出了諸多(duō)技(jì)術(shù)方法。尤其是1990年(nián)以來，人臉識别更得到(dào)了長(cháng)足的發展。幾乎所有知名的理工(gōng)科大學和主要IT産業(yè)公司都有研究組在從(cóng)事(shì)相(xiàng)關研究。

表1 人臉識别發展曆史簡表

階段
1964~1990
1991~1997
1998-現在

主要
特征
作為(wèi)一(yī)般識别問題研究，基于特征的方法是主流
重點是較理想條件(jiàn)下(xià)、用戶配合、中小(xiǎo)規模數據庫上(shàng)的識别問題；基于表觀的子空間分析和統計方法是主流；
重點是非理想條件(jiàn)、用戶不配合、大規模數據庫的識别問題；3D和非線性是趨勢；

代表性的人臉識别技(jì)術(shù)與方法
及其關鍵性事(shì)件(jiàn)和作品
已知的最早的AFR研究論文
特征臉（Eigenface）
光(guāng)照(zhào)錐技(jì)術(shù)

基于特征的方法與基于模闆的方法對比
SVM[2]用于人臉識别中

首個(gè)半自(zì)動人臉識别系統

美國(guó)DARPA[3]啓動FERET[4]測試項目
3D可變形模型

第一(yī)篇AFR方面的博士論文
局部特征分析（LFA[5]）人臉識别方法發展成為(wèi)Visionics公司FaceIt商業(yè)系統
基于AdaBoost[6]的人臉檢測技(jì)術(shù)

基于剪影分析的人臉識别
基于雙子空間的貝葉斯概率學習
流形學習ISOMAP[7], LLE[8]

人臉識别研究綜述
朗博反射與線性空間分析

人臉的低(dī)維表示
Fisherface[9]
基于商圖像的識别方法

彈性圖匹配技(jì)術(shù)
人臉檢測綜述

ASM/AAM[10]
FRVT[11]2000， 2002測試

技(jì)術(shù)特點
基于特征的方法
基于模闆的方法

---
基于神經網絡的識别方法
---

---
基于表觀的2D人臉子空間分析與統計學習方法

線性模型方法
非線性流形分析技(jì)術(shù)

基于2D圖像模型的人臉識别
基于3D模型的人臉識别

人臉識别是一(yī)個(gè)被廣泛研究著(zhe)的熱門(mén)問題，大量的研究論文層出不窮，在一(yī)定程度上(shàng)有泛濫成“災”之嫌。為(wèi)了更好地對人臉識别研究的曆史和現狀進行介紹，本文将AFR的研究曆史按照(zhào)研究内容、技(jì)術(shù)方法等方面的特點大體劃分為(wèi)三個(gè)時間階段，如表1所示。該表格概括了人臉識别研究的發展簡史及其每個(gè)曆史階段代表性的研究工(gōng)作及其技(jì)術(shù)特點。下(xià)面對三個(gè)階段的研究進展情況作簡單介紹：

第一(yī)階段（1964年(nián)~1990年(nián)）

這一(yī)階段人臉識别通(tōng)常隻是作為(wèi)一(yī)個(gè)一(yī)般性的模式識别問題來研究，所采用的主要技(jì)術(shù)方案是基于人臉幾何結構特征（Geometric feature based）的方法。這集中體現在人們對于剪影（Profile）的研究上(shàng)，人們對面部剪影曲線的結構特征提取與分析方面進行了大量研究。人工(gōng)神經網絡也一(yī)度曾經被研究人員(yuán)用于人臉識别問題中。較早從(cóng)事(shì)AFR研究的研究人員(yuán)除了布萊索（Bledsoe）外還(hái)有戈登斯泰因（Goldstein）、哈蒙（Harmon）以及金出武雄(Kanade Takeo)等。金出武雄于1973年(nián)在京都大學完成了第一(yī)篇AFR方面的博士論文，直到(dào)現在，作為(wèi)卡内基-梅隆大學（CMU）機(jī)器(qì)人研究院的一(yī)名教授，仍然是人臉識别領域的活躍人物(wù)之一(yī)。他所在的研究組也是人臉識别領域的一(yī)支重要力量。總體而言，這一(yī)階段是人臉識别研究的初級階段，非常重要的成果不是很多(duō)，也基本沒有獲得實際應用。

第二階段（1991年(nián)~1997年(nián)）

這一(yī)階段盡管時間相(xiàng)對短暫，但卻是人臉識别研究的高(gāo)潮期，可謂碩果累累：不但誕生(shēng)了若幹代表性的人臉識别算(suàn)法，美國(guó)軍方還(hái)組織了著名的FERET人臉識别算(suàn)法測試，并出現了若幹商業(yè)化運作的人臉識别系統，比如最為(wèi)著名的Visionics（現為(wèi)Identix）的FaceIt系統。

美國(guó)麻省理工(gōng)學院（MIT）媒體實驗室的特克（Turk）和潘特蘭德（Pentland）提出的“特征臉”方法無疑是這一(yī)時期内最負盛名的人臉識别方法。其後的很多(duō)人臉識别技(jì)術(shù)都或多(duō)或少與特征臉有關系，現在特征臉已經與歸一(yī)化的協相(xiàng)關量(Normalized Correlation)方法一(yī)道成為(wèi)人臉識别的性能(néng)測試基準算(suàn)法。

這一(yī)時期的另一(yī)個(gè)重要工(gōng)作是麻省理工(gōng)學院人工(gōng)智能(néng)實驗室的布魯内裡(lǐ)（Brunelli）和波基奧（Poggio）于1992年(nián)左右做的一(yī)個(gè)對比實驗，他們對比了基于結構特征的方法與基于模闆匹配的方法的識别性能(néng)，并給出了一(yī)個(gè)比較确定的結論：模闆匹配的方法優于基于特征的方法。這一(yī)導向性的結論與特征臉共同作用，基本中止了純粹的基于結構特征的人臉識别方法研究，并在很大程度上(shàng)促進了基于表觀（Appearance-based）的線性子空間建模和基于統計模式識别技(jì)術(shù)的人臉識别方法的發展，使其逐漸成為(wèi)主流的人臉識别技(jì)術(shù)。

貝爾胡米爾（Belhumeur）等提出的Fisherface人臉識别方法是這一(yī)時期的另一(yī)重要成果。該方法首先采用主成分分析（Principal Component Analysis，PCA，亦即特征臉）對圖像表觀特征進行降維。在此基礎上(shàng)，采用線性判别分析（Linear Discriminant Analysis, LDA）的方法變換降維後的主成分以期獲得“盡量大的類間散度和盡量小(xiǎo)的類内散度”。該方法目前仍然是主流的人臉識别方法之一(yī)，産生(shēng)了很多(duō)不同的變種，比如零空間法、子空間判别模型、增強判别模型、直接的LDA判别方法以及近期的一(yī)些基于核學習的改進策略。

麻省理工(gōng)學院的馬哈丹（Moghaddam）則在特征臉的基礎上(shàng)，提出了基于雙子空間進行貝葉斯概率估計的人臉識别方法。該方法通(tōng)過“作差法”，将兩幅人臉圖像對的相(xiàng)似度計算(suàn)問題轉換為(wèi)一(yī)個(gè)兩類（類内差和類間差）分類問題，類内差和類間差數據都要首先通(tōng)過主成分分析（PCA）技(jì)術(shù)進行降維，計算(suàn)兩個(gè)類别的類條件(jiàn)概率密度，最後通(tōng)過貝葉斯決策（最大似然或者最大後驗概率）的方法來進行人臉識别。

人臉識别中的另一(yī)種重要方法——彈性圖匹配技(jì)術(shù)(Elastic Graph Matching，EGM) 也是在這一(yī)階段提出的。其基本思想是用一(yī)個(gè)屬性圖來描述人臉：屬性圖的頂點代表面部關鍵特征點，其屬性為(wèi)相(xiàng)應特征點處的多(duō)分辨率、多(duō)方向局部特征——Gabor變換[12]特征，稱為(wèi)Jet；邊的屬性則為(wèi)不同特征點之間的幾何關系。對任意輸入人臉圖像，彈性圖匹配通(tōng)過一(yī)種優化搜索策略來定位預先定義的若幹面部關鍵特征點，同時提取它們的Jet特征，得到(dào)輸入圖像的屬性圖。最後通(tōng)過計算(suàn)其與已知人臉屬性圖的相(xiàng)似度來完成識别過程。該方法的優點是既保留了面部的全局結構特征，也對人臉的關鍵局部特征進行了建模。近來還(hái)出現了一(yī)些對該方法的擴展。

局部特征分析技(jì)術(shù)是由洛克菲勒大學(Rockefeller University)的艾提克（Atick）等人提出的。LFA在本質上(shàng)是一(yī)種基于統計的低(dī)維對象描述方法，與隻能(néng)提取全局特征而且不能(néng)保留局部拓撲結構的PCA相(xiàng)比，LFA在全局PCA描述的基礎上(shàng)提取的特征是局部的，并能(néng)夠同時保留全局拓撲信息，從(cóng)而具有更佳的描述和判别能(néng)力。LFA技(jì)術(shù)已商業(yè)化為(wèi)著名的FaceIt系統，因此後期沒有發表新的學術(shù)進展。

由美國(guó)國(guó)防部反毒品技(jì)術(shù)發展計劃辦公室資助的FERET項目無疑是該階段内的一(yī)個(gè)至關重要的事(shì)件(jiàn)。FERET項目的目标是要開(kāi)發能(néng)夠為(wèi)安全、情報(bào)和執法部門(mén)使用的AFR技(jì)術(shù)。該項目包括三部分内容：資助若幹項人臉識别研究、創建FERET人臉圖像數據庫、組織FERET人臉識别性能(néng)評測。該項目分别于1994年(nián)，1995年(nián)和1996年(nián)組織了3次人臉識别評測，幾種最知名的人臉識别算(suàn)法都參加了測試，極大地促進了這些算(suàn)法的改進和實用化。該測試的另一(yī)個(gè)重要貢獻是給出了人臉識别的進一(yī)步發展方向：光(guāng)照(zhào)、姿态等非理想采集條件(jiàn)下(xià)的人臉識别問題逐漸成為(wèi)熱點的研究方向。

柔性模型（Flexible Models）——包括主動形狀模型（ASM）和主動表觀模型（AAM）是這一(yī)時期内在人臉建模方面的一(yī)個(gè)重要貢獻。ASM/AAM将人臉描述為(wèi)2D形狀和紋理兩個(gè)分離的部分，分别用統計的方法進行建模（PCA），然後再進一(yī)步通(tōng)過PCA将二者融合起來對人臉進行統計建模。柔性模型具有良好的人臉合成能(néng)力，可以采用基于合成的圖像分析技(jì)術(shù)來對人臉圖像進行特征提取與建模。柔性模型目前已被廣泛用于人臉特征對準（Face Alignment）和識别中，并出現了很多(duō)的改進模型。

總體而言，這一(yī)階段的人臉識别技(jì)術(shù)發展非常迅速，所提出的算(suàn)法在較理想圖像采集條件(jiàn)、對象配合、中小(xiǎo)規模正面人臉數據庫上(shàng)達到(dào)了非常好的性能(néng)，也因此出現了若幹知名的人臉識别商業(yè)公司。從(cóng)技(jì)術(shù)方案上(shàng)看(kàn)， 2D人臉圖像線性子空間判别分析、統計表觀模型、統計模式識别方法是這一(yī)階段内的主流技(jì)術(shù)。

第三階段（1998年(nián)~現在）

FERET’96人臉識别算(suàn)法評估表明：主流的人臉識别技(jì)術(shù)對光(guāng)照(zhào)、姿态等由于非理想采集條件(jiàn)或者對象不配合造成的變化魯棒性比較差。因此，光(guāng)照(zhào)、姿态問題逐漸成為(wèi)研究熱點。與此同時，人臉識别的商業(yè)系統進一(yī)步發展。為(wèi)此，美國(guó)軍方在FERET測試的基礎上(shàng)分别于2000年(nián)和2002年(nián)組織了兩次商業(yè)系統評測。

基奧蓋蒂斯（Georghiades）等人提出的基于光(guāng)照(zhào)錐 (Illumination Cones) 模型的多(duō)姿态、多(duō)光(guāng)照(zhào)條件(jiàn)人臉識别方法是這一(yī)時期的重要成果之一(yī)，他們證明了一(yī)個(gè)重要結論：同一(yī)人臉在同一(yī)視角、不同光(guāng)照(zhào)條件(jiàn)下(xià)的所有圖像在圖像空間中形成一(yī)個(gè)凸錐——即光(guāng)照(zhào)錐。為(wèi)了能(néng)夠從(cóng)少量未知光(guāng)照(zhào)條件(jiàn)的人臉圖像中計算(suàn)光(guāng)照(zhào)錐，他們還(hái)對傳統的光(guāng)度立體視覺方法進行了擴展，能(néng)夠在朗博模型、凸表面和遠(yuǎn)點光(guāng)源假設條件(jiàn)下(xià)，根據未知光(guāng)照(zhào)條件(jiàn)的7幅同一(yī)視點圖像恢複物(wù)體的3D形狀和表面點的表面反射系數（傳統光(guāng)度立體視覺能(néng)夠根據給定的3幅已知光(guāng)照(zhào)條件(jiàn)的圖像恢複物(wù)體表面的法向量方向），從(cóng)而可以容易地合成該視角下(xià)任意光(guāng)照(zhào)條件(jiàn)的圖像，完成光(guāng)照(zhào)錐的計算(suàn)。識别則通(tōng)過計算(suàn)輸入圖像到(dào)每個(gè)光(guāng)照(zhào)錐的距離來完成。

以支持向量機(jī)為(wèi)代表的統計學習理論也在這一(yī)時期内被應用到(dào)了人臉識别與确認中來。支持向量機(jī)是一(yī)個(gè)兩類分類器(qì)，而人臉識别則是一(yī)個(gè)多(duō)類問題。通(tōng)常有三種策略解決這個(gè)問題，即：類内差/類間差法、一(yī)對多(duō)法（one-to-rest）和一(yī)對一(yī)法（one-to-one）。

布蘭茲（Blanz）和維特（Vetter）等提出的基于3D變形(3D Morphable Model)模型的多(duō)姿态、多(duō)光(guāng)照(zhào)條件(jiàn)人臉圖像分析與識别方法是這一(yī)階段内一(yī)項開(kāi)創性的工(gōng)作。該方法在本質上(shàng)屬于基于合成的分析技(jì)術(shù)，其主要貢獻在于它在3D形狀和紋理統計變形模型（類似于2D時候的AAM）的基礎上(shàng)，同時還(hái)采用圖形學模拟的方法對圖像采集過程的透視投影和光(guāng)照(zhào)模型參數進行建模，從(cóng)而可以使得人臉形狀和紋理等人臉内部屬性與攝像機(jī)配置、光(guāng)照(zhào)情況等外部參數完全分開(kāi)，更加有利于人臉圖像的分析與識别。Blanz的實驗表明，該方法在CMU-PIE（多(duō)姿态、光(guāng)照(zhào)和表情）人臉庫和FERET多(duō)姿态人臉庫上(shàng)都達到(dào)了相(xiàng)當高(gāo)的識别率，證明了該方法的有效性。

2001年(nián)的國(guó)際計算(suàn)機(jī)視覺大會(huì)（ICCV）上(shàng)，康柏研究院的研究員(yuán)維奧拉（Viola）和瓊斯（Jones）展示了他們的一(yī)個(gè)基于簡單矩形特征和AdaBoost的實時人臉檢測系統，在CIF格式上(shàng)檢測準正面人臉的速度達到(dào)了每秒(miǎo)15幀以上(shàng)。該方法的主要貢獻包括：1）用可以快速計算(suàn)的簡單矩形特征作為(wèi)人臉圖像特征；2）基于AdaBoost将大量弱分類器(qì)進行組合形成強分類器(qì)的學習方法；3）采用了級聯（Cascade）技(jì)術(shù)提高(gāo)檢測速度。目前，基于這種人臉/非人臉學習的策略已經能(néng)夠實現準實時的多(duō)姿态人臉檢測與跟蹤。這為(wèi)後端的人臉識别提供了良好的基礎。

沙蘇哈（Shashua）等于2001年(nián)提出了一(yī)種基于商圖像[13]的人臉圖像識别與繪制技(jì)術(shù)。該技(jì)術(shù)是一(yī)種基于特定對象類圖像集合學習的繪制技(jì)術(shù)，能(néng)夠根據訓練集合中的少量不同光(guāng)照(zhào)的圖像，合成任意輸入人臉圖像在各種光(guāng)照(zhào)條件(jiàn)下(xià)的合成圖像。基于此，沙蘇哈等還(hái)給出了對各種光(guāng)照(zhào)條件(jiàn)不變的人臉簽名（Signature）圖像的定義，可以用于光(guāng)照(zhào)不變的人臉識别，實驗表明了其有效性。

巴斯裡(lǐ)（Basri）和雅各布（Jacobs）則利用球面諧波（Spherical Harmonics）表示光(guāng)照(zhào)、用卷積過程描述朗博反射的方法解析地證明了一(yī)個(gè)重要的結論：由任意遠(yuǎn)點光(guāng)源獲得的所有朗博反射函數的集合形成一(yī)個(gè)線性子空間。這意味著(zhe)一(yī)個(gè)凸的朗博表面物(wù)體在各種光(guāng)照(zhào)條件(jiàn)下(xià)的圖像集合可以用一(yī)個(gè)低(dī)維的線性子空間來近似。這不僅與先前的光(guāng)照(zhào)統計建模方法的經驗實驗結果相(xiàng)吻合，更進一(yī)步從(cóng)理論上(shàng)促進了線性子空間對象識别方法的發展。而且，這使得用凸優化方法來強制光(guāng)照(zhào)函數非負成為(wèi)可能(néng)，為(wèi)光(guāng)照(zhào)問題的解決提供了重要思路(lù)。

FERET項目之後，湧現了若幹人臉識别商業(yè)系統。美國(guó)國(guó)防部有關部門(mén)進一(yī)步組織了針對人臉識别商業(yè)系統的評測FRVT，至今已經舉辦了兩次：FRVT2000和FRVT2002。這兩次測試一(yī)方面對知名的人臉識别系統進行了性能(néng)比較，例如FRVT2002測試就(jiù)表明Cognitec, Identix和Eyematic三個(gè)商業(yè)産品遙遙領先于其他系統，而它們之間的差别不大。另一(yī)方面則全面總結了人臉識别技(jì)術(shù)發展的現狀：較理想條件(jiàn)下(xià)（正面簽證照(zhào)），針對37437人121,589 幅圖像的人臉識别(Identification)最高(gāo)首選識别率為(wèi)73%，人臉驗證(Verification)的等錯(cuò)誤率(EER[14])大約為(wèi)6%。FRVT測試的另一(yī)個(gè)重要貢獻是還(hái)進一(yī)步指出了目前的人臉識别算(suàn)法亟待解決的若幹問題。例如，FRVT2002測試就(jiù)表明：目前的人臉識别商業(yè)系統的性能(néng)仍然對于室内外光(guāng)照(zhào)變化、姿态、時間跨度等變化條件(jiàn)非常敏感，大規模人臉庫上(shàng)的有效識别問題也很嚴重，這些問題都仍然需要進一(yī)步的努力。

總體而言，目前非理想成像條件(jiàn)下(xià)（尤其是光(guāng)照(zhào)和姿态）、對象不配合、大規模人臉數據庫上(shàng)的人臉識别問題逐漸成為(wèi)研究的熱點問題。而非線性建模方法、統計學習理論、基于Boosting[15]的學習技(jì)術(shù)、基于3D模型的人臉建模與識别方法等逐漸成為(wèi)備受重視的技(jì)術(shù)發展趨勢。

4 從(cóng)FRVT2002看(kàn)研究現狀
FRVT2002人臉識别測試集中反映了目前人臉識别理論與應用研究的最高(gāo)學術(shù)水(shuǐ)平。該測試所使用的數據庫的規模達到(dào)了37,437人，共121,589幅圖像，大多(duō)數知名的人臉識别商業(yè)系統公司都參加了此次評測。此次測試分為(wèi)高(gāo)計算(suàn)強度（HCInt）和中等計算(suàn)強度（MCInt）兩種。其中HCInt測試使用的數據庫規模達到(dào)了37,437人的121,589幅圖像，所有圖像全部由美國(guó)國(guó)務院（DOS）下(xià)屬的領事(shì)事(shì)務局（Bureau of Consular Affairs）簽證服務處提供。每人至少三幅标準的簽證照(zhào)，圖像質量很高(gāo)，采集環境也非常一(yī)緻。而MCInt測試使用的數據庫則既包括室内也包括室外采集的圖像，最長(cháng)時間跨度為(wèi)三年(nián)。基于這些數據，FRVT2002測試了身份認證、閉集識别、開(kāi)集識别三類不同的人臉識别任務的性能(néng)，結果表明：

n 對目前最好的人臉識别系統，在37,437人簽證照(zhào)測試庫上(shàng)，閉集識别任務的最高(gāo)首選識别率為(wèi)73%，前10候選累計識别率82%，前50候選識别率87%。

n 目前最好的人臉識别系統對簽證照(zhào)質量的人臉圖像，人臉驗證錯(cuò)誤接收率為(wèi)0.01%時，最低(dī)錯(cuò)誤拒絕率30%左右；錯(cuò)誤接受率為(wèi)0.1%時，最低(dī)錯(cuò)誤拒絕率18%左右；錯(cuò)誤接受率為(wèi)1%時，最低(dī)錯(cuò)誤拒絕率10%左右。

n 虛警率控制在1%時，最好的識别系統在25人規模的觀察對象表（Watch list）上(shàng)的正确檢測識别率為(wèi)77%，而在3000人的觀察對象表上(shàng)，正确率則下(xià)降為(wèi)56%。因此，如果可能(néng)，要盡量減少觀察對象表中人臉的數量。

n 非理想圖像采集條件(jiàn)下(xià)，虛警率為(wèi)1%時，在787人的數據庫上(shàng)，圖像樣本庫中圖像均為(wèi)正面中性表情，室内白(bái)熾燈光(guāng)源條件(jiàn)下(xià)采集，對室外同一(yī)天測試圖像最高(gāo)首選識别率54%，室外152-505天之間的測試圖像最高(gāo)首選識别率46%。

n 對姿态，在87人的人臉庫上(shàng)，圖像樣本庫和測試圖像光(guāng)照(zhào)條件(jiàn)一(yī)緻，左右深度旋轉45度時最高(gāo)首選識别率42%，低(dī)頭/擡頭30度時最高(gāo)首選識别率53%。

n 對大約3年(nián)後的照(zhào)片，在錯(cuò)誤接受率為(wèi)1%時，最高(gāo)首選識别率60%左右，而最低(dī)的錯(cuò)誤拒絕率則為(wèi)15%左右。而時間跨度增加一(yī)年(nián)，最好系統的識别性能(néng)大約下(xià)降5個(gè)百分點。

n 人臉數據庫的規模每增加一(yī)倍，最好的商業(yè)識别系統的首選識别率大約會(huì)下(xià)降2到(dào)3個(gè)百分點。而不同屬性的人群識别性能(néng)也有差别，例如男性比女性更易于識别（大約有6到(dào)9個(gè)百分點的差别）；年(nián)輕人比老年(nián)人難識别。

5 計算(suàn)所人臉識别研究組
計算(suàn)所-哈工(gōng)大人臉識别聯合研究組從(cóng)九十年(nián)代中期開(kāi)始人臉識别的研究，并于2000年(nián)5月(yuè)與成都銀(yín)晨網訊（現上(shàng)海銀(yín)晨科技(jì)的前身）聯合創立了國(guó)内首家專門(mén)從(cóng)事(shì)面像識别核心技(jì)術(shù)研究與開(kāi)發的實驗室——ICT-ISVISION面像識别聯合實驗室。該聯合實驗室從(cóng)2001年(nián)起一(yī)直維持著(zhe)20人左右規模的研究隊伍。目前核心研究隊伍包括2名教授，2名助理研究員(yuán)，1名講師(shī)和來自(zì)中國(guó)科學院計算(suàn)技(jì)術(shù)研究所、哈爾濱工(gōng)業(yè)大學計算(suàn)機(jī)科學與技(jì)術(shù)學院以及中國(guó)科學院研究生(shēng)院的十多(duō)名博士、碩士研究生(shēng)。經過不懈努力，聯合實驗室近年(nián)來取得了一(yī)定的成果，主要包括：

在預處理、人臉檢測、人臉識别與确認等方面，提出了一(yī)系列新算(suàn)法和改進算(suàn)法。在光(guāng)照(zhào)可變、多(duō)姿态等條件(jiàn)下(xià)獲得了優于其他系統的性能(néng)：1）性能(néng)明顯優于FERET'97測試（美國(guó)DARPA組織的最近一(yī)次人臉識别比賽）的最好結果；2）與在FRVT2002（美國(guó)NIST組織的最近一(yī)次人臉識别比賽）中取得第一(yī)的FaceVACS系統(Cognitec公司)性能(néng)基本接近，在光(guāng)照(zhào)子庫上(shàng)性能(néng)明顯超出對方；3）在中國(guó)首屆生(shēng)物(wù)特征識别評測競賽BVC2004中，以絕對優勢取得了第一(yī)名。

在基礎數據建設方面，收集整理了萬人以上(shàng)超過百萬幅圖像的人臉圖像數據庫CAS-PEAL，公布了包含3萬多(duō)幅人臉圖像的大規模中國(guó)人臉圖像數據庫CAS-PEAL-R1，已被國(guó)内外50餘單位使用，在國(guó)際上(shàng)率先提供了大規模共享中國(guó)人臉圖像數據庫。

在應用系統和成果轉化方面，開(kāi)發了會(huì)議代表身份認證/識别系統、銀(yín)行智能(néng)視頻監控系統、嫌疑人面像比對系統、面像識别考勤/門(mén)禁系統、出入口黑(hēi)名單監控系統等19種産品；申請各類專利26項（8項已獲授權），軟件(jiàn)著作權11項。産品已成功應用于人民(mín)大會(huì)堂、天安門(mén)廣場等重要場所及海南(nán)、雲南(nán)省建行等多(duō)處。成果轉化的産品在公安、金融等領域推廣，取得了較好的經濟和社會(huì)效益。這些研究成果結束了國(guó)内企業(yè)長(cháng)期依賴國(guó)外技(jì)術(shù)、隻能(néng)做二次開(kāi)發商的曆史，從(cóng)總體上(shàng)提高(gāo)了我國(guó)相(xiàng)關技(jì)術(shù)的國(guó)際競争力，也為(wèi)我國(guó)生(shēng)物(wù)特征識别及其相(xiàng)關産業(yè)發展起到(dào)了積極的推動作用。

6 挑戰
經過四十多(duō)年(nián)的發展，尤其是近十年(nián)來的研究，人臉識别技(jì)術(shù)已經取得了長(cháng)足的進步。目前最好的人臉識别系統在注冊和認證環境條件(jiàn)比較一(yī)緻、對象比較配合的情況下(xià)已經能(néng)夠達到(dào)令人滿意的效果。對1000人左右的識别系統，其正确識别率可以在95%左右；驗證系統的等錯(cuò)誤率性能(néng)也在2%以下(xià)。然而，這并不意味著(zhe)人臉識别技(jì)術(shù)已經非常成熟了。恰恰相(xiàng)反，因為(wèi)更大量的人臉識别應用系統需要在更大大規模人臉庫、攝像環境不可控、對象不配合的情況下(xià)使用，即使是目前最好的識别系統在這樣的情況下(xià)識别性能(néng)下(xià)降也非常快，很多(duō)情況下(xià)識别系統正确識别率陡降至75%以下(xià)，驗證系統等錯(cuò)誤率攀升到(dào)10%以上(shàng)——這樣的性能(néng)顯然是應用系統用戶根本無法接受的！因此，現有的人臉識别系統尤其需要有針對性地解決在非理想攝像條件(jiàn)下(xià)（光(guāng)照(zhào)變化、背景變化、攝像設備差異）和對象不配合（視角變化、表情變化、佩帶飾物(wù)乃至化妝）時必然遇到(dào)識别性能(néng)下(xià)降問題。這些變化因素在不同的應用系統中均會(huì)有不同程度的出現，因而會(huì)極大地影響實用識别系統的性能(néng)，導緻識别系統性能(néng)的下(xià)降。概括而言，目前人臉識别領域面臨的主要挑戰包括：魯棒性、準确的特征配準問題，對各種圖像采集條件(jiàn)變化魯棒的核心識别算(suàn)法，識别算(suàn)法的泛化能(néng)力和自(zì)适應學習問題，光(guāng)照(zhào)變化問題，尤其是室外光(guāng)照(zhào)變化，姿态不變的人臉識别算(suàn)法，人臉信息采集設備帶來的問題，低(dī)質量照(zhào)片的檢測識别問題，年(nián)齡變化導緻的照(zhào)片老化問題，墨鏡、帽子、口罩等造成的遮擋問題，化妝、整容帶來的問題。而且上(shàng)述挑戰并不是單獨作用的，例如姿态和光(guāng)照(zhào)問題同時出現，會(huì)更進一(yī)步地增加問題的難度。

7 結束語
人臉識别是一(yī)項既有科學研究價值，又(yòu)有廣泛應用前景的研究課題。國(guó)際上(shàng)大量研究人員(yuán)幾十年(nián)的研究取得了豐碩的研究成果，自(zì)動人臉識别技(jì)術(shù)已經在某些限定條件(jiàn)下(xià)得到(dào)了成功應用。這些成果更加深了我們對于自(zì)動人臉識别這個(gè)問題的理解，尤其是對其挑戰性的認識。盡管在海量人臉數據比對速度甚至精度方面，現有的自(zì)動人臉識别系統可能(néng)已經超過了人類，但對于複雜(zá)變化條件(jiàn)下(xià)的一(yī)般人臉識别問題，自(zì)動人臉識别系統的魯棒性和準确度還(hái)遠(yuǎn)不及人類。這種差距産生(shēng)的本質原因現在還(hái)不得而知，畢竟我們對于人類自(zì)身的視覺系統的認識還(hái)十分膚淺。但從(cóng)模式識别和計算(suàn)機(jī)視覺等學科的角度判斷，這既可能(néng)意味著(zhe)我們尚未找到(dào)對面部信息進行合理采樣的有效傳感器(qì)（考慮單目攝像機(jī)與人類雙眼系統的差别），更可能(néng)意味著(zhe)我們采用了不合适的人臉建模方法（人臉的内部表示問題），還(hái)有可能(néng)意味著(zhe)我們并沒有認識到(dào)自(zì)動人臉識别技(jì)術(shù)所能(néng)夠達到(dào)的極限精度。但無論如何，賦予計算(suàn)設備與人類似的人臉識别能(néng)力是衆多(duō)該領域研究人員(yuán)的夢想。相(xiàng)信随著(zhe)研究的繼續深入，我們的認識應該能(néng)夠更加準确地逼近這些問題的正确答案。

計算(suàn)所人臉識别課題組經過多(duō)年(nián)努力，終于逐漸進入了國(guó)際人臉識别競争的第一(yī)方陣。我們提出的新穎算(suàn)法、完成的高(gāo)效識别系統也逐漸得到(dào)了國(guó)内外同行的認可。但我們也必須清醒地看(kàn)到(dào)，在人臉識别領域，其實很難說誰的算(suàn)法就(jiù)比别的算(suàn)法真正地好了多(duō)少。而且衆多(duō)的研究人員(yuán)正在加入進來，逆水(shuǐ)行舟，慢(màn)進則退。我們必須付出更多(duō)的艱辛才能(néng)真正在算(suàn)法和系統兩方面超越前人，取得更大的研究成果！

作者簡介：

山世光(guāng) 中國(guó)科學院計算(suàn)技(jì)術(shù)研究所數字化技(jì)術(shù)研究室，助理研究員(yuán)，博士

上(shàng)一(yī)篇：人臉識别門(mén)禁和指紋門(mén)......

下(xià)一(yī)篇：景區電(diàn)子票務系統檢票......

服務熱線：027-87785008

服務熱線：027-87785008 13986286467

電(diàn)子郵箱：whwian@163.com

公司網站：http://www.wiann.com

公司地址：武漢市(shì)洪山區珞獅南(nán)路(lù)519号明澤麗灣1棟C單元3層04号