人臉識別三部曲:人臉檢測到人臉識別
追捕目標的特工逆行在人群中,目之所及,每位迎面走來的行人,都會被特工所戴的隱形眼鏡捕捉面部畫面進而識別身份信息,電影《碟中諜4》中這令人贊嘆的經典一幕,依靠的正是人臉識別技術。
電影《速度與激情7》中的“天眼計劃”同樣讓人驚嘆:頭戴一個黑框眼鏡,就可以對海底、地面和天空中的任何物體掃描圖像,迅速識別符合特征的目標物,從而找到開啟“天眼”的關鍵人物。
電影場景中神秘的人臉識別技術其實早已走進生活變?yōu)楝F實。就像電影里用于識別特定人物一樣,當今的安防領域也需要人臉識別技術抓捕犯罪嫌疑人,而且已成為案件偵破的關鍵利器。
人臉識別技術是基于人的面部特征信息進行身份識別的一種生物識別技術,如此神奇的技術背后是需要一整套復雜的程序完成的,主要包括人臉檢測、關鍵點檢測和人臉識別“三部曲”。人臉檢測主要依靠攝像頭等硬件捕捉圖像,關鍵點檢測和人臉識別則依靠深度學習算法、三維動態(tài)人臉識別和超低分辨率人臉識別技術。
找到“臉在哪”是基礎
人臉識別技術是通過人的面部特征進行身份識別的,所以首先需要找到“人臉圖像”,從眾多圖像中定位“臉在哪”,這就是人臉檢測的環(huán)節(jié)??此埔粋€簡單的“挑選”過程其實大有門道。面對多種物體的圖像信息時,需要采用特定算法才可智能挑選出“人臉圖像”,找到“臉在哪”。我國已研發(fā)出“深度卷積檢測網絡”,從而同時學習人臉和非人臉的特征,幫助計算機準確找到“臉在哪”。此算法中,圖像從層級結構的最低層開始被輸入,然后再依次傳輸到不同的層,每層通過一個數字濾波器去獲得圖像的最顯著特征。這個方法可以保證在圖像平移、縮放或旋轉下獲得穩(wěn)定的檢測結果和圖像特征。該算法已通過FDDB(Face Detection Data Set and Benchmark)公開數據庫平臺的測試,目前已在多個場景下的人臉檢測中使用,為人臉識別技術的后續(xù)環(huán)節(jié)做好鋪墊。
算法的先進和優(yōu)越保證了準確定位“臉在哪”的順利完成,這主要是在收集眾多圖像信息后進行的,不免讓我們思考:能否在圖像采集的同時就利用該算法智能定位“臉在哪”?
如此一來可以過濾掉非人臉圖像,提高人臉識別效率。
多數情況下,圖像采集通過攝像頭完成。試想,如果所有圖像都進入人臉檢測環(huán)節(jié),會加大運算負擔、降低效率。就像“天眼計劃”那樣,從全世界的所有物體中搜索圖像,工作量極其龐大,這也導致該計劃只能停留在電影中。對此,很多企業(yè)開始加快芯片研發(fā)速度。上海凌簡信息科技有限公司副總經理張亮指出,安防企業(yè)目前主攻研發(fā)可以內置于攝像頭的智能芯片,實現采集圖像的同時準確找到“臉在哪”,從而大大加快工作效率。如此看來,也許“天眼計劃”真的能走進生活,讓每個人通過一副眼鏡“想找誰就找誰”。
弄清“這是誰的臉”是核心
在準確找到“臉在哪”之后,就進入了人臉識別技術的核心環(huán)節(jié)——關鍵點檢測、人臉識別了。這個核心環(huán)節(jié)在于,通過眼睛、眉毛、鼻子、嘴巴、臉頰輪廓特征關鍵點和面部表情網,找出彼此之間的關聯(lián),最終判定這些圖像是否為同一個人。就像《碟中諜》中的特工可以識別特定人物那樣,捕捉關鍵點信息和特征后,對人臉圖像智能分析就可快速知道“這是誰的臉”。
兩大環(huán)節(jié)是人臉識別技術的核心,當然離不開強大的技術支撐。其中的三大利器——深度學習算法、三維動態(tài)人臉識別、超低分辨率人臉識別正是最吸引人之處。這三大技術合力,可以達到最高99.77%的識別準確率,即使是錄像中的超低分辨率的圖像也可以準確還原,讓犯罪分子“原形畢露”。
為了更好了解相關技術的更多細節(jié),本站為此采訪了一家人臉識別解決方案提供商——曠視(Face++)。據相關部門負責人介紹,在算法的研發(fā)上,已經針對人臉識別應用設計了自己的“CNN卷積神經網絡”,并通過卷積層和降維層大大降低了需要處理的數據量和計算量,提升了計算速度。算法提升依靠海量大數據的積累。通過標注化的圖像數據對人臉識別算法進行訓練,再通過產品和行業(yè)應用為用戶提供智能化服務,海量大數據隨著用戶數量和調用次數而增長,這些數據又進一步為算法訓練提供了教材,已經實現了數據、技術和產品的良性循環(huán)。
現實中,人臉圖像多數是在人體活動時捕捉到的,并非一張簡單的正面照。這種情況下的人臉識別會難度陡增,針對動態(tài)人臉,目前已研發(fā)出“三維動態(tài)人臉識別”技術,可以針對運動中捕獲的人臉圖像進行準確識別。通過人臉骨骼輪廓進行識別,保證在不同的光線、動態(tài)的情況下也能精確識別。這可以大大擴展人臉識別技術的應用場景,對環(huán)境不佳情況下采集的圖像仍能弄清“這是誰的臉”。就像天眼計劃里設想的那樣,任何光線、動態(tài)、靜態(tài)的場景下的人臉圖像都能識別,就算化成灰也認得出來。
該負責人進一步說到,這個問題在技術上可以通過人臉區(qū)域自動曝光和3D降噪等技術實現人臉區(qū)域的優(yōu)化。識別效果既與前端攝像機的硬件水準相關,也需要在算法上不斷提升,二者缺一不可,雙管齊下才能更好應對“不同的臉”。
在安防應用中,人臉圖像不僅會面臨動態(tài)中獲取到欠清晰圖像問題,還會面臨所獲取的圖像分辨率極低的可能。試想,有的圖像只有幾厘米大小,像素分辨率只有不到10k,如此一說人臉識別技術就敗下陣了?面對挑戰(zhàn),人臉識別技術選擇迎難而上,這主要依靠“超低分辨率人臉識別”技術。據清華大學電子工程系教授蘇光大介紹,對公安部門獲取的犯罪嫌疑人的超低分辨率人臉圖像,已研發(fā)出特定的圖像還原技術。提取有限特征后,利用已掌握的人臉圖像規(guī)律還原圖像,之后與圖像數據庫中的每個人臉圖像進行反復對比,從中選出相似度最高的人臉圖像作為還原結果。據介紹,目前還原圖像與實際人臉的相似度最高可達到99.77%。這也就意味著,只要在攝像頭里“露臉”了,不管隱藏多深,都將無所遁形。
計算能力成瓶頸
從關鍵點檢測和人臉識別來看,目前已經可以完成多條件、多場景下的人臉識別,甚至對像素很低的圖像進行準確還原。但是,安防需求日益增長之下,所獲取的圖像也進入“大數據時代”,只有先進的算法顯然“獨木難成林”,還必須依靠計算能力的提升。試想,只有先進的算法,但計算機無法負荷海量圖像同時分析,那人臉識別技術只能成為空談。
對于提高計算能力的問題,行業(yè)內通行做法是采用多核CPU+GPU的處理器的方法,從硬件配置上提高計算能力。但是這種方法是一種類似“設備堆砌”的傳統(tǒng)方式,如果運算量一直增長,單靠多核的方法是力不從心的,而且還會造成某種程度的資源浪費。因此,清華大學電子工程系教授蘇大光認為,應該從根本上優(yōu)化計算方法,利用高效地處理方法把人臉識別技術從硬件堆砌中解放出來,最大限度利用每個處理器的運算能力,整體上減少硬件配置數量。
為此,蘇光大和其團隊共同研發(fā)了“二維處理計算方式”,實現在單位系統(tǒng)時鐘內處理上百個數據,提高以往的一維計算方式的運算速度和CPU使用率,事半功倍地高速處理海量人臉圖像信息。據悉,此方式已通過專家組考核認證,未來將會大面積推廣。提高計算能力將人臉識別技術的應用擴展到更多領域,而且也會讓我國的人臉識別技術從處理器等硬件配置上擺脫對國外的依賴。優(yōu)化計算方法后,可以用最少的CPU完成最多的圖像處理,自主創(chuàng)新地發(fā)展中國的人臉識別技術。