RFID世界網(wǎng) > 新聞中心 > 行業(yè)動態(tài) > 正文

未來的人臉識別數(shù)據(jù)庫中應(yīng)減少面部表情偏差

作者：本站收錄

來源：人工智能實驗室

日期：2020-11-30 14:39:36

摘要：這項研究增加了越來越多的證據(jù)表明面部識別容易受到有害的、普遍存在的偏見的影響。

面部識別系統(tǒng)存在問題的原因有很多，其中最重要的一點是它們往往對某些人口群體和性別表現(xiàn)出偏見。近日，麻省理工學(xué)院研究人員還進行了一項新研究，即研究AI對某些面部表情的偏見。研究人員稱，表情對面部識別系統(tǒng)的影響“至少”與戴圍巾、帽子、假發(fā)或眼鏡有影響一樣，而且面部識別系統(tǒng)在這方面是用高度偏差的數(shù)據(jù)集訓(xùn)練的。

這項研究增加了越來越多的證據(jù)表明面部識別容易受到有害的、普遍存在的偏見的影響。研究人員去年秋天發(fā)表的一篇論文顯示，亞馬遜、微軟等公司的人工智能對順性別男性和女性的準確率都在95%以上，但有38%的情況下，將跨性別男性誤認為女性?！靶詣e色彩項目”和美國國家標準與技術(shù)研究所（NIST）對主要供應(yīng)商系統(tǒng)的獨立基準測試表明，面部識別技術(shù)表現(xiàn)出種族和性別偏見，同時表明目前的面部識別程序可能非常不準確，有時錯誤分類率高達96%。

在他們的研究過程中，合作作者使用三種不同的領(lǐng)先的人臉識別模型進行了實驗，這些模型在包括VGGFace2（一個包含超過9100人的300萬張圖片的數(shù)據(jù)庫）和MS1M-ArcFace（擁有超過85000人的580萬張圖片）的開源數(shù)據(jù)庫上進行了訓(xùn)練。他們將它們與四種語料庫進行對比，具體規(guī)模如下：

● 這種復(fù)雜的面部表情包含了230個人在實驗室控制的環(huán)境下拍攝的照片。

● 擴展的Cohn-Kanade（CK+），一個最廣泛使用的用于訓(xùn)練和評估面部表情識別系統(tǒng)的數(shù)據(jù)庫，包含123個人的593張照片序列

● CelebA是一個大規(guī)模的人臉屬性數(shù)據(jù)集，包含10000位名人的20萬張圖片。

● 微軟于2016年發(fā)布的一項面向公眾的人臉識別基準和數(shù)據(jù)集MS-Celeb-1M，該數(shù)據(jù)集包含了100萬名名人的近1000萬張圖片。

正如研究人員指出的那樣，長期以來，學(xué)術(shù)界和企業(yè)一直從網(wǎng)絡(luò)、電影和社交媒體等來源上搜集面部照片，以解決模型訓(xùn)練數(shù)據(jù)稀缺的問題。像大多數(shù)機器學(xué)習(xí)模型一樣，面部識別模型需要大量的數(shù)據(jù)才能達到基本的精確度水平。但事實證明，這些數(shù)據(jù)來源通常是不平衡的，因為一些面部表情比其他表情更不常見。例如，人們傾向于在社交網(wǎng)絡(luò)上分享更多快樂的臉，而不是悲傷的臉。

為了通過表情對四種基準語料庫中的圖像進行分類，研究人員使用了來自Affectiva的軟件，該軟件可以識別多達7種面部表情：6種基本情緒和中性表情。他們發(fā)現(xiàn)，在所有數(shù)據(jù)集中，“中性”圖像的比例超過了60%，在微軟MS-Celeb-1M名人圖片庫中達到83.7%。第二常見的面部表情是“快樂”，在所有的數(shù)據(jù)集中，大約90%的圖像顯示的是一個“中立”或“快樂”的人。至于其他5種面部表情，“驚訝”和“厭惡”的比例很少超過6%，而“悲傷”、“恐懼”和“憤怒”的比例非常低（通常低于1%）。結(jié)果也因性別而異。在VGGFace2中，“快樂”女性的數(shù)量幾乎是“快樂”男性數(shù)量的兩倍。

研究人員在一篇描述他們工作的論文中寫道：“一方面，模型是使用高偏差的數(shù)據(jù)進行訓(xùn)練的，這些數(shù)據(jù)會導(dǎo)致異構(gòu)性能。另一方面，人們只會對主流表情進行評估，隱藏了其對某些特定面部表情圖像的真實表現(xiàn)。此外，性別偏見也很重要，因為它可能會導(dǎo)致男女雙方的表現(xiàn)不同?！?/p>

接下來，研究人員進行了一項分析，以確定像CelebA這樣的示例集中的面部表情偏差對面部識別系統(tǒng)預(yù)測的影響程度。在上述三種算法中，在顯示“中性”或“高興”表情的人臉上，性能更好，這也是訓(xùn)練數(shù)據(jù)庫中最常見的表情。這項研究的結(jié)果表明，面部表情的差異并不能誘使系統(tǒng)誤認為一個人是另一個人。然而，他們也暗示，面部表情偏差會導(dǎo)致系統(tǒng)的“真實”比較分數(shù)（衡量算法區(qū)分同一張臉圖像的能力的分數(shù)）之間的差異高達40%。

研究人員只使用了某個軟件來對情緒進行分類，這可能會在他們的實驗中引入無意識的偏見，而且他們沒有測試任何商業(yè)部署的系統(tǒng)，比如亞馬遜的Rekognition、谷歌Cloud的Vision API或微軟Azure的Face API。盡管如此，他們主張在未來的人臉識別數(shù)據(jù)庫中減少面部表情偏差，并進一步開發(fā)適用于現(xiàn)有數(shù)據(jù)庫和已經(jīng)在問題數(shù)據(jù)集上訓(xùn)練過的模型的偏差減少方法。

研究人員表示：用于開發(fā)和評估人臉識別系統(tǒng)的人臉數(shù)據(jù)庫缺乏面部表情的多樣性，這一缺點之一是會導(dǎo)致系統(tǒng)存在安全漏洞，面部表情的微小變化很容易誤導(dǎo)圍繞這些有偏見的數(shù)據(jù)庫開發(fā)的人臉識別系統(tǒng)。面部表情對人臉識別系統(tǒng)計算出的匹配分數(shù)有影響。這種影響可能會被利用為一個可能的漏洞，從而降低匹配的概率。