史上最大“面部識別數據研究”：43年，100個數據集，9個可怕的真相

2021-02-13 16:15:23來源：互聯網

新智元報道

來源：外媒

編輯：小勻、LQ

【新智元導讀】面部識別技術最初用于刑事調查和監控，受到政府的支持和推廣，但現在已經發展成為無所不知的資本主義廣告定位機器，最近一項對過去43年面部識別訓練數據集的研究，顯示了深度學習的興起在何種程度上助長了隱私的喪失。

在科幻小說中，面部識別技術是威權社會的標志。關于它是如何被創造出來的，以及今天它是如何被使用的，真相都令人驚奇。

Mozilla的Deborah Raji和AI Now的Genevieve Fried在arXiv上發表了一篇論文About Face: A Survey of Facial Recognition Evaluation，在這篇論文中，作者對1976-2019年間收集的100多個用于訓練面部識別系統的數據集進行了調查。

從中得出的最廣泛的啟示是，隨著對更多數據(即照片)需求的增加，研究人員不再費心去征求用作數據的照片本人的同意。

《麻省理工學院技術評論》發文This is how we lost control of our faces，稱該論文是「有史以來最大的面部識別數據研究，顯示了深度學習的興起在何種程度上助長了隱私的喪失」。

在這項關于面部識別數據集進化的追蹤調查中，有一些歷史時刻和揭示這項技術發展的事實，它們展示了面部識別的本質：當應用于現實世界時，它是一項有缺陷的技術，創建的明確目的是擴大監控狀態，結果是侵犯我們的隱私。

以下是43年面部識別研究得出的9個令人驚訝又可怕的結果。

1 面部識別在學術環境與現實世界應用之間存在巨大的鴻溝

作者進行這項研究的原因之一就是想要了解為什么在測試中準確率接近100%的面部識別系統，在現實世界中應用時卻有很大的缺陷。

例如，紐約市的大都會運輸署在面部識別的錯誤率達到100%后，停止試點項目。

面部識別在識別黑人和棕色人種時的準確率較低，最近，三名黑人男子被面部識別技術錯誤識別并被捕。

2 美國國防部對這一技術的最初繁榮負有責任

雖然開發面部識別技術的努力始于學術界，但1996年美國國防部和美國國家標準和技術研究所（NIST）撥款650萬美元建立了迄今為止最大的數據集，這一技術開始起步。

政府對這一領域產生了興趣，因為它可用于實施監控，不像指紋識別那樣需要人們積極參與。

3 早期用于創建面部識別數據的照片來自于人像拍攝，這就產生了很大缺陷

這看起來有點古怪，但大概在2005之前，研究人員建立數據庫的方式是讓人們坐著拍攝個人照。

因為今天的一些基礎性的面部識別技術就來自于這些數據集，所以人像技術的缺陷可以產生共鳴的，比如，參與者類型單一，以及不能準確反映真實世界狀況的現場設置。

4 當人像拍攝不夠的時候，研究人員就開始Google，也不再征求同意

是的，當研究人員不再滿足于添加人像到數據集的時候，事實確實是這樣。

2007年的一個名為「Labeled Faces in the Wild」的數據集搜刮了谷歌、Flickr、YouTube和其他在線照片庫。其中包括兒童的照片。雖然這極大地豐富了數據庫，但卻拋棄了照片主體的隱私權。

5 面部識別的下一次繁榮來自Facebook

研究人員引用了面部識別的一個轉折點，即Facebook在2014年公布了其DeepFace數據庫的創建。

Facebook展示了如何用收集到的數百萬張照片創建神經網絡，這些神經網絡在面部識別上的表現遠優于之前的系統，這使得深度學習成為現代面部識別技術的基石。

6 令人意外的是，Facebook大規模的面部識別做法侵犯了用戶的隱私。

由于Facebook使用了用戶上傳的照片來用作面部識別，但卻沒有征得用戶的正面同意，Facebook被美國聯邦貿易委員會罰款，并向伊利諾伊州支付了一筆賠償金。DeepFace通過「標簽建議」(Tag Suggestions) ，這個功能向你推薦照片中想要標記的人。

接受或拒絕標記又讓Facebook的系統變得更加智能。標簽建議是可以選擇退出的，這意味著參與這項技術是默認的。

7 面部識別系統已經在1770萬人的臉上進行了訓練--這還只是在公共數據集中。

事實上，我們并不知道有多少人的照片使在不知不覺中參與了面部識別技術的開發，也不知道這些參與者的身份。

8 面部識別的自動化導致了令人反感的標簽系統和不平等的代表性。

面部識別系統的發展已經超出了識別一張臉或一個人的范圍。它們還可以以攻擊性的方式給人及其屬性貼標簽。

「這些標簽包括關于體型的問題和潛在的侮辱性標簽--"胖子"、"雙下巴"--或不恰當的種族特征，如亞洲受試者的"蒼白皮膚"、"尖鼻子"、"細長眼睛"，以及許多黑人受試者的"大鼻子"和"大嘴唇"。此外，還有怪異的概念，如"眼袋"、"胡茬"和客觀上不可能一致定義的標簽，如"吸引力"。」

訓練集的默認值識別對象是「西方人」的面孔，而其他明確為增加多樣性而創建的數據集本身也存在問題。

其中一個系統的目的是「訓練無偏見和能夠辨別歧視意識的人臉識別算法」，但研究人員指出，它只「將人類的種族起源劃分為三類」。

這些毛病不僅僅是令人反感。研究表明，人工智能中的歧視會強化現實世界中的歧視。

9 今天，面部識別技術的應用范圍從政府監控擴展到廣告定位。

面部識別不僅保持了它的本來面目，又擴大了范圍，超出了1970年代其創造者的想象。

「我們可以從歷史背景中看到，政府從一開始就推廣和支持這項技術，目的是為了實現刑事調查和監控。」作者寫道。

例如，亞馬遜已經將其有問題的Rekognition技術賣給了數不清的警察部門。

另一方面，一些訓練集承諾，它可以幫助開發系統來分析購物者的情緒，更好地跟蹤和了解潛在客戶。

哪個更荒誕？利用面部識別實施監視的國家還是無所不知的資本主義廣告機器? 你來決定。

參考鏈接：

https://mashable.com/article/facial-recognition-databases-privacy-study/

論文鏈接 https://arxiv.org/pdf/2102.00813.pdf

關鍵詞：最大面部識別數據

每天都在汆肉中醒来青梅,好男人www在线观看,少妇无码自慰毛片久久久久久,国产欧美另类久久久精品丝瓜

史上最大“面部識別數據研究”：43年，100個數據集，9個可怕的真相

推薦內容