1.4億張圖像!史上最大人臉識(shí)別數(shù)據(jù)研究顯示不知情隱私泄露情況加劇

來源：南方都市報(bào) 時(shí)間：2021-02-18 11:23:53

近日，Mozilla的伊尼盧瓦·德博拉·拉吉(Inioluwa Deborah Raji)和紐約大學(xué)跨學(xué)科研究機(jī)構(gòu)AI Now Institute的技術(shù)研究員吉納維芙·弗里德(Genevieve Fried)就人臉識(shí)別數(shù)據(jù)研究發(fā)表了一篇名為About Face: A Survey of Facial Recognition Evaluation的論文。

論文就1976年至2019年之間的100多個(gè)臉部數(shù)據(jù)集進(jìn)行研究，其研究范圍包括來自超過1700萬個(gè)調(diào)查對(duì)象的1.45億張圖像。《麻省理工學(xué)院技術(shù)評(píng)論》發(fā)文稱該論文是“有史以來規(guī)模最大的人臉識(shí)別數(shù)據(jù)研究，并且表明了深度學(xué)習(xí)的興起在多大程度上加劇了隱私的喪失”。

論文研究發(fā)現(xiàn)，在深度學(xué)習(xí)對(duì)數(shù)據(jù)的爆炸式增長的驅(qū)動(dòng)下，研究人員逐漸開始不征求人們同意，從而導(dǎo)致越來越多的人的個(gè)人照片在他們不知情的情況下被整合到監(jiān)視系統(tǒng)中。

論文主要確定了面部識(shí)別發(fā)展的四個(gè)歷史階段，分別為：第一階段(1964-1995)早期研究階段;第二階段(1996-2006)被稱為“新生物識(shí)別”的商業(yè)可行性階段;第三階段(2007-2013)不受限制設(shè)置的主流開發(fā)階段;第四階段(2014年-以后)深度學(xué)習(xí)的突破階段。

人臉識(shí)別的四大階段：隨著研究人員對(duì)技術(shù)準(zhǔn)確性要求的不斷提高，人臉識(shí)別數(shù)據(jù)集的規(guī)模呈指數(shù)增長。

外媒就該論文對(duì)人臉識(shí)別的研究，總結(jié)出了9個(gè)令人恐懼又驚訝的結(jié)果：

1.人臉識(shí)別在學(xué)術(shù)環(huán)境中的表現(xiàn)與實(shí)際應(yīng)用之間有著巨大的鴻溝

兩位作者研究該項(xiàng)目的最主要原因之一是，為什么人臉識(shí)別在系統(tǒng)測(cè)試準(zhǔn)確率接近100%時(shí)，在現(xiàn)實(shí)世界中的應(yīng)用依然存在嚴(yán)重缺陷。例如，人臉識(shí)別在識(shí)別黑人和棕色人種時(shí)準(zhǔn)確性較差，最近也有報(bào)道顯示，有三名黑人因被該技術(shù)錯(cuò)誤識(shí)別后被相繼逮捕，同時(shí)在這三起案件中，被技術(shù)錯(cuò)誤識(shí)別的人都是黑人。

2.美國國防部對(duì)該技術(shù)的最初發(fā)展負(fù)有責(zé)任

盡管人臉識(shí)別技術(shù)的開發(fā)始于學(xué)術(shù)環(huán)境，但國防部和美國國家標(biāo)準(zhǔn)與技術(shù)研究院(NIST)于1996年將650萬美元撥款投入，創(chuàng)建了迄今為止最大的數(shù)據(jù)集，此后這項(xiàng)技術(shù)開始起步。政府對(duì)這一領(lǐng)域很感興趣，因?yàn)樵谟糜诒O(jiān)視時(shí)，它與指紋識(shí)別不同，不需要人們積極主動(dòng)參與。

3.早期用于創(chuàng)建人臉識(shí)別數(shù)據(jù)的照片來自人像拍攝，這就產(chǎn)生了重大缺陷

在2000年代中期之前，研究人員積累數(shù)據(jù)庫的方式是讓人們坐下來拍照。由于現(xiàn)在的一些基本面部識(shí)別技術(shù)數(shù)據(jù)正是來自于此，所以人臉肖像技術(shù)的缺陷也產(chǎn)生了共鳴，即參與者類型單一并且無法準(zhǔn)確反映現(xiàn)實(shí)情況的階段設(shè)置。

4.當(dāng)人像拍攝不夠時(shí)，研究人員便開始抓取Google并不再征求被攝對(duì)象的同意

2007年，一個(gè)名為“野生標(biāo)簽的面孔(Labeled Faces in the Wild)(LFW)”數(shù)據(jù)集的出現(xiàn)，使研究人員開始直接從Google，F(xiàn)lickr和Yahoo下載圖像，而無需擔(dān)心是否同意，其中還包括兒童的照片。其他研究人員隨后匯編的名為“LFW +”的數(shù)據(jù)集，也放寬了對(duì)未成年人的納入標(biāo)準(zhǔn)，使用帶有“嬰兒”，“少年”和“青少年”等搜索詞的照片來增加多樣性。雖然這使照片的類型更加豐富，但它也放棄了被攝對(duì)象的隱私權(quán)。

野生標(biāo)簽的面孔(Labeled Faces in the Wild)(LFW)主頁。

5.人臉識(shí)別的下一次繁榮來自Facebook

2014年，F(xiàn)acebook使用其用戶照片訓(xùn)練了一種稱為DeepFace的深度學(xué)習(xí)模型。Facebook展示了數(shù)百萬張照片如何創(chuàng)建出更好地可以完成人臉識(shí)別任務(wù)的神經(jīng)網(wǎng)絡(luò)，從而使深度學(xué)習(xí)成為現(xiàn)代人臉識(shí)別的基石。

6.Facebook的大規(guī)模人臉識(shí)別活動(dòng)侵犯了用戶的隱私

由于Facebook利用其用戶上傳的照片進(jìn)行人臉識(shí)別，而未征得該用戶的肯定同意，由此被聯(lián)邦貿(mào)易委員會(huì)(FTC)處以罰款，并向伊利諾伊州支付了一項(xiàng)和解金。

7.僅在公共數(shù)據(jù)集中，人臉識(shí)別就已經(jīng)在1770萬人的人臉上進(jìn)行了訓(xùn)練

事實(shí)上，我們不知道在人臉識(shí)別技術(shù)發(fā)展的過程中，使用了多少人的照片，和這些人的真實(shí)身份。

8.人臉識(shí)別的自動(dòng)化促生了令人反感的標(biāo)簽系統(tǒng)以及不平等的代表性

人臉識(shí)別系統(tǒng)已經(jīng)超越了識(shí)別面部或人物的范圍，他們還可以以令人反感的方式標(biāo)記人物及其屬性，其中就包括一些諸如“胖子”、“雙下巴”、“大鼻子”、“大嘴唇”和“眼袋”等潛在侮辱性的標(biāo)簽。而研究也表明，人工智能中的歧視會(huì)強(qiáng)化現(xiàn)實(shí)世界中的歧視。

9.人臉識(shí)別技術(shù)的應(yīng)用范圍從政府監(jiān)視延伸到廣告定位

目前人臉識(shí)別技術(shù)不僅深耕于其本身的領(lǐng)域，其如今的發(fā)展也遠(yuǎn)超過1970年代其創(chuàng)造者的想象。論文中表明，從歷史背景上可以看出，政府從一開始就促進(jìn)和支持了這項(xiàng)技術(shù)，以便于實(shí)現(xiàn)刑事調(diào)查和監(jiān)視。亞馬遜已經(jīng)將其有問題的Rekognition技術(shù)出售給了無數(shù)警察部門就是其中一個(gè)例子。

論文在結(jié)論中闡明，人臉識(shí)別技術(shù)帶來了復(fù)雜的道德和技術(shù)挑戰(zhàn)，忽視或者分解這種復(fù)雜性，對(duì)于那些部署不當(dāng)?shù)娜耍舶ㄎ覀冏约菏遣焕摹?/p>

作者之一的拉吉希望這篇論文能夠激發(fā)研究人員思考深度學(xué)習(xí)帶來的性能提升、失去共識(shí)、細(xì)致的數(shù)據(jù)驗(yàn)證和詳盡的文檔記錄之間的權(quán)衡，她同時(shí)敦促那些想要繼續(xù)建立人臉識(shí)別功能的人考慮開發(fā)不同的技術(shù)：“要讓我們真正嘗試使用該工具而又不傷及人，則需要重新設(shè)想我們所知道的一切。”

責(zé)任編輯：

標(biāo)簽： 1 4億圖像人臉識(shí)別數(shù)據(jù)研究

上一篇：辭職帶厭學(xué)兒子環(huán)游中國，父親：已回家過年，真切感受到孩子改變
下一篇：香港兩大主題公園迪士尼及海洋公園將相繼重開 17日17時(shí)可網(wǎng)上預(yù)約

相關(guān)推薦：

精彩放送：