深度揭秘AI換臉原理，為啥最先進分類器也認不出？

智東西（公眾號：zhidxcom）編 | 董溫淑

智東西4月20日訊息，AI換臉已不是新鮮事，手機應用市場中有多款換臉app，此前也曾曝出有網路IP用明星的面孔偽造色情影片、在大選期間用競選者的臉製作虛假影像資訊等。

為了規避Deepfake濫用帶來的惡性後果，許多研究者嘗試用AI技術開發鑑定分類器。

然而，谷歌公司和加州大學伯克利分校的研究人員最近的研究顯示，現在的鑑定技術水平還不足以100%甄別出AI換臉作品。另一項由加州大學聖地亞哥分校主導的研究也得出了相同結論。

這些研究結果為我們敲響了警鐘，要警惕AI換臉製作的虛假資訊。

目前谷歌和加州大學伯克利分校的研究已經發表在學術網站arXiv上，論文標題為《用白盒、黑盒攻擊繞過Deepfake影象鑑別工具（Evading Deepfake-Image Detectors with White- and Black-Box Attacks）》

論文連結：https://arxiv.org/pdf/2004.00622.pdf

一、實驗準備：訓練3種分類器，設定對照組

實現AI換臉的技術被稱為Deepfake，原理是基於生成對抗網路（generative adversarial networks，GAN）合成虛假圖片。GAN由一個生成網路和一個判別網路組成。

GAN模型的學習過程就是生成網路和判別網路的相互博弈的過程：生成網路隨機合成一張圖片，讓判別網路判斷這張圖片的真假，繼而根據判別網路給出的反饋不斷提高“造假”能力，最終做到以假亂真。

研究人員共對3個分類器做了測試，其中兩個為第三方分類器，一個為研究人員訓練出的用於對照的分類器。

選用的第三方分類器分別採用兩種不同訓練方式。

第一個分類器模型基於深度殘差網路ResNet-50（Deep residual network）。

用到的ResNet-50預先經過大型視覺資料庫ImageNet訓練，接下來再被訓練用於辨別真假影象。採用包含720000個訓練影象、4000個驗證影象的訓練集，其中一半為真實影象，另一半是用ProGAN生成的合成影象。合成影象採用空間模糊和JEPG壓縮方法增強。

經過訓練後，這個分類器能準確識別出ProGAN生成的影象，而且還能分類其他未被發現的影象。

第二個鑑定分類器採用的是基於相似性學習（similar learning-based）的方法。經過訓練後這款分類器可以準確辨認出由不同生成器合成的影象。

研究團隊還自己搭建了一個鑑定分類器模型，作為前述兩個鑑定分類器的對照示例。這個分類器採用100萬個ProGAN生成的影象進行訓練，其中真假影象各佔一半。論文中指出，這個分類器的訓練管道比前述兩種簡單很多，因此錯誤率也更高。

研究人員根據分類器是否開放了訪問許可權，選用了不同的攻擊方式。對開發訪問許可權的分類器採用白盒攻擊；對不開放訪問許可權的分類器採用黑盒攻擊。

另外，研究人員用接收者操作特徵曲線（ROC曲線）評估分類器的正確率。評估標準是曲線下面積（AUC）的大小。AUC的取值範圍為0~1，一般來說AUC>0.5即代表分類器有預測價值，AUC值越大代表分類器準確率越高。

二、4種白盒攻擊方法，AUC最低被降至0.085

對於開放了訪問許可權的分類器，研究人員用白盒攻擊評估其穩健性。

白盒攻擊即攻擊者能夠獲知分類器所使用的演算法以及演算法使用的引數。在產生對抗性攻擊資料的過程中，攻擊者能夠與分類器系統產生互動。

攻擊過程中用到的所有影象都來自一個包含94036張影象的視覺資料庫。

開始白盒攻擊之前，基於這個資料庫的分類器的AUC數值為0.97。即使在執行典型的清洗策略隱藏影象合成痕跡後，分類器的AUC數值仍保持在0.94以上。

接下來研究人員使用了4種白盒攻擊方法。這4種攻擊在之前的對抗性示例中已有過研究。攻擊的具體方式是對影象進行修改，使分類器誤認為它們是真實的。

▲四種攻擊前後，分類器的ROC曲線圖。藍色實線代表JPEG格式的合成影象，藍色虛線代表PNG格式的合成影象

第一種是失真最小化攻擊（Distortion-minimizing Attack），即對合成影象新增一個較小的加法擾動δ。假設一個合成影象x先被分類器判定為假，施加擾動後，（x δ）就會被判定為真。

結果顯示，畫素翻轉2%，就會有71.3%的假影象被誤判為真；畫素翻轉4%，會有89.7%的假影象被誤判為真；畫素翻轉4~11%，所有的假影象都會被誤判為真。

▲a：分類器把假影象識別為真；b：分類器把真影象識別為假。把畫素翻轉1%，就會有一半的假影象被判定為真；把畫素翻轉7%，就會有一半的真影象被判定為假。

第二種是損失最大化攻擊（Loss-Maximizing Attack），即定義一個更簡單的目標函式，更大限度地提升合成影象被判定為真的機率。

結果顯示把未壓縮影象的畫素翻轉40%，AUC值就會從0.966降到0.27。

第三種是通用對抗性補丁攻擊（Universal Adversarial-Patch Attack）。失真最小化攻擊方法有有一個侷限性：攻擊者需要花費0.1秒為每個影象定製攻擊方式。為了彌補這一侷限性，研究人員建立了一個單一的可視噪聲模板補丁。這個補丁可以疊加在任何假影象上，有效增加了假影象的迷惑性。

疊加補丁後，分類器的AUC值從0.966降到0.085。

不同於之前三種方法透過對假影象施加擾動來影響分類結果，第四種攻擊方法是通用潛空間攻擊（Universal Latent-Space Attack），即對影象的潛在空間進行攻擊。最終把分類器的AUC值從0.99降到0.17。

▲a為通用對抗性補丁攻擊效果，b~d為通用潛空間攻擊效果。圖中所有假影象都被分類器誤判為真

三、限制條件進行黑盒攻擊，AUC值降至0.22以下

論文指出，現實中的社交網站、約會網站等，並不會公開其鑑定分類器的演算法，因此很難進行前面所說的白盒攻擊。

面對這種情況，研究人員進行了黑盒攻擊。黑盒攻擊假設對方知道攻擊的存在，並且掌握了一般的防禦策略。

研究結果顯示，即使在這種限制性較強的黑盒攻擊條件下，鑑定分類器也很容易受到對抗性因素影響。經過黑盒攻擊，分類器的AUC數值下降到0.22以下。

結語：現有分類器有侷限性，仍需深入研究

谷歌公司和加州大學伯克利分校研究團隊證明，只要對虛假圖片適當加以處理，就能使其“騙”過分類器。

這種現象令人擔憂，論文中寫道：“部署這樣的分類器會比不部署還糟糕，不僅虛假影象本身顯得十分真實，分類器的誤判還會賦予它額外的可信度”。

因此，研究人員建議開創新的檢測方法，研究出可以識別經過再壓縮、調整大小、降低解析度等擾動手段處理的假影象。

據悉，目前有許多機構正在從事這一工作，如臉書、亞馬遜網路服務及其他機構聯合發起了“Deepfake鑑別挑戰”，期待能探索出更好的解決方案。

文章來源：VentureBeat，arXiv