智東西(公眾號:zhidxcom)
作者 | 子佩
編輯 | Panken
智東西1月13日消息,隨着Deepfake等一鍵式換臉應用的流行,越來越多的普通人也能通過簡單的操作對視頻中人像、甚至聲音進行修改,達到以假亂真的地步。但在有趣的背後,也有助長謠言、侵犯隱私的隱患。
2019年1月,賓厄姆頓大學曾與英特爾合作推出視頻圖片檢測工具FakeCatcher。而在今年八月份,研究人員又發表《基於生物信號殘留物進行深層合成圖片檢測(How Do the Hearts of Deep Fakes Beat? Deep Fake Source Detection via Interpreting Residuals with Biological Signals)》,準確率可以達到97.29%。
FakeCatcher是如何實現其“打假”功能,是否會導致Deepfake“反打假”以及兩年後FakeCatcher又有什麼新的突破和創新,今天智東西為你一一道來。
論文:https://arxiv.org/abs/2008.11363
一、Deepfake很全能?心跳、脈搏來“打假”FakeCatcher基於的原理是人類心跳時產生的細微膚色差異,而具體到應用上,則是與指尖脈搏血氧儀以及Apple Watch用於測量運動心率相同的技術——光電容積描記法(簡稱PPG)。
英特爾高級研究科學家Ilke Demir表示:“我們從面部不同部位提取了幾種PPG信號,並檢測了其時空一致性。在通過深度學習合成的視頻中,心跳信號既沒有一致性,也與脈搏信號沒有任何聯繫。而在真實拍攝的視頻中,人面部的血液流動是會和脈搏,也就是心跳信號保持一致的。”
人面部PPG及rPPG信號
與Demir合作的是賓厄姆頓大學計算機科學系的博士Umur A. Ciftci及其導師,圖形和圖像計算實驗室的Lijun Yin教授。該實驗室創建的多個3D人臉和表情數據庫曾被多位好萊塢電影製片人、視頻遊戲創作者用於影視或遊戲項目。
在實驗室中,Ciftci藉助18台攝像機以及紅外攝像機,建立了全美最先進的生理信號採集設備。在實驗過程中,受試者需要佩戴監測呼吸和心率的設備,30分鐘的數據需要12個小時的計算處理。
Yin説:“Umur做了很多生理數據分析,並用我們第一個多峯數據庫進行了信號處理。我們不僅收集2D、3D可見圖像的數據,也收集熱像儀和生理傳感器的數據。使用生理學特徵去檢測圖像造假將會是以後的新的思路。”
二、要打“假”,先造“假”相比起實驗中採集的圖像,Deepfake處理過的“假照片”圖像質量要低很多,這意味着合成的照片和視頻可以更容易被發現。
Ciftci説:“我們會用採集到的生理信號對3D圖像進行處理,合成了一些‘假’視頻。和Deepfake不同的是,我們採用真實的受試者的數據並進行處理,而Deepfake則是用網絡中的數據。但如果只是從‘假’的層面考慮,並沒有什麼不同。”
“就像警察知道罪犯是怎麼犯案的一樣,如果我們要找到那些假照片,我們就得先知道它們是怎麼製作出來的,甚至當我們自己創造數據庫時,也使用了Deepfake的一些方法。”
Lijun Yin(左)和Umur Ciftci(右)在3D掃描實驗室,圖源:Jonathan Cohen
自FakeCatcher發表以來,全球共有27位研究人員在自己的研究中使用了該算法和數據集。但很多人都擔心,如果這些研究成果未來向大眾公開,Deepfake製作者是否有可能通過學習驗偽過程,修改算法以升級Deepfake使合成照片在未來更難被發現。
但Ciftci並不太擔心這一點:“對於不懂生理信號處理的人來説,突破生理信號檢測並非易事。如果沒有重大軟件更新,Deepfake製作者不可能僅僅利用現有技術來實現這一目標。”
三、除了能“打假”,還能拍電影英特爾參與FakeCatcher很大原因是基於對容積捕獲的興趣,也就是用多個攝像機全方位捕捉同一個人物的信息,並將其結合創建一個可以無縫置於任何環境的三維模型,這將對AR和VR具有重大意義。
英特爾稱正進行世界上最大的容積捕獲實驗:在10000平方英尺的網格狀球頂下裝有100個攝像機,場地可同時容納約30人,受試者甚至可以騎幾匹馬。
英特爾實驗場地
通過編譯FakeCatcher數據並對其進行逆向工程,英特爾希望結合真實的生物信息,製作出更逼真的效果圖。
英特爾未來的計劃包括將容積捕獲技術運用在電視節目、體育賽事和增強現實中,使觀眾可以沉浸在這些場景中。除此之外,英特爾也會涉足3D、VR電影製作,近期在威尼斯電影節上也有英特爾參與的VR項目正在首映。
Demir表示英特爾正在從以芯片為中心轉變,向AI、邊緣計算和數據靠近,盡一切可能發掘AI在自身業務上的應用。”
四、“打假”無止境,FakeCatcher再進步在今年八月發表的論文中,Demir等人利用生物信號殘差提出了一種深層的偽造源檢測模型,不僅檢測偽造視頻的準確率可以達到97.29%,在推斷偽造視頻背後的生成模型上,準確率也達到了93.39%。
因為用於檢測心跳、血液流動等生理變化的PPG信號難以模仿,至今還沒有生成模型可以創建出PPG信號一致的偽造視頻。所以研究人員不僅可以通過PPG信號的不一致找出偽造的視頻,還能通過PPG信號之間的殘差找到偽造視頻背後的生成模型。
研究人員從臉部不同位置,通過幀窗口從視頻中提取32種原始PPG信號,再將信號及其頻譜密度編碼為一個時空塊,即所謂的PPG單元。PPG單元再通過神經網絡處理後,可以識別源生成模型的不同殘差的特徵。最後,使用機率平均對數將每個特徵序列合併為預測每個視頻背後的生成模型。
Deepfake檢測流程
結語:產學研合作,瞄準基準數據集大量偽造的視頻及圖像在網絡及社交媒體上廣泛傳播,所以設計基準數據集以用於深度檢測研究更加迫切。研究人員表示下一階段,他們將創建包含PPG信號的新數據集,以向這一目標再邁一步。
Yin也表示,希望在未來能繼續和英特爾合作,讓研究成果不僅在學術界有所影響,在業界也能得到實際應用。
來源:Tech Xplore