日益火爆的深度偽造技術
隨着5G商用時代的來臨,網絡空間中的圖像和視頻傳輸越來越便攜,內容也受到大眾的歡迎。相比於文字等傳統媒體形式,圖像和視頻由於不易更改,能夠更加真實的反映人們的日常生活狀態,因此受到更多關注。
而隨着人工智能技術的發展,以深度學習為代表的一些技術有可能重塑數字內容,相應的,圖像和視頻等媒體內容也可以進行更改,這種方式極大地衝擊了“有圖有真相”的觀念,即所見到的圖像並非真實圖像,有可能是被偽造或者修改過的,而這種偽造或者修改人眼又難以覺察。
2019年初,94版《射鵰英雄傳》裏朱茵飾演的黃蓉換上了楊冪的臉,在網上引發了很多熱議。同樣,B站有人使用AI換臉技術將張國榮“復活”,在長達6分鐘視頻中演唱了兩首歌曲,將張國榮再次帶到大家的視野中。前段時間,國內軟件“zao”以換臉為特點在朋友圈廣泛傳播,一度在大陸地區App Store中登上榜首。在這篇文章中,我們簡要地介紹下人臉偽造技術。
圖1 人臉偽造示例(圖片來自網絡)
“易容術”——人臉偽造技術簡介
人臉圖像偽造起源較早,2016年在計算機視覺與模式識別會議上提出的face2face是代表性技術之一,face2face可以非常逼真的將一個人的面部表情、肌肉變化等複製到另一個人的面部,這項技術在當時由於門檻比較高,傳播範圍十分有限。現代深度偽造技術的核心算法對抗生成網絡的起源是2014年 Ian Goodfellow 發表在機器學習會議上的文章,對抗生成網絡的核心由一個生成器和一個判別器組成,生成器和判別器在不斷的對抗過程中相互學習,最終達到平衡狀態。
深度偽造這一概念的提出則是在2017年底,起初是用户在網上發佈了一段利用名人面孔合成的視頻,引發了各界關注。現在深度偽造泛指利用以深度學習為代表的人工智能技術偽造或者篡改多媒體內容。目前來説,針對人臉的深度偽造主要包括以下四種形式(假設我們有A和B兩個人臉圖像):
換臉(Face Swapping),主要是指新生成的圖像同時具有A(或者B)的面部身份信息和B(或者A)的臉部屬性信息(如髮色、表情、姿態等)。
人臉操控(Face Reenactment),主要是指通過歸納總結A(或者B)圖像的姿態、表情等屬性信息,把上述信息遷移到B(或者A)圖像面部。不同於換臉,操控技術不需要更改圖像身份信息,只是改變目標域圖像的屬性信息(如姿態、表情等),從而達到實時操控目標域人臉圖像的目的。
人臉屬性編輯(Facial Attribute Editing):通過指定條件,改變人臉一些屬性信息,如髮色、姿態、表情和年齡等。
人臉合成(Face Synthesis):通過一些隨機生成的噪聲生成不同的人臉圖像。換臉、操控和屬性編輯都可以歸為有條件人臉生成,其可控性較好。人臉合成是無條件人臉生成,由於其原始信號是噪聲,可控性較差,在實際應用中不如前面三個廣泛。
圖2 人臉偽造形式示意圖
深度偽造發展到現在,其趨勢是由圖像、視頻等單一模態偽造合成到圖像、視頻、音頻等多模態統一合成。多維度的內容合成已經是一個趨勢,語音識別、人臉識別、唇形搜索等結合起來,進行人臉語音的合成,從而可以讓一個人自然流利地説出自己從未説過的話。此外,全身合成、3D合成虛擬人技術也成為當前的應用熱點。剛剛過去的兩會期間,搜狗聯合新華社推出的全球首個3D版AI合成主播,可以由文本實時驅動面部表情和唇形,在肢體動作、超寫實細節呈現上面做到比擬真人的動態效果。
深度偽造技術的應用也很多。在影視劇製作中,最直接的幫助就是提升音視頻製作的效率,拓展創作想象空間;一些特殊情況下,還可以通過合成技術為影視劇的失聲演員進行聲音合成,為已過世的演員進行“數字復活”;甚至直接創造虛擬數字人來進行影視劇集的製作,電影《速度與激情7》就是通過CG技術“復活”保羅沃克,在電影中完成了角色的謝幕。深度偽造技術也可以升級現有的音視頻剪輯技術,根據指定條件自動創作影視中的特效、配音等,以減輕影視製作人員的壓力。2020年電影《愛爾蘭人》就用到了人臉年齡編輯技術,在屏幕上為大家呈現了年輕版的演員。在娛樂應用體驗上面,最基本的臉部特效應用、換臉視頻、動圖,都已經多次在我們的生活中出現;虛擬偶像、虛擬主播、虛擬客服也隨着深度合成技術的成熟而變得越來越逼真和可信。一些短視頻軟件中也用到了年齡變化濾鏡等,輸入人臉圖片,通過年齡編輯技術把一個人一生的容貌變化呈現出來。
“人臉照妖鏡”——反偽造技術發展
換臉技術的快速發展,引起了包括政府、產業界和學術界等在內的多方關注。美國darpa早在16年就啓動了針對換臉技術的檢測,並且加入立法,值得一提的是,立法只針對有政治意義選舉,並非一刀切。Deepfake也在2019年舉行了百萬美金deepfake競賽,總體來説難度稍大,在最終公佈的private測試集上結果不是很理想,鑑偽檢測也遠遠未達到一些公司或媒體宣傳的準確率。值得一提的是偽造檢測和生物特徵活體檢測還是有很多區別的,偽造檢測更多的是針對網絡媒體,而生物特徵活體檢測(例如人臉活體檢測)更多的是針對物理空間的真假人臉進行判別。兩者都有相當大的難度,但正是因為活體檢測針對物理空間,所以現有解決方案大多是軟件加硬件方式,而網絡媒體顯然無法通過增加硬件的方式解決。
隨着偽造技術的不斷髮展,我們是否需要對個人的隱私感到焦慮和擔憂呢?總體來説,以現有偽造技術的發展還是很難在任意場景中偽造或操控人臉的,可以在受限場景中對視頻圖像進行偽造,實際場景中對於聲音和視頻的結合,遠遠沒有達到令人滿意的地步。針對網絡媒體內容偽造,我們國家《民典法》即將發佈實施,對個人肖像權的規定增加了內容,明確規定了不得用技術手段偽造等侵害他人肖像權。因此,即便用户利用深度偽造技術知識單純的娛樂,沒有營利目的,也有可能被認定是侵犯肖像權。
深度偽造與反偽造技術具有巨大的理論與技術創新空間,也具有廣闊的應用前景。包括美國國防科工局在內的很多機構都投入巨資研究相應技術,國內包括中科院自動化所在內的研究機構也一直研究相應的技術。偽造和反偽造本身就是矛與盾的關係,只有深入研究偽造方式才能更好的研究反偽造方法。高科技本身沒有天使和魔鬼之分,偽造與反偽造技術亦是如此。這把雙刃劍是天使還是魔鬼取決於人類自身。我們應未雨綢繆,合力共濟,確保人工智能的正面效應,確保人工智能造福於人類。