AI在藝術界表現出越來越驚人的“天賦”
我們知道用AI來繪畫、寫詩、作曲已經不是新鮮事。但在藝術領域,AI在試圖模仿、甚至超越人類的過程中,始終存在一個難以逾越的瓶頸,就是人類與生而來的創造力。
這也是AI研發人員聚焦深度學習和強化學習着力攻克的難點之一。
近日,預印論文庫arXiv上發表了一項最新研究成果,論文中的AI畫家可以化身“心靈捕手”,通過對話式溝通感受人類的獨特品質、個性和情緒,從而繪製具備內在情感特徵的人物肖像。
據瞭解,這位Empathic AI Painter,出自來自加拿大温哥華西蒙弗雷澤大學(SFU)iViz實驗室團隊。此前,他們的AI畫家曾在國際神經信息處理系統(NeurIPS)大會做了現場演示,吸引眾多用户參與圍觀,還受到CTV國家新聞的專項報道。
那麼這款“心靈捕手”AI畫家是如何進行藝術創作的呢?
會聊天的AI畫家據該團隊介紹,AI畫傢俱備兩套創意系統,一是對話式語音交互系統,一是AI人像生成模型系統,他們均通過3D虛擬人像來呈現。
Empathic AI Painter
與傳統繪製畫像不同,它不是一種靜態的“眼觀”模式,而是採取對話聊天的形式,捕捉內在情緒完成藝術創作。
該團隊教授史蒂夫·迪帕拉( DiPaola)表示,3D虛擬畫家的語音交互系統可以與用户聊天,就某一事件採訪他們的感受,瞭解他們的性格,進而通過AI人像生成模型,在繪畫過程中體現不同的情感特質。總的來説,AI畫家需要完成三項任務:
感知用户語言和行為
基於以上信息,判定人物性格和情感特質;
通過AI人像生成模型,在繪畫風格、色彩、紋理上呈現不同的用户特質;
在ECA方面,3D虛擬人像融合了NLP自然語言處理模型,在交談中通過面部情感、語言壓力、語義,感知人類的情感和對話,並作出相應的反饋。另外,其內置的共情建模,還可以通過手勢、言語、表情,對用户情緒作出感知性反應。自然、真誠的對話表現可以讓人類更真實的表現自己。
在個人特質評估方面,研究人員採用了“五大人格模型”(FFM)。它是由科斯塔和麥克雷在20世紀80年代提出的,被廣泛用於人格分析。模型提出了神經質(N)、外傾性(E)、經驗開放性(O)、宜人性(A)和認真性(C)五大人格因素,並通過NEO人格調查表進行測量。
在肖像渲染階段,利用mDD((ModifiedDeep Dream)模型在16萬張數據集上進行深度訓練,由ePainterly模塊完成的最終的風格繪製。
17種不同類型的情感肖像那麼它的作畫效果如何呢?之前提到,AI畫家曾在NeurIPS 2019大會上做過現場展示,當時有26位用户參與,並完成的現場交互。實際上原、人格調查表有120多個問題,大約需要45分鐘才能完成。
但這裏研究人員僅使用了每個維度的一個問題進行了互動,用時不足5分鐘。以下是圍繞“會議感受”主題下的互動問題:
最終結果顯示,84.72%的用户語音被準確識別,AI畫家完成呈現除了17中不同的個性類別,同時用户也表示,該風格表現出了其內在的情感特徵。(以下是部分作品)
目前這款3D虛擬畫家的繪畫作品以已在去全球展出,包括紐約市和惠特尼的現代藝術博物館(MoMA)。
DiPaola教授認為,AI在激發藝術與高級計算機技術融合方面存在無限的潛力。他們所研發的AI系統只是藝術創新的第一步,之後他們還將在此係統上,探索基於詩歌、散文的藝術創作。
與傳統AI設計使用單一算法不同,DiPaola教授團隊的AI系統融合多種不同的技術。我們先來看一下完成的AI系統的架構組成,分為對話交互循環(Conversational Interaction Loop)和生成風格化肖像(Generative Portrait stylization)兩大模塊組成,這兩個模塊之間由BIG-5人格模型鏈接,用於傳達個性化肖像的關鍵信息。
第一階段的對話交互循環功能是基於具有移情模塊的M-Path系統實現的。它可以呈現出3D虛擬人像的形式。在與人類的對話中,具備類似視頻會議的輸入輸出設置,能夠根據用户的情感和語言屬性實時處理輸入,進而產生言語或行為的移情輸出。具體來説,M-Path系統的運行是基於三個不同模塊控制:
感知模塊:用於採集和處理參與者信息。當用户講話時,此模塊通過麥克風和攝像機收集音頻和視頻作為輸入信號。在視頻輸入源中,面部情感識別模塊採用的是OpenCV算法,用來識別不同面部表情所對應的情緒類別。本次研究中將基本情緒分為6種,憤怒,厭惡,恐懼,喜悦,悲傷,驚奇和蔑視,這一分類是基於CK+數據集的深度學習訓練而獲得。
另外,來自麥克風的語音輸入首先會被傳送至文本模塊,進行轉化轉換處理。該模塊採用的是Google的STT服務。
情緒分析組件使用從STT服務接收到的文本來評估文本的極性值(正-中性-負),然後通過SO-CAL情感分析器在NRC-Canada詞典上進行了重新訓練,最後將文本發送至決策組件生成對話響應。整個處理過程會持續到對方發送語音結束為止。
行為控制器模塊:負責在對話循環中,生成同理心和具有目標導向的語言/非語言響應。 在收聽階段,3D虛擬人像會產生相應的情感匹配和反向傳播行為。情感匹配是通過移情機制對用户面部表情的選擇而實現的。而在交談中通過檢測到暫停觸發的點頭行為來創建反向傳播,這兩種行為的集合,最終生成了獲取情感的聆聽行為。
當對話結束後,從STT引擎接收到的文本信息會與用户的總體情感一起傳遞至對話管理器(Dialogue Manager),並最終發送到移情機制(e Empathy Mechanisms)組件。 DM的目標是完成Big-5人格問卷識別的個性類別。 EM的目標生成對應類別的情感響應。
行為管理模塊:用於創建自然的對話行為。M-Path在對話的所有狀態下連續生成非語言或非語言行為,如面部表情,身體姿勢、手勢及嘴唇移動會與語音輸出同步完成,並作為行為標記語言(Behavior Markup Language)消息發送到Smartbody角色動畫平台以顯示生成的行為。
第二階段生成風格化肖像,這部分的處理分為三個步驟。首先主要是運用AI工具對人像進行預處理,包括圖像背景分割,調整人像的光和色彩的平衡。
然後將預處理的圖像輸入至mDD系統模型進行深度訓練,這裏借用的是Google的Deep Dream模型,基於本次研究特性進行了部分調整,因此在這裏成為mDD(ModifiedDeep Dream)。它所使用的數據集收集了來自3000位藝術家的160,000張帶有標籤和分類的畫作,總大小為67 GB。
最後,ePainterly系統結合Deep Style來處理人像表面紋理以及非真實感的渲染(NPR)技術,例如粒子系統,調色板操縱和筆觸引擎技術。這個不斷迭代的過程將完成最終的肖像風格。其中ePainterly模塊是講點繪畫系統Painterly的擴展。
這部分NPR渲染在很大程度上減少了mDD輸出圖像時產生的噪聲偽影。以下是各個階段的效果圖:
雖然AI畫家在捕捉人類情感,繪製風格化肖像方面表現非常出色,但該研究團隊認為它還有很大的擴展空間,並表示從情感評估模型、用户個性分析和互動場景三個方面對其進行優化。
引用來源:(雷鋒網雷鋒網雷鋒網)
論文地址:https://arxiv.org/pdf/2005.14223.pdf
Youtobe地址:https://www.youtube.com/watch?time_continue=438&v;=RMLD7jccv_w&feature;=emb_logo
https://techxplore.com/news/2020-06-ai-painter-portraits-based-traits.html
https://ivizlab.org/research/ai_empathetic_pianter/