宋朝名畫“虎戴VR”,在外網火了
金磊 Alex 發自 凹非寺
量子位 | 公眾號 QbitAI誰能曾想,宋朝的老虎們,有一天能在國外被玩兒火了。
事情是這樣的。
前不久谷歌不是出了個AI創作神器Imagen嘛。
只要你給一句話,它就能生成符合語意的圖片。
然後腦洞大開的國外網友們,不按套路地給Imagen出了道題:
給宋代的東方老虎佩戴VR。
Imagen也沒在怕的,“啪的一下”就給出了一幅力作——《虎戴VR》。
還別説,這幅《虎戴VR》還真是有點那味了。
不僅是畫風上,VR頭戴跟老虎以及整幅畫作能夠保持一致。
就連手柄、雙虎嬉戲的感覺也都一步到位地畫了出來。
然後還有兩隻老虎戴VR,手牽着手一起“恰恰恰”的:
甚至Imagen還別出心裁地設計了個“連線”版VR(可能在面對面看片吧):
但畢竟在AI作畫這事上,除了谷歌Imagen之外還有很多神器。
於是,一場《虎戴VR》作畫大戰就此拉開序幕。
(猜猜誰家的畫更有“心有猛虎,細嗅薔薇”的味道
)
DALL-E也來請戰首先來應戰的,定然是OpenAI家的DALL·E。
網友Jacob出於好奇,便用它做了幾幅來做比較。
首先是滿滿“定妝照”風格的《虎戴VR》(很颯啊):
不難看出,DALL·E的畫作和Imagen在風格上還是有很大的區別。
Imagen的畫作更趨於簡約線條風,而DALL·E則更多了些許油畫的元素。
不過在意境方面,DALL·E也是能夠產出“雙虎嬉戲”,甚至是擬人的畫作:
二者相比之下,網友們給出了他們的評價:
大多數網友們對谷歌家的Imagen更買單。
而除了它倆之外,像AI繪畫神器MidJourney也參與到了此次“大戰”。
不過它的作品,就顯得略有些詭異了……
那麼,同樣作為AI創作神器,最近大火的Imagen和DALL·E為何畫風會截然不同呢?
Open AI的DALL·E和谷歌的Imagen,都可以直接通過文本描述生成類似超現實主義的圖像,讓機器也能擁有設計師般的創造力。
不過,二者的“創作”原理大相徑庭。
DALL·E 2採用CLIP將文本特徵映射到圖像特徵,然後指導一個GAN或擴散模型生成圖像。
所謂CLIP,是一個在各種圖像和文本上訓練的神經網絡,對生成的多張圖片進行排序,挑選出更好的生成結果進行展示。
而谷歌的Imagen則使用純語言模型只負責編碼文本特徵,把文本到圖像轉換的工作丟給了圖像生成模型。
語言模型部分使用的是谷歌自己的T5-XXL編碼器,將訓練好的文本凍結。
圖像生成部分則是一系列擴散模型,先生成低分辨率圖像,再逐級超採樣。
谷歌的T5-XXL有46億個參數,而擴大文本編碼器的規模,可以有效改善文本到圖像的對應關係,和圖像的保真度。
此外,Imagen還使用了另一種稱為noise conditioning augmentation的擴散技術,幫助模型學習已添加的噪聲量,從而提高圖像的還原性。
對比來看,Imagen似乎比DALL·E更具有“寫實”的特點:
目前,在Imagen官網上已湧現出各種新奇的圖像。
有人給浣熊戴上了宇航員頭盔。
泰迪熊在這裏開始遊蝶泳。
還有老鷹型的巧克力冰淇淋(嗯,還挺應景)。
截至目前,Imagen和DALL·E都還在調試階段,尚未向公眾開放。
One More Thing這次《虎戴VR》AI作畫大戰中,也不乏有失敗的作品。
例如有網友就給出了用DALL·E mini來生成的示例。
不難看出,在這版中的《虎戴VR》中,並沒有任何VR的出現,而且老虎的面部基本上都是模糊不清。
據網友描述,他在生成的過程中,只是把“北宋”改成了“南宋”:
畫作最難的“形象性”,在這次有所下降。
那麼你覺得《虎戴VR》,哪家AI神器更強一些呢?
參考鏈接:
https://twitter.com/hardmaru/status/1532757753797586944?s=21&t=MhwVN5VXH22zFK7DWQJnCg
— 完 —
量子位 QbitAI · 頭條號簽約