本文來自微信公眾號:矽星人 (ID:guixingren123),作者:光譜、杜晨,編輯:VickyXiao,頭圖來自:@weirddalle
最近我完全迷上了一個推特賬號。
上面發的全都是些描述十分離譜,卻、又有一種獨特風格的梗圖。
比如“懷孕的婦女將投石車瞄準最高法院”:
“達斯·維達偷走一輛獨輪車的監控畫面”:
還有 “蜘蛛俠和古埃及”:
很難用文字來描述這些圖片,有多麼的離譜卻又傳神了。自從我每天開始轉發這個賬號,網友們都驚訝於我哪兒找來的這麼多梗圖……
這個賬號,就是“奇怪的 Dall-E mini 生成圖片” (Weird Dall·E Generations @weirddalle)。
在這個梗圖橫行網路,人們已經不能好好說話的年代,@weirddalle 成為了最新、最時髦,也最“古靈精怪”的梗圖來源。它今年2月才註冊,現在粉絲數量已經快要突破百萬了。
然而,很多人其實並不知道,這個賬號的背後,並非一位腦洞清奇和高產的畫手,而是一個在最近已經火出天際的神經網路專案:DALL·E mini.
一、一個免費公開的專案,讓所有人都變成“靈魂畫手”
近兩年,超巨大引數量規模的語言模型,是進展最迅猛的一個創新方向。包括 OpenAI 的 GPT-3、谷歌的 LaMDA 等,處理起各種各樣的語言類任務,效果非常強大。
這些科技公司還在專門研究一個具體的語言任務:根據文字描述生成圖片。在這個任務方向上,OpenAI 的 DALL·E、谷歌的 Imagen,以及 MidJourney 模型,都是非常知名的專案。
但是這些知名專案都是不公開或半公開的。比如 DALL·E 2,OpenAI 只給數量極其有限(大約幾百人)的外部開發者和研究人員開放了使用許可權。於是,家住美國休斯頓的開發者 Boris Dayma 決定,照著 DALL·E 2 的樣子自己做一個小規模的免費版本出來,讓大家玩個夠。
這個專案,就是後來的 DALL·E mini。
Boris Dayma 圖片來源:本人
這個專案本來是 Dayma 拿來參加 Hugging Face 挑戰賽的,因為效果實在太棒,又是開源免費使用的,沒過半年它就成功破圈,進入了主流社會的視野。
至於為什麼一個出於愛好性質,由個人開發者做出來的圖片生成模型,能夠和 OpenAI 的 DALL·E 一代不相上下,在於這個小專案用了三個圖片-描述平行資料庫,分別為300萬、1200萬和1500萬張圖片,其中1500萬的這個資料庫正好是 OpenAI 的 YFCC100M 資料子集。
現在,大家正在瘋狂地使用 DALL·E mini 進行創作輸出。粉絲們甚至在 Reddit 上專門建立了一個subreddit社群,目前已經有超過8萬名使用者,在一個尋常的週四晚上,都有超過一千人同時線上:
在這個 subreddit 裡,各式各樣腦洞清奇的作品更是層出不窮:
有強迫模型生成 PPT 藝術字的:
有用它來偽造歷史照片的:
圖注:《星戰》角色佳佳賓克斯在紐倫堡受審
雖然名字有點像,功能也基本一樣,但 DALL·E mini 除了名字和訓練資料庫之外,跟 OpenAI 的 DALL·E 完全沒有任何關係。也是因為它最近實在太火,搞得 OpenAI 有意見了,Dayma 只好把自己的專案名稱改成了 Craiyon。(https://www.craiyon.com/)
聽說此事之後,粉絲們還做了一張梗圖,嘲笑 OpenAI 那邊還在控制測試許可權,這邊 DALL·E mini 早就給全網玩嗨了……
Dayma 在本週三透露,目前 DALL·E mini 後臺正在面臨巨大的算力和流量壓力,每天要處理大約500萬次生成指令。他表示“做了這麼一個怪怪的但是能用的東西出來,反而大家都挺喜歡的”,自己還是挺開心。
更重要的是,把過去只有少數“AI 特權人士”才擁有的工具,交到每一個普通網民的手上,才是正確的事情。
Dayma 在接受英國媒體“i”採訪時指出,那些能夠使用類似圖片生成模型的 AI 精英們,通常只會把他們自己感到滿意的生成結果發出來,這容易讓其它看熱鬧的人誤以為這些模型已經非常厲害了,然而實際情況可能並非如此。所以他才會搗鼓出 DALL·E mini 這個小玩意,讓所有人都能用上,“這樣大家才能真正明白這些模型到底水平如何。”
二、無所不能的語言模型,終於染指了藝術創作
2020年,OpenAI 的研究者揭開了 GPT-3 模型的蓋頭,當時的論文題為“Language Models are Few-Shot Learners”,直接點出了超大語言模型在多種非訓練任務上具備強大的快速學習/掌握能力。
而在語言模型基礎之上,面向圖片生成這一專門任務方向而除錯訓練出的結果,像 DALL·E、DALL·E mini、Imagen、Midjourney 等的圖片生成模型,更是展示出了令人驚訝的“藝術創作”能力。
2022年6月的一個星期一下午,傳媒巨頭赫斯特旗下時尚雜誌《COSMO》位於紐約市的編輯開了一個影片電話會。會議的目的是為該雜誌的6月刊設計一個封面,但和往常不同的是,位於西海岸的 OpenAI 員工也參與到了會議裡。《COSMO》的編輯們震驚於 OpenAI 在 AI 藝術創作上取得的驚人進展,決定邀請這家公司一同在傳媒行業做一件從未發生過的事情:
讓 DALL·E 2 來設計一本頂級時尚雜誌的整版封面。
封面,對於傳媒人來說是頂禮膜拜的一種存在,時尚媒體更是如此。對於一本時尚雜誌,封面濃縮了編輯部的社交關係能力和藝術審美水準,讓人一眼即可領略本期內容的精華,和雜誌本身的積澱。而當《COSMO》讓 AI 來設計封面的決定在業界傳開之後,難免有人詰問:是否傳媒創意行業也江郎才盡,將要和其它很多藍白粉領工作一樣,最終難免讓位給 AI?
如果僅從這次視訊會議的工作效率來看,肯定的答案似乎是顯而易見的:DALL·E 2 以平均每次輸入20秒的用時,就可以根據編輯輸入的字句,生成對應的圖片,而且一次可以出六版,相比人工畫師,效率簡直高出天際了。
只是,這些圖片都令人不甚滿意。
最終,六位參會者不斷地打磨和迭代輸入的文字,又經過了一整夜之後,DALL·E 2 才終於生成了令所有人都滿意的封面結果。
輸入語句: “從下往上的廣角拍攝,一個有著健美女性身材的女性宇航員,在火星上和無限的宇宙背景中大搖大擺地走向相機,採用合成波風格(synthwave)” 圖片來源:COSMO 雜誌
採用 DALL·E 2 “outpainting”功能,根據初始生成的圖片,不斷在邊緣處進行“補完”,最終生成一張連貫的圖片 圖片來源:OpenAI/COSMO 雜誌
在今天,DALL·E 2、DALL·E mini、MidJourney、Imagen 在生成視覺藝術上的確展現出極大的潛力。但如果你仔細想,它更大的意義,其實在於為那些“空有靈感”卻沒有視覺創作技藝的人,也即網際網路上的每個你和我,賦予了一件強大的工具。
DALL·E 專案產品經理 Joanne Jang 表示,OpenAI 最終肯定還是希望能夠將 DALL·E 2 商業化的,但希望在藝術生成的這個方向上,把它做成一個創作者的工具,而不是替代品。
沒有任何工具應該替代創作者本人的藝術理解和表達對創作產物所造成的影響。但是,當文字生成圖片技術進一步普及過後,難免出現大批入門級創作者淪為模型的“操作員”,過度依賴工具。
參與了《COSMO》封面專案的數字藝術家 Karen Cheng 認為,AI 的採用確實會對各行各業造成深遠影響,讓很多人失去工作,
“不過與此同時,創意將會迎來一次爆發,新的工種也將被創造出來,那種可能性是今天的我們所無法想象的。”
本文來自微信公眾號:矽星人 (ID:guixingren123),作者:光譜、杜晨