楠木軒

新基建的浪潮下,中國需要什麼樣的開源天團?

由 不新伏 發佈於 科技

天元、MindSpore、計圖、OneFlow……一連串國產開源深度學習框架的相繼問世,讓中國的開源AI迎來了遲到的“暖春”。

8月15日的“2019中國電子學會科學技術獎”頒獎儀式上,百度自主研發的“飛槳產業級深度學習技術與平台”,更是榮獲2019年度中國電子學會科學技術獎科技進步一等獎。

國產開源深度學習框架開始得到行業的認可。

早在2016年的時候,國內的開源AI還只有百度飛槳一股力量,不少開發者被迫在Google的TensorFlow和Facebook的PyTorch之間做選擇。特別是在“斷供華為”的陰影下,深度學習框架是否會被“斷奶”,一度成為外界熱議的焦點。在過度依賴國外開源框架造成的不確定中,“框架自由”成了國內不少開發者的夙願。

2020年國產的深度學習框架逐漸填補了空白,可人工智能的“開源之戰”也愈演愈烈,早已上升為爭奪人工智能話語權的較量。中國需要的不僅是越來越多的參與者,還需要在世界舞台上拼刀法的撒手鐧。

01 開源的自由與國界

關於深度學習框架的價值,還要從算法開始説起。

在人工智能的三要素中,如果説數據是燃料、算力是發動機,算法就是催化劑,直接決定着發動機對燃料的利用率,也是深度學習研究中的基本功。在深度學習的初級階段,每位研究者都要花大量的時間寫算法。

深度學習框架的出現,大大降低了開發者入門的門檻,不再需要從零開始寫一套機器學習的算法,可以直接使用框架中已有的模型進行組裝,或者在已有模型的基礎上訓練自己的模型,讓算法的規模化生產成為可能。

打一個比方的話:優秀的深度學習框架給開發者的價值,可以讓開發者在項目訓練中告別手工時代,就像拖拉機之於農民,原先需要一鋤頭接着一鋤頭平整土地,自動化的拖拉機可以讓一個人完成原來數十人的工作。

其實業界對深度學習框架的價值早已形成了共識,爭議在於“開源”二字。無論是Google的TensorFlow,還是Facebook的PyTorch,無不披着開源的外衣,在“開源自由”的互聯網世界裏,中國是否有必要推崇所謂的“國產”?

長江商學院經濟學教授、人工智能與制度研究中心主任許成鋼,曾經分享過這樣一組數據:中國關注人工智能開源軟件包的人數在2017年秋就超過了美國,但93%的中國研究者使用的是TensorFlow等美國企業提供的開源框架。

某種程度上説,這是一組相當恐怖的數據,芯片和開源框架分別代表了算力和算法,在芯片已經被國外卡脖子的局面下,倘若繼續高度依賴國外的開源框架,算力和算法兩大基石都受制於人,等同於徹底把遊戲規則的制定權交到了美國手中。一旦遊戲規則掌握在別人手裏,中國永遠都是缺少話語權的弱者。

當然,國內仍然有不少理想主義者為開源唱讚歌,一羣工程師、科學家、法學家為了開源自由對抗執法部門的故事,時常出現在國內的輿論場中。但現實終究拗不過強權,一向以開源社區自居的GitHub,屢屢傳出封禁伊朗、俄羅斯等國籍開發者的消息,開源背後的國界意識也是不爭的事實。

況且中國並不缺少過度信奉開源的教訓,典型的例子就是華為。在美國政府的封殺下,谷歌雖然照舊向華為開源了AOSP項目,可配套的GMS服務卻把華為拒之門外,直接影響了華為手機在海外市場的銷量。

開源深度學習框架是否存在同樣的隱憂?可能在槍響之前,我們永遠都不知道下一個陷阱在哪裏。

02 中國開源的冰與火

回到開源深度學習框架的話題上,在各種不確定風險的作用下,勢必要燃起屬於中國的星星之火。

從淺的層面來説,深度學習框架的自立是避險的需要,連亞馬遜、蘋果、微軟等都在自主研發深度學習框架,避免被谷歌牽制的時候,中國的人工智能企業應該有最基本的風險意識,儘可能避免芯片產業的覆舟之戒。

進一步思考的話,創新通常不是靠砸錢、堆人就能發生的,最大的魅力還是創新的偶然性,可能發生在少數人身上。如果中國有越來越多的開發者、越開越多的企業參與到深度學習框架中來,創新的概率也將被提高。

但同時需要理性認識的是,雖然深度學習框架關乎人工智能賽道的制高點,可本質上還是一款“軟件”,它的難度並不在開發層面——伯克利、清華等一些頂級高校的博士生,往往也能開發出不錯的深度學習框架。

開源深度學習框架的重心在於產業化和長期維護,能否建立起一套完整的開源體系,進入門檻遠沒有想象中低。

一個典型的例子,美國大大小小的開源深度學習框架有幾十個,最終脱穎而出的卻是谷歌、亞馬遜、Facebook等巨頭,除了自身過硬的實力外,還在於巨頭們有充足資金進行技術、團隊、社區等方面的建設。一些剛剛起步的創業型公司,常常因為資金、技術、人才等方面的壓力而自縛手腳。

另一個層面來看,開源深度學習框架的用户是開發者,所追求的是框架的易用性。在人們的固有認知中,習慣傾向於信賴被大眾認可的事物,在情感上更偏向於有巨頭背景的開源深度學習框架。即使一些初創企業可以提供有亮點的產品和服務,開發者也會出於安全、穩定等考量選擇搶先培養了用户習慣的產品。

中國開源深度學習框架的行業現狀,也是如此。

一面是行業越來越熱鬧,來自清華大學計算機系圖形實驗室的計圖、國內計算機視覺領域的獨角獸曠視推出的天元,再到創業公司一流科技打造的OneFlow,已然呈現出一副百花齊放的景象。與2015年前後的美國市場如出一轍,短時間中湧現出了大大小小、各種各樣的開源深度學習框架。

一面是開源生態的貧瘠,開源深度學習框架的核心價值在於生態,需要向下對接芯片,向上支撐各種應用,進而打造深度學習的標準,也就需要持續的資源投入。華為的MindSpore還處於嬰兒狀態,阿里、騰訊等互聯網巨頭沒有太大的聲音,深度介入上下游生態的還只有百度飛槳一家而已。

03 抓住產業的窗口期

然而在新基建的浪潮下,留給中國開源深度學習框架試錯的時間已經不多。

諸如智慧醫療、智慧社區、智慧金融、智慧交通等市場需求的爆發,正倒逼中國的開源AI形成一個完整的閉環,加速人工智能的產業化。確切地説,深度學習框架已經不僅僅是個開源的問題,還是一個商業化問題。

畢竟開源的目的就是在商業化的過程中,以一個結構化的、開放的底層系統,同時兼容存量市場和新增需求,降低客户和合作夥伴的使用門檻,繼而為開發者提供快速實現商業化落地的路徑。

不少人嘗試對飛槳、天元、計圖等開源深度學習框架進行橫向對比,試圖找到最有吸引力的產品。或許並不需要複雜的對比,僅僅是這些開源框架在GitHub上的星級就能一較高下,百度飛槳的星數為12.5K,計圖、OneFlow和天元分別為1.6K、1.7K和2.5K,瀏覽量和服務端的代碼倉庫克隆數上,飛槳也遠遠領先其他國內開源架構。

除了在GitHub上的絕對優勢,百度飛槳還是近乎唯一有着大規模應用案例的一家:

百度飛槳的大規模分佈式訓練,被OPPO應用於應用商店、內容推薦、負一屏、廣告等推薦場景,推薦場景效果提升了4%—5%;普宙飛行器科技基於百度飛槳打造的一款無人機自主飛行平台,實現了大範圍森林的自主巡邏、火情監測、非法入侵、森林樹木砍伐監測等功能;山東信通引入飛槳的模型壓縮庫PaddleSlim和端側推理引擎Paddle Lite,打造出了一整套輸電智能巡檢方案……

之所以將不同的開源深度學習框架進行對比,並非是為了渲染“春秋戰國”的對抗氣氛,而是當深度學習走向與產業結合的深水區,深度學習框架逐漸在產業智能化進程中扮演核心角色的時候,應該多探討一下生態該怎麼建設。

中國的開源深度學習框架需要的不僅是百花齊放,在加速應用落地、擺脱外部依賴的大背景下,還應該鼓勵一枝爭春。

比如重點扶持一兩家開源深度學習框架,推動上下游產業的聯動,就像百度飛槳與華為麒麟芯片的深度合作,嘗試打造深度學習的中國標準;

再比如推動不同開源框架的兼容,一些創業公司和大學實驗室不缺少天才程序員,也適合一些創新性的探索,而百度、華為等科技巨頭則擅長開源生態的建設。至少從PyTorch引入TensorFlow的可視化來看,谷歌和Facebook已經開始了合作。

何況留待中國開源AI的核心挑戰在於能否抓住產業化的窗口期,不同平台間合作的契機遠大於商業上的衝突。

04 寫在最後

百度CTO王海峯曾經這樣形容深度學習框架的價值:

在智能時代,深度學習框架起到承上啓下的作用,下接芯片和大型計算機系統,上承各種業務模型與行業應用,是“智能時代的操作系統”。

假如中國無法在智能時代打造出屬於自己的“操作系統”,被Windows、安卓卡脖子的故事將再次上演。想要在這場全球性的AI爭奪戰中勝出,中國企業勢必要在基礎和關鍵技術上下苦功,避免在沙灘上起高樓。

幸運的是,在無數有識之士的呼聲奔走下,國內也有了自己的開源深度學習框架“天團”,既有百度飛槳這樣在技術和應用上全面領先的C位擔當,也有計圖、天元、MindSpore、OneFlow等新興勢力。

只是就目前來看,從開源深度學習框架的遍地開花,到整個開源AI生態的持續繁榮,再到中國人工智能應用的行穩致遠,還需要不同領域開發者的協同努力,以及在政策層面進行適當的引導。