在開源方面,中國似乎一直在踐行“拿來主義”,對開源代碼的貢獻遠遠比不上其他國家。
據CodersRank統計,在2012-2019期間,對全世界開源代碼貢獻最多的城市主要位於美歐地區,舊金山一騎絕塵,名列前10的其他歐美城市還包括紐約、倫敦、柏林、多倫多、西雅圖、洛杉磯、巴黎與巴塞爾。此外,亞洲地區的東京與首爾亦榜上有名。
而中國的表現,則“名落孫山”。換言之,中國在開源方面,相較其他國家而言,仍相對落後。在大多時候,中國的開發者是使用來自美國的開源技術,而不是貢獻自己的開源代碼。
針對這個問題,我們要如何破解呢?
近日,來自中國科學院大學的包雲崗教授針對如何破解中國開源的“拿來主義”,提出中國要加大對開源技術的投入,形成一批由中國發起的有影響力的開源項目,爭取到更多話語權。事實上,華為也認識到了這個問題,在Linux上的投入非常大:在Linux Kernel 5.10中,華為的Patch貢獻量已經排到全世界第二,僅次於Intel。
據包雲崗教授總結,開源主要有兩種模式:一種是由非營利組織主導,如Linux基金會、Apache基金會、RISC-V基金會等,商業應用一般需加入基金會,繳納會員費;另一種是由企業主導,如谷歌 (Andriod, Chromium, TensorFlow)、RedisLab (Redis)、Wave Computing (MIPS)等,商業應用需與主導企業簽署協議。
由企業主導的開源,比如谷歌的TensorFlow,只單向開源代碼,很少接受社區反饋,本質上是通過開源形成技術壟斷。相比之下,由Linux基金會等非盈利機構主導的開源項目則更開放:代碼開源、流程開放、管理開放,通過貢獻度來決定話語權。
開源對AI技術發展的影響無疑是巨大的。秉承推動中國AI開源發展的原則,LF AI & DATA DAY(AI開源日)於2020年11月7日在深圳市南山區鵬城實驗室舉行。“AI開源日”是鵬城實驗室、LF AI & DATA基金(Linux基金旗下的一個子基金)與OpenI啓智社區達成三方合作的里程碑活動。
作為此次活動的聯合舉辦方之一,MindSpore社區以運營負責人黃之鵬為代表,闡述了AI原生編程(AI Native Programming)生態的建設意義,強調了開放治理對開源社區發展的意義。AI科技評論對黃之鵬進行了訪談,就此次合作的背景與意義、以及MindSpore對開源發展的計劃展開了討論。
一、開源初期:機遇與挑戰並存
黃之鵬認為,國內AI開源正處於爆發式增長的初期,原因主要有兩點:一是更多人瞭解到開源是什麼,並擁抱開源的理念;二是很多公司開始意識到,通過開源協作的方式,很多項目的開發效率會提高,對公司“攤薄”成本也有好處。
近幾年,開源技術受到越來越多國內企業的青睞,這與諾貝爾經濟學獎科斯的交易成本(Transaction Cost)理論有關。根據該理論,每一筆交易都有成本。對於企業來説,在完成相同功能的情況下,交易成本越低的技術越受歡迎。而開源極大地降低了交易成本。阿里雲的前副總裁章文嵩曾提到,阿里使用開源技術來實現“去IOE”,成本只需要原來的1/140。
在初始階段,國內AI開源發展的機遇與挑戰並存。一方面,現在國家非常強調創新,而開源是一項能夠促進技術創新的舉措,因為開源吸引了大量的開發者,相當於在技術的發展中眾籌了更多的智力。而另一方面,國內的開源相關的歷史、文化、規則、法律等仍需長足建設。比方説,在代碼開放的情況下,如何避免成果剽竊與篡改這一類問題。
針對這一擔憂,黃之鵬提到,MindSpore使用的是非常主流的Apache 2.0開源許可證。當開發者在做貢獻時,他能夠清楚知道他的受讓所遵守的約定,給予了什麼、保留了什麼。如果存在剽竊行為,原作者很容易舉證。此外,MindSpore強調開放治理,即一個人作出貢獻後,所有人都會知道並認可他的貢獻。藉助於業界最主流的Git代碼管理機制,即使是簡單的合入補丁,文件也會標註作者的名字。
此外,社區如何吸引更多開發者參與開源呢?MindSpore建立開發者成長體系,設立相應的獎勵機制:
1)普通開發者:零門檻參加社區活動,可以加入微信羣提問任何問題,無論多麼小白。
2)優秀開發者:通過答辯選取。每個競選者通過分享自己的故事,以及使用MindSpore進行的技術突破與創新,基於個人的開源成就而當選。
3)佈道師:要求在一定規模的會議上分享過MindSpore的議題,提交過特性補丁並被接納。黃之鵬介紹道,“深度學習的門檻比較高,如果你有特性補丁被SIG的Approver團隊核錄的話,意味着你對深度學習框架的理解已經非常深。”
參與的開發者不僅能夠遇到更多志同道合的開發者,優秀開發者與佈道師還將有不同的現金獎勵。加上MindSpore本身的影響力也比較大,如果能當上佈道師,對個人求職的幫助也很大。
黃之鵬強調,華為做MindSpore的出發點在於普惠AI,“通過開源降低參與門檻,使更多人蔘與進來,加快AI產業發展的進程。”
二、MindSpore:開放治理是核心
MindSpore是華為在今年3月28日開源的一個全場景AI計算框架。如今,七個多月過去,MindSpore在國內開發者羣體中發揮着越來越大的影響力。黃之鵬認為,MindSpore社區的優勢主要有三點:一是開放治理;二是強調合作;三是開發者第一。
1)開放治理
與其他由廠家推動的深度學習框架開源區別開來的重要一點是:MindSpore設立了一個技術治理委員會(TSC),集結了來自中美歐的14位技術專家。在CCF-GAIR 2020的“AI源創專場”大會上,黃之鵬提到,採用開放的社區治理架構,是因為“華為希望MindSpore能成為一個面向全球的開源社區,通過實行透明而公開的治理,來夯實開源協作開發。”
TSC每個月會舉辦一次在線例會,社區運營者在會上向委員反饋社區的進展,或通過郵件知會委員,比如特殊興趣組(SIG)的成立、版本節奏的變化等,保證所有版本與計劃公開透明。在社區的治理章程中我們注意到,在議事規則中,MindSpore實行Significant Objection機制,即“一票反對,則需修改”。換言之,決策權由委員掌握,而不是單方“敲定”。
MindSpore的開發也基本是開放在外面。只要你對這塊研究感興趣,都可以在碼雲、Github上找到所有的代碼。
2)強調合作
除了開放治理,MindSpore強調與其他開源社區的合作,包括LF AI & Data基金會與OpenI啓智社區。黃之鵬介紹到,“OpenI啓智社區有很多與硬件開源相關的項目,LF AI & Data則有很多與數據處理相關的開源項目。(與他們的合作)能為MindSpore的用户帶來優秀的端到端解決方案。”
此外,每個社區都有自己的用户羣體。參與鵬城實驗室、LF AI基金會與啓智社區的合作,無疑也會拓展MindSpore的受眾,孵化更多技術創新。
3)開發者第一
在AI領域,開發者習慣追求大神,而MindSpore則認為:每一位開發者都有可能成為大神,每一個開發者對社區來説都很重要。黃之鵬強調,MindSpore強調對開發者的友好,“他們不會覺得是在給某一個公司打工,而是感覺自己在參與一個屬於大家的活動。”
為了營造友好的氛圍,黃之鵬強調社區的運營:一是建立一套機制,保證研發團隊對開發者提出的問題會給出非常及時的回答,即使初步回答不上來,最後也會幫助開發者解決Ta所提出的問題;二是在直播、微信羣、QQ羣,以及面向海外的社交媒體羣上組織開發者活動,比如小劇場。
開發者第一的理念似乎已經開始“變現”,在最近開源中國對碼雲1000多萬個代碼倉的統計概覽中,發現MindSpore社區是指數達到99的“第一社區”
三、AI原生編程生態:生來就是為AI服務
隨着企業對開源投入力度的加大,投資者對國內市場上基於開源的初創項目的支持力度也呈現爆發式的增長。“鵬城實驗室+LF AI & Data基金會+OpenI啓智社區”的此次合作,便傳遞了中國學術界、投資界與企業界在開源方面加大投入的決心。
作為OpenI啓智社區與LF AI & Data基金會的長期合作伙伴之一,MindSpore希望聯合三方,打造一個完善的AI原生編程生態。在黃之鵬看來,“AI原生編程生態”是AI的下一個生態:“過去與現在的框架主要是從工程的角度利用已有的工具去做一些改造,讓它能夠用到人工智能上。而AI原生則是:出生就是為了解決AI的問題,而不是被改造來解決問題。”
基於近些年深度學習框架的發展趨勢,框架現在主要集中在編譯優化和軟硬結合上,而MindSpore的一大特點便是在編譯層面進行了大量優化。雷鋒網
在黃之鵬的眼裏,一個完善的AI原生編程生態具備六大特性:自動微分、自動並行、高階優化、全場景、AI安全,以及科學編程能力。除了這六點特性,一個完善的生態還具備北向的應用生態與南向的硬件集成生態。
一個生態的建立往往耗時耗力。千里之行,始於足下。如今,MindSpore的端側推理能力已應用在華為手機搭載的 HMS 4.0,主要支撐 ML-kit使能的手機App。雷鋒網
框架的開源,仍需要更多的人蔘與進來。正如洪強寧教授所説:“全世界的程序員是一個共同體。”在MindSpore這個平台上,開發者能夠挖掘更多的技術潛力,既能成為“巨人”,又可以站在“巨人”的肩膀上。雷鋒網
邊界的打破,由你做起。