智東西(公眾號:zhidxcom)
文 | 心緣
7月10日,商湯科技宣佈OpenMMLab升級為迄今最完備的計算機視覺算法體系和框架——“人工智能算法開放體系”,涉及超過10種研究方向,開放超過100種算法、600種預訓練模型。
從2018年10月啓動開源至今,OpenMMLab已經在Github累積收穫16895個star,在中國開源AI技術梯隊裏遙遙領先於其他單個垂直領域的算法和框架。
OpenMMLab人工智能算法開放體系
這家從實驗室走出的AI明星獨角獸,憑藉濃厚學術基因與極強技術攻關能力,一邊在各大國際AI競賽及頂會狂收戰績,六年拿下60餘項世界第一、近2000項全球專利,另一邊為5億多台手機提供AI/AR技術支撐,並連同1000多個合作伙伴深入10多個行業的智能化升級。
本週商湯科技可謂是連放大招,除了升級人工智能算法開放體系外,7月7日,商湯正式啓動上海新一代人工智能計算與賦能平台項目,將商湯的大規模AI算力、工業級AI算法、開放式AI服務集於一體。
上海市經濟信息化委副主任張英在奠基儀式的致辭中稱該項目是“上海版‘新基建’行動方案中重要任務”、“落實AI‘上海方案’的重要舉措”。
平台建成後,算力將能同時接入850萬路視頻,同時滿足四個超2000萬級人口的超大規模城市使用。
通過與商湯科技聯合創始人、香港中文大學信息工程系教授林達華深入交流,我們試圖解讀OpenMMLab升級背後,商湯科技的開源初心、技術底氣和AI全棧能力。
一、兩年磨礪,商湯OpenMMLab開源計劃從萌芽到森林商湯科技創始人、香港中文大學教授湯曉鷗曾提過一個“三滴水”創新理論:第一滴水是重視知識產權保護的優質創新環境,第二滴水是尊重人才、重視人才培養,第三滴水是實現學術的充分交流,以此讓思想碰撞出新的火花。
近些年來,商湯科技顯然是“AI+教育”最忠實的擁躉者,不僅聚集一百多位全球頂級AI研究人員,還着重發力AI人才培養,出版了初中版AI教材、高中版AI教材以及一系列AI實驗課程。
在推進學術交流合作方面,2018年,商湯做了兩件大事:一是與清華大學、麻省理工學院、上海交通大學等全球15所高校共同發起“全球高校人工智能學術聯盟”,二是由香港中文大學-商湯科技聯合實驗室(MMLab)啓動開源計劃OpenMMLab。
OpenMMLab由林達華教授發起,部分實驗室同學和商湯的研究員參與,奔着“開源、統一、可復現”的目標,逐漸演化為整個商湯的人工智能算法開放體系,並與整個AI產學研界的開源體系產生連接,在國內AI開源項目社區活躍度名列前茅。(鏈接:http://openmmlab.org/)
開源,這股在信息技術發展史上熠熠生輝的創新力量,曾催生許多經典的軟件作品。
在AI領域,開源同樣是算法迭代與創新的主要驅動力,任何人能在源代碼的基礎上進行學習與修改,這種共享文化不僅有效降低AI研發的門檻,還將全球AI研究人員的智慧聚合在一起,從而持續推動AI社區乃至產業的繁榮。
“在深度學習時代,成體系的、基本覆蓋了CV主要領域的開源,商湯是第一個。”林達華説。
2010年前,OpenCV等傳統CV和機器學習開源代碼庫,已在AI領域產生非常大的影響力。
但在深度學習突飛猛進發展的幾年間,深度學習在CV領域並沒有形成像OpenCV那樣的統一開源體系,谷歌、Facebook等很多科技巨頭只在單個方向單點的算法層面進行開源。
能不能為深度學習CV領域的一些重要方向建立統一而開放的代碼庫,並不斷將新的算法沉澱其中呢?一個想法在林達華心裏生根發芽。
2018年10月,MMLab實驗室開放初版MMCV計算機視覺基礎庫和第一代MMDetection物體檢測工具箱,標誌着整個OpenMMLab統一開源體系進化的開端。
到2019年11月,MMLab又陸續開放了多個開源算法工具箱,包括MMAction行為理解工具箱、MMSkeleton基於骨架的視頻分析工具箱、MMFashion服飾分析工具箱、MMSR超分辨率工具箱等。
OpenMMLab發展路徑
經過兩年的發展,OpenMMLab逐漸形成了完整的體系和組織架構,可提供開放的基礎技術支持、接口標準和算法框架。
這些開放資源得到了越來越多AI研究人員的積極使用、貢獻和回饋,對AI社區的發展產生了重要影響。在Github上,OpenMMLab的累計star數(相當於“點贊”)達到16895個。
二、OpenMMLab對AI產學研界的四大核心貢獻深度學習經過近幾年的發展,在技術和工程上水平均趨於成熟,但這其中也藴含着較高的開發代價、算力代價、數據代價。
而OpenMMLab很大程度上是解決算法設計的代價問題。林達華告訴我們,這一開源體系主要為整個AI產研界帶來如下貢獻。
首先,這樣一個開放的體系,為整個AI產學研算法研發和創新提供了非常好的基礎。
從一個簡單的想法,到AI研發落地,其中過程非常複雜,既要開發算法,還要解決許多工程化問題,這往往需要付出大量的試錯成本。
OpenMMLab提供了組織架構更加優秀、擁有大量高質量算法內容的代碼庫,與提供模型訓練能力的PyTorch等深度學習框架協同互補。
對於有創新想法的研究人員,他只需聚焦於開發創新部分,其他部分則可依託開源代碼庫來實現,從而極大簡化研究人員將想法付諸實現和落地的過程。
其次,OpenMMLab降低了算法復現難度。
在學術界,AI算法層出不窮的同時,也提高了研究人員對新算法、新模型復現的難度,嚴重影響AI研發的效率。
做科研需與許多算法進行比較,如果整個算法都要重新實現或者找別人來調,往往非常耗費時間精力,如今OpenMMLab開源體系提供了豐富的有代表性的算法,使得研究人員復現baselines並與之進行比較的時間和難度大大降低。
第三,降低算法/數據集供應商觸達用户和研究人員的成本。
在產業界,算法、數據集供應商和應用客户之間,往往會因算法的不透明性,導致較高的溝通成本。
很多時候復現一個算法時,受訓練過程中一些細節因素影響,實際準確率與論文所報告的準確率有明顯差別,而找到這個差別再調到論文準確率的水平,又要花大量的時間。
商湯趟過各種坑後,將所有主流CV算法集合到OpenMMLab的代碼庫中,使得外部使用者不必再重複踩坑,從而解決算法落地過程產生的多樣化版本問題,提升AI算法的應用和部署效率。
最後,AI研究人員可在此基礎上進行充分的交流,形成一個非常活潑的開源生態,助推產業賦能。
在學術研究過程,商湯會從學術界、AI社區中學術同仁貢獻的算法汲取養分,商湯內部很多算法也是基於OpenMMLab進行研發。商湯也將大量自研的新算法成果貢獻到代碼庫中,分享給業界,加快商業落地的步伐。
同時,對於商湯自身而言,這種與學術界同仁互利共榮的方式,既加快商湯自身創新與加快落地進程,也提高商湯在AI生態的影響力。
例如某個大客户曾要求商湯糰隊在一兩個月的時間內,交付60多個精度和工程化要求非常高的模型。原本這是一件難以想象的事情,但在OpenMMLab的支持以及商湯其他成體系的模型生產平台、訓練平台的基礎上,商湯僅投入十幾個人,就能基本上以每天交付幾個模型的速度去完成這個項目。
“隨着我們開源步伐往前去走,其實越來越多的東西都在這個過程中沉澱。那麼這種沉澱的速度,其實商湯是要比很多同行其他的企業要走得更快更遠。”林達華説,這種整體上的速度優勢,是商湯在算法生產與應用生產的速度及能力持續處於業界領先位置的一個根本優勢。
三、全新發布7個工具箱,開放逾600個預訓練模型從今年年初,商湯開始將OpenMMLab提升至新的戰略高度——確認為人工智能算法開放體系,並投入很大的資源和團隊來推動這一開放體系的建設。
在7月10日的世界人工智能大會上,商湯科技正式宣佈OpenMMLab戰略升級,成為由商湯科技發起的“人工智能算法開放體系”。
這是商湯擁抱開源開放的又一標誌性節點。
全新OpenMMLab人工智能算法開放體系涉及超過10種研究方向,覆蓋超過100種算法和超過600個預訓練模型,並全新發布7個算法工具箱,並在後續還將持續開源更多算法。
OpenMMLab在2020年10月全新發布7個算法工具箱
其研究方向包括圖像分類、檢測、語義分割、動作識別、3D點雲、圖像超分辨率、圖像修補、圖像的編輯、人體關鍵點檢測和跟蹤等,這些是CV領域最主要且應用最廣泛的方向。
OpenMMLab的願景是讓AI研究更易用、更高效,希望基於完整的軟件棧,以多樣化的內容和活動形式推動內容生態,並由此在公開市場連接開發商和客户。
首先,面向公開市場,連接(算法和數據集)供應商和客户(用户和研究人員),降低溝通成本,加速AI開發和部署。
其次,在內容生態方面,通過教程講座、在線研討會、網絡服務、基準測試與競賽等內容和活動形式,推動AI社區的內容生態。
最後,在軟件棧方面,以MMCV計算機視覺基礎庫為統一底層架構,提供多種特定領域庫和數據集,構建完整的軟件棧,並提供高級API和低級模塊支持,降低AI研發難度和門檻。
OpenMMLab的三個願景
據林達華教授介紹,商湯和聯合實驗室團隊基於對CV主要方向的深入理解,設計出一個非常靈活簡潔的統一架構,這是OpenMMLab開源體系的一個重要特點。
以此架構為基礎,可以組建非常多樣化的算法,有些是由商湯或聯合實驗室的同學設計實現,也有一些是其他研究機構和學校貢獻的算法。很多已取得較大影響力的開源項目中,外部貢獻的比例較高,也在持續上升。
例如MMDetection物體檢測工具箱有100多位貢獻者,其中大部分算法者來自AI社區,商湯真正全職投入的只有幾人。
如今,OpenMMLab逐漸從單點單個方向的開源和單篇論文的開源走向日趨蓬勃的開源體系,成為底層訓練框架、計算平台與科研、教學和算法生產的重要橋樑和紐帶,極大加速AI科研和產業化的進程。
對於未來,林達華透露説商湯有一個長遠的想法。其開放將從外到內,逐漸從內容生態、算法層面,會延伸到訓練框架等更多基礎層。商湯會隨着工作進度陸續對外公佈相關進展。
四、不止是OpenMMLab,商湯啓動人工智能計算與賦能平台項目OpenMMLab升級為人工智能算法開放體系,是商湯在開源算法方面邁出的重要一步,但商湯的AI能力範圍遠不止於此。
在我們系統覆盤商湯的AI技術實力前,不妨先來思考一個問題:AI創新策源有哪些不可或缺的核心推動力?
商湯科技聯合創始人、首席執行官徐立的答案是:“融合了海量數據處理引擎、異構計算能力調度系統、深度學習訓練框架的人工智能計算平台。”
就在7月7日,中國(上海)自由貿易試驗區臨港新片區2020年重點產業項目集中開工儀式在上海臨港地區舉辦。
作為重點項目之一,商湯科技上海新一代人工智能計算與賦能平台項目正式啓動。
商湯科技上海新一代人工智能計算與賦能平台(效果圖)
上海市經濟信息化委副主任張英稱,希望商湯“力爭將本項目打造為上海AI‘新基建’標杆。”
該項目承載商湯的平台化戰略,以商湯多年的科研和落地經驗積累為基礎,集大規模AI算力、工業級AI算法、開放式AI服務於一體的城市級AI計算平台。
從底層基礎硬件設施、平台基座、系統框架、算法工具鏈、解決方案到上層應用落地,商湯上海新一代人工智能計算與賦能平台架構體系已初步搭建完善。
商湯上海新一代人工智能計算與賦能平台架構體系
針對不同客户的差異化需求,該平台提供“多層次的AI賦能”服務及“一站式AI+產業升級”服務能力,並持續提升原創AI算法模型批量生產的能力。
面向AI生態企業,該平台將依託商湯積累的AI算法和基礎服務經驗,結合客户在AI領域的技術能力差異,開放支撐產業鏈不同層次的AI服務,以滿足AI生態企業的個性化需求。
面向傳統行業頭部企業,該平台提供從基礎AI算力到AI操作系統以及豐富行業落地經驗的完善、全棧AI能力支持。
建成之後,該平台的算力將足以同時接入850萬路視頻,同時滿足4個超2000萬級人口的超大規模城市使用;1天內可處理時長相當於23600年的視頻,等同於從舊石器時代晚期不間斷錄製到今天的長度。
五、算力、算法、生態,商湯技術實力全瞻商湯上海新一代人工智能計算與賦能平台的背後,是商湯科技自成立六年以來在AI算力、算法及服務方面的千錘百煉。
在算力層面,商湯從成立之初就開始自己搭建硬件計算平台,買了6000多塊英偉達GPU來自建超算中心。
截至今日,商湯在全國擁有超過20個超級計算機集羣,總算力超過200PFLOPS,訓練超過3000種不同類型的算法模型。
在算法層面,OpenMMLab開源的每一個算法工具庫,都經過商湯及其聯合實驗室長期的學術研究與工程實踐的積累,迄今商湯已公開將近2000件全球專利。
十年以來最難的一屆國際計算機視覺與模式識別頂會CVPR 2020上,商湯科技及聯合實驗室共有62篇論文入選,還拿下3項競賽的冠軍。
在落地方面,商湯已經賦能4.5億台手機的人臉解鎖,日均人臉解鎖的解鎖次數為300億次。在酒店大堂,有20多萬台人臉認證設備來自商湯,平均每天提供3億人次刷臉入住服務。
面向自動駕駛,商湯智能車倉有逾30家全球合作伙伴,賦能300萬輛車輛。北京大興國際機場、首都機場T2航站樓,單安檢通道過檢效率從每小時180人提高到每小時260人。
服務於國土、水利、農林等逾12個行業的商湯智能遙感業務,影像存儲數據量總面積相當於我國國土面積的52倍,影像解釋範圍超過40萬平方公里,數據處理量超過4萬Gbyte。
在腳踏實地深入產業的同時,商湯也仰望AI的星空,探索一些面向未來的前沿研究。
周航曾是中國頂尖《星際爭霸II》選手、8次全國星際II比賽冠軍,如今是一位商湯科技研究員,在他看來,在星際這個公認最難最複雜的遊戲領域之一,AI還不足以與最頂級的人類選手叫板。
他們正在積極推進“AI+電競”的研發工作,希望在電競這樣一個絕佳的決策場景,沉澱出最優的AI決策算法。
像周航這樣擁有特殊背景的研究員,在商湯龐大的研究團隊中並非個例。
據商湯科技副總裁、商湯研究院副院長閆俊傑介紹,在過去五年半,商湯積累了很多計算機視覺和深度學習相關的專業的人才,但每到新的無人區,到了技術攻堅的階段,需要更多不同背景的人才交叉,才有望取得更大的進展和突破。
在這個階段,商湯選擇廣納來自不同學科、不同背景的多元混合應用型人才,擴大人才儲備的深厚程度。當前,商湯的核心技術團隊平均年齡28歲,包括近200名博士,全球員工總數突破4000人。
這些優質的人才力量,恰恰是商湯原創技術與創新能力得以生生不息的本源。
六、AI發展仍在初級階段,CV創新還有廣闊空間第三次AI浪潮爆發以來,質疑聲從未消散。但在徐立看來,我們不應對算法求全責備,而應更加包容地見證AI技術的成長。
AI技術正是在質疑中不斷落地、迭代優化,每一次的技術試錯都會帶來增量價值。
以人臉識別為例,起初人們質疑人臉識別的準確率、雙胞胎人臉識別如何解決等,隨後人們又開始關注視頻、3D人臉面具能否仿照人臉來解鎖。在源源不斷的質疑聲中,地鐵刷臉支付、戴口罩刷臉等更多城市級別的應用誕生。
在日常生活中,除了有像人臉識別、行人識別這類關注度非常高的頭部應用,還有些應用頻次較低的、像圖中恐龍尾巴的長尾應用。
徐立認為AI真正落地不僅要解決頭部問題,還要解決長尾裏的細小問題,長尾應用完善價值閉環。
例如藉助AI算法,可以將時間、地點、人、物串聯,解決垃圾拋灑、糞車排放、單車違停等看似AI應用頻次較低的日常城市治理問題,這些都屬於長尾應用場景。
林達華也看到AI領域還有很多問題值得解決,比如能否探索新的學習方法和模型構造,減輕模型訓練對數據和算力的重度依賴;能否提升AI模型的可解釋性、安全性、可靠性,讓我們能放心地在更多領域使用AI的能力;能否讓軟硬件在AI場景中聯合進行創新,從而實現對AI能力更高效的部署。
此外,CV正與跟社會科學、藝術、管理學等諸多領域結合起來,發揮令人意想不到的價值。在這些領域的邊界均有大量創新機會。NLPG亦提出許多有價值的想法,可供CV領域借鑑,這也是未來創新時可以去思考的方向。
在林達華看來,創新的本質是探索一些未知領域,去解決尚未得到很好解決的問題。
比如要將算法在很多不同芯片上去落地,通常需很多工程師來做,那麼AI是不是能簡化這些重複性工作?或者建一個運行過程複雜的大型AI平台,能否用AI幫運維工程師減輕工作量?又或者在國家投入大量人力物力的疫情防控方面,AI能否進一步加快工作效率?
林達華也提到,我們社會生活與產業的方方面面都存在挑戰,雖然有些地方已用AI的方法進行探索,但在很多方面,AI仍處在非常初步的階段甚至還沒有進去,這是一個非常大的創新空間。
對此他給出建議,研究人員如想創新,一定要跳出原來以為AI只能適用的這些方面,到更廣闊的空間尋求新的機遇、新的創新。
“如果只是盯着現有大家都在做的任務,創新的空間必然會越來越窄。”
但是除了這些小的點以外,還有很多廣闊的空間,如果研究人員願意讓眼睛看到這些地方,創新還有無限可能。
結語:開源與原創,AI進化的活力之源2020年,我們正處在百年未有之大變局。
在疫情“黑天鵝”和逆全球化風險的影響下,世界經濟正發生顛覆性的改變,全球學術交流合作也正經受着一定衝擊,而AI作為新一輪科技革命與產業變革的核心驅動力,正在國家倡導的“新基建”中承擔起更大的責任。
如今AI已在金融、醫療、製造等許多傳統行業展現出重構的潛能,但遺憾的是,當前AI發揮的能力還很有限,我國的AI基礎研究仍不及美國,而要驅動AI技術成長,離不開原創與開源這兩大關鍵動力。
技術原創是一家科技企業的立身之本,開源則能體現企業的技術自信與共榮心態。如今爭奪AI高地已是世界各國的共識,以OpenMMLab為代表的中國AI開源力量,正為我國AI持續創新與發展輸送源源不斷的活水來。