很長時間沒與星瞳(謝宣松)打交道了,之前他的身份一直在變。從早期的圖像搜索拍立淘創始成員,到業內第一個智能設計產品鹿班的技術負責人,再到後面研究醫療AI的技術負責人。這些前沿技術的探索和應用經歷,讓他看起來像一個連續創新創業者。
現在,星瞳又多了一個新身份——阿里雲視覺智能開放平台負責人。過去一年多的埋頭苦幹,他和夥伴們完成了平台從0到1的搭建,並上線了超過150個API接口。
星瞳並不是個例。包括現在視覺智能開放平台的團隊成員也有類似的背景和經歷。當外界還在種種猜測阿里AI專家們在做什麼樣的探索時,他們早已拓展了新的邊界——不僅做前沿的智能技術探索,也要打造開發視覺開放平台這樣的產品,將人工智能變成人人可及的普惠科技。
這也導向了另一種商業故事劇本。越來越多的算法專家走向幕後,將原有技術能力整合成開放平台,讓更多有創意的人只需要少許的技術基礎,就有可能開發出有價值的AI應用。
阿里雲視覺智能開放平台源起
2016年,AlphaGo 大勝李世石。人工智能浪潮席捲全球,成為“高大上”IT技術的代名詞。每一家知名AI公司的背後,都有不少“AI業界大牛”坐鎮。AI人才資源被巨頭爭搶的話題向來被大家津津樂道。行業的火爆,人才的稀缺,每一位AI大牛的動向都引得圈內格外關注。挖角搶人大戰不斷,不僅將這個行業的薪資抬到八位數年薪,也不斷抬高了AI應用的門檻。
AI概念很熱,但一談應用AI就容易冷場。居高不下的應用成本,制約着人工智能技術的普及與規模化應用落地。從各種強行與AI沾親帶故到談AI色變,也只用了短短三年。
星瞳身在行業,也感受到了這種變化。與2015年相比,人工智能產業快速發展,廣泛應用於政府、金融、醫療、交通、零售、工業、製造等領域。有數據顯示,到2020年市場規模或達到710億元,同比增長大約44.5%。作為人工智能領域的三要素之一,算力成本也在大幅下降,從2014年到2020年,芯片價格對比下降了近70%,為人工智能技術能夠在這十年內快速發展最終商用提供了土壤。 此時,放眼行業,對於小公司來説,搭建頂級技術團隊,推出操作系統級別的內部通用平台,從0到1完成整套AI應用的開發,這樣的AI故事已經不再動聽。反而是利用AI技術,改造傳統行業或者應用、提升產業效率的需求不斷湧現。這也意味着推出AI的智能開放平台市場需求逐漸成熟。
另一面,整個阿里巴巴集團有大量研發人員圍繞着視覺技術在電子商務、城市大腦、金融支付、交通物流、通信會議、新零售、文娛等多個行業的應用需求,對外貢獻了許多產品和解決方案,這其中沉澱了諸多視覺基礎能力。同時,阿里巴巴的許多內部業務,如淘寶、天貓、優酷等諸多明星產品都有視覺能力在背後的支持有着海量的用户規模,對這些視覺智能技術能力進行了千錘百煉。但早期,這些基礎視覺技術並沒有被聚合在一起。
於是,建設阿里雲視覺智能開放平台的想法應運而生。2019年8月,在阿里巴巴集團視覺技術小組的牽頭下,開放平台作為一個重點戰役開始啓動,這一計劃也得到了包括阿里巴巴副總裁、達摩院城市大腦實驗室負責人華先勝等上層支持,這也與星瞳一直以來的判斷不謀而合。
星瞳牽頭啓動項目後,就迅速得到了包括淘系、優酷、螞蟻在內的20多個有計算機視覺經驗的項目團隊的支持。
經過一個季度的研發,2019年12月20日,第一版視覺智能開放平台正式上線。在星瞳的規劃裏,平台定位是視覺AI能力開放中心和能力再生產中心,也可以看成一個視覺智能核心零部件的供給庫。這些零件有自營的,即阿里巴巴團隊自己研發的;也有第三方供應商的,即生態夥伴或者其他相關方提供的。其次,開放平台也是一個效率工具,有着大量的場景案例,可以幫助開發人員更高效開發落地產品。開放平台是雙向的,內部和外部都可以使用,對外主要面向視覺智能技術的開發與應用用户,為其提供好用、易用、普惠的視覺智能API服務,幫助企業、開發者快速建立視覺智能技術的應用能力。
達到這樣的規劃並不容易。一方面,當團隊希望更短的時間內上線更多能力時,需要調動其他業務同事的支持。這裏不僅既涉及到基礎設施、文檔案例、各種測試等基礎工作,也需要進行市場的調研,結合場景和市場需求進行產品化,開發工程量非常大。
另一方面,當機器視覺的能力來自各個地方,首先需要驗證這些API是否能夠達到作為公共能力的要求。為此,平台制定了專門的算法接入規範,其中既包括了視覺能力的分類規範,同時為了保證上線API的質量,也設置了評測機制,會對API的各種性能進行評測,只有達到一定的標準才能上線。事實上,研發期間,也有多個團隊開發的API,就因為在性能、封裝等方面不達標,被拒絕上線。
在團隊的共同的努力下,這一平台也不斷迭代更新。2020年4月上線第二版。截止今年9月,已經有共計150多個視覺相關API進行上線,並很快得到開發者青睞,日調用量迅猛提升。
阿里雲特色的視覺智能開放平台
阿里雲推出視覺智能開放平台時,業界已有圍繞第三方AI開放平台的討論。打造阿里雲特色的視覺智能開放平台就成了擺在大家面前的一道新議題。
星瞳和大家一起分析,視覺智能開放平台的初衷是輔助各個行業的開發者降本提效、助力創新。阿里雲視覺智能開放平台的優勢則在於:一是易用,依託阿里雲智能堅實的基礎設施服務,提供普惠易用標準的AI能力,用起來省心省力;二是專業,達摩院科學家及集團專業工程師加持;三是實用,上線的視覺技術是通過阿里巴巴海量場景和最佳案例檢驗的;四是全面,平台集合了規模化、多樣化、場景化的視覺AI能力,為開發者和用户提供一站式能力選擇。
開放平台既要在視覺基本面(識別、檢測、分割、生成等)通過達摩院等打造核心基礎能力,又要在目標應用基本面(文字、商品、內容、行業場景等)中做最佳案例,不斷為用户提供多種視覺AI原子能力,包括:圖像識別、文字識別、視頻理解等多種視覺基礎技術。開放平台將阿里巴巴視覺智能技術實踐經驗開放給視覺應用的開發者與用户,讓他們可以在阿里雲視覺平台上選擇相關能力,自行封裝產品、服務或者是解決方案,滿足自身或者最終用户的應用需求。目前阿里雲視覺智能開放平台上大約有15大類、150個能力,聚焦在視覺理解、視覺生產等環節,提供“專業、多樣、易用”的工具,助力創新,幫助開發者快速試錯、低成本試錯。這也在一定程度上實現了普惠科技的初衷。
除了滿足技術上的生態覆蓋面,公共雲平台一大優勢是規模化的性價比能力,希望在成本上做到儘量人人可用。在目前已經公開的產品中,平台採取了一些免費的策略。這些免費策略根據輸出的“能力”的不同而不同,比如有的是根據用量,有的按QPS多少,平台都給予一定程度上的免費額度,基本能滿足一些要求不高的用户。
當然,AI既要做普惠,也要考慮市場需求。基於視覺基本面,團隊做了相關的分析,規劃了“市場驅動能力”的研發過程,儘量優選“規模大能實用”的能力,比如與“理解”相關的能力具有明顯的普適性和需求廣泛性,並從視覺的需求面分析,尋找視覺最廣泛的應用場景,比如視頻在B 端、C端的應用,以及結合阿里的特色能力。最終兩點交匯處的這些能力,諸如車輛檢測、對象分割、OCR、商品識別等,也成為平台上的首批爆款API。
事實上,這一過程,也”變相回饋“了參與到平台建設上的團隊,平台也成為了驗證這些能力與產品的“試驗田”。以往,很多算法工程師,往往不會去考慮匹配用户需求、真實場景考驗,但API需要上線開放平台時,就意味着不能僅僅只從學術的角度、自己場景設想出發,去做研發,這也意味着一個市場驅動的研發機制形成。
當AI專家走向幕後,更多的開發者走向了前台
星瞳接受採訪時提到,阿里雲視覺智能開放平台上線的第一天就通過阿里雲天池平台與開發者深度鏈接,彼此高質量互動。
2020年,作為國內主流的AI開發者社區,阿里雲天池平台聯合阿里雲視覺智能開放平台,舉辦了一場以“無行業不AI”為主題AI開發者創新應用賽。期間,名為啓明瞳行的團隊,藉助平台的能力,開發了一款為盲人出行保駕護航的產品。團隊自研了適用於盲人的特殊旋轉交互方式,藉助GPS高德定位導航、視覺智能開放平台上的圖像、文字、 顏色識別等算法,幫助盲人用户識別環境信息、路況信息、物體信息等,同時,依託由志願者和肢體殘疾人擔任的視頻客服人員進行補充,最終達到了為盲人出行保駕護航。
要實現盲人可用的產品,就意味着必須研發“萬物識別”的計算機視覺技術。但開發能落地的AI技術應用,顯然不是一件容易事,招到大牛不易、積累訓練數據很難、優化算法耗時,技術門檻、資金門檻、算力門檻高,讓人望而卻步。對於擅長交互和用户體驗的團隊來説,並非易事。藉助阿里雲視覺智能開放平台,團隊用時不到4個月就完成了原型Demo的開發。
這樣的故事,在平台上還有很多。阿里雲視覺智能開放平台通過提供高可用性、高可靠性的AI算法,大幅降低開發者的開發難度和開發週期,“低代碼”即可創作AI應用。參賽團隊閃電的主人の魔法屋,參賽成員為高中生,通過阿里雲視覺智能開放平台的相關算法實現視頻工具的開發。
當達摩院的專家走向幕後,更多的開發者走向了前台。事實上,走向幕後的專家們,還在用另一種方式進行技術挑戰。
在星瞳看來,未來開放平台還需要進一步“做厚”。一方面,進一步探索行業能力,根據行業不斷豐富行業能力,這可能意味着會開放數據、模型、算法給到用户,讓用户自行進行訓練。另一方面,可能也會嘗試做更多的解決方案。
現在,這樣的相關算法也已經在平台上上線,更多的新算法還在路上……