京東集團技術副總裁、AI研究院副院長,IEEE Fellow 梅濤
2020 年 8 月 7 日,第五屆全球人工智能與機器人峯會(CCF-GAIR 2020)在深圳正式開幕。
CCF-GAIR 2020 峯會由中國計算機學會(CCF)主辦,香港中文大學(深圳)、雷鋒網聯合承辦,鵬城實驗室、深圳市人工智能與機器人研究院協辦。
作為中國最具影響力和前瞻性的前沿科技活動之一,CCF-GAIR 大會已經度過了四次精彩而又輝煌的歷程。
在大會第二天的「視覺智能•城市物聯」專場上,京東集團技術副總裁、AI研究院副院長,IEEE Fellow梅濤,分享了京東在供應鏈上的佈局與思考。
梅濤認為供應鏈發展經歷了三個階段:
第一階段,上世紀90年代,傳統供應鏈的信息技術將產業的上下游進行協同;第二階段,21世紀初期,互聯網工業階段,利用互聯網技術提高供應鏈的效率和敏捷性;第三階段,21世紀及未來,智能供應鏈階段,生產上更加協同,流通上更加敏捷,甚至可以通過用户需求驅動生產,又反過來創造需求。
梅濤指出,中國供應鏈水平仍處於第一階段向第二階段過渡時期。作為“以供應鏈為基礎的技術與服務企業”,京東在不斷夯實第一階段到第二階段轉型的同時,積極佈局第三階段,基於人工智能,利用大數據、物聯網、區塊鏈等,打造基於各種技術與服務的供應鏈全鏈條。
京東在智能供應鏈領域的計算機視覺應用非常多。智能消費領域,通過SKU級別商品圖片理解,打造智能結算台、京東拍照購、京東搭配購等應用。在實際場景中,通過硬件和軟件一體化,幫助線下門店進行一體化營銷。
智能流通領域,基於深度視覺建模技術,對倉內環境進行重建從而輔助機器人巡檢;基於物體姿態的精準識別技術,支持機械臂對物體的自動抓取,此外,京東還推出了首個產業級通用目標重識別開源庫FastReID。
智能生產領域,應用於工業視覺質檢,比如,印刷品包裝檢測中,通過內容識別、設計校對、字號識別,以檢測包裝是否符合嚴格的標準,另外還有基於CMYK色彩控健康識別,缺陷監測和尺寸識別。
梅濤提到,智能供應鏈需要全鏈條的生態,京東擁有全行業最長的數據鏈條以及最全的供應鏈服務。京東不僅要服務於自己內部的客户,還基於人工智能開放平台,開放技術,共建生態。
最後,梅濤分享了他對下一代視覺技術趨勢的看法,他認為計算機視覺經歷過萌芽、爆炸、巔峯,現在迴歸理性,未來將在數據、模型、學習機制和工具箱四個層面有長足進步。
以下是梅濤博士的現場演講全文,雷鋒網作了不改變原意的整理與編輯:
謝謝雷鋒網的邀請!上一次過來這邊演講還是三年前。
今天我想向大家分享一個話題:作為“以供應鏈為基礎的技術與服務企業”,我們是如何讓機器視覺在其中發揮作用的。
在座的部分觀眾也許不一定了解什麼叫做供應鏈?
其實,人們在日常生活中無時無刻都會用到供應鏈這項技術。小到一粒鈕釦、大到一部手機,如果供應鏈某個環節出現了問題,那麼這款產品可能就會存有缺陷。
覆盤一下,供應鏈的發展大概經歷了三個階段:
第一個階段出現在上世紀90年代,我們可以稱之為傳統供應鏈階段。
這個階段主要使用信息技術將產業的上下游進行協同,代表的公司包括沃爾瑪、P&G;等,當時的沃爾瑪,每年都會與供應商們開各種大會協調當中聯繫。
第二個階段出現在21世紀初期,我們可以稱之為互聯網供應鏈階段。
人們開始利用互聯網技術提高供應鏈的效率和敏捷性,代表性的公司包括亞馬遜、ZARA等,譬如亞馬遜提出的“一次點擊”就可下單的概念。
第三個階段出現在21世紀及未來,我們可以稱之為智能供應鏈的階段。
它主要體現在三大方面:一是生產上更加協同;二是流通上更加敏捷;三是可以通過用户需求驅動廠商的生產。
眼下,我國中小微企業佔比超過97%。同時,我們的包括物流成本等線下費用率遠遠高於發達國家,也就造成我國的線下零售成本相對較高。
在供應鏈環節,我們哪怕降低了1%的成本,就可以節省萬億級別的GDP。
整體來看,目前我國絕大部分企業的供應鏈水平仍處於第一階段與第二階段區間內。
在供應鏈技術服務領域,京東目前已經在服務第一階段到第二階段的轉型,同時我們也會做第三階段的佈局與探索。
而這,就涉及到了智能供應鏈。
智能供應鏈以人工智能為支撐,利用大數據、物聯網、區塊鏈等技術支撐服務於供應鏈的全鏈條體系。
從微觀層面來説,供應鏈大概可以分為十個環節(如上PPT所示)。
從宏觀層面來説,大概包括創意、生產、流通、消費四個環節,希望未來的供應鏈能夠做到更高的協同性,更好的敏捷性和更優的需求創造性。
京東為什麼要做這件事?
首先,包括疫情等因素的催發,中國經濟需要開啓內循環,而這方面的工作會遇到比較多的挑戰。就此,相關政府部門也提出了“六保”理念,包括保供應鏈和產業鏈。
此外,供應鏈也已成為新基建中的重點要素,而這也是京東技術體系的核心元素。
那麼,在智能供應鏈領域,計算機視覺到底能做些什麼?
人們最容易理解的便是3C消費市場,因為我們每天都需要在網上或者實體店購物。
在營銷方面,我們通過計算機視覺做多模態購物入口。
舉個例子,之前大家打開手機,在京東APP上通過輸入文字找到你想要的商品,現在可以通過拍圖片、視頻甚至是語音的方式找到你想要的商品。
其次是內容合規審核,無論在哪個平台上,只要你上傳商品圖片或者視頻,都需要一定程度的安全審核工作,這個工作也可以通過計算機視覺助力。
在交易方面,我們可以通過圖像信息等技術,結合一些美學信息做適量跨界研究,提升商品的搭配與搜索。
京東最近做了一個“搭配購物”App,應用後發現在60%的情況下,機器搭配的效果優於人工搭配的效果,轉化率方面也超過了人工搭配。
在售後方面,我們通過智能客服,並加入一些人工交互,讓智能客服更有情感和温度。
在生產方面,我們通過機器輔助生產製造和設計,有效控制生產成本。
京東作為以供應鏈為基礎的技術與服務企業,我們擁有全行業最長的數據鏈條以及最全的供應鏈服務。
去年,我們非常榮幸還入選了國家新一代人工智能開放創新平台。今年,京東再次榮獲國家科技創新2030“新一代人工智能”重大項目定向支持。
下面,我來講講京東生態合作伙伴在供應鏈各個環節中,是如何利用計算機視覺技術去提升生產效率的。
在消費領域,我們做了一個智能結算台(PPT圖示左上角)。
我們可以利用視覺技術對商品圖片做實時分析,並做到SKU級別的精細度識別。
舉個例子,大家經常喝的礦泉水,有250ml的,也有300ml的,250ml和300ml的礦泉水就是兩種不同的SKU,想要做到這種級別的識別、分析,機器需要非常清晰的理解和能力。
我們之前與香港利豐集團合作,開發了一個枱燈樣式的設備,在台燈上裝有兩個攝像頭,可以取代人工對單個商品的掃描操作,在幾十毫秒內一次性準確識別所有商品。
我們通過實驗發現,香港便利店一個顧客的平均排隊時間是6秒鐘,通過結算平台單人可以節省1到2秒鐘,這樣有效提高了單位面積銷售額,這是一個很有意思的嘗試。
另外,我們還做了內容審核,所有圖片和視頻都要經過我們的安全審核才能在網上進行售賣,在京東內部每天7*24小時不間斷調用審核技術,以保證優良購物環境。
未來,通過照片你就可以找到你想要的商品,此外還可以通過機器視覺的搭配購物技術推薦到你想買的其他商品。
比如你買了某件衣服,我會告訴你,配什麼樣的包、配什麼樣的鞋、買什麼樣的項鍊,使你的穿着更時尚。
這些應用的背後,我們做了比較多的精細密度商品圖片的識別,但這些還遠遠不夠。
舉個例子,真實場景中,蝶類動物有五千種,鳥類超過五萬種,一種鳥就屬於一種類別的SKU,每一隻還不太一樣。
就此,我們在京東研發了DCL,為了找到圖片裏面哪一個部分是我們必須關注的很小的細微變化,我們把圖片分成不同的格子全部打散,讓機器自動尋找到底哪一個格子裏是我們需要識別的細微差別。
另一個網絡是LIO,我們希望這個網絡不僅能夠清晰識別細小的差別,並且可以自動學習,去重構原始圖片。
通過這樣的學習,機器既能識別出細小的差別,又能做到對圖像的恢復。CVPR2019和2020會議上我們發表了兩篇代表性的論文,目前影響力還不錯。
在內容領域,我們做了一些比較有意思的嘗試。我們利用機器視覺自動寫文案,可以看圖説話,也可以看圖寫詩。
京東有很多SKU,有非常多的商品,我們需要能夠快速地寫出個性化的、多元化的導購文案,目前我們做得還不錯,大家在網上看到的很多文案和圖片都是機器自動做的。
在智能流通領域,基於深度視覺建模技術,對倉內環境進行重建從而輔助機器人巡檢;基於物體姿態的精準識別技術,支持機械臂對物體的自動抓取,此外,京東還推出了首個產業級通用目標重識別開源庫FastReID。
綜上,能看到我們是如何在工業界將學術成果轉化為生產力,在產品線上服務自己的場景,再賦能給外部客户。
我們同時還做了一個比較有意思的案例,叫做普洱茶的追溯。
眼下,市面上有非常多品類的普洱茶,我們做了一個“茶臉”識別,通過茶臉的識別,保證用户購買到的是正品的普洱茶。
最後講講智能生產。我們做了一個輕量級實驗,做包裝盒的檢測。
我們將京東的上下游打通,找到了一些生態夥伴,做內容識別、做設計校對,看字體是否符合標準,字體的位置和顏色是否符合嚴格的標準,包括進行字號和色差的識別。
我們做了基於CMYK色彩控健康識別,缺陷監測和尺寸識別。(我也知道有很多公司做的是面板監測識別,其實京東也有這樣的能力。)
我們在京東做研究,不僅要服務內部客户,同時我們也希望把這個技術開源、開放。
京東人工智能平台已經入選了全國十個人工智能平台之一,我們不僅要開放,我們還要開源,我們平台上的技術涵蓋計算機視覺、自然語言處理、機器學習、對話、語音與聲學等等。
我們有六大能力、兩個方向、一個平台,我們的API已經超過了100餘項,自研的佔60%,還有集團第二方的研發,以及來自第三方生態夥伴的API,每天服務客户的調用量超過百億次。
剛才講了比較多的案例內容,最後講講我們對下一代視覺技術的展望。
2019年,Gartner提出了一個對技術展望的曲線,目前的計算機視覺研究處於第三個階段。
第一個階段是萌芽期,處於曲線的上升階段,人們對技術有比較高的期望;
第二個階段,萌芽期發展到了巔峯期,人們對它的期望到達了頂峯,這也是最危險的時期,很多公司估值過高但沒有實際產出;
第三個階段,計算機視覺等AI技術進入了理性迴歸階段。
再過幾年,我相信計算機視覺技術可以在行業大規模擴展,不管是青年學生還是老師,大家可以放心地進入這個行業。
關於技術趨勢,我講四點:
1、數據。我們相信,Web上的很多無序數據,未來會用到更多的專家、領域知識、結構化數據、多模態數據。
2、模型。現在每一個模型都是一個個的獨立煙囱,未來會做通用底層模型,或者做自動化、可定製化的模型結構。
3、學習機制。目前我們看到有很多監督學習,我們要通過大量的數據和標註,很多AI公司最後成了勞動力公司,包括我們前幾年也是一樣的。
我們現在用了很多弱監督、無監督甚至是自監督和小樣本的學習,使我們的模型在很短的時間內學到很高的效率。
包括我們將來可以做到終身學習、聯邦學習,解決數據的隱私,包括開放的動態學習和機腦結合,我們相信未來的學習機制將是多彩多樣的,並且是能解決實際問題的。
4、工具箱。我們在公司裏做研究,不僅僅要服務於我們自己的生態夥伴,我們也希望服務於整個業態,希望能把一些工具箱開源出來,讓大家跟着我們一起成長。
數據發展的趨勢,從非結構化到結構化,單模態到多模態的發展趨勢,以及海量人工標記到獲得有用知識,包括孤立問題到通用底層預訓練模型,可以有效解決很多問題。
包括黑盒模型到一個可解釋的模型,從一個人工設定的學習框架到機器自動搜索的框架,從有監督學習到半監督學習,從機器協作到機腦結合。
在京東,我們不僅做技術、產業,我們也做一些基礎研究,我們目前在全球有四大研究中心,有超過50位頂級算法科學家,我們也希望成為各位發展道路上的同行者和夥伴,謝謝大家!雷鋒網雷鋒網雷鋒網