阿里的追光者：億張圖片把脈幫數十萬盲人“聽圖”

聽取顧客發來的評論意見、發佈最新制作的商品介紹圖片，這是淘寶店主小峯5年來每天起牀後必做的兩件事。

來自浙江的小峯自幼雙目失明，2015年在淘寶開了一家專賣電子產品的店鋪。通過“手耳並用”的方式，小峯可以和明眼人一樣，毫無障礙地和眾多買家進行溝通交流。

這一切得益於OCR（光學字符識別）技術。在阿里達摩院讀光OCR團隊的努力下，數十萬盲人登陸淘寶時，只要手指劃過相關頁面和商品，手機就會準確地讀出的信息。

OCR技術的應用並不止於為視障人羣修建“盲道”，小峯和數以百萬計的商家每天會在淘寶發佈超過1億張商品圖片。

廣告發布是否違規？商品圖片是否侵權？在每天為海量圖片“把脈”的過程中，鍛造了讀光OCR強大的能力，這項原本只專注於商品治理的安全技術，逐漸進化為不同行業提供人工智能服務的全能識圖產品。

不久前，阿里達摩院和阿里安全成立聯合實驗室，意味着“讀光”這一高精尖技術將在更多場景落地，而在“新基建”快速發展的當下，數字技術將展示出前所未有的普惠性。

每天為數億張圖片把脈

每天在淘寶新增的商品圖片達數億張。

如果用相紙把這些圖片打印出來，假設每張相紙厚度為0.2毫米，摞在一起的厚度超過20公里。

從這些圖片中找出違規發佈的商品和信息，依靠人的肉眼，即使每秒鐘能查看一張圖片，24小時內看完這些商品圖，需要1158人團隊不間斷持續作業才能完成。

在商品圖片內容豐富、場景複雜多樣的狀況下，讀光OCR技術的出現大大提高了平台治理的效率。

讀光OCR團隊負責人、高級算法專家永攀介紹説，“讀光”的前身是成立於2011年的“圖像把脈團隊”。

彼時，淘寶商品主要信息傳遞方式是圖片，消費者搜索任何商品，映入眼簾的是首先是各個搜索結果的商品主圖，這張圖片傳遞的信息可以在很大程度上影響用户的購買判斷。

當圖片成為搶奪消費者注意力最直接的手段，很商家把商品主圖和呈現文字做得異常誇張，就像電線杆上的“牛皮蘚”廣告。

為了改善淘寶的商品呈現，“圖像把脈團隊”上線治理“牛皮癬”的專項技術，判斷商品圖片中的文字以及整體圖片是否違規。

對圖片的識別、判定的意義並不只是是否美觀和誇張。更重要的是，通過對商品發佈圖片的審核，可以及時發現銷售假貨侵權產品的商家。

今年2月2日，身在重慶的永攀在藥店買口罩時，發現線下要點的口罩已經被搶購一空。永攀很快意識到，大量口罩購買需求湧入線上，很多不法商家也可能會趁機混水摸魚。

與此同時，淘寶、天貓成立了“保衞口罩小分隊”，他們的任務就是守住口罩商品上線的關口。

這一天，讀光OCR團隊緊急優化技術，確保有貨源的商家能發佈商品的同時，讓疑似假冒偽劣的商品無法上線。

“由於口罩以前是個小眾產品，突然爆發的需求和商品發佈量，讓圖片掃描以及識別的工作量非常大。”永攀回憶説，這一仗把能調用的全部服務器都用上了。有了每天檢測數億張圖片的磨礪，讀光OCR在口罩保衞戰這一役圓滿的完成了任務。

在阿里安全圖靈實驗室負責人薛暉看來，讀光OCR技術在知識產權保護領域的應用，不僅可以對商品發佈進行檢測，配合其他技術的應用，還能對製售假分子予以限制。

一名曾因店鋪售假被淘寶關店，為再上淘寶開店，偽造了8次假身份，連户籍地址都配套換了8次。但每次都被系統識別攔截，無緣再上淘寶的他，終於選擇放棄。

從管理到服務的有温度治理

2015年9月1日，新廣告法開始執行，這為“讀光團隊”帶來了巨大的挑戰。

新廣告法禁用“最佳”、“最優秀”、“世界級”、“獨家”、“史上第一”等多種“極限詞”表達。

淘寶的存量商品超過了15億個，每個商品平均有17張描述圖片，90%的商品描述都在圖片中。由於很多商家並不具備專業知識，根本無法判斷自己是否違反了廣告法。

很多商家違法了但卻不自知，不但面臨處罰，還會遭遇惡意索賠團伙的敲詐勒索。

阿里安全在集團內部拉幾支團隊一起PK解決方案，最終“讀光團隊”接下了這個難題。

永攀回憶説，當時統計發現，淘寶存量商品圖多達數百億張，圖片上的文本內容非常複雜，常用字體就有100多種，還有一些非常個性藝術創造的字體。此外，圖片中經常會有各種透明半透明的背景，識別難度很高。

為了實現高效提速，“讀光團隊”做出了有別於市面通用的解決方案。

如果説外界當時處理一張主圖需要3到5秒，處理複雜圖需要1分鐘的話，“讀光團隊”提出的解決方案可將識別圖片的平均時間降到0.25到0.3秒。產品上線後，所有違規圖片可以在24小時內被處理。

一年之內，“讀光團隊”將技術能力進化到了實時處理，讓商家發佈的違規圖片根本無法上線。

“當我們的安全技術能力從單純的管控變成風險服務，可以幫助到那些無意犯錯的商家，讓違反廣告法的圖片在沒有產生任何影響的情況下就被攔截下線。”永攀説，通過技術打擊作惡的壞人，而讓無意犯錯的商家“少踩坑”，這是“有温度治理”的應有之義。

為數十萬盲人修建網絡盲道

在數字經濟時代，依託人工智能技術的治理模式和經驗，不僅在解決商業問題上發揮作用，創造新的商業機遇，在參與社會治理和解決各類社會問題上，提供了更多的想象空間，為社會創造更多新價值。

從2011年開始，“讀光團隊”為視障羣體提供文字識別服務。不過，很多盲人朋友反饋依然存在理解障礙和錯誤的情況。

永攀解釋説，淘寶的圖片版式包括了廣告圖、商品圖、表格圖、圖文註解圖等，不同頁面的閲讀方式差異很大，絕不僅是把所有文字從左到右、從上到下閲讀一遍這麼簡單。這就需要研究將文字以合理的順序進行組織後，為視障人士閲讀，幫助他們正常理解。

團隊一邊與浙江大學、中國殘聯合作，共同研究商品圖片無法被視力殘疾人閲讀的問題，一邊邀請盲人測試者參與研發。

2019年，“讀光團隊”開始研發和落地版式分析和閲讀順序的深度學習技術，盲人商家小峯參加了無障礙工作組的測試，並以團隊成員的身份參與到優化讀光OCR的文本語序識別算法的工作中。

“對普通人來説，新興互聯網技術的發展很多時候發揮着錦上添花的作用，但對盲人而言，具備着雪中送炭的意義，實實在在的幫助我們迴歸社會、融入社會、參與社會。”小峯感慨。

截至2019年，數十萬視障人士因為“讀光”團隊的努力，在淘寶享受着足不出户，購遍全球的互聯網新生活。2019年雙11期間，淘寶對“盲道”進行升級後，視障人士在實現無障礙購物的基礎上，首次可以用手機在雙11參加遊戲互動體驗，並得到更多實惠。

在數字時代主動尋找未來的光

2019年底，阿里達摩院與阿里安全成立聯合實驗室，讀光團隊與阿里安全圖靈實驗室實現了“握手”。

事實上，在日常平台治理的業務中，兩個團隊早已並肩戰鬥多年，聯合實驗室的負責人薛暉與永攀更是老相識了。

兩人同畢業於浙江大學光電系，永攀是薛暉隔壁實驗室的師妹，永攀所在的實驗室為嫦娥四號探測器提供了的相機光學技術，讓嫦娥四號向地球順利傳回世界上第一張近距離拍攝的月背影圖像。

在隔壁實驗室技術“上了天”的時候，薛暉正在阿里安全死磕AI圖像識別技術，將其落地應用在線下新零售場景中，兩人開玩笑地説這樣的場景恰好印證了人工智能“上天入地”的説法。

如今，兩人的願景是讓高精尖的視覺技術在更多場景中落地。

“這個聯合實驗室要在數字化浪潮下，開拓‘AI+辦公’、‘AI+教育’等新模式，為新基建鑄就城牆；在技術上要以建設高效、通用、安全的OCR系統為抓手，聚焦小樣本學習、遷移學習與領域自適應、模型可解釋性研究、對抗魯棒性等課題，探索下一代人工智能技術，為新基建構建安全的技術底座，這也是阿里提出的新一代安全架構的核心理念。”薛暉為團隊規劃出了大的方向，接下來團隊的重點將聚焦在圖片、視頻治理和辦公數智化兩個方面。

薛暉説，人們在日常看到的是清朗網絡空間，這背後其實是安全算法團隊與違法違規圖片視頻的持續對抗。而OCR技術具有非常強的辦公屬性，如財務票據報銷、文件電子化、證件審核等，未來的辦公數智化解決方案可以輻射金融、司法、教育、醫療等行業，將人們從機械的、重複性的工作中解脱出來。

“我們想要兩條線推進，為OCR技術找到對業務、社會真正有價值的新方向。”永攀説，疫情中興起的非接觸式會議和教學已經證明，AI技術已經改變了傳統的內容生成方式。

這也是“合併”賦予讀光OCR團隊的新意義：不僅要讀光、追光，更要在數字時代主動尋找未來的光。

【來源：快科技】【作者：朝暉】