【環球網科技報道 記者 勃潺】將JPG、PDF等格式文件以及社交、影音等軟件應用的信息轉化語音,降低視障人羣使用電腦的門檻,有助其理解更多複雜頁面與場景。這是達摩院視覺實驗室與浙江大學合研的OCR技術取得的重大突破,實現了複雜排版下段落及表格順序的識別,使整體識別準確率達99%以上。
這一技術是“讀光計劃”成果的一部分。12月3日,在“智慧智能 助力視障文化服務研討會”會上,中國盲文圖書館、浙江大學、阿里巴巴攜手發起“讀光計劃”,旨在促進數字化能力與社會應用場景相結合,為1732萬視障人羣創造更友好的數字生存環境。
據介紹,“讀光計劃”的首批成果包括:阿里雲、浙江大學與中國盲文圖書館聯合共建“智能家居館”,並計劃一起向視覺障礙人士捐贈5000台天貓精靈智能音箱;優酷依託技術積累和內容資源,與中盲圖共建無障礙影視網絡視聽平台,未來三年將推出100部無障礙電影;阿里達摩院聯合浙江大學,向中國盲文圖書館輸出最新的OCR讀屏技術方案;釘釘協助中國盲文圖書館完成基於信息無障礙的智慧辦公系統升級。
OCR技術實現信息化閲讀
OCR,OpticalCharacter Recognition,光學字符識別,是指利用光學技術和計算機技術,對文本資料的圖像文件進行分析識別處理,獲取文字及版面信息的過程。
文字識別是計算機視覺研究領域的分支之一,也是人工智能的基本課題之一。OCR技術最初用於印刷體文字識別,比如郵政系統的郵編數字識別,以實現郵件自動分揀功能。隨着光學成像設備(掃描儀、數碼相機、手機等)的飛速發展,OCR應用領域日益廣泛,覆蓋車牌識別、證件識別、票據識別等眾多場景。
2018年,一個“聽圖購物”程序“讀光OCR”在淘寶天貓上線,它能精準地把圖片中的信息轉成語音,讓視障用户靠耳朵購物。同時,熟練使用淘寶的視障用户正在快速增長,據估算,視障人羣平均每天在淘寶購物超過8000單。
而阿里的OCR技術,讓手機淘寶具備了自動識別圖片的能力。阿里達摩院資深算法專家、阿里OCR技術負責人王永攀介紹,阿里的技術團隊從2010年就開始致力於解決圖像中的文字問題,在深度學習技術還未成熟時,主要採用MQDF等傳統OCR技術,識別淘寶商品頁的詳情圖,但早期的中文識別率僅有70%左右,所能適應的場景有限。
目前,阿里達摩院將這一技術成果進行了“輸出”。中國盲文圖書館的自研軟件“陽光讀屏”可將JPG、PDF等格式文件以及社交、影音等軟件應用的信息轉化語音,大為降低視障人羣使用電腦的門檻,有助其理解更多複雜頁面與場景。
智能家居成為視障人士的“眼鏡”
位於中國盲文圖書館5層的“智能家居館”,是由中國盲文圖書館聯合浙江大學、阿里巴巴聯合共建的,以“居家無障礙”為理念,打造一個以智能家居為核心,提供視障人士體驗無障礙居家生活體驗,是國內首個面向殘障人士的智能家居體驗中心。
目前,“智能家居館”以天貓精靈智能音箱為控制中心,與傳感器、護眼燈、掃地機器人等30多款智能家居硬件連接,在安防、照明、娛樂、循環控制等方面實現無障礙優化,未來將常設於圖書館內,對外展示智能家居產品如何切實應用至殘障人士的生活場景,促進智能家居產品更廣泛地服務於殘障人羣。
例如,對於視障人士來説,尋找和操作遙控器可能經常會發生,當有了語音控制和智能家電,只需要動口説一説,“把客廳空調調整到26度”,“打開掃地機器人”,“家電就會按指令運行”,這樣的居家生活環境對於對視障用户會更為友好。。
同時,智能家居館還原了家庭生活場景,打造了客廳、餐廳、卧室、辦公等場景,以天貓精靈智能音箱為核心,控制館內包括傳感器、掃地機器人、電視機、飲水機在內約30項家電產品,從安防、清潔、照明、廚房、娛樂、循環控制六大模塊,進行了智能化改造,覆蓋用户日常起居、飲食生活、工作娛樂、交流互動等全場景生活內容。
中國殘聯理事、中國盲協主席李慶忠在會上提到,目前我國有1700多萬視障人羣,智能家居能讓視障人士擁有科技的“眼鏡”。
據瞭解,未來,中國盲文出版社會計劃在天貓精靈上線專區,視障用户可以通過天貓精靈獲得資源服務,預計將有有聲讀物約13000餘種125303集約60000小時;電子盲文5401種約5億字。
中國盲文出版社、浙江大學和阿里巴巴也將推動在更多圖書館的無障礙閲覽室,設立天貓精靈角,讓視障人士有更多的體驗。
阿里雲智能副總裁、阿里巴巴技術公益委員會秘書長劉湘雯稱,此次阿里巴巴與中國盲文圖書館、浙江大學的合作,只是“讀光計劃”的起點。“未來我們將聯動更多合作伙伴,探索更多的需求場景,將科技應用於更廣泛的公益領域,去解決數字鴻溝、教育、醫療、環保等難題,在服務社會的過程中體現科技價值與科技温度。”