【环球网科技报道 记者 勃潺】将JPG、PDF等格式文件以及社交、影音等软件应用的信息转化语音,降低视障人群使用电脑的门槛,有助其理解更多复杂页面与场景。这是达摩院视觉实验室与浙江大学合研的OCR技术取得的重大突破,实现了复杂排版下段落及表格顺序的识别,使整体识别准确率达99%以上。
这一技术是“读光计划”成果的一部分。12月3日,在“智慧智能 助力视障文化服务研讨会”会上,中国盲文图书馆、浙江大学、阿里巴巴携手发起“读光计划”,旨在促进数字化能力与社会应用场景相结合,为1732万视障人群创造更友好的数字生存环境。
据介绍,“读光计划”的首批成果包括:阿里云、浙江大学与中国盲文图书馆联合共建“智能家居馆”,并计划一起向视觉障碍人士捐赠5000台天猫精灵智能音箱;优酷依托技术积累和内容资源,与中盲图共建无障碍影视网络视听平台,未来三年将推出100部无障碍电影;阿里达摩院联合浙江大学,向中国盲文图书馆输出最新的OCR读屏技术方案;钉钉协助中国盲文图书馆完成基于信息无障碍的智慧办公系统升级。
OCR技术实现信息化阅读
OCR,OpticalCharacter Recognition,光学字符识别,是指利用光学技术和计算机技术,对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。
文字识别是计算机视觉研究领域的分支之一,也是人工智能的基本课题之一。OCR技术最初用于印刷体文字识别,比如邮政系统的邮编数字识别,以实现邮件自动分拣功能。随着光学成像设备(扫描仪、数码相机、手机等)的飞速发展,OCR应用领域日益广泛,覆盖车牌识别、证件识别、票据识别等众多场景。
2018年,一个“听图购物”程序“读光OCR”在淘宝天猫上线,它能精准地把图片中的信息转成语音,让视障用户靠耳朵购物。同时,熟练使用淘宝的视障用户正在快速增长,据估算,视障人群平均每天在淘宝购物超过8000单。
而阿里的OCR技术,让手机淘宝具备了自动识别图片的能力。阿里达摩院资深算法专家、阿里OCR技术负责人王永攀介绍,阿里的技术团队从2010年就开始致力于解决图像中的文字问题,在深度学习技术还未成熟时,主要采用MQDF等传统OCR技术,识别淘宝商品页的详情图,但早期的中文识别率仅有70%左右,所能适应的场景有限。
目前,阿里达摩院将这一技术成果进行了“输出”。中国盲文图书馆的自研软件“阳光读屏”可将JPG、PDF等格式文件以及社交、影音等软件应用的信息转化语音,大为降低视障人群使用电脑的门槛,有助其理解更多复杂页面与场景。
智能家居成为视障人士的“眼镜”
位于中国盲文图书馆5层的“智能家居馆”,是由中国盲文图书馆联合浙江大学、阿里巴巴联合共建的,以“居家无障碍”为理念,打造一个以智能家居为核心,提供视障人士体验无障碍居家生活体验,是国内首个面向残障人士的智能家居体验中心。
目前,“智能家居馆”以天猫精灵智能音箱为控制中心,与传感器、护眼灯、扫地机器人等30多款智能家居硬件连接,在安防、照明、娱乐、循环控制等方面实现无障碍优化,未来将常设于图书馆内,对外展示智能家居产品如何切实应用至残障人士的生活场景,促进智能家居产品更广泛地服务于残障人群。
例如,对于视障人士来说,寻找和操作遥控器可能经常会发生,当有了语音控制和智能家电,只需要动口说一说,“把客厅空调调整到26度”,“打开扫地机器人”,“家电就会按指令运行”,这样的居家生活环境对于对视障用户会更为友好。。
同时,智能家居馆还原了家庭生活场景,打造了客厅、餐厅、卧室、办公等场景,以天猫精灵智能音箱为核心,控制馆内包括传感器、扫地机器人、电视机、饮水机在内约30项家电产品,从安防、清洁、照明、厨房、娱乐、循环控制六大模块,进行了智能化改造,覆盖用户日常起居、饮食生活、工作娱乐、交流互动等全场景生活内容。
中国残联理事、中国盲协主席李庆忠在会上提到,目前我国有1700多万视障人群,智能家居能让视障人士拥有科技的“眼镜”。
据了解,未来,中国盲文出版社会计划在天猫精灵上线专区,视障用户可以通过天猫精灵获得资源服务,预计将有有声读物约13000余种125303集约60000小时;电子盲文5401种约5亿字。
中国盲文出版社、浙江大学和阿里巴巴也将推动在更多图书馆的无障碍阅览室,设立天猫精灵角,让视障人士有更多的体验。
阿里云智能副总裁、阿里巴巴技术公益委员会秘书长刘湘雯称,此次阿里巴巴与中国盲文图书馆、浙江大学的合作,只是“读光计划”的起点。“未来我们将联动更多合作伙伴,探索更多的需求场景,将科技应用于更广泛的公益领域,去解决数字鸿沟、教育、医疗、环保等难题,在服务社会的过程中体现科技价值与科技温度。”