CV前沿讲座,是智东西公开课针对计算机视觉推出的一档讲座,聚焦于计算机视觉前沿领域研究成果与进展。我们将持续邀请研究者、专家与资深开发者,为大家带来直播讲解。
OCR(Optical Character Recognition, 光学字符识别)是指对输入扫描文档图像进行分析处理,进而识别出图像中文字信息的技术。而场景文本检测与识别,是指识别自然场景图片中的文字信息。由于在计算机视觉中的广泛应用而受到越来越多的关注。但尽管最近取得了巨大的进展,由于其在大小、长宽比、字体样式、透明失真和形状等方面的多样性,检测与识别野生文本在很大程度上还未解决。
近年来,许多端到端方法显著提高了任意形状场景文本定位的性能。然而,这些方法要么使用基于分段的方法来维护复杂的管道,要么需要大量昂贵的字符级标注。此外,几乎所有这些方法推理速度都很慢,妨碍了实时应用程序的部署。因此,如何设计一个简单而有效的端到端框架,用于在图像中定向或弯曲的场景文本定位,并在确保快速的推断时间的同时,同达到了与最先进方法相媲美甚至更好的性能的方法非常关键。
ABCNet,是一种基于贝塞尔曲线的、端到端可识别任意形状的场景文本识别网络。8月3日晚8点,智东西公开课邀请到阿德莱德大学博士后、ABCNet第一作者刘禹良参与「CV前沿讲座」第12讲,刘博士将围绕《ABCNet-端到端可训练任意形状的实时场景文本识别网络 》这一主题进行直播讲解。他将从端到端场景下的文本检测以识别的研究与挑战出发,对ABCNet,基于贝塞尔曲线的任意形状文本端到端检测及识别方法进行深入讲解,并介绍一下场景文本端到端检测及识别的应用。
刘禹良是阿德莱德大学博士后,华南理工大学金连文老师组的博士生,主要研究场景文本检测与识别问题。刘博在知名期刊/会议上发表多篇论文,包括5篇CVPR论文,其中一篇是CVPR2020的满分论文。同时刘博也热衷于项目开源,本人有许多研究项目都是开源的,对研究社区和行业产生了一定的影响。他也曾获得过5项国际竞赛冠军,并与百度、阿里巴巴等高科技公司合作,共同举办了ICPR 2018 MTWI、ICDAR 2019 ArT、ICDAR 2019 LSVT等国际知名赛事。
课程内容
主题: ABCNet:端到端可训练任意形状的实时场景文本识别网络
提纲:
1、端到端场景下的文本检测及识别的研究与挑战
2、ABCNet:基于贝塞尔曲线的任意形状文本端到端检测及识别方法
3、场景文本端到端检测及识别的应用
讲师介绍
刘禹良,阿德莱德大学博士后;华南理工大学金连文老师组的博士生,主要研究场景文本检测与识别问题;在知名期刊/会议上发表多篇论文,包括5篇CVPR论文(4位第一作者),其中一篇是CVPR2020的满分论文;热衷开源,许多研究项目都是开源的,这对研究社区和行业产生了一定的影响;曾获得过5项国际竞赛冠军,并积极与百度、阿里巴巴等高科技公司合作,共同举办了ICPR 2018 MTWI、ICDAR 2019 ArT、ICDAR 2019 LSVT等国际知名赛事。
直播信息
直播时间:8月3日20:00
直播地点:智东西公开课小程序
答疑地址:智东西公开课讨论群
加入主讲群
本次课程的讲解分为主讲和答疑两部分,主讲以视频直播形式,答疑将在「智东西公开课讨论群」进行。
加入讨论群,除了可以免费收看直播之外,还能认识讲师,与更多同行和同学一起学习,并进行深度讨论。
添加小助手糖糖(ID:hitang20)即可申请,备注“姓名-公司/学校/单位-职位/专业”的朋友将会优先审核通过哦~