阿德萊德大學博士後劉禹良:端到端可訓練任意形狀的實時場景文本識別網絡ABCNet | 公開課預告
CV前沿講座,是智東西公開課針對計算機視覺推出的一檔講座,聚焦於計算機視覺前沿領域研究成果與進展。我們將持續邀請研究者、專家與資深開發者,為大家帶來直播講解。
OCR(Optical Character Recognition, 光學字符識別)是指對輸入掃描文檔圖像進行分析處理,進而識別出圖像中文字信息的技術。而場景文本檢測與識別,是指識別自然場景圖片中的文字信息。由於在計算機視覺中的廣泛應用而受到越來越多的關注。但儘管最近取得了巨大的進展,由於其在大小、長寬比、字體樣式、透明失真和形狀等方面的多樣性,檢測與識別野生文本在很大程度上還未解決。
近年來,許多端到端方法顯著提高了任意形狀場景文本定位的性能。然而,這些方法要麼使用基於分段的方法來維護複雜的管道,要麼需要大量昂貴的字符級標註。此外,幾乎所有這些方法推理速度都很慢,妨礙了實時應用程序的部署。因此,如何設計一個簡單而有效的端到端框架,用於在圖像中定向或彎曲的場景文本定位,並在確保快速的推斷時間的同時,同達到了與最先進方法相媲美甚至更好的性能的方法非常關鍵。
ABCNet,是一種基於貝塞爾曲線的、端到端可識別任意形狀的場景文本識別網絡。8月3日晚8點,智東西公開課邀請到阿德萊德大學博士後、ABCNet第一作者劉禹良參與「CV前沿講座」第12講,劉博士將圍繞《ABCNet-端到端可訓練任意形狀的實時場景文本識別網絡 》這一主題進行直播講解。他將從端到端場景下的文本檢測以識別的研究與挑戰出發,對ABCNet,基於貝塞爾曲線的任意形狀文本端到端檢測及識別方法進行深入講解,並介紹一下場景文本端到端檢測及識別的應用。
劉禹良是阿德萊德大學博士後,華南理工大學金連文老師組的博士生,主要研究場景文本檢測與識別問題。劉博在知名期刊/會議上發表多篇論文,包括5篇CVPR論文,其中一篇是CVPR2020的滿分論文。同時劉博也熱衷於項目開源,本人有許多研究項目都是開源的,對研究社區和行業產生了一定的影響。他也曾獲得過5項國際競賽冠軍,並與百度、阿里巴巴等高科技公司合作,共同舉辦了ICPR 2018 MTWI、ICDAR 2019 ArT、ICDAR 2019 LSVT等國際知名賽事。
課程內容
主題: ABCNet:端到端可訓練任意形狀的實時場景文本識別網絡
提綱:
1、端到端場景下的文本檢測及識別的研究與挑戰
2、ABCNet:基於貝塞爾曲線的任意形狀文本端到端檢測及識別方法
3、場景文本端到端檢測及識別的應用
講師介紹
劉禹良,阿德萊德大學博士後;華南理工大學金連文老師組的博士生,主要研究場景文本檢測與識別問題;在知名期刊/會議上發表多篇論文,包括5篇CVPR論文(4位第一作者),其中一篇是CVPR2020的滿分論文;熱衷開源,許多研究項目都是開源的,這對研究社區和行業產生了一定的影響;曾獲得過5項國際競賽冠軍,並積極與百度、阿里巴巴等高科技公司合作,共同舉辦了ICPR 2018 MTWI、ICDAR 2019 ArT、ICDAR 2019 LSVT等國際知名賽事。
直播信息
直播時間:8月3日20:00
直播地點:智東西公開課小程序
答疑地址:智東西公開課討論羣
加入主講羣
本次課程的講解分為主講和答疑兩部分,主講以視頻直播形式,答疑將在「智東西公開課討論羣」進行。
加入討論羣,除了可以免費收看直播之外,還能認識講師,與更多同行和同學一起學習,並進行深度討論。
添加小助手糖糖(ID:hitang20)即可申請,備註“姓名-公司/學校/單位-職位/專業”的朋友將會優先審核通過哦~