作业帮罗亮：基础音视频服务和AI是直播课技术两大核心

作业帮副总裁罗亮在做“后疫情时代作业帮对教育科技的探索”的主题分享

芥末堆 11月25日李海颜报道

11月24日，在“或跃在渊：教育的信心与发展”芥末堆GET2020教育科技大会上，作业帮副总裁罗亮带来了“后疫情时代作业帮对教育科技的探索”的主题分享。

他表示，在线教育的最大价值是在于用科技的力量，把知识分发到每一个有需要的学生身边，而教育科技就是把优质的教育资源放大、迁移、匹配的便捷管道。就直播技术而言有两大核心，一是基本的音视频传输能力和互动能力，二是利用AI技术提升学生课堂中的互动效果。

以下为罗亮的演讲实录：

尊敬的各位嘉宾大家好！我是来自作业帮的罗亮，今天分享主题是《后疫情时代作业帮在教育科技的探索》。我是在教育行业里面做技术的，其实可以看得出来，在线教育的最大价值就是用科技的力量把知识分发到每一个有需求的学生身边。

互联网是什么？互联网本质是连接，它能打破时间、空间、地域、阶层的限制，让整个社会、整个信息得以连接。教育又是最不均衡的社会资源，通过技术我们可以把教育资源均衡地分发下去，所以我对技术的定义就是把优质的教育资源放大、迁移、匹配的便捷管道。

为什么我们能做一个管道呢？在我看来，作业帮在累计8亿智能设备上被激活，每月连接用户数超过1.7亿，这样的积累帮助我们在技术上持续提升。我们用科技来赋能教育，为教育普惠贡献自己的一份力量，我们有60%的直播课的学员是来自三线及三线以下的城市与乡村。

疫情以来，各地纷纷转战线上，在线教育被推到了风口浪尖。作业帮也积极响应政府号召，助力各地中小学生在线学习。疫情期间，我们开设了春季免费直播课，在疫情的整个过程中，一共有3300万人次的学员参与了春季免费直播课。同时，我们还开设了名师讲堂公益课和针对高考的高考征题解析直播课。

疫情来临时，大量的学生突然涌入在线教育。过往我们在线直播课学员数量是百万级别，但今年已超过了3000万，整个数量级乘了10倍，这其实对于做技术的人而言是一个非常大的挑战。

这个时候怎么办？坦白地说就一个办法，多加点服务器、多加点带宽，但是加服务器、加带宽并不容易。从ATP到直播系统到课件到互动再到做答系统，我们的链条很长，每一个环节、每一个功能都需要加服务器抵御这么大的流量，同时还要求基础架构能够支撑通过加服务器的方式来抵御流量。

但在短短几天之内这个事是实现不了的，甚至哪怕说我们愿意花钱买服务器、买带宽，如果供应商供不上，有钱也买不上这个服务器。

幸好在今年之前我们做了一件事，从原来单一的云服务供应商扩展到了行业内主流的5家云服务供应商，所以我们在机器的供货、系统扩容方面相对来说比较从容。同时，直播课整个直播技术也是我们的核心之一，过往我们采用的是第三方直播技术。从去年到今年，我们用了大概一年半的时间建设了一套自己的直播体系，在今年的免费直播课中也发挥了应有的作用。

直播课的两大核心：基础音视频服务和AI视觉语音技术

后疫情时代对教育科技提出了更多要求和挑战。比如，如何满足更多形式的授课方式、如何更好地提升整个课程的互动效果、如何真正有效地提升学习的效果。经过疫情的大考我们开始进行自己的思考和探索，我们认为技术是能做非常多的事情。

整个直播课我认为有两个核心要点，第一是直播技术本身，基于Web RTC的行业协议我们自研了一套直播架构体系，让分布在全国各地的师生通过直播网络稳定的连接在一起。我们的直播课类型是多样的，包括1对多的大班直播课、1对1的辅导课以及6人的小班课等等。6人小班课其实本质上是一个大班，但是每一个学生的感受是在一个6人小班当中上课。

我们的用户覆盖全国整个学生群体，这样多形式的直播课，如何通过直播网络将分布在全国各地的师生都稳定的连接在一起呢？我们用了一年时间和云服务供应商一起共建了遍布全国的节点网络，为老师和学生提供足够清晰、足够流畅、实时互动的直播音视频服务。

基础的音视频服务之外，在未来直播课中我们认为会大放异彩的是AI技术。我们用AI做什么呢？就目前的行业技术而言，我们在教学领域应用最多的是视觉技术和语音技术。

以视觉技术为例，我们可以利用视觉技术对学生在课堂上的学习情况、表现情况进行感知。通过视觉技术能够帮助主讲老师收集学生在课堂上的表现情况，包括注意力是否集中、是否有家人陪同、坐姿是否端正等。这些行为的识别、分析和汇总，能够帮助主讲老师及时了解所有学生的上课状态，比如内容是否难度偏大，学生整体的接受度如何，是否需要着重讲解或者是转换讲课方式。同时也能够帮助辅导老师关注学生的学习行为。如学生状态有异常，老师直接收通知，会提醒学生更好地投入到学习中去。学生在上课过程中，如果离屏幕太近，我们也会对他进行提醒。

每节课结束后，我们会综合汇总学生当节课各种行为、注意力集中状态、答疑情况等，智能分析的学生行为数据，汇总后呈现给老师，老师基于这个完整的报告来评估自己教学情况，不断提高自己的教学水平。

另外一种形式是语音技术，我们自研的AI语音技术提供了语音发弹幕的能力和服务。在小低年级，孩子最自然的交互形式是说话，学生们可以用语音发送自己的弹幕，这样极大提升了学生在课堂当中的参与感和积极性。而且在一些英语学科当中，口语的读写、听写能力都是非常重要的，我们也能通过AI技术对用户的读音的效果进行评分，汇总到老师那里，可以让老师和学生进行反馈互动，你答得好不好、你答得怎么样，这样的技术在当今的直播课里面、AI课里面大量使用。

同时，通过语音技术还能提升交互能力。我们有一种教学类型叫集体发言，六个学生针对老师提出的问题一起来发言，这个时候我们会发现一个问题，每个学生既要听得见同学们的声音，还要不被发出来的声音回声所干扰，这需要大量噪音消除、回声消除的技术，让同组学生，也让老师能听到学生们的清晰发言。

所以其实我们可以看到直播课技术的两大核心，一是基本的音视频传输能力和互动能力，二是利用AI技术提升学生课堂中的互动效果。

AI技术是算法、模型和数据的结合体

其实AI是什么呢？AI是算法、模型和数据的结合体，我们在这上面的成果，源于作业帮长期的技术和数据积累，尤其是在作业帮拍照搜题这个场景下的不断探索。

作业帮APP是中国全网流量里面APP活跃度TOP30的教育类APP，我们的月活过亿。在这5年的过程里面，我们累积了20000TB的学习数据，同时也积累了超过2.5亿的行业题库。

疫情期间，对拍照搜题业务也提出了新的挑战。过去对着书本或者手写的文字，疫情期间出现了很多对着屏幕拍照的需求，增加了对识别技术的要求。比如电脑屏幕有闪烁，有摩尔纹，有反光，这些新情况，需要不断的去迭代和优化，尽可能的去提升用户搜索的准确率和召回率。

拍照搜题是作业帮积累最久的一个技术，经过5年多不断的迭代和创新以及积累，目前已经是一个结合神经网络，集群化的识别引擎。我们在5年前拍一道题得到它的答案大概可能要七八秒钟的时间，但是到了今天通过不断提升的神经网络，我们能做到在200ms内完成识别解析，然后从包含2.5亿个题目的搜索引擎里匹配到最佳的结果。

其实在这个过程中我们经历了非常多的挑战，从最开始的准确率低到令人发指，到今天我们能应对模糊、倾斜、干扰各种低像素的相机，很多用户的设备是拿着家长淘汰下来的旧手机、老手机，像素低、内存小，拍出来的质量参差不齐。

长期面对这种低像素、模糊、倾斜、干扰等等的输入，倒逼我们去不断的提升识别的效果，也帮助我们积累了大量的宝贵数据，提升了模型的能力，形成一个正向循环。通过不断的积累在AI方面的技术能力，我们也把这些能力应用到了更多的场景中去，提供更好的产品，比如整页拍搜、自动批改，自动答题等功能。

我们在这个过程中能看到技术对在线教育起非常大的促进作用，在疫情的冲击下，各行各业都起了很多的变化。在线教育在后疫情时代被推上了历史的舞台，中央也在“十四五”的规划里面提出要建设高质量的教育体系。在线教育不仅可以促进教育普惠，推动教育均衡发展，还可以激发优质教育新供给，推动中国教育迈向数字化、智能化、个性化的新台阶。