作業幫羅亮:基礎音視頻服務和AI是直播課技術兩大核心
作業幫副總裁羅亮在做“後疫情時代作業幫對教育科技的探索”的主題分享
芥末堆 11月25日 李海顏 報道
11月24日,在“或躍在淵:教育的信心與發展”芥末堆GET2020教育科技大會上,作業幫副總裁羅亮帶來了“後疫情時代作業幫對教育科技的探索”的主題分享。
他表示,在線教育的最大價值是在於用科技的力量,把知識分發到每一個有需要的學生身邊,而教育科技就是把優質的教育資源放大、遷移、匹配的便捷管道。就直播技術而言有兩大核心,一是基本的音視頻傳輸能力和互動能力,二是利用AI技術提升學生課堂中的互動效果。
以下為羅亮的演講實錄:
尊敬的各位嘉賓大家好!我是來自作業幫的羅亮,今天分享主題是《後疫情時代作業幫在教育科技的探索》。我是在教育行業裏面做技術的,其實可以看得出來,在線教育的最大價值就是用科技的力量把知識分發到每一個有需求的學生身邊。
互聯網是什麼?互聯網本質是連接,它能打破時間、空間、地域、階層的限制,讓整個社會、整個信息得以連接。教育又是最不均衡的社會資源,通過技術我們可以把教育資源均衡地分發下去,所以我對技術的定義就是把優質的教育資源放大、遷移、匹配的便捷管道。
為什麼我們能做一個管道呢?在我看來,作業幫在累計8億智能設備上被激活,每月連接用户數超過1.7億,這樣的積累幫助我們在技術上持續提升。我們用科技來賦能教育,為教育普惠貢獻自己的一份力量,我們有60%的直播課的學員是來自三線及三線以下的城市與鄉村。
疫情以來,各地紛紛轉戰線上,在線教育被推到了風口浪尖。作業幫也積極響應政府號召,助力各地中小學生在線學習。疫情期間,我們開設了春季免費直播課,在疫情的整個過程中,一共有3300萬人次的學員參與了春季免費直播課。同時,我們還開設了名師講堂公益課和針對高考的高考徵題解析直播課。
疫情來臨時,大量的學生突然湧入在線教育。過往我們在線直播課學員數量是百萬級別,但今年已超過了3000萬,整個數量級乘了10倍,這其實對於做技術的人而言是一個非常大的挑戰。
這個時候怎麼辦?坦白地説就一個辦法,多加點服務器、多加點帶寬,但是加服務器、加帶寬並不容易。從ATP到直播系統到課件到互動再到做答系統,我們的鏈條很長,每一個環節、每一個功能都需要加服務器抵禦這麼大的流量,同時還要求基礎架構能夠支撐通過加服務器的方式來抵禦流量。
但在短短几天之內這個事是實現不了的,甚至哪怕説我們願意花錢買服務器、買帶寬,如果供應商供不上,有錢也買不上這個服務器。
幸好在今年之前我們做了一件事,從原來單一的雲服務供應商擴展到了行業內主流的5家雲服務供應商,所以我們在機器的供貨、系統擴容方面相對來説比較從容。同時,直播課整個直播技術也是我們的核心之一,過往我們採用的是第三方直播技術。從去年到今年,我們用了大概一年半的時間建設了一套自己的直播體系,在今年的免費直播課中也發揮了應有的作用。
直播課的兩大核心:基礎音視頻服務和AI視覺語音技術後疫情時代對教育科技提出了更多要求和挑戰。比如,如何滿足更多形式的授課方式、如何更好地提升整個課程的互動效果、如何真正有效地提升學習的效果。經過疫情的大考我們開始進行自己的思考和探索,我們認為技術是能做非常多的事情。
整個直播課我認為有兩個核心要點,第一是直播技術本身,基於Web RTC的行業協議我們自研了一套直播架構體系,讓分佈在全國各地的師生通過直播網絡穩定的連接在一起。我們的直播課類型是多樣的,包括1對多的大班直播課、1對1的輔導課以及6人的小班課等等。6人小班課其實本質上是一個大班,但是每一個學生的感受是在一個6人小班當中上課。
我們的用户覆蓋全國整個學生羣體,這樣多形式的直播課,如何通過直播網絡將分佈在全國各地的師生都穩定的連接在一起呢?我們用了一年時間和雲服務供應商一起共建了遍佈全國的節點網絡,為老師和學生提供足夠清晰、足夠流暢、實時互動的直播音視頻服務。
基礎的音視頻服務之外,在未來直播課中我們認為會大放異彩的是AI技術。我們用AI做什麼呢?就目前的行業技術而言,我們在教學領域應用最多的是視覺技術和語音技術。
以視覺技術為例,我們可以利用視覺技術對學生在課堂上的學習情況、表現情況進行感知。通過視覺技術能夠幫助主講老師收集學生在課堂上的表現情況,包括注意力是否集中、是否有家人陪同、坐姿是否端正等。這些行為的識別、分析和彙總,能夠幫助主講老師及時瞭解所有學生的上課狀態,比如內容是否難度偏大,學生整體的接受度如何,是否需要着重講解或者是轉換講課方式。同時也能夠幫助輔導老師關注學生的學習行為。如學生狀態有異常,老師直接收通知,會提醒學生更好地投入到學習中去。學生在上課過程中,如果離屏幕太近,我們也會對他進行提醒。
每節課結束後,我們會綜合彙總學生當節課各種行為、注意力集中狀態、答疑情況等,智能分析的學生行為數據,彙總後呈現給老師,老師基於這個完整的報告來評估自己教學情況,不斷提高自己的教學水平。
另外一種形式是語音技術,我們自研的AI語音技術提供了語音發彈幕的能力和服務。在小低年級,孩子最自然的交互形式是説話,學生們可以用語音發送自己的彈幕,這樣極大提升了學生在課堂當中的參與感和積極性。而且在一些英語學科當中,口語的讀寫、聽寫能力都是非常重要的,我們也能通過AI技術對用户的讀音的效果進行評分,彙總到老師那裏,可以讓老師和學生進行反饋互動,你答得好不好、你答得怎麼樣,這樣的技術在當今的直播課裏面、AI課裏面大量使用。
同時,通過語音技術還能提升交互能力。我們有一種教學類型叫集體發言,六個學生針對老師提出的問題一起來發言,這個時候我們會發現一個問題,每個學生既要聽得見同學們的聲音,還要不被髮出來的聲音回聲所幹擾,這需要大量噪音消除、回聲消除的技術,讓同組學生,也讓老師能聽到學生們的清晰發言。
所以其實我們可以看到直播課技術的兩大核心,一是基本的音視頻傳輸能力和互動能力,二是利用AI技術提升學生課堂中的互動效果。
AI技術是算法、模型和數據的結合體其實AI是什麼呢?AI是算法、模型和數據的結合體,我們在這上面的成果,源於作業幫長期的技術和數據積累,尤其是在作業幫拍照搜題這個場景下的不斷探索。
作業幫APP是中國全網流量裏面APP活躍度TOP30的教育類APP,我們的月活過億。在這5年的過程裏面,我們累積了20000TB的學習數據,同時也積累了超過2.5億的行業題庫。
疫情期間,對拍照搜題業務也提出了新的挑戰。過去對着書本或者手寫的文字,疫情期間出現了很多對着屏幕拍照的需求,增加了對識別技術的要求。比如電腦屏幕有閃爍,有摩爾紋,有反光,這些新情況,需要不斷的去迭代和優化,儘可能的去提升用户搜索的準確率和召回率。
拍照搜題是作業幫積累最久的一個技術,經過5年多不斷的迭代和創新以及積累,目前已經是一個結合神經網絡,集羣化的識別引擎。我們在5年前拍一道題得到它的答案大概可能要七八秒鐘的時間,但是到了今天通過不斷提升的神經網絡,我們能做到在200ms內完成識別解析,然後從包含2.5億個題目的搜索引擎裏匹配到最佳的結果。
其實在這個過程中我們經歷了非常多的挑戰,從最開始的準確率低到令人髮指,到今天我們能應對模糊、傾斜、干擾各種低像素的相機,很多用户的設備是拿着家長淘汰下來的舊手機、老手機,像素低、內存小,拍出來的質量參差不齊。
長期面對這種低像素、模糊、傾斜、干擾等等的輸入,倒逼我們去不斷的提升識別的效果,也幫助我們積累了大量的寶貴數據,提升了模型的能力,形成一個正向循環。通過不斷的積累在AI方面的技術能力,我們也把這些能力應用到了更多的場景中去,提供更好的產品,比如整頁拍搜、自動批改,自動答題等功能。
我們在這個過程中能看到技術對在線教育起非常大的促進作用,在疫情的衝擊下,各行各業都起了很多的變化。在線教育在後疫情時代被推上了歷史的舞台,中央也在“十四五”的規劃裏面提出要建設高質量的教育體系。在線教育不僅可以促進教育普惠,推動教育均衡發展,還可以激發優質教育新供給,推動中國教育邁向數字化、智能化、個性化的新台階。