智東西(公眾號:zhidxcom)
編譯 | 子佩
編輯 | Panken
智東西11月20日消息,一直以來,Facebook都極力阻止社交平台上仇恨言論和錯誤信息的傳播,但效果卻往往不佳。本週四,Facebook在其官網上發表了《社區標準執行報告》,公開了近期對抗仇恨言論的“戰果”,也展示了正在以及即將投入使用的AI審核工具。
Facebook《社區標準執行報告》
Facebook首席技術官Mike Schroepfer指出,去年的許多措施,已經在打擊仇恨言論方面體現出積極作用。2020年第一季度,Facebook識別並處理了平台上近960萬條內容,幾乎是上個季度(570萬條內容)的兩倍。
2019Q2-202Q3 檢測出來的負面內容數量
“從去年第三季度到今年第三季度,Facebook自動檢測系統,檢測並刪除負面內容的數量增長達三倍以上(從690萬到2210萬條內容 )。”Schroepfer週三在視頻會議中表示,“一個成熟的檢測系統,能在短短一年內,檢測數量翻三倍,我認為是非常不錯的成果。”
Facebook上的技術成果同樣遷移到了旗下的Instagram中。
上個季度,Instagram也同樣進行了大量的負面內容檢測工作,在速度翻倍的情況下,識別準確率達到了95%。
一、AI模型架構Linformer,“並行”提速減消耗可以確定的是,由於不同時期的負面內容基數不同,僅用刪除條數多少來評價AI審核工具的進步是不準確的。Schroepfer也提到:“像在2019年第四季度,就不會存在關於新冠肺炎的錯誤信息,也不會大量由選舉引起的爭議言論。但即使負面言論基數的不同,在整體評估下來,我們的AI審核工具也是有很大的進步的。”
現在Facebook披露的AI審核工具包括半監督式自學習模型和語言模型XLM-R,而在週四的報告中,Facebook還提到另外兩項技術:AI模型架構Linformer和語言分類器RIO。
簡單來説,Linformer可以通過自動為文本貼上標籤,從而分析社交平台上內容是否帶有負面信息。通過在XLM-R等大型語言模型中大規模部署Linformer,Facebook可以快速優化其負面信息識別過程。
相比遞歸神經網絡,Linformer使用的是更適用於自然語言處理領域的Transformer體系結構。Transformer結構的優勢之一就是可以並行處理數據,從而加快訓練模型的速度,而缺點就是,隨着輸入數據長度增加,Transformer結構也會佔用大量資源去滿足內存和計算的需求。
但在研究人員設計架構中,Linformer就規避了這個缺陷,要求系統所用資源和輸入數據量保持線性關係,從而強制要求系統以更少資源處理更多數據。
二、基於強化學習,RIO動態尋找“仇恨言論”最優解另一項新技術稱為RIO(Reinforced Integrity Optimizer),本質上是一個基於強化學習的語言分類器,指導AI模型在數百萬內容中學習,並樹立獎勵指標,迫使模型在學習過程中達到獎勵指標,從而實現優化目的。
RIO架構示意圖
與之前只在固定數據集中進行訓練的分類器不同,RIO需要不斷適應一個動態變化的環境,使模型逼近不停變化的最優解。
“在傳統的AI驅動系統中,預測和執行是兩個單獨的步驟。AI模型會預測內容是仇恨言論還是煽動暴力,然後會由其他系統判斷是否要採取行動,如刪除、標記或將其發送給審查人員……這種方法最大的缺點是,即使一個模型識別仇恨言論準確率極高,但這只是這個階段、這個時期的表現,無法保證下一時期,相同的模型還能做得這麼好。” Facebook在博客中解釋道,“但有了RIO,我們不僅可以獲得動態訓練數據,還能減少訓練、修正模型的時間精力。”
隨着RIO繼續生成越來越準確的分類器,它將使Facebook審核團隊擁有更多的餘地來貫徹社區準則。
這些用於反負面言論的AI技術也會進一步“潔淨”社交平台。
Schropfer説道:“識別仇恨言論的難點就在於,不同時期使用的詞是不同的,會導致傳統分類器難以識別。基於強化學習的內容分類器非常有用,正是因為它可以敏鋭地識別出不同主題下的仇恨言論。”
結語:全智能識別尚有距離,“仇恨言論”之戰尚未結束Facebook在過去的五年時間裏一直在開發自動檢測和審核系統,但目前來看,這場與“惡勢力”的鬥爭仍在繼續。
今年早些時候,Facebook以5200萬美元與11000名曾在Facebook平台遭受網絡暴力的用户達成和解。本週早些時候,有用户向Facebook管理層發出了一封公開信,稱Facebook作為平台維護方,所謂的社區準則並沒有保障用户們的心理健康,而距離開發出完全智能的AI系統尚有數年之遙。
Schroepfer總結道:“我們的目標是繼續推動‘反仇恨言論’技術的發展,以便希望在某個時候,我們社區準則能被完全地貫徹下去。”
來源:VentureBeat、IEEE Spectrum、Engadget