智東西(公眾號:zhidxcom)
編譯 | 子佩
編輯 | Panken
智東西11月20日訊息,一直以來,Facebook都極力阻止社交平臺上仇恨言論和錯誤資訊的傳播,但效果卻往往不佳。本週四,Facebook在其官網上發表了《社群標準執行報告》,公開了近期對抗仇恨言論的“戰果”,也展示了正在以及即將投入使用的AI稽核工具。
Facebook《社群標準執行報告》
Facebook首席技術官Mike Schroepfer指出,去年的許多措施,已經在打擊仇恨言論方面體現出積極作用。2020年第一季度,Facebook識別並處理了平臺上近960萬條內容,幾乎是上個季度(570萬條內容)的兩倍。
2019Q2-202Q3 檢測出來的負面內容數量
“從去年第三季度到今年第三季度,Facebook自動檢測系統,檢測並刪除負面內容的數量增長達三倍以上(從690萬到2210萬條內容 )。”Schroepfer週三在視訊會議中表示,“一個成熟的檢測系統,能在短短一年內,檢測數量翻三倍,我認為是非常不錯的成果。”
Facebook上的技術成果同樣遷移到了旗下的Instagram中。
上個季度,Instagram也同樣進行了大量的負面內容檢測工作,在速度翻倍的情況下,識別準確率達到了95%。
一、AI模型架構Linformer,“並行”提速減消耗可以確定的是,由於不同時期的負面內容基數不同,僅用刪除條數多少來評價AI稽核工具的進步是不準確的。Schroepfer也提到:“像在2019年第四季度,就不會存在關於新冠肺炎的錯誤資訊,也不會大量由選舉引起的爭議言論。但即使負面言論基數的不同,在整體評估下來,我們的AI稽核工具也是有很大的進步的。”
現在Facebook披露的AI稽核工具包括半監督式自學習模型和語言模型XLM-R,而在週四的報告中,Facebook還提到另外兩項技術:AI模型架構Linformer和語言分類器RIO。
簡單來說,Linformer可以透過自動為文字貼上標籤,從而分析社交平臺上內容是否帶有負面資訊。透過在XLM-R等大型語言模型中大規模部署Linformer,Facebook可以快速最佳化其負面資訊識別過程。
相比遞迴神經網路,Linformer使用的是更適用於自然語言處理領域的Transformer體系結構。Transformer結構的優勢之一就是可以並行處理資料,從而加快訓練模型的速度,而缺點就是,隨著輸入資料長度增加,Transformer結構也會佔用大量資源去滿足記憶體和計算的需求。
但在研究人員設計架構中,Linformer就規避了這個缺陷,要求系統所用資源和輸入資料量保持線性關係,從而強制要求系統以更少資源處理更多資料。
二、基於強化學習,RIO動態尋找“仇恨言論”最優解另一項新技術稱為RIO(Reinforced Integrity Optimizer),本質上是一個基於強化學習的語言分類器,指導AI模型在數百萬內容中學習,並樹立獎勵指標,迫使模型在學習過程中達到獎勵指標,從而實現最佳化目的。
RIO架構示意圖
與之前只在固定資料集中進行訓練的分類器不同,RIO需要不斷適應一個動態變化的環境,使模型逼近不停變化的最優解。
“在傳統的AI驅動系統中,預測和執行是兩個單獨的步驟。AI模型會預測內容是仇恨言論還是煽動暴力,然後會由其他系統判斷是否要採取行動,如刪除、標記或將其傳送給審查人員……這種方法最大的缺點是,即使一個模型識別仇恨言論準確率極高,但這只是這個階段、這個時期的表現,無法保證下一時期,相同的模型還能做得這麼好。” Facebook在部落格中解釋道,“但有了RIO,我們不僅可以獲得動態訓練資料,還能減少訓練、修正模型的時間精力。”
隨著RIO繼續生成越來越準確的分類器,它將使Facebook稽核團隊擁有更多的餘地來貫徹社群準則。
這些用於反負面言論的AI技術也會進一步“潔淨”社交平臺。
Schropfer說道:“識別仇恨言論的難點就在於,不同時期使用的詞是不同的,會導致傳統分類器難以識別。基於強化學習的內容分類器非常有用,正是因為它可以敏銳地識別出不同主題下的仇恨言論。”
結語:全智慧識別尚有距離,“仇恨言論”之戰尚未結束Facebook在過去的五年時間裡一直在開發自動檢測和稽核系統,但目前來看,這場與“惡勢力”的鬥爭仍在繼續。
今年早些時候,Facebook以5200萬美元與11000名曾在Facebook平臺遭受網路暴力的使用者達成和解。本週早些時候,有使用者向Facebook管理層發出了一封公開信,稱Facebook作為平臺維護方,所謂的社群準則並沒有保障使用者們的心理健康,而距離開發出完全智慧的AI系統尚有數年之遙。
Schroepfer總結道:“我們的目標是繼續推動‘反仇恨言論’技術的發展,以便希望在某個時候,我們社群準則能被完全地貫徹下去。”
來源:VentureBeat、IEEE Spectrum、Engadget