內容稽核基礎：稽核方式、流程與稽核維度

2020-05-21由士振文釋出於科技

對於資訊類產品和內容內產品來說，內容稽核是必不可少的環節之一。藉助人工智慧的發展，可以讓機器替代一部分稽核工作，但由於內容的複雜性，人工稽核必不可少，而且還有其他需要考慮的點。這篇文章，作者為我們講解內容稽核的方式與流程，希望能對你有所幫助。

何為內容稽核？

簡單來說就是：對使用者在社交平臺上上傳、釋出或共享的內容（文字，圖片，音訊，影片）進行審查。

其主要目的是對低質庸俗的內容進行過濾篩選，從而生產高質量的內容、防止降低使用者體驗、保持良好的內容調性。

而在這個過程中，平臺會對於內容有一個專業的標準作為參考，這個時候有一個很大的問題就是人工篩選效率低，而且成本大。

所以很多內容平臺採用了演算法進行過濾，透過人工和演算法的有效結合來提升效率。

經過過濾後的內容基本上能保證無害，即使質量不高，但也不存在風險問題。這時企業就會面對選擇是先發後審還是先審後發：

“先發後審”：即使用者先發表UGC內容，再經過稽核；
“先審後發”：即使用者提交UGC內容後，先經過稽核，稽核通過後才能發表上線。

“先發後審”和“先審後發”的適用場景：

“先發後審”：適用於對發表內容時效性要求較高的場景，如閱讀、聽歌等場景下的使用者評論，此時使用者發表評論更多出於即興，因此從使用者的角度考慮，希望自己發表的評論能夠馬上看到成功、有效。比如：網易雲音樂評論。
“先審後發”：適用於在社群、論壇、新聞平臺等場景下發表文章、觀點、討論等，此時對於平臺方來說需要對內容負責、並構建權威性，因此通常要稽核後才能發表。比如：抖音、人人都是產品經理。

一、稽核方式

不管是什麼內容的稽核，都應該包含以下四個基礎模組：機器稽核、人工稽核、使用者投訴稽核、結果複審。

1. 機器稽核

是按照制定好的規則或機器學習演算法對內容進行稽核.

通常，成熟的稽核系統能將95%甚至99%以上的內容都自動稽核並做出處理。確定有問題的會被自動刪除，難以判斷是否有問題的會被標註，進入人工稽核程式。

2. 人工稽核

雖然使用者投訴稽核和結果複審大多時候也是人工稽核，但這裡所說的人工稽核，特指稽核機器無法判別的內容，通常佔平臺內容數量的比例不超過5%.

但對於一些大型的內容平臺，絕對數量已經很多了。在內容爆炸的時代，我們看到許多平臺在全國都有多個稽核中心，每個稽核中心的員工數量都成千甚至上萬。

3. 使用者投訴稽核

是前兩者的彌補，有很多違規內容以前沒有出現過;所以不在規則可以過濾的範圍內，或者非常隱蔽，規則難以嚴格過濾。

使用者的投訴是發現新問題的重要渠道。透過知乎的危機事件，我們更應該重視對投訴的稽核，並及時據此對機器稽核做出補充。

4. 結果複審

通常採取抽查方式，比如透過複審機器刪除的內容，看規則或演算法是否過於嚴格；比如透過檢視人工刪除和透過的內容，看員工的工作是否按要求執行；比如透過內容的整體巡查，看是否存在新的問題未被注意到。

二、稽核流程

具體流程，以下圖為例：

先過機器稽核，機器稽核透過或不透過；
對機器稽核不透過的，再進行人工複審；
對機器稽核透過的，再進行人工抽樣稽核。

三、稽核的四個維度

這裡一般都是對四個維度進行稽核，關鍵字稽核，使用者釋出次數限制，重複內容過濾和白/黑名單使用者。

1. 關鍵詞稽核

詞語過濾的環節，關鍵詞主要分為三類：

1）禁止關鍵詞

只要匹配到這個詞，內容就被自動刪除或禁止提交。通常只有極少數詞會被納入禁止關鍵詞，比如明確的色情、邪教以及廣告的專屬關鍵詞。

2）稽核關鍵詞

這是最常見的關鍵詞種類，只要匹配到就會自動進入後臺進行稽核，文章中的關鍵詞會被高亮並羅列出來，有助於稽核人員快速判斷。稽核關鍵詞也應該儘量是專屬關鍵詞，以防止太多內容被攔截到後臺。

3）替換關鍵詞

在許多平臺，我們會在文中看到莫名的號或字母縮寫*，這可能不是文章作者寫的，而是這個詞被系統自動替換。平臺不希望出現這個關鍵詞，但用別的代替讀者通常也能讀懂。比如一些政治、宗教、不文明用語類詞語，都有可能被自動替換。

當然，管理員在新增關鍵詞時，很多時候並不是直接把關鍵詞新增到後臺。否則使用者用很簡單的方式就可以避過關鍵詞過濾，比如在關鍵詞內加一個空格，系統就難以匹配到。

所以，一般後臺都會支援限定符{x} 以限定相鄰兩字元間可忽略的文字，x 是忽略的位元組數。在Discuz!網站後臺有明確說明，如 “a{1}s{2}s”(不含引號) 可以過濾 “ass” 也可過濾 “axsxs” 和 “axsxxs” 等等。

對於中文字元，若使用 GBK、Big-5 版本，每個中文字元相當於 2 個位元組；若使用 UTF-8 版本，每個中文字元相當於 3 個位元組。

另外，關鍵詞還可以支援正則表示式，來匹配具有一定模式的關鍵詞。比如”/1\\d{10}([^\\d] |$)/”（不包括引號）用來匹配手機號碼。正則表示式的內容過多，大家有興趣可以搜尋學習一下。

2. 使用者釋出次數限制

主要限制一名使用者無限制地傳送評論。

對這種情況可以設定同一使用者一分鐘內最多傳送一條評論；一小時內最多傳送10條評論，一天最多傳送三十條評論，評論次數如果超出時則彈出toast“發言太多累了吧，請休息下”的提示。

其實這個限制上線後，發現發廣告的人會不斷註冊新號來規避這個問題，後續可以考慮再加上。新使用者需註冊多長時間才可釋出評論，或需繫結手機號才可以釋出評論這些嚴格的條件。

3. 重複內容過濾

這種一般都是對於發廣告的。

對比時去掉除漢字外的任何符號，如“抖丶音”、“快aabb手”，對比時用“抖音”“快手”；將評論與同一使用者上條評論作對比，10個漢字以上的若與其中一條重複率達70%（20,60%；30，50%）則彈出toast“請不要釋出重複內容”；同時將評論僅與評論庫最近釋出50條的評論作對比，20個漢字以上的若與其中一條重複率達80%則機審失敗（30,70%；50，60%）；

在對比重複內容時一定要去掉一些無關的符號。因為很多小廣告喜歡加空格，逗號這些。他們也通常備用好幾條文案，可以將評論庫的拿出來對比；這樣也可以規避他們換號，換文案的問題。

4. 白名單使用者，黑名單使用者

白名單使用者、黑名單使用者需要有個可編輯的後臺，可隨時增減；若同一使用者一天內機審失敗的評論超過10，則自動列入黑名單。

白名單的使用者不受釋出次數限制，但內容需要檢查廣告詞、敏感詞、遮蔽詞，如果一天內釋出的評論超過10條機審失敗，也自動列入黑名單。列在黑名單的使用者釋出評論時，彈出toast“您暫時無法釋出評論”或機審直接失敗。

最後補充下，其實沒有對IP進行限制是因為在公共區域的wifi好像IP是一樣的，儘管非常希望處理掉垃圾評論這一問題，但我還是希望在不影響到普通使用者的前提下。

以上基本是一個內容稽核都需要了解的點了。

本文由 @咩咩咩原創釋出於人人都是產品經理。未經許可，禁止轉載

題圖來自Unsplash，基於CC0協議