編輯導讀:智慧客服機器人已經成為了很多企業售後的標配產品,它能在一定程度上減輕客服人員的壓力。如何衡量一個智慧客服機器人是否好用,這就需要制定系統化的指標和最佳化方案。本文將從資料指標和如何細化兩個方面,對智慧客服機器人的衡量指標體系展開分析,與你分享。
智慧客服機器人慢慢成為了很多企業售後環節的標配產品,同時市面上智慧客服供應商也如雨後春筍般湧現,大家都宣稱自己的機器人多麼智慧。但很多時候,上線後要讓機器人發揮作用,不是“多麼智慧”幾個字就能達到目標。裡面需要團隊中的產品、運營、演算法等人一起努力。當然,很多團隊由於沒有經驗,這個過程會像丈二的和尚摸不著頭腦,需要進行多次摸索才能知道該如何最佳化。
所以,今天要討論的,就是如何系統化去衡量機器人的效果,從而幫助團隊針對性高效最佳化機器人。
說明:本次討論的範圍限於售後服務的文字機器人。
一、資料指標1. 北極星指標說到衡量效果,就需要提到資料指標。
每款產品都有很多資料指標,而我們要找的應該是最核心的指標,即業界說的【北極星指標】。這個指標一定是最能體現業務目標的。
比如閒聊機器人是為了陪伴使用者度過每個無聊的日子,北極星指標應該是活躍度和留存率;營銷機器人是為了讓使用者下單,北極星指標應該是營銷轉化率。同樣的客服機器人是為了解決使用者疑惑,不用轉人工從而降低成本,所以北極星指標應該是【獨立接待率】,與其相反的就是【轉人工率】。維護客服機器人,其實就是不斷提高獨立接待率,降低轉人工率。
找到這個核心指標不是完事,畢竟這個指標可能連我不怎麼用網路的舅舅都知道。這只是一個開始,接下來還得知道哪些因素會影響該指標,才能從這些方向針對性地最佳化機器人。
2. 客服業務流要想降低轉人工率,也就是機器人能幫客戶解決更多問題,那就要求機器人能像人工客服一樣,甚至做得比人工客服更好,才能讓客戶認可。我們回想下,客服在解答使用者問題時,都做了哪些事?
小七總結了一下,客服的核心業務流分為三部分:
- 瞭解使用者的問題:知道使用者問的是什麼問題,如果使用者表達不清楚,還需要跟使用者確認
- 瞭解問題的解法:知道該問題如何解決,考驗客服對業務的熟悉程度
- 解答使用者的問題:利用使用者聽得懂的表達來解答使用者問題,且需要適時安撫
瞭解了客服的核心業務流之後,我們需要讓機器人也能完成這個流程,從而讓客戶願意接受機器人的答案,降低轉人工率。對於機器人來說,要滿足核心業務要求,需要其達到對應的能力。那具體對應是哪些能力,這裡我根據以往的經驗,做了一層對映。
- 瞭解使用者的問題:準確知道使用者問題的意圖,若意圖缺失,還需要與使用者確認
- 瞭解問題的解法:知道大部分業務問題的答案,能夠在識別到使用者意圖之後給出解法
- 解答使用者的問題:回覆話術需要讓使用者聽得懂,聽得舒服,保持人性化
根據以上內容,我總結了降低機器人轉人工率的三個方向以及對應指標,接下來我們就一個個方向進行細化。
二、細化1. 識別得多不多識別得多不多,也就是機器人能不能理解使用者更多意圖,並給出相應回覆。這裡就要求機器人知識庫能夠覆蓋更多業務問題,當業務覆蓋率越高,機器人就能識別更多意圖,解答更多業務問題。
業務問題可以透過聚類歷史資料篩選出來,那如何從更細化的指標體現業務覆蓋率呢?
一般來說,知識庫覆蓋的業務問題越多,機器人不知道的問題就越少,也就是無法識別的比例越低;對應能夠識別且回覆的問題越多,也就是直接回複比例越高。在這兩者之間,還有一類間接回答的場景,也就是機器人大概知道但又不大確定的問題,就會推薦幾個類似問題讓使用者確認。
總的來說,要衡量機器人識別得多不多,可以透過機器人回覆型別來判斷,目標就是:機器人回覆的所有訊息中,直接回答比例不斷提升,間接回復和無法識別的比例不斷降低。
2. 識別得準不準我們想觀察機器人識別得準不準,實際上就是在分析機器人自信認為理解了使用者的意圖,而事實上到底對不對。
機器人自信認為對的問題,也就是我們前面說的直接回答場景,也就是機器人直推且正確的訊息數與機器人直推的訊息數比例,可以歸納為【直推準確率】。當然,判斷機器人直接回復準不準確,需要機器人訓練師做人工質檢,才能得到確切的資料。
另一方面,我們也可以考核機器人給出所有反饋的準確率,包括了直接回答和間接回答。雖然間接回答是機器人不大自信,沒有給出直接答案,從而給出了推薦問題;但如果推薦問題都是錯的,那就沒有任何意義,甚至大大降低了使用者體驗,所以還是需要保證其準確性。
因此我們可以歸納為【綜合準確率】,公式可以總結為:(機器人直推且正確的訊息數+機器人間接回答且正確的訊息數)/機器人直接+間接回答的總訊息數。
當然,或許有人會有疑惑,機器人間接回答到底正不正確很難衡量,甚至人為質檢都存在很大不確定性。確實,這個指標比較模糊,但我們可以從使用者反饋動作來觀察,也就是看機器人間接推薦了問題且使用者採納問題去查詢答案的場景,我們就理解為機器人間接回答是正確的。從這個定義出發的話,我們也不需要進行人工質檢,由系統根據使用者反饋來進行統計。
3. 回答得好不好業務覆蓋也做了,準確性也保障了,最後就是要給出答案。衡量機器人回答得好不好,很大程度上跟AI能力無關,而是運營效果的衡量。運營人員給每條知識庫問題配了答案之後,這個答案需要能夠解決使用者問題,安撫使用者情緒,從而讓使用者不轉人工。所以要看回答得好不好,一方面我們需要細化到每個FAQ的效果來看,另一方面這是一個非常主觀的問題,所以我們需要將主觀變為客觀,也就是看針對每個答案,使用者的反饋。
使用者對機器人的反饋一般有兩種,一種是轉不轉人工,另一種就是評價,對應的指標就是【答案解決率】和【答案的滿意度】
答案解決率就是機器人給出了答案後,使用者是否轉人工,若是轉人工了,說明答案無法解決使用者問題,如果沒有轉人工,一定程度上可以理解為解答了使用者問題。所以運營可以透過這個指標,篩選出答案轉人工率最高的問題,進行針對性最佳化,提升答案解決率。
答案滿意度是透過使用者對機器人答案的點贊或者點踩來進行分析,我們可以分為整體點贊/點踩率和單個答案的點贊/點踩率,從整體和區域性去分析機器人回答的好壞。例如某個答案的點踩率特別高,我們就需要進行策略調整,是不是換個回覆內容,甚至犧牲轉人工率,讓其進入人工,從而保證使用者體驗。
三、總結好了,有了以上細化的衡量方向,我們就可以清晰地看出影響智慧客服北極星指標的因素有哪些,總結如下圖;同時我們透過具體資料,也能鞏固知道應該往哪些方向去最佳化。
比如直接推薦比例很低,那就需要訓練師覆蓋更多的業務業務場景;直推準確率很低,就需要訓練師增加相似問法,演算法工程師調優模型;答案點踩率很高,就需要運營最佳化答案及回覆策略。
作者:七俠 微訊號:steseven 公眾號:老七嘮嗑產品 歡迎交流!
本文由 @steseven 原創釋出於人人都是產品經理,未經作者許可,禁止轉載。
題圖來自Unsplash,基於CC0協議。