編輯導語:策略產品經理在工作過程中往往離不開主觀評估,在科學的評估方式指導下,主觀評估可以和客觀數據指標互為補充,同時輔助業務決策。本文作者將以此為出發點,主要介紹了一些主觀評估(平台視角)的相關方法論。
在摸索出以下三條關鍵準則之前,筆者在工作早期的主觀評估項目多數以失敗告終。失敗的原因往往是主觀評估數據無法取得廣泛的認可,也就無法使用該數據推動決策。
通常項目失敗的原因如下:
1. 穩定性差在沒有做大調整的情況下,上個評估週期的主觀評估數據與這個評估週期的數據相差甚遠,從而不知道應該相信哪一份數據。
2. 其他團隊對指標不認可策略產品經理做了一份主觀評估結果併發送郵件給相關人員,但被其他團隊質疑數據有效性。
比如,對於某個通用分類器的召回率數據,算法工程師認為是90%,而策略產品經理評估只有70%。
當然這兩個數值是隨意杜撰的,但這件事情背後往往是不同團隊KPI壓力導致的,需要一種切實有效的手段來統一所有人的認知。
二、分析1. 對於第一種情況往往是抽樣方法或者評估標準導致的,如果在上一次評估週期中抽取了小樣本,而在下一次評估週期中抽取了大樣本,兩次結果的置信區間寬度差距較大,那麼結果差異大。
如果兩次評估的抽樣採用了不同的過濾策略,則抽取的樣本實際數據分佈不同(比如,第一次抽樣過濾了無效狀態,而第二次抽樣並未過濾)。
另外,兩次評估的評估員不是同一人或者評估標準不清晰,數值也會有差異。但以上問題都可以通過相應的手段解決。
2. 對於第二種情況相信做過主觀評估項目的人一定非常熟悉,由於團隊內有多個“手錶”產生了“手錶效應”,不同視角數據(上例中的算法工程師和策略產品經理各執一詞的兩份數據)的增加,不僅沒有為團隊帶來收益,反而導致團隊內部變得更加混沌。
主觀評估數據不被信任有多方面的原因,一個最大的原因是對於同一個事物,每個人的主觀標準難以實現精準的“調和”。
畢竟大多數人來自不同的省市,接受了不同的教育,在走上工作崗位時已經形成了完整的世界觀,此時很難去統一不同人根深蒂固的底層認知,這也是主觀評估項目的最大挑戰。
所以在彙報主觀評估項目時,尤其考驗策略產品經理的推動能力和彙報技巧,他們必須推動更多的人支持該方案。
三、總結經過對多方的廣泛覆盤和經驗沉澱,筆者總結出了以下三條關鍵原則,如圖3-2所示:
1. “法律條文”—“主觀評估標準”的四要素主要作用是使用客觀清晰的語言統一團隊內部所有人的認知,即對於任意的主觀評估標準而言,必須具備完整的“法律條文”.
具體包含以下4個關鍵要素:
1)標籤
標籤可以是連續的,也可以是離散的。體育分類的內容、美術分類的內容等屬於離散標籤,豆瓣上的電影評分屬於連續的標籤,標籤的設定完全是由主觀決定的。
2)標籤定義
需要滿足“形容詞+名詞”的組合:標籤定義是為了讓大多數人理解標籤含義的重要手段,所選擇的形容詞和名詞必須是有實際含義的“{形容詞}的{形容詞}的{名詞}”。
比如豆瓣電影評分為9分的電影指的是“值得多次回顧的(形容詞)、立意深遠(形容詞)的電影內容(名詞)”,1分的電影指的是“浪費時間的(形容詞)、毫無主題(形容詞)的電影內容(名詞)”。
3)判例
通常以關鍵詞或該標籤的示例給出,和“法律條文”接近,在給出主觀評估標準時需要給出非常具體的實例作為判例,數量越多越好,一般不少於5個,比如豆瓣評分9分的電影(標籤)的判例為《肖申克的救贖》《這個殺手不太冷》等。
判例是對標籤和標籤定義的具體補充,大多數情況下團隊內部往往對於標籤和標籤定義不會有較大分歧,而對於判例的分歧一般較大。
所以對於主觀評估標準而言,判例是最重要的部分。請選取團隊內部討論通過的,並經由“最高裁判”確認的標誌性示例作為判例,這是主觀評估流程中一個非常重要的步驟。
4)標籤的比例要求
對於離散型標籤而言,往往沒有比例要求。比如對於體育分類的內容,策略產品經理往往並不要求一定要保證體育分類的內容要佔到全體內容的何種比例,而是順其自然地符合自然分佈即可。
而對於連續型標籤,往往需要對不同等級的標籤設定預期比例,比如金字塔形分佈(10分電影所佔比例不超過1%,9分電影比例不超過6%,8分電影比例不超過12%等數值要求)或者紡錘形分佈(即兩極的佔比低,中部的佔比高)。
2. “最高裁判”—主觀評估的必要角色主觀評估項目中常見的現象是平台內部對於最終的主觀評估數據結果各執一詞,造成這一現象的根本原因是平台內部缺乏一個對於標準有最終解釋權的“最高裁判”的存在。
關於“最高裁判”,筆者有以下經驗可分享:
1)誰來推動
由於職場中大多數人對於主觀評估的經驗不足,一般來説“最高裁判”的選擇需要策略產品經理推動相關角色選舉產生,如果民主選舉無法產生“最高裁判”,此時策略產品經理應該召開標準討論會議,並邀請項目中職位最高的管理者參加。
會議中推動項目最高管理者指定主觀評估標準的“最高裁判”人選。該人選對於主觀評估標準負責,具有最終解釋權。
2)誰作為“最高裁判”
第一個條件是“最高裁判”應是對於主觀評估標準制定最資深、最權威的人員(內容型產品中一般由運營經理負責)。
第二個條件是“最高裁判”應是避免與該評估數據有直接利益關係的人(比如某NLP分類器模型,“最高裁判”的評估人員不應該是該NLP算法工程師,而應該是第三方中立的業務人員),杜絕“既當運動員,又當裁判員”的現象。
3)產生爭議怎麼辦
當平台內部對於主觀評估結論存在多個質疑的聲音時,雙方評估的人員、“最高裁判”可以在會議室內當場校對標準(以筆者的經驗看,對於爭議的實例,一般60分鐘的會議即可完成雙方標準的統一),並由“最高裁判”對主觀評估結論給出終審判決。
3. “主觀評估標準”的用户視角和平台視角對於標籤定義而言,應當儘量貼合用户視角,設定評估標註時應該選擇大多數目標用户的共同認知。
以《火影忍者》的漫畫分類舉例來説,從平台價值觀和用户價值觀兩個角度來看是不一樣的:
1)平台價值觀
《火影忍者》是“熱血分類”動漫,其中“熱血分類”是主觀評估標準中的一個標籤。
2)用户價值觀
用户A可能會認為“火影挺好玩的,看着挺刺激的”,用户B可能會認為“火影好熱血啊,是一個熱血動漫”,而女性用户C可能會認為“火影是一部彩虹漫畫,鳴人、佐助太甜了”。
可見,在本例中用户A和用户B腦中的第一反應都是“熱血分類”,而用户C的第一反應是“彩虹漫畫”,而此時的主觀評估標準應該選取大多數人的認知。
在進行主觀評估標準設定時,策略產品經理應該考慮到用户的認知水平差異。
為了讓大家更直觀地理解主觀評估標準的設計方式,下表給出了漫畫屬於何種漫畫分類的主觀評估標準示例:
上述的主觀評估標準示例是為了便於理解而杜撰的,在實際工作中,主觀評估標準要細緻得多,可以增加對於該標籤與其他標籤的區別(比如增加一列備註)。
該標籤的正例和反例都可以沉澱到公共文檔上,方便團隊所有相關人員查閲,對於以上三條主觀評估原則的實例應用。
作者:韓瞳,文章選自《策略產品經理實踐》,2020年7月出版。
未經出版社或作者書面授權,禁止轉載,違者追究法律責任
題圖來自 Unsplash,基於 CC0 協議