想知道你在網上的發言，被如何分析麼？

2020-08-01由機東林發佈於科技

編輯導語：我們平常會在網絡上發表一些自己的看法，比如某牌子新上的一款商品，我們會表達自己的意見；如果商家想知道消費者的意見，從哪裏獲取信息？如何進行分析？本篇文章就告訴你企業對評論的收集和分析。

我們日常在網上的留言評論，都會被怎麼分析利用，能產生哪些價值。

這也正好對應了數據產品的一個子類——輿情數據產品。

首先統一一下定義，我們在網上的各種留言評論包括彈幕，統統都可以歸為輿情數據的範疇，只不過在不同人眼中，有不同的應用價值。

輿情數據的應用可以粗略分為面子和裏子：

面子：主要是政府和企業，想及時知道大家的看法，尤其是有沒有罵的；以及如果有突發性事件，需要儘快的知道，最好能在初始階段就控制好源頭，不要讓事情鬧大了。

裏子：主要是企業，想知道消費者對他的品牌或者產品有什麼看法，好的壞的都可以，而且越具體越好。比如一款新車上市了，車企自我感覺良好，但消費者到底買不買帳？如果不買帳的話，到底是覺得哪兒有問題，告訴我們，我們好去改。

這種事情在前互聯網時代是怎麼搞定的呢？主要靠調研諮詢公司了，他們會擬定科學詳盡的問卷調研方案，然後通過電話或者直接出街拉人頭問問題，瞭解廣大用户的心聲。

這種做法，肉眼可見的問題就是人工成本高，需要鋪不少人力去打電話或者訪談；同時，週期也比較長，一般都是以月為單位計數；再有，就是操作空間比較大，畢竟中間隔着好幾個人工環節，你懂的。

來到互聯網時代，我們有專門針對輿情的數據產品來解決。一共5步，就可以產品化自動化的給出答案。

這其中政府的事兒不好説，所以就只重點介紹下企業是怎麼利用輿情數據，瞭解消費者對自家品牌or產品的看法。

一、構件圖譜

第一步就是構建一個圖譜，叫行業知識庫也行。這個圖譜其實並沒有很高級，一個初級的行業圖譜，一個Excel文檔可以搞定了。

它的作用很簡單，就是把那些非結構化的輿情數據，通過關鍵詞映射到標籤，轉化為結構化的、可以被統計分析的數據。

一般一個行業圖譜，都會有這4類：

品牌：顧名思義，就是一個行業裏大部分品牌的叫法，這些關鍵詞同時還能幫你框定一個行業的基本數據範圍。

細分市場：你可以理解為是跟品牌進行交叉組合的一個維度or標籤，比如汽車行業裏，車型、產地、能源類型等都可以作為細分市場，它往往是每個行業獨有的一種劃分方式。比如寶馬跟車型進行交叉組合，就可以有寶馬的suv、寶馬的轎車等不同的細分領域了。

產品：是比品牌更小的一個粒度，比如寶馬x5、奧迪a6，它的粒度已經細化到沒法再跟細分市場進行交叉組合了。

關注點：就是一般消費者會從哪些角度來評價一個品牌or產品，它可以有層級關係；比如汽車的外觀，可以進一步下鑽到具體的顏色、大燈、前臉等等。

具象一些，就是上面這個Excel截圖示例了。最關鍵的就是第一列的關鍵詞，品牌、產品、細分市場和關注點這4大類標籤都是通過這些關鍵詞進行匹配的。

比如一句話是“奧迪a1在國內價格進一步走低”，那麼它就會被打上品牌=奧迪、產品=奧迪a1、關注點=價格、車型=小型車、能源類型=傳統能源、廠商屬性=進口等一系列標籤。

可以發現，這裏面有些標籤映射關係是顯性的：比如產品和關注點，字面上提到了哪些詞，就會被打上對應的標籤；而另外一些標籤是隱性的，依靠的就是行業圖譜，這個行業圖譜的結構基本都是依賴業務專家人工搭建，但關鍵詞那列會需要很多技術支持。

比如同樣一個商品，官方有一種叫法，但消費者往往會賦予不同的暱稱，如果漏掉後者，就會遺漏很多輿情數據。

二、數據採集

有了一個框架，我們就可以滿世界的去爬數據了。

正如上文演示，我們通過關鍵詞去匹配數據，但也需要先把控一下數據的來源。

一般情況，企業都會比較重視兩微一抖，也就是微信、微博和抖音：

微信指的是公眾號，這是一個很大的輿情數據來源；
微博雖然大家日常很少發言了，但對於品牌宣傳來講，仍然是一個兵家必爭之地；
抖音是新晉的廣告品宣投放重地，自然也不能放過。

除此之外，一些行業垂直性的論壇貼吧，也經常有高質量、大密度的討論，自然也要蒐羅進來。

這些數據怎麼來？對一些小廠商來説，只能靠爬蟲了，而且還經常會被數據的擁有方通過各種反爬蟲手段屏蔽。

所以這是個體力活，而且爬下來的數據量級很大，比如微博、公眾號、貼吧，很難做到全量的爬取，這就又要考驗存儲實力。

所以你看，自己擁有這些數據，是多麼省時省力。

而且爬的時候也要挑，也有一定策略。

比如微信公眾號吧，這裏面有大量的自媒體，文章的標題正文本身，就代表着作者的觀點，能量不小。

比如前兩年的《騰訊沒有夢想》，着實讓騰訊的公關在夢裏都得好好想想；同時，公眾號下面的精選評論，也都是網民的態度。

那麼問題就來了，有些文章，人家標題就不會有汽車啊、奧迪啊這些詞，但正文裏滿滿的都是對品牌的品頭論足，這種文章你爬不爬？

還有些文章，標題黨，蹭熱門，但正文滿不是那麼回事兒，這種文章你爬不爬？還有些文章，本來是説奔馳的，結果評論翻車跑偏了，大家都聊奧迪去了，作為奧迪的廠商爸爸，這些評論你要不要？

想想就頭大是不是？

三、數據清洗

然而更頭大的還在後面，數據清洗。

行業圖譜階段，我們通過關鍵詞，儘量多的囊括一個行業的輿情數據，但裏面有很多噪音雜質，比如上面提到的標題黨啊、還有各種廣告水軍，不把它們給清理乾淨，你就很難聽到消費者真正的聲音。

像標題黨，我們可以通過正文去輔助判斷，交給機器學習就好了，只要文章字數夠多，判斷它是否這個行業的準確性就能足夠高。

但一些評論數據就會犯難了，因為它字數少，信息量小，這就需要用到上下文關係去判斷了；一提到上下文語義識別，就很難了，機器目前真心沒法像人一樣讀懂很多句子的潛台詞以及上下的關聯。

這種例子不僅標題黨，一詞多義也是；比如紅牛，它既是飲料、又是個F1車隊、還是個球隊的名稱，這個詞要是出現在一大段文字中還好辦，也是就來一句“紅牛不錯”，你説你咋整？

好在，技術在不斷的進步，而且大數據時代嘛，大家都追求用足夠多的“好數據”淹沒稀釋那些“髒數據”，不影響大面兒上的結論就還好。

四、模型識別

進一步，非常需要用情感模型來識別消費者的評價是好是壞，而且我們的目標更高階一些，不僅僅要識別出消費者對品牌or產品的看法，還要具體到對品牌or產品的某個關注點的看法，這對情感模型也是一件頗有難度的事兒。

比如“奔馳的外觀比較大氣穩重，要是價格也能像外觀一樣就好了”，這句話裏既有品牌詞（奔馳）、也有關注點詞（外觀、價格）、還有表達情感正負向的詞（大氣穩重）。

我們人類是比較好識別出來，這句話是誇奔馳的外觀，但對它的定價略有微詞。

可對機器就比較犯難了，首先機器需要能識別出，“大氣穩重”這個褒義詞跟“外觀”是一對兒，而不是修飾“價格”的；其次，機器還需要能理解“要是xxx也能像xxx一樣就好了”這種句式，稍有不慎就會把“價格”跟“好”湊成一對，那不就滿擰了麼？

五、觀點組織

最後我們來到了數據呈現階段，很多數據產品往往就砸在這兒。

一開始就説了，廠商需要的就是清晰的告訴他們，消費者對品牌or產品的具體評價，那我們就按照品牌or產品來組織數據，並且將情感正負向與關注點交叉，讓評價能夠更具體。

除了條形佔比圖的呈現以外，廠商爸爸們還很喜歡上面這種散點圖，它是由對應分析方法畫出來的。

這個圖其實就是把二維列聯表格式的數據進行可視化處理，原始數據其實就是這麼一個Excel表格。

表格中的數字，表示同時提到某個品牌和某個關注點的數據量。

比如大家在討論寶馬的時候，經常會提及操控性和動力；在提及奔馳的時候常常把舒適性和外觀掛在嘴邊；反應在圖形上，就是寶馬距離操控性和動力兩個點會更近一些，奔馳距離舒適性和外觀兩個點會更近一些。

但這種圖也有它的問題，就是直觀有餘但量化不足；不過客户往往就喜歡這種直觀可解釋性強的東西，你要是真給他整一個深度神經網絡，還真不見得他會買單。

六、待改進的點

當然，上述的5個步驟都還有較大的提升空間，比如會在網上發表評論的用户，是不是本身就比較有偏？他們的聲音能否真正的代表廣大消費者的看法？以及，目前的機器學習對評論數據理解的準確性能否更進一步，像個人一樣去理解句子？

最後再叨叨一句輿情數據產品這個行業，其實上面的分析講解已經可以看到，這是一個相對重資產、體力活、且遊走在灰色邊緣的事兒，很大互聯網大廠看不上這塊小肉，這反倒給了很多第三方小公司一些生存空間。

不過他們有沒有不同的行業專家幫忙搭建各個行業的圖譜？能不能順利爬到足夠覆蓋率的輿情數據？爬回來之後調用那些開源的NLP能力接口能否分析的精準？最後的產品化打磨能否到位？這些點，都會影響最終的商業售賣。

作者：古牧聊數據，公眾號：古牧聊數據

本文由 @古牧聊數據原創發佈於人人都是產品經理。未經許可，禁止轉載。

題圖來自Unsplash，基於CC0協議