楠木軒

想知道你在網上的發言,被如何分析麼?

由 機東林 發佈於 科技

編輯導語:我們平常會在網絡上發表一些自己的看法,比如某牌子新上的一款商品,我們會表達自己的意見;如果商家想知道消費者的意見,從哪裏獲取信息?如何進行分析?本篇文章就告訴你企業對評論的收集和分析。

我們日常在網上的留言評論,都會被怎麼分析利用,能產生哪些價值。

這也正好對應了數據產品的一個子類——輿情數據產品。

首先統一一下定義,我們在網上的各種留言評論包括彈幕,統統都可以歸為輿情數據的範疇,只不過在不同人眼中,有不同的應用價值。

輿情數據的應用可以粗略分為面子和裏子:

面子:主要是政府和企業,想及時知道大家的看法,尤其是有沒有罵的;以及如果有突發性事件,需要儘快的知道,最好能在初始階段就控制好源頭,不要讓事情鬧大了。

裏子:主要是企業,想知道消費者對他的品牌或者產品有什麼看法,好的壞的都可以,而且越具體越好。比如一款新車上市了,車企自我感覺良好,但消費者到底買不買帳?如果不買帳的話,到底是覺得哪兒有問題,告訴我們,我們好去改。

這種事情在前互聯網時代是怎麼搞定的呢?主要靠調研諮詢公司了,他們會擬定科學詳盡的問卷調研方案,然後通過電話或者直接出街拉人頭問問題,瞭解廣大用户的心聲。

這種做法,肉眼可見的問題就是人工成本高,需要鋪不少人力去打電話或者訪談;同時,週期也比較長,一般都是以月為單位計數;再有,就是操作空間比較大,畢竟中間隔着好幾個人工環節,你懂的。

來到互聯網時代,我們有專門針對輿情的數據產品來解決。一共5步,就可以產品化自動化的給出答案。

這其中政府的事兒不好説,所以就只重點介紹下企業是怎麼利用輿情數據,瞭解消費者對自家品牌or產品的看法。

一、構件圖譜

第一步就是構建一個圖譜,叫行業知識庫也行。這個圖譜其實並沒有很高級,一個初級的行業圖譜,一個Excel文檔可以搞定了。

它的作用很簡單,就是把那些非結構化的輿情數據,通過關鍵詞映射到標籤,轉化為結構化的、可以被統計分析的數據。

一般一個行業圖譜,都會有這4類:

品牌:顧名思義,就是一個行業裏大部分品牌的叫法,這些關鍵詞同時還能幫你框定一個行業的基本數據範圍。

細分市場:你可以理解為是跟品牌進行交叉組合的一個維度or標籤,比如汽車行業裏,車型、產地、能源類型等都可以作為細分市場,它往往是每個行業獨有的一種劃分方式。比如寶馬跟車型進行交叉組合,就可以有寶馬的suv、寶馬的轎車等不同的細分領域了。

產品:是比品牌更小的一個粒度,比如寶馬x5、奧迪a6,它的粒度已經細化到沒法再跟細分市場進行交叉組合了。

關注點:就是一般消費者會從哪些角度來評價一個品牌or產品,它可以有層級關係;比如汽車的外觀,可以進一步下鑽到具體的顏色、大燈、前臉等等。

具象一些,就是上面這個Excel截圖示例了。最關鍵的就是第一列的關鍵詞,品牌、產品、細分市場和關注點這4大類標籤都是通過這些關鍵詞進行匹配的。

比如一句話是“奧迪a1在國內價格進一步走低”,那麼它就會被打上品牌=奧迪、產品=奧迪a1、關注點=價格、車型=小型車、能源類型=傳統能源、廠商屬性=進口等一系列標籤。

可以發現,這裏面有些標籤映射關係是顯性的:比如產品和關注點,字面上提到了哪些詞,就會被打上對應的標籤;而另外一些標籤是隱性的,依靠的就是行業圖譜,這個行業圖譜的結構基本都是依賴業務專家人工搭建,但關鍵詞那列會需要很多技術支持。

比如同樣一個商品,官方有一種叫法,但消費者往往會賦予不同的暱稱,如果漏掉後者,就會遺漏很多輿情數據。

二、數據採集

有了一個框架,我們就可以滿世界的去爬數據了。

正如上文演示,我們通過關鍵詞去匹配數據,但也需要先把控一下數據的來源。

一般情況,企業都會比較重視兩微一抖,也就是微信、微博和抖音:

  • 微信指的是公眾號,這是一個很大的輿情數據來源;
  • 微博雖然大家日常很少發言了,但對於品牌宣傳來講,仍然是一個兵家必爭之地;
  • 抖音是新晉的廣告品宣投放重地,自然也不能放過。

除此之外,一些行業垂直性的論壇貼吧,也經常有高質量、大密度的討論,自然也要蒐羅進來。

這些數據怎麼來?對一些小廠商來説,只能靠爬蟲了,而且還經常會被數據的擁有方通過各種反爬蟲手段屏蔽。

所以這是個體力活,而且爬下來的數據量級很大,比如微博、公眾號、貼吧,很難做到全量的爬取,這就又要考驗存儲實力。

所以你看,自己擁有這些數據,是多麼省時省力。

而且爬的時候也要挑,也有一定策略。

比如微信公眾號吧,這裏面有大量的自媒體,文章的標題正文本身,就代表着作者的觀點,能量不小。

比如前兩年的《騰訊沒有夢想》,着實讓騰訊的公關在夢裏都得好好想想;同時,公眾號下面的精選評論,也都是網民的態度。

那麼問題就來了,有些文章,人家標題就不會有汽車啊、奧迪啊這些詞,但正文裏滿滿的都是對品牌的品頭論足,這種文章你爬不爬?

還有些文章,標題黨,蹭熱門,但正文滿不是那麼回事兒,這種文章你爬不爬?還有些文章,本來是説奔馳的,結果評論翻車跑偏了,大家都聊奧迪去了,作為奧迪的廠商爸爸,這些評論你要不要?

想想就頭大是不是?

三、數據清洗

然而更頭大的還在後面,數據清洗。

行業圖譜階段,我們通過關鍵詞,儘量多的囊括一個行業的輿情數據,但裏面有很多噪音雜質,比如上面提到的標題黨啊、還有各種廣告水軍,不把它們給清理乾淨,你就很難聽到消費者真正的聲音。

像標題黨,我們可以通過正文去輔助判斷,交給機器學習就好了,只要文章字數夠多,判斷它是否這個行業的準確性就能足夠高。

但一些評論數據就會犯難了,因為它字數少,信息量小,這就需要用到上下文關係去判斷了;一提到上下文語義識別,就很難了,機器目前真心沒法像人一樣讀懂很多句子的潛台詞以及上下的關聯。

這種例子不僅標題黨,一詞多義也是;比如紅牛,它既是飲料、又是個F1車隊、還是個球隊的名稱,這個詞要是出現在一大段文字中還好辦,也是就來一句“紅牛不錯”,你説你咋整?

好在,技術在不斷的進步,而且大數據時代嘛,大家都追求用足夠多的“好數據”淹沒稀釋那些“髒數據”,不影響大面兒上的結論就還好。

四、模型識別

進一步,非常需要用情感模型來識別消費者的評價是好是壞,而且我們的目標更高階一些,不僅僅要識別出消費者對品牌or產品的看法,還要具體到對品牌or產品的某個關注點的看法,這對情感模型也是一件頗有難度的事兒。

比如“奔馳的外觀比較大氣穩重,要是價格也能像外觀一樣就好了”,這句話裏既有品牌詞(奔馳)、也有關注點詞(外觀、價格)、還有表達情感正負向的詞(大氣穩重)。

我們人類是比較好識別出來,這句話是誇奔馳的外觀,但對它的定價略有微詞。

可對機器就比較犯難了,首先機器需要能識別出,“大氣穩重”這個褒義詞跟“外觀”是一對兒,而不是修飾“價格”的;其次,機器還需要能理解“要是xxx也能像xxx一樣就好了”這種句式,稍有不慎就會把“價格”跟“好”湊成一對,那不就滿擰了麼?

五、觀點組織

最後我們來到了數據呈現階段,很多數據產品往往就砸在這兒。

一開始就説了,廠商需要的就是清晰的告訴他們,消費者對品牌or產品的具體評價,那我們就按照品牌or產品來組織數據,並且將情感正負向與關注點交叉,讓評價能夠更具體。

除了條形佔比圖的呈現以外,廠商爸爸們還很喜歡上面這種散點圖,它是由對應分析方法畫出來的。

這個圖其實就是把二維列聯表格式的數據進行可視化處理,原始數據其實就是這麼一個Excel表格。

表格中的數字,表示同時提到某個品牌和某個關注點的數據量。

比如大家在討論寶馬的時候,經常會提及操控性和動力;在提及奔馳的時候常常把舒適性和外觀掛在嘴邊;反應在圖形上,就是寶馬距離操控性和動力兩個點會更近一些,奔馳距離舒適性和外觀兩個點會更近一些。

但這種圖也有它的問題,就是直觀有餘但量化不足;不過客户往往就喜歡這種直觀可解釋性強的東西,你要是真給他整一個深度神經網絡,還真不見得他會買單。

六、待改進的點

當然,上述的5個步驟都還有較大的提升空間,比如會在網上發表評論的用户,是不是本身就比較有偏?他們的聲音能否真正的代表廣大消費者的看法?以及,目前的機器學習對評論數據理解的準確性能否更進一步,像個人一樣去理解句子?

最後再叨叨一句輿情數據產品這個行業,其實上面的分析講解已經可以看到,這是一個相對重資產、體力活、且遊走在灰色邊緣的事兒,很大互聯網大廠看不上這塊小肉,這反倒給了很多第三方小公司一些生存空間。

不過他們有沒有不同的行業專家幫忙搭建各個行業的圖譜?能不能順利爬到足夠覆蓋率的輿情數據?爬回來之後調用那些開源的NLP能力接口能否分析的精準?最後的產品化打磨能否到位?這些點,都會影響最終的商業售賣。

作者:古牧聊數據,公眾號:古牧聊數據

本文由 @古牧聊數據 原創發佈於人人都是產品經理。未經許可,禁止轉載。

題圖來自Unsplash,基於CC0協議