從猜詞小遊戲認識Word2Vec

2022-04-01 由伯國平發佈於科技

Alex 發自凹非寺

量子位 | 公眾號 QbitAI

來和你的計算機玩個猜詞遊戲嗎？

這個叫Pimantle的猜詞遊戲，規則很簡單：

隨便輸入一個單詞，如果它越接近謎底，就會離下圖的中心點越近。

在完全沒有範圍限制和人工提示的情況下，通過計算機反饋的輔助，網友給出的最接近預設詞的是“delicatessen”（熟食），與謎底相似度已經達到了79.20。

不過，友友們是否好奇——這麼多次猜測背後，計算機是怎麼判斷單詞之間的“相似度”的啊？

其實，這是基於NLP領域的一個常用工具——Word2Vec。

顧名思義，它可以將單詞轉換成向量形式，來輔助計算機判斷詞義。

Word2Vec是Tomas Mikolov等人於2013年提出的一個詞嵌入生成方法。

它在潛在語義分析等方面優於之前的算法，在判斷文本相似度、系統推薦、觀點分析等方面都具有廣泛的應用。

一名研究機器學習的工程師Vatsal在Towards Data Science發佈了一篇介紹Word2Vec的文章，並收穫了相當不錯的關注度。

這篇帖子在Towards Data Science上收穫了1300+贊，Hackernews上2天之內收穫了107熱度。

網友表示：這是一篇很不錯的入門介紹，包含了足夠的細節和參考資料。

下面我們就跟隨這位小哥一起來認識詞嵌入和Word2Vec吧！

Word2Vec的基本原理

在介紹Word2Vec前，先來説説什麼是詞嵌入。

單詞嵌入是將單個自然語言單詞在預設的向量空間表示為矢量的技術總稱，通過映射得到向量的編碼過程被稱為嵌入，而這些向量可作為後續任務中神經網絡模型的輸入。

例如，某個文本中包含“have”,“a”，“good”，“day”等詞，這些詞映射到向量空間中，表示為不同的向量。

機器可以通過向量內積空間夾角的餘弦值來判斷對應單詞的語義相似度。

當給定了足夠大的數據集，Word2Vec可以根據單詞在文本中的出現情況，對單詞的意思進行判斷，評價結果會與語料庫中其他單詞產生聯繫。

此外，Word2Vec還可以做類比。例如，“國王”和“女王”算是相似度很高的詞語。v(“國王”)－v(“男性”)＋v(“女性”)≈v(“女王”)

有了這些運算，機器也可以像人一樣“理解”詞彙的意思了。

Word2Vec的兩種訓練模式

Word2Vec包含兩種訓練模式，分別是Continous Bag of Words（連續詞袋模型）和skip-gram。

其中，CBOW是通過給定的上下文，預測當前詞。

如下圖所示，w\left( t \right)表示當前單詞，w\left( t-? \right)表示前文的單詞，w\left( t +?\right)表示後文的單詞。

skip-gram則是將當前單詞作為輸入，去預測上下文的詞。

研究者們發現，在詞彙向量範圍增大的情況下，預測質量會有所提高，但計算複雜度也會增高。

對Skip-gram訓練過程的可視化描述。

可見，當給定了文本語料庫，目標詞是在某個滾動窗口中選擇的。目標詞和窗口中的其他單詞分別組合，形成神經網絡的訓練數據。

通過對模型進行訓練，可以基本得到某個詞作為給定目標上下文單詞的概率。

上文介紹了Word2Vec的基本原理，那麼這個詞嵌入法還有什麼應用或延伸嗎？

Word2Vec的延伸：XXX2Vec

你是否做過MBTI人格測試，或者五大人格特質測試？

這些測試會給參與者一系列問題，然後給不同的幾個指標打分，例如：內向-外向。

假設滿分為100分，某人外向性指標的最終得分為38/100。可以用這種方式繪圖：

下面把範圍收縮到-1到1：

如果再加上另一個指標，如負責性，那麼需要再添加一個座標軸。

當我們把前文所示的五個主要的人格特徵都進行統計分析，會得到：

我們可以對不同的人進行測試，並收集測試結果，如：

Word2Vec可以比較不同單詞的意思，同理，我們可以運用向量餘弦相似度比較不同個體的個

性：

顯然，Jay和另一個“測試者1”的性格更相似。

上文展示了將性格向量化，即Personality2Vec。

其實近年來，已經衍生出了2vec的不同變種，例如有的利用段落信息，有的利用整個文本的信息，有的則是在更高維度的item上進行2vec操作。

其中，Paragraph2vec基於CBOW，把段落的ID作為屬性也納入計算當中。

深度學習的表徵能力很好，但是工程師們需要耗費大量的時間來選擇特徵。

未來應該會有更多的*2Vec誕生，在一個概念比較抽象、複雜時，通過向量化進入另外一個N維空間也許會帶給人們一些啓發。

看到這裏，你是否想試試文章開頭提到的猜詞遊戲？萬一中了呢？：）

遊戲鏈接：

https://semantle.pimanrul.es/

參考鏈接：

[1]. https://towardsdatascience.com/Word2Vec-explained-49c52b4ccb71

[2]. https://jalammar.github.io/illustrated-Word2Vec/

— 完 —

量子位 QbitAI · 頭條號簽約

轉載請註明：從猜詞小遊戲認識Word2Vec - 楠木軒

電從何處來？電博士製作“手搖機”帶小學生探秘

發佈於: 綜合2023-11-05標籤: 小朋友們曲陽第四小學楊忠光基本原理

圖説：楊忠光為同學們講解和演示來源/採訪對象供圖（下同）11月4日中午，國網上海電科院電博士“電力百事通”志願服務團隊成員楊忠光來到曲陽第四小學，通過生動有趣的課程講解和試驗演示，將曲陽第四小學三年

用前綴un玩轉英語單詞，快樂學習，快速提高！

發佈於: 經典2023-09-09標籤: 前綴單詞快樂學習 unhappy

前綴是一個附加在單詞開頭的字母或字母組合，用來改變單詞的意思或形成新的單詞。例如，happy是一個形容詞，表示快樂的；如果我們在happy前面加上一個前綴un，就形成了一個新的形容詞unhappy，表

跟着老師學習英語，這些街上常見的單詞你絕對不能錯過！

發佈於: 經典2023-09-06標籤: 單詞意思英語促銷活動

英語是一門國際通用的語言，無論你去哪個國家旅遊、工作或者學習，都會遇到很多英語單詞。有些英語單詞是我們日常生活中經常看到或者聽到的，比如説商店、餐廳、酒店、機場等等。有些英語單詞是我們不太熟悉的，比如

comment和commend的發音大不同，區別讓你驚呆。

發佈於: 經典2023-09-01標籤: commendedcommented comment commend 單詞

英語中有很多看起來相似但發音不同的單詞，比如comment和commend。這兩個單詞的意思和用法也不一樣，所以我們不能混淆它們。那麼，我們該如何區分它們的發音呢？comment是“評論，評價”的意思

如何利用正反義詞對照記憶法輕鬆掌握英語單詞的含義和用法？

發佈於: 經典2023-08-28標籤: 正反義詞對照記憶法正反義詞單詞同義詞

正反義詞對照記憶法是一種有效的英語單詞記憶技巧，它利用了人類大腦對對比和反差的敏感性，通過將相反或相似的意義的單詞放在一起記憶，加深了對單詞含義和用法的理解和印象。這種方法不僅可以提高記憶效率，還可以

拼讀法讓我輕鬆掌握英語發音和拼寫，這些技巧讓你也能做到！

發佈於: 經典2023-08-22標籤: 英語拼讀法字母單詞

拼讀法是一種學習英語單詞的方法，它可以幫助你記住單詞的發音和拼寫。拼讀法的基本思想是，每個英語音標都可以用一種或多種字母組合來表示，每個字母組合也可以有一種或多種發音。例如，音標[a:]可以用a, a

從act開始玩轉英語單詞！一篇文章教你10個常用且有趣的英語單詞

發佈於: 經典2023-08-18標籤: 單詞聯想英語後綴

英語單詞是英語學習的基礎，但是很多人覺得記單詞很枯燥，很難堅持。其實，記單詞並不一定要用死記硬背的方法，有一些巧妙的技巧可以讓你輕鬆記住單詞，並且有趣有效。教你從act開始，一口氣學10個單詞，準備好

如何用關聯法學習英語單詞heart和它的延伸詞？

發佈於: 經典2023-08-16標籤: 單詞意思心臟 breakbreak

教你一個小技巧，就是如何記憶英語單詞heart。這個單詞的意思是心臟，也可以表示愛情或感情。它的發音是[hɑːt]，和hard很像，只是最後一個字母不同。如何記住這個單詞呢？我有一個方法，就是多記好幾

以in開頭的英語單詞有什麼特點？教你一個小技巧。

發佈於: 經典2023-08-16標籤: 單詞動詞 informthepolice anychanges

教你一個小技巧，讓你輕鬆記住10個以in開頭的單詞。這些單詞都和in有關，表示在…裏面，進入，或者不…的意思。你準備好了嗎？讓我們開始吧！介紹一個很有用的單詞，就是in。它可以作為介詞，表示在某個地方

一個簡單有效的英語單詞記憶技巧：從out出發擴展單詞網絡

發佈於: 經典2023-08-16標籤: 單詞英語含義新的意思

你是否經常為記不住英語單詞而苦惱？你是否想要找到一種高效的記憶方法，讓你的英語學習更輕鬆？告訴你一個簡單而有效的小技巧，讓你從一個單詞開始，記住更多的單詞，並且掌握它們的含義和用法。這個小技巧就是利用

地圖、國家、城市……一張圖教你記住8個英語單詞

發佈於: 經典2023-08-15標籤: 單詞部分圖像房子

你知道嗎？有一種學習英語單詞的方法，可以讓你記得更牢固，也更有趣。那就是聯想記憶法。這種方法需要動用你的想象力和發散能力，是一種非常有趣的學習方法。今天，我要帶你從一個簡單的單詞開始，一口氣學習8個和

如何用K開頭的單詞來玩轉英語拼寫遊戲？

發佈於: 經典2023-08-15標籤: 單詞英語遊戲字母

今天我要和大家分享一個學習英語單詞的好方法，那就是從K開始學習。你們可能會問，為什麼要從K開始呢？K不是一個很少見的字母嗎？它有什麼好處呢？其實，K這個字母非常有魔力，它可以幫助我們記住很多有意義和有

從dream開始，學會發音規則，輕鬆記住英語單詞

發佈於: 經典2023-08-15標籤: 單詞英語發音規則規則

你是否經常遇到這樣的困擾：看到一個英語單詞，不知道怎麼讀；聽到一個英語單詞，不知道怎麼寫？如果你想提高你的英語水平，記住英語單詞是非常重要的一步。但是，如何才能高效地記住英語單詞呢？英語單詞的發音和拼

記英語單詞不再難，還能發現英語和中文的神秘聯繫

發佈於: 經典2023-08-14標籤: 單詞方法英語中文拼音

你是否曾經覺得英語單詞很難記住呢？你是否曾經為了背單詞而苦惱呢？你是否想要找到一種適合自己的記憶方法呢？如果你有這些困惑，那麼請繼續往下看，我會告訴你一些讓人眼前一亮的記憶方法，甚至讓你懷疑英語是不是

fl開頭的單詞有什麼秘密？教你輕鬆記住常用單詞！

發佈於: 經典2023-08-12標籤: 單詞開頭概念 toflameup

英語單詞的構成往往有一定的規律和邏輯，如果我們能夠掌握一些字母組合的特點和含義，就可以更容易地記憶和理解單詞。我們來看看以fl開頭的字母組合，它們有什麼共同點和不同點，以及如何用它們來構造和記憶一些基