生成模型和判定模型的內部指南

2020-10-21由万俟傲白發佈於科技

字幕組雙語原文：生成模型和判定模型的內部指南

英語原文：The Insiders’ Guide to Generative and Discriminative Machine Learning Models

翻譯：AI研習社（季一帆）

圖源：Photos Hobby，Unsplash

在本文中，我們將討論生成模型和判別模型之間的差異、形成原因及相關內容。

判別式機器學習在可能的輸出選擇中確定輸出。該過程根據給定的數據進行訓練，從而學習模型參數，以最大化聯合概率P(X,Y)。

分類有時被稱為判別模型，這有一定道理，畢竟分類模型就是要到輸入實例的類別進行判斷。

無監督模型一般會對輸入變量的分佈進行學習，並能夠根據輸入分佈創建或生成新的實例，類似這樣的模型稱為生成式模型。

對於變量分佈已知的情況，如高斯分佈。

由於生成模型能夠總結數據分佈，因此可以根據輸入變量分佈生成新變量。

在這種情況下，生成模型可能非常適合，而使用判別模型的化則會使問題複雜化，反之亦然。

例如對於條件預測任務，判別模型表現顯著優於生成模型，同時具有更好的正則性。

圖源：Tran Mau Tri Tam，Unsplash

看這樣一個例子：有Tony和Mark兩個小朋友，他們要在寵物商店中分辨出小貓和小狗。對於寵物，我們假定它們包含顏色、大小、眼睛顏色、毛髮長短和叫聲等特徵。

給Mark兩張照片，一張是貓，一張是狗，Mark要做出判斷。他想到可以根以下條件進行判斷：如果叫聲是“喵喵”、眼睛是藍色或綠色、具有褐色或黑色的條紋，則大概率會是貓。根據這樣的簡單規則，Mark可以容易的識別出貓或狗。

Tony的任務可沒這麼簡單。不是要他判斷圖片中是貓還是狗，而是要在兩張白紙上畫出貓和狗的樣子。Tony能夠畫出貓和狗的樣子，那麼給他展示圖片，他也很容易的區分出圖中是貓還是狗。可以看到，相比Mark的方法，Tony的方法更加耗時。

假設只有貓狗兩種寵物。如果一張圖片上是藍眼睛、棕色條紋的狗，那麼Mark可能會將其標記為貓，但Tony可以判斷出圖片中一定是狗。

如果Tony對貓和狗的特徵瞭解的更多，他能夠繪製出更詳細準確的圖畫。但是，如果提供足夠多的貓狗數據集，那麼Mark會表現得更好。

Mark的判斷方法就是認真的觀察，總結能夠區分的特徵，但過多的複雜特徵會導致過擬合，但Tony不會遇到這種情況。

如果在訪問寵物商店之前，他們沒有任何信息呢？也就是説只提供未標註的數據。這種情況下，Mark完全不知道該怎麼做，Tony也判別不出什麼（因為他不知道“貓”“狗”這兩個類別），但至少Tony可以根據看到的貓和狗去畫圖，這難道不是巨大的優勢嗎？半監督就是如此。

在上述例子中，Mark就是判別式方法，而Tony代表生成式方法。

圖源：Morning Brew，Unsplash

再看另一個例子，將語音分類為語言模型。

判別式方法重點在區別語言模型間的差異。無需學習語言就可實現語音分類。而生成式方法需要學習每種語言，根據學習到的知識進行分類。

圖源：Antoine Dautry，Unsplash

數學上的區別

判別式機器學習訓練模型在可能的輸出選項中選擇正確輸出，通過訓練學習使條件概率P（Y | X）最大化的模型參數。

生成式機器學習則是通過訓練學習使聯合概率P（X，Y）最大化的模型參數。通常可以由P（Y）和P（X | Y）得到聯合概率，當前前提是P（Y）和P（X | Y）條件獨立。

圖源：Markus Spiske，Unsplash

判別式模型

邏輯迴歸
隨機森林
支持向量機
經典神經網絡
最近鄰

生成式模型

隱馬爾科夫模型
樸素貝葉斯
貝葉斯網絡
混合高斯模型

圖源：Jon Tyson，Unsplash

為更好的理解，試着以下幾個問題：（1 判別式；2 生成式）

哪種模型需要較少的訓練數據？1
哪種模型能夠生成數據？2
什麼時候使用某類模型？
哪種模型對異常值更敏感？2
哪種模型容易過擬合？1
哪種模型訓練時間短？1
哪種模型直接學習條件概率？1
在不確定情況下，哪種模型更好？2
當特徵存在關聯時，哪種模型更好？2
哪種模型具有更好的可解釋性？2
分類問題中，哪種模型準確率高？1
對於未標註數據使用哪種模型？2
如果是標註數據哪種模型更好？1
哪種模型簡單，訓練速度更快？1

圖源：Photos Hobby，Unsplash

GAN
生成對抗網絡（GAN）同時訓練生成器和判別器，具體而言，生成器生成一批樣本，這些樣本與真實數據集一起提供給判別器進行分類。

判別式分類器的缺陷

它缺乏先驗性，結構性和不確定性
黑盒子，變量之間的關係無法觀測

<ahelp_7" name="help_7">

圖源：Austin Distel，Unsplash

結論

機器學習模型一般分為生成式和判別式兩類，其中，生成式模型主要涉及建模操作，判別式模型一般用於分類問題。一般而言，生成式模型更具有解釋力。

模型並不是越大越好、參數越多越好。更新更多參數意味着更長的訓練時間、內存和計算量。一般而言，判別式模型有更好的正則性。

生成式模型所需的數據一般要比判別式模型更少。

參考文獻

· Yogatama, D., Dyer, C., Ling, W., and Blunsom, P., 2017. Generative and discriminative text classification with recurrent neural networks. arXiv preprint arXiv:1703.01898.

· Lasserre, J.A., Bishop, C.M. and Minka, T.P., 2006, June. Principled hybrids of generative and discriminative models. In 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’06) (Vol. 1, pp. 87–94). IEEE.

· Wang, K., Zong, C., and Su, K.Y., 2012. Integrating generative and discriminative character-based models for Chinese word segmentation. ACM Transactions on Asian Language Information Processing (TALIP), 11(2), pp.1–41.

<ahelp_8" name="help_8">

· Prasad, A., Niculescu-Mizil, A., and Ravikumar, P.K., 2017. On separability of loss functions, and revisiting discriminative vs. generative models. In Advances in Neural Information Processing Systems (pp. 7050–7059).

最後，歡迎在Twitter和Linkedin上發表您的想法！你覺得本文對你有幫助嗎？歡迎交流分享，聯繫方式@SauravSingla_08和Saurav_Singla！

雷鋒字幕組是一個由 AI 愛好者組成的翻譯團隊，匯聚五百多位志願者的力量，分享最新的海外AI資訊，交流關於人工智能技術領域的行業變革與技術創新的見解。

團隊成員有大數據專家、算法工程師、圖像處理工程師、產品經理、產品運營、IT諮詢人、在校師生；志願者們來自IBM、AVL、Adobe、阿里、百度等知名企業，北大、清華、港大、中科院、南卡羅萊納大學、早稻田大學等海內外高校研究所。

如果，你也是位熱愛分享的AI愛好者。歡迎與雷鋒字幕組一起，學習新知，分享成長。