楠木軒

生成模型和判定模型的內部指南

由 万俟傲白 發佈於 科技

字幕組雙語原文:生成模型和判定模型的內部指南

英語原文:The Insiders’ Guide to Generative and Discriminative Machine Learning Models

翻譯:AI研習社(季一帆)



圖源:Photos Hobby,Unsplash

在本文中,我們將討論生成模型和判別模型之間的差異、形成原因及相關內容。

判別式機器學習在可能的輸出選擇中確定輸出。該過程根據給定的數據進行訓練,從而學習模型參數,以最大化聯合概率P(X,Y)。

分類有時被稱為判別模型,這有一定道理,畢竟分類模型就是要到輸入實例的類別進行判斷。

無監督模型一般會對輸入變量的分佈進行學習,並能夠根據輸入分佈創建或生成新的實例,類似這樣的模型稱為生成式模型。

對於變量分佈已知的情況,如高斯分佈

由於生成模型能夠總結數據分佈,因此可以根據輸入變量分佈生成新變量。

在這種情況下,生成模型可能非常適合,而使用判別模型的化則會使問題複雜化,反之亦然。

例如對於條件預測任務,判別模型表現顯著優於生成模型,同時具有更好的正則性。


圖源:Tran Mau Tri Tam,Unsplash

看這樣一個例子:有Tony和Mark兩個小朋友,他們要在寵物商店中分辨出小貓和小狗。對於寵物,我們假定它們包含顏色、大小、眼睛顏色、毛髮長短和叫聲等特徵。

給Mark兩張照片,一張是貓,一張是狗,Mark要做出判斷。他想到可以根以下條件進行判斷:如果叫聲是“喵喵”、眼睛是藍色或綠色、具有褐色或黑色的條紋,則大概率會是貓。根據這樣的簡單規則,Mark可以容易的識別出貓或狗。

Tony的任務可沒這麼簡單。不是要他判斷圖片中是貓還是狗,而是要在兩張白紙上畫出貓和狗的樣子。Tony能夠畫出貓和狗的樣子,那麼給他展示圖片,他也很容易的區分出圖中是貓還是狗。可以看到,相比Mark的方法,Tony的方法更加耗時。

假設只有貓狗兩種寵物。如果一張圖片上是藍眼睛、棕色條紋的狗,那麼Mark可能會將其標記為貓,但Tony可以判斷出圖片中一定是狗。

如果Tony對貓和狗的特徵瞭解的更多,他能夠繪製出更詳細準確的圖畫。但是,如果提供足夠多的貓狗數據集,那麼Mark會表現得更好。

Mark的判斷方法就是認真的觀察,總結能夠區分的特徵,但過多的複雜特徵會導致過擬合,但Tony不會遇到這種情況。

如果在訪問寵物商店之前,他們沒有任何信息呢?也就是説只提供未標註的數據。這種情況下,Mark完全不知道該怎麼做,Tony也判別不出什麼(因為他不知道“貓”“狗”這兩個類別),但至少Tony可以根據看到的貓和狗去畫圖,這難道不是巨大的優勢嗎?半監督就是如此。

在上述例子中,Mark就是判別式方法,而Tony代表生成式方法。


圖源:Morning BrewUnsplash

再看另一個例子,將語音分類為語言模型。

判別式方法重點在區別語言模型間的差異。無需學習語言就可實現語音分類。而生成式方法需要學習每種語言,根據學習到的知識進行分類。


圖源:Antoine DautryUnsplash

數學上的區別

判別式機器學習訓練模型在可能的輸出選項中選擇正確輸出,通過訓練學習使條件概率P(Y | X)最大化的模型參數。

生成式機器學習則是通過訓練學習使聯合概率P(X,Y)最大化的模型參數。通常可以由P(Y)和P(X | Y)得到聯合概率,當前前提是P(Y)和P(X | Y)條件獨立。


圖源:Markus SpiskeUnsplash

判別式模型

  • 邏輯迴歸

  • 隨機森林

  • 支持向量機

  • 經典神經網絡

  • 最近鄰

生成式模型

  • 隱馬爾科夫模型

  • 樸素貝葉斯

  • 貝葉斯網絡

  • 混合高斯模型


圖源:Jon TysonUnsplash

為更好的理解,試着以下幾個問題:(1 判別式;2 生成式)

  • 哪種模型需要較少的訓練數據?1

  • 哪種模型能夠生成數據?2

  • 什麼時候使用某類模型?

  • 哪種模型對異常值更敏感?2

  • 哪種模型容易過擬合?1

  • 哪種模型訓練時間短?1

  • 哪種模型直接學習條件概率?1

  • 在不確定情況下,哪種模型更好?2

  • 當特徵存在關聯時,哪種模型更好?2

  • 哪種模型具有更好的可解釋性?2

  • 分類問題中,哪種模型準確率高?1

  • 對於未標註數據使用哪種模型?2

  • 如果是標註數據哪種模型更好?1

  • 哪種模型簡單,訓練速度更快?1


圖源:Photos HobbyUnsplash

GAN
生成對抗網絡(GAN)同時訓練生成器和判別器,具體而言,生成器生成一批樣本,這些樣本與真實數據集一起提供給判別器進行分類。

判別式分類器的缺陷

  • 它缺乏先驗性,結構性和不確定性

  • 黑盒子,變量之間的關係無法觀測

<ahelp_7" name="help_7">

圖源:Austin Distel,Unsplash

結論

機器學習模型一般分為生成式和判別式兩類,其中,生成式模型主要涉及建模操作,判別式模型一般用於分類問題。一般而言,生成式模型更具有解釋力。

模型並不是越大越好、參數越多越好。更新更多參數意味着更長的訓練時間、內存和計算量。一般而言,判別式模型有更好的正則性。

生成式模型所需的數據一般要比判別式模型更少。

參考文獻

· Yogatama, D., Dyer, C., Ling, W., and Blunsom, P., 2017. Generative and discriminative text classification with recurrent neural networks. arXiv preprint arXiv:1703.01898.

· Lasserre, J.A., Bishop, C.M. and Minka, T.P., 2006, June. Principled hybrids of generative and discriminative models. In 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’06) (Vol. 1, pp. 87–94). IEEE.

· Wang, K., Zong, C., and Su, K.Y., 2012. Integrating generative and discriminative character-based models for Chinese word segmentation. ACM Transactions on Asian Language Information Processing (TALIP), 11(2), pp.1–41.

<ahelp_8" name="help_8">

· Prasad, A., Niculescu-Mizil, A., and Ravikumar, P.K., 2017. On separability of loss functions, and revisiting discriminative vs. generative models. In Advances in Neural Information Processing Systems (pp. 7050–7059).

最後,歡迎在Twitter和Linkedin上發表您的想法!你覺得本文對你有幫助嗎?歡迎交流分享,聯繫方式@SauravSingla_08和Saurav_Singla!


雷鋒字幕組是一個由 AI 愛好者組成的翻譯團隊,匯聚五百多位志願者的力量,分享最新的海外AI資訊,交流關於人工智能技術領域的行業變革與技術創新的見解。

團隊成員有大數據專家、算法工程師、圖像處理工程師、產品經理、產品運營、IT諮詢人、在校師生;志願者們來自IBM、AVL、Adobe、阿里、百度等知名企業,北大、清華、港大、中科院、南卡羅萊納大學、早稻田大學等海內外高校研究所。

如果,你也是位熱愛分享的AI愛好者。歡迎與雷鋒字幕組一起,學習新知,分享成長。