北大博士生提出CAE，下游任務泛化能力優於何愷明MAE

2022-02-22由緱風彩釋出於科技

楊淨發自凹非寺

量子位 | 公眾號 QbitAI

上回說道，何愷明時隔兩年發一作論文，提出了一種視覺自監督學習新正規化——

用掩蔽自編碼器MAE，為視覺大模型開路。

這一次，北大博士生提出一個新方法CAE，在其下游任務中展現的泛化能力超過了MAE。

來看看這是一項什麼樣的研究？

這是一項什麼研究？

自何愷明提出MAE以來，基於MIM，Masked Image Modeling，這一自監督學習表徵演算法就越來越引發關注。

它的主要思路，就是對輸入影象進行分塊和隨機掩碼操作，然後對掩碼區域做預測。

預測的目標可以是Token ID（如微軟提出的BEiT），也可以是RGB值（如MAE）。

透過MIM這一方法，編碼器學習到好的表徵，從而在下游任務中取得良好的泛化效能。

以往這一方法常見於NLP領域，但隨著ViT的提出和發展，這一方法在視覺領域也取得了一些進展。

團隊認為，近期兩個代表性工作，BEiT和MAE，沒有充分挖掘編碼器encoder的潛力，限制了預訓練學習的表徵質量。

簡單來說，BEiT的編碼器只有一部分負責表徵學習，還有一部分在做“前置/代理任務”（pretext task）。

到了MAE則是另一種情況，解碼器也做了一部分表徵學習，可能讓編碼器學會“偷懶”。

基於這一背景，團隊提出了Context Autoencoder，簡稱CAE。核心設計思想是對“表徵學習”和“前置/代理任務（pretext task）這兩個功能做分離。

在預訓練時，編碼器只負責表徵學習，解碼器只負責解決前置任務，兩者分工合作，將編碼器表徵能力最大化。

CAE包含四個部分。

1、編碼器是一個ViT模型，負責學習影象可見patch的表徵，提取影象特徵Zv。

2、Latent contextual regressor（隱式上下文迴歸器）則是在此基礎上預測出掩蔽patch的表徵Zm。

3、解碼器以Zm和對應的位置編碼作為輸入，透過Zm預測掩蔽patch的某些性質，比如RGB值、Token ID。這過程中Zv不會更新，表徵學習任務全交給編碼器。

4、Latent representation alignment對 Zm新增約束，希望 latent contextual regressor 的輸出和編碼器的輸出在同一空間。具體來說，影象的掩蔽patch也將輸入到編碼器中（此過程不參與梯度反傳），獲得的這部分表徵，作為Zm的學習目標。

Alignment很重要，如果想對掩碼部分做好預測，要求latent contextual regressor 的輸出（也是解碼器的輸入）含有比較好的語義資訊。透過對齊操作，可以鼓勵編碼器的操作也含有好的語義資訊，提高編碼器的表徵質量。

論文對alignment做了視覺化：將全部patch輸入編碼器，然後將表徵直接輸入到解碼器中，進行RGB的重建。CAE可以將原圖重建出來 (第一行是原圖，第二行是重建結果)，說明編碼器的輸出和latent contextual regressor 的輸出處於同一編碼空間。

如果訓練時不做alignment約束，那麼輸出的結果將是這樣…嗯，都是亂碼。

這種設計的編碼器學到的表徵也相對更差，下游任務結果也會變差。

損失函式由兩部分組成，一個是對解碼器預測的監督，使用的是cross-entropy loss；一個是對alignment的監督，使用MSE損失函式。

除此之外，也進一步驗證了以CAE為代表的MIM方法，要比Moco v3、DINO為代表的對比學習方法更適合下游任務。

該論文從隨機裁剪操作的性質分析，認為隨機裁剪有很大機率包含影象的中心區域。

而ImageNet-1K這種資料集中，中心區域通常是1000類標籤集中的物體（如下圖）。因此，對比學習方法主要提取影象中主體物體的特徵。

而MIM方法能學到每個patch的特徵，包括影象的背景區域，而不僅僅是影象主體物體，這讓MIM學到的表徵更適合下游檢測分割任務。

論文對CAE和MoCo v3的注意力圖做了視覺化。紅色表示注意力值更高，藍色表示注意力值更低。第一行是原圖，第二行是 MoCo v3，第三行是 CAE。可以看到，MoCo v3 的注意力圖主要在影象的主體區域有高響應，而 CAE 能考慮到幾乎所有patch。

實驗結果

研究團隊使用ViT-small和ViT-base在 ImageNet-1K 上進行實驗，輸入影象的解析度224*224，每張圖被分成14*14的patch，每個patch的大小為16*16。

每次將有75個patch被隨機掩碼，其餘patch則為可見的。

本文參照BEiT，使用DALL-E tokenizer對輸入影象token化，得到預測目標。

最終結果顯示，在語義分割任務中，跟其他MIM方法，比如MAE、BEiT，以及對比學習、有監督預訓練方法的表徵結果更好。

在物體檢測、例項分割的結果也是如此。

百度CV大牛領銜

本次研究由北京大學、香港大學、百度共同完成。

第一作者是在讀博士生陳小康，來自北京大學機器感知與智慧（教育部）重點實驗室。

通訊作者是百度計算機視覺首席架構師王井東，同時也是IEEE Fellow。

在加盟百度之前，曾在微軟亞研院視覺計算組擔任首席研究員。

感興趣的旁友，可戳下方連結進一步檢視論文~

論文連結：

https://arxiv.org/abs/2202.03026

— 完 —

量子位 QbitAI · 頭條號簽約