楠木軒

把大核卷積拆成三步,清華胡事民團隊新視覺Backbone刷榜三大任務

由 寸建宇 發佈於 科技

夢晨 發自 凹非寺

量子位 | 公眾號 QbitAI

在視覺任務上,CNN、ViT各有各的優勢和劣勢。

於是,以經典Backbone為基礎、細節上相互借鑑,成了最近一個熱門研究方向。

前有微軟SwinTransformer引入CNN的滑動窗口等特性,刷榜下游任務並獲馬爾獎。

後有Meta AI的ConvNeXT用ViT上的大量技巧魔改ResNet後實現性能反超。

現在一種全新Backbone——VAN(Visiual Attention Network, 視覺注意力網絡)再次引起學界關注。

因為新模型再一次刷榜三大視覺任務,把上面那兩位又都給比下去了。

VAN號稱同時吸收了CNN和ViT的優勢且簡單高效,精度更高的同時參數量和計算量還更小。

VAN來自清華計圖胡事民團隊,他們提出一個標準大核卷積可以拆解成三部分

深度卷積(DW-Conv)、深度擴張卷積(DW-D-Conv)和1 × 1卷積(1 × 1 Conv)

更關鍵的是,再加上一步element-wise相乘可以獲得類似注意力的效果,團隊把新的卷積模塊命名為大核注意力LKA(Large Kernel Attention)

論文最後還提到,現在的VAN只是一個直覺的原始版本、沒有仔細打磨,也就是説後續還有很大提升潛力。

(代碼已開源,地址在文末)

拆解大核卷積能算注意力

注意力機制,可以理解為一種自適應選擇過程,能根據輸入辨別出關鍵特徵並自動忽略噪聲。

關鍵步驟是學習輸入數據的長距離依賴,生成注意力圖

有兩種常用方法來生成注意圖。

第一種是從NLP來的自注意力機制,但用在視覺上還有一些不足,比如把圖像轉換為一維序列會忽略其二維結構。

第二種是視覺上的大核卷積方法,但計算開銷又太大。

為克服上面的問題,團隊提出的LKA方法把大核卷積拆解成三部分。

設擴張間隔為d,一個K x K的卷積可以拆解成K/d x K/d的深度擴張卷積,一個(2d − 1) × (2d − 1)的深度卷積核一個1 x 1的point-wise卷積。

△c為通道(channel)

這樣做,在捕捉到長距離依賴的同時節省了計算開銷,進一步可以生成注意力圖。

LKA方法不僅綜合了卷積和自注意力的優勢,還額外獲得了通道適應性。

在CNN裏,LKA方法與MobileNet的兩部分拆解法類似,增加的深度擴張卷積可以捕獲長距離依賴。

與ViT相比,解決了自注意力的二次複雜度對高分辨率圖像計算代價太大的問題,

MLP架構中的gMLP也引入了注意力機制,但只能處理固定分辨率的圖像,且只關注了全局特徵,忽略了圖像的局部結構。

從理論上來説,LKA方法綜合了各方優勢,同時克服了上述缺點。

那麼,實際效果如何?

新Backbone刷榜三大任務

根據LKA方法設計的新Backbone網絡VAN,延續了經典的四階段設計,具體配置如下。

每個階段的結構如圖所示,其中下采樣率由步長控制,CFF代表卷積前饋網絡( convolutional feed-forward network)

假輸入和輸出擁有相等的寬高和通道數,可以算出計算複雜性。

其中當卷積核大小(K)為21時,擴張間隔(d)取3可以讓參數量最小,便以此為默認配置。

團隊認為按此配置對於全局特徵和局部特徵的提取效果都比較理想。

最終,在ImageNet上不同規模的VAN精度都超過了各類CNN、ViT和MLP。

在COCO 2017目標檢測任務上,以VAN為Backbone應用多種檢測方法也都領先。

ADE20K語意分割任務上同樣如此。

而且正如前文所述,VAN未經仔細打磨就已刷榜三大任務,後續還有提升空間。

對於今後的改進方向,團隊表示可能會嘗試更大的卷積核,引入來自Res2Net的多尺度結構,或者Inception中的多分支結構

另外用VAN做圖像自監督學習和遷移學習,甚至能否做NLP都有待後續探索。

作者介紹

這篇論文來自清華大學計算機系胡事民團隊。

胡事民教授是清華計圖框架團隊的負責人,計圖框架則是首個由中國高校開源的深度學習框架。

一作博士生國孟昊,現就讀於清華大學計算機系,也是計圖團隊的成員。

這次論文的代碼已經開源,並且提供了Pytorch版和計圖框架兩種版本。

該團隊之前有一篇視覺注意力的綜述,還成了arXiv上的爆款

配套的GitHub倉庫視覺注意力論文大合集Awesome-Vision-Attentions也有1.2k星。

最後八卦一下,莫非是團隊研究遍了各種視覺注意力機制後,碰撞出這個新的思路?

也是666了。

論文地址:

https://arxiv.org/abs/2202.09741

GitHub地址:

https://github.com/Visual-Attention-Network

Awesome-Vision-Attentions

https://github.com/MenghaoGuo/Awesome-Vision-Attentions

— 完 —

量子位 QbitAI · 頭條號簽約