AI研習丨專題:單影象深度學習去雨研究的最新進展文
單影象去雨是影象復原的重要研究方向之一。單影象深度學習去雨方法中,全監督去雨方法模型的輸入均為配對資料,因此儘管利用大量的合成配對資料取得了很好的效果,但處理真實雨圖時會產生效能退化;此外無法利用真實世界中的大量無標籤雨圖,因此無法很好地解決真實影象去雨任務。鑑於此,基於部分或零配對資料的無監督/ 半監督去雨演算法則體現出更大的優勢。本文將重點圍繞無監督與半監督單影象深度學習去雨研究的最新進展進行簡要回顧及分析,併力圖為後續的研究提供一些思路。
關 鍵 字
影象復原;單影象去雨;無監督去雨;半監督去雨;深度表示學習
影象復原是利用退化過程的某些先驗知識建立相應的數學模型,透過求解逆問題對原始影象進行估計進而復原被退化的影象。但在退化過程中,噪聲和干擾因素同時存在,給影象的復原帶來了諸多不確定性和挑戰。隨著深度學習研究熱潮的到來,影象復原仍然是目前計算機視覺領域的重要方向,例如影象去雨、影象去霧和影象去模糊等,是諸多高層視覺任務的重要預處理步驟。雨是最常見的動態惡劣天氣,因此本文重點探討影象去雨任務。特別地,影象去雨分為靜態單影象去雨和動態序列影象(即影片)去雨。和影片去雨相比,單影象去雨由於缺乏時域資訊因而更具挑戰性。圖1 展示了部分合成的雨影象和真實的雨影象的對比,從中可見真實雨圖中的雨紋資訊是更加複雜的、多樣化的和多方向的,因此真實雨圖的復原任務更加具有挑戰性。
圖1 合成雨影象和真實雨影象的比較
影象去雨任務的數學問題可以簡單表示為
I=R+B (1)
即將雨圖I 分解為雨紋R 和乾淨背景B,得到復原的乾淨影象。由於R 和B 均不可知,因此式(1)是一個病態問題。單影象去雨方法大致分為基於模型+ 最佳化的方法( 非深度學習) 和基於資料+訓練的方法( 深度學習)。傳統去雨方法更多地依賴對雨紋的光學性質進行研究,透過對雨圖進行估計,建立雨紋的先驗模型,再透過函式進行最佳化。例如稀疏編碼和高斯混合模型等。
近年來,基於模型的傳統方法逐漸被深度學習方法所取代。和傳統去雨方法相比,深度學習去雨方法取得了顯著的效能提升,主要原因歸結於,深度神經網路DNN 具有強大的特徵學習能力和對影象的對映能力;以及大量的訓練資料為DNN 提供了足夠的資訊。深度學習去雨方法使用不同的DNN( 如CNN、RNN 和GAN 等)來提取雨圖的層級特徵和雨紋資訊,得到從雨圖到清晰影象的直接對映,即端到端的。為了訓練得到更好的深度去雨模型,與雨紋或背景相關的先驗知識也會被新增到網路中,如雨紋掩模Mask 和雨紋密度資訊等;也設計不同的基礎單元進行特徵提取,如Residual Dense Block、Contextualized Dilated Block 和Spatial Attentive Module。此外,不同的深度網路被提出,如迴圈架構和遞迴架構。
按照配對資訊的數量和訓練方式,目前的單影象深度學習去雨方法可分為全監督、無監督和半監督三種。圖2 展示了部分配對影象和不成對影象。全監督方法的訓練資料均為成對資料。但是真實應用中採集的資料都是無標籤的,即沒有真值影象,因此只使用部分甚至零配對資料的無監督和半監督去雨方法將具有更大的優勢,可以有效緩解配對資料受限問題。三種去雨模式的方法框架見圖3。
圖2 配對影象和不成對影象的對比
圖3 全監督/ 無監督/ 半監督訓練方式的示意圖
目前大部分的深度學習去雨方法均是全監督訓練模式。但是由於現實中的雨圖不成對,目前主要透過人工加雨紋的方式製造配對資料;然而人工合成的雨紋與真實的雨紋差異很大,因此訓練的模型在真實去雨任務上無法取得令人滿意的結果,即泛化能力差。因此,本文主要圍繞無監督與半監督單影象深度學習去雨研究的最新進展進行簡要介紹。
2 無監督單影象深度學習去雨由於沒有配對資料,無監督去雨方法的研究難度更大,因此到目前為止此類方法仍然很少,代表性的幾個無監督深度網路模型包括RRGAN、UD-GAN 和DerainCycleGAN。這些基於GAN 的深度方法提出不使用成對訓練資料的端到端的單去雨模型,透過深度網路加特定的物理模型或先驗知識提取雨紋資訊,得到去雨影象。下面, 將分別對RR-GAN、UD-GAN 和Derain-CycleGAN 進行簡要介紹。
RR-GAN 的網路架構,由一個多尺度的注意力記憶生成器MAMG 和一個多尺度的深度監督鑑別器MDSD 組成。其中,MAMG 迴圈遞迴地利用具有注意機制的記憶模組不斷獲取更加精確的雨紋資訊,接著將原始雨圖和雨紋圖一起輸入到U-Net 中得到復原影象。透過MDSD 對復原的影象進行真假判斷,使其外觀儘可能接近於無雨影象。RR-GAN 除了使用GAN 的傳統損失函式,還加入了一個重構損失函式,度量提取的雨紋加去雨得到的圖片與原始雨圖的歐氏距離。作者分別測試了在成對資料和不成對資料兩種情況下得到的去雨效能。從結果看,監督模式的效果並沒有明顯優於無監督模式的效果。對於這一點,作者並沒有給出確切原因。可能的原因是MDSD 只會對圖片是否有雨進行真假判別,而不會對影象是否相似進行判別。
UD-GAN 提出一個無監督的生成對抗網路來處理單影象去雨,透過引入自監督約束解決無配對資料受限的問題。自監督學習目前受到了深度學習領域的青睞和廣泛關注,Yann LeCun 在AAAI 2020 論文“Self-Supervised Learning” 中再次強調了自監督學習的重要性。關於自監督學習的具體細節,可查閱《中國人工智慧學會通訊》2020年第10卷第1期中陳松燦教授的《自監督學習的最新進展與展望》一文。具體地,UDGAN設計了兩個協同最佳化模組,即雨紋引導模組RGM 和背景引導模組BGM,來充分學習雨圖特徵。其中,RGM用於區分真實雨圖和基於BGM生成器輸出的假雨圖,此功能與RR-GAN中的重構損失函式類似。BGM採用高斯模糊處理原始雨圖和輸出的無雨影象,透過計算不同程度的高斯模糊後的梯度誤差來確保輸入輸出內容的一致性,效果類似於使用vgg16或者vgg19網路提取特徵後的感知損失。此外,由於輸出的去雨影象與原圖存在亮度差異,還引入了亮度增強的乾淨圖片作為負樣本,並將亮度對抗損失函式整合到鑑別器中。相對於RR-GAN的單個生成器和判別器,UD-GAN利用了CycleGAN的迴圈一致性結構,使用了兩種生成器和兩種判別器,可以使圖片從有雨域到無雨域再到有雨域進行轉化。該方法在合成數據和真實資料上都取得了不錯的去雨結果。當同時利用合成數據和真實資料時,去雨效果甚至可超越部分全監督學習去雨模式。
DerainCycleGAN構建了一個雙支路網路進行無監督去雨,可分別處理和利用有雨圖片域和無雨圖片域中的資訊。具體地,提出一種基於無監督注意力引導的雨紋資訊提取器U-ARSE,同時對有雨影象域和無雨影象域進行雨紋識別和提取,透過U-ARSE內的迴圈遞迴來實現。提取出的雨紋資訊(從有雨影象中提取的是雨紋掩模資訊,從無雨影象中提取的是空白資訊)與原始圖片一同輸入到對應的生成器中分別生成去雨後影象和加雨影象,然後繼續生成重構的原始影象。為了最佳化U-ARSE,設計了一個物理先驗來約束雨紋資訊,並使用了較全面的損失函式來約束整個網路。和RR-GAN、UD-GAN相比,該網路同樣使用了兩種生成器和兩種判別器,但是RR-GAN和UD-GAN是直接利用單路結構進行無監督學習,而DerainCycleGAN採用了雙路結構。由於利用了乾淨圖片域的資訊,進一步提高了去雨效果。此外,DerainCycleGAN還利用第二條支路來自動生成了帶雨圖片。與現有的合成數據相比,新生成的雨紋具有更多的方向和形狀,更加接近真實雨紋資訊。作者透過對比試驗驗證了在新資料集上訓練模型,在真實去雨任務中具有更好的效果。
3 半監督單影象深度學習去雨半監督去雨方法除了使用合成數據,還增加了真實資料進行聯合訓練。由於合成數據和真實資料的差異較大,如何進行有效的約束和建立兩個域間的聯絡是個很大挑戰。因此,針對半監督去雨方法的研究也非常少,代表性的方法包括半監督遷移學習演算法SIRR 和Semi-DerainGAN 演算法等。接下來,將分別對SIRR 和Semi-DerainGAN的網路架構進行簡要介紹。
SIRR使用了CNN同時處理合成影象資料和真實資料。對於合成數據直接採用傳統的網路輸出影象, 與乾淨影象間的最小二乘損失(MSEloss)進行約束。對於真實資料,透過在真實圖片殘差(即真實雨圖減去真實輸出影象)的基礎上設計引數化分佈的似然項來約束去雨效果。最後,透過合成圖片的殘差(即合成帶雨影象減去對應的無雨影象)與真實圖片的殘差之間的相對熵(即KL 散度)來約束合成影象域與真實影象域的去雨效果。SIRR透過監督模式下的合成雨紋資訊學習來指導無監督模式下的真實雨紋資訊學習,緩解了合成數據不足與樣本偏差的問題。SIRR還使用了高斯混合模型(GMM)來模擬真實雨紋,以及使用EM演算法來進行求解,具有一定的指導意義。但是合成影象和真實影象中的雨紋資訊差異通常很大,因此透過新增合成雨紋域和真實雨紋域之間的約束(即減少合成殘差與真實殘差之間的KL距離)來訓練一個共用的深度網路可能不合適。因為該過程會導致對合成資料中提取的雨紋資訊進行蒸餾,降低了監督網路的精準度,使得該SIRR 模型在處理大雨情況下的影象去雨任務時會留下較多的雨紋資訊。
為了解決上述問題,Semi-DerainGAN提出了一種新的基於半監督模式的深度單影象去雨網路。該網路提出一種基於共享引數的半監督雨紋資訊學習器SSRML,可以同時訓練合成數據和真實資料,使得真實影象能提供更多的雨紋資訊。該方法使用兩個獨立的深度網路生成器分別進行合成數據和真實資料的去雨操作,可減輕在一個深度網路中進行去雨所造成的知識衝突和學習力下降的問題。引入的第三個生成器可以進一步對真實資料的去雨結果進行重構,加強有雨域和無雨域圖片的生成轉化。對於全監督子網路中的合成數據,使用了傳統的對抗損失、結構相似性損失和感知損失等;對於無監督子網路中的真實資料,使用了對抗損失、TV 正則化、感知損失和迴圈一致性損失。為了獲得更好的去雨效果,針對性地設計了一個成對圖片鑑別器,可區分合成資料中的真假圖片對。與SIRR 相比,Semi-DerainGAN 在合成數據集和真實資料集上都取得了更好的實驗結果。但是,由於合成數據和真實資料中所包含的雨紋資訊差異大,以及全監督和半監督訓練中約束條件的不平衡,使用基於兩條對稱支路的訓練可能會導致收斂較慢的情況。
4 結束語現有對單影象深度學習去雨方法的研究主要集中在全監督模式上,透過使用深度神經網路結合人工先驗的方式,對合成資料中雨紋(滴)的分佈進行擬合,訓練出一個端到端的去雨網路。這些方法一方面無法利用真實影象資料進行訓練,另一方面也無法很好地泛化到真實去雨任務中。無監督和半監督的單影象深度學習去雨方法可以有效彌補這些不足,但是由於可用的先驗資訊少,因而研究難度更大,關於此類研究工作目前還處於起步階段,相關方法還比較少,未來還有很大的研究空間。此外,單影象雨域和非雨域間的遷移學習、影象領域和影片領域去雨的遷移學習等將是未來影象去雨研究值得關注的一些方向。