機器之心發佈
機器之心編輯部
採用卷積神經網絡(CNN)和衞星圖像數據來預測區域收入水平的方法已經越來越廣泛,部分方案正在嘗試逐步商業化以推向市場。但由於 CNN 的「黑盒」特點,大多數模型並不能解釋其預測的背後過程。
近期的一項研究採用熱力圖 Grad-CAM 對神經網絡進行可視化,進一步探索了這些預測背後的邏輯,讓人們對這些模型的可靠性產生了懷疑——在預測過程中是否採用了相似的特徵,以及這些特徵與收入水平的相關性。
近年來,無論是勞動力的遷移,還是教育和住房等資源的分配問題,背後都少不了對於城市化進程的思考,持續加速的城市化進程無疑對城市的社會經濟環境產生了深遠的影響,如何定量地監測和分析這一過程已經成為城市規劃和城市環境研究領域的重要課題。
日益先進的遙感和衞星技術已經為觀察特定地區的地理數據以及與城市化研究鋪平了道路。通過人造衞星、飛機或其他飛行器上收集地物目標的電磁輻射信息,可判認該地區的地理環境和資源分佈。例如城市人口密集程度和道路建設情況採集,人口的經濟特徵測量等。
隨着多源、高精度遙感數據量的激增,傳統的人工判讀和半自動化軟件解譯的方式使其在效率和準確度打上折扣。而採用人工智能和高分辨率遙感可以説是天作之合,基於機器學習算法善於解決海量數據分析問題的特點,能夠大幅縮短遙感圖像解譯週期、提高解譯精準度。
事實上,採用卷積神經網絡(CNN)和衞星圖像數據來預測區域收入水平的方法已經越來越廣泛,部分方案正在嘗試逐步商業化以推向市場。比如在缺少經濟生計可靠數據的發展中國家,基於高分辨率衞星圖像來估計消費開支和財產財富無疑是一種精確、低廉和可升級的選擇,將對當地政府的政策和規劃決策帶來重要參考。
「這類方案的基本思路是通過建模並提取與收入密切相關的特徵進行預測。但我們的研究表明,事實可能並非如此,所以需要更為深入地瞭解 CNN 是如何將視覺特徵整合到預測模型中的。」研究人員 Jacob Levy Abitbol、Ma´rton Karsai 説道。
Abitbol & Karsai 分別來自法國里昂高等師範學院 (ENS) 和匈牙利中歐大學(CEU),近日他們聯合開發了一個神經網絡模型,以實現從航拍圖像中預測給定地點的社會經濟狀況,進而根據潛在的城市拓撲結構解釋其激活圖,從而縮小基於城市拓撲結構和高分辨率的社會經濟地圖之間預測的差距。該研究證實了卷積神經網絡(CNN)針對衞星圖像數據深入分析的潛能。
圖 1:巴黎地區實際統計(左)和算法預測(右)的人均收入地圖對比。每個像素代表 4000 平方米,顏色深淺代表不同地區居民的社會經濟平均水平。來源:Abitbol & Karsai.
該研究的最終目標是通過分析某一地區當前的衞星 / 航空圖像來收集有關該地區經濟發展的數據,從而逐步替代人工收集的人口普查數據。在理想情況下,該模型需要具備可概括、可理解特點,即在區域 A 上訓練出的模型應該在區域 B 上產生一致的結果,並且確保模型採用了正確的信號。
該研究採用法國城市的航拍圖像進行訓練,通過 MBConv 模塊提取特徵圖,經過全局平均池化層(GAP)和密集層計算出單個 p 值。由此,從二項式分佈中得出每個社會經濟階層的概率,預測該地區居民社會經濟地位的能力。
研究的圖像數據主要基於三類公開數據集,提取了五個法國城市在社會經濟和土地利用數據方面的完整數據及航空圖像:
由國家地理信息研究所 (IGN) 提供的法國市政的航拍照片;
由法國國家統計和經濟研究所 (INSEE) 提供的高分辨率的社會經濟地圖 (2019 年);
由歐洲環境署提供的歐盟城市地圖集 (2012 年),包含歐盟 28 個國家和歐洲自由貿易區 22 個國家。
數據集均可在線訪問:
https://geoservices.ign.fr/documentation/diffusion/telechargement-donnees-libres.html#ortho-hr-sous-licence-ouverte
https://www.insee.fr/fr/statistiques/4176290?sommaire=4176305
https://land.copernicus.eu/local/urban-atlas/urban-atlas-2012
巴黎某一區域內的數據採集樣本:a. 遙感 / 航拍圖像;b. 收入的空間分佈;c. 功能的空間分佈。
該研究的代碼現已開放,可免費用於非商業用途:
https://doi.org/10.5281/zenodo.3906063
論文地址:
https://arxiv.org/abs/2004.04907
在研究初期,需要尋找一個最佳的影像空間分辨率以建立可用的算法模型,Abitbol & Karsai 在 CNN 模型上取得了不錯的結果。但隨着算法進一步被測試,Abitbol & Karsai 發現其往往是被一些與收入或社會經濟地位並非密切相關的城市特徵激活。例如,由於公共及商業場所的燈光明亮,經濟發達的城市地區通常在夜晚具有較強的照明強度,但是模型優先考慮的是居民區的其他功能。
於是,他們開始懷疑這些模型在預測不同地區的收入水平時是否採用了相似的特徵,以及這些特徵與收入水平的相關性。
儘管針對衞星圖像推斷地區經濟收入狀況的深度學習模型不在少數,但大多數並不能解釋其預測的背後過程。這很大程度上取決於卷積神經網絡自身的技術特點——通過理論推導,以及梯度傳播,去不斷逼近局部最優解。但 Abitbol & Karsai 仍試圖解釋其模型的預測結果,以便更好地理解它是如何為每一幅圖像推斷出特定的收入。
為此,Abitbol & Karsai 採用熱力圖 Grad-CAM 對神經網絡進行可視化,以研究模型的可解釋性,即通過熱力圖的權重形式來展現,神經網絡對圖片的哪一部分激活值最大。
基於航拍圖像(a),使用 Grad-CAM 計算出最貧困地區(b)和最富裕地區(c)的社會經濟階層的熱力圖;將熱力圖與航拍圖進行疊加訓練 CNN,得出城市功能區域的多邊形圖(d),計算出最貧窮地區(e)和最富裕地區(f)的標準化激活比率。( UA: urban area; DUF: discontinuous urban fabric)
通過將高分辨率的類判別激活圖投射到原始地圖上,並與土地利用數據疊加,以生成經驗統計的特徵,使模型更為準確地預測該地區在社會經濟地位方面的土地利用類別。這一方案讓社會經濟地位的預測範圍更加廣泛,同時也精確地指出了預測城市環境的真實特徵。此外,它還提供了不同的城市在城市拓撲結構和財富分配之間的關聯模式。
該研究發現,在推測社會經濟地位的過程中,CNN 模型忽略了土地利用和社會經濟數據之間的現有相關性,而主要關注包含在居民區內的特徵。這一發現為預測的實際應用引入了更多可解釋性和參考,讓政策的制定者和決策者不僅能夠增進其模型內部運作模型的理解,同時也將為貧困地區的城市發展和城市規劃帶來更多啓發。
儘管 CNN 已顯示出收集地理社會經濟數據的潛力,但該研究表明,其預測背後的過程存在不可靠可能,因此應進行進一步研究。接下來,該研究小組將會在預測模型的可解釋性方面進行更多探索,使其能夠更有效和可靠地執行。
Abitbol & Karsai 説道,「我們對於影響模型可預測和可解釋程度的因素十分感興趣,此外我們還將通過傳統的視覺識別算法進行收入水平的預測,以驗證 CNN 模型在不同地區的遷移能力以及進行高精度社會經濟預測的準確性。」
不氪金玩轉中文超大規模預訓練!
12月22日20:00,百度自然語言處理部資深研發工程師碩環老師將在第二期直播《NLP開發利器解析:中文超大規模預訓練模型精講》中介紹:
語義理解技術簡介
基於預訓練的語義理解技術
文心(ERNIE)技術原理詳解
文心最新技術解讀
文心語義理解技術應用
掃碼進羣聽課,還有機會贏取100元京東卡、《智能經濟》實體書、限量百度鼠標墊多重好獎!
THE END
轉載請聯繫本公眾號獲得授權
投稿或尋求報道:[email protected]