AI模型變身文豪：“看懂”新聞報道，命名圖片更有文采

智東西（公眾號：zhidxcom）編 | 董温淑

智東西5月21日消息，“一隻狗在叫”、“一個男人坐在長凳上”，這是AI模型自動為新聞圖片生成的標題，這些標題看起來更像是學生習作，而不是專業記者的文筆。儘管目前已經有許多自動生成圖片標題的AI模型，但大多數模型生成的標題比較簡單和乏味。

澳大利亞國立大學的研究人員發現，這是因為現有的圖片標題生成模型大多將圖片視為一個孤立的對象，生成標題時沒有結合新聞文本。

近日，他們研發出一款端到端新聞圖片即時生成標題模型，能夠同時感知新聞文本和圖片內容。該模型用《紐約時報》刊載的文章進行訓練，可以分析長文本內容並識別出重點，生成更準確、更具描述性的圖片標題。

這項研究發表在學術網站arXiv上，論文題目為《轉換與講述：實體感知新聞圖片標題（Transform and Tell: Entity-Aware News Image Captioning）》。

論文鏈接：https://arxiv.org/abs/2004.08070

該模型演示文件：https://transform-and-tell.ml/

一、Transformer模型：結合文章上下文，生成標題更貼切

現有圖片標題生成模型大多採用長短期記憶神經網絡（LSTM）。LSTM模型依賴於文本提取和模版填充，這種方式有一些侷限性。首先，標題語言受到模版限制，豐富性較差，其次，LSTM模型難以準確命名圖片中的對象，生成標題的準確性較低。另外，LSTM需要較長的訓練時間，面臨超長序列時難以實現單個或較少輸出。

為了克服這些侷限性，澳大利亞國立大學研究人員決定採用Transformer模型。Transformer模型的優勢在於可以學習長期依賴性，能根據文章文本和圖片內容生成標題。Transformer模型包含一系列經過預訓練的編碼器和解碼器。

此外，研究人員分析了發表在《紐約時報》上的圖片，發現其中四分之三的圖片包含人臉。為了提升模型生成標題的準確性，研究人員在模型中增加了兩個額外的模塊：一個專門用於檢測人臉，另一個專門用於檢測物體。

二、預訓練編碼器、解碼器，選用2個新聞數據庫

Transformer模型中，研究人員用4個編碼器分別生成圖片、人臉、物體、文章文本的高級矢量表示，解碼器根據這些表示在sub-word級別生成標題。

其中，圖片編碼器基於ResNet-152網絡，在ImageNet數據集上預訓練，用最終塊在池化層之前的輸出作為圖片表示；人臉編碼器基於FaceNet網絡，在VGGFace2數據集上預訓練；物體編碼器基於ResNet-152網絡，在ImageNet數據集上預訓練；文本編碼器基於經過預訓練的語言表達模型RoBERTa，可以為文本提供上下文嵌入。

研究人員設計用人臉檢測算法MTCNN檢測人臉邊緣，用目標檢測算法YOLOv3來檢測物體邊緣。解碼器採用按順序生成標題標記的函數。

研究人員選用GoodNews和NYTimes800k這兩個新聞文章數據庫對Transformer模型進行訓練、驗證和測試。

首先，研究人員選用GoodNews數據庫1月10日到3月18日收集的數據，共選用257033篇新聞文章，462642張新聞圖片。其中每篇文章長度約為451個單詞、包含文字、新聞圖片和標題。

研究過程中，研究人員發現通用文章提取器不能識別出GoodNews數據庫中某些文章的HTML標記，因此造成文本丟失問題。

因此，研究人員又引入NYTimes800k新聞文章數據庫作為補充，使用數據庫從5月5日到8月19日收集的數據。NYTimes800k的容量、平均文章長度都比GoodNews的大，共包含444914篇新聞文章、792971張新聞圖片、其中每篇文章長度約為963個單詞。

三、Transformer模型多項指標領先LSTM模型

研究人員用兩個數據庫中的圖片作為對象，比較了LSTM模型和Transformer模型的表現。用BLEU-4分數、ROUGE分數、CIDEr分數、精確度（P）和召回率（R）作為評價指標。

BLEU-4分數用於衡量兩個詞之間的共現頻率；ROUGE分數用於衡量自動生成內容與參考內容之間的相似度；CIDEr用於衡量生成內容是否抓取到關鍵信息；精確度用於衡量被識別為正類別的樣本中，正類別樣本佔的比例；召回率用於衡量所有正類別樣本中，被正確識別為正類別的比例。以上指標分數越高，模型性能越好。

研究人員用現有模型Biten（Avg CtxIns）和Biten（TBB AttIns）作為基線。

對比結果顯示，Transformer模型的表現普遍優於基線和其他LSTM模型，其中CIDEr分數的對比尤其明顯。

針對GoodNews數據庫中的圖片，增加人臉檢測模塊後，Transformer模型的CIDEr分數達到54.3。LSTM模型的CIDEr分數最高為28.6。

針對NYTimes800k數據庫中的圖片，增加人臉檢測模塊和物體檢測模塊後，除罕見名詞的召回率外，Transformer模型其餘各項分數都為最高。其中，CIDEr分數最高，為54.4。而LSTM模型的CIDEr分數為24.9。

結語：或能結合維基百科，未來標題更加有趣

澳大利亞國立大學的研究人員設計出一款端到端新聞圖片即時生成標題模型，該模型能夠較準確地命名新聞圖片中的對象、生成語言多樣化的標題。

研究人員Alasdair Tran表示：“讓機器像人一樣思考一直是人工智能研究的重要目標，我們建立的模型讓我們離這個目標又近了一步。”

根據論文，這項技術或可用於網頁、社交媒體資料、醫學文檔等，幫助讀者解決閲讀障礙、更好地理解內容。除了為個人閲讀者提供便利，這項技術還可以為國家、各類組織等增加視覺模型的可擴展性，或可實現從一張圖片向最近或相關的文章的擴展。

Tran説：“未來研究的一個可能方向是讓模型能夠參考其他類似文章或維基百科等背景知識信源，這將為模型提供更豐富的上下文，使其生成更有趣的標題。”

文章來源：arXiv，TechXplore