AI模型变身文豪：“看懂”新闻报道，命名图片更有文采

2020-05-22由钭翠娥发布于科技

智东西（公众号：zhidxcom）编 | 董温淑

智东西5月21日消息，“一只狗在叫”、“一个男人坐在长凳上”，这是AI模型自动为新闻图片生成的标题，这些标题看起来更像是学生习作，而不是专业记者的文笔。尽管目前已经有许多自动生成图片标题的AI模型，但大多数模型生成的标题比较简单和乏味。

澳大利亚国立大学的研究人员发现，这是因为现有的图片标题生成模型大多将图片视为一个孤立的对象，生成标题时没有结合新闻文本。

近日，他们研发出一款端到端新闻图片即时生成标题模型，能够同时感知新闻文本和图片内容。该模型用《纽约时报》刊载的文章进行训练，可以分析长文本内容并识别出重点，生成更准确、更具描述性的图片标题。

这项研究发表在学术网站arXiv上，论文题目为《转换与讲述：实体感知新闻图片标题（Transform and Tell: Entity-Aware News Image Captioning）》。

论文链接：https://arxiv.org/abs/2004.08070

该模型演示文件：https://transform-and-tell.ml/

一、Transformer模型：结合文章上下文，生成标题更贴切

现有图片标题生成模型大多采用长短期记忆神经网络（LSTM）。LSTM模型依赖于文本提取和模版填充，这种方式有一些局限性。首先，标题语言受到模版限制，丰富性较差，其次，LSTM模型难以准确命名图片中的对象，生成标题的准确性较低。另外，LSTM需要较长的训练时间，面临超长序列时难以实现单个或较少输出。

为了克服这些局限性，澳大利亚国立大学研究人员决定采用Transformer模型。Transformer模型的优势在于可以学习长期依赖性，能根据文章文本和图片内容生成标题。Transformer模型包含一系列经过预训练的编码器和解码器。

此外，研究人员分析了发表在《纽约时报》上的图片，发现其中四分之三的图片包含人脸。为了提升模型生成标题的准确性，研究人员在模型中增加了两个额外的模块：一个专门用于检测人脸，另一个专门用于检测物体。

二、预训练编码器、解码器，选用2个新闻数据库

Transformer模型中，研究人员用4个编码器分别生成图片、人脸、物体、文章文本的高级矢量表示，解码器根据这些表示在sub-word级别生成标题。

其中，图片编码器基于ResNet-152网络，在ImageNet数据集上预训练，用最终块在池化层之前的输出作为图片表示；人脸编码器基于FaceNet网络，在VGGFace2数据集上预训练；物体编码器基于ResNet-152网络，在ImageNet数据集上预训练；文本编码器基于经过预训练的语言表达模型RoBERTa，可以为文本提供上下文嵌入。

研究人员设计用人脸检测算法MTCNN检测人脸边缘，用目标检测算法YOLOv3来检测物体边缘。解码器采用按顺序生成标题标记的函数。

研究人员选用GoodNews和NYTimes800k这两个新闻文章数据库对Transformer模型进行训练、验证和测试。

首先，研究人员选用GoodNews数据库1月10日到3月18日收集的数据，共选用257033篇新闻文章，462642张新闻图片。其中每篇文章长度约为451个单词、包含文字、新闻图片和标题。

研究过程中，研究人员发现通用文章提取器不能识别出GoodNews数据库中某些文章的HTML标记，因此造成文本丢失问题。

因此，研究人员又引入NYTimes800k新闻文章数据库作为补充，使用数据库从5月5日到8月19日收集的数据。NYTimes800k的容量、平均文章长度都比GoodNews的大，共包含444914篇新闻文章、792971张新闻图片、其中每篇文章长度约为963个单词。

三、Transformer模型多项指标领先LSTM模型

研究人员用两个数据库中的图片作为对象，比较了LSTM模型和Transformer模型的表现。用BLEU-4分数、ROUGE分数、CIDEr分数、精确度（P）和召回率（R）作为评价指标。

BLEU-4分数用于衡量两个词之间的共现频率；ROUGE分数用于衡量自动生成内容与参考内容之间的相似度；CIDEr用于衡量生成内容是否抓取到关键信息；精确度用于衡量被识别为正类别的样本中，正类别样本占的比例；召回率用于衡量所有正类别样本中，被正确识别为正类别的比例。以上指标分数越高，模型性能越好。

研究人员用现有模型Biten（Avg CtxIns）和Biten（TBB AttIns）作为基线。

对比结果显示，Transformer模型的表现普遍优于基线和其他LSTM模型，其中CIDEr分数的对比尤其明显。

针对GoodNews数据库中的图片，增加人脸检测模块后，Transformer模型的CIDEr分数达到54.3。LSTM模型的CIDEr分数最高为28.6。

针对NYTimes800k数据库中的图片，增加人脸检测模块和物体检测模块后，除罕见名词的召回率外，Transformer模型其余各项分数都为最高。其中，CIDEr分数最高，为54.4。而LSTM模型的CIDEr分数为24.9。

结语：或能结合维基百科，未来标题更加有趣

澳大利亚国立大学的研究人员设计出一款端到端新闻图片即时生成标题模型，该模型能够较准确地命名新闻图片中的对象、生成语言多样化的标题。

研究人员Alasdair Tran表示：“让机器像人一样思考一直是人工智能研究的重要目标，我们建立的模型让我们离这个目标又近了一步。”

根据论文，这项技术或可用于网页、社交媒体资料、医学文档等，帮助读者解决阅读障碍、更好地理解内容。除了为个人阅读者提供便利，这项技术还可以为国家、各类组织等增加视觉模型的可扩展性，或可实现从一张图片向最近或相关的文章的扩展。

Tran说：“未来研究的一个可能方向是让模型能够参考其他类似文章或维基百科等背景知识信源，这将为模型提供更丰富的上下文，使其生成更有趣的标题。”

文章来源：arXiv，TechXplore