谷歌开源“穷人版”摘要生成NLP模型：1000个样本就能打败人类

2020-06-15 由纳喇晓枝发布于科技

晓查发自凹非寺

BERT、GPT-2、XLNet等通用语言模型已经展现了强大的威力，它们可以应付各类任务，比如文本生成、问答。当这些模型对各种语言任务进行微调时，可以达到SOTA性能。

以上这些NLP模型都是“通才”，虽然全面，但在面向特定任务时需要微调，训练数据集也十分庞大，非一般人所能承受。

如果开发一个非通用NLP模型，专门针对某项具体任务，在降低训练成本的同时，性能会不会提高呢？

这就是谷歌发布的“天马”模型，它专门为机器生成摘要而生，刷新了该领域的SOTA成绩，并被ICML 2020收录。

“天马”模型仅使用1000个样本进行训练，就能接近人类摘要的水平，大大减少了对监督数据的需求，创造了低成本使用的可能性。

从填空到生成摘要

PEGASUS的全称是：利用提取的间隙句进行摘要概括的预训练模型。就是设计一种间隙句生成的自监督预训练目标，来改进生成摘要的微调性能。

在之前的NLP研究中，自监督预训练对下游的目标并不清楚，可能是文本生成、也可能是摘要提取，模型倾向于通用性。

而来自谷歌的研究者认为，自监督预训练目标越接近最终的下游任务，微调性能越好。

那论文标题中的间隙句又是什么意思？

在“天马”模型的预训练中，研究者从一段文档中删掉一些句子，让模型进行恢复任务。这些隔空删掉的句子即为间隙句。

这样一项具有挑战性的任务促使模型学习发现一般事实的能力，以及学习如何提取从整个文档中获取的信息。

谷歌发现，选择“重要”句子去遮挡效果最好，这会使自监督样本的输出与摘要更加相似。

作者选择了12个不同数据集，内容丰富多样，包括新闻、科学论文、专利文件、短篇小说、电子邮件、法律文件和使用说明，表明该模型框架适用于各种主题。

与谷歌之前提出的T5对比，参数数量仅为T5的5%。

谷歌根据ROUGE标准对输出结果进行评判，通过查找与文档其余部分最相似的句子来自动识别这些句子。

ROUGE使用n元语法重叠来计算两个文本的相似度，分数从0到100。

1000个训练样本即超过人类

尽管PEGASUS在大型数据集上表现出了卓越的性能，但令人惊讶的是，“天马”模型并不需要大量的样本来进行微调，就可以达到近乎SOTA的性能。

下图展示了在四个选定的摘要数据集中，ROUGE得分与监督样本数量的关系。虚线表示具有全监督但没有预训练的Transformer编码器-解码器的性能。

与基线相比，即使仅用1000个微调样本，“天马”在大多数任务中的性能还是要好一些。要考虑到，在某些实际情况下，样本数量还要多几个数量级。

这种“样本效率”极大地提高了文本摘要模型的实用性，因为它大大降低了监督数据收集的规模和成本。

除了机器给出的ROUGE评分外，谷歌还进行了一项鉴别摘要的“图灵测试”。

谷歌将模型生成的摘要和人类提取的摘要放在一起，给用户进行评估。在3个不同数据集上进行的实验表明，打分的人有时会更喜欢机器生成的摘要。

当然，“天马”模型并非没有缺点，谷歌就找到了一个bug。

作者从XSum数据集中寻找了一段话，其中提到了英国4艘护卫舰的名字，通篇没有提到4，“天马”还是正确提取出了护卫舰数量信息。

军舰的数量从2~5的时候都没有问题，当数量增加到6时，“天马”错误地认为有7艘。这说明模型“符号推理”的数量有限。

最后，为了支持该持续研究并确保可重复性，谷歌在GitHub上发布了“天马”的代码、模型checkpoint以及其他汇总数据集。

转载请注明：谷歌开源“穷人版”摘要生成NLP模型：1000个样本就能打败人类 - 楠木轩

天价罚单：谷歌不服，抗议欧盟24亿罚款

发布于: 经典2020-06-20标签: 天价罚单谷歌抗议

众所周知，谷歌和欧盟一直都不太对付，至于原因，多是欧盟认为谷歌的一些行为屡屡触碰反垄断法，随即频繁的对谷歌处以天价罚单，而谷歌认为，欧盟开具的罚单金额过大，完全不合理，况且自己本身并不存在反竞争行为，

美国公司平台化成功，靠的是人才和创业生态系统的支持，中国靠什么?

发布于: 科技2020-06-20标签: 美国公司生态系统谷歌金融科技

作者|桑基特·保罗·邱达利来源|造就(ID:xingshu100)信息技术进入5G时代后，传统商业模式将遭遇更大的挑战，创新与转型似乎成为企业发展的必经之路。平台，一种被视为改变世界的商业模式正在&

谷歌等互联网公司高管出席美国国会听证会

发布于: 科技2020-06-20标签: 公司高管听证会谷歌公司谷歌

在美国总统大选即将于11月3日到来之际，Facebook、谷歌和Twitter高管出席了一场有关外国影响和选举安全的美国国会虚拟听证会，接受了议员的质询。Facebook和Twitter高管在众议院情

外媒：谷歌浏览器漏洞造成大规模的用户安全信息泄露

发布于: 科技2020-06-20标签: 外媒信息泄露研究人员谷歌

三言财经 6月18日消息，据外媒报道，Awake Security研究人员表示，新发现一个间谍软件通过谷歌浏览器的扩展程序来攻击用户，含有这个间谍软件的扩展程序已经被下载了3200万次，涉及电子邮件、

苹果称未被告知有关英国接触者追踪App存在的问题

发布于: 科技2020-06-20标签: 接触者追踪谷歌苹果

据报道，NHS一直在测试自己的专有系统和基于苹果-谷歌API的系统，但发现自己的系统存在问题。根据BBC的报道，NHS的解决方案只能检测到附近4%的iPhone，而记录了75%附近的Andro

除域名外，谷歌Chrome 85将隐藏详细的URL地址

发布于: 科技2020-06-20标签: 域名谷歌显示完整

站长之家(ChinaZ.com) 6月16日消息:谷歌正加紧实施新的计划，以在Chrome中隐藏除域名以外的所有URL地址。据外媒报道，Chrome的Dev和Canary 通道(V85)中出现了一些

Facebook(FB.US)亚马逊(AMZN.US)等科技巨头或将在2020年底前面临欧盟数字税收

发布于: 科技2020-06-20标签: 数字税科技巨头财政部长谷歌

智通财经APP获悉，周四，Facebook(FB.US)、亚马逊(AMZN.US)、谷歌及其母公司Alphabet(GOOG.US、GOOGL.US)可能会遭受来自欧盟的数字服务税收打击。此前法国财

Chome OS不再拉跨：将能直接运行Windows应用程序

发布于: 科技2020-06-20标签: 能直接应用程序谷歌低薪

除了Windows、macOS、Linux发行版，笔记本市场谷歌的Chrome OS实际上也是不容小觑的力量。在北美教育市场，Chromebook的销量甚至常年保持领先。这些年，谷歌对Chrome O

谷歌新版Chrome将隐藏详细URL地址，域名地位更加凸显

发布于: 科技2020-06-19标签: 域名新版谷歌低薪

据外媒报道，谷歌近日对Chrome新版本有所调整：Chrome的Dev和Canary通道(V85)中出现了一些新的特性标志，它们修改了地址栏中网址的外观和行为。主标记称为“多功能框UI隐藏稳态URL

被谷歌抛弃、软银接盘，MIT教授做的波士顿机器狗终于开卖了

发布于: 科技2020-06-19标签: 软银开卖波士顿谷歌

图片来源@TED钛媒体注：本文来源于微信公众号硅兔赛跑（ID：sv_race），作者丨侯雅玲，编辑丨Tia Li Zi，钛媒体经授权发布。消费74500美金，折合人民币53万左右，你就能跟亚马逊CEO

谷歌拒绝为新闻付费，遭出版商攻击

发布于: 科技2020-06-19标签: 出版商付费美国司法部谷歌

据外媒报道，一家出版商贸易组织在一份提交给美国司法部的报告中称，谷歌使新闻机构在没有获得足够报酬的情况下出让其新闻内容。美国司法部目前正在调查谷歌可能的违反反垄断法的行为。新闻媒体联盟表示，谷歌严重依

谷歌浏览器造成大规模用户信息泄露涉及电子邮件等敏感信息

发布于: 科技2020-06-19标签: 信息泄露敏感信息谷歌公司谷歌

6月18日，据路透社报道，Awake Security的研究人员表示，新发现一项间谍软件通过谷歌浏览器下载3200万个扩展项来攻击用户。据报道内容显示，此次攻击造成了大规模用户信息泄漏，其中涉

美国科技巨头员工跳槽字节跳动成为最好选择

发布于: 科技2020-06-19标签: 字节跳动美国科技中关村在线谷歌

中关村在线消息：北京时间6月17日消息，近日科技论坛Blind发布了一篇文章，他们通过对站内搜索和浏览记录进行分析，得出了一些相关数据。其中，字节跳动成为了美国最受求职者欢迎的科技公司，尤其是Face

美股盘前：美联储+潜在万亿美元基建计划助推三大股指期货全线上涨

发布于: 财经2020-06-19标签: 三大美股盘前腾讯谷歌

财联社（上海，编辑吴斌）讯，受美联储购买单只企业债和可能的万亿美元基建计划推动，周二（16日）美国三大股指期货全线上涨，道指期货涨逾2%。市场动态截至发稿，标普500指数期货涨1.83%，报3,

谷歌Chrome浏览器应用商店现恶意软件已被下载3200万次

发布于: 科技2020-06-19标签: 恶意软件应用商店研究人员谷歌

6月18日，据外媒报道，Awake Security的研究人员表示，在谷歌的Chrome浏览器扩展程序中发现了一个恶意软件，该软件已经被下载了约3200万次，大量用户信息面临泄露的危险。Awake S