智东西(公众号:zhidxcom)文 | 韦世玮
智东西6月23日消息。搜狗翻译推出了国内首个AI写作助手。在准确纠正英语写作的语法和拼写错误之外,还能识别中式英语表达,并对语句进行智能优化和润色,使英语写作更加规范和地道。
同时,该AI写作助手还能帮助用户从容应对跨境商务、英文面试、演讲稿、线上交友和升学应试等多样挑战,全方位提升英语写作和交流能力。
为此,智东西与搜狗翻译负责人鲁涛进行了一场深入对话,在了解搜狗翻译AI写作助手各项特色功能的同时,进一步探究其背后的技术优势,共同探讨搜狗翻译到底是如何一步步落地AI能力,让跨语言交流更简单、更智能。
如今国人在英语写作时,除了容易出现语法和拼写错误外,亦存在 “容易写出中式英语、难以写出高级表达”的痛点。
搜狗翻译AI写作助手则针对这些问题“对症下药”,开发了 “语法与拼写准确纠错”、“语句智能润色优化”和“纠错润色前后对照”三大特色功能。
1、语法与拼写准确纠错
搜狗AI写作助手能够准确识别输入文章在语法、拼写和逻辑关系上的问题,包括动词变化、名词单复数和主谓一致等语法现象的常见错误,单词字母和大小写等拼写错误,以及语句转折、递进和让步等连接词错误。
2、语句智能润色优化
针对国人英语写作容易出现的“中式英语”,搜狗AI写作助手可以帮助用户消除文章中出现的语序、结构和语法上的中文表达痕迹。同时,它还能提供多达8种英文表达升级的方案,让表达更地道。
3、纠错润色前后对照
纠错润色后,用户还能通过对比文章修改前后的不同,加深自己对某一地道表达的印象,逐步提升写作能力。
目前市面上部分产品在批改用户作文并进行反馈时,常常会使用较多的专业术语,如“主谓一致错误”和“独立主格错误”等,这对初学者或语法知识薄弱的用户来说,增加了理解成本。“我们的定位比较清晰,研发AI写作助手的目的并不是让AI当老师,而是打造一个跨语言交流的智能助手。”鲁涛谈到。
在搜狗翻译AI写作助手的一系列技术背后,纠错模型和润色模型是其中的两大亮点。
纠错模型是NLP(自然语言处理)领域的热门任务。针对中国用户的表达特点,搜狗翻译团队对数百万句国人真实英语写作语料进行分析,总结出数十种中国用户常见错误,对比业内经典纠错算法,发现传统的纠错方法多是针对文章的某个特定语法错误进行纠错,无法很好地解决多种语法错误同时出现时,多模型纠错子任务冲突与融合问题。
对此,搜狗翻译团队首先将纠错问题定义为序列到序列的生成问题,利用深度学习中的Transformer框架,融合拷贝网络,让模型能够将输入句子中的人名、时间等关键信息拷贝到纠错后的句子中,降低了句子和语义的迁移风险。
其次,研究人员引入迁移与对抗学习方法,模拟真实用户错误分布的近千万纠错句,对模型进行训练。训练完成后,再与国外英语写作专家合作审校数十万句国人真实英语写作语料,对搜狗模型纠错效果进行优化,最终得到一个专为中国用户“定制化”的写作纠错模型。
第三方评测机构透露,在同样召回结果的基础上,搜狗AI写作纠错模型的纠错准确率高达96.83%, 误纠率对比同类最优竞品减少47.6%。
比写的“正确”更难的,是写的“地道”。国人受到汉语影响,写作经常出现中式英语,比如“开运动会”写成了“Open a sports meeting”。另外,在特定考试场景和商务表达中,还会有写出“高级表达”的诉求。
对此,搜狗翻译团队与清华大学“天工研究院”联合开发了具有文章语句自动润色功能的SGPolish模型,该模型主要解决了当前业内面临的三大写作升级难题:如何找到句子可以被优化的部分?如何优化这个部分?优化后,如何保证句子意思不改变?
为了找出并优化句子中需要被润色的部分,研发人员首先要找到海量的训练数据。
搜狗翻译团队利用“NAT生成模型”将搜狗英文搜索中过亿级权威、纯正、时效性强的英语语料放入该模型,模拟出海量与中国英语写作用户结果一致的“待润色数据集”。接着,利用已有的数十万句国人真实写作语料对“待润色数据集”进行调整。调整完成后,与搜狗英文搜索的英语语料组成“润色训练集”,有效解决了深度学习需要的海量数据集难题。
搜狗翻译团队和清华大学“天工研究院”将“润色数据集”、“NAT模型”和基于attention的Transformer框架进行训练,生成了SGpolish模型。与纠错模型结构相似,研发团队也融合了拷贝网络来减少句子语义迁移风险。
其实搜狗在早年已积累了许多行业领先的AI算法能力。
2017年,搜狗翻译团队利用搜狗搜索亿级权威语料,训练出领先行业的搜狗神经网络翻译模型,获得了WMT中英和英中翻译双向世界冠军,并于2018年获得IWSLT国际顶级口语机器翻译评测大赛Baseline Model(基线模型)赛道世界冠军。
结合搜狗OCR、文档解析以及ASR等优势AI能力,搜狗翻译相继推出了拍照翻译、菜单翻译、AR翻译、文档翻译和语音对话翻译等口碑功能,切实帮助国人表达与获取信息更简单。2018年底,搜狗翻译团队开始进行AI写作助手的研发和技术储备,以打造跨语言交流智能VPA。
写作助手作为NLP领域中较为小众又难做的一个场景,搜狗为何决定布局于此?
如果从互联网应用规模角度看,写作助手确实是一个量不算大的市场,但如果我们回归用户视角,则大有不同。
据国家统计局数据,从2014年起,国内初高中招生增长速率约为5%-10%,到2019年,初高中生在校人数达7859万人。与庞大的初高中在校人数形成鲜明对比的是,我国初高中所有学科的教师人数只有560万人,同时国家统计局数据显示,初高中师生人数比例为1:14,聚焦在英语学科上,师生比将扩大数倍。
值得注意的是,英语老师批改作业的时间和精力成本非常大,老师精力有限,面对大量学生作文,往往只能给出分数和简短评语,难以详尽指出具体问题。
这在一定程度上导致了学生写作能力提升慢,练习英文写作的积极性受挫。因此,很多学生通常都是在考前突击背诵范文和模板,写作水平难以实现本质提升。
面对这一境况,AI写作助手的开发不仅仅能解放英语老师批改作文的压力,把更多的精力用于打磨教学,同时还能帮助学生在提交作业前进行自我检查和文章优化,利用前后对照完成“自练自查自学”的自主学习闭环,真正达到英语输出能力的提升。
与此同时,这个集“纠错-润色-对照学习”于一体的AI写作助手,还能够帮助到近八千万中学生群体、三百余万研究生和留学生群体,尤其是教育资源十分稀缺的偏远地区同学。
相对国外某些每个月需要近30美元(约212元人民币)的主流纠错产品,搜狗翻译的AI写作助手选择免费开放,对于需要提升英文写作能力的学生,以及在意产品性价比的跨语言表达用户来说,是一个非常实在的智能助手。
“搜狗整体战略是让表达与获取信息更简单,除了英文写作助手,我们也在考虑尝试更多语言的纠错润色能力。”鲁涛说,这意味着搜狗要帮助用户实现表达更智能化、更多样化和更个性化。
谈及AI写作助手及搜狗翻译的发展,鲁涛表示,当前AI写作助手上线了1.0版本,聚焦“作文批改”,已在搜狗翻译APP和搜狗搜索免费上线,今年下半年还有可能在搜狗输入法及其他产品上线。
未来,AI写作助手将满足用户精细化需求,区分考试等级、商务交流、口语表达等场景,提供多样化纠错润色结果,更好地服务用户,智能化支持用户跨语言表达。
同时,搜狗翻译也将进一步打磨拍照翻译和多语种翻译等特色口碑功能,进一步将AI技术更广泛地普及和应用,让用户表达和获取信息更加简单。
语言作为人们生活交流和沟通中最为重要的表达方式,以“语言”为发展核心之一的搜狗也不断通过长期积累的AI技术优势,为教育、媒体和商务等各行各业提供行之有效的解决方案和创新动力。
AI语言应用爆发的当下,搜狗在未来还将继续为我们带来哪些创新和惊喜?我们拭目以待。