“Google的SummAE AI生成段落的摘要”
机器整理复印件的时间比想象中要难。 至少,摘要不是抽取而是抽象的情况。 提取只需要连接句,但抽象化涉及使用新奇句进行释义的任务。 最近,信息行业在发展,这可能是由于能够训练算法系统的大量语料库。 但是,其他许多文章形式的有力总结仍然是未处理的问题。
为此,谷歌布莱恩的团队研究了一个叫做summae的抽象摘要系统。 这意味着该系统基本上不受监视,可以从少量的培训数据汇总到看不见的拷贝样本。 虽然不能概括只由五个句子组成的段落,但是研究人员声称基线有了很大的改善,代表了人类水平性能方向上的重要一步。
可以在github上免费获取数据集、代码和最佳模型设置。
共同作者写道,作为解决单一文件[摘要]的最初工作之一,提出了新的神经模型-summae。 因此,我们认为[我们]几乎不需要监视,自动且抽象地总结文档的模型是理想的。
summae包含降噪自动编码器,在共享空之间对目标副本的语句和段落进行编码。 也就是说,生成数值表示。 邀请具有指示是否在输入之前对语句或段落进行解码的令牌的解码器,系统通过对编码段落中的各个语句进行解码来生成摘要。
研究人员发现,训练自动编码器的许多以前流传下来的做法会产生冗长的多句摘要。 为了鼓励学习远离原有表达方法的高级概念,小组使用了两种去噪方法。 也就是说,随机屏蔽标记,排列段落中语句的顺序。 这大大增加了培训样本的数量。 他们还尝试了能够区分句子和段落的对抗性批评家组件,另外还有两个事前训练任务,鼓励编码者学习如何在段落中书写句子。
研究人员在rocstories上训练了summae的三个不同的变体。 这是一套自成体系、多元化、非技术简洁的散文。 他们将原来的98,159个训练样本分为训练集、验证集、测试集三个独立集合,分别收集了包括500个验证样本和500个测试样本的三个个人工作摘要。
在进行了100,000次预训练训练步骤后,研究小组报告,基于召回性比较吸烟判断的未成年人研究( rouge )上的基线抽取句生成器最佳模型明显优于该模型,rouge是一组自动总结的测量值。 另外,在amazon mechanical turk上对判断者进行的定性研究中,志愿者表示,在80%的时间内,对三种summae模型的摘要之一进行了顺利、新闻相关的判断。
作者写道,虽然段落重构表现出一定的连贯性,但神经生成模型常常存在歧义和事实上的错误。 由于摘要是从与重构相同的潜在向量中解码的,因此改进它可能会得到更准确的摘要。
免责声明:星空分类目录网免费收录各个行业的优秀中文网站,提供网站分类目录检索与关键字搜索等服务,本篇文章是在网络上转载的,星空网站目录平台不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2031@163.com,本站将予以删除。