【论文阅读 EMNLP-2019】Text Summarization with Pretrained Encoders

Text Summarization with Pretrained Encoders

Yang Liu and Mirella Lapata
Institute for Language, Cognition and Computation School of Informatics, University of Edinburgh yang.liu2@ed.ac.uk, mlap@inf.ed.ac.uk

EMNLP 2019

link: https://arxiv.org/abs/1908.08345?context=cs.CL

摘要

像bert这种基于双向transformer作为encoder的预训练模型最近几年已经广泛用来各种的自然语言的下游任务。这篇论文主要提出一种基于bert的框架来做抽取和生成两种文本摘要方法。

提出了一种基于文档级别的句子编码方案来获得每个句子的表征。通过把句子拼接到一起的方法。针对生成式摘要主要是通过表格学习率来分别针对encoder和decoder来进行finetune.实验表明这种分两步进行finetune的方法提高了生成摘要模型的效果。

简介

预训练语言模型已经在很大nlp任务上面取得了SOTA的效果。大多数情况下,预训练模型主要被用来作为各种nlp任务的句子或者段落的编码器,包括各种分类任务。

在本文中,研究了预训练语言模型在文本摘要中的应用, 不同于别的任务文本摘要需要超越个别词和句子,是一种更广泛的自然语言理解能力。目标是将文档进行压缩成更短的文本且保留文章的主要语义。

对于生成式摘要来说需要语言生成模型包含新颖的单词和短语摘要。对于抽取式任务来说通常当作对句子进行二分类任务。

这篇文章提出了一种新颖的基于Bert的文档编码器,使其能够获得文档和句子的表征,具体做法是通过拼接句子间的transformer层用来作为句子的表征用来作为抽取任务。对于生成模型来说,采取的是encoder-decoder 的结构。使用预训练模型bert作为encoder,使用随机初始化的decoer。设计了新的训练方法,针对encoder和decoer使用不同的optimizer。受之前工作的启发,通过结合抽取任务结果可以用来提升生成模型效果,提出了两步优化的方法,针对encoder,做了两次finetune,第一次使用抽取任务来做finetune,然后再用到生成任务上面来。

在这里插入图片描述

左图为原始的BERT模型结构,是以token为单位学习包含上下文的的编码信息。右图是特定于文本摘要中基于BERT的BERTSUM结构,不同之处是插入了多个[CLS]符号来学习句子的表示,并且使用区间分段Embedding(以红色和绿色表示)来区分多个句子。

摘要任务中的Fine-tuning BERT

Summarization Encoder

原生的BERT可能无法直接应用到摘要任务重去,这是因为BERT最初被当作一个masked-language模型来训练,输出向量是基于token的而不是句子的,而在抽取式摘要中,大多数模型会以句子级别的表示为单位。

在提出了BERTSUM结构中,为了表示单独的句子,这篇文章做了如下两点:

  • 插入额外的[CLS]token来学习句子的表示
  • 使用取件embedding来区分句子,如果是奇数则使用 E A E_A EA方法来进行词嵌入,偶数就用 E B E_B EB方法来进行词嵌入。

Extractive Summarization

对于BERTSUM,可以将向量 t i t_i ti用作顶层的表示,向量 t i t_i ti是从顶层开始的第i个[CLS]符号的向量。 然后,将数个句子间的Transformer层堆叠在BERT输出的顶部,以捕获用于提取摘要的文档级功能.

Abstractive Summarization

使用标准的编码器-解码器框架进行摘要生成。 编码器是预训练的BERTSUM,解码器是随机初始化的6层Transformer。

可以想象,编码器和解码器之间不匹配,因为前者是经过预训练的,而后者必须从头开始进行训练。 这会使微调变得不稳定; 例如,编码器可能会过度拟合数据,而解码器可能会拟合不足,反之亦然。 为了避免这种情况,这篇文章设计了一个新的微调过程,该过程将编码器和解码器的优化器分开。

其中的基本假设是,预训练的编码器应该以较小的学习速率和更平滑的衰减进行微调(以便在解码器变得稳定时可以使用更准确的梯度来训练编码器)。

此外,本文提出了一种两阶段的微调方法,首先对提取摘要任务(中的编码器进行微调,然后对抽象摘要任务中的编码器进行微调。我们将默认抽象模型命名为BERTSUMABS,而两阶段微调模型命名为BERTSUMEXTABS。

已标记关键词 清除标记
相关推荐
©️2020 CSDN 皮肤主题: 成长之路 设计师:Amelia_0503 返回首页