# nlp_final

**Repository Path**: whxway/nlp_final

## Basic Information

- **Project Name**: nlp_final
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2021-12-19
- **Last Updated**: 2021-12-20

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

### **任务二：摘要生成**

**任务介绍**

给定一篇文档，生成该文档的摘要。目前主流的文本摘要自动生成有两种方式，一种是抽取式（extractive），另一种是生成式（abstractive）。抽取式，顾名思义就是按照一定的权重，从原文中寻找跟中心思想最接近的一条或几条句子作为文章的摘要，基本上是对原文重要部分的汇总，摘取原文措辞不变。而生成式则是在原文被完全理解的基础上，用全新的词概括，代表原文的主旨，该任务要求采用**生成模型**完成。

**数据集推荐**

1. LCSTS

LCSTS是一个大规模、高质量中文短文本摘要数据集。数据集中包含了200万真实的中文短文本数据和每个文本作者给出的摘要。同时也手动标注了10666份文本的摘要。数据获取方式：[GitHub - yamonc/New-Pytorch-Chinese: 中文文本摘要，基于pytorch，采用LCSTS数据集](https://github.com/yamonc/New-Pytorch-Chinese)(0.数据预处理)

2. CNN/Daily Mail

CNN/Daily Mail作为单文本摘要语料库，每篇摘要包含多个摘要句。数据集最初是从美国有限新闻网（CNN）和每日邮报网（Daily Mail）收集的约100万条新闻数据作为机器阅读理解语料库。后来进行简单改动，形成用于单文本生成式摘要的语料库。将每篇新闻的要点按原文中出现的顺序组成多句的摘要，每个要点看成是一个句子。数据获取方式：[GitHub - abisee/cnn-dailymail: Code to obtain the CNN / Daily Mail dataset (non-anonymized) for summarization](https://github.com/abisee/cnn-dailymail) 

**实验要求**

1. 实现摘要生成算法

2. 利用GUI或者网页进行demo演示

3. 输入一段文档，生成对应的摘要（标题）

**文献推荐**

1. [A Hierarchical Structured Self-Attentive Model for Extractive Document Summarization (HSSAS).](https://arxiv.org/abs/1805.07799) 

2. [Hierarchical Learning for Generation with Long Source Sequences](file:///D:\Tencent%20Files\3526127072\FileRecv\2.%09Hierarchical%20Learning%20for%20Generation%20with%20Long%20Source%20Sequences) 

3. [PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization](https://arxiv.org/abs/1912.08777) 

4. [A Neural Attention Model for Abstractive Sentence Summarization](https://arxiv.org/abs/1509.00685) 

5. [BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension](https://arxiv.org/abs/1910.13461)

## 2021-11-29 记录
戴挺：看了几篇论文，相信，网页上的代码，目前没有结果，把作业写完，前端，周三之前确定模型
林大鸽：啥都没干，研究现状，开始写实验报告
我：写前端、找代码，确定模型

## 2021-12-19
戴挺：没有意义，不要做了