# nlp_final **Repository Path**: whxway/nlp_final ## Basic Information - **Project Name**: nlp_final - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2021-12-19 - **Last Updated**: 2021-12-20 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ### **任务二:摘要生成** **任务介绍** 给定一篇文档,生成该文档的摘要。目前主流的文本摘要自动生成有两种方式,一种是抽取式(extractive),另一种是生成式(abstractive)。抽取式,顾名思义就是按照一定的权重,从原文中寻找跟中心思想最接近的一条或几条句子作为文章的摘要,基本上是对原文重要部分的汇总,摘取原文措辞不变。而生成式则是在原文被完全理解的基础上,用全新的词概括,代表原文的主旨,该任务要求采用**生成模型**完成。 **数据集推荐** 1. LCSTS LCSTS是一个大规模、高质量中文短文本摘要数据集。数据集中包含了200万真实的中文短文本数据和每个文本作者给出的摘要。同时也手动标注了10666份文本的摘要。数据获取方式:[GitHub - yamonc/New-Pytorch-Chinese: 中文文本摘要,基于pytorch,采用LCSTS数据集](https://github.com/yamonc/New-Pytorch-Chinese)(0.数据预处理) 2. CNN/Daily Mail CNN/Daily Mail作为单文本摘要语料库,每篇摘要包含多个摘要句。数据集最初是从美国有限新闻网(CNN)和每日邮报网(Daily Mail)收集的约100万条新闻数据作为机器阅读理解语料库。后来进行简单改动,形成用于单文本生成式摘要的语料库。将每篇新闻的要点按原文中出现的顺序组成多句的摘要,每个要点看成是一个句子。数据获取方式:[GitHub - abisee/cnn-dailymail: Code to obtain the CNN / Daily Mail dataset (non-anonymized) for summarization](https://github.com/abisee/cnn-dailymail) **实验要求** 1. 实现摘要生成算法 2. 利用GUI或者网页进行demo演示 3. 输入一段文档,生成对应的摘要(标题) **文献推荐** 1. [A Hierarchical Structured Self-Attentive Model for Extractive Document Summarization (HSSAS).](https://arxiv.org/abs/1805.07799) 2. [Hierarchical Learning for Generation with Long Source Sequences](file:///D:\Tencent%20Files\3526127072\FileRecv\2.%09Hierarchical%20Learning%20for%20Generation%20with%20Long%20Source%20Sequences) 3. [PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization](https://arxiv.org/abs/1912.08777) 4. [A Neural Attention Model for Abstractive Sentence Summarization](https://arxiv.org/abs/1509.00685) 5. [BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension](https://arxiv.org/abs/1910.13461) ## 2021-11-29 记录 戴挺:看了几篇论文,相信,网页上的代码,目前没有结果,把作业写完,前端,周三之前确定模型 林大鸽:啥都没干,研究现状,开始写实验报告 我:写前端、找代码,确定模型 ## 2021-12-19 戴挺:没有意义,不要做了