# 年报抽取流水线

**Repository Path**: Massami/annual_reports_extraction

## Basic Information

- **Project Name**: 年报抽取流水线
- **Description**: 用于抽取年报文档关键字段
- **Primary Language**: Python
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2024-04-07
- **Last Updated**: 2024-04-09

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

## . 使用手册

可以使用标注少量数据进行模型微调以进一步提升效果。

#### 代码结构

```shell
.
├── checkpoint          # 微调模型文件夹
├── data          # 标注数据文件夹
├── documents        # 待抽取文档文件夹
├── outputs       # 抽取结果文件夹
├── train       # 微调训练代码
└── config.yaml # 配置文件
└── process.py # 抽取代码
└── requirements.txt # 运行环境
└── schemas.json # 抽取实体类型预定义
└── word2vec_corpus.json # 词向量模型训练语料
```
#### 环境安装
- python=3.9.0
- requirements.txt

#### 直接使用
- 预定义抽取类型：schemas.json和word2vec_corpus.json（可修改抽取字段名，但要保持两个文件的一级关键字一致）
- 将待抽取的年报文档（pdf格式）放入documents文件夹下
- 运行process.py文件

#### 开启大语言模型进行融合学习
- 将config.yaml文件中`useLLM`字段设置为`true`，并且在`api_key`字段填入申请的`openai`的秘钥
- 运行process.py文件（生成的结果文件名自动加上`_with_llm`后缀

#### 标注数据进行微调
- 使用train/doccano.md中介绍的工具标注新的数据，并且导出生成新的训练数据集，放入data文件夹
- 使用train/finetune.py文件微调新的模型，生成放入checkponit/best_model文件夹下
- 将config.yaml文件中的`checkpoint`对应值改为`checkpoint/model_best`
- 运行process.py文件