# 年报抽取流水线 **Repository Path**: Massami/annual_reports_extraction ## Basic Information - **Project Name**: 年报抽取流水线 - **Description**: 用于抽取年报文档关键字段 - **Primary Language**: Python - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2024-04-07 - **Last Updated**: 2024-04-09 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ## . 使用手册 可以使用标注少量数据进行模型微调以进一步提升效果。 #### 代码结构 ```shell . ├── checkpoint # 微调模型文件夹 ├── data # 标注数据文件夹 ├── documents # 待抽取文档文件夹 ├── outputs # 抽取结果文件夹 ├── train # 微调训练代码 └── config.yaml # 配置文件 └── process.py # 抽取代码 └── requirements.txt # 运行环境 └── schemas.json # 抽取实体类型预定义 └── word2vec_corpus.json # 词向量模型训练语料 ``` #### 环境安装 - python=3.9.0 - requirements.txt #### 直接使用 - 预定义抽取类型:schemas.json和word2vec_corpus.json(可修改抽取字段名,但要保持两个文件的一级关键字一致) - 将待抽取的年报文档(pdf格式)放入documents文件夹下 - 运行process.py文件 #### 开启大语言模型进行融合学习 - 将config.yaml文件中`useLLM`字段设置为`true`,并且在`api_key`字段填入申请的`openai`的秘钥 - 运行process.py文件(生成的结果文件名自动加上`_with_llm`后缀 #### 标注数据进行微调 - 使用train/doccano.md中介绍的工具标注新的数据,并且导出生成新的训练数据集,放入data文件夹 - 使用train/finetune.py文件微调新的模型,生成放入checkponit/best_model文件夹下 - 将config.yaml文件中的`checkpoint`对应值改为`checkpoint/model_best` - 运行process.py文件