# medical-crf **Repository Path**: bigear2021/medical-crf ## Basic Information - **Project Name**: medical-crf - **Description**: 基于CRF的医疗实体识别 - **Primary Language**: Python - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2021-09-30 - **Last Updated**: 2021-09-30 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 基于CRF的医疗实体识别 ## 作业要求 在这个项目中,我们对医疗文本做实体识别,这是一个经典的序列标注问题, 我们需要对文本里的每一个字做实体的标注,将使用两种不同的方法: - ```特征工程+CRF```: 这个方法针对于每一个字抽取一些特征,如这个字属于哪一个单词,这个字的前面一个字是什么,后面的字是什么等等。做完特征工程之后,我们就有了针对于每一个字的特征向量,之后把这些特征向量作为CRF的输入,并训练模型。 - ```利用LSTM-CRF```:这个方法可以认为,特征工程的部分由LSTM来做,所以我们在这个方法论下不需要做特征工程,所有特征是自动被LSTM模块学出来的,剩下的CRF部分保持不变。 你需要在标记为```TODO```的地方填写代码即可。 ## 文件说明 * 基于CRF的医疗实体识别.ipynb:主脚本。 * 基于CRF的医疗实体识别.pdf:操作手册。 * 数据源:[基于CRF的医疗实体识别(阿里云盘)](https://www.aliyundrive.com/s/eKEX7JbJyCr)。