# data-collection **Repository Path**: notre/data-collection ## Basic Information - **Project Name**: data-collection - **Description**: 文本语句处理,动态ik分词、自定义词典 - **Primary Language**: Java - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2023-02-09 - **Last Updated**: 2023-11-05 ## Categories & Tags **Categories**: Uncategorized **Tags**: Java, ik分词, SpringBoot ## README ## 一、环境准备 ### 前置环境 - jdk11 - maven - idea ### MongoDB - 安装mongodb - 使用admin用户创建名为`data-collection`的数据库,无需创建集合 - 修改application.properties配置文件 ``` spring.data.mongodb.host=127.0.0.1 spring.data.mongodb.port=27017 ``` - 开启了安全管理时 ``` spring.data.mongodb.password=xxx spring.data.mongodb.username=xxx ``` ### Redis - 安装redis - 修改application.properties配置文件 ``` spring.redis.host=127.0.0.1 spring.redis.port=6379 spring.redis.database=2 spring.redis.password=xxx ``` ## 二、使用说明 使用非常简单,请查看`src/test/java/com/qiandao/data_collection/DataCollectionApplicationTests.java`类 ## 三、文件说明 ### Excel源文件 请使用`src/main/resources/excel/DaCorp.xlsx`该路径下的源文件处理,由于分词后过滤脏数据的缘故,将数据中部分词语做了如下变更: - 1型糖尿病 -> 一型糖尿病 - 2型糖尿病 -> 二型糖尿病 ### 扩展词典 文件路径:`src/main/resources/dic/mydic.dic` ### 扩展停止词典 文件路径:`src/main/resources/dic/stop.dic` > 两个词典的配置直接影响到构建标签的准确性 ### 标签文件 根目录下`label.dic`即是当前版本所生成的标签,已在合理范围 ## 四、项目说明 > 该项目基于[ik分词器](https://github.com/blueshen/ik-analyzer)处理并构建文本标签,以提供后续团队使用 ### 项目流程([作图地址](https://www.processon.com/view/link/63e4f0f1f4c26f52a61df324)) ![](http://qiniu.chart.qiandao.space/202302/8635kY.png) ### 结果预览 > 按照目前的词典及筛选规则,一共提取出了1126个热度最高的标签 ![](http://qiniu.chart.qiandao.space/202302/btKk1n.png) ![](http://qiniu.chart.qiandao.space/202302/Vo3OTS.png)