# data-collection

**Repository Path**: notre/data-collection

## Basic Information

- **Project Name**: data-collection
- **Description**: 文本语句处理，动态ik分词、自定义词典
- **Primary Language**: Java
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2023-02-09
- **Last Updated**: 2023-11-05

## Categories & Tags

**Categories**: Uncategorized

**Tags**: Java, ik分词, SpringBoot

## README

## 一、环境准备

### 前置环境

- jdk11
- maven
- idea

### MongoDB

- 安装mongodb

- 使用admin用户创建名为`data-collection`的数据库，无需创建集合

- 修改application.properties配置文件

  ```
    spring.data.mongodb.host=127.0.0.1
    spring.data.mongodb.port=27017
    ```

    - 开启了安全管理时

  ```
    spring.data.mongodb.password=xxx
    spring.data.mongodb.username=xxx
    ```

### Redis

- 安装redis

- 修改application.properties配置文件

  ```
    spring.redis.host=127.0.0.1
    spring.redis.port=6379
    spring.redis.database=2
    spring.redis.password=xxx
    ```

## 二、使用说明

使用非常简单，请查看`src/test/java/com/qiandao/data_collection/DataCollectionApplicationTests.java`类

## 三、文件说明

### Excel源文件

请使用`src/main/resources/excel/DaCorp.xlsx`该路径下的源文件处理，由于分词后过滤脏数据的缘故，将数据中部分词语做了如下变更：

- 1型糖尿病  -> 一型糖尿病
- 2型糖尿病  -> 二型糖尿病

### 扩展词典

文件路径：`src/main/resources/dic/mydic.dic`

### 扩展停止词典

文件路径：`src/main/resources/dic/stop.dic`

> 两个词典的配置直接影响到构建标签的准确性

### 标签文件

根目录下`label.dic`即是当前版本所生成的标签，已在合理范围

## 四、项目说明

> 该项目基于[ik分词器](https://github.com/blueshen/ik-analyzer)处理并构建文本标签，以提供后续团队使用

### 项目流程（[作图地址](https://www.processon.com/view/link/63e4f0f1f4c26f52a61df324)）

![](http://qiniu.chart.qiandao.space/202302/8635kY.png)


### 结果预览

> 按照目前的词典及筛选规则，一共提取出了1126个热度最高的标签

![](http://qiniu.chart.qiandao.space/202302/btKk1n.png)


![](http://qiniu.chart.qiandao.space/202302/Vo3OTS.png)