# Crawler

**Repository Path**: sophiea/Crawler

## Basic Information

- **Project Name**: Crawler
- **Description**: 爬取古诗文网（https://so.gushiwen.org/gushi/tangshi.aspx）的网页信息 ，将每首古诗按标题，朝代，作者，正文的列属性存储到数据库中。
- **Primary Language**: Java
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 1
- **Forks**: 0
- **Created**: 2019-07-27
- **Last Updated**: 2023-07-15

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

## 项目名称
爬虫
## 项目描述
爬取古诗文网（https://so.gushiwen.org/gushi/tangshi.aspx）的网页信息
，将每首古诗按标题，朝代，作者，正文的列属性存储到数据库中。
## 使用技术
+ Java基础
+ 多线程
+ MySQL
+ JDBC
## 项目功能
+ 对特定网页以多线程的形式进行采集，解析，清洗，存储到数据库
## 项目实现
+ 采集：使用htmluint第三方工具进行页面采集，将其包装成我们想要的Page
+ 解析：对Page按照详情页和文档页两个方向进行解析，解析完成之后放入DataSet中
+ 清洗：从DataSet中取出来数据，放入到数据库中
+ 多线程调度
## 项目总结
+ 了解了htmluint的使用
+ 加深了对Java基础知识的掌握
+ 加深了对多线程的认识
+ 加深了JDBC编程的过程
+ 熟悉项目的开发流程（需求，分析，技术选择，设计，编码，测试，打包，发布）
+ 优化
   + 参数放入配置文件中去