# Crawler **Repository Path**: sophiea/Crawler ## Basic Information - **Project Name**: Crawler - **Description**: 爬取古诗文网(https://so.gushiwen.org/gushi/tangshi.aspx)的网页信息 ,将每首古诗按标题,朝代,作者,正文的列属性存储到数据库中。 - **Primary Language**: Java - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2019-07-27 - **Last Updated**: 2023-07-15 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ## 项目名称 爬虫 ## 项目描述 爬取古诗文网(https://so.gushiwen.org/gushi/tangshi.aspx)的网页信息 ,将每首古诗按标题,朝代,作者,正文的列属性存储到数据库中。 ## 使用技术 + Java基础 + 多线程 + MySQL + JDBC ## 项目功能 + 对特定网页以多线程的形式进行采集,解析,清洗,存储到数据库 ## 项目实现 + 采集:使用htmluint第三方工具进行页面采集,将其包装成我们想要的Page + 解析:对Page按照详情页和文档页两个方向进行解析,解析完成之后放入DataSet中 + 清洗:从DataSet中取出来数据,放入到数据库中 + 多线程调度 ## 项目总结 + 了解了htmluint的使用 + 加深了对Java基础知识的掌握 + 加深了对多线程的认识 + 加深了JDBC编程的过程 + 熟悉项目的开发流程(需求,分析,技术选择,设计,编码,测试,打包,发布) + 优化 + 参数放入配置文件中去