# xm-crawler-job **Repository Path**: xmjun/xm-crawler-job ## Basic Information - **Project Name**: xm-crawler-job - **Description**: java爬虫的学习之路 - **Primary Language**: Java - **License**: AFL-3.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2020-02-27 - **Last Updated**: 2022-06-24 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # xm-crawler-job #### 介绍 java爬虫的学习之路 ## 使用的技术 1.HttpClient(网络请求) ​ 1.1或者使用okhttp3 主要作用请求网页 ​ 1.2 最好设置请求头数据,模拟浏览器发起 ​ 1.3 设置代理服务器 2.Jsoup(页面解析) ​ 2.1 页面解析技术: css选择器,xpath,正则表达式 3.高级技术:webmagic一个封装好的java爬虫框架. ### 特征: - 简单的API,可快速上手 - 模块化的结构,可轻松扩展 - 提供多线程和分布式支持 ### 下载: 最新版:[WebMagic-0.7.3](https://links.jianshu.com/go?to=https%3A%2F%2Fgithub.com%2Fcode4craft%2Fwebmagic%2Freleases%2Ftag%2FWebMagic-0.7.3) ### Maven依赖: ```xml us.codecraft webmagic-core 0.7.3 us.codecraft webmagic-extension 0.7.3 ``` 详情: https://www.jianshu.com/p/3b0b1b30aa0b