# xm-crawler-job
**Repository Path**: xmjun/xm-crawler-job
## Basic Information
- **Project Name**: xm-crawler-job
- **Description**: java爬虫的学习之路
- **Primary Language**: Java
- **License**: AFL-3.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No
## Statistics
- **Stars**: 0
- **Forks**: 0
- **Created**: 2020-02-27
- **Last Updated**: 2022-06-24
## Categories & Tags
**Categories**: Uncategorized
**Tags**: None
## README
# xm-crawler-job
#### 介绍
java爬虫的学习之路
## 使用的技术
1.HttpClient(网络请求)
1.1或者使用okhttp3 主要作用请求网页
1.2 最好设置请求头数据,模拟浏览器发起
1.3 设置代理服务器
2.Jsoup(页面解析)
2.1 页面解析技术: css选择器,xpath,正则表达式
3.高级技术:webmagic一个封装好的java爬虫框架.
### 特征:
- 简单的API,可快速上手
- 模块化的结构,可轻松扩展
- 提供多线程和分布式支持
### 下载:
最新版:[WebMagic-0.7.3](https://links.jianshu.com/go?to=https%3A%2F%2Fgithub.com%2Fcode4craft%2Fwebmagic%2Freleases%2Ftag%2FWebMagic-0.7.3)
### Maven依赖:
```xml
us.codecraft
webmagic-core
0.7.3
us.codecraft
webmagic-extension
0.7.3
```
详情:
https://www.jianshu.com/p/3b0b1b30aa0b