# OpenYspider

**Repository Path**: KeepBB1998/OpenYspider

## Basic Information

- **Project Name**: OpenYspider
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2020-03-17
- **Last Updated**: 2020-12-19

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# OpenYspider

百万级图片、视频爬虫 [开源版本]：tujidao.com、tangyun365.com、yalayi.com、rosmm88.com、mzsock.com、yande.re、m7.22c.im

## 绪论

图片爬虫并不是什么高技术的东西，想象一下，你从浏览器看到喜欢的图片，然后鼠标右键保存到本地。图片爬虫只不过是把这个过程以程序的方式来执行。

爬虫不能爬取你浏览不到的信息（除非你能猜到图片资源 url 的规律），如果你无法找到图片的 url，当然是无法爬取的（除非你穷举所有 url 的排列组合）。

一般来说，爬取图片网站分为三步:

1. 确定实体类（譬如一个相册），以便通过遍历来访问得到所有相册；
2. 获得相册中每张图片的 url 地址
3. 高速地下载图片到本地

这三步看起来十分容易，但其实在 9102 年的今天，很多网站都做了反爬处理，一般来说，并不会太容易得逞。

## 需求分析

1. 不要重复下载图片，而且图片名字要有意义，最好能够溯源（通过文件名保证唯一）
2. 爬取速度要快，不要重复爬取相同的内容（通过数据库做持久化保证唯一）
3. 下载速度要快，进程挂了的时候重新下载不需要过多的耗时（线程池）
4. 线程池中线程超时不释放导致占用线程池资源，降低效率

## 爬取网站

### 1 图集岛（原美图日） [ 1,631,937P / 522G ]

- 目标网站：[http://www.tujidao.com/](http://www.tujidao.com/)
- 特点：图片路径可遍历

### 2 唐韵文化 [ 5,159P / 5.84G ]

- 目标网站：[http://tangyun365.com/](http://tangyun365.com/)
- 特点：真实图片路径与缩略图图片路径对应

### 3 雅拉伊 [ 11,451P / 10.6G ]

- 目标网站：[https://www.yalayi.com/](https://www.yalayi.com/)
- 特点：会员付费 ￥ 30

### 4 ROSI [ 134,729P / 12.5G ]

- 目标网站：[https://www.rosmm88.com/](https://www.rosmm88.com/)
- 特点：会员付费 ￥ 6.00、网页通过 js 异步渲染反爬

### 5 MZSOCK [ 19,963P / 2.98G ]

- 目标网站：[http://mzsock.com/](http://mzsock.com/)
- 重复度高、相册分页

### 6 Y 站 [ 461,338P / 718G ]

- 目标网站：[https://yande.re/post](https://yande.re/post)
- 图片路径长、无相册概念

### 7 恋恋影视 [ 2,958V / 62G ]

- 目标网站：[http://m7.22c.im](http://m7.22c.im)
- 视频网站、每个请求带时间戳，无法持久化 URL、非会员限制单线程下载

## 成果展示

![](readme/图集岛爬虫（00001-10000）.png)
![](readme/图集岛爬虫（10001-20000）.png)
![](readme/图集岛爬虫（20001-27864）.png)
![](readme/唐韵爬虫.png)
![](readme/雅拉伊爬虫.png)
![](readme/ROSI爬虫.png)
![](readme/Mzsock爬虫.png)
![](readme/Yande爬虫.png)