# OpenYspider **Repository Path**: KeepBB1998/OpenYspider ## Basic Information - **Project Name**: OpenYspider - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2020-03-17 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # OpenYspider 百万级图片、视频爬虫 [开源版本]:tujidao.com、tangyun365.com、yalayi.com、rosmm88.com、mzsock.com、yande.re、m7.22c.im ## 绪论 图片爬虫并不是什么高技术的东西,想象一下,你从浏览器看到喜欢的图片,然后鼠标右键保存到本地。图片爬虫只不过是把这个过程以程序的方式来执行。 爬虫不能爬取你浏览不到的信息(除非你能猜到图片资源 url 的规律),如果你无法找到图片的 url,当然是无法爬取的(除非你穷举所有 url 的排列组合)。 一般来说,爬取图片网站分为三步: 1. 确定实体类(譬如一个相册),以便通过遍历来访问得到所有相册; 2. 获得相册中每张图片的 url 地址 3. 高速地下载图片到本地 这三步看起来十分容易,但其实在 9102 年的今天,很多网站都做了反爬处理,一般来说,并不会太容易得逞。 ## 需求分析 1. 不要重复下载图片,而且图片名字要有意义,最好能够溯源(通过文件名保证唯一) 2. 爬取速度要快,不要重复爬取相同的内容(通过数据库做持久化保证唯一) 3. 下载速度要快,进程挂了的时候重新下载不需要过多的耗时(线程池) 4. 线程池中线程超时不释放导致占用线程池资源,降低效率 ## 爬取网站 ### 1 图集岛(原美图日) [ 1,631,937P / 522G ] - 目标网站:[http://www.tujidao.com/](http://www.tujidao.com/) - 特点:图片路径可遍历 ### 2 唐韵文化 [ 5,159P / 5.84G ] - 目标网站:[http://tangyun365.com/](http://tangyun365.com/) - 特点:真实图片路径与缩略图图片路径对应 ### 3 雅拉伊 [ 11,451P / 10.6G ] - 目标网站:[https://www.yalayi.com/](https://www.yalayi.com/) - 特点:会员付费 ¥ 30 ### 4 ROSI [ 134,729P / 12.5G ] - 目标网站:[https://www.rosmm88.com/](https://www.rosmm88.com/) - 特点:会员付费 ¥ 6.00、网页通过 js 异步渲染反爬 ### 5 MZSOCK [ 19,963P / 2.98G ] - 目标网站:[http://mzsock.com/](http://mzsock.com/) - 重复度高、相册分页 ### 6 Y 站 [ 461,338P / 718G ] - 目标网站:[https://yande.re/post](https://yande.re/post) - 图片路径长、无相册概念 ### 7 恋恋影视 [ 2,958V / 62G ] - 目标网站:[http://m7.22c.im](http://m7.22c.im) - 视频网站、每个请求带时间戳,无法持久化 URL、非会员限制单线程下载 ## 成果展示 ![](readme/图集岛爬虫(00001-10000).png) ![](readme/图集岛爬虫(10001-20000).png) ![](readme/图集岛爬虫(20001-27864).png) ![](readme/唐韵爬虫.png) ![](readme/雅拉伊爬虫.png) ![](readme/ROSI爬虫.png) ![](readme/Mzsock爬虫.png) ![](readme/Yande爬虫.png)