# WSpider **Repository Path**: ahun/WSpider ## Basic Information - **Project Name**: WSpider - **Description**: a spider project to scratch web data. - **Primary Language**: HTML - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2020-02-27 - **Last Updated**: 2020-12-18 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # Introduction - SinaWSpider:Mini爬虫爬取新浪数据,详细步骤参见[新浪微博数据爬取Part 3:小爬虫的诞生](http://www.csuldw.com/2016/12/25/2016-12-25-sina-spider-user-data-part3/) - SinaLogin:模拟登录新浪微博,详细步骤参见[模拟新浪微博登录-原理分析到实现](http://www.csuldw.com/2016/11/10/2016-11-10-simulate-sina-login/) - ZhiHuPro:模拟登录知乎网,详细内容参见:[小试牛刀:使用Python模拟登录知乎](http://www.csuldw.com/2016/11/05/2016-11-05-simulate-zhihu-login/), # 子项目 ## Mini小爬虫 - conf.ini:用于配置proxies、headers等参数,其中Sina API的参数需设置成自己的; - dataEncode.py:用于模拟登录sina时提交的POST数据; - Logger.py:用于输出日志文件; - main.py:运行项目的入口文件; - myconf.py:加载配置文件; - SinaSpider.py:spider核心内容,主要是SinaClient类,内部方法说明如下 - switchUserAccount(self, userlist):用于切换用户账号,防止长时间爬取账号被禁 - login(self, username, password):根据用户名和密码登录sina微博 - getUserInfos(self, uid):根据用户ID获取用户个人信息 - getUserFollows(self, uid, params):根据用户ID 获取用户关注的用户ID列表 - getUserFans(self, uid, params):根据用户ID 获取粉丝ID列表 - getUserTweets(self, uid, tweets_all, params):根据用户ID 获取微博,tweets_all是一个list变量 - output:输出目录 ## 模拟登录知乎 文件介绍 - ZhiHuPro/zhiHuLogin.py - ZhiHuPro/WSpider.py:封装的WSpider类,包括日志输出函数 - ZhiHuPro/out:存放输出的网页 - ZhiHuPro/temp:存放验证码 ## 模拟登录新浪 文件介绍 - SinaLogin/dataEncode.py:用于对提交POST请求的数据进行编码处理 - SinaLogin/Logger.py:用于打印log - SinaLogin/SinaSpider.py:用于爬取sina微博数据的文件(主文件) - SinaLogin/out:用于存储输出文件 ## Contributor @author: [Diwei Liu](http://www.csuldw.com/about/) --- 此项目将在后续持续更新,敬请关注,喜欢就给个Star吧。