# inter_game **Repository Path**: matrix_challenger/inter_game ## Basic Information - **Project Name**: inter_game - **Description**: 爬虫项目 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2018-02-14 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README

inter比赛数据抓取文档

**简介:** 该项目包含了所有的网站数据抓取,每一个网站对应一个爬虫。 安装 ---- ``` $ pip install -r requirements.txt ``` **ps.** 主要就是```scrapy```的安装,具体查看[scrapy安装教程](https://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/install.html) * 安装[MySQL5.6](https://dev.mysql.com/downloads/mysql/) * IDE可以和我一样使用[PyCharm](https://www.jetbrains.com/pycharm/download/) * MySQL可视化工具使用[Navicat](https://www.navicat.com/en/download/navicat-premium?gclid=EAIaIQobChMIq6e2wOKp2QIVRbXACh0t6QezEAAYASAAEgLe5fD_BwE) 配置 ----- * 1 建表,在model目录下有个table.txt,里面有sql语句,直接复制到mysql去运行即可。 * 2 配置数据库信息,在model目录下有个config.ini,将自己的数据库信息填入其中即可。 * 3 在settings.py文件中,可以修改一些爬虫的设置,比较常用的是是否启动代理,**例如**: ``` DOWNLOADER_MIDDLEWARES = { 'inter_game_spider.middlewares.RandomUserAgent': 1, # 'inter_game_spider.middlewares.ProxyMiddleware': 2 } ``` 当前状态是关闭了代理的,如果ip被封了,最好启动代理,具体中间件参考```ProxyMiddleware```代码。 **ps.** 常用的设置,settings.py中已经给出,基本不需要修改,还有一个就是平台的设置和类型的定义,这个约定好就行,例如: ``` ''' 平台信息 ''' PLATFORM_INTERNATIONAL_BUSINESS_TIME = 1 PLATFORM_MARKET_WATCH = 2 PLATFORM_THE_STREET = 3 ''' 这条记录的类型 1:文章 2:评论 … ''' NEWS_TYPE_ARTICLE = 1 NEWS_TYPE_COMMENT = 2 ''' ``` * 4 还能在settings中设置是否开启日志,以及日志等级,项目中是关闭了的,如果要开启把注释去掉即可: ``` ''' from datetime import datetime LOG_FILE = 'logs/%s.log' % datetime.now().strftime("%Y-%m-%d") LOG_FORMAT = '%(levelname)s %(asctime)s [%(name)s:%(module)s:%(funcName)s:%(lineno)s] [%(exc_info)s] %(message)s' LOG_LEVEL = 'WARNING' ''' ``` 项目使用说明 ----------- * 在根目录下,每一个爬虫对应一个启动器,例如:thestreet网站,对应的就是run_thestreet_spider.py文件,直接运行该文件即可: ``` $ python run_thestreet_spider.py ``` * 查看数据库是否有信息即可... 注意事项 ------- * 运行时可能还是会有缺少模块,各种操作系统没法顾全,自行Google。 * 爬虫会有一定的数据丢失,会因为网速以及代理失效的缘故,还有就是有些网站```ibtimes```限制了只爬前1000页。 * 表中为空的信息可能是文章中没有文本,多是视频或者图片。 相关资料 ------- [scrapy中文文档](http://scrapy-chs.readthedocs.io/zh_CN/0.24/) [sql语句基础](http://www.w3school.com.cn/sql/index.asp) [scrapy安装教程](https://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/install.html)