# inter_game
**Repository Path**: matrix_challenger/inter_game
## Basic Information
- **Project Name**: inter_game
- **Description**: 爬虫项目
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No
## Statistics
- **Stars**: 1
- **Forks**: 0
- **Created**: 2018-02-14
- **Last Updated**: 2020-12-19
## Categories & Tags
**Categories**: Uncategorized
**Tags**: None
## README
inter比赛数据抓取文档
**简介:** 该项目包含了所有的网站数据抓取,每一个网站对应一个爬虫。
安装
----
```
$ pip install -r requirements.txt
```
**ps.** 主要就是```scrapy```的安装,具体查看[scrapy安装教程](https://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/install.html)
* 安装[MySQL5.6](https://dev.mysql.com/downloads/mysql/)
* IDE可以和我一样使用[PyCharm](https://www.jetbrains.com/pycharm/download/)
* MySQL可视化工具使用[Navicat](https://www.navicat.com/en/download/navicat-premium?gclid=EAIaIQobChMIq6e2wOKp2QIVRbXACh0t6QezEAAYASAAEgLe5fD_BwE)
配置
-----
* 1 建表,在model目录下有个table.txt,里面有sql语句,直接复制到mysql去运行即可。
* 2 配置数据库信息,在model目录下有个config.ini,将自己的数据库信息填入其中即可。
* 3 在settings.py文件中,可以修改一些爬虫的设置,比较常用的是是否启动代理,**例如**:
```
DOWNLOADER_MIDDLEWARES = {
'inter_game_spider.middlewares.RandomUserAgent': 1,
# 'inter_game_spider.middlewares.ProxyMiddleware': 2
}
```
当前状态是关闭了代理的,如果ip被封了,最好启动代理,具体中间件参考```ProxyMiddleware```代码。
**ps.** 常用的设置,settings.py中已经给出,基本不需要修改,还有一个就是平台的设置和类型的定义,这个约定好就行,例如:
```
'''
平台信息
'''
PLATFORM_INTERNATIONAL_BUSINESS_TIME = 1
PLATFORM_MARKET_WATCH = 2
PLATFORM_THE_STREET = 3
'''
这条记录的类型 1:文章 2:评论 …
'''
NEWS_TYPE_ARTICLE = 1
NEWS_TYPE_COMMENT = 2
'''
```
* 4 还能在settings中设置是否开启日志,以及日志等级,项目中是关闭了的,如果要开启把注释去掉即可:
```
'''
from datetime import datetime
LOG_FILE = 'logs/%s.log' % datetime.now().strftime("%Y-%m-%d")
LOG_FORMAT = '%(levelname)s %(asctime)s [%(name)s:%(module)s:%(funcName)s:%(lineno)s] [%(exc_info)s] %(message)s'
LOG_LEVEL = 'WARNING'
'''
```
项目使用说明
-----------
* 在根目录下,每一个爬虫对应一个启动器,例如:thestreet网站,对应的就是run_thestreet_spider.py文件,直接运行该文件即可:
```
$ python run_thestreet_spider.py
```
* 查看数据库是否有信息即可...
注意事项
-------
* 运行时可能还是会有缺少模块,各种操作系统没法顾全,自行Google。
* 爬虫会有一定的数据丢失,会因为网速以及代理失效的缘故,还有就是有些网站```ibtimes```限制了只爬前1000页。
* 表中为空的信息可能是文章中没有文本,多是视频或者图片。
相关资料
-------
[scrapy中文文档](http://scrapy-chs.readthedocs.io/zh_CN/0.24/)
[sql语句基础](http://www.w3school.com.cn/sql/index.asp)
[scrapy安装教程](https://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/install.html)