inter比赛数据抓取文档

# inter_game

**Repository Path**: matrix_challenger/inter_game

## Basic Information

- **Project Name**: inter_game
- **Description**: 爬虫项目
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 1
- **Forks**: 0
- **Created**: 2018-02-14
- **Last Updated**: 2020-12-19

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

<h1>inter比赛数据抓取文档</h1>

**简介：** 该项目包含了所有的网站数据抓取，每一个网站对应一个爬虫。

安装
----

```
$ pip install -r requirements.txt
```

**ps.** 主要就是```scrapy```的安装,具体查看[scrapy安装教程](https://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/install.html)

* 安装[MySQL5.6](https://dev.mysql.com/downloads/mysql/)

* IDE可以和我一样使用[PyCharm](https://www.jetbrains.com/pycharm/download/)

* MySQL可视化工具使用[Navicat](https://www.navicat.com/en/download/navicat-premium?gclid=EAIaIQobChMIq6e2wOKp2QIVRbXACh0t6QezEAAYASAAEgLe5fD_BwE)


配置
-----

* 1 建表,在model目录下有个table.txt,里面有sql语句，直接复制到mysql去运行即可。

* 2 配置数据库信息，在model目录下有个config.ini，将自己的数据库信息填入其中即可。

* 3 在settings.py文件中，可以修改一些爬虫的设置，比较常用的是是否启动代理，**例如**:

```
DOWNLOADER_MIDDLEWARES = {
    'inter_game_spider.middlewares.RandomUserAgent': 1,
    # 'inter_game_spider.middlewares.ProxyMiddleware': 2
}
```

当前状态是关闭了代理的，如果ip被封了，最好启动代理，具体中间件参考```ProxyMiddleware```代码。

**ps.** 常用的设置，settings.py中已经给出，基本不需要修改，还有一个就是平台的设置和类型的定义，这个约定好就行，例如:

```
'''
平台信息
'''
PLATFORM_INTERNATIONAL_BUSINESS_TIME = 1
PLATFORM_MARKET_WATCH = 2
PLATFORM_THE_STREET = 3
'''
这条记录的类型 1:文章 2:评论 …
'''
NEWS_TYPE_ARTICLE = 1
NEWS_TYPE_COMMENT = 2

'''
```

* 4 还能在settings中设置是否开启日志，以及日志等级，项目中是关闭了的，如果要开启把注释去掉即可:

```
'''
from datetime import datetime
LOG_FILE = 'logs/%s.log' % datetime.now().strftime("%Y-%m-%d")
LOG_FORMAT = '%(levelname)s %(asctime)s [%(name)s:%(module)s:%(funcName)s:%(lineno)s] [%(exc_info)s] %(message)s'
LOG_LEVEL = 'WARNING'
'''
```


项目使用说明
-----------

* 在根目录下,每一个爬虫对应一个启动器，例如:thestreet网站，对应的就是run_thestreet_spider.py文件，直接运行该文件即可:

```
$ python run_thestreet_spider.py
```

* 查看数据库是否有信息即可...

注意事项
-------

* 运行时可能还是会有缺少模块，各种操作系统没法顾全，自行Google。

* 爬虫会有一定的数据丢失，会因为网速以及代理失效的缘故，还有就是有些网站```ibtimes```限制了只爬前1000页。

* 表中为空的信息可能是文章中没有文本，多是视频或者图片。


相关资料
-------

[scrapy中文文档](http://scrapy-chs.readthedocs.io/zh_CN/0.24/)

[sql语句基础](http://www.w3school.com.cn/sql/index.asp)

[scrapy安装教程](https://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/install.html)