# DataWJ_wxapp

**Repository Path**: jackonz2017/DataWJ_wxapp

## Basic Information

- **Project Name**: DataWJ_wxapp
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2020-07-17
- **Last Updated**: 2020-12-19

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# DataWJ_wxapp

#### 介绍
- 结合python和scrapy框架，从小程序社区网站中，爬取相应的文章咨询存储于wxapp.json文件中。
- [scrapyhub部署](https://app.scrapinghub.com/datasets/6V04xqqJXsM)

#### 项目名称
- 小程序社区咨询/观点文章部分scrapy框架爬虫

#### 数据信息
- json数据
- 页数：108
- 维度：title、 author、 pub_time、 content

#### 数据价值宣言
- 本项目产出以小程序社区文章、作者、发布时间、文章文本做维度挖掘的关于小程序社区的数据及文本，并使数据方便进行主题文本分析以解决关于小程序文章主题文本研究的问题。

#### 数据最小可用产品（MVP的数据加值）
##### 数据的维度
- title：文章标题
- author:作者
- pub_time：发布时间
- content：文章文字内容

##### 解决的问题
- 利用content维度文章文字内容进行主题文本分析，提取文章主要内容，对咨询内容进行关键词分类。
- 建立主题文本模型，分析其文本的不同内容分布情况。
- 利用pub_time时间维度找到各个时期小程序的发展重点，并以此研究小程序的流行发展趋势。

#### 挖掘Query参数
- page：页数

#### 思路方法及执行
1、在Anaconda Prompt搭建scrapy环境。
```
pip install scrapy
```

2、创建scrapy项目
- 输入"scrapy startproject wxapp"
```
scrapy startproject wxapp
```

3、创建spider文件
- CD命令到wxapp文件夹下，输入命令
```
scrapy genspider wxapp_spider
```

4、设置好爬虫名、域名与及入口url，然后在框架parse函数部分写入爬虫的解析方法，利用xpath对网页的信息进行抓取
```
start_urls = ['http://wxapp-union.com/portal.php?mod=list&catid=1&page=1']
```

5、然后在items.py进行一个单元的输出设置。
```
    ## 文章标题
    title = scrapy.Field()
    ## 作者
    author = scrapy.Field()
    ## 发布时间
    pub_time = scrapy.Field()
    ## 文章文本内容
    content = scrapy.Field()
```

#### 心得总结及感谢
- 数据挖掘是一门很好的课程，从一开始的直接对HTML结构进行简单的数据爬取，到现在利用xpath以及scrapy进行全自动的数据爬取流程，这其中遇到了很多困难，诸如最基础的代码硬伤，以及与反爬虫机制的斗智斗勇（伪造header以及设置时间间隔模仿正常用户的访问），虽然自己做出来的爬虫，离自己想象中那种如同万能钥匙的爬虫仍然有些差距，但我相信这只是我还未深入研究的问题，毕竟修行在个人。