# web_week12_selenium

**Repository Path**: zhuyijing_bwcx/web_week12_selenium

## Basic Information

- **Project Name**: web_week12_selenium
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2021-05-30
- **Last Updated**: 2021-05-31

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# web_week12_selenium

# selenium 抓取微信公众号文章
### - **抓取过程及内容包括**：  
1. 使用selenium进入微信公众平台
2. 在微信公众平台寻找指定的公众号
3. 抓取该公众号指定时间区间的文章（共55页数据）
3. 导出文章信息（包含标题，时间，文章url链接以及文章文本内容）
---  

## 一、数据抓取意义  
- 数据挖掘项目的基础是必须拥有足够的数据量，以提供有意义的数据参考和统计相关信息。获取数据信息作为第一阶段起着非常重要的作用，收集到的数据最初为非结构化的格式，这些数据必须被转换成结构化格式才能挖掘出关键性的数据信息。此时要求网络爬虫提高页面抓取的准确性，增加爬网的自适应能力从而有针对性的获取所需数据。
  

## 二、项目问题及解决方案  


1. 点击**加号代码报错**，解决办法：
- 刷新浏览器
- 使用浏览器更改伪类的功能，选择悬停属性

2. 跳转**页码过大**，爬取时间过长 解决办法：
修改页码上限
```
pages = list(range(l_e_int[0],l_e_int[-1]+1 ))
print (l_e_int[0]==l_e_int[-1])
# 改页码上限
pages = pages[0:55]
print(pages)
```  


## 三、具体数据  
仅展示前10篇文章数据，更多数据请查看：人民日报公众号链接及文章内容.xlsx
![](https://gitee.com/zhuyijing_bwcx/web_week12_selenium/raw/master/%E8%A1%A8%E6%A0%BC.png)