# web_week12_selenium **Repository Path**: zhuyijing_bwcx/web_week12_selenium ## Basic Information - **Project Name**: web_week12_selenium - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2021-05-30 - **Last Updated**: 2021-05-31 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # web_week12_selenium # selenium 抓取微信公众号文章 ### - **抓取过程及内容包括**: 1. 使用selenium进入微信公众平台 2. 在微信公众平台寻找指定的公众号 3. 抓取该公众号指定时间区间的文章(共55页数据) 3. 导出文章信息(包含标题,时间,文章url链接以及文章文本内容) --- ## 一、数据抓取意义 - 数据挖掘项目的基础是必须拥有足够的数据量,以提供有意义的数据参考和统计相关信息。获取数据信息作为第一阶段起着非常重要的作用,收集到的数据最初为非结构化的格式,这些数据必须被转换成结构化格式才能挖掘出关键性的数据信息。此时要求网络爬虫提高页面抓取的准确性,增加爬网的自适应能力从而有针对性的获取所需数据。 ## 二、项目问题及解决方案 1. 点击**加号代码报错**,解决办法: - 刷新浏览器 - 使用浏览器更改伪类的功能,选择悬停属性 2. 跳转**页码过大**,爬取时间过长 解决办法: 修改页码上限 ``` pages = list(range(l_e_int[0],l_e_int[-1]+1 )) print (l_e_int[0]==l_e_int[-1]) # 改页码上限 pages = pages[0:55] print(pages) ``` ## 三、具体数据 仅展示前10篇文章数据,更多数据请查看:人民日报公众号链接及文章内容.xlsx ![](https://gitee.com/zhuyijing_bwcx/web_week12_selenium/raw/master/%E8%A1%A8%E6%A0%BC.png)