# week9_Web_Mining **Repository Path**: NFUNM001/week9_Web_Mining ## Basic Information - **Project Name**: week9_Web_Mining - **Description**: No description available - **Primary Language**: HTML/CSS - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2020-05-17 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ## 项目名称:对腾讯研究院公众号的内容进行采集 * [ipynb代码文本链接](https://gitee.com/NFUNM001/week9_Web_Mining/blob/master/week9.ipynb) * [数据表下载链接](https://gitee.com/NFUNM001/week9_Web_Mining/blob/master/%E5%85%AC%E4%BC%97%E5%8F%B7_url_%E8%85%BE%E8%AE%AF%E7%A0%94%E7%A9%B6%E9%99%A2.xlsx) ## 数据加值宣言 * 本项目产出以微信公众平台为对象进行腾讯研究院微信公众号的信息抓取,以解决用户想根据关键词寻找相关文章内容的问题。 ## 数据的最小可用产品 ##### 数据维度 * 标题信息:腾讯研究院公众号前51页的所有文章题目 * 时间信息:腾讯研究院公众号推文发布的时间 * url信息:文章的超链接 * 关键词信息:'互联网','区块链','文化新消费'等关键词 ##### 核心价值(解决的问题) * 当用户想了解腾讯研究院公众号内所有与关键词"文化新消费"相关的文章,用户可以通过简单的关键词筛选方式来找到相应的文章url。 * 用户想了解腾讯研究院公众号内所有与关键词"数字孪生"相关的文章,用户可以通过简单的关键词筛选方式来找到相应的文章url。 * 用户想了解腾讯研究院公众号内所有与关键词"区块链"相关的文章,用户可以通过简单的关键词筛选方式来找到相应的文章url。 ## 挖掘微信公众号的基本信息 * rel_accounts中包含和腾讯研究院相关的公众号及其url。 * url_cat中包含腾讯研究院公众号内容信息的标题(title)、发布时间(create_time)、文章的url信息(link)、与及关键词变量(variable)。 * stats中包含关键词信息。