# web minning-CNKI实践 **Repository Path**: caimingli/web-mining-cnki-practice ## Basic Information - **Project Name**: web minning-CNKI实践 - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2021-06-16 - **Last Updated**: 2021-07-05 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # web minning-CNKI期末项目 ## 期末实践要求 - 1.提交ipynb档或者可执行.py项目文件 - 2.有较好的文档描述和数据描述(包含数据目标和数据结果描述) - 3.下载PDF原文,文章数量>800篇 ## 目标 - 主要目标:可对CNKI PDF文件进行依次下载,解决中间处理问题(并做描述) - 次要目标:数据分析(关键词替换)——数据可视化(VOSviewer--keywords_co-occurrence) ## 数据描述 ### 数据目标 - 设置query 为大数据和平台,使用VOSviewer对关键词可视化 ,更深入了解大数据和平台之间的关系 ### 数据结果分析 - VOSviewer ![输入图片说明](https://images.gitee.com/uploads/images/2021/0705/181000_1c4502ac_7604110.png "可视化.png") - 分析 人工智能与大数据的出现频率是最高的,其次有关于物联网和数字经济,区块链等新兴技术的也呈现这些领域的热门程度,同时关于数字化转型、精准扶贫粤港澳大湾区这些关乎国家政策和未来发展方向的领域,也是需要关注的 ## 项目问题及解决方案 ### 下载导出refworks文件 - 问题 在点击下载文件时显示错误 - 解决 通过[Selenium 浏览器自动化](https://www.selenium.dev/documentation/zh-cn/webdriver/browser_manipulation/)切换窗口位置 ``` driver.switch_to_window(driver.window_handles[2]) ``` ### url - 问题 前端页面里的URL 跟实际打开的URL不一样,直接访问直接链接到知网首页 - 解决 对比xpath的链接和正确链接,正确链接的前面是**https://kns.cnki.net/kcms/detail/detail.aspx?** ,两个链接中的FileName、DbName、Dbcode一样 ``` #获得xpath链接 href = [x for x in root.xpath('.//*[@id="gridTable"]/table/tbody/tr/td[2]/a/@href')] ## 通过拆分xpath链接后与前缀进行链接拼凑,得到正确的链接 c_link=['https://kns.cnki.net/kcms/detail/detail.aspx?'+x.split('&')[6]+'&'+x.split('&')[5]+'&'+x.split('&')[4] for x in href] c_link ``` - 问题 下载链接不完整 - 解决 在前面加'https://kns.cnki.net’ ### 验证码 - 问题 下载过程遇到验证码 - 解决 使用[图鉴API](http://www.ttshitu.com/docs/index.html?spm=null)进行识别验证码,出现验证码的情况,截取保存图片到本地