我是如何分析CNKI上所有关于“齿轮”文章的?(一)CNKI爬虫记

作为一个二流大学的不会搞科研的二流穷逼博士,科研还是要搞一点,专业是齿轮,所以就想看看CNKI上关于“齿轮”的文章信息。有点python小基础,写个python 爬虫小工具,共享在Github上,各位需要自取,地址:https://github.com/spartajet/...

首先感谢这位大神的博客http://www.qiuqingyu.cn/2017/...,我是参照着大神代码写的,读了大神的代码,我自己写了一个,主要改进如下:

  1. 改为面向对象
  2. 改进了比如作者,年份,杂志,摘要的算法
  3. 数据存储在mysql中,用的批量插入,有利于后期的统计分析
  4. fix some bugs

做爬虫,首先要找个好的API,学校订购了CNKI的服务,但是从正常的页面,我没有发现好用的API,所以用的还是上面大神的API,地址:http://search.cnki.com.cn/def...

搜索页面如下图:

这个页面可以查到文章标题,部分摘要(不使用),文章来源,时间,文章类型(期刊、会议、硕士、博士)等

文章详情页面如下图:

这个页面可以获取到完整的摘要,但是没有关键字(比较遗憾)

你可能感兴趣的:(python爬虫)