python3-爬虫爬取知网文献摘要

python爬虫批量爬取知网文献摘要

  1. 爬虫需要的库
    requests(给服务器发送请求接收目标内容)
    bs4中的BeautifulSoup(解析内容,缩小目标数据查找范围)
    re(准确获取目标数据)
  2. 分析网页
    爬取的目标内容:文献分类目录下的文献摘要
    python3-爬虫爬取知网文献摘要_第1张图片
    需要通过请求获取的内容:每一页的表格,其中的单个文本链接
    python3-爬虫爬取知网文献摘要_第2张图片
    打开web开发者工具在网络一栏找到显示目标数据的文件,获取url
    python3-爬虫爬取知网文献摘要_第3张图片
    python3-爬虫爬取知网文献摘要_第4张图片
    对表格进行翻页,获取相应页面url(点击翻页数字查看属性)
    python3-爬虫爬取知网文献摘要_第5张图片
    对url进行拼接结果如下:
    https://kns.cnki.net/kns/brief/brief.aspx?curpage=key&RecordsPerPage=50&QueryID=id&ID=&turnpage=key&tpagemode=L&dbPrefix=CFLQ&Fields=&DisplayMode=listmode&PageName=ASP.brief_result_aspx&isinEn=1&
    改变key值对页面翻页,改变id值获得不同标题下的文件信息
    单个页面的链接的爬取(方法详见BeautifulSoup的使用)
    python3-爬虫爬取知网文献摘要_第6张图片
    单个文件url的拼接:
    https://kns.cnki.net/KCMS/+(爬取到的a标签的href属性)
    单个页面中内容的爬取(详见BeautifulSoup的使用)
  3. 爬虫工具的使用
    文件名
    在这里插入图片描述
    QueryID和ctl
    python3-爬虫爬取知网文献摘要_第7张图片
    如上图例子中QueryID:7 ctl:8a9652c1-a5a7-4323-b855-026a22066677
    图片中标签的查找方法:对页面下方的页码进行元素查看
    cookie
    进入相应的url页面(url值详见上文页面分析),在开发者工具中打开网络,找到第一个文件cookie复制填入(填入结果如图)
    ![在这里插入图片描述](https://img-blog.csdnimg.cn/20200111102719987.jpg?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQzNzE3OTk3,size_16,color_FFFFFF,t_70

你可能感兴趣的:(爬虫项目)