Python批量下载专利摘要

	本次受害者是万方(=。=),可怜的服务器设置了防御机制,并放量过大时会自动屏蔽对应的ip,因此需要定时更换ip的软件代替,也可以用手机做基站,定期插拔SIM卡。
	基本原理,需要事先制作一个excel表格,在A列列出所需下载的ipc主组,然后通过代码模拟浏览器按照IPC主组(如下图所示)逐个检索,每页50个专利(该数据库每次浏览的最大容量),并逐个浏览各专利,将html中的摘要内容存储到TXT文本中。
	thread模块的代码比较简单,会的同学自己加上就行了。这个代码就是request模块和bs4模块的简单用法。
![在这里插入图片描述](https://img-blog.csdnimg.cn/20191026140014793.jpg)
import requests
import openpyxl
import time
import os
import queue
import threading
import re
import random
from bs4 import BeautifulSoup
        for j in range(start_point,start_point+thread_range): 
              IPC= ws.cell(row=j,column=1).value#获取EXCEL中的值,第1列,第j行
              judge_path=dir + '/万方数据/'+ str(IPC[0])+'部/' + str(IPC) +'.txt'
              url='http://wanfangdata.com.cn/search/searchList.do?searchType=patent&searchWord=分类号:'+str(IPC)+'/'+'&facetField=$pub_org_code:CN&showType=detail&pageSize=50&facetName=中国:$pub_org_code&isHit=&isHitUnit=&navSearchType=patent&rangeParame=&page=1'
              headers={
   'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',
                        'X-Requested-With':'XMLHttpRequest'}
              data={
   'beetlansyId':'aysnsearch',
                    'searchType':'patent',
                    'pageSize':50,
                    'page':1,
                    'searchWord':'分类号:'+ str(IPC)+'/',
                    'order':'correlation',
                    'showType':'detail',
                    'isCheck':'check',
                    'isHit':'',
                    'isHitUnit':'',
                    'facetField':'$pub_org_code:CN',
                    'facetName':

你可能感兴趣的:(python,专利下载,python爬虫)