爬虫学习(4)——专利下载实战

1、美国专利局专利批量下载

美国专利及商标局这个网站 https://www.uspto.gov/
搜索页面:http://patft.uspto.gov/netahtml/PTO/index.html

爬虫学习(4)——专利下载实战_第1张图片
image.png

这里的关键是如何通过一次次的跳转获得pdf的下载链接,整个流程是这样的:
1、先根据关键字搜索获得相关专利名称,根据专利名称可以获得检索号
2、从检索号可以找到对应的单页预览pdf链接
3、从单页pdf网页可以获得完整pdf的链接
美国专利局里1.pdf为单页的预览,0.pdf为完整版本的pdf文件

过程的实现可以参阅参考资料【1】
原作者代码的问题在于没有进行headers的设置,导致无法获取跳转数据

一个可以跑通的代码可见git地址:
美国专利局下载

附:
国内外论文、专利下载网站资源收集(不断更新中):
https://www.jianshu.com/p/cec9576a72b2

参考资料
【1】https://blog.csdn.net/u010256153/article/details/53082008 批量下载指定公司专利信息
【2】https://www.jianshu.com/p/0136fd926b41 爬虫学习之浏览器伪装技术

你可能感兴趣的:(爬虫学习(4)——专利下载实战)