Python+Selenium+BeautifulSoup网页爬虫,文件下载

1.Selenium是什么?
Web自动化测试框架,能模拟网页点击操作
http://seleniumhq.org/

2.PhantomJS
是一个而基于WebKit的服务端JavaScript API,支持Web而不需要浏览器支持,其快速、原生支持各种Web标准:Dom处理,CSS选择器,JSON等等。PhantomJS可以用用于页面自动化、网页截屏,以及无界面测试

3.BeautifulSoup是什么?
用于解析xml
BeautifulSoup 对象表示的是一个文档的全部内容
https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

  1. Aria2下载器
    https://www.jianshu.com/p/7c030484ac90

网页爬虫工具实现思路:
1.调用Selenium接口点击网页元素,进入需要爬取数据的页面。
2.BeautifulSoup解析页面,获取下载地址
3.执行aria2下载命令

你可能感兴趣的:(Python+Selenium+BeautifulSoup网页爬虫,文件下载)