第五章 爬虫进阶(十五) 2020-02-01

十五、 动态网页爬虫方案介绍


1、学会动态网页爬虫。

2、学会selenium库使用。


什么是动态网页爬虫


1、动态网页,是网站在不重新加载的情况下,通过ajax技术动态更新网站中的局部数据。比如拉勾网的职位页面,在换页的过程中,url是没有发生改变的,但是职位数据动态的更改了。

2、AJAX(Asynchronouse

JavaScipt And XML)异步JavaScipt和XML。前端与服务器进行少量数据交换,Ajax可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。传统的网页(不使用Ajax)如果需要更新内容,必须重载整个网页页面。因为传统的在传输数据格式方面,使用的是XML语法。因此叫做AJAX,其实现在数据交互基本上都是使用JSON。使用AJAX加载的数据,即使使用了JS,将数据渲染到了浏览器中,在右键->查看网页源代码还是不能看到通过ajax加载的数据,只能看到使用这个url加载的html代码。


动态网页爬虫的解决方案


1、直接分析ajax调用的接口。然后通过代码请求这个接口。

2、使用Selenium+chromedriver模拟浏览器行为获取数据。


第五章 爬虫进阶(十五) 2020-02-01_第1张图片
两种方案的优缺点


上一篇文章 第五章 爬虫进阶(十四) 2020-01-31 地址:

https://www.jianshu.com/p/a84cfd1ec83b

下一篇文章 第五章 爬虫进阶(十六) 2020-02-02 地址:

 https://www.jianshu.com/p/58d34df906f6



以上资料内容来源网络,仅供学习交流,侵删请私信我,谢谢。

你可能感兴趣的:(第五章 爬虫进阶(十五) 2020-02-01)