爬虫工程师基本功,什么是静态网页与动态网页

文章目录

  • 一、静态网页
    • 静态网页
  • 二、动态网页

一、静态网页

静态网页

静态网页就是直接固定的数据,数据直接是在Html返回的时候,Html中已经包含了相应的数据,这个数据对爬虫来说最友好的。爬虫只需要请求数据,不用再去单独的分析,将请求直接从页面中去提取出数据。像百度百科,维基百科这种实际上很少变动,偶尔编辑一次这种页面就非常适合用来做静态网页。

静态网页相对的几个最重要的优点,就是它相对稳定,静态网页的内容相对固定,且不需要连接后台数据库,因此响应速度非常快,更利于SEO,像百度搜索引擎,道理也是一样的。它们查数据也会简单很多。因为像百度谷歌这种搜索引擎,因为它们爬取的网站太多了,它们不可能针对每个网站去分析它们的请求,所以它们一般直接分析HTML返回的内容是什么,它就是什么。如果做的内容尽量直接展示在HTML讲义当中。爬虫它就能够直接爬取这些数据,然后网站的排名就会上升。

静态网页是网站建设的基础,早期的网站一般都是由静态网页制作的。静态并非静止不动,它也包含一些动画效果,这一点不要误解

二、动态网页

动态网页就是有交互的网页,比如数据通过ajax请求动态加载了数据。动态网页体验好,数据部分加载,对服务器友好,扩展性好

什么是服务器友好呢?

假如静态网页展示的内容和动态网页展示的内容是一样的,有一部分内容动态网页通过某些请求,服务器就可以尽快的返回简单的Html。
它能够先展示出来的部分就会先展示出来,所以对服务器来说就比较友好,服务器的压力不会过大。
如果是静态网页,它也需要同样的内容的,就意味着服务端必须将所有的数据组装好了之后才能够返回。这样服务器可能就会响应比较慢

什么是扩展性好?

动态页面上很多数据分成很多接口来完成,这样就可以做成APP,去做小程序等多端服务,就不需要再做额外的开发了

注意:一般网站通常会使用动静相结合的方式,使其达到一种平衡的状态。

抓取动态网页的过程较为复杂,需要通过动态抓包来获取客户端与服务器交互的 JSON 数据。抓包时,可以使用谷歌浏览器开发者模式(快捷键:F12)Network选项,然后点击 XHR,找到获取 JSON 数据

爬虫工程师基本功,什么是静态网页与动态网页_第1张图片

Network`选项 : 查看网络请求
XHR : 抓取与服务器的交互数据
左侧栏 : 抓取的数据包
标签栏 :网络请求信息,响应信息等

也可以使用专业的抓包工具 Fiddler

你可能感兴趣的:(爬虫,前端)