python爬虫8:动态网页爬虫(今日头条区块链新闻)

一、动态网页概念与表现
静态网页是指一次性加载所有内容的网页,随着html代码的生成,页面的内容和显示效果基本上不发生变化-除非修改页面代码。直接从HTML源码中就能找到看到的数据和内容,然而并不是所有的网页都是这样的。
动态网页代码虽然没有变,但显示的内容却是可以随着时间、环境或数据库的操作的结果而发生改变。
如今日头条财经-股票页面
python爬虫8:动态网页爬虫(今日头条区块链新闻)_第1张图片
首先,没有翻页的页码,向下翻滚鼠标就可以了。
其次,网页上的内容是由JS生成而来,我们能够在浏览器上看得到,但是在HTML源码中却发现不了。网页的新闻在HTML源码中一条都找不到,全是由JS动态生成加载。
python爬虫8:动态网页爬虫(今日头条区块链新闻)_第2张图片
两种方法解决:
1、从网页响应中找到JS脚本返回的JSON数据;
2、使用Selenium对网页进行模拟访问

二、从网页响应中找到JS脚本返回的JSON数据
找到JS调用的数据接口,从数据接口中找到网页中最后呈现的数据。使用requests模块爬取动态网页数据
1. 观察动态页面

你可能感兴趣的:(爬虫及文本分析)