python9:使用selenium爬取今日头条新闻

今日头条网页使用了异步加载技术,被加载的内容不能在源代码中找到。可以通过网页的开发者模式使用requests模块爬取动态网页数据。
通过下滑进行浏览,并没有分页的信息,而是一直浏览下去,而网址信息并没有改变。传统的网页不可能一次性加载如此庞大的信息,通过分析可判断该网页使用了异步加载技术。

1、谷歌浏览器的chromedriver的安装与检测
python9:使用selenium爬取今日头条新闻_第1张图片
2、获取源代码
(1)语法格式
初始化
from selenium import webdriver
driver = webdriver.Chrome()
ChromeDriver安装没有问题,()内可以不填写,否则要找到绝对路径。
如driver = webdriver.Chrome (r’D:\Python\Scripts\ChromeDriver’)

(2)打开网页
driver.get(‘https://www.toutiao.com’)
代码运行后会自动打开一个Chrome窗口.
练习1:

from selenium import webdriver
driver = webdriver.Chrome(

你可能感兴趣的:(爬虫及文本分析)