只要浏览器能浏览,我就能爬取——selenium+chrome

只要浏览器能浏览,我就能爬取。               ————一只快乐的小爬虫

静态网页的爬取只是基础部分,感觉核心就在于提取网页信息和应对反爬虫,关于这两个方面,我写了两篇文章:

python爬虫里信息提取的核心方法: Beautifulsoup Xpath 正则表达式

应对反爬虫最简单的策略——随机UA+递归request

很多网站都采取了动态网页,什么是动态网页呢,以最直观的图片网站来说,静态网页里面,页面上所有的元素都可以在html中找到,每个元素都对应着相关的信息,title、href、url、name等等一目了然,我要做的只是抓取和分析,继而提取有用的信息。而动态网页,只有你在浏览器中点击了确切的按钮才会加载出正确的信息,否则只是一个很短的html,里面没有我们所需要的title、href、url、name等信息。这时候就需要真正的浏览器上场了。selenium+chrome(firefox或者phathonJS也可以)基本上可以解决这个问题。

Python+Selenium WebDriver API:浏览器及元素的常用函数及变量整理总结(转载)

你可能感兴趣的:(只要浏览器能浏览,我就能爬取——selenium+chrome)