(三)爬虫小结

有时候我们需要收集一些网络上的公开信息 ,但手工收集显得我们太low了。作为一名软件工程的学子,当然是要用代码来爬取信息。这时候,我们往往就需要爬虫技术了。

  • 准备工作
  1. 学习python3基本语法

  2. 安装requests、BeautifulSoup或selenium

  3. 了解http和html

  • 特点

    • selenium
    1. 万能的爬虫。因为selenium本身就是打开一个浏览器,所以所有看得到的内容都可以爬取
    2. 浏览器测试自动化工具。很容易完成鼠标点击,翻页等动作
    3. 易于调试。我们的每步操作都可以显示出来,降低debug难度
    4. 常常需要使用xpath来定位元素(可通过浏览器中“审查元素”选中元素再查找xpath)
    5. 缺点是一次只能加载一个页面,无法异步渲染页面,也就限制了selenium爬虫的抓取效率
    • requests
    1. 速度快
    2. 常常需要使用BeautifulSoup来定位元素
    3. 缺点是无法爬取网页中动态渲染的内容
  • 文档地址

selenium中文文档
xpath教程
requests中文文档
BeautifulSoup中文文档

你可能感兴趣的:(python,python,小爬虫)