爬虫简单实例

开发爬虫的步骤:

1.确定目标:(以百度百科为例子)
2.分析目标(抓取数据的策略,网站会不定期升级,所以定向网站抓取也需要修改策略)
  • URL 格式:页面的范围,不指定的话就会抓取不想关的数据,造成资源的浪费。
  • 数据格式:分析词条的标题和简介,这两个数据标签的格式。
  • 网页编码:指定网页的编码,才能正确解析
3.编写代码
4.执行爬虫数据的抓取

确定目标:

  • 目标:百度Python词条相关词条网页 - 标题和简介
  • 入口页:https://baike.baidu.com/item/Python/407313
  • URL格式:
    • 词条页面URL:/item/**(/item/词条名)
  • 数据格式
    • 标题:

      **

    • 简介:
      **
  • 页面编码:UTF-8

百度百科关于Python的1000个URLDemo

你可能感兴趣的:(爬虫简单实例)