python爬虫零基础实战

content

1.什么是爬虫?

2.为什么用python做网页爬虫

3.python环境配置

4.我需要了解哪些python爬虫的前置知识

5.关于正则表达式

6.提取网页内容并用正则表达式处理

7.xPath和BeautifulSoup工具简介

 

 

1.爬虫简介

简单来讲,爬虫就是一个探测机器,它的基本操作就是模拟人的行为去各个网站溜达,点点按钮,查查数据,或者把看到的信息背回来。就像一只虫子在一幢楼里不知疲倦地爬来爬去。

你可以简单地想象:每个爬虫都是你的“分身”。就像孙悟空拔了一撮汗毛,吹出一堆猴子一样。

你每天使用的百度,其实就是利用了这种爬虫技术:每天放出无数爬虫到各个网站,把他们的信息抓回来,然后化好淡妆排着小队等你来检索。
抢票软件,就相当于撒出去无数个分身,每一个分身都帮助你不断刷新 12306 网站的火车余票。一旦发现有票,就马上拍下来,然后对你喊:土豪快来付款。
--摘自知乎用户 史中
  互联网就像一张网,中间以各种链接连接在一起,而小小的爬虫却能在这张网上欢快的驰骋,代替人来进行很多繁重的任务,如抢票软件、某度搜索引擎。
 
 
 
2.为什么用python做网页爬虫
  python作为一门易上手的语言,提供了丰富的API来抓取网页文档、模拟浏览器行为、对抓取到的数据进行处理。后面我们的演示中也会展示python爬虫的简介,爬取网页内容的核心代码可能只有短短几行,却能实现强大的功能。
 
 
3.python环境配置
  对于新手来说,最熟悉的还是windows环境。我使用的是anaconda+pycharm进行python代码的编写,这里anaconda方便进行外部库的管理,而pycharm也是功能强大很流行的一款IDE。详细的配置过程参见博客:      anaconda和pycharm的安装与配置 。
 
4.我需要了解哪些python爬虫的前置知识
  至少会一点python的基础知识,如果不清楚的话,可以参加浙大翁恺的python慕课,或者自己找些介绍文档,如        python入门教程。同时需要了解关于html的一些基础知识,比如各种标签代表的含义:

:定义注释
 :定义文档类型
:html文档的总标签
:定义头部
:定义网页内容

你可能感兴趣的:(python爬虫零基础实战)