Python爬虫基础

什么是爬虫
一个自动从网络获取数据的程序

爬虫能干什么
新闻数据: 今日头条
机器学习: 股票数据获取及分析
网络搜索引擎的一个部件

目标
理解网络爬虫基础知识,会使用Python的一些标准库,如urlib / urlib2 / requests 实现简单的爬虫应用。
掌握爬虫程序的结构和设计原则
掌握爬虫程序的调试工具和技巧

具体掌握
Http协议介绍
Python标准库里对Http的实现及其用法
正则表达式,用来对爬下来的内容进行初步分析,获取我们想要的数据
多线程用来提高爬虫的执行效率,分布式爬虫简洁
实例:文本数据,图片数据,AJAX数据

你可能感兴趣的:(Python爬虫基础)