网络爬虫综述

什么是网络爬虫

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

网络爬虫的应用

网络爬虫的前世今生

Python爬虫框架简介

beautifulsoup4

Scrapy框架

学习网站

  • Scrapy入门教程
    http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html

Crawley框架

Crawley也是Python开发出的爬虫框架,该框架致力于改变人们从互联网中提取数据的方式。

Portia框架

Portia框架是一款允许没有任何编程基础的用户可视化地爬取网页的爬虫框架

newspaper框架

newspaper框架是一个用来提取新闻、文章以及内容分析的Python爬虫框架

参考文献

  • 《Python网络数据采集》
  • 百度百科
    https://baike.baidu.com/item/%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB/5162711?fr=aladdin

你可能感兴趣的:(网络爬虫)