网络爬虫项目搜集

工具整理

Python 爬虫的工具列表

项目

1、开源项目- > 网络爬虫

2、基于python爬虫并将其结果利用smtp协议发送至邮箱:每天一则段子
3、在服务器上配置运行(每天一则段子python程序)
4、Python实现简单的Web服务器
5、基于Python的WebServer
6、各种爬虫源码,可以直接在 神箭手云爬虫开发平台 上运行:
神箭手云爬虫开发平台 http://www.shenjianshou.cn
7、大量 python 爬虫源码分享–说说 python 爬虫这件小事
8、gooseeker:gooseeker集搜客即时模式网络爬虫项目

项目背景
在python 即时网络爬虫项目启动说明中我们讨论一个数字:程序员浪费在调测内容提取规则上的时间。 网络数据抓取的工作量有80%是在为各种网站的各种数据结构编写抓取规则。
所以我们发起了这个项目,把程序员从繁琐的调测规则中解放出来,投入到更高端的数据处理工作中。
GooSeeker发布基于xslt的内容提取器,xslt可以通过GooSeeker API获得,让大家能省掉90%的调测正则表达式或者XPath的时间
快速制作规则及获取规则提取器API
Python使用xslt提取网页数据

9、让你从零开始学会写爬虫的5个教程(Python)
10、Python的网页爬虫&文本处理&科学计&机器学习&数据挖掘工具集
11、简单实现python爬虫功能
12、webDriver爬取搜狗微信
13、python 爬取微信文章(搜狗为入口)
12、使用Python编写简单网络爬虫抓取视频下载资源
13、python爬取20000个单词音频
14、(python)下载喜马拉雅电台的音频
15、 从喜马拉雅听下载音频文件

博客

Python爬虫代理池
网络爬虫基本原理(一)
Python爬虫:一些常用的爬虫技巧总结
分布式下的爬虫Scrapy应该如何做-规则自动爬取及命令行下传参

你可能感兴趣的:(爬虫)