作者:Prowebscraper 博客
译者:Rays
摘要: 说起爬虫框架,你可能会马上脱口而出:「 Scrapy 或者 Pyspider」,甚至你可能认为只有 Python 才能爬虫。其实还有很多好用的开源爬虫框架,也绝不仅仅只有 Python 才能写爬虫,大多数热门语言都可以做。
总之,开源 Web 爬虫纷繁多样,下面按照所用程语言,罗列五十种最好的开源爬虫框架,每一个各具特长,适用于不同场景和用户需求。下面来一睹为快。
简介:
特性:
– 官方文档:https://docs.scrapy.org/en/latest/
– 官方网站:https://scrapy.org/
简介:
特性:
– 官方文档:https://github.com/chineking/cola
– 官方网站:https://pypi.org/project/Cola/
简介:
特性:
– 官方文档:https://pythonhosted.org/crawley/
– 官方网站:http://project.crawley-cloud.com/
简介:
特性:
– 官方文档: https://mechanicalsoup.readthedocs.io/en/stable/
– 官方网站:https://mechanicalsoup.readthedocs.io/
简介:
特性:
– 官方文档: http://docs.pyspider.org/
– 官方网站:https://github.com/binux/pyspider
简介:
特性:
– 官方文档:https://portia.readthedocs.io/en/latest/index.html
– 官方网站: https://github.com/scrapinghub/portia
简介:
特性:
– 官方文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/
– 官方网站: https://www.crummy.com/software/BeautifulSoup/
简介:
特性:
– 官方文档:https://github.com/rivermont/spidy
– 官方网站: http://project.crawley-cloud.com/
简介:
特性:
– 官方文档:https://grablib.org/en/latest/
– 官方网站: https://github.com/lorien/grab
简介:
特性:
– 官方文档: https://wiki.apache.org/nutch/
– 官方网站: http://nutch.apache.org/
简介:
特性:
– 官方文档: https://github.com/internetarchive/heritrix3/wiki/Heritrix%203.0%20and%203.1%20User%20Guide
– 官方站: https://github.com/internetarchive/heritrix3b
简介:
特性:
– 官方文档: http://ache.readthedocs.io/en/latest/
– 官方网站: https://github.com/ViDA-NYU/ache
简介:
– 官方文档: https://github.com/yasserg/crawler4j
– 官方网站: https://github.com/yasserg/crawler4j
简介:
特性:
– 官方文档: https://github.com/xtuhcy/gecco
– 官方网站: https://github.com/xtuhcy/gecco
简介:
特性:
– 官方文档: http://law.di.unimi.it/software/bubing-docs/index.html
– 官方网站: http://law.di.unimi.it/software.php#bubing
简介:
特性:
– 官方文档: http://www.norconex.com/collectors/collector-http/getting-started
– 官方网站: http://www.norconex.com/collectors/collector-http/
简介:
特性:
– 官方文档: https://www.cs.cmu.edu/~rcm/websphinx/doc/index.html
– 官方网站: https://www.cs.cmu.edu/~rcm/websphinx/#about
简介:
特性:
– 官方网站: https://gitee.com/l-weiwei/spiderman
简介:
特性:
– 官方文档: https://github.com/CrawlScript/WebCollector
– 官方网站: https://github.com/CrawlScript/WebCollector
简介:
特性:
– 官方文档: http://webmagic.io/docs/en/
– 官方网站: https://github.com/code4craft/webmagic
简介:
特性:
– 官方文档: http://stormcrawler.net/docs/api/
– 官方网站: http://stormcrawler.net/
简介:
特性:
– 官方文档:https://github.com/bda-research/node-crawler
– 官方网站:http://nodecrawler.org/
简介:
特性:
– 官方文档: https://github.com/simplecrawler/simplecrawler
– 官方网站: https://www.npmjs.com/package/simplecrawler
简介:
– 官方文档: https://github.com/antivanov/js-crawler
– 官方网站: https://github.com/antivanov/js-crawler
简介:
– 官方文档: http://webster.zhuyingda.com/
– 官方网站: https://github.com/zhuyingda/webster
简介:
* 一种使用 NodeJS 实现的 HTML/XML 解析器和 Web 爬虫。
特性:
– 官方文档: https://rchipka.github.io/node-osmosis/global.html
– 官方网站: https://www.npmjs.com/package/osmosis
简介:
特性:
– 官方文档: https://github.com/brendonboshell/supercrawler
– 官方网站: https://github.com/brendonboshell/supercrawler
简介:
特性:
– 官方文档: https://www.webscraper.io/documentation
– 官方网站: https://www.webscraper.io
简介:
特性:
– 官方文档: https://github.com/yujiosaka/headless-chrome-crawler/blob/master/docs/API.md
– 官方网站: https://github.com/yujiosaka/headless-chrome-crawler
特性:
– 官方文档: https://github.com/matthewmueller/x-ray
– 官方网站: https://www.npmjs.com/package/x-ray-scraper
简介:
特性:
– 官方文档: http://www.httrack.com/html/index.html
– 官方网站: http://www.httrack.com/
简介:
特性:
– 官方文档: https://www.gnu.org/software/wget/manual/
– 官方网站: https://www.gnu.org/software/wget/
简介:
特性:
– 官方文档: http://www.gigablast.com/api.html
– 官方网站: http://www.gigablast.com/
简介:
特性:
– 官方文档: https://documentation.arachnode.net/index.html
– 官方网站: http://arachnode.net/
简介:
特性:
– 官方文档: https://github.com/sjdirect/abot
– 官方网站: https://github.com/sjdirect/abot
简介:
特性:
– 官方文档: https://github.com/ferventdesert/Hawk
– 官方网站: https://ferventdesert.github.io/Hawk/
简介:
– 官方文档: https://github.com/JonCanning/SkyScraper
– 官方网站: https://github.com/JonCanning/SkyScraper
简介:
– 官方文档: https://github.com/dotnetcore/DotnetSpider/wiki
– 官方网站: https://github.com/dotnetcore/DotnetSpider
简介:
– 官方文档: https://goutte.readthedocs.io/en/latest/
– 官方网站: https://github.com/FriendsOfPHP/Goutte
简介:
– 官方文档: https://symfony.com/doc/current/components/dom_crawler.html
– 官方网站: https://github.com/symfony/dom-crawler
简介:
– 官方文档: https://github.com/hightman/pspider
– 官方网站: https://github.com/hightman/pspider
简介:
特性:
– 官方文档: https://github.com/mvdbos/php-spider
– 官方网站: https://github.com/mvdbos/php-spider
简介:
– 官方文档: https://github.com/spatie/crawler
– 官方网站: https://github.com/spatie/crawler
简介:
– 官方文档: http://docs.seattlerb.org/mechanize/
– 官方网站: https://github.com/sparklemotion/mechanize
简介:
特性:
– 官方文档: http://go-colly.org/docs/
– 官方网站: http://go-colly.org/
特性:
– 官方文档: https://github.com/infinitbyte/gopa
– 官方网站: https://github.com/infinitbyte/gopa
简介:
特性:
– 官方文档: https://pholcus.gitbooks.io/docs/
– 官方网站: https://github.com/henrylee2cn/pholcus
简介:
– 官方文档: https://cran.r-project.org/web/packages/rvest/rvest.pdf
– 官方网站: https://github.com/hadley/rvest
简介:
特性:
– 官方文档: http://irds.usc.edu/sparkler/dev/development-environment-setup.html#contributing-source
– 官方网站: http://irds.usc.edu/sparkler/
简介:
– 官方文档: https://github.com/miyagawa/web-scraper
– 官方网站: https://github.com/miyagawa/web-scraper
以上罗列了 50 个不同编程语言下的不错爬虫框架/项目,感兴趣可以用用看。
英文原文: http://www.prowebscraper.com/blog/50-best-open-source-web-crawlers/
欢迎关注我的公众号:高级农民工,博客:高级农民工,阅读体验更好。