.NET Core Community 爬虫 DotnetSpider

一、前言

目前市场上爬虫框架有很多,不同语言不同类型的爬虫框架都有,然而在开发预研的时候对于选择那种 
框架对于很多开发者来说尤为头疼; 
本篇主要总结一下市场上主流的开发语言中有哪些主流的爬虫框架,以及爬虫框架的优劣;希望在对你在选择合适爬虫框架中有所帮助。

二、主流语言爬虫框架列表

常用爬虫框架列表

C# Java PYTHON PHP C/C++
DotnetSpider Apache Nutch2 scrapy phpspider open-source-search-engine
NWebCrawler webmagic Crawley Beanbun Cobweb
SmartSpider Heritrix Portia PHPCrawl upton
Abot WebCollector PySpider php selenium wombat
xNet crawler4j grab   Spidr
AngleSharp Spiderman cola   Larbin
HtmlAgilityPack SeimiCrawler python selenium    
CSQuery java selenium      
         

三、主流爬虫框架简介

DotnetSpider爬虫框架:

DotnetSpider 至力于打造一个轻量化、高效率、易开发、可管理的一体化爬虫框架。它的核心要素是URL调度、基本的网页内容下载器、基于爬虫实体类的爬虫实现模式、常用数据库的支持、多线程的支持、状态的监控、运行日志、网页端管理。

DotnetSpider 具有相当高的可定制性,支持包括 MSSQL、MySQL、PostgreSQL、MongoDB 在内的多种数据库,文档(目录?)齐全,样例丰富、通俗易懂,同时还自带了 Web Manager(依赖于作者的另一个项目 Scheduler.NET)

项目:https://github.com/dotnetcore/DotnetSpider
Web Manager:https://github.com/zlzforever/DotnetSpider.Hub
Scheduler.NET:https://github.com/zlzforever/Scheduler.NET

授权:GPL-3.0
Wiki:https://github.com/dotnetcore/DotnetSpider/wiki

作者:Zlzforever
GitHub:https://github.com/zlzforever
QQ群:477731655

DotnetSpider 自加入 NCC 起始终坚持不懈的更新、完善,作者帅气、为人风趣幽默;项目日趋成熟、追求完美,于 2018 年 5 月下旬成为 NCC 第三个星数破千的项目,值得祝贺。为此,经 NCC 授权,由 AlexLEWIS 赠送 DotnetSpider 作者 Zlzforever 先生图书一本。所以在.Net下通过使用上述框架可以快速完成爬虫程序的开发。

你可能感兴趣的:(爬虫)