tmxkwzy

开源爬虫汇总表

世界上已经成型的爬虫软件多达上百种，本文对较为知名及常见的开源爬虫软件进行梳理，按开发语言进行汇总，如下表所示。虽然搜索引擎也有爬虫，但本次我汇总的只是爬虫软件，而非大型、复杂的搜索引擎，因为很多兄弟只是想爬取数据，而非运营一个搜索引擎。

开源爬虫汇总表

开发语言	软件名称	软件介绍	许可证
Java	Arachnid	微型爬虫框架，含有一个小型HTML解析器	GPL
	crawlzilla	安装简易，拥有中文分词功能	Apache2
	Ex-Crawler	由守护进程执行，使用数据库存储网页信息	GPLv3
	Heritrix	严格遵照robots文件的排除指示和META robots标签	LGPL
	heyDr	轻量级开源多线程垂直检索爬虫框架	GPLv3
	ItSucks	提供swing GUI操作界面	不详
	jcrawl	轻量、性能优良，可以从网页抓取各种类型的文件	Apache
	JSpider	功能强大，容易扩展	LGPL
	Leopdo	包括全文和分类垂直搜索，以及分词系统	Apache
	MetaSeeker	网页抓取、信息提取、数据抽取工具包，操作简单	不详
	Playfish	通过XML配置文件实现高度可定制性与可扩展性	MIT
	Spiderman	灵活、扩展性强，微内核+插件式架构，通过简单的配置就可以完成数据抓取，无需编写一句代码	Apache
	webmagic	功能覆盖整个爬虫生命周期，使用Xpath和正则表达式进行链接和内容的提取	Apache
	Web-Harvest	运用XSLT、XQuery、正则表达式等技术来实现对Text或XML的操作，具有可视化的界面	BSD
	WebSPHINX	由两部分组成：爬虫工作平台和WebSPHINX类包	Apache
	YaCy	基于P2P的分布式Web搜索引擎	GPL
Python	QuickRecon	具有查找子域名名称、收集电子邮件地址并寻找人际关系等功能	GPLv3
	PyRailgun	简洁、轻量、高效的网页抓取框架	MIT
	Scrapy	基于Twisted的异步处理框架，文档齐全	BSD
C++	hispider	支持多机分布式下载, 支持网站定向下载	BSD
	larbin	高性能的爬虫软件，只负责抓取不负责解析	GPL
	Methabot	经过速度优化、可抓取WEB、FTP及本地文件系统	不详
	Methanol	模块化、可定制的网页爬虫，速度快	不详
C#	NWebCrawler	统计信息、执行过程可视化	GPLv2
	Sinawler	国内第一个针对微博数据的爬虫程序，功能强大	GPLv3
	spidernet	以递归树为模型的多线程web爬虫程序，支持以GBK (gb2312)和utf8编码的资源，使用sqlite存储数据	MIT
	Web Crawler	多线程，支持抓取PDF/DOC/EXCEL等文档来源	LGPL
	网络矿工	功能丰富，毫不逊色于商业软件	BSD
PHP	OpenWebSpider	开源多线程网络爬虫，有许多有趣的功能	不详
	PhpDig	适用于专业化强、层次更深的个性化搜索引擎	GPL
	Snoopy	具有采集网页内容、提交表单功能	GPL
	ThinkUp	采集推特、脸谱等社交网络数据的社会媒体视角引擎，可进行交互分析并将结果以可视化形式展现	GPL
	微购	可采集淘宝、京东、当当等300多家电子商务数据	GPL
ErLang	Ebot	可伸缩的分布式网页爬虫	GPLv3
Ruby	Spidr	可将一个或多个网站、某个链接完全抓取到本地	MIT

下面对这些软件具体说明

Java爬虫1. Arachnid

Arachnid是一个基于Java的web spider框架.它包含一个简单的HTML剖析器能够分析包含HTML内容的输入流.通过实现Arachnid的子类就能够开发一个简单的Web spiders并能够在Web站上的每个页面被解析之后增加几行代码调用。 Arachnid的下载包中包含两个spider应用程序例子用于演示如何使用该框架。

特点：微型爬虫框架，含有一个小型HTML解析器

许可证：GPL

2、crawlzilla

crawlzilla 是一个帮你轻松建立搜索引擎的自由软件，有了它，你就不用依靠商业公司的搜索引擎，也不用再烦恼公司內部网站资料索引的问题。

由 nutch 专案为核心，并整合更多相关套件，并卡发设计安装与管理UI，让使用者更方便上手。

crawlzilla 除了爬取基本的 html 外，还能分析网页上的文件，如（ doc、pdf、ppt、ooo、rss ）等多种文件格式，让你的搜索引擎不只是网页搜索引擎，而是网站的完整资料索引库。

拥有中文分词能力，让你的搜索更精准。

crawlzilla的特色与目标，最主要就是提供使用者一个方便好用易安裝的搜索平台。

授权协议： Apache License 2
开发语言： Java JavaScript SHELL
操作系统： Linux

项目主页： https://github.com/shunfa/crawlzilla
下载地址： http://sourceforge.net/projects/crawlzilla/

特点：安装简易，拥有中文分词功能

3、Ex-Crawler

Ex-Crawler 是一个网页爬虫，采用 Java 开发，该项目分成两部分，一个是守护进程，另外一个是灵活可配置的 Web 爬虫。使用数据库存储网页信息。

授权协议： GPLv3
开发语言： Java
操作系统：跨平台

特点：由守护进程执行，使用数据库存储网页信息

4、Heritrix

Heritrix 是一个由 java 开发的、开源的网络爬虫，用户可以使用它来从网上抓取想要的资源。其最出色之处在于它良好的可扩展性，方便用户实现自己的抓取逻辑。

Heritrix采用的是模块化的设计，各个模块由一个控制器类（CrawlController类）来协调，控制器是整体的核心。

代码托管：https://github.com/internetarchive/heritrix3

授权协议： Apache
开发语言： Java
操作系统： [url=]跨平台[/url]

特点：严格遵照robots文件的排除指示和META robots标签

5、heyDr

heyDr是一款基于java的轻量级开源多线程垂直检索爬虫框架，遵循GNU GPL V3协议。

用户可以通过heyDr构建自己的垂直资源爬虫，用于搭建垂直搜索引擎前期的数据准备。

授权协议： GPLv3
开发语言： Java
操作系统：跨平台

特点：轻量级开源多线程垂直检索爬虫框架

6、ItSucks

ItSucks是一个java web spider（web机器人，爬虫）开源项目。支持通过下载模板和正则表达式来定义下载规则。提供一个swing GUI操作界面。

特点：提供swing GUI操作界面

7、jcrawl

jcrawl是一款小巧性能优良的的web爬虫,它可以从网页抓取各种类型的文件,基于用户定义的符号,比如email,qq.

授权协议： Apache
开发语言： Java
操作系统：跨平台

特点：轻量、性能优良，可以从网页抓取各种类型的文件

8、JSpider

JSpider是一个用Java实现的WebSpider，JSpider的执行格式如下：

jspider http://，否则会报错。如� ... �用默认配置。

特点：网页抓取、信息提取、数据抽取工具包，操作简单

11、Playfish

playfish是一个采用java技术，综合应用多个开源java组件实现的网页抓取工具，通过XML配置文件实现高度可定制性与可扩展性的网页抓取工具

应用开源jar包包括httpclient(内容读取),dom4j（配置文件解析）,jericho（html解析），已经在 war包的lib下。

这个项目目前还很不成熟，但是功能基本都完成了。要求使用者熟悉XML，熟悉正则表达式。目前通过这个工具可以抓取各类论坛，贴吧，以及各类CMS系统。像Discuz!,phpbb,论坛跟博客的文章，通过本工具都可以轻松抓取。抓取定义完全采用XML，适合Java开发人员使用。

使用方法：

下载右边的.war包导入到eclipse中，
使用WebContent/sql下的wcc.sql文件建立一个范例数据库，
修改src包下wcc.core的dbConfig.txt，将用户名与密码设置成你自己的mysql用户名密码。
然后运行SystemCore,运行时候会在控制台，无参数会执行默认的example.xml的配置文件，带参数时候名称为配置文件名。

系统自带了3个例子，分别为baidu.xml抓取百度知道，example.xml抓取我的javaeye的博客，bbs.xml抓取一个采用 discuz论坛的内容。

授权协议： MIT
开发语言： Java
操作系统：跨平台

特点：通过XML配置文件实现高度可定制性与可扩展性

12、Spiderman

Spiderman 是一个基于微内核+插件式架构的网络蜘蛛，它的目标是通过简单的方法就能将复杂的目标网页信息抓取并解析为自己所需要的业务数据。

怎么使用？

首先，确定好你的目标网站以及目标网页（即某一类你想要获取数据的网页，例如网易新闻的新闻页面）

然后，打开目标页面，分析页面的HTML结构，得到你想要数据的XPath，具体XPath怎么获取请看下文。

最后，在一个xml配置文件里填写好参数，运行Spiderman吧！

授权协议： Apache
开发语言： Java
操作系统：跨平台

特点：灵活、扩展性强，微内核+插件式架构，通过简单的配置就可以完成数据抓取，无需编写一句代码

13、webmagic

webmagic的是一个无须配置、便于二次开发的爬虫框架，它提供简单灵活的API，只需少量代码即可实现一个爬虫。

webmagic采用完全模块化的设计，功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化)，支持多线程抓取，分布式抓取，并支持自动重试、自定义UA/cookie等功能。

webmagic包含强大的页面抽取功能，开发者可以便捷的使用css selector、xpath和正则表达式进行链接和内容的提取，支持多个选择器链式调用。

webmagic的使用文档：http://webmagic.io/docs/

查看源代码：http://git.oschina.net/flashsword20/webmagic

授权协议： Apache
开发语言： Java
操作系统：跨平台

特点：功能覆盖整个爬虫生命周期，使用Xpath和正则表达式进行链接和内容的提取。

备注：这是一款国产开源软件，由黄亿华贡献

14、Web-Harvest

Web-Harvest是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。Web-Harvest主要是运用了像XSLT,XQuery,正则表达式等这些技术来实现对text/xml的操作。

其实现原理是，根据预先定义的配置文件用httpclient获取页面的全部内容（关于httpclient的内容，本博有些文章已介绍），然后运用XPath、XQuery、正则表达式等这些技术来实现对text/xml的内容筛选操作，选取精确的数据。前两年比较火的垂直搜索（比如：酷讯等）也是采用类似的原理实现的。Web-Harvest应用，关键就是理解和定义配置文件，其他的就是考虑怎么处理数据的Java代码。当然在爬虫开始前，也可以把Java变量填充到配置文件中，实现动态的配置。

授权协议： BSD
开发语言： Java

特点：运用XSLT、XQuery、正则表达式等技术来实现对Text或XML的操作，具有可视化的界面

15、WebSPHINX

WebSPHINX是一个Java类包和Web爬虫的交互式开发环境。Web爬虫(也叫作机器人或蜘蛛)是可以自动浏览与处理Web页面的程序。WebSPHINX由两部分组成：爬虫工作平台和WebSPHINX类包。

授权协议：Apache

开发语言：Java

特点：由两部分组成：爬虫工作平台和WebSPHINX类包

16、YaCy

YaCy基于p2p的分布式Web搜索引擎.同时也是一个Http缓存代理服务器.这个项目是构建基于p2p Web索引网络的一个新方法.它可以搜索你自己的或全局的索引,也可以Crawl自己的网页或启动分布式Crawling等.

授权协议： GPL
开发语言： Java Perl
操作系统：跨平台

特点：基于P2P的分布式Web搜索引擎

Python爬虫17、QuickRecon

QuickRecon是一个简单的信息收集工具,它可以帮助你查找子域名名称、perform zone transfe、收集电子邮件地址和使用microformats寻找人际关系等。QuickRecon使用python编写，支持linux和 windows操作系统。

授权协议： GPLv3
开发语言： Python
操作系统： Windows Linux

特点：具有查找子域名名称、收集电子邮件地址并寻找人际关系等功能

18、PyRailgun

这是一个非常简单易用的抓取工具。支持抓取javascript渲染的页面的简单实用高效的python网页爬虫抓取模块

授权协议： MIT
开发语言： Python
操作系统：跨平台 Windows Linux OS X

特点：简洁、轻量、高效的网页抓取框架

备注：此软件也是由国人开放

github下载：https://github.com/princehaku/pyrailgun#readme

19、Scrapy

Scrapy 是一套基于基于Twisted的异步处理框架，纯python实现的爬虫框架，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便～

授权协议： BSD
开发语言： Python
操作系统：跨平台

github源代码：https://github.com/scrapy/scrapy

特点：基于Twisted的异步处理框架，文档齐全

C++爬虫20、hispider

HiSpider is a fast and high performance spider with high speed

严格说只能是一个spider系统的框架, 没有细化需求, 目前只是能提取URL, URL排重, 异步DNS解析, 队列化任务, 支持N机分布式下载, 支持网站定向下载(需要配置hispiderd.ini whitelist).

特征和用法:

基于unix/linux系统的开发
异步DNS解析
URL排重
支持HTTP 压缩编码传输 gzip/deflate
字符集判断自动转换成UTF-8编码
文档压缩存储
支持多下载节点分布式下载
支持网站定向下载(需要配置 hispiderd.ini whitelist )
可通过 http://127.0.0.1:3721/ 查看下载情况统计,下载任务控制(可停止和恢复任务)
依赖基本通信库libevbase 和 libsbase (安装的时候需要先安装这个两个库)、

工作流程:

从中心节点取URL(包括URL对应的任务号, IP和port,也可能需要自己解析)
连接服务器发送请求
等待数据头判断是否需要的数据(目前主要取text类型的数据)
等待完成数据(有length头的直接等待说明长度的数据否则等待比较大的数字然后设置超时)
数据完成或者超时, zlib压缩数据返回给中心服务器,数据可能包括自己解析DNS信息, 压缩后数据长度+压缩后数据, 如果出错就直接返回任务号以及相关信息
中心服务器收到带有任务号的数据, 查看是否包括数据, 如果没有数据直接置任务号对应的状态为错误, 如果有数据提取数据种link 然后存储数据到文档文件.
完成后返回一个新的任务.

授权协议： BSD

开发语言： C/C++

操作系统： Linux

特点：支持多机分布式下载, 支持网站定向下载

21、larbin

larbin是一种开源的网络爬虫/网络蜘蛛，由法国的年轻人 Sébastien Ailleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取，最后为搜索引擎提供广泛的数据来源。Larbin只是一个爬虫，也就是说larbin只抓取网页，至于如何parse的事情则由用户自己完成。另外，如何存储到数据库以及建立索引的事情 larbin也不提供。一个简单的larbin的爬虫可以每天获取５００万的网页。

利用larbin，我们可以轻易的获取/确定单个网站的所有链接，甚至可以镜像一个网站；也可以用它建立url 列表群，例如针对所有的网页进行 url retrive后，进行xml的联结的获取。或者是 mp3，或者定制larbin，可以作为搜索引擎的信息的来源。

授权协议： GPL
开发语言： C/C++
操作系统： Linux

特点：高性能的爬虫软件，只负责抓取不负责解析

22、Methabot

Methabot 是一个经过速度优化的高可配置的 WEB、FTP、本地文件系统的爬虫软件。

授权协议：未知
开发语言： C/C++
操作系统： Windows Linux

特点：过速度优化、可抓取WEB、FTP及本地文件系统

源代码：http://www.oschina.net/code/tag/methabot

C#爬虫23、NWebCrawler

NWebCrawler是一款开源，C#开发网络爬虫程序。

特性：

可配置：线程数，等待时间，连接超时，允许MIME类型和优先级，下载文件夹。
统计信息：URL数量，总下载文件，总下载字节数，CPU利用率和可用内存。
Preferential crawler：用户可以设置优先级的MIME类型。
Robust: 10+ URL normalization rules, crawler trap avoiding rules.

授权协议： GPLv2

开发语言： C#

操作系统： Windows

项目主页：http://www.open-open.com/lib/view/home/1350117470448

特点：统计信息、执行过程可视化

24、Sinawler

国内第一个针对微博数据的爬虫程序！原名“新浪微博爬虫”。

登录后，可以指定用户为起点，以该用户的关注人、粉丝为线索，延人脉关系搜集用户基本信息、微博数据、评论数据。

该应用获取的数据可作为科研、与新浪微博相关的研发等的数据支持，但请勿用于商业用途。该应用基于.NET2.0框架，需SQL SERVER作为后台数据库，并提供了针对SQL Server的数据库脚本文件。

另外，由于新浪微博API的限制，爬取的数据可能不够完整（如获取粉丝数量的限制、获取微博数量的限制等）

本程序版权归作者所有。你可以免费: 拷贝、分发、呈现和表演当前作品,制作派生作品。你不可将当前作品用于商业目的。

5.x版本已经发布！该版本共有6个后台工作线程：爬取用户基本信息的机器人、爬取用户关系的机器人、爬取用户标签的机器人、爬取微博内容的机器人、爬取微博评论的机器人，以及调节请求频率的机器人。更高的性能！最大限度挖掘爬虫潜力！以现在测试的结果看，已经能够满足自用。

本程序的特点：

6个后台工作线程，最大限度挖掘爬虫性能潜力！
界面上提供参数设置，灵活方便
抛弃app.config配置文件，自己实现配置信息的加密存储，保护数据库帐号信息
自动调整请求频率，防止超限，也避免过慢，降低效率
任意对爬虫控制，可随时暂停、继续、停止爬虫
良好的用户体验

授权协议： GPLv3

开发语言： C# .NET

操作系统： Windows

25、spidernet

spidernet是一个以递归树为模型的多线程web爬虫程序, 支持text/html资源的获取. 可以设定爬行深度, 最大下载字节数限制, 支持gzip解码, 支持以gbk(gb2312)和utf8编码的资源; 存储于sqlite数据文件.

源码中TODO:标记描述了未完成功能, 希望提交你的代码.

授权协议： MIT
开发语言： C#
操作系统： Windows

github源代码：https://github.com/nsnail/spidernet

特点：以递归树为模型的多线程web爬虫程序，支持以GBK (gb2312)和utf8编码的资源，使用sqlite存储数据

26、Web Crawler

mart and Simple Web Crawler是一个Web爬虫框架。集成Lucene支持。该爬虫可以从单个链接或一个链接数组开始，提供两种遍历模式：最大迭代和最大深度。可以设置过滤器限制爬回来的链接，默认提供三个过滤器ServerFilter、BeginningPathFilter和 RegularExpressionFilter，这三个过滤器可用AND、OR和NOT联合。在解析过程或页面加载前后都可以加监听器。介绍内容来自Open-Open

开发语言： Java
操作系统：跨平台
授权协议： LGPL

特点：多线程，支持抓取PDF/DOC/EXCEL等文档来源

27、网络矿工

网站数据采集软件网络矿工采集器（原soukey采摘）

Soukey采摘网站数据采集软件是一款基于.Net平台的开源软件，也是网站数据采集软件类型中唯一一款开源软件。尽管Soukey采摘开源，但并不会影响软件功能的提供，甚至要比一些商用软件的功能还要丰富。

授权协议： BSD
开发语言： C# .NET
操作系统： Windows

特点：功能丰富，毫不逊色于商业软件

PHP爬虫28、OpenWebSpider

OpenWebSpider是一个开源多线程Web Spider（robot：机器人，crawler：爬虫)和包含许多有趣功能的搜索引擎。

授权协议：未知
开发语言： PHP
操作系统：跨平台

特点：开源多线程网络爬虫，有许多有趣的功能

29、PhpDig

PhpDig是一个采用PHP开发的Web爬虫和搜索引擎。通过对动态和静态页面进行索引建立一个词汇表。当搜索查询时，它将按一定的排序规则显示包含关键字的搜索结果页面。PhpDig包含一个模板系统并能够索引PDF,Word,Excel,和PowerPoint文档。PHPdig适用于专业化更强、层次更深的个性化搜索引擎，利用它打造针对某一领域的垂直搜索引擎是最好的选择。

演示：http://www.phpdig.net/navigation.php?action=demo

授权协议： GPL
开发语言： PHP
操作系统：跨平台

特点：具有采集网页内容、提交表单功能

30、ThinkUp

ThinkUp 是一个可以采集推特，facebook等社交网络数据的社会媒体视角引擎。通过采集个人的社交网络账号中的数据，对其存档以及处理的交互分析工具，并将数据图形化以便更直观的查看。

授权协议： GPL
开发语言： PHP
操作系统：跨平台

github源码：https://github.com/ThinkUpLLC/ThinkUp

特点：采集推特、脸谱等社交网络数据的社会媒体视角引擎，可进行交互分析并将结果以可视化形式展现

31、微购

微购社会化购物系统是一款基于ThinkPHP框架开发的开源的购物分享系统，同时它也是一套针对站长、开源的的淘宝客网站程序，它整合了淘宝、天猫、淘宝客等300多家商品数据采集接口，为广大的淘宝客站长提供傻瓜式淘客建站服务，会HTML就会做程序模板，免费开放下载，是广大淘客站长的首选。

演示网址：http://tlx.wego360.com

授权协议： GPL

开发语言： PHP

操作系统：跨平台

ErLang爬虫32、Ebot

Ebot 是一个用 ErLang 语言开发的可伸缩的分布式网页爬虫，URLs 被保存在数据库中可通过 RESTful 的 HTTP 请求来查询。

授权协议： GPLv3
开发语言： ErLang
操作系统：跨平台

github源代码：https://github.com/matteoredaelli/ebot

项目主页： http://www.redaelli.org/matteo/blog/projects/ebot

特点：可伸缩的分布式网页爬虫

Ruby爬虫33、Spidr

Spidr 是一个Ruby 的网页爬虫库，可以将整个网站、多个网站、某个链接完全抓取到本地。

开发语言： Ruby
授权协议：MIT

特点：可将一个或多个网站、某个链接完全抓取到本地

你可能感兴趣的:(开源爬虫汇总表)

Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
在一台Ubuntu计算机上构建Hyperledger Fabric网络落叶无声9 区块链超级账本 Hyperledger fabric 区块链 ubuntu 构建 hyperledger fabric
在一台Ubuntu计算机上构建HyperledgerFabric网络Hyperledgerfabric是一个开源的区块链应用程序平台，为开发基于区块链的应用程序提供了一个起点。当我们提到HyperledgerFabric网络时，我们指的是使用HyperledgerFabric的正在运行的系统。即使只使用最少数量的组件，部署Fabric网络也不是一件容易的事。Fabric社区创建了一个名为Cello
GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
01-Git初识 Meereen Git git
01-Git初识概念：一个免费开源，分布式的代码版本控制系统，帮助开发团队维护代码作用：记录代码内容。切换代码版本，多人开发时高效合并代码内容如何学：个人本机使用：Git基础命令和概念多人共享使用：团队开发同一个项目的代码版本管理Git配置用户信息配置：用户名和邮箱，应用在每次提交代码版本时表明自己的身份命令：查看git版本号git-v配置用户名gitconfig--globaluser.name
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
你可能遗漏的一些C#/.NET/.NET Core知识点追逐时光者 C#.NET DotNetGuide编程指南 c#.net .netcore microsoft
前言在这个快速发展的技术世界中，时常会有一些重要的知识点、信息或细节被忽略或遗漏。《C#/.NET/.NETCore拾遗补漏》专栏我们将探讨一些可能被忽略或遗漏的重要知识点、信息或细节，以帮助大家更全面地了解这些技术栈的特性和发展方向。拾遗补漏GitHub开源地址https://github.com/YSGStudyHards/DotNetGuide/blob/main/docs/DotNet/D
【从浅识到熟知Linux】Linux发展史 Jammingpro 从浅学到熟知Linux linux 运维服务器
归属专栏：从浅学到熟知Linux个人主页：Jammingpro每日努力一点点，技术变化看得见文章前言：本篇文章记录Linux发展的历史，因在介绍Linux过程中涉及的其他操作系统及人物，本文对相关内容也有所介绍。文章目录Unix发展史Linux发展史开源Linux官网企业应用情况发行版本在学习Linux前，我们可能都会问Linux从哪里来？它是如何发展的。但在介绍Linux之前，需要先介绍一下Un
linux 发展史种树的猴子内核 java 操作系统 linux 大数据
linux发展史说明此前对linux认识模糊一知半解，近期通过学习将自己对于linux的发展总结一下方便大家日后的学习。那Linux是目前一款非常火热的开源操作系统，可是linux是什么时候出现的，又是因为什么样的原因被开发出来的呢。以下将对linux的发展历程进行详细的讲解。目录一、Linux发展背景二、UINIX的诞生三、UNIX的重要分支-BSD的诞生四、Minix的诞生五、GNU与Free
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
进销存小程序源码 PHP网络版ERP进销存管理系统全开源可二开摸鱼小号 php
可直接源码搭建部署发布后使用：一、功能模块介绍该系统模板主要有进，销，存三个主要模板功能组成，下面将介绍各模块所对应的功能；进：需要将产品采购入库，自动生成采购明细台账同时关联财务生成付款账单；销：是指对客户的销售订单记录，汇总生成产品销售明细及回款计划；存：库存的日常盘点与统计，库存下限预警、出入库台账、库存位置等。1.进购管理采购订单：采购下单审批→由上级审批通过采购入库；采购入库：货品到货>
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
python爬取微信小程序数据,python爬取小程序数据 2301_81900439 前端
大家好，小编来为大家解答以下问题，python爬取微信小程序数据，python爬取小程序数据，现在让我们一起来看看吧！Python爬虫系列之微信小程序实战基于Scrapy爬虫框架实现对微信小程序数据的爬取首先，你得需要安装抓包工具，这里推荐使用Charles，至于怎么使用后期有时间我会出一个事例最重要的步骤之一就是分析接口，理清楚每一个接口功能，然后连接起来形成接口串思路,再通过Spider的回调
metaRTC8.0，一个全新架构的webRTC SDK库 metaRTC webrtc 音视频
概述metaRTC8.0是metaRTC开源以来架构变化最大的一个版本，是metaIPC3.0等高性能的基础。metaRTC8.0是一个全新架构版本，并非在metaRTC7.0版本上简单升级，在QOS/语音对讲/内存占用/视频文件录制读取等方面新增多个模块，在弱网对抗/语音对讲/内存优化等效果上有显著提升。metaRTC8.0在一年多的开发中进行了近200次迭代，metaRTC8.0社区版计划在2
探索ASPICE V3.1：汽车行业软件开发的中文指南阮懿同
探索ASPICEV3.1：汽车行业软件开发的中文指南ASPICE_V3.1中文版.pdf.zip项目地址:https://gitcode.com/open-source-toolkit/422a2在汽车软件工程领域，高质量的标准对于确保行车安全和提升用户体验至关重要。今天，我们为您介绍一个珍贵的开源宝藏——ASPICEV3.1中文版资源。这是一篇专为国内汽车行业开发者、质量管理者准备的深度解读，旨
SpringBoot和SpringMVC是什么关系?SpringBoot替代SpringMVC了吗? 瑞金彭于晏 spring boot 后端 java MVC spring 数据库
SpringBoot和SpringMVC都是SpringFramework生态系统中的一部分，但它们各自扮演着不同的角色和提供不同的功能集。理解它们之间的关系，首先需要了解SpringFramework本身。SpringFrameworkSpringFramework是一个全面的、开源的应用程序开发框架，它提供了广泛的功能来支持企业应用开发的几乎所有方面。SpringFramework的核心特性之
Nginx：高性能的Web服务器与反向代理张某布响丸辣 nginx 前端服务器 java SpringBoot
在当今的互联网世界中，Web服务器的选择对于网站的性能、稳定性和安全性至关重要。Nginx（发音为“engineX”）凭借其卓越的性能、丰富的功能集和灵活的配置选项，成为了众多网站和应用程序的首选Web服务器和反向代理。本文将深入探讨Nginx的特点、应用场景、基本配置以及它如何助力你的Web项目。Nginx简介Nginx是一个开源的、高性能的HTTP和反向代理服务器，也是一个IMAP/POP3/
Rust是否会取代C/C++？Rust与C/C++的较量 AI与编程之窗源码编译与开发 rust c语言 c++内存安全并发编程代码安全性能优化
目录引言第一部分：Rust语言的优势内存安全性并发性性能社区和生态系统的成长第二部分：C/C++语言的优势和地位历史积淀和成熟度广泛的库和工具支持性能优化和硬件控制丰富的行业应用社区和行业支持第三部分：挑战和阻碍学习曲线现有代码库的迁移成本生态系统和工具链的完善度社区和人才培养行业应用和推广法规和标准化第四部分：未来趋势和可能性行业趋势教育和人才培养兼容和共存行业标准化企业支持和应用开源社区和生态
免费像素画绘制软件 | Pixelorama v1.0.3 dntktop 软件运维 windows
Pixelorama是一款开源像素艺术多工具软件，旨在为用户提供一个强大且易于使用的平台来创作各种像素艺术作品，包括精灵、瓷砖和动画。这款软件以其丰富的工具箱、动画支持、像素完美模式、剪裁遮罩、预制及可导入的调色板等特色功能，满足了像素艺术家们的各种需求。用户可以享受到动态工具映射、洋葱皮效果、帧标签、播放动画时绘制等高级功能，以及非破坏性的、完全可定制的图层效果，如轮廓、渐变映射、阴影和调色板化
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
python之pyecharts制作可视化数据大屏 cesske 大数据
文章目录前言一、安装Pyecharts二、创建Pyecharts图表三、设计大屏布局四、实时数据更新五、部署和展示总结前言使用Pyecharts制作可视化数据大屏是一个复杂但有趣的过程，因为Pyecharts本身是一个用于生成Echarts图表的Python库，而Echarts是由百度开发的一个开源可视化库，支持丰富的图表类型和高度自定义。然而，Pyecharts本身并不直接提供“大屏”的解决方案
大模型训练数据库Common Crawl WindyChanChan 数据集语言模型数据库
CommonCrawl介绍‌‌CommonCrawl是一个非营利组织，致力于通过大规模分布式爬虫系统定期抓取整个Web并将其存储在一个可公开访问的数据库中。CommonCrawl的数据收集和处理过程包括使用Python开源爬虫工具收集全球范围内的网站数据，并将其上传到‌CommonCrawl基金会的数据仓库中。该项目从2008年开始，至今已经积累了大量的原始网页数据、元数据和文本提取数据。这些数据
Python精选200Tips：121-125 AnFany Python200+Tips python 开发语言
Spendyourtimeonself-improvement121Requests-简化的HTTP请求处理发送GET请求发送POST请求发送PUT请求发送DELETE请求会话管理处理超时文件上传122BeautifulSoup-网页解析和抓取解析HTML和XML文档查找单个标签查找多个标签使用CSS选择器查找标签提取文本修改文档内容删除标签处理XML文档123Scrapy-强大的网络爬虫框架示例
爬虫技术抓取网站数据被限制怎么处理 Bearjumpingcandy 爬虫
爬虫技术用于抓取网站数据时，可能会遇到一些限制，常见的包括反爬机制、速率限制、IP封禁等。以下是应对这些情况的一些策略：尊重robots.txt：每个网站都有robots.txt文件，遵循其中的规定可以避免触犯网站的抓取规则。设置合理频率：控制爬虫请求的速度，通过添加延迟或使用代理服务器，减少对目标网站的压力。使用代理：获取并使用代理IP地址可以更换访问来源，降低被识别的可能性。模拟用户行为：使用
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓