拿破轮

一共81个，开源大数据处理工具汇总(下)

接上一部分：一共81个，开源大数据处理工具汇总（上），第二部分主要收集整理的内容主要有日志收集系统、消息系统、分布式服务、集群管理、RPC、基础设施、搜索引擎、Iaas和监控管理等大数据开源工具。

日志收集系统

一、Facebook Scribe

贡献者：Facebook

简介：Scribe是Facebook开源的日志收集系统，在Facebook内部已经得到大量的应用。它能够从各种日志源上收集日志，存储到一个中央存储系统（可以是NFS，分布式文件系统等）上，以便于进行集中统计分析处理。它为日志的“分布式收集，统一处理”提供了一个可扩展的，高容错的方案。当中央存储系统的网络或者机器出现故障时，scribe会将日志转存到本地或者另一个位置，当中央存储系统恢复后，scribe会将转存的日志重新传输给中央存储系统。其通常与Hadoop结合使用，scribe用于向HDFS中push日志，而Hadoop通过MapReduce作业进行定期处理。

Scribe的系统架构

代码托管：https://github.com/facebook/scribe

二、Cloudera Flume

贡献者：Cloudera

简介：Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。

Flume提供了从console（控制台）、RPC（Thrift-RPC）、text（文件）、tail（UNIX tail）、syslog（syslog日志系统，支持TCP和UDP等2种模式），exec（命令执行）等数据源上收集数据的能力。

当前Flume有两个版本Flume 0.9X版本的统称Flume-og，Flume1.X版本的统称Flume-ng。由于Flume-ng经过重大重构，与Flume-og有很大不同，使用时请注意区分。

Cloudera Flume构架：

官网：http://flume.apache.org/

三、logstash

简介：logstash 是一个应用程序日志、事件的传输、处理、管理和搜索的平台。你可以用它来统一对应用程序日志进行收集管理，提供 Web 接口用于查询和统计。他可以对你的日志进行收集、分析，并将其存储供以后使用（如，搜索），您可以使用它。说到搜索，logstash带有一个web界面，搜索和展示所有日志。

官网：http://www.logstash.net/

四、kibana

简介：Kibana 是一个为 Logstash 和 ElasticSearch 提供的日志分析的 Web 接口。可使用它对日志进行高效的搜索、可视化、分析等各种操作。kibana 也是一个开源和免费的工具，他可以帮助您汇总、分析和搜索重要数据日志并提供友好的web界面。他可以为 Logstash 和 ElasticSearch 提供的日志分析的 Web 界面。

主页： http://kibana.org/

代码托管： https://github.com/rashidkpc/Kibana/downloads

消息系统

一、StormMQ

简介：MQMessageQueue消息队列产品 StormMQ，是一种服务程序。

官网：http://stormmq.com/

二、ZeroMQ

简介：这是个类似于Socket的一系列接口，他跟Socket的区别是：普通的socket是端到端的（1:1的关系），而ZMQ却是可以N：M 的关系，人们对BSD套接字的了解较多的是点对点的连接，点对点连接需要显式地建立连接、销毁连接、选择协议（TCP/UDP）和处理错误等，而ZMQ屏蔽了这些细节，让你的网络编程更为简单。ZMQ用于node与node间的通信，node可以是主机或者是进程。

引用官方的说法： “ZMQ(以下ZeroMQ简称ZMQ)是一个简单好用的传输层，像框架一样的一个socket library，他使得Socket编程更加简单、简洁和性能更高。是一个消息处理队列库，可在多个线程、内核和主机盒之间弹性伸缩。ZMQ的明确目标是“成为标准网络协议栈的一部分，之后进入Linux内核”。现在还未看到它们的成功。但是，它无疑是极具前景的、并且是人们更加需要的“传统”BSD套接字之上的一层封装。ZMQ让编写高性能网络应用程序极为简单和有趣。”

官网：http://zeromq.org/

三、RabbitMQ

简介：RabbitMQ是一个受欢迎的消息代理，通常用于应用程序之间或者程序的不同组件之间通过消息来进行集成。本文简单介绍了如何使用 RabbitMQ，假定你已经配置好了rabbitmq服务器。

RabbitMQ是用Erlang，对于主要的编程语言都有驱动或者客户端。我们这里要用的是Java，所以先要获得Java客户端。

像RabbitMQ这样的消息代理可用来模拟不同的场景，例如点对点的消息分发或者订阅/推送。我们的程序足够简单，有两个基本的组件，一个生产者用于产生消息，还有一个消费者用来使用产生的消息。

官网：https://www.rabbitmq.com/

四、Apache ActiveMQ

简介：ActiveMQ 是Apache出品，最流行的，能力强劲的开源消息总线。ActiveMQ 是一个完全支持JMS1.1和J2EE 1.4规范的 JMS Provider实现，尽管JMS规范出台已经是很久的事情了，但是JMS在当今的J2EE应用中间仍然扮演着特殊的地位。

特性：

⒈ 多种语言和协议编写客户端。语言: Java,C,C++,C#,Ruby,Perl,Python,PHP。应用协议： OpenWire,Stomp REST,WS Notification,XMPP,AMQP

⒉ 完全支持JMS1.1和J2EE 1.4规范（持久化，XA消息，事务)

⒊ 对Spring的支持，ActiveMQ可以很容易内嵌到使用Spring的系统里面去，而且也支持Spring2.0的特性

⒋ 通过了常见J2EE服务器（如 Geronimo,JBoss 4,GlassFish,WebLogic)的测试，其中通过JCA 1.5 resource adaptors的配置，可以让ActiveMQ可以自动的部署到任何兼容J2EE 1.4 商业服务器上

⒌ 支持多种传送协议：in-VM,TCP,SSL,NIO,UDP,JGroups,JXTA

⒍ 支持通过JDBC和journal提供高速的消息持久化

⒎ 从设计上保证了高性能的集群，客户端-服务器，点对点

⒏ 支持Ajax

⒐ 支持与Axis的整合

⒑ 可以很容易得调用内嵌JMS provider，进行测试

官网：http://activemq.apache.org/

五、Jafka

贡献者：LinkedIn

简介：Jafka 是一个开源的、高性能的、跨语言分布式消息系统，使用GitHub托管。Jafka 最早是由Apache孵化的Kafka（由LinkedIn捐助给Apache）克隆而来。由于是一个开放式的数据传输协议，因此除了Java开发语言受到支持，Python、Ruby、C、C++等其他语言也能够很好的得到支持。

特性：

1、消息持久化非常快，服务端存储消息的开销为O(1)，并且基于文件系统，能够持久化TB级的消息而不损失性能。

2、吞吐量取决于网络带宽。

3、完全的分布式系统，broker、producer、consumer都原生自动支持分布式。自动实现复杂均衡。

4、内核非常小，整个系统（包括服务端和客户端）只有一个272KB的jar包，内部机制也不复杂，适合进行内嵌或者二次开发。整个服务端加上依赖组件共3.5MB。

5、消息格式以及通信机制非常简单，适合进行跨语言开发。目前自带的Python3.x的客户端支持发送消息和接收消息。

官网：http://kafka.apache.org/

六、Apache Kafka

贡献者：LinkedIn

简介：Apache Kafka是由Apache软件基金会开发的一个开源消息系统项目，由Scala写成。Kafka最初是由LinkedIn开发，并于2011年初开源。2012年10月从Apache Incubator毕业。该项目的目标是为处理实时数据提供一个统一、高通量、低等待的平台。

Kafka是一个分布式的、分区的、多复本的日志提交服务。它通过一种独一无二的设计提供了一个消息系统的功能。

Kafka集群可以在一个指定的时间内保持所有发布上来的消息，不管这些消息有没有被消费。打个比方，如果这个时间设置为两天，那么在消息发布的两天以内，这条消息都是可以被消费的，但是在两天后，这条消息就会被系统丢弃以释放空间。Kafka的性能不会受数据量的大小影响，因此保持大量的数据不是一个问题。

官网：http://kafka.apache.org/

分布式服务

一、ZooKeeper

贡献者：Google

简介：ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、名字服务、分布式同步、组服务等。

ZooKeeper是以Fast Paxos算法为基础的，paxos算法存在活锁的问题，即当有多个proposer交错提交时，有可能互相排斥导致没有一个proposer能提交成功，而Fast Paxos作了一些优化，通过选举产生一个leader，只有leader才能提交propose，具体算法可见Fast Paxos。因此，要想弄懂ZooKeeper首先得对Fast Paxos有所了解。

架构：

官网：http://zookeeper.apache.org/

RPC

（Remote Procedure Call Protocol）——远程过程调用协议

一、Apache Avro

简介：Apache Avro是Hadoop下的一个子项目。它本身既是一个序列化框架，同时也实现了RPC的功能。Avro官网描述Avro的特性和功能如下：

丰富的数据结构类型；
快速可压缩的二进制数据形式；
存储持久数据的文件容器；
提供远程过程调用RPC；
简单的动态语言结合功能。

相比于Apache Thrift 和Google的Protocol Buffers，Apache Avro具有以下特点：

支持动态模式。Avro不需要生成代码，这有利于搭建通用的数据处理系统，同时避免了代码入侵。
数据无须加标签。读取数据前，Avro能够获取模式定义，这使得Avro在数据编码时只需要保留更少的类型信息，有利于减少序列化后的数据大小。

官网：http://avro.apache.org/

二、Facebook Thrift

贡献者：Facebook

简介：Thrift源于大名鼎鼎的facebook之手，在2007年facebook提交Apache基金会将Thrift作为一个开源项目，对于当时的facebook来说创造thrift是为了解决facebook系统中各系统间大数据量的传输通信以及系统之间语言环境不同需要跨平台的特性。

thrift可以支持多种程序语言，例如: C++, C#, Cocoa, Erlang, Haskell, Java, Ocami, Perl, PHP, Python, Ruby, Smalltalk. 在多种不同的语言之间通信thrift可以作为二进制的高性能的通讯中间件，支持数据(对象)序列化和多种类型的RPC服务。

Thrift适用于程序对程序静态的数据交换，需要先确定好他的数据结构，他是完全静态化的，当数据结构发生变化时，必须重新编辑IDL文件，代码生成，再编译载入的流程，跟其他IDL工具相比较可以视为是Thrift的弱项，Thrift适用于搭建大型数据交换及存储的通用工具，对于大型系统中的内部数据传输相对于JSON和xml无论在性能、传输大小上有明显的优势。

Thrift 主要由5个部分组成：

· 类型系统以及 IDL 编译器：负责由用户给定的 IDL 文件生成相应语言的接口代码

· TProtocol：实现 RPC 的协议层，可以选择多种不同的对象串行化方式，如 JSON, Binary。

· TTransport：实现 RPC 的传输层，同样可以选择不同的传输层实现，如socket, 非阻塞的 socket, MemoryBuffer 等。

· TProcessor：作为协议层和用户提供的服务实现之间的纽带，负责调用服务实现的接口。

· TServer：聚合 TProtocol, TTransport 和 TProcessor 几个对象。

上述的这5个部件都是在 Thrift 的源代码中通过为不同语言提供库来实现的，这些库的代码在 Thrift 源码目录的 lib 目录下面，在使用 Thrift 之前需要先熟悉与自己的语言对应的库提供的接口。

Facebook Thrift构架：

官网：http://thrift.apache.org/

集群管理

一、Nagios

简介：Nagios是一款开源的免费网络监视工具，能有效监控Windows、Linux和Unix的主机状态，交换机路由器等网络设置，打印机等。在系统或服务状态异常时发出邮件或短信报警第一时间通知网站运维人员，在状态恢复后发出正常的邮件或短信通知。

Nagios可运行在Linux/Unix平台之上，同时提供一个可选的基于浏览器的WEB界面以方便系统管理人员查看网络状态，各种系统问题，以及日志等等。

官网：http://www.nagios.org/

二、Ganglia

简介：Ganglia是UC Berkeley发起的一个开源集群监视项目，设计用于测量数以千计的节点。Ganglia的核心包含gmond、gmetad以及一个Web前端。主要是用来监控系统性能，如：cpu 、mem、硬盘利用率， I/O负载、网络流量情况等，通过曲线很容易见到每个节点的工作状态，对合理调整、分配系统资源，提高系统整体性能起到重要作用。

官网：http://ganglia.sourceforge.net/

三、Apache Ambari

简介：Apache Ambari是一种基于Web的工具，支持Apache Hadoop集群的供应、管理和监控。Ambari目前已支持大多数Hadoop组件，包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等。

Apache Ambari 支持HDFS、MapReduce、Hive、Pig、Hbase、Zookeper、Sqoop和Hcatalog等的集中管理。也是5个顶级hadoop管理工具之一。

Ambari主要取得了以下成绩：

通过一步一步的安装向导简化了集群供应。
预先配置好关键的运维指标（metrics），可以直接查看Hadoop Core（HDFS和MapReduce）及相关项目（如HBase、Hive和HCatalog）是否健康。
支持作业与任务执行的可视化与分析，能够更好地查看依赖和性能。
通过一个完整的RESTful API把监控信息暴露出来，集成了现有的运维工具。
用户界面非常直观，用户可以轻松有效地查看信息并控制集群。

Ambari使用Ganglia收集度量指标，用Nagios支持系统报警，当需要引起管理员的关注时（比如，节点停机或磁盘剩余空间不足等问题），系统将向其发送邮件。

此外，Ambari能够安装安全的（基于Kerberos）Hadoop集群，以此实现了对Hadoop 安全的支持，提供了基于角色的用户认证、授权和审计功能，并为用户管理集成了LDAP和Active Directory。

官网：http://ambari.apache.org/

基础设施

一、LevelDB

贡献者：Jeff Dean和Sanjay Ghemawat

简介：Leveldb是一个google实现的非常高效的kv数据库，目前的版本1.2能够支持billion级别的数据量了。在这个数量级别下还有着非常高的性能，主要归功于它的良好的设计。特别是LMS算法。LevelDB 是单进程的服务，性能非常之高，在一台4核Q6600的CPU机器上，每秒钟写数据超过40w，而随机读的性能每秒钟超过10w。

Leveldb框架：

官网：http://code.google.com/p/leveldb/

二、SSTable

简介：如果说Protocol Buffer是谷歌独立数据记录的通用语言，那么有序字符串表（SSTable，Sorted String Table）则是用于存储，处理和数据集交换的最流行的数据输出格式。正如它的名字本身，SSTable是有效存储大量键-值对的简单抽象，对高吞吐量顺序读/写进行了优化。

SSTable是Bigtable中至关重要的一块，对于LevelDB来说也是如此。

三、RecordIO

贡献者：Google

简介：我们大家都在用文件来存储数据。文件是存储在磁盘上的。如果在一些不稳定的介质上，文件很容损坏。即时文件某个位置出现一点小小的问题，整个文件就废了。

下面我来介绍Google的一个做法，可以比较好的解决这个问题。那就是recordio文件格式。recoidio的存储单元是一个一个record。这个record可以根据业务的需要自行定义。但Google有一种建议的处理方式就是使用protobuf。

reocordio底层的格式其实很简单。一个record由四部分组成：

MagicNumber (32 bits)
Uncompressed data payload size (64 bits)
Compressed data payload size (64 bits), or 0 if the data is not compressed
Payload, possibly compressed.

详细格式如下图所示：

到这里，大家可能已经知道，recordio之所以能对付坏数据，其实就是在这个MagicNumber（校验值）。

四、Flat Buffers

贡献者：Google

简介：谷歌开源高效、跨平台的序列化库FlatBuffers。

该库的构建是专门为游戏开发人员的性能需求提供支持，它将序列化数据存储在缓存中，这些数据既可以存储在文件中，又可以通过网络原样传输，而不需要任何解析开销。

FlatBuffers有如下一些关键特性——

访问序列化数据不需要打包/拆包
节省内存而且访问速度快——缓存只占用访问数据所需要的内存；不需要任何额外的内存。
灵活性——通过可选字段向前向后兼容
代码规模小
强类型——错误在编译时捕获，而不是在运行时
便利性——生成的C++头文件代码简洁。如果需要，有一项可选功能可以用来在运行时高效解析Schema和JSON-like格式的文本。
跨平台——使用C++编写，不依赖STL之外的库，因此可以用于任何有C++编辑器的平台。当前，该项目包含构建方法和在Android、Linux、Windows和OSX等操作系统上使用该库的示例。

与Protocol Buffers或JSON Parsing这样的可选方案相比，FlatBuffers的优势在于开销更小，这主要是由于它没有解析过程。

代码托管：https://github.com/google/flatbuffers

五、Protocol Buffers

贡献者：Google

简介：Protocol Buffers是Google公司开发的一种数据描述语言，类似于XML能够将结构化数据序列化，可用于数据存储、通信协议等方面。它不依赖于语言和平台并且可扩展性极强。现阶段官方支持C++、JAVA、Python等三种编程语言，但可以找到大量的几乎涵盖所有语言的第三方拓展包。

通过它，你可以定义你的数据的结构，并生成基于各种语言的代码。这些你定义的数据流可以轻松地在传递并不破坏你已有的程序。并且你也可以更新这些数据而现有的程序也不会受到任何的影响。

Protocol Buffers经常被简称为protobuf。

官网：http://code.google.com/p/protobuf/

六、Consistent Hashing（哈希算法）

简介：一致性哈希算法在1997年由麻省理工学院提出的一种分布式哈希（DHT）实现算法，设计目标是为了解决因特网中的热点(Hot spot)问题，初衷和CARP十分类似。一致性哈希修正了CARP使用的简单哈希算法带来的问题，使得分布式哈希（DHT）可以在P2P环境中真正得到应用。

一致性hash算法提出了在动态变化的Cache环境中，判定哈希算法好坏的四个定义：

1、平衡性(Balance)：平衡性是指哈希的结果能够尽可能分布到所有的缓冲中去，这样可以使得所有的缓冲空间都得到利用。很多哈希算法都能够满足这一条件。

2、单调性(Monotonicity)：单调性是指如果已经有一些内容通过哈希分派到了相应的缓冲中，又有新的缓冲加入到系统中。哈希的结果应能够保证原有已分配的内容可以被映射到原有的或者新的缓冲中去，而不会被映射到旧的缓冲集合中的其他缓冲区。

3、分散性(Spread)：在分布式环境中，终端有可能看不到所有的缓冲，而是只能看到其中的一部分。当终端希望通过哈希过程将内容映射到缓冲上时，由于不同终端所见的缓冲范围有可能不同，从而导致哈希的结果不一致，最终的结果是相同的内容被不同的终端映射到不同的缓冲区中。这种情况显然是应该避免的，因为它导致相同内容被存储到不同缓冲中去，降低了系统存储的效率。分散性的定义就是上述情况发生的严重程度。好的哈希算法应能够尽量避免不一致的情况发生，也就是尽量降低分散性。

4、负载(Load)：负载问题实际上是从另一个角度看待分散性问题。既然不同的终端可能将相同的内容映射到不同的缓冲区中，那么对于一个特定的缓冲区而言，也可能被不同的用户映射为不同的内容。与分散性一样，这种情况也是应当避免的，因此好的哈希算法应能够尽量降低缓冲的负荷。

在分布式集群中，对机器的添加删除，或者机器故障后自动脱离集群这些操作是分布式集群管理最基本的功能。如果采用常用的hash(object)%N算法，那么在有机器添加或者删除后，很多原有的数据就无法找到了，这样严重的违反了单调性原则。

七、Netty

贡献者：JBOSS

简介：Netty是由JBOSS提供的一个java开源框架。Netty提供异步的、事件驱动的网络应用程序框架和工具，用以快速开发高性能、高可靠性的网络服务器和客户端程序。

也就是说，Netty 是一个基于NIO的客户，服务器端编程框架，使用Netty 可以确保你快速和简单的开发出一个网络应用，例如实现了某种协议的客户，服务端应用。Netty相当简化和流线化了网络应用的编程开发过程，例如，TCP和UDP的socket服务开发。

“快速”和“简单”并不意味着会让你的最终应用产生维护性或性能上的问题。Netty 是一个吸收了多种协议的实现经验，这些协议包括FTP,SMTP,HTTP，各种二进制，文本协议，并经过相当精心设计的项目，最终，Netty 成功的找到了一种方式，在保证易于开发的同时还保证了其应用的性能，稳定性和伸缩性。

官网：http://netty.io/

八、BloomFilter

简介：Bloom filter 是由 Howard Bloom 在 1970 年提出的二进制向量数据结构，它具有很好的空间和时间效率，被用来检测一个元素是不是集合中的一个成员。如果检测结果为是，该元素不一定在集合中；但如果检测结果为否，该元素一定不在集合中。因此Bloom filter具有100%的召回率。这样每个检测请求返回有“在集合内（可能错误）”和“不在集合内（绝对不在集合内）”两种情况，可见 Bloom filter 是牺牲了正确率和时间以节省空间。

Bloom filter 优点就是它的插入和查询时间都是常数，另外它查询元素却不保存元素本身，具有良好的安全性。

搜索引擎

一、Nutch

简介：Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降. 并且这很有可能进一步演变成为一个公司垄断了几乎所有的web搜索为其谋取商业利益.这显然不利于广大Internet用户.

Nutch为我们提供了这样一个不同的选择. 相对于那些商用的搜索引擎, Nutch作为开放源代码搜索引擎将会更加透明, 从而更值得大家信赖. 现在所有主要的搜索引擎都采用私有的排序算法, 而不会解释为什么一个网页会排在一个特定的位置. 除此之外, 有的搜索引擎依照网站所付的费用, 而不是根据它们本身的价值进行排序. 与它们不同, Nucth没有什么需要隐瞒, 也没有动机去扭曲搜索的结果. Nutch将尽自己最大的努力为用户提供最好的搜索结果.

Nutch目前最新的版本为version v2.2.1。

官网：https://nutch.apache.org/

二、Lucene

开发者：Doug Cutting（Hadoop之父，你懂的）

简介：Lucene是apache软件基金会4 jakarta项目组的一个子项目，是一个开放源代码的全文检索引擎工具包，即它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎（英文与德文两种西方语言）。Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能，或者是以此为基础建立起完整的全文检索引擎。

官网：http://lucene.apache.org/

三、SolrCloud

简介：SolrCloud是Solr4.0版本以后基于Solr和Zookeeper的分布式搜索方案。SolrCloud是Solr的基于Zookeeper一种部署方式。Solr可以以多种方式部署，例如单机方式，多机Master-Slaver方式。

原理图：

SolrCloud有几个特色功能：

集中式的配置信息使用ZK进行集中配置。启动时可以指定把Solr的相关配置文件上传

Zookeeper，多机器共用。这些ZK中的配置不会再拿到本地缓存，Solr直接读取ZK中的配置信息。配置文件的变动，所有机器都可以感知到。另外，Solr的一些任务也是通过ZK作为媒介发布的。目的是为了容错。接收到任务，但在执行任务时崩溃的机器，在重启后，或者集群选出候选者时，可以再次执行这个未完成的任务。

自动容错SolrCloud对索引分片，并对每个分片创建多个Replication。每个Replication都可以对外提供服务。一个Replication挂掉不会影响索引服务。更强大的是，它还能自动的在其它机器上帮你把失败机器上的索引Replication重建并投入使用。

近实时搜索立即推送式的replication（也支持慢推送）。可以在秒内检索到新加入索引。

查询时自动负载均衡SolrCloud索引的多个Replication可以分布在多台机器上，均衡查询压力。如果查询压力大，可以通过扩展机器，增加Replication来减缓。

自动分发的索引和索引分片发送文档到任何节点，它都会转发到正确节点。

事务日志事务日志确保更新无丢失，即使文档没有索引到磁盘。

四、Solr

简介：Solr是一个独立的企业级搜索应用服务器，它对外提供类似于Web-service的API接口。用户可以通过http请求，向搜索引擎服务器提交一定格式的XML文件，生成索引；也可以通过Http Get操作提出查找请求，并得到XML格式的返回结果。

Solr是一个高性能，采用Java5开发，基于Lucene的全文搜索服务器。同时对其进行了扩展，提供了比Lucene更为丰富的查询语言，同时实现了可配置、可扩展并对查询性能进行了优化，并且提供了一个完善的功能管理界面，是一款非常优秀的全文搜索引擎。

官网：https://lucene.apache.org/solr/

五、ElasticSearch

简介：ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是第二最流行的企业搜索引擎。设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。

官网：http://www.elasticsearch.org/

六、Sphinx

简介：Sphinx是一个基于SQL的全文检索引擎，可以结合MySQL,PostgreSQL做全文搜索，它可以提供比数据库本身更专业的搜索功能，使得应用程序更容易实现专业化的全文检索。Sphinx特别为一些脚本语言设计搜索API接口，如PHP,Python,Perl,Ruby等，同时为MySQL也设计了一个存储引擎插件。

Sphinx单一索引最大可包含1亿条记录，在1千万条记录情况下的查询速度为0.x秒（毫秒级）。Sphinx创建索引的速度为：创建100万条记录的索引只需 3～4分钟，创建1000万条记录的索引可以在50分钟内完成，而只包含最新10万条记录的增量索引，重建一次只需几十秒。

官网：http://sphinxsearch.com

七、SenseiDB

贡献者：linkedin

简介：SenseiDB是一个NoSQL数据库，它专注于高更新率以及复杂半结构化搜索查询。熟悉Lucene和Solor的用户会发现，SenseiDB背后有许多似曾相识的概念。SenseiDB部署在多节点集群中，其中每个节点可以包括N块数据片。Apache Zookeeper用于管理节点，它能够保持现有配置，并可以将任意改动（如拓扑修改）传输到整个节点群中。SenseiDB集群还需要一种模式用于定义将要使用的数据模型。

从SenseiDB集群中获取数据的唯一方法是通过Gateways（它没有“INSERT”方法）。每个集群都连接到一个单一gateway。你需要了解很重要的一点是，由于SenseiDB本身没法处理原子性（Atomicity）和隔离性（Isolation），因此只能通过外部在gateway层进行限制。另外，gateway必须确保数据流按照预期的方式运作。内置的gateway有以下几种形式：

来自文件
来自JMS队列
通过JDBC
来自Apache Kafka

官网：http://senseidb.com

数据挖掘

一、Mahout

简介：Apache Mahout 是 Apache Software Foundation (ASF) 开发的一个全新的开源项目，其主要目标是创建一些可伸缩的机器学习算法，供开发人员在 Apache 在许可下免费使用。该项目已经发展到了它的最二个年头，目前只有一个公共发行版。Mahout 包含许多实现，包括集群、分类、CP 和进化程序。此外，通过使用 Apache Hadoop 库，Mahout 可以有效地扩展到云中。

虽然在开源领域中相对较为年轻，但 Mahout 已经提供了大量功能，特别是在集群和 CF 方面。Mahout 的主要特性包括：

Taste CF。Taste 是 Sean Owen 在 SourceForge 上发起的一个针对 CF 的开源项目，并在 2008 年被赠予 Mahout。
一些支持 Map-Reduce 的集群实现包括 k-Means、模糊 k-Means、Canopy、Dirichlet 和 Mean-Shift。
Distributed Naive Bayes 和 Complementary Naive Bayes 分类实现。
针对进化编程的分布式适用性功能。
Matrix 和矢量库。
上述算法的示例。

官网：http://mahout.apache.org/

Iaas

IaaS（Infrastructure as a Service），即基础设施即服务。

一、OpenStack

简介：OpenStack是一个由NASA（美国国家航空航天局）和Rackspace合作研发并发起的，以Apache许可证授权的自由软件和开放源代码项目。

OpenStack是一个开源的云计算管理平台项目，由几个主要的组件组合起来完成具体工作。OpenStack支持几乎所有类型的云环境，项目目标是提供实施简单、可大规模扩展、丰富、标准统一的云计算管理平台。OpenStack通过各种互补的服务提供了基础设施即服务（IaaS）的解决方案，每个服务提供API以进行集成。

6个核心项目：Nova（计算，Compute），Swift（对象存储，Object），Glance（镜像，Image），Keystone（身份，Identity），Horizon（自助门户，Dashboard），Quantum & Melange（网络&地址管理），另外还有若干社区项目，如Rackspace（负载均衡）、Rackspace（关系型数据库）。

监控管理

一、Dapper

贡献者：Google

简介：Dapper是一个轻量的ORM(对象关系映射（英语：Object Relational Mapping，简称ORM，或O/RM，或O/R mapping）。并不单纯的是一个DBHelper.因为在Dapper中数据其实就是一个对象。Dapper扩展与IDbConnection上，所以事实上它的倾入性很低。我用了StructureMap。如果不喜欢可以自己更换，或者自己实现下。

代码就一个SqlMapper.cs文件,主要是IDbConnection的扩展方法，编译后就40K的一个很小的dll。

特性：

Dapper很快。Dapper的速度接近与IDataReader。
Dapper支持主流数据库 Mysql,SqlLite,Mssql2000,Mssql2005,Oracle等一系列的数据库
支持多表并联的对象。支持一对多多对多的关系，并且没侵入性。
原理通过Emit反射IDataReader的序列队列，来快速的得到和产生对象
Dapper语法十分简单。并且无须迁就数据库的设计

官方站点 http://code.google.com/p/dapper-dot-net/

代码托管：http://bigbully.github.io/Dapper-translation/

二、Zipkin

贡献者：Twitter

简介：Zipkin （分布式跟踪系统）是 Twitter 的一个开源项目，允许开发者收集 Twitter 各个服务上的监控数据，并提供查询接口。该系统让开发者可通过一个 Web 前端轻松的收集和分析数据，例如用户每次请求服务的处理时间等，可方便的监测系统中存在的瓶颈。

官方网站：http://twitter.github.io/zipkin/

代码托管：https://github.com/twitter/zipkin/

End.

你可能感兴趣的:(一共81个，开源大数据处理工具汇总(下))

能不能解释一下本地方法栈？思维导图代码示例（java 架构）用心去追梦 java 架构开发语言
本地方法栈（NativeMethodStack）本地方法栈是JVM运行时数据区的一部分，类似于Java虚拟机栈，但用于支持本地方法（通常是用C/C++编写的）的调用。本地方法栈主要用于存储本地方法的信息，如局部变量、操作数栈等。特点线程私有：每个线程都有自己的本地方法栈，互不影响。生命周期：本地方法栈的生命周期与线程相同，线程启动时创建，线程结束时销毁。栈帧：每个本地方法调用时都会创建一个栈帧，方
opencv交叉编译月光下的麦克 opencv 人工智能计算机视觉
适用于瑞芯微，海思，酷芯等ARM平台。采用编译脚本配置编译选项，方便编译。目录一、创建目录二、工具链配置三、编译脚本四、编译一、创建目录mike@mike-virtual-machine:opencv-4.12/opencv/opencv$tree.-L1.├──3rdparty├──apps├──armlinux.toolchain.cmake├──build├──build.sh├──cmak
安科瑞光伏发电防逆流解决方案——守护电网安全，提升能源效率安科瑞华楠安全能源
安科瑞华楠187+0616+3979在当今大力发展清洁能源的时代背景下，光伏发电作为一种可持续的能源解决方案，正得到越来越广泛的应用。然而，光伏发电过程中出现的逆流问题，给电网的安全稳定运行带来了诸多挑战。若不能有效解决，不仅可能影响电网的电能质量，还可能对电网设备造成损害。在此背景下，安科瑞凭借其专业技术，为光伏发电防逆流问题提供了一系列切实可行的解决方案。来百度APP畅享高清图片一、逆功率保护
汇编简介&常用语法官子无敌刘小路汇编
为什么要有汇编因为Cortex-A芯片一上电SP指针还没初始化，C环境还没准备好，所以肯定不能运行C代码，必须先用汇编语言设置好C环境，比如初始化DDR、设置SP指针等等，当汇编把C环境设置好了以后才可以运行C代码GNU语法如果大家使用过STM32的话就会知道MDK和IAR下的启动文件startup_stm32f10x_hd.s其中的汇编语法是有所不同的，将MDK下的汇编文件直接复制到IAR下去编
Python中的enumerate函数详解程序员一点 python python enumerate
在Python编程中，我们经常需要在循环遍历一个序列时同时获取元素的索引和值。为了实现这一需求，Python提供了一个内置的enumerate函数，它能够方便地为我们提供序列中每个元素的索引和值。enumerate函数enumerate函数接受两个参数：一个可迭代对象和一个可选的起始索引值。语法enumerate(iterable,start=0)iterable：一个可迭代的对象，如列表、元组等
数智时代下，值得关注的大技术趋势人工智能爱好者人工智能大数据大数据技术趋势
(1)区块链将得到更广泛的应用。区块链是一种每一个人都能够分享和访问的电子分类账，交易的双方可通过区块链来跟踪交易记录。区块链这个词在整个2017年都备受大家关注，这是因为加密货币比特币采用了一个分散式区块链来跟踪它的所有交易记录，然而区块链技术的应用范围远不限于比特币，它还有更广泛的应用范围。有些人希望将区块链技术能够应用在病历记录上，病人的病史可通过不同的数据库和软件集中导入一个加密数据库。这
Github 2024-06-05 开源项目日报 Top10 老孙正经胡说 github 开源 Github趋势分析开源项目 Python Golang
根据GithubTrendings的统计，今日(2024-06-05统计)共有10个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量Python项目7JupyterNotebook项目2Rust项目1初学者的生成式人工智能（第2版）创建周期：259天开发语言：JupyterNotebook协议类型：MITLicenseStar数量：25764个Fork数量：16105次关注人数：
自然语言处理（NLP）入门：基础概念与应用场景 Ash Butterfield nlp 自然语言处理人工智能
什么是自然语言处理（NLP）？自然语言处理（NaturalLanguageProcessing,NLP）是人工智能（AI）的一个重要分支，研究如何让计算机理解、生成、分析和与人类语言进行交互。换句话说，NLP是让机器像人一样“读、写、听、说”的技术，它结合了语言学、机器学习、计算机科学等多学科知识。NLP的核心目标是将非结构化的自然语言（如文本和语音）转化为结构化数据，使机器能够高效处理、分析和生
Abstract Syntax Tree (AST)（抽象语法树） Ash Butterfield nlp npl
AbstractSyntaxTree(AST)（抽象语法树）是表示源代码结构的树形数据结构，广泛用于编程语言的解析和编译过程中。它是一种用于表达程序代码结构的树状表示，忽略了代码中的一些细节（如括号和分号），仅保留代码的语法结构和语义信息。AST的组成：节点：每个节点表示源代码中的一个语法元素，如表达式、语句或操作符。子节点：节点的子节点表示更小的组成部分。例如，一个算术表达式可能有两个子节点，分
Java NIO基础与实战：如何提升IO操作性能薛伟同学 Netty：高性能网络编程技巧 java nio
JavaNIO概述JavaNIO（新I/O）是Java提供的一个更为高效的I/O处理框架。JavaNIO（NewI/O）是对传统I/O（java.io）模型的改进，它引入了非阻塞I/O操作和面向缓冲区的数据读写方式，解决了传统I/O模型中的性能瓶颈。NIO的设计目标是使I/O操作更加高效，特别是在大数据量、高并发情况下，能够充分利用操作系统的底层I/O多路复用机制。JavaNIO的核心概念包括：B
pdf在页面中预览的方法 weixin_45907435 pdf
1、iframe使用方法相关属性（属性间用&连接拼接到src中）：1、缩放比例：#zoom=120；（表示将文件放大120%）2、跳往特定页数：#page=33、工具栏：#toolbar=0（0隐藏、1显示）菜单栏：#menubar=0（0隐藏、1显示）4、页面自适应屏幕：#view=Fit页面自适应水平宽度：#view=FitH页面自适应垂直高度：#view=FitV5、侧边导航栏状态：#nav
【实测】用全志A733平板搭建一个端侧Deepseek算力平台小文哥嵌入式开发嵌入式人工智能 AI编程
随着DeepSeek的蒸馏技术的横空出世，端侧SoC芯片上运行大模型成为可能。那么端侧芯片跑大模型的效果如何呢？本文将在全志A733芯片平台上部署一个DeepSeek-R1:1.5B模型，并进行实测效果展示。端侧平台环境设备：全志A733平板系统：Android15DDR:8GBLPDDR5@2400MHzFlash：128GBUFS3.0测试模型：Deepseek-R1-Distill-Qwen
COCO数据集是小果果蛋儿啊机器学习算法计算机视觉人工智能深度学习
官网地址：http://cocodataset.org/#downloadCOCO是一个大规模的物体检测、分割和描述数据集。COCO具有以下特点：物体分割上下文识别超像素材质分割33万张图片（超过20万张有标注）150万个物体实例80个物体类别91个材质类别每张图片有5个描述25万人的关键点COCO数据集是一个多用途的计算机视觉数据集，它支持多种任务，包括但不限于：物体检测（ObjectDetec
Java 循环结构进阶 m0_74824483 面试学习路线阿里巴巴 java
二重循环1.一个循环体内又包含另一个完整的循环结构2.外城循环变量变化一次，内层循环变量要变化一遍。二重循环-冒泡排序
【AI论文】OmniHuman-1: 重新思考一阶段条件式人体动画模型的扩展升级东临碣石82 人工智能
摘要：端到端的人体动画技术，如音频驱动的说话人物生成，近年来取得了显著的进步。然而，现有方法在大规模通用视频生成模型方面的扩展仍然存在困难，限制了它们在实际应用中的潜力。在本文中，我们提出了OmniHuman，一个基于扩散变换器的框架，该框架通过将运动相关条件融入训练阶段来扩展数据规模。为此，我们为这些混合条件引入了两种训练原则，以及相应的模型架构和推理策略。这些设计使OmniHuman能够充分利
【AI论文】使用大型推理模型进行竞技编程东临碣石82 人工智能
摘要：我们的研究表明，将强化学习应用于大型语言模型（LLMs）能显著提升复杂编码和推理任务的性能。此外，我们将两个通用推理模型——OpenAI的o1模型和o3模型的一个早期检查点——与一个特定领域的系统o1-ioi进行了比较。o1-ioi采用了为参加2024年国际信息学奥林匹克竞赛（IOI）而手工设计的推理策略。我们使用o1-ioi实时参加了2024年IOI竞赛，并凭借手工制定的测试时策略取得了第
Shell脚本参数获取的两种方式岁月的眸 #shell #Linux linux 服务器运维
一、Shell参数获取的两种方式方式一固定顺序传参示例新建一个test.sh文件#!/bin/bashecho"shell名称=$0"echo"参数1=$1"echo"参数2=$2"echo"参数3=$3"echo"参数4=$4"echo"参数5=$5"执行脚本:shtest.sh56362输出的结果：shell名称=test.sh参数1=5参数2=6参数3=3参数4=6参数5=2使用该方式有两点
设计模式（一）：设计原则、常用设计模式 lercent 设计模式设计模式
1.设计原则SOLID原则-SRP单一职责原则：一个类或者模块只负责完成一个职责（或者功能）。SOLID原则-OCP开闭原则：如果要添加一个新的功能，能够在已有代码基础上直接扩展代码，而不用修改已有代码就能实现，那么就符合“扩展开放、对修改关闭”原则。SOLID原则-LSP里式替换原则：子类对象能够替换程序中父类对象出现的任何地方，并且保证原来程序的逻辑行为不变及正确性不被破坏。SOLID原则-I
信息技术革新引领社会变革 JiYan_yellow 业界资讯
信息技术革新引领社会变革一、信息技术推动数字化转型随着信息技术的迅猛发展，我们正处在一个数字化的时代。信息技术在推动产业数字化转型方面发挥着重要作用。云计算、大数据、人工智能等先进技术的应用，使得企业能够实现更高效的生产和运营。例如，在制造业领域，智能制造技术能够提高生产效率和质量，降低运营成本。此外，信息技术还在促进供应链管理、市场营销等环节的数字化转型，为企业提供更广阔的发展空间。信息技术还深
3-wifidog代码流程 creatorly portal网安认证 openwrt
wifidog的做法是先全部黑名单，然后再放行白名单的做法。1.wifidog流程wifidog由两部分组成，一个是运行在路由器上的程序，另一部分是运行在认证服务器上的程序。wifidog的认证流程大致是：1.首先，用户的终端可以连接上wifi，然后发起访问网站的请求，如www.baidu.com;2.网关根据防火墙规则，将用户的请求重定向到本地端口（wifidog的监听端口2060）；3.网关将
设计模式-外观模式管大虾设计模式设计模式外观模式
一、定义外观模式提供了一个统一的接口，用来访问子系统中的一群接口。外观定义了一个高层的接口，让子系统更容易使用。外观模式其实和适配器模式很像，只不过适配器模式转化接口是为了实现接口的兼容，把每个接口都做了转化，而外观模式改变接口的原因是为了简化接口，把复杂的一切都隐藏，只对外暴露出一个干净的外观，而且外观模式不只是简单得简化解耦，也实现了将客户从众多子组件中解耦。其实这个模式，我们在日常开发中会不
技术革新让生活更便捷巴巴郭海鹄生活量子计算经验分享
量子通信是一种利用量子力学原理进行信息传递的技术。它的基本原理是量子纠缠和量子密钥分发。量子纠缠指两个粒子即使相隔很远，一个粒子的状态改变会立刻引起另一个粒子状态的相应变化。量子密钥分发则是通过量子态传输实现加密密钥的安全交换。在信息安全领域，量子通信具有显著优势。传统加密方法依赖于复杂的数学问题，但未来可能被量子计算机解密。而量子通信利用量子力学的不确定性，提供了一种理论上无法被窃听的安全通信方
多模态大模型（LMMs）与大语言模型（LLMs）的比较大F的智能小课底层技术解析人工智能语言模型
前言现在的大模型分为两大类：大语言模型（LargeLanguageModels，简称LLMs）和多模态大模型（LargeMultimodalModels，简称LMMs）。本文将从基础定义、输入数据、应用场景、训练过程这几方面讨论下两者的区别。基础定义LLMs(LargeLanguageModels,大型语言模型)-深度学习的应用之一，是基于深度学习的大规模机器学习模型，通常由数十亿到数万亿个参数构
Dify基础：windows下如何学习Linux系统？wsl相关基本概念的介绍几道之旅 Dify：智能体（Agent）工作流知识库全搞定 linux windows docker
文章目录前言首先，WSL到底是个什么东西？在WSL之前，有个hyperV，又是个啥？WSL和HyperV的关系是什么？我来总结一下吧，有了wsl，就相当于在你的windows上有了一个可以运行linux的虚拟机。这和Dify有啥关系？前言为了实现本文效果，我直接下血本把自己的wsl给卸载了。就说这个牺牲精神，希望大伙儿多多关注、多多点赞、多多评论。首先，WSL到底是个什么东西？在很久以前，有一个叫
从零开始刷leetcode数组的“度”C语言编程解答多宝气泡水从零开始leetcode 算法数据结构 leetcode c语言哈希算法
描述给定一个非空且只包含非负数的整数数组nums，数组的度的定义是指数组里任一元素出现频数的最大值。你的任务是在nums中找到与nums拥有相同大小的度的最短连续子数组，返回其长度。示例1：输入：nums=[1,2,2,3,1]输出：2解释：输入数组的度是2，因为元素1和2的出现频数最大，均为2。连续子数组里面拥有相同度的有如下所示：[1,2,2,3,1],[1,2,2,3],[2,2,3,1],
Vue3笔记_＜入门基础篇＞我的白银时代 Vue2进阶Vue3笔记 Vue3零到一实战笔记 vue.js 前端
目录Setup语法糖ref:定义一个数据的响应式reactive:定义一个对象类型的响应式数据toRef()toRefs()计算属性watchEffect函数生命周期Vue3获取DomPropsVue3自定义事件Setup语法糖setup是一个专门用于组合式API的特殊钩子函数，只在初始化时执行一次。setup有两种返回值:对象。对象中的属性，方法在模板中都可以直接使用函数。自定义渲染内容，覆盖模
opencascade 标注-直线标注、半径标准、角度标注一只小小汤圆 Opencascade c++c++
opencascade直线标注在OpenCascade（OCCT）中实现标注功能主要涉及使用其交互服务模块（AIS）和尺寸标注类。以下是关键步骤和示例代码：显示精度（小数点后几位）SetDimensionAspect设置显示颜色SetCommonColor1.创建尺寸标注对象使用AIS_LengthDimension等类创建线性尺寸标注：#include//定义两个点或边gp_PntP1(0,0,
告别繁琐的路径配置：带你写一个让 Monorepo 项目模块导入更优雅的 Webpack 插件真的很上进 Web前端进阶合集 webpack 前端 javascript java react.js vue node.js
目录手把手带你写一个Webpack提效插件前言为什么要写这个插件?Webpack插件是什么?开发MonorepoAliasPlugin1.基础结构搭建2.理解Webpack模块解析3.路径别名的解析和转换4.添加所有包的支持5.测试插件6.使用方法总结手把手带你写一个Webpack提效插件前言大家好，今天我想和大家分享如何从零开始写一个实用的Webpack提效插件(完整源码在文章最后).作为前端开
IDEA配置JSTL 阿俊仔（摸鱼版） intellij-idea java tomcat
IDEA配置JSTL下载JSTL官网下载地址：https://tomcat.apache.org翻到下面找到：点击，download下载下面内容：（就Impl和Spec）配置JSTL将两个下好的jar包放在lib文件夹下ctrl+shift+alt+s打开ProjectStructure左侧找到Modules->右侧选择Dependences->点击➕号Library->点击java->选中WEB
javax.imageio.IIOException: Can‘t read input file 阿俊仔（摸鱼版）眼盲心不瞎的憨憨bug日记 intellij-idea
问题描述根据路径地址读取图片存入数据库时，提示我没法读取图片。原因分析：大致就是各种情况导致路径不对或者文件不对路径格式写错了(windows路径分隔符是\，Linux是/)文件格式写错（文件名写错或者文件后缀写错）该路径下此文件不存在（复制路径去本地找找核对一下）解决方案：先看报错信息检查出错的语句（那边没什么问题），然后我又检查了所有写了文件路径的语句，发现我写入数据库的那个文件的路径没把文件
linux系统服务器下jsp传参数乱码 3213213333332132 java jsp linux windows xml
在一次解决乱码问题中，发现jsp在windows下用js原生的方法进行编码没有问题，但是到了linux下就有问题， escape,encodeURI,encodeURIComponent等都解决不了问题但是我想了下既然原生的方法不行，我用el标签的方式对中文参数进行加密解密总该可以吧。于是用了java的java.net.URLDecoder,结果还是乱码，最后在绝望之际，用了下面的方法解决了
Spring 注解区别以及应用 BlueSkator spring
1. @Autowired @Autowired是根据类型进行自动装配的。如果当Spring上下文中存在不止一个UserDao类型的bean，或者不存在UserDao类型的bean，会抛出 BeanCreationException异常，这时可以通过在该属性上再加一个@Qualifier注解来声明唯一的id解决问题。 2. @Qualifier 当spring中存在至少一个匹
printf和sprintf的应用 dcj3sjt126com PHP sprintf printf
<?php printf('b: %b c: %c d: %d <bf>f: %f', 80,80, 80, 80); echo ' '; printf('%0.2f %+d %0.2f ', 8, 8, 1235.456); printf('th
config.getInitParameter 171815164 parameter
web.xml <servlet> <servlet-name>servlet1</servlet-name> <jsp-file>/index.jsp</jsp-file> <init-param> <param-name>str</param-name>
Ant标签详解--基础操作 g21121 ant
Ant的一些核心概念： build.xml：构建文件是以XML 文件来描述的，默认构建文件名为build.xml。 project：每个构建文
[简单]代码片段_数据合并 53873039oycg 代码
合并规则:删除家长phone为空的记录,若一个家长对应多个孩子,保留一条家长记录,家长id修改为phone,对应关系也要修改。代码如下:
java 通信技术云端月影 Java 远程通信技术
在分布式服务框架中，一个最基础的问题就是远程服务是怎么通讯的，在Java领域中有很多可实现远程通讯的技术，例如：RMI、MINA、ESB、Burlap、Hessian、SOAP、EJB和JMS等，这些名词之间到底是些什么关系呢，它们背后到底是基于什么原理实现的呢，了解这些是实现分布式服务框架的基础知识，而如果在性能上有高的要求的话，那深入了解这些技术背后的机制就是必须的了，在这篇blog中我们将来
string与StringBuilder 性能差距到底有多大 aijuans
之前也看过一些对string与StringBuilder的性能分析，总感觉这个应该对整体性能不会产生多大的影响，所以就一直没有关注这块！由于学程序初期最先接触的string拼接，所以就一直没改变过自己的习惯！
今天碰到 java.util.ConcurrentModificationException 异常 antonyup_2006 java 多线程工作 IBM
今天改bug，其中有个实现是要对map进行循环，然后有删除操作，代码如下： Iterator<ListItem> iter = ItemMap.keySet.iterator(); while(iter.hasNext()){ ListItem it = iter.next(); //...一些逻辑操作 ItemMap.remove(it); } 结果运行报Con
PL/SQL的类型和JDBC操作数据库百合不是茶 PL/SQL表标量类型游标 PL/SQL记录
PL/SQL的标量类型: 字符,数字,时间,布尔,%type五中类型的 --标量：数据库中预定义类型的变量 --定义一个变长字符串 v_ename varchar2(10); --定义一个小数,范围 -9999.99~9999.99 v_sal number(6,2); --定义一个小数并给一个初始值为5.4 :=是pl/sql的赋值号
Mockito：一个强大的用于 Java 开发的模拟测试框架实例 bijian1013 mockito 单元测试
Mockito框架： Mockito是一个基于MIT协议的开源java测试框架。 Mockito区别于其他模拟框架的地方主要是允许开发者在没有建立“预期”时验证被测系统的行为。对于mock对象的一个评价是测试系统的测
精通Oracle10编程SQL(10)处理例外 bijian1013 oracle 数据库 plsql
/* *处理例外 */ --例外简介 --处理例外-传递例外 declare v_ename emp.ename%TYPE; begin SELECT ename INTO v_ename FROM emp where empno=&no; dbms_output.put_line('雇员名：'||v_ename); exceptio
【Java】Java执行远程机器上Linux命令 bit1129 linux命令
Java使用ethz通过ssh2执行远程机器Linux上命令，封装定义Linux机器的环境信息 package com.tom; import java.io.File; public class Env { private String hostaddr; //Linux机器的IP地址 private Integer po
java通信之Socket通信基础白糖_ java socket 网络协议
正处于网络环境下的两个程序，它们之间通过一个交互的连接来实现数据通信。每一个连接的通信端叫做一个Socket。一个完整的Socket通信程序应该包含以下几个步骤： ①创建Socket； ②打开连接到Socket的输入输出流； ④按照一定的协议对Socket进行读写操作； ④关闭Socket。 Socket通信分两部分：服务器端和客户端。服务器端必须优先启动，然后等待soc
angular.bind boyitech AngularJS angular.bind AngularJS API bind
angular.bind 描述：上下文，函数以及参数动态绑定，返回值为绑定之后的函数. 其中args是可选的动态参数，self在fn中使用this调用。使用方法： angular.bind(se
java-13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 bylijinnan java
import java.util.ArrayList; import java.util.List; public class KickOutBadGuys { /** * 题目：13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 * Maybe you can find out
Redis.conf配置文件及相关项说明（自查备用） Kai_Ge redis
Redis.conf配置文件及相关项说明 # Redis configuration file example # Note on units: when memory size is needed, it is possible to specifiy # it in the usual form of 1k 5GB 4M and so forth: #
[强人工智能]实现大规模拓扑分析是实现强人工智能的前奏 comsci 人工智能
真不好意思,各位朋友...博客再次更新... 节点数量太少,网络的分析和处理能力肯定不足,在面对机器人控制的需求方面,显得力不从心.... 但是,节点数太多,对拓扑数据处理的要求又很高,设计目标也很高,实现起来难度颇大...
记录一些常用的函数 dai_lm java
public static String convertInputStreamToString(InputStream is) { StringBuilder result = new StringBuilder(); if (is != null) try { InputStreamReader inputReader = new InputStreamRead
Hadoop中小规模集群的并行计算缺陷 datamachine mapreduce hadoop 并行计算
注：写这篇文章的初衷是因为Hadoop炒得有点太热，很多用户现有数据规模并不适用于Hadoop，但迫于扩容压力和去IOE（Hadoop的廉价扩展的确非常有吸引力）而尝试。尝试永远是件正确的事儿，但有时候不用太突进，可以调优或调需求，发挥现有系统的最大效用为上策。 -----------------------------------------------------------------
小学4年级英语单词背诵第二课 dcj3sjt126com english word
egg 蛋 twenty 二十 any 任何 well 健康的，好 twelve 十二 farm 农场 every 每一个 back 向后，回 fast 快速的 whose 谁的 much 许多 flower 花 watch 手表 very 非常，很 sport 运动 Chinese 中国的
自己实践了github的webhooks, linux上面的权限需要注意 dcj3sjt126com github webhook
环境, 阿里云服务器 1. 本地创建项目, push到github服务器上面 2. 生成www用户的密钥 sudo -u www ssh-keygen -t rsa -C "xxx@xx.com" 3. 将密钥添加到github帐号的SSH_KEYS里面 3. 用www用户执行克隆, 源使
Java冒泡排序蕃薯耀冒泡排序 Java冒泡排序 Java排序
冒泡排序 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 10:40:14 星期二 http://fanshuyao.iteye.com/
Excle读取数据转换为实体List【基于apache-poi】 hanqunfeng apache
1.依赖apache-poi 2.支持xls和xlsx 3.支持按属性名称绑定数据值 4.支持从指定行、列开始读取 5.支持同时读取多个sheet 6.具体使用方式参见org.cpframework.utils.excelreader.CP_ExcelReaderUtilTest.java 比如： Str
3个处于草稿阶段的Javascript API介绍 jackyrong JavaScript
原文： http://www.sitepoint.com/3-new-javascript-apis-may-want-follow/?utm_source=html5weekly&utm_medium=email 本文中，介绍3个仍然处于草稿阶段，但应该值得关注的Javascript API. 1) Web Alarm API &
6个创建Web应用程序的高效PHP框架 lampcy Web 框架 PHP
以下是创建Web应用程序的PHP框架，有coder bay网站整理推荐： 1. CakePHP CakePHP是一个PHP快速开发框架，它提供了一个用于开发、维护和部署应用程序的可扩展体系。CakePHP使用了众所周知的设计模式，如MVC和ORM，降低了开发成本，并减少了开发人员写代码的工作量。 2. CodeIgniter CodeIgniter是一个非常小且功能强大的PHP框架，适合需
评"救市后中国股市新乱象泛起"谣言 nannan408
首先来看百度百家一位易姓作者的新闻：三个多星期来股市持续暴跌，跌得投资者及上市公司都处于极度的恐慌和焦虑中，都要寻找自保及规避风险的方式。面对股市之危机，政府突然进入市场救市，希望以此来重建市场信心，以此来扭转股市持续暴跌的预期。而政府进入市场后，由于市场运作方式发生了巨大变化，投资者及上市公司为了自保及为了应对这种变化，中国股市新的乱象也自然产生。首先，中国股市这两天
页面全屏遮罩的实现方式 Rainbow702 html css 遮罩 mask
之前做了一个页面，在点击了某个按钮之后，要求页面出现一个全屏遮罩，一开始使用了position:absolute来实现的。当时因为画面大小是固定的，不可以resize的，所以，没有发现问题。最近用了同样的做法做了一个遮罩，但是画面是可以进行resize的，所以就发现了一个问题，当画面被reisze到浏览器出现了滚动条的时候，就发现，用absolute 的做法是有问题的。后来改成fixed定位就
关于angularjs的点滴 tntxia AngularJS
angular是一个新兴的JS框架，和以往的框架不同的事，Angularjs更注重于js的建模，管理，同时也提供大量的组件帮助用户组建商业化程序，是一种值得研究的JS框架。 Angularjs使我们可以使用MVC的模式来写JS。Angularjs现在由谷歌来维护。这里我们来简单的探讨一下它的应用。首先使用Angularjs我
Nutz--->>反复新建ioc容器的后果 xiaoxiao1992428 DAO mvc IOC nutz
问题： public class DaoZ { public static Dao dao() { // 每当需要使用dao的时候就取一次 Ioc ioc = new NutIoc(new JsonLoader("dao.js")); return ioc.get(