奥卡姆的剃刀

大数据相关开源项目及组件汇总

前言

花了一点时间，整理了大数据相关开源项目、组件和官网地址。按照实际应用功能的不同，分为以下10个部分，并在目录图中进行归纳，后续章节的内容则是分别介绍各组件的背景及应用场景。

调度与管理服务
文件系统
数据搜集
消息系统
内存技术
数据处理
查询引擎
分析和报告工具
机器学习
开发平台

目录图：

类别	开源项目
调度与管理服务	Azkaban 、YARN 、Mesos、Ambari 、ZooKeeper 、Thrift 、Chukwa
文件系统	Lustre 、HDFS 、GlusterFS 、Alluxio 、Ceph、PVFS 、QFS
数据搜集	Logstash 、Scribe 、Flume
消息系统	RabbitMQ 、ActiveMQ 、ActiveMQ 、Kafka
内存技术	Terracotta 、Ignite 、GemFire 、GridGain
数据处理	Spark,Kinesis ,Hadoop ，Flink ，Storm，HaLoop
查询引擎	Presto ，Drill ，Phoenix ，Hive ，SparkSQL,Tajo ，Impala ，Elasticsearch ，Solr ，Shark ，Lucene
分析和报告工具	Kettle，Kylin ，Kibana ，Druid ，KNIME ，Zeppelin ，Talend ，Splunk ，Pentaho ，Jaspersoft ，SpagoBI
机器学习	Tensorflow，Theano，Keras，DSSTNE，Lasagne，Torch，mxnet，DL4J，Cognitive Toolkit，Caffe，Hivemall ，RapidMiner ，Mahout
开发平台	Lumify ，Lingual ，Beam ，Cascading ，HPCC

1：调度与管理服务

大数据调度与管理服务主要包括以下相关软件：
Azkaban 、YARN 、Mesos、Ambari 、ZooKeeper 、Thrift 、Chukwa 。以下将分别介绍。

1.1：Azkaban

Azkaban 是一款基于Java编写的任务调度系统任务调度，来自LinkedIn公司，用于管理他们的Hadoop批处理工作流。Azkaban根据工作的依赖性进行排序，提供友好的Web用户界面来维护和跟踪用户的工作流程。
Azkaban官网

1.2：YARN

YARN 是一种新的Hadoop资源管理器，它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，解决了旧MapReduce框架的性能瓶颈。它的基本思想是把资源管理和作业调度/监控的功能分割到单独的守护进程。

Hadoop官网中关于Yarn的介绍

1.3：Mesos

Mesos 是由加州大学伯克利分校的AMPLab首先开发的一款开源群集管理软件，支持Hadoop、ElasticSearch、Spark、Storm 和Kafka等架构。对数据中心而言它就像一个单一的资源池，从物理或虚拟机器中抽离了CPU，内存，存储以及其它计算资源，很容易建立和有效运行具备容错性和弹性的分布式系统。
Mesos 官网

1.4：Ambari

Ambari 作为Hadoop生态系统的一部分，提供了基于Web的直观界面，可用于配置、管理和监控Hadoop集群。目前已支持大多数Hadoop组件，包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等。
Ambari 官网

1.5：ZooKeeper

ZooKeeper 是一个分布式的应用程序协调服务，是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的工具，让Hadoop集群里面的节点可以彼此协调。ZooKeeper现在已经成为了 Apache的顶级项目，为分布式系统提供了高效可靠且易于使用的协同服务。
ZooKeeper 官网

1.6：Thrift

Thrift 在2007年facebook提交Apache基金会将Thrift作为一个开源项目，对于当时的facebook来说创造thrift是为了解决facebook系统中各系统间大数据量的传输通信以及系统之间语言环境不同需要跨平台的特性。
Thrift 官网

1.7：Chukwa

Chukwa 是监测大型分布式系统的一个开源数据采集系统，建立在HDFS/MapReduce框架之上并继承了Hadoop的可伸缩性和可靠性，可以收集来自大型分布式系统的数据，用于监控。它还包括灵活而强大的显示工具用于监控、分析结果。
Chukwa 官网

2：文件系统

大数据文件系统主要包括以下相关软件：
Lustre 、HDFS 、GlusterFS 、Alluxio 、Ceph、PVFS 、QFS，以下将分别介绍。

2.1：Lustre

Lustre 是一个大规模的、安全可靠的、具备高可用性的集群文件系统，它是由SUN公司开发和维护的。该项目主要的目的就是开发下一代的集群文件系统，目前可以支持超过10000个节点，数以PB的数据存储量。
Lustre 官网

2.2：HDFS

HDFS Hadoop Distributed File System，简称HDFS，是一个分布式文件系统。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。
Hadoop官网中关于HDFS的介绍

2.3：GlusterFS

GlusterFS 是一个集群的文件系统，支持PB级的数据量。GlusterFS 通过RDMA和TCP/IP方式将分布到不同服务器上的存储空间汇集成一个大的网络化并行文件系统。
GlusterFS 官网

2.4：Alluxio

Alluxio 前身是Tachyon，是以内存为中心的分布式文件系统，拥有高性能和容错能力，能够为集群框架（如Spark、MapReduce）提供可靠的内存级速度的文件共享服务。
Alluxio 官网

2.5：Ceph

Ceph 是新一代开源分布式文件系统，主要目标是设计成基于POSIX的没有单点故障的分布式文件系统，提高数据的容错性并实现无缝的复制。
Ceph 官网

2.6：PVFS

PVFS 是一个高性能、开源的并行文件系统，主要用于并行计算环境中的应用。PVFS特别为超大数量的客户端和服务器端所设计，它的模块化设计结构可轻松的添加新的硬件和算法支持。
PVFS 官网

2.7：QFS

QFS Quantcast File System (QFS) 是一个高性能、容错好、分布式的文件系统，用于开发支持 MapReduce处理或者需要顺序读写大文件的应用。
QFS 官网

3：数据搜集

大数据数据搜集主要包括以下相关软件：Logstash 、Scribe 、Flume ，以下将分别介绍。

3.1:Logstash

Logstash 是一个应用程序日志、事件的传输、处理、管理和搜索的平台。可以用它来统一对应用程序日志进行收集管理，提供了Web接口用于查询和统计。
Logstash 官网

3.2:Scribe

Scribe是Facebook开源的日志收集系统，它能够从各种日志源上收集日志，存储到一个中央存储系统（可以是NFS，分布式文件系统等）上，以便于进行集中统计分析处理。
Scribe相关信息

3.3:Flume

Flume 是Cloudera提供的一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输的系统。Flume支持在日志系统中定制各类数据发送方，用于收集数据。同时，Flume支持对数据进行简单处理，并写入各种数据接受方（可定制）。
Flume 官网

4：消息系统

大数据消息系统主要包括以下相关软件：
RabbitMQ 、ActiveMQ 、ActiveMQ 、Kafka ，以下将分别介绍。

4.1:RabbitMQ

RabbitMQ 是一个受欢迎的消息代理系统，通常用于应用程序之间或者程序的不同组件之间通过消息来进行集成。RabbitMQ提供可靠的应用消息发送、易于使用、支持所有主流操作系统、支持大量开发者平台。
RabbitMQ 官网

4.1:ActiveMQ

ActiveMQ 是Apache出品，号称“最流行的，最强大”的开源消息集成模式服务器。ActiveMQ特点是速度快，支持多种跨语言的客户端和协议，其企业集成模式和许多先进的功能易于使用，是一个完全支持JMS1.1和J2EE 1.4规范的JMS Provider实现。
ActiveMQ 官网

4.3:Kafka

Kafka 是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模网站中的所有动作流数据，目前已成为大数据系统在异步和分布式消息之间的最佳选择。
Kafka 官网

5：内存技术

大数据内存技术主要包括以下相关软件：
Terracotta 、Ignite 、GemFire 、GridGain 。以下将分别介绍。

5.1:Terracotta

Terracotta 声称其BigMemory技术是“世界上首屈一指的内存中数据管理平台”，支持简单、可扩展、实时消息，声称在190个国家拥有210万开发人员，全球1000家企业部署了其软件。
Terracotta 官网

5.2:Ignite

Ignite 是一种高性能、整合式、分布式的内存中平台，可用于对大规模数据集执行实时计算和处理，速度比传统的基于磁盘的技术或闪存技术高出好几个数量级。该平台包括数据网格、计算网格、服务网格、流媒体、Hadoop加速、高级集群、文件系统、消息传递、事件和数据结构等功能。
Ignite 官网

5.3:GemFire

GemFire Pivotal宣布它将开放其大数据套件关键组件的源代码，其中包括GemFire内存中NoSQL数据库。它已向Apache软件基金会递交了一项提案，以便在“Geode”的名下管理GemFire数据库的核心引擎。
GemFire 官网

5.4:GridGain

GridGain 由Apache Ignite驱动的GridGrain提供内存中数据结构，用于迅速处理大数据，还提供基于同一技术的Hadoop加速器。
GridGain 官网

6：数据处理

数据处理主要包括以下相关软件技术：
Spark,Kinesis ,Hadoop ，Flink ，Storm，HaLoop

6.1:Spark

Spark 是一个高速、通用大数据计算处理引擎。拥有Hadoop MapReduce所具有的优点，但不同的是Job的中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。它可以与Hadoop和Apache Mesos一起使用，也可以独立使用
Spark 官网

6.2:Kinesis

Kinesis 可以构建用于处理或分析流数据的自定义应用程序，来满足特定需求。Amazon Kinesis Streams 每小时可从数十万种来源中连续捕获和存储数TB数据，如网站点击流、财务交易、社交媒体源、IT日志和定位追踪事件。
Kinesis Github

6.3:Hadoop

Hadoop 是一个开源框架，适合运行在通用硬件，支持用简单程序模型分布式处理跨集群大数据集，支持从单一服务器到上千服务器的水平scale up。Apache的Hadoop项目已几乎与大数据划上了等号，它不断壮大起来，已成为一个完整的生态系统，拥有众多开源工具面向高度扩展的分布式计算。高效、可靠、可伸缩，能够为你的数据存储项目提供所需的YARN、HDFS和基础架构，并且运行主要的大数据服务和应用程序。
Hadoop官网

6.4:Spark Streaming

Spark Streaming 实现微批处理，目标是很方便的建立可扩展、容错的流应用，支持Java、Scala和Python，和Spark无缝集成。Spark Streaming可以读取数据HDFS，Flume，Kafka，Twitter和ZeroMQ，也可以读取自定义数据。

6.5:Trident

Trident 是对Storm的更高一层的抽象，除了提供一套简单易用的流数据处理API之外，它以batch(一组tuples)为单位进行处理，这样一来，可以使得一些处理更简单和高效。
Spark Streaming官网介绍

6.6:Flink

Flink 于今年跻身Apache顶级开源项目，与HDFS完全兼容。Flink提供了基于Java和Scala的API，是一个高效、分布式的通用大数据分析引擎。更主要的是，Flink支持增量迭代计算，使得系统可以快速地处理数据密集型、迭代的任务。
Flink 官网

6.7:Samza

Samza 出自于LinkedIn，构建在Kafka之上的分布式流计算框架，是Apache顶级开源项目。可直接利用Kafka和Hadoop YARN提供容错、进程隔离以及安全、资源管理。
Samza 官网

6.8:Storm

Storm是Twitter开源的一个类似于Hadoop的实时数据处理框架。编程模型简单，显著地降低了实时处理的难度，也是当下最人气的流计算框架之一。与其他计算框架相比，Storm最大的优点是毫秒级低延时。
Storm官网

6.9:Yahoo S4

Yahoo S4 （Simple Scalable Streaming System）是一个分布式流计算平台，具备通用、分布式、可扩展的、容错、可插拔等特点，程序员可以很容易地开发处理连续无边界数据流（continuous unbounded streams of data）的应用。它的目标是填补复杂专有系统和面向批处理开源产品之间的空白，并提供高性能计算平台来解决并发处理系统的复杂度。
Yahoo S4 官网

6.10:HaLoop

HaLoop 是一个Hadoop MapReduce框架的修改版本，其目标是为了高效支持迭代，递归数据分析任务，如PageRank，HITs，K-means，sssp等。

7：查询引擎

查询引擎主要包括以下相关软件技术：
Presto ,Drill ,Phoenix ,Hive ,SparkSQL,Tajo ，Impala ，Elasticsearch ，Solr ，Shark ，Lucene

7.1: Presto

Presto 是一个开源的分布式SQL查询引擎，适用于交互式分析查询，可对250PB以上的数据进行快速地交互式分析。Presto的设计和编写是为了解决像Facebook这样规模的商业数据仓库的交互式分析和处理速度的问题。Facebook称Presto的性能比诸如Hive和MapReduce要好上10倍有多。
Presto -github

7.2: Drill

Drill 于2012年8月份由Apache推出，让用户可以使用基于SQL的查询，查询Hadoop、NoSQL数据库和云存储服务。它能够运行在上千个节点的服务器集群上，且能在几秒内处理PB级或者万亿条的数据记录。它可用于数据挖掘和即席查询，支持一系列广泛的数据库，包括HBase、MongoDB、MapR-DB、HDFS、MapR-FS、亚马逊S3、Azure Blob Storage、谷歌云存储和Swift。
Drill 官网

7.3: Phoenix

Phoenix 是一个Java中间层，可以让开发者在Apache HBase上执行SQL查询。Phoenix完全使用Java编写，并且提供了一个客户端可嵌入的JDBC驱动。Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan，并编排执行以生成标准的JDBC结果集。
Phoenix 官网

7.4: Pig

Pig 是一种编程语言，它简化了Hadoop常见的工作任务。Pig可加载数据、转换数据以及存储最终结果。Pig最大的作用就是为MapReduce框架实现了一套shell脚本，类似我们通常熟悉的SQL语句。
Pig 官网

7.5: Hive

Hive 是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。
Hive 官网

7.6: SparkSQL

SparkSQL 的前身是Shark，SparkSQL抛弃原有Shark的代码并汲取了一些优点，如内存列存储（In-Memory Columnar Storage）、Hive兼容性等。由于摆脱了对Hive的依赖性，SparkSQL无论在数据兼容、性能优化、组件扩展方面都得到了极大的方便。
SparkSQL 官网

7.7: Stinger

Stinger 原来叫Tez，是下一代Hive，由Hortonworks主导开发，运行在YARN上的DAG计算框架。某些测试下，Stinger能提升10倍左右的性能，同时会让Hive支持更多的SQL。
Stinger 官网

7.8: Tajo

Tajo 目的是在HDFS之上构建一个可靠的、支持关系型数据的分布式数据仓库系统，它的重点是提供低延迟、可扩展的ad-hoc查询和在线数据聚集，以及为更传统的ETL提供工具。
Tajo 官网

7.9: Impala

Impala Cloudera声称，基于SQL的Impala数据库是“面向Apache Hadoop的领先的开源分析数据库”。它可以作为一款独立产品来下载，又是Cloudera的商业大数据产品的一部分。Cloudera Impala 可以直接为存储在HDFS或HBase中的Hadoop数据提供快速、交互式的SQL查询。
Impala 官网

7.10: Elasticsearch

Elasticsearch 是一个基于Lucene的搜索服务器。它提供了一个分布式、支持多用户的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。设计用于云计算中，能够达到实时搜索、稳定、可靠、快速、安装使用方便。
Elasticsearch 官网

7.11: Solr

Solr 基于Apache Lucene，是一种高度可靠、高度扩展的企业搜索平台。知名用户包括eHarmony、西尔斯、StubHub、Zappos、百思买、AT&T、Instagram、Netflix、彭博社和Travelocity。
Solr 官网

7.12: Shark

Shark 即Hive on Spark，本质上是通过Hive的HQL解析，把HQL翻译成Spark上的RDD操作，然后通过Hive的metadata获取数据库里的表信息，实际HDFS上的数据和文件，会由Shark获取并放到Spark上运算。Shark的特点就是快，完全兼容Hive，且可以在shell模式下使用rdd2sql()这样的API，把HQL得到的结果集，继续在scala环境下运算，支持自己编写简单的机器学习或简单分析处理函数，对HQL结果进一步分析计算。

7.13: Lucene

Lucene 基于Java的Lucene可以非常迅速地执行全文搜索。据官方网站声称，它在现代硬件上每小时能够检索超过150GB的数据，它拥有强大而高效的搜索算法。
Lucene 官网

8：分析和报告工具

分析和报告工具主要包括如下：
Kettle，Kylin ，Kibana ，Druid ，KNIME ，Zeppelin ，Talend ，Splunk ，Pentaho ，Jaspersoft ，SpagoBI

8.1: Kettle

Kettle 这是一个ETL工具集，它允许你管理来自不同数据库的数据，通过提供一个图形化的用户环境来描述你想做什么，而不是你想怎么做。作为Pentaho的一个重要组成部分，现在在国内项目应用上逐渐增多。
Kettle -github

8.2: Kylin

Kylin 是一个开源的分布式分析引擎，提供了基于Hadoop的超大型数据集（TB/PB级别）的SQL接口以及多维度的OLAP分布式联机分析。最初由eBay开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。
Kylin 官网

8.3: Kibana

Kibana 是一个使用Apache 开源协议的Elasticsearch 分析和搜索仪表板，可作为Logstash和ElasticSearch日志分析的 Web 接口，对日志进行高效的搜索、可视化、分析等各种操作。
Kibana 官网

8.4: Druid

Druid 是一个用于大数据实时查询和分析的高容错、高性能、分布式的开源系统，旨在快速处理大规模的数据，并能够实现快速查询和分析。
Druid 官网

8.5: KNIME

KNIME 的全称是“康斯坦茨信息挖掘工具”（Konstanz Information Miner），是一个开源分析和报表平台。宣称“是任何数据科学家完美的工具箱，超过1000个模块，可运行数百个实例，全面的集成工具，以及先进的算法”。
KNIME 官网

8.6: Zeppelin

Zeppelin 是一个提供交互数据分析且基于Web的笔记本。方便你做出可数据驱动的、可交互且可协作的精美文档，并且支持多种语言，包括 Scala(使用 Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、Shell等。
Zeppelin 官网

8.7: Talend

Talend Open Studio 是第一家针对的数据集成工具市场的ETL(数据的提取Extract、传输Transform、载入Load)开源软件供应商。Talend的下载量已超过200万人次，其开源软件提供了数据整合功能。其用户包括美国国际集团（AIG）、康卡斯特、电子港湾、通用电气、三星、Ticketmaster和韦里逊等企业组织。
Talend 官网

8.8: Splunk

Splunk 是机器数据的引擎。使用 Splunk 可收集、索引和利用所有应用程序、服务器和设备（物理、虚拟和云中）生成的快速移动型计算机数据，从一个位置搜索并分析所有实时和历史数据。
Splunk 官网

8.9: Pentaho

Pentaho 是世界上最流行的开源商务智能软件，以工作流为核心的、强调面向解决方案而非工具组件的、基于java平台的商业智能(Business Intelligence)套件。包括一个web server平台和几个工具软件：报表、分析、图表、数据集成、数据挖掘等，可以说包括了商务智能的方方面面。
Pentaho 社区

8.10: Jaspersoft

Jaspersoft 提供了灵活、可嵌入的商业智能工具，用户包括众多企业组织：高朋、冠群科技、美国农业部、爱立信、时代华纳
Jaspersoft 官网

8.11: SpagoBI

SpagoBI Spago被市场分析师们称为“开源领袖”，它提供商业智能、中间件和质量保证软件，另外还提供相应的Java EE应用程序开发框架。
SpagoBI 官网

9：机器学习

机器学习框架主要包括如下：
Tensorflow，Theano，Keras，DSSTNE，Lasagne，Torch，mxnet，DL4J，Cognitive Toolkit，Caffe，Hivemall ，RapidMiner ，Mahout

9.1: Tensorflow

Tensorflow是Google开源的一款深度学习工具，使用C++语言开发，上层提供Python API。在开源之后，在工业界和学术界引起了极大的震动，因为TensorFlow曾经是著名的Google Brain计划中的一部分，Google Brain项目的成功曾经吸引了众多科学家和研究人员往深度学习这个“坑”里面跳，这也是当今深度学习如此繁荣的重要原因。

9.2: Theano

Theano是老牌、稳定的库之一。它是深度学习开源工具的鼻祖，由蒙特利尔理工学院时间开发于2008年并将其开源，框架使用Python语言开发。它是深度学习库的发轫，许多在学术界和工业界有影响力的深度学习框架都构建在Theano之上，并逐步形成了自身的生态系统，这其中就包含了著名的Keras、Lasagne和Blocks。
Theano是底层库，遵循Tensorflow风格。因此不适合深度学习，而更合适数值计算优化。它支持自动函数梯度计算，它有 Python接口，集成了Numpy，使得这个库从一开始就成为通用深度学习最常用的库之一。

9.3: Keras

Keras是一个非常高层的库，工作在Theano或Tensorflow（可配置）之上。此外，Keras强调极简主义，你可以用寥寥可数的几行代码来构建神经网络。在这里，您可以看到一个Keras代码示例，与在Tensorflow中实现相同功能所需的代码相比较。

9.4: DSSTNE

DSSTNE（Deep Scalable Sparse Tensor Network Engine，DSSTNE）是Amazon开源的一个非常酷的框架，由C++语言实现。但它经常被忽视。为什么？因为，撇开其他因素不谈，它并不是为一般用途设计的。DSSTNE只做一件事，但它做得很好：推荐系统。正如它的官网所言，它不是作为研究用途，也不是用于测试想法，而是为了用于生产的框架。

9.5: Lasagne

Lasagne是一个工作在Theano之上的库。它的任务是将深度学习算法的复杂计算予以简单地抽象化，并提供一个更友好的 Python 接口。这是一个老牌的库，长久以来，它是一个具备高扩展性的工具。在Ricardo看来，它的发展速度跟不上Keras。它们适用的领域相同，但是，Keras有更好的、更完善的文档。

9.6: Torch

Torch是Facebook和Twitter主推的一个特别知名的深度学习框架，Facebook Reseach和DeepMind所使用的框架，正是Torch（DeepMind被Google收购之后才转向TensorFlow）。出于性能的考虑，它使用了一种比较小众的编程语言Lua ，目前在音频、图像及视频处理方面有着大量的应用。

在目前深度学习大部分以Python为编程语言的大环境之下，一个以Lua为编程语言的框架只有更多的劣势，而不是优势。Ricardo没有Lua的使用经验，他表示，如果他要用Torch的话，就必须先学习Lua语言才能使用Torch。就他个人来说，更倾向于熟悉的Python、Matlab或者C++来实现。

9.7: mxnet

mxnet是支持大多数编程语言的库之一，它支持Python、R、C++、Julia等编程语言。Ricardo觉得使用R语言的人们会特别喜欢mxnet，因为直到现在，在深度学习的编程语言领域中，Python是卫冕之王。

Ricardo以前并没有过多关注mxnet，直到Amazon AWS宣布将mxnet作为其深度学习AMI 中的参考库时，提到了它巨大的水平扩展能力，他才开始关注。

Ricardo表示他对多GPU的扩展能力有点怀疑，但仍然很愿意去了解实验更多的细节。但目前还是对mxnet的能力抱有怀疑的态度。

9.8: DL4J

DL4J，全名是Deep Learning for Java。正如其名，它支持Java。Ricardo说，他之所以能接触到这个库，是因为它的文档。当时，他在寻找限制波尔兹曼机（Restricted Boltzman Machines）、自编码器（Autoencoders），在DL4J找到这两个文档，文档写得很清楚，有理论，也有代码示例。Ricardo表示D4LJ的文档真的是一个艺术品，其他库的文档应该向它学习。

DL4J背后的公司Skymind意识到，虽然在深度学习世界中，Python是王，但大部分程序员都是Java起步的，因此，DL4J兼容JVM，也适用于Java、Clojure和Scala。随着Scala的潮起潮落，它也被很多有前途的初创公司使用。

9.8: DL4J

Cognitive Toolkit，就是之前被大家所熟知的缩略名CNTK，但最近刚更改为现在这个名字，可能利用Microsoft认知服务（Microsoft Cognitive services）的影响力。在发布的基准测试中，它似乎是非常强大的工具，支持垂直和水平推移。

到目前为止，认知工具包似乎不太流行。关于这个库，还没有看到有很多相关的博客、网络示例，或者在Kaggle里的相关评论。Ricardo表示这看起来有点奇怪，因为这是一个背靠微软研究的框架，特别强调自己的推移能力。而且这个研究团队在语音识别上打破了世界纪录并逼近了人类水平。

你可以在他们的项目Wiki中的示例，了解到认知工具包在Python的语法和Keras非常相似。

9.9: Caffe

Caffe是最老的框架之一，比老牌还要老牌。 Caffe 是加州大学伯克利分校视觉与学习中心（Berkeley Vision and Learning Center ，BVLC)贡献出来的一套深度学习工具，使用C/C++开发，上层提供Python API。Caffe同样也在走分布式路线，例如著名的Caffe On Spark项目。

9.10: Hivemall

Hivemall 结合了面向Hive的多种机器学习算法，它包括了很多扩展性很好的算法，可用于数据分类、递归、推荐、k最近邻、异常检测和特征哈希等方面的分析应用。

9.11: RapidMiner

RapidMiner 具有丰富数据挖掘分析和算法功能，常用于解决各种的商业关键问题，解决方案覆盖了各个领域，包括汽车、银行、保险、生命科学、制造业、石油和天然气、零售业及快消行业、通讯业、以及公用事业等各个行业。

9.12: Mahout

Mahout 目的是“为快速创建可扩展、高性能的机器学习应用程序而打造一个环境”，主要特点是为可伸缩的算法提供可扩展环境、面向Scala/Spark/H2O/Flink的新颖算法、Samsara（类似R的矢量数学环境），它还包括了用于在MapReduce上进行数据挖掘的众多算法。

开发平台

开发平台主要包括如下：
Lumify ，Lingual ，Beam ，Cascading ，HPCC

10.1：Lumify

Lumify 归Altamira科技公司（以国家安全技术而闻名）所有，这是一种开源大数据整合、分析和可视化平台。
Lumify 官网

10.2：Lingual

Lingual 是Cascading的高级扩展，为Hadoop提供了一个ANSI SQL接口极大地简化了应用程序的开发和集成。Lingual实现了连接现有的商业智能（BI）工具，优化了计算成本，加快了基于Hadoop的应用开发速度。
Lingual 官网

10.3：Beam

Beam 基于Java提供了统一的数据进程管道开发，并且能够很好地支持Spark和Flink。提供很多在线框架，开发者无需学太多框架。
Beam 官网

10.4：Cascading

Cascading 是一个基于Hadoop建立的API，用来创建复杂和容错数据处理工作流。它抽象了集群拓扑结构和配置，使得不用考虑背后的MapReduce，就能快速开发复杂的分布式应用。
Cascading 官网

10.5：HPCC

HPCC 作为Hadoop之外的一种选择，是一个利用集群服务器进行大数据分析的系统，HPCC在LexisNexis内部使用多年，是一个成熟可靠的系统，包含一系列的工具、一个称为ECL的高级编程语言、以及相关的数据仓库，扩展性超强。
HPCC 官网

你可能感兴趣的:(大数据,大数据,开源,组件)

封装一个分割线组件小张快跑。 Vue2封装功能组件 css css3 前端
最终样式Vue2代码{{title}}exportdefault{name:'SepLine',props:{title:{type:String,default:'照片元数据'//默认值}}}/*样式7*/.sep-line{position:relative;height:28px;width:100%;display:-webkit-box;display:-ms-flexbox;displ
大数据最新大数据StarRocks(七)：数据表创建(2) 2401_84182271 程序员大数据
2.1表分为内部表和外部表默认未内部表，3.0版本开始集成外部数据建议使用catalog，外部表的建表方式将被弃用2.2列定义语法：col_namecol_type[agg_type][NULL|NOTNULL][DEFAULT"default\_value"][AUTO_INCREMENT][ASgeneration_expr]col_name：列名称注意，在一般情况下，不能直接创建以以__op
系统架构设计（以飞控系统、航电系统、机电管理系统、电子电气架构为例）机载软件与适航机载系统系统工程适航系统架构架构
架构的定义系统架构涉及对系统的结构和行为进行高层次的描述。它包括系统的组成部分、这些部分之间的关系、与外部环境的交互方式，以及满足特定功能和非功能性需求的方法。系统架构定义了系统的总体设计蓝图，指导系统的开发、集成、部署和维护。系统架构的核心要素组成部分（Components）：系统中的独立模块或单元，每个模块执行特定的功能。组件可以是软件模块、硬件设备、数据库、用户界面等。组件间的关系（Rela
Beekeeper Studio：高颜值且免费的SQL开发工具开源项目精选 sql 数据库
BeekeeperStudio是一款免费开源的SQL开发和数据库管理工具，具有美观高效、简单易用的特点。BeekeeperStudio基于Vue.js开发，遵循MIT开源协议，支持Windows、Linux以及macOS平台。Stars数17842Forks数1170主要特点安全连接：除了正常的连接，也可以使用SSL加密连接或通过SSH隧道连接；SQL自动补全：代码编辑器支持语法高亮和表名自动补全
鸿蒙HarmonyOS开发：应用程序静态包-HAR 让开，我要吃人了鸿蒙开发 OpenHarmony HarmonyOS harmonyos 华为移动开发前端 html 开发语言鸿蒙
HAR（HarmonyArchive）是静态共享包，可以包含代码、C++库、资源和配置文件。通过HAR可以实现多个模块或多个工程共享ArkUI组件、资源等相关代码。使用场景作为二方库，发布到OHPM私仓，供公司内部其他应用使用。作为三方库，发布到OHPM中心仓，供其他应用使用。约束限制HAR不支持在设备上单独安装/运行，只能作为应用模块的依赖项被引用。HAR不支持在配置文件中声明UIAbility
Java+Selenium+Cucumber自动化测试框架：高效软件测试的利器测试渣 java selenium
一、引言在当今软件开发的快速迭代的背景下，确保软件质量和功能的正确性变得愈发关键。自动化测试作为一种提高测试效率、降低成本的有效手段，受到了广泛的关注。Java作为一门功能强大且广泛应用的编程语言，与Selenium和Cucumber相结合的自动化测试框架，为软件测试领域带来了诸多优势。本文将深入探讨这一自动化测试框架，包括其简介、各组件的作用、环境搭建、实际应用案例以及未来发展趋势等内容。二、J
个人AI助手的未来：Yi AI开源系统助力快速搭建耶耶Norsea 网络杂烩人工智能开源
摘要YiAI推出了一站式个人AI助手平台解决方案，助力用户快速搭建专属AI助手。该平台采用全套开源系统，涵盖前端应用、后台管理及小程序功能，并基于MIT协议开放使用。同时，平台集成了本地RAG方案，利用Milvus与Weaviate向量数据库支持本地部署，为用户提供高效、灵活的数据处理能力。关键词个人AI助手,快速搭建,开源系统,本地RAG,向量数据库一、YiAI开源系统概述1.1个人AI助手的发
Moodle + Websoft9：创新教育的强大组合，助力教学与学习开源软件
Moodle+Websoft9：构建未来课堂的技术基石一、Moodle：开源生态的深度解析•模块化设计：支持超800个官方插件，如H5P交互内容创作、BigBlueButton虚拟课堂，满足个性化教学需求。•学习分析引擎：内置LearningAnalyticsAPI，可集成Python/R语言进行深度学习，预测学生学业风险。•移动优先战略：MoodleApp支持离线学习、扫码签到，2023年新增A
python-flask复习(一) 胖虎是只mao python-web python函数 python python flask
一、Python现阶段三大主流Web框架Django、Tornado、Flask对比Django主要特点是大而全，集成了很多组件（例如Models、Admin、Form等等）,不管你用得到用不到，反正它全都有，属于全能型框架，通常用于大型Web应用，由于内置组件足够强大所以使用Django开发可以一气呵成，优点是大而全，缺点也就暴露出来了，这么多的资源一次性全部加载，肯定会造成一部分的资源浪费；T
duxapp放弃了redux，在duxapp中局部、全局状态的实现方案
全局状态全局状态是一个很实用的功能，例如管理用户信息，组件间状态共享等功能都需要用到全局状态，react有很多成熟的全局状态管理工具，但是很多写起来太过麻烦，duxapp提供了几种应对不同场景的全局状态的方案，当然如果你需要其他全局状态，可以自行集成局部全局状态这种全局状态方案的使用场景，在于父子组件之间的状态共享import{contextState}from'@/duxapp'import{T
React性能优化的深度解析：React.memo和useMemo的真相与误区今天也想MK代码持续学习持续总结 react.js 性能优化前端
引言在React应用开发中，性能优化始终是开发者关注的重点。随着应用规模的扩大，组件渲染效率成为影响用户体验的关键因素。React.memo和useMemo是React提供的两个常用性能优化API，但它们常常被误解和滥用。本文将深入剖析这两个API的工作原理、适用场景，并通过实际案例分析它们的优缺点，帮助开发者做出明智的性能优化决策。技术原理React.memo与useMemo的本质区别React
CocoaPods 私有库创建 sanjieshenwu1987 iOS 私有仓库
总结流程和pod指令，以及自己操作遇到的问题。参考文章iOS组件化-基础iOS组件化-项目组件化Swift/Objective-C-使用Cocoapods创建/管理私有库（初中级用法）Swift/Objective-C-使用Cocoapods创建/管理私有库（高级用法）文章目录参考文章创建自己的私有库1、创建私有SpecRepo2、创建组件库3、提交组件库3.1验证本地库3.2提交到git3.3将
【使用 Element UI 实现手动上传文件：FormData 追加文件和其他参数，支持单文件覆盖上传】 Hermione_log vue.js elementui 前端
在开发Web应用时，文件上传是一个常见的需求。ElementUI提供了强大的el-upload组件，可以轻松实现文件上传功能。本文将详细介绍如何使用ElementUI实现以下功能：手动触发文件上传：用户选择文件后，点击按钮手动上传。使用FormData追加文件和其他参数：将文件和其他表单数据一起提交。单文件覆盖上传：只允许上传一个文件，新文件会覆盖旧文件。1.实现思路为了实现上述功能，我们需要以下
HarmonyOS NEXT一行代码实现任意处弹窗
前言从Api9开始开发鸿蒙的大佬应该被自定义弹窗折腾得够呛，到目前为止我能想到的自定义弹窗方案有以下几种promptAction.openCustomDialog(options:CustomDialogOptions)(该方案@Builder装饰的视图(builder参数)必须定义在组件内部)CustomDialogController+CustomDialog(该方案CustomDialogC
基于 Websoft9 平台的 Odoo 教学实践：助力智能制造、物流与财务会计专业教师提升教学效果开源
Websoft9作为企业级开源软件的自动化部署与管理平台，为高校智能制造、物流与财务会计等专业提供了完整的Odoo（开源ERP）教学解决方案。以下从部署、维护及功能扩展三方面解析其核心价值：一、部署：开箱即用的企业级业务场景模拟一键构建复杂业务架构Websoft9预置了Odoo全模块集成模板，部署时可自动关联PostgreSQL数据库、Nginx负载均衡及Let'sEncryptSSL证书，还原真
2025React岗位前端面试题180道及其答案解析,看完稳了,万字长文,持续更新.... 祈澈菇凉前端
1.什么是React？它的主要特点是什么？答案解析：React是一个用于构建用户界面的JavaScript库，主要用于构建单页应用。其主要特点包括：组件化：React应用由多个可重用的组件组成，便于管理和维护。虚拟DOM：React使用虚拟DOM提高性能，通过最小化实际DOM操作来优化渲染过程。单向数据流：数据在组件之间以单向流动的方式传递，简化了数据管理和调试。声明式编程：React允许开发者以
Websoft9 开源多应用平台：培养学生数字化能力的实战工具开源实践
引言数字化教育转型的核心在于将技术工具与教学场景深度融合，但传统模式常因环境配置复杂、工具链割裂等问题阻碍实践教学效率。Websoft9开源多应用平台以标准化部署、多工具集成、轻量化运维为核心能力，为教育场景提供了一种技术门槛更低、协作效率更高的解决方案。本文基于实际教学需求与技术验证，探讨如何通过该平台构建数字化能力培养体系。一、技术特性与教育场景的适配性开源生态覆盖全技术栈，缩短教学准备周期平
组件化开发之02 cocoapods 远程私有库 dzb1060545231 iOS 开发专栏免费
上一讲我们讲到了如何创建本地私有仓库,关于远程私有库就是我们按照cocoapods的一些规范创建一个自己的私有索引文件库和一个自己的私有库代码仓库,私有索引库存放我们私有库的podspec索引文件,后边更改了私有库版本内容,就将私有库的podsepc文件提交到这个私有索引库仓库里.接下来我会具体的讲解如何去生成这样一个远程私有索引库仓库,方便公司内部开发人员去使用这个远程私有库.///这是笔者电脑
从0到1，在Ubuntu 20.04 下编译 openWRT 姓张名江叫大江软路由 ubuntu linux openwrt
从0到1，在Ubuntu20.04下编译openWRT/LELD/老毛子固件（跳过八大坑，你就是赢家！）0.申明1.Virtualbox下载与安装2.Linux系统下载与安装2.1Ubuntu下载2.2在Virtualbox中安装Ubuntu3.固件编译4.老毛子固件编译5.后话0.申明本教程所用的软件及代码均是免费开源的，请大家自觉遵守相关的开源协议。在此向开源软件及开源代码的作者们致敬。因本人
计算机专业毕业设计题目推荐（新颖选题）本科计算机科学专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计计算机网络毕设选题毕设系统毕设题目计算机科学专业
文章目录前言最新毕设选题（建议收藏起来）本科计算机科学专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能设计
Vue3 + ECharts 数据可视化实战指南念九_ysl Vue echarts 信息可视化前端
一、为什么选择ECharts？百度开源的成熟可视化库支持30+种图表类型完善的文档和社区支持与Vue3完美兼容二、环境搭建1.创建Vue3项目npmcreatevue@latest#选择TypeScript、Pinia等按需配置2.安装核心依赖npminstallechartsvue-echarts@vueuse/core#推荐版本：#[email protected]#[email protected]
华创力环形导轨技术突破：预计精度跃升至0.02mm，重新定义高精密制造边界 HXDGCL 制造
在工业自动化、半导体封装、精密医疗设备等领域，环形导轨作为高速循环运动系统的核心组件，其精度直接决定了生产效率和产品质量。长期以来，行业普遍将0.05mm视为环形导轨动态重复定位精度的“天花板”，而华创力通过全链路技术创新，预计突破这一极限，将环形导轨的综合精度提升至**±0.02mm**，为高精密制造领域树立新标杆。华创力核心突破通过材料科学、结构设计、制造工艺、智能控制四维创新，华创力环形导轨
物联网 - JetLinks与ThingsBoard技术选型对比天机️灵韵物联网开源项目物联网
JetLinks与ThingsBoard作为两款主流的开源物联网平台，在技术架构、功能特性及适用场景上存在显著差异。以下从技术选型的关键维度进行深度对比分析：JetLinks与ThingsBoard物联网平台的深度技术对比及选型建议，综合多个维度分析两者的核心差异与适用场景：一、技术架构与性能技术栈JetLinks：基于Java8、SpringBoot2.x、WebFlux、Netty等，采用响应
Wazuh: 一款超强大的威胁预防、检测安全平台！支持虚拟化、容器化和云环境保护开源项目精选安全
Wazuh是一个功能强大且高度灵活的开源安全平台，旨在为企业和组织提供全面的威胁预防和检测能力。它集成了多种安全功能，包括入侵检测、漏洞管理、合规性监控等，能够有效地保护企业的网络和系统安全。Stars数11982Forks数1785主要特点多维度威胁检测：Wazuh能够对系统日志、文件完整性、网络流量等多个数据源进行实时监测，及时发现潜在的安全威胁。通过对这些数据源的综合分析，Wazuh可以提供
智慧交通是什么，可以帮助我们解决什么问题? Guheyunyi 运维大数据人工智能信息可视化前端
智慧交通是什么？智慧交通（SmartTransportation）是指利用物联网（IoT）、大数据、人工智能（AI）、云计算、5G通信等先进技术，对交通系统进行智能化管理和优化，以提高交通效率、减少拥堵、降低事故率、提升出行体验，并实现交通资源的合理配置和可持续发展。智慧交通的核心是通过数据采集、分析和应用，实现交通系统的智能化、自动化和协同化，从而构建一个高效、安全、绿色、便捷的交通生态系统。智
【3D模型】【游戏开发】【Blender】Blender模型分享-狮头木雕附导入方法踏雪无痕老爷子资源介绍 3d blender
导入方法：[Blender]如何导入包含纹理的.blend模型文件在3D建模和渲染工作中，Blender是一款功能强大的免费开源软件。很多时候，我们需要导入.blend后缀的模型文件，同时确保纹理（textures）文件夹中的贴图能够正确加载。本文将介绍详细的导入步骤以及可能遇到的问题和解决方案。1.直接打开.blend文件如果你的.blend文件是一个完整的工程文件，包含了模型和纹理，直接打开即
AI学习指南RAG篇(24)-RAGFlow的社区与开源贡献俞兆鹏 AI学习指南人工智能
一、引言RAGFlow是一款基于深度文档理解的开源RAG（Retrieval-AugmentedGeneration，检索增强生成）引擎，旨在解决现有RAG技术在数据处理和生成答案方面的挑战。RAGFlow通过结合大型语言模型（LLMs）的强大生成能力和高效的信息检索系统，为用户提供了一种全新的交互体验。本文将鼓励读者参与到RAGFlow的开源社区中，共同推动技术的发展和创新。二、RAGFlow的
C#实战：使用ZXing.NET库轻松生成二维码与条形码墨瑾轩一起学学C#【一】c#.net 开发语言
下面我将详细介绍C#中用于生成二维码和条形码的库——ZXing.NET，并附带一份详细的代码示例，其中每行代码均配有注释以解释其功能。ZXing.NET是基于开源项目ZXing（ZebraCrossing）的.NET移植版，它提供了生成和解析多种一维条形码和二维二维码的功能。准备工作首先，确保您已通过NuGet包管理器在项目中安装了ZXing.NET库。在VisualStudio中，可以通过以下步
Redis 使用入门与进阶指南 ohn.yu 技术杂谈 redis 数据库缓存
Redis（RemoteDictionaryServer）是一个高性能的开源内存数据存储系统，常被用作数据库、缓存和消息队列。它以速度快、支持多种数据结构和简单易用而著称。本文将带你从Redis的基础用法开始，逐步深入到适合中级技术人员的实际应用场景。如果你是一个初学者或有一定经验的技术人员，这篇博客会帮助你更好地掌握Redis。什么是Redis？Redis是一个键值对存储系统，但它不仅仅是简单的
Node.js 中使用 RabbitMQ 海上彼尚 node.js node.js rabbitmq 分布式
目录一、RabbitMQ简介二、核心概念解析三、环境搭建（以Ubuntu为例）四、Node.js实战：生产者与消费者1.安装依赖2.生产者代码（发送消息）3.消费者代码（处理消息）五、高级配置与最佳实践六、常见问题与解决方案七、总结一、RabbitMQ简介RabbitMQ是一个基于AMQP协议的开源消息代理工具，专为分布式系统设计。它通过解耦生产者和消费者实现异步通信，支持流量削峰、任务队列、服务
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓