wandy0211

大数据相关开源项目及组件汇总

前言

花了一点时间，整理了大数据相关开源项目、组件和官网地址。按照实际应用功能的不同，分为以下10个部分，并在目录图中进行归纳，后续章节的内容则是分别介绍各组件的背景及应用场景。

调度与管理服务

文件系统

数据搜集

消息系统

内存技术

数据处理

查询引擎

分析和报告工具

机器学习

开发平台

目录图：类别与开源项目

| 调度与管理服务 | Azkaban 、YARN 、Mesos、Ambari 、ZooKeeper 、Thrift 、Chukwa |

| 文件系统 | Lustre 、HDFS 、GlusterFS 、Alluxio 、Ceph、PVFS 、QFS |

| 数据搜集 | Logstash 、Scribe 、Flume |

| 消息系统 | RabbitMQ 、ActiveMQ 、ActiveMQ 、Kafka |

| 内存技术 | Terracotta 、Ignite 、GemFire 、GridGain |

| 数据处理 | Spark,Kinesis ,Hadoop ，Flink ，Storm，HaLoop |

| 查询引擎 | Presto ，Drill ，Phoenix ，Hive ，SparkSQL,Tajo ，Impala ，Elasticsearch ，Solr ，Shark ，Lucene |

| 分析和报告工具 | Kettle，Kylin ，Kibana ，Druid ，KNIME ，Zeppelin ，Talend ，Splunk ，Pentaho ，Jaspersoft ，SpagoBI |

| 机器学习 | Tensorflow，Theano，Keras，DSSTNE，Lasagne，Torch，mxnet，DL4J，Cognitive Toolkit，Caffe，Hivemall ，RapidMiner ，Mahout |

| 开发平台 | Lumify ，Lingual ，Beam ，Cascading ，HPCC |

1：调度与管理服务

大数据调度与管理服务主要包括以下相关软件：

Azkaban 、YARN 、Mesos、Ambari 、ZooKeeper 、Thrift 、Chukwa 。以下将分别介绍。

1.1：Azkaban

Azkaban 是一款基于Java编写的任务调度系统任务调度，来自LinkedIn公司，用于管理他们的Hadoop批处理工作流。Azkaban根据工作的依赖性进行排序，提供友好的Web用户界面来维护和跟踪用户的工作流程。

Azkaban官网

1.2：YARN

YARN 是一种新的Hadoop资源管理器，它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，解决了旧MapReduce框架的性能瓶颈。它的基本思想是把资源管理和作业调度/监控的功能分割到单独的守护进程。

Hadoop官网中关于Yarn的介绍

1.3：Mesos

Mesos 是由加州大学伯克利分校的AMPLab首先开发的一款开源群集管理软件，支持Hadoop、ElasticSearch、Spark、Storm 和Kafka等架构。对数据中心而言它就像一个单一的资源池，从物理或虚拟机器中抽离了CPU，内存，存储以及其它计算资源，很容易建立和有效运行具备容错性和弹性的分布式系统。

Mesos 官网

1.4：Ambari

Ambari 作为Hadoop生态系统的一部分，提供了基于Web的直观界面，可用于配置、管理和监控Hadoop集群。目前已支持大多数Hadoop组件，包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等。

Ambari 官网

1.5：ZooKeeper

ZooKeeper 是一个分布式的应用程序协调服务，是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的工具，让Hadoop集群里面的节点可以彼此协调。ZooKeeper现在已经成为了 Apache的顶级项目，为分布式系统提供了高效可靠且易于使用的协同服务。

ZooKeeper 官网

1.6：Thrift

Thrift 在2007年facebook提交Apache基金会将Thrift作为一个开源项目，对于当时的facebook来说创造thrift是为了解决facebook系统中各系统间大数据量的传输通信以及系统之间语言环境不同需要跨平台的特性。

Thrift 官网

1.7：Chukwa

Chukwa 是监测大型分布式系统的一个开源数据采集系统，建立在HDFS/MapReduce框架之上并继承了Hadoop的可伸缩性和可靠性，可以收集来自大型分布式系统的数据，用于监控。它还包括灵活而强大的显示工具用于监控、分析结果。

Chukwa 官网

2：文件系统

大数据文件系统主要包括以下相关软件：

Lustre 、HDFS 、GlusterFS 、Alluxio 、Ceph、PVFS 、QFS，以下将分别介绍。

2.1：Lustre

Lustre 是一个大规模的、安全可靠的、具备高可用性的集群文件系统，它是由SUN公司开发和维护的。该项目主要的目的就是开发下一代的集群文件系统，目前可以支持超过10000个节点，数以PB的数据存储量。

Lustre 官网

2.2：HDFS

HDFS Hadoop Distributed File System，简称HDFS，是一个分布式文件系统。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。

Hadoop官网中关于HDFS的介绍

2.3：GlusterFS

GlusterFS 是一个集群的文件系统，支持PB级的数据量。GlusterFS 通过RDMA和TCP/IP方式将分布到不同服务器上的存储空间汇集成一个大的网络化并行文件系统。

GlusterFS 官网

2.4：Alluxio

Alluxio 前身是Tachyon，是以内存为中心的分布式文件系统，拥有高性能和容错能力，能够为集群框架（如Spark、MapReduce）提供可靠的内存级速度的文件共享服务。

Alluxio 官网

2.5：Ceph

Ceph 是新一代开源分布式文件系统，主要目标是设计成基于POSIX的没有单点故障的分布式文件系统，提高数据的容错性并实现无缝的复制。

Ceph 官网

2.6：PVFS

PVFS 是一个高性能、开源的并行文件系统，主要用于并行计算环境中的应用。PVFS特别为超大数量的客户端和服务器端所设计，它的模块化设计结构可轻松的添加新的硬件和算法支持。

PVFS 官网

2.7：QFS

QFS Quantcast File System (QFS) 是一个高性能、容错好、分布式的文件系统，用于开发支持 MapReduce处理或者需要顺序读写大文件的应用。

QFS 官网

3：数据搜集

大数据数据搜集主要包括以下相关软件：Logstash 、Scribe 、Flume ，以下将分别介绍。

3.1:Logstash

Logstash 是一个应用程序日志、事件的传输、处理、管理和搜索的平台。可以用它来统一对应用程序日志进行收集管理，提供了Web接口用于查询和统计。

Logstash 官网

3.2:Scribe

Scribe是Facebook开源的日志收集系统，它能够从各种日志源上收集日志，存储到一个中央存储系统（可以是NFS，分布式文件系统等）上，以便于进行集中统计分析处理。

Scribe相关信息

3.3:Flume

Flume 是Cloudera提供的一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输的系统。Flume支持在日志系统中定制各类数据发送方，用于收集数据。同时，Flume支持对数据进行简单处理，并写入各种数据接受方（可定制）。

Flume 官网

4：消息系统

大数据消息系统主要包括以下相关软件：

RabbitMQ 、ActiveMQ 、ActiveMQ 、Kafka ，以下将分别介绍。

4.1:RabbitMQ

RabbitMQ 是一个受欢迎的消息代理系统，通常用于应用程序之间或者程序的不同组件之间通过消息来进行集成。RabbitMQ提供可靠的应用消息发送、易于使用、支持所有主流操作系统、支持大量开发者平台。

RabbitMQ 官网

4.1:ActiveMQ

ActiveMQ 是Apache出品，号称“最流行的，最强大”的开源消息集成模式服务器。ActiveMQ特点是速度快，支持多种跨语言的客户端和协议，其企业集成模式和许多先进的功能易于使用，是一个完全支持JMS1.1和J2EE 1.4规范的JMS Provider实现。

ActiveMQ 官网

4.3:Kafka

Kafka 是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模网站中的所有动作流数据，目前已成为大数据系统在异步和分布式消息之间的最佳选择。

Kafka 官网

5：内存技术

大数据内存技术主要包括以下相关软件：

Terracotta 、Ignite 、GemFire 、GridGain 。以下将分别介绍。

5.1:Terracotta

Terracotta 声称其BigMemory技术是“世界上首屈一指的内存中数据管理平台”，支持简单、可扩展、实时消息，声称在190个国家拥有210万开发人员，全球1000家企业部署了其软件。

Terracotta 官网

5.2:Ignite

Ignite 是一种高性能、整合式、分布式的内存中平台，可用于对大规模数据集执行实时计算和处理，速度比传统的基于磁盘的技术或闪存技术高出好几个数量级。该平台包括数据网格、计算网格、服务网格、流媒体、Hadoop加速、高级集群、文件系统、消息传递、事件和数据结构等功能。

Ignite 官网

5.3:GemFire

GemFire Pivotal宣布它将开放其大数据套件关键组件的源代码，其中包括GemFire内存中NoSQL数据库。它已向Apache软件基金会递交了一项提案，以便在“Geode”的名下管理GemFire数据库的核心引擎。

GemFire 官网

5.4:GridGain

GridGain 由Apache Ignite驱动的GridGrain提供内存中数据结构，用于迅速处理大数据，还提供基于同一技术的Hadoop加速器。

GridGain 官网

6：数据处理

数据处理主要包括以下相关软件技术：

Spark,Kinesis ,Hadoop ，Flink ，Storm，HaLoop

6.1:Spark

Spark 是一个高速、通用大数据计算处理引擎。拥有Hadoop MapReduce所具有的优点，但不同的是Job的中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。它可以与Hadoop和Apache Mesos一起使用，也可以独立使用

Spark 官网

6.2:Kinesis

Kinesis 可以构建用于处理或分析流数据的自定义应用程序，来满足特定需求。Amazon Kinesis Streams 每小时可从数十万种来源中连续捕获和存储数TB数据，如网站点击流、财务交易、社交媒体源、IT日志和定位追踪事件。

Kinesis Github

6.3:Hadoop

Hadoop 是一个开源框架，适合运行在通用硬件，支持用简单程序模型分布式处理跨集群大数据集，支持从单一服务器到上千服务器的水平scale up。Apache的Hadoop项目已几乎与大数据划上了等号，它不断壮大起来，已成为一个完整的生态系统，拥有众多开源工具面向高度扩展的分布式计算。高效、可靠、可伸缩，能够为你的数据存储项目提供所需的YARN、HDFS和基础架构，并且运行主要的大数据服务和应用程序。

Hadoop官网

6.4:Spark Streaming

Spark Streaming 实现微批处理，目标是很方便的建立可扩展、容错的流应用，支持Java、Scala和Python，和Spark无缝集成。Spark Streaming可以读取数据HDFS，Flume，Kafka，Twitter和ZeroMQ，也可以读取自定义数据。

6.5:Trident

Trident 是对Storm的更高一层的抽象，除了提供一套简单易用的流数据处理API之外，它以batch(一组tuples)为单位进行处理，这样一来，可以使得一些处理更简单和高效。

Spark Streaming官网介绍

6.6:Flink

Flink 于今年跻身Apache顶级开源项目，与HDFS完全兼容。Flink提供了基于Java和Scala的API，是一个高效、分布式的通用大数据分析引擎。更主要的是，Flink支持增量迭代计算，使得系统可以快速地处理数据密集型、迭代的任务。

Flink 官网

6.7:Samza

Samza 出自于LinkedIn，构建在Kafka之上的分布式流计算框架，是Apache顶级开源项目。可直接利用Kafka和Hadoop YARN提供容错、进程隔离以及安全、资源管理。

Samza 官网

6.8:Storm

Storm是Twitter开源的一个类似于Hadoop的实时数据处理框架。编程模型简单，显著地降低了实时处理的难度，也是当下最人气的流计算框架之一。与其他计算框架相比，Storm最大的优点是毫秒级低延时。

Storm官网

6.9:Yahoo S4

Yahoo S4 （Simple Scalable Streaming System）是一个分布式流计算平台，具备通用、分布式、可扩展的、容错、可插拔等特点，程序员可以很容易地开发处理连续无边界数据流（continuous unbounded streams of data）的应用。它的目标是填补复杂专有系统和面向批处理开源产品之间的空白，并提供高性能计算平台来解决并发处理系统的复杂度。

Yahoo S4 官网

6.10:HaLoop

HaLoop 是一个Hadoop MapReduce框架的修改版本，其目标是为了高效支持迭代，递归数据分析任务，如PageRank，HITs，K-means，sssp等。

7：查询引擎

查询引擎主要包括以下相关软件技术：

Presto ,Drill ,Phoenix ,Hive ,SparkSQL,Tajo ，Impala ，Elasticsearch ，Solr ，Shark ，Lucene

7.1: Presto

Presto 是一个开源的分布式SQL查询引擎，适用于交互式分析查询，可对250PB以上的数据进行快速地交互式分析。Presto的设计和编写是为了解决像Facebook这样规模的商业数据仓库的交互式分析和处理速度的问题。Facebook称Presto的性能比诸如Hive和MapReduce要好上10倍有多。

Presto -github

7.2: Drill

Drill 于2012年8月份由Apache推出，让用户可以使用基于SQL的查询，查询Hadoop、NoSQL数据库和云存储服务。它能够运行在上千个节点的服务器集群上，且能在几秒内处理PB级或者万亿条的数据记录。它可用于数据挖掘和即席查询，支持一系列广泛的数据库，包括HBase、MongoDB、MapR-DB、HDFS、MapR-FS、亚马逊S3、Azure Blob Storage、谷歌云存储和Swift。

Drill 官网

7.3: Phoenix

Phoenix 是一个Java中间层，可以让开发者在Apache HBase上执行SQL查询。Phoenix完全使用Java编写，并且提供了一个客户端可嵌入的JDBC驱动。Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan，并编排执行以生成标准的JDBC结果集。

Phoenix 官网

7.4: Pig

Pig 是一种编程语言，它简化了Hadoop常见的工作任务。Pig可加载数据、转换数据以及存储最终结果。Pig最大的作用就是为MapReduce框架实现了一套shell脚本，类似我们通常熟悉的SQL语句。

Pig 官网

7.5: Hive

Hive 是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

Hive 官网

7.6: SparkSQL

SparkSQL 的前身是Shark，SparkSQL抛弃原有Shark的代码并汲取了一些优点，如内存列存储（In-Memory Columnar Storage）、Hive兼容性等。由于摆脱了对Hive的依赖性，SparkSQL无论在数据兼容、性能优化、组件扩展方面都得到了极大的方便。

SparkSQL 官网

7.7: Stinger

Stinger 原来叫Tez，是下一代Hive，由Hortonworks主导开发，运行在YARN上的DAG计算框架。某些测试下，Stinger能提升10倍左右的性能，同时会让Hive支持更多的SQL。

Stinger 官网

7.8: Tajo

Tajo 目的是在HDFS之上构建一个可靠的、支持关系型数据的分布式数据仓库系统，它的重点是提供低延迟、可扩展的ad-hoc查询和在线数据聚集，以及为更传统的ETL提供工具。

Tajo 官网

7.9: Impala

Impala Cloudera声称，基于SQL的Impala数据库是“面向Apache Hadoop的领先的开源分析数据库”。它可以作为一款独立产品来下载，又是Cloudera的商业大数据产品的一部分。Cloudera Impala 可以直接为存储在HDFS或HBase中的Hadoop数据提供快速、交互式的SQL查询。

Impala 官网

7.10: Elasticsearch

Elasticsearch 是一个基于Lucene的搜索服务器。它提供了一个分布式、支持多用户的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。设计用于云计算中，能够达到实时搜索、稳定、可靠、快速、安装使用方便。

Elasticsearch 官网

7.11: Solr

Solr 基于Apache Lucene，是一种高度可靠、高度扩展的企业搜索平台。知名用户包括eHarmony、西尔斯、StubHub、Zappos、百思买、AT&T、Instagram、Netflix、彭博社和Travelocity。

Solr 官网

7.12: Shark

Shark 即Hive on Spark，本质上是通过Hive的HQL解析，把HQL翻译成Spark上的RDD操作，然后通过Hive的metadata获取数据库里的表信息，实际HDFS上的数据和文件，会由Shark获取并放到Spark上运算。Shark的特点就是快，完全兼容Hive，且可以在shell模式下使用rdd2sql()这样的API，把HQL得到的结果集，继续在scala环境下运算，支持自己编写简单的机器学习或简单分析处理函数，对HQL结果进一步分析计算。

7.13: Lucene

Lucene 基于Java的Lucene可以非常迅速地执行全文搜索。据官方网站声称，它在现代硬件上每小时能够检索超过150GB的数据，它拥有强大而高效的搜索算法。

Lucene 官网

8：分析和报告工具

分析和报告工具主要包括如下：

Kettle，Kylin ，Kibana ，Druid ，KNIME ，Zeppelin ，Talend ，Splunk ，Pentaho ，Jaspersoft ，SpagoBI

8.1: Kettle

Kettle 这是一个ETL工具集，它允许你管理来自不同数据库的数据，通过提供一个图形化的用户环境来描述你想做什么，而不是你想怎么做。作为Pentaho的一个重要组成部分，现在在国内项目应用上逐渐增多。

Kettle -github

8.2: Kylin

Kylin 是一个开源的分布式分析引擎，提供了基于Hadoop的超大型数据集（TB/PB级别）的SQL接口以及多维度的OLAP分布式联机分析。最初由eBay开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。

Kylin 官网

8.3: Kibana

Kibana 是一个使用Apache 开源协议的Elasticsearch 分析和搜索仪表板，可作为Logstash和ElasticSearch日志分析的 Web 接口，对日志进行高效的搜索、可视化、分析等各种操作。

Kibana 官网

8.4: Druid

Druid 是一个用于大数据实时查询和分析的高容错、高性能、分布式的开源系统，旨在快速处理大规模的数据，并能够实现快速查询和分析。

Druid 官网

8.5: KNIME

KNIME 的全称是“康斯坦茨信息挖掘工具”（Konstanz Information Miner），是一个开源分析和报表平台。宣称“是任何数据科学家完美的工具箱，超过1000个模块，可运行数百个实例，全面的集成工具，以及先进的算法”。

KNIME 官网

8.6: Zeppelin

Zeppelin 是一个提供交互数据分析且基于Web的笔记本。方便你做出可数据驱动的、可交互且可协作的精美文档，并且支持多种语言，包括 Scala(使用 Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、Shell等。

Zeppelin 官网

8.7: Talend

Talend Open Studio 是第一家针对的数据集成工具市场的ETL(数据的提取Extract、传输Transform、载入Load)开源软件供应商。Talend的下载量已超过200万人次，其开源软件提供了数据整合功能。其用户包括美国国际集团（AIG）、康卡斯特、电子港湾、通用电气、三星、Ticketmaster和韦里逊等企业组织。

Talend 官网

8.8: Splunk

Splunk 是机器数据的引擎。使用 Splunk 可收集、索引和利用所有应用程序、服务器和设备（物理、虚拟和云中）生成的快速移动型计算机数据，从一个位置搜索并分析所有实时和历史数据。

Splunk 官网

8.9: Pentaho

Pentaho 是世界上最流行的开源商务智能软件，以工作流为核心的、强调面向解决方案而非工具组件的、基于java平台的商业智能(Business Intelligence)套件。包括一个web server平台和几个工具软件：报表、分析、图表、数据集成、数据挖掘等，可以说包括了商务智能的方方面面。

Pentaho 社区

8.10: Jaspersoft

Jaspersoft 提供了灵活、可嵌入的商业智能工具，用户包括众多企业组织：高朋、冠群科技、美国农业部、爱立信、时代华纳

Jaspersoft 官网

8.11: SpagoBI

SpagoBI Spago被市场分析师们称为“开源领袖”，它提供商业智能、中间件和质量保证软件，另外还提供相应的Java EE应用程序开发框架。

SpagoBI 官网

9：机器学习

机器学习框架主要包括如下：

Tensorflow，Theano，Keras，DSSTNE，Lasagne，Torch，mxnet，DL4J，Cognitive Toolkit，Caffe，Hivemall ，RapidMiner ，Mahout

9.1: Tensorflow

Tensorflow是Google开源的一款深度学习工具，使用C++语言开发，上层提供Python API。在开源之后，在工业界和学术界引起了极大的震动，因为TensorFlow曾经是著名的Google Brain计划中的一部分，Google Brain项目的成功曾经吸引了众多科学家和研究人员往深度学习这个“坑”里面跳，这也是当今深度学习如此繁荣的重要原因。

9.2: Theano

Theano是老牌、稳定的库之一。它是深度学习开源工具的鼻祖，由蒙特利尔理工学院时间开发于2008年并将其开源，框架使用Python语言开发。它是深度学习库的发轫，许多在学术界和工业界有影响力的深度学习框架都构建在Theano之上，并逐步形成了自身的生态系统，这其中就包含了著名的Keras、Lasagne和Blocks。

Theano是底层库，遵循Tensorflow风格。因此不适合深度学习，而更合适数值计算优化。它支持自动函数梯度计算，它有 Python接口，集成了Numpy，使得这个库从一开始就成为通用深度学习最常用的库之一。

9.3: Keras

Keras是一个非常高层的库，工作在Theano或Tensorflow（可配置）之上。此外，Keras强调极简主义，你可以用寥寥可数的几行代码来构建神经网络。在这里，您可以看到一个Keras代码示例，与在Tensorflow中实现相同功能所需的代码相比较。

9.4: DSSTNE

DSSTNE（Deep Scalable Sparse Tensor Network Engine，DSSTNE）是Amazon开源的一个非常酷的框架，由C++语言实现。但它经常被忽视。为什么？因为，撇开其他因素不谈，它并不是为一般用途设计的。DSSTNE只做一件事，但它做得很好：推荐系统。正如它的官网所言，它不是作为研究用途，也不是用于测试想法，而是为了用于生产的框架。

9.5: Lasagne

Lasagne是一个工作在Theano之上的库。它的任务是将深度学习算法的复杂计算予以简单地抽象化，并提供一个更友好的 Python 接口。这是一个老牌的库，长久以来，它是一个具备高扩展性的工具。在Ricardo看来，它的发展速度跟不上Keras。它们适用的领域相同，但是，Keras有更好的、更完善的文档。

9.6: Torch

Torch是Facebook和Twitter主推的一个特别知名的深度学习框架，Facebook Reseach和DeepMind所使用的框架，正是Torch（DeepMind被Google收购之后才转向TensorFlow）。出于性能的考虑，它使用了一种比较小众的编程语言Lua ，目前在音频、图像及视频处理方面有着大量的应用。

在目前深度学习大部分以Python为编程语言的大环境之下，一个以Lua为编程语言的框架只有更多的劣势，而不是优势。Ricardo没有Lua的使用经验，他表示，如果他要用Torch的话，就必须先学习Lua语言才能使用Torch。就他个人来说，更倾向于熟悉的Python、Matlab或者C++来实现。

9.7: mxnet

mxnet是支持大多数编程语言的库之一，它支持Python、R、C++、Julia等编程语言。Ricardo觉得使用R语言的人们会特别喜欢mxnet，因为直到现在，在深度学习的编程语言领域中，Python是卫冕之王。

Ricardo以前并没有过多关注mxnet，直到Amazon AWS宣布将mxnet作为其深度学习AMI 中的参考库时，提到了它巨大的水平扩展能力，他才开始关注。

Ricardo表示他对多GPU的扩展能力有点怀疑，但仍然很愿意去了解实验更多的细节。但目前还是对mxnet的能力抱有怀疑的态度。

9.8: DL4J

DL4J，全名是Deep Learning for Java。正如其名，它支持Java。Ricardo说，他之所以能接触到这个库，是因为它的文档。当时，他在寻找限制波尔兹曼机（Restricted Boltzman Machines）、自编码器（Autoencoders），在DL4J找到这两个文档，文档写得很清楚，有理论，也有代码示例。Ricardo表示D4LJ的文档真的是一个艺术品，其他库的文档应该向它学习。

DL4J背后的公司Skymind意识到，虽然在深度学习世界中，Python是王，但大部分程序员都是Java起步的，因此，DL4J兼容JVM，也适用于Java、Clojure和Scala。随着Scala的潮起潮落，它也被很多有前途的初创公司使用。

9.8: DL4J

Cognitive Toolkit，就是之前被大家所熟知的缩略名CNTK，但最近刚更改为现在这个名字，可能利用Microsoft认知服务（Microsoft Cognitive services）的影响力。在发布的基准测试中，它似乎是非常强大的工具，支持垂直和水平推移。

到目前为止，认知工具包似乎不太流行。关于这个库，还没有看到有很多相关的博客、网络示例，或者在Kaggle里的相关评论。Ricardo表示这看起来有点奇怪，因为这是一个背靠微软研究的框架，特别强调自己的推移能力。而且这个研究团队在语音识别上打破了世界纪录并逼近了人类水平。

你可以在他们的项目Wiki中的示例，了解到认知工具包在Python的语法和Keras非常相似。

9.9: Caffe

Caffe是最老的框架之一，比老牌还要老牌。 Caffe 是加州大学伯克利分校视觉与学习中心（Berkeley Vision and Learning Center ，BVLC)贡献出来的一套深度学习工具，使用C/C++开发，上层提供Python API。Caffe同样也在走分布式路线，例如著名的Caffe On Spark项目。

9.10: Hivemall

Hivemall 结合了面向Hive的多种机器学习算法，它包括了很多扩展性很好的算法，可用于数据分类、递归、推荐、k最近邻、异常检测和特征哈希等方面的分析应用。

9.11: RapidMiner

RapidMiner 具有丰富数据挖掘分析和算法功能，常用于解决各种的商业关键问题，解决方案覆盖了各个领域，包括汽车、银行、保险、生命科学、制造业、石油和天然气、零售业及快消行业、通讯业、以及公用事业等各个行业。

9.12: Mahout

Mahout 目的是“为快速创建可扩展、高性能的机器学习应用程序而打造一个环境”，主要特点是为可伸缩的算法提供可扩展环境、面向Scala/Spark/H2O/Flink的新颖算法、Samsara（类似R的矢量数学环境），它还包括了用于在MapReduce上进行数据挖掘的众多算法。

开发平台

开发平台主要包括如下：

Lumify ，Lingual ，Beam ，Cascading ，HPCC

10.1：Lumify

Lumify 归Altamira科技公司（以国家安全技术而闻名）所有，这是一种开源大数据整合、分析和可视化平台。

Lumify 官网

10.2：Lingual

Lingual 是Cascading的高级扩展，为Hadoop提供了一个ANSI SQL接口极大地简化了应用程序的开发和集成。Lingual实现了连接现有的商业智能（BI）工具，优化了计算成本，加快了基于Hadoop的应用开发速度。

Lingual 官网

10.3：Beam

Beam 基于Java提供了统一的数据进程管道开发，并且能够很好地支持Spark和Flink。提供很多在线框架，开发者无需学太多框架。

Beam 官网

10.4：Cascading

Cascading 是一个基于Hadoop建立的API，用来创建复杂和容错数据处理工作流。它抽象了集群拓扑结构和配置，使得不用考虑背后的MapReduce，就能快速开发复杂的分布式应用。

Cascading 官网

10.5：HPCC

HPCC 作为Hadoop之外的一种选择，是一个利用集群服务器进行大数据分析的系统，HPCC在LexisNexis内部使用多年，是一个成熟可靠的系统，包含一系列的工具、一个称为ECL的高级编程语言、以及相关的数据仓库，扩展性超强。

HPCC 官网

你可能感兴趣的:(大数据,开源)

使用Electron构建桌面应用程序：一个全面指南 AxCybersecurity electron javascript 前端
Electron是一个强大的框架，它使开发人员能够使用Web技术（如HTML、CSS和JavaScript）构建跨平台的桌面应用程序。本文将介绍如何使用Electron来构建一个简单的桌面应用程序，并提供相应的源代码示例。什么是Electron？Electron是一个开源的框架，由GitHub开发，用于构建跨平台的桌面应用程序。它基于Chromium和Node.js，允许开发人员使用Web技术构建
基于TableStore的海量气象格点数据解决方案实战阿里云云栖号数据存储与数据库 exception Java核心技术
前言气象数据是一类典型的大数据，具有数据量大、时效性高、数据种类丰富等特点。气象数据中大量的数据是时空数据，记录了时间和空间范围内各个点的各个物理量的观测量或者模拟量，每天产生的数据量常在几十TB到上百TB的规模，且在爆发性增长。如何存储和高效的查询这些气象数据越来越成为一个难题。传统的方案常常采用关系型数据库加文件系统的方式实现这类气象数据的存储和实时查询，这种方案在可扩展性、可维护性和性能上都
大数据与物联网（IoT）的完美融合：驱动智能新时代 Echo_Wish 大数据高阶实战秘籍大数据物联网 python 人工智能
大数据与物联网（IoT）的完美融合：驱动智能新时代大家好，我是你们的大数据探索者Echo_Wish。今天，我们将深入探讨大数据与物联网（IoT）整合的重要性及其在现代科技中的应用。物联网通过连接大量智能设备，生成海量数据；而大数据技术则赋予我们从这些数据中提取有价值信息的能力。当两者结合在一起时，能够为各行各业带来革命性的变化，推动智能时代的到来。一、大数据与物联网的基本概念1.物联网（IoT）物
深入理解Kettle：ETL工具的学习与实践未知方程无解
本文还有配套的精品资源，点击获取简介：Kettle（Spoon）是Pentaho公司开发的开源ETL工具，用于数据整合和数据仓库建设。本学习笔记着重于Kettle的核心——转换引擎，详细探讨其数据处理的各个步骤，包括数据的输入、转换、输出以及工作原理，提供了一系列的学习资源和实践操作指南，旨在帮助学习者深入理解并掌握Kettle的转换引擎，从而提升数据处理能力。1.Kettle（Spoon）简介与
【AGI】DeepSeek开源周：The whale is making waves！ LeeZhao@ AIGC重塑生活神器 agi 开源人工智能 AIGC 生活语言模型
DeepSeek开源周：Thewhaleismakingwaves！思维火花引言一、DeepSeek模型体系的技术演进1.通用语言模型：DeepSeek-V3系列2.推理优化模型：DeepSeek-R1系列3.多模态模型：Janus系列二、开源周三大工具库的技术解析1.FlashMLA：解码效率的极限突破（2025.02.24）2.DeepEP：MoE通信范式的重构（2025.02.25）3.De
【AGI】中国大模型扛把子：通义家族 LeeZhao@ AIGC重塑生活神器 agi 人工智能 AIGC 面试自然语言处理语言模型
中国大模型扛把子：通义家族引言一、通义千问的技术架构与模型谱系二、技术突破与性能优势三、开源生态与行业影响四、未来展望：从“千问时代”到通用智能五、通义家族大模型列表（1）多模态大模型（2）大语言模型结语引言在人工智能大模型领域，中国科技企业正以惊人的速度突破技术边界。阿里云推出的**通义千问（Qwen）**系列大模型，凭借其多层次的技术架构、多样化的模型生态及开源战略，已成为全球AI领域的重要标
DeepSeek开源技术全景解析：从硬件榨取到AI民主化革命大刘讲IT 开源人工智能
DeepSeek开源技术全景解析：从硬件榨取到AI民主化革命一、开源周核心成果概览2025年2月24日启动的"开源周"计划，DeepSeek团队连续发布三项底层技术突破：FlashMLA（2.24）：动态资源调度算法，Hopper架构GPU性能榨取专家DeepEP（2.25）：全球首个MoE全流程通信优化库DeepGEMM（2.26）：300行代码重构矩阵计算范式三项技术构成完整技术栈，覆盖大模型
OpenCV 100道面试题及参考答案（7万字长文）大模型大数据攻城狮大厂面试大厂面经 android面试计算机视觉 opencv 实时互动 webrtc
OpenCV简介OpenCV（OpenSourceComputerVisionLibrary）是一个开源的计算机视觉库，它提供了丰富的函数和工具，用于处理图像和视频。OpenCV最初由英特尔公司开发，现在由一个开源社区维护和发展。主要功能和用途OpenCV的主要功能包括图像和视频处理、特征提取、目标检测、人脸识别、物体跟踪等。它可以用于各种领域，如机器人技术、医学影像、安全监控、自动驾驶等。在图像
探索数据仓库自动化：ETL流程设计与实践 Echo_Wish 大数据高阶实战秘籍数据仓库自动化 etl
探索数据仓库自动化：ETL流程设计与实践在大数据时代，数据仓库已成为企业数据管理和决策支持的核心工具。如何高效地提取、转换和加载数据（ETL），是数据仓库建设中的重要环节。本文将围绕数据仓库自动化的ETL流程设计展开，结合实际代码示例，探讨如何构建高效、稳定和可扩展的ETL解决方案。什么是ETL？ETL（Extract,Transform,Load）是指数据抽取、转换和加载，是数据仓库建设的重要步
企业信息查询系统的技术实现路径探析——以某大数据平台为例探熵科技大数据
引言在数字化转型加速的背景下，企业信息服务领域正经历着从传统工商查询向智能决策支持的演进。本文将以某企业信息查询系统为研究样本，解析其技术架构与实现路径，探讨大数据技术在企业服务场景中的落地应用。一、行业技术现状分析当前企业信息服务面临三大技术挑战：多源异构数据整合：需聚合工商数据（结构化）、招投标公告（半结构化）、企业新闻（非结构化）等差异化数据源数据实时性要求：企业经营状态变更、联系方式更新等
使用OpenCV和Python将图像读取为RGB UixnContext opencv python 人工智能 OpenCV
在计算机视觉和图像处理中，OpenCV是一个广泛使用的开源库，提供了许多功能强大的图像处理工具。其中一个常见的任务是将图像读取为RGB格式，以便进一步处理和分析。在本文中，我将向您展示如何使用OpenCV和Python来实现这个任务。首先，确保您已经安装了OpenCV库。您可以使用以下命令在Python中安装OpenCV：pipinstallopencv-python一旦安装完成，我们可以开始写代
大数据面试系列之——Hadoop 潜心_守道大数据面经面试大数据 Hadoop
Hadoop的三个核心：HDFS（分布式存储系统）MapReduce（分布式计算系统）YARN(分布式资源调度)1.Hadoop集群的几种搭建模式1.单机模式：直接解压安装，不存在分布式存储系统2.伪分布式：NameNode和DataNode安装于同一个节点，无法体现分布式处理的优势。3.完全分布式：一个主节点，多个从节点，存在如果主节点宕机，集群就无法使用的缺点。4.高可用模式：多个主节点，多个
【全开源】Java陪诊小程序医院陪护陪诊小程序APP源码指间代码师 java 小程序开发语言微信开放平台微信小程序大数据
陪诊小程序医院陪护陪诊小程序是一种结合了医疗服务和便捷技术的创新工具，旨在为需要陪诊服务的患者提供全方位的支持和帮助。一、功能预约挂号：患者可以通过陪诊小程序直接预约挂号，选择适合的医生和就诊时间，避免了传统挂号方式的繁琐和耗时。陪诊服务：小程序提供陪诊员服务，陪诊员可以协助患者完成挂号、取药、缴费等流程，确保患者能够顺利就医。在线咨询：患者可以通过小程序与医生进行在线沟通，获取专业的医疗建议和健
vue3的福音框架arco.design 丁爸 web前端 arco design
1.简介1.1.概述Vue3框架Arco.design是一个基于Vue3的开源设计系统，它提供了一系列的UI组件和工具，可以帮助开发者快速构建高质量的Web应用。Arco.design是一个功能丰富、易于定制、性能优化的Vue3框架，非常适合用于构建高质量的Web应用。1.2.学习资源关于Vue3框架Arco.design的学习资源，以下是一些官方和社区提供的学习链接：Arco.design官网：
国内开源深度学习框架 we19a0sen 深度学习人工智能
目录一、国内开源深度学习框架1、PaddlePaddle（百度飞浆）2、MindSpore（华为昇思）3、MegEngine（旷视天元）4、OneFlow（一流科技）5、Jittor（清华计图）二、快速入手1、PaddlePaddle（百度飞浆）2、MindSpore（华为昇思）3、MegEngine（旷视天元）4、OneFlow（一流科技）5、Jittor（清华计图）三、基础教程1、Paddle
python和java的优缺点-java有哪些python没有的优点? weixin_37988176
Java和Python都是目前最火的后台语言。Java的使用时间更久，更成熟，Python语言更年轻，更便捷。两者各有各的优势：Python的优势：1.学起来简单，开发效率高，同样的功能用Java开发可能需要写200条代码，但是用Python只需要30~50条;2.在大数据挖掘方面有突出优势，是大数据分析首选的编程语言，Python可以让开发人员轻松表达概念，程序员维护和更新代码库更容易;3.Py
Oumi ：AI开发的未来？人工智能开源
Oumi：AI开发的未来？前言在人工智能领域，开源技术正以前所未有的速度推动着创新和变革。今天，我们将聚焦一个备受瞩目的开源AI平台——Oumi。它不仅以其强大的功能和灵活的架构吸引了全球开发者和企业的目光，还通过简化AI开发的整个生命周期，为用户提供了前所未有的便利。github地址：https://github.com/oumi-ai/oumi官网地址：https://oumi.ai/什么是O
FFmpeg 6.0实现视频硬解码大王算法 ffmpeg 音视频 c++1024程序员节
目录一、背景二、FFmpeg6.0实现视频硬解码的操作步骤2.1、安装FFmpeg6.02.2、配置FFmpeg解码器2.3、转换视频流格式2.4、在Surface设备上显示视频三、总结一、背景随着计算机技术的不断发展，视频编解码技术也在不断进步。FFmpeg作为一款强大的开源音视频处理工具，广泛应用于音视频处理的各种场景。而在实际的应用中，我们常常需要将解码后的视频流输出到特定的显示设备，如Mi
关于采用源始经为底层框架开发中文编程系统的可能性太翌修仙笔录 deepseek 超算法认知架构第三代人工智能算法人工智能
用中文写代码和Python哪个有前景在编程语言选择方面，**Python的发展前景明显优于中文编程语言**。以下是具体分析：---###一、核心结论**优先选择Python**，因为：1.**全球通用性**：Python是国际主流编程语言，适用于跨国协作和开源项目2.**就业市场需求**：Python在人工智能/大数据/Web开发等领域的岗位需求持续增长3.**技术生态优势**：拥有超过30万个第
使用minioClient迁移minio t梧桐树t java minio
MinIO是一个分布式对象存储服务器，专为大规模私有云基础架构设计，也适用于云原生环境和大规模数据存储需求。最重要的是它是开源的,因此应用极为广泛,今天来研究一下如何迁移minio桶中的数据要将MinIO中某个桶（Bucket）中的数据全部导出，可以使用mc（MinIOClient）工具来实现。mc是MinIO提供的一个命令行工具，专门用来与MinIO或其他兼容S3的存储服务交互。通过mc，你可以
Minio服务器文件迁移指南水明昀
Minio服务器文件迁移指南【下载地址】Minio服务器文件迁移指南分享Minio服务器文件迁移指南本资源文件提供了关于如何迁移Minio服务器文件的详细指南项目地址:https://gitcode.com/Resource-Bundle-Collection/75e38本资源文件提供了关于如何迁移Minio服务器文件的详细指南。Minio是一个开源的对象存储服务器，适用于云原生环境，支持S3AP
只需几步！在本地电脑轻松部署DeepSeek大模型魔法小匠 AI大模型 AI大模型 DeepSeek Ollama 大模型部署大模型API
使用Ollama进行本地部署AI大模型一、Ollama简介Ollama是一个开源的本地大语言模型运行框架，支持在Windows、Linux和macOS上本地运行大语言模型。它提供了丰富的模型库，包括Qwen、Llama等1700+大语言模型，并支持用户上传自己的模型。Ollama还允许用户通过编写Modelfile配置文件来自定义模型的推理参数，支持多GPU并行推理加速。二、安装Ollama（一）
ChatGLM3-6B：技术架构、核心原理、微调操作与场景应用详解 zhangjiaofa DeepSeek R1&AI人工智能大模型 ChatGLM
ChatGLM3-6B：技术架构、核心原理、微调操作与场景应用详解引言ChatGLM3-6B是ChatGLM系列的最新开源模型，继承了前两代模型的优秀特性，如对话流畅、部署门槛低等，并在多个方面进行了显著提升。本文将深入探讨ChatGLM3-6B的技术架构、核心原理、微调操作以及场景应用，帮助读者全面了解这一强大的语言模型。技术架构基础模型ChatGLM3-6B的基础模型ChatGLM3-6B-B
【大模型技术】LlamaFactory 的原理解析与应用大数据追光猿大模型 transformer 人工智能语言模型 python github docker 机器学习
LlamaFactory是一个基于LLaMA系列模型（如LLaMA、LLaMA2、Vicuna等）的开源框架，旨在帮助开发者和研究人员快速实现大语言模型（LLM,LargeLanguageModel）的微调、推理和部署。它提供了一套完整的工具链，支持从数据准备到模型训练、优化和应用的全流程开发。以下是关于LlamaFactory的解析：1.LlamaFactory的核心功能（1）模型微调支持多种微
开源模型应用落地-qwen2-7b-instruct-LoRA微调-LLaMA-Factory-单机多卡-RTX 4090双卡（五）开源技术探险家开源模型-实际应用落地 #开源模型-微调实战密码自然语言处理深度学习语言模型
一、前言本篇文章将使用LLaMA-Factory去高效微调QWen2系列模型，通过阅读本文，您将能够更好地掌握这些关键技术，理解其中的关键技术要点，并应用于自己的项目中。二、术语介绍2.1.LoRA微调LoRA(Low-RankAdaptation)用于微调大型语言模型(LLM)。是一种有效的自适应策略，它不会引入额外的推理延迟，并在保持模型质量的同时显着减少下游任务的可训练参数数量。2.2.参数
大模型实战—Llama3-8B 中文微调不二人生大模型大模型 llama3
Llama3-8B+LLaMA-Factory中文微调Llama3是目前开源大模型中最优秀的模型之一，但是原生的Llama3模型训练的中文语料占比非常低，因此在中文的表现方便略微欠佳！本教程就以Llama3-8B-Instruct开源模型为模型基座，通过开源程序LLaMA-Factory来进行中文的微调，提高Llama3的中文能力！LLaMA-Factory是一个开源的模型训练工具Llama3-8
Chinese-Llama-2-7b 项目使用教程朱均添Fleming
Chinese-Llama-2-7b项目使用教程Chinese-Llama-2-7b开源社区第一个能下载、能运行的中文LLaMA2模型！项目地址:https://gitcode.com/gh_mirrors/ch/Chinese-Llama-2-7b1.项目的目录结构及介绍Chinese-Llama-2-7b/├──example/│└──basic-chat/├──ggml/│└──quanti
【区块链+绿色低碳】数字碳链 | FISCO BCOS应用案例 FISCO_BCOS FISCO BCOS产业应用发展报告区块链绿色低碳
传统的碳排放交易及管理流程存在诸多痛点，如：数据依赖于手工记录和复杂的报表，容易出现数据错误和漏报等问题；企业的资质认证需要耗费大量的时间和人力，存在信息不对称和伪造等现象；碳排放申请流程繁琐，导致排放数据不准确和审批流程不透明等。基于此，深圳职业技术大学采用FISCOBCOS联盟链开源技术，推出数字碳链。项目采用了关系型数据库MySQL和高性能的键值对存储系统Redis，并将这两种数据库与FIS
LLaMA-2 7B 简介 Ash Butterfield 自然语言处理（NLP）专栏 nlp 人工智能
LLaMA-27B是Meta（前Facebook）推出的LLaMA-2（LargeLanguageModelMetaAI2）系列中的一个7B参数（70亿参数）版本。LLaMA-2作为LLaMA的升级版本，专为更高效的推理和更广泛的应用场景设计，支持开源使用，并可用于研究和商业用途。LLaMA-27B主要特点参数规模：7B（70亿参数），适用于资源受限的环境，如边缘设备或小型服务器。训练数据：采用了
重磅发现！DeepSeek R1方法成功迁移到视觉领域，多模态AI迎来新突破！ zhangjiaofa DeepSeek R1&AI人工智能大模型人工智能 DeepSeek R1 多模态
一、引言在当今人工智能飞速发展的时代，多模态AI技术正逐渐成为研究与应用的焦点。近日，一项令人瞩目的成果引发了广泛关注——VLM-R1开源项目成功将DeepSeek的R1方法从纯文本领域迁移至视觉语言领域，为多模态AI的发展开辟了新的道路，极大地拓展了多模态领域的想象空间。本文将深入探讨这一创新性成果，从其灵感来源、验证结果、实际案例、带来的新思路以及开源资源等多个方面进行剖析，带您全面了解这一前
HttpClient 4.3与4.3版本以下版本比较 spjich java httpclient
网上利用java发送http请求的代码很多，一搜一大把，有的利用的是java.net.*下的HttpURLConnection，有的用httpclient，而且发送的代码也分门别类。今天我们主要来说的是利用httpclient发送请求。 httpclient又可分为 httpclient3.x httpclient4.x到httpclient4.3以下 httpclient4.3
Essential Studio Enterprise Edition 2015 v1新功能体验 Axiba .net
概述：Essential Studio已全线升级至2015 v1版本了！新版本为JavaScript和ASP.NET MVC添加了新的文件资源管理器控件，还有其他一些控件功能升级，精彩不容错过，让我们一起来看看吧！ syncfusion公司是世界领先的Windows开发组件提供商，该公司正式对外发布Essential Studio Enterprise Edition 2015 v1版本。新版本
[宇宙与天文]微波背景辐射值与地球温度 comsci 背景
宇宙这个庞大,无边无际的空间是否存在某种确定的,变化的温度呢? 如果宇宙微波背景辐射值是表示宇宙空间温度的参数之一,那么测量这些数值,并观测周围的恒星能量输出值,我们是否获得地球的长期气候变化的情况呢? &nbs
lvs-server 男人50 server
#!/bin/bash # # LVS script for VS/DR # #./etc/rc.d/init.d/functions # VIP=10.10.6.252 RIP1=10.10.6.101 RIP2=10.10.6.13 PORT=80 case $1 in start) /sbin/ifconfig eth2:0 $VIP broadca
java的WebCollector爬虫框架 oloz 爬虫
WebCollector主页： https://github.com/CrawlScript/WebCollector 下载：webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。接下来看demo package org.spider.myspider; import cn.edu.hfut.dmic.webcollector.cra
jQuery append 与 after 的区别小猪猪08
1、after函数定义和用法： after() 方法在被选元素后插入指定的内容。语法： $(selector).after(content) 实例： <html> <head> <script type="text/javascript" src="/jquery/jquery.js"></scr
mysql知识充电香水浓 mysql
索引索引是在存储引擎中实现的，因此每种存储引擎的索引都不一定完全相同，并且每种存储引擎也不一定支持所有索引类型。根据存储引擎定义每个表的最大索引数和最大索引长度。所有存储引擎支持每个表至少16个索引，总索引长度至少为256字节。大多数存储引擎有更高的限制。MYSQL中索引的存储类型有两种：BTREE和HASH，具体和表的存储引擎相关； MYISAM和InnoDB存储引擎
我的架构经验系列文章索引 agevs 架构
下面是一些个人架构上的总结，本来想只在公司内部进行共享的，因此内容写的口语化一点，也没什么图示，所有内容没有查任何资料是脑子里面的东西吐出来的因此可能会不准确不全，希望抛砖引玉，大家互相讨论。要注意，我这些文章是一个总体的架构经验不针对具体的语言和平台，因此也不一定是适用所有的语言和平台的。（内容是前几天写的，现附上索引）前端架构 http://www.
Android so lib库远程http下载和动态注册 aijuans andorid
一、背景在开发Android应用程序的实现，有时候需要引入第三方so lib库，但第三方so库比较大，例如开源第三方播放组件ffmpeg库, 如果直接打包的apk包里面, 整个应用程序会大很多.经过查阅资料和实验，发现通过远程下载so文件，然后再动态注册so文件时可行的。主要需要解决下载so文件存放位置以及文件读写权限问题。二、主要
linux中svn配置出错 conf/svnserve.conf:12: Option expected 解决方法 baalwolf option
在客户端访问subversion版本库时出现这个错误： svnserve.conf:12: Option expected 为什么会出现这个错误呢，就是因为subversion读取配置文件svnserve.conf时，无法识别有前置空格的配置文件，如### This file controls the configuration of the svnserve daemon, if you##
MongoDB的连接池和连接管理 BigCat2013 mongodb
在关系型数据库中，我们总是需要关闭使用的数据库连接，不然大量的创建连接会导致资源的浪费甚至于数据库宕机。这篇文章主要想解释一下mongoDB的连接池以及连接管理机制，如果正对此有疑惑的朋友可以看一下。通常我们习惯于new 一个connection并且通常在finally语句中调用connection的close()方法将其关闭。正巧，mongoDB中当我们new一个Mongo的时候，会发现它也
AngularJS使用Socket.IO bijian1013 JavaScript AngularJS Socket.IO
目前，web应用普遍被要求是实时web应用，即服务端的数据更新之后，应用能立即更新。以前使用的技术（例如polling）存在一些局限性，而且有时我们需要在客户端打开一个socket，然后进行通信。 Socket.IO(http://socket.io/)是一个非常优秀的库，它可以帮你实
[Maven学习笔记四]Maven依赖特性 bit1129 maven
三个模块为了说明问题，以用户登陆小web应用为例。通常一个web应用分为三个模块，模型和数据持久化层user-core, 业务逻辑层user-service以及web展现层user-web， user-service依赖于user-core user-web依赖于user-core和user-service 依赖作用范围 Maven的dependency定义
【Akka一】Akka入门 bit1129 akka
什么是Akka Message-Driven Runtime is the Foundation to Reactive Applications In Akka, your business logic is driven through message-based communication patterns that are independent of physical locatio
zabbix_api之perl语言写法 ronin47 zabbix_api之perl
zabbix_api网上比较多的写法是python或curl。上次我用java－－http://bossr.iteye.com/blog/2195679，这次用perl。for example: #!/usr/bin/perl use 5.010 ; use strict ; use warnings ; use JSON :: RPC :: Client ; use
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ brotherlamp linux运维工程师 linux运维工程师教程 linux运维工程师视频 linux运维工程师资料 linux运维工程师自学
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ ----------------------------------------------------- 兄弟连Linux运维工程师课堂实录-计算机基础-1-课程体系介绍1 链接：http://pan.baidu.com/s/1i3GQtGL 密码：bl65 兄弟连Lin
bitmap求哈密顿距离-给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y( bylijinnan java
import java.util.Random; /** * 题目： * 给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y(y1,y2,y3,y4,y5)， * 使得他们的哈密顿距离（d=|x1-y1| + |x2-y2| + |x3-y3| + |x4-y4| + |x5-y5|）最大
map的三种遍历方法 chicony map
package com.test; import java.util.Collection; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; public class TestMap { public static v
Linux安装mysql的一些坑 chenchao051 linux
1、mysql不建议在root用户下运行 2、出现服务启动不了，111错误，注意要用chown来赋予权限，我在root用户下装的mysql，我就把usr/share/mysql/mysql.server复制到/etc/init.d/mysqld, (同时把my-huge.cnf复制/etc/my.cnf) chown -R cc /etc/init.d/mysql
Sublime Text 3 配置 daizj 配置 Sublime Text
Sublime Text 3 配置解释(默认){// 设置主题文件“color_scheme”: “Packages/Color Scheme – Default/Monokai.tmTheme”,// 设置字体和大小“font_face”: “Consolas”,“font_size”: 12,// 字体选项：no_bold不显示粗体字，no_italic不显示斜体字，no_antialias和
MySQL server has gone away 问题的解决方法 dcj3sjt126com SQL Server
MySQL server has gone away 问题解决方法，需要的朋友可以参考下。应用程序（比如PHP）长时间的执行批量的MYSQL语句。执行一个SQL，但SQL语句过大或者语句中含有BLOB或者longblob字段。比如，图片数据的处理。都容易引起MySQL server has gone away。今天遇到类似的情景，MySQL只是冷冷的说：MySQL server h
javascript/dom:固定居中效果 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&
使用 Spring 2.5 注释驱动的 IoC 功能 e200702084 spring bean 配置管理 IOC Office
使用 Spring 2.5 注释驱动的 IoC 功能 developerWorks 文档选项将打印机的版面设置成横向打印模式打印本页将此页作为电子邮件发送将此页作为电子邮件发送级别：初级陈雄华 (quickselect@163.com), 技术总监, 宝宝淘网络科技有限公司 2008 年 2 月 28 日 &nb
MongoDB常用操作命令 geeksun mongodb
1. 基本操作 db.AddUser(username,password) 添加用户 db.auth(usrename,password) 设置数据库连接验证 db.cloneDataBase(fromhost)
php写守护进程（Daemon） hongtoushizi PHP
转载自： http://blog.csdn.net/tengzhaorong/article/details/9764655 守护进程（Daemon）是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程是一种很有用的进程。php也可以实现守护进程的功能。 1、基本概念 &nbs
spring整合mybatis,关于注入Dao对象出错问题 jonsvien DAO spring bean mybatis prototype
今天在公司测试功能时发现一问题：先进行代码说明： 1，controller配置了Scope="prototype"（表明每一次请求都是原子型） @resource/@autowired service对象都可以（两种注解都可以）。 2，service 配置了Scope="prototype"（表明每一次请求都是原子型）
对象关系行为模式之标识映射 home198979 PHP 架构企业应用对象关系标识映射
HELLO!架构一、概念 identity Map:通过在映射中保存每个已经加载的对象，确保每个对象只加载一次，当要访问对象的时候，通过映射来查找它们。其实在数据源架构模式之数据映射器代码中有提及到标识映射，Mapper类的getFromMap方法就是实现标识映射的实现。二、为什么要使用标识映射？在数据源架构模式之数据映射器中 //c
Linux下hosts文件详解 pda158 linux
　1、主机名：　　无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。　　公网：IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。　　局域网：每台机器都有一个主机名，用于主机与主机之间的便于区分，就可以为每台机器设置主机
nginx配置文件粗解 spjich java nginx
#运行用户#user nobody;#启动进程,通常设置成和cpu的数量相等worker_processes 2;#全局错误日志及PID文件#error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log inf
数学函数 w54653520 java
public class S { // 传入两个整数，进行比较，返回两个数中的最大值的方法。 public int get( int num1, int nu