chun_soft

Hadoop、Storm和Spark主流分布式系统特点和应用场景

最初我们来到这个世界，是因为不得不来；最终我们离开这个世界，是因为不得不走。——《余华作品集》

1、概述

　　大数据现在是业内炙手可热的话题，随着技术的发展，如HDFS，大数据存储技术已经不在是难点，但是对大数据如何做好存储后的下一步处理将是未来竞争的焦点，目前比较受欢迎的Storm, Spark, Hadoop三个大数据处理工具都是JVM上的语言写成的。
　　
　　由于Google没有开源Google分布式计算模型的技术实现，所以其他互联网公司只能根据Google三篇技术论文中的相关原理，搭建自己的分布式计算系统。

　　Yahoo的工程师Doug Cutting和Mike Cafarella在2005年合作开发了分布式计算系统Hadoop。后来，Hadoop被贡献给了Apache基金会，成为了Apache基金会的开源项目。Doug Cutting也成为Apache基金会的主席，主持Hadoop的开发工作。Hadoop采用MapReduce分布式计算框架，并根据GFS开发了HDFS分布式文件系统，根据BigTable开发了HBase数据存储系统。尽管和Google内部使用的分布式计算系统原理相同，但是Hadoop在运算速度上依然达不到Google论文中的标准。不过，Hadoop的开源特性使其成为分布式计算系统的事实上的国际标准。Yahoo，Facebook，Amazon以及国内的百度，阿里巴巴等众多互联网公司都以Hadoop为基础搭建自己的分布式计算系统。

　　Storm是Twitter主推的分布式计算系统，它由BackType团队开发，是Apache基金会的孵化项目。它在Hadoop的基础上提供了实时运算的特性，可以实时的处理大数据流。不同于Hadoop和Spark，Storm不进行数据的收集和存储工作，它直接通过网络实时的接受数据并且实时的处理数据，然后直接通过网络实时的传回结果。

　　Spark也是Apache基金会的开源项目，它由加州大学伯克利分校的实验室开发，是另外一种重要的分布式计算系统。它在Hadoop的基础上进行了一些架构上的改良。Spark与Hadoop最大的不同点在于，Hadoop使用硬盘来存储数据，而Spark使用内存来存储数据，因此Spark可以提供超过Hadoop100倍的运算速度。但是，由于内存断电后会丢失数据，Spark不能用于处理需要长期保存的数据。
　　
　　Hadoop，Storm和Spark是目前最重要的三大分布式计算系统，Hadoop常用于离线的复杂的大数据分析处理，Spark常用于离线的快速的大数据处理，而Storm常用于在线的实时的大数据处理。本文主要介绍三大分布式系统的各自特点和其应用场景。

2、Hadoop

　　Hadoop是使用Java编写，允许分布在集群，使用简单的编程模型的计算机大型数据集处理的Apache的开源框架。 Hadoop框架应用工程提供跨计算机集群的分布式存储和计算的环境。 Hadoop是专为从单一服务器到上千台机器扩展，每个机器都可以提供本地计算和存储。

2.1 Hadoop架构

　　Hadoop是Apache的一个分布式系统基础架构，可以为海量数据提供存储和计算。Hadoop 2.0即第二代Hadoop系统，其框架最核心的设计是HDFS、MapReduce和YARN。其中，HDFS为海量数据提供存储，MapReduce用于分布式计算，YARN用于进行资源管理。
　　Hadoop 2.0的主要改进有：

　　1、通过YARN实现资源的调度与管理，从而使Hadoop 2.0可以运行更多种类的计算框架，如Spark等。

　　2、实现了NameNode的HA方案，即同时有2个NameNode（一个Active另一个Standby），如果ActiveNameNode挂掉的话，另一个NameNode会转入Active状态提供服务，保证了整个集群的高可用。

　　3、实现了HDFS federation，由于元数据放在NameNode的内存当中，内存限制了整个集群的规模，通过HDFS federation使多个NameNode组成一个联邦共同管理DataNode，这样就可以扩大集群规模。

　　4、Hadoop RPC序列化扩展性好，通过将数据类型模块从RPC中独立出来，成为一个独立的可插拔模块。

2.1.1 MapReduce

　　MapReduce是一种并行编程模型，用于编写普通硬件的设计，谷歌对大量数据的高效处理(多TB数据集)的分布式应用在大型集群(数千个节点)以及可靠的容错方式。 MapReduce程序可在Apache的开源框架Hadoop上运行。

2.1.2 HDFS

　　HDFS是一个分布式文件系统，具有高容错的特点。它可以部署在廉价的通用硬件上，提供高吞吐率的数据访问，适合需要处理海量数据集的应用程序。

主要特点：

1、支持超大文件：支持TB级的数据文件。

2、检测和快速应对硬件故障：HDFS的检测和冗余机制很好克服了大量通用硬件平台上的硬件故障问题。

3、高吞吐量：批量处理数据。

4、简化一致性模型：一次写入多次读取的文件处理模型有利于提高吞吐量。

HDFS不适合的场景：低延迟数据访问；大量的小文件；多用户写入文件、修改文件。

HDFS的构成：NameNode保存着HDFS的名字空间，对于任何对文件系统元数据产生修改的操作；DataNode将HDFS数据以文件的形式存储在本地文件系统中，它并不知道有关HDFS文件的信息。

数据块：数据块是HDFS的文件存储处理单元，在Hadoop 2.0中默认大小为128MB，可根据业务情况进行配置。数据块的存在，使得HDFS可以保存比存储节点单一磁盘大的文件，而且简化了存储管理，方便容错，有利于数据复制。

2.1.3 YARN Framework

　　YARN是Hadoop 2.0的资源管理器。它是一个通用的资源管理系统，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。

YARN的基本设计思想是将Hadoop 1.0中的JobTracker拆分成了两个独立的服务：一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。其中ResourceManager负责整个系统的资源管理和分配，而ApplicationMaster负责单个应用程序的管理。

　　YARN总体上仍然是Master/Slave结构。在整个资源管理框架中，ResourceManager为Master，NodeManager为Slave，并通过HA方案实现了ResourceManager的高可用。ResourceManager负责对各个NodeManager上的资源进行统一管理和调度。当用户提交一个应用程序时，需要提供一个用以跟踪和管理这个程序的ApplicationMaster，它负责向ResourceManager申请资源，并要求NodeManger启动可以占用一定资源的任务。由于不同的ApplicationMaster被分布到不同的节点上，因此它们之间不会相互影响。

2.1.4 Common Utilities

　　这是Java库和其他Hadoop组件所需的实用工具。

2.2 Hadoop优缺点

（1）优点：

（一）高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖;
（二）高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。
（三）高效性。Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。
（四）高容错性。Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。
（五）低成本。hadoop本身是运行在普通PC服务器组成的集群中进行大数据的分发及处理工作的，这些服务器集群是可以支持数千个节点的。

（2）缺点：

（一）不适合低延迟数据访问。Hadoop设计的目的是大吞吐量，所以并没有针对低延迟数据访问做一些优化，如果要求低延迟，可以看看Hbase。
（二）无法高效存储大量小文件。由于NameNode把文件的MetaData存储在内存中，所以大量的小文件会产生大量的MetaData。这样的话百万级别的文件数目还是可行的，再多的话就有问题了。
（三）不支持多用户写入及任意修改文件。Hadoop现在还不支持多人写入，任意修改的功能。也就是说每次写入都会添加在文件末尾。

2.3 Hadoop应用场景

2.3.1 Hadoop 业务场景(一)

(1)在线旅游：目前全球范围内80%的在线旅游网站都是在使用Cloudera公司提供的Hadoop发行版，其中SearchBI网站曾经报道过的Expedia也在其中。
(2)移动数据：Cloudera运营总监称，美国有70%的智能手机数据服务背后都是由Hadoop来支撑的，也就是说，包括数据的存储以及无线运营商的数据处理等，都是在利用Hadoop技术。
(3)电子商务：这一场景应该是非常确定的，eBay就是最大的实践者之一。国内的电商在Hadoop技术上也是储备颇为雄厚的。
(3)能源开采：美国Chevron公司是全美第二大石油公司，他们的IT部门主管介绍了Chevron使用Hadoop的经验，他们利用Hadoop进行数据的收集和处理，其中这些数据是海洋的地震数据，以便于他们找到油矿的位置。
(4)节能：另外一家能源服务商Opower也在使用Hadoop,为消费者提供节约电费的服务，其中对用户电费单进行了预测分析。
(5)基础架构管理：这是一个非常基础的应用场景，用户可以用Hadoop从服务器、交换机以及其他的设备中收集并分析数据。
(6)图像处理：创业公司Skybox Imaging 使用Hadoop来存储并处理图片数据，从卫星中拍摄的高清图像中探测地理变化。
(7)诈骗检测：这个场景用户接触的比较少，一般金融服务或者政府机构会用到。利用Hadoop来存储所有的客户交易数据，包括一些非结构化的数据，能够帮助机构发现客户的异常活动，预防欺诈行为。
(8)IT安全：除企业IT基础机构的管理之外，Hadoop还可以用来处理机器生成数据以便甄别来自恶意软件或者网络中的攻击。
(9)医疗保健：医疗行业也会用到Hadoop,像IBM的Watson就会使用Hadoop集群作为其服务的基础，包括语义分析等高级分析技术等。医疗机构可以利用语义分析为患者提供医护人员，并协助医生更好地为患者进行诊断

2.3.2 Hadoop 业务场景(二)

其实我们要知道大数据的实质特性：针对增量中海量的结构化，非结构化，半结构数据，在这种情况下，如何快速反复计算挖掘出高效益的市场数据?

带着这个问题渗透到业务中去分析，就知道hadoop需要应用到什么业务场景了!!!如果关系型数据库都能应付的工作还需要hadoop吗?

(1)银行的信用卡业务，当你正在刷卡完一笔消费的那一瞬间，假如在你当天消费基础上再消费满某个额度，你就可以免费获得某种令你非常满意的利益等等，你可能就会心动再去消费，这样就可能提高银行信用卡业务，那么这个消费额度是如何从海量的业务数据中以秒级的速度计算出该客户的消费记录，并及时反馈这个营销信息到客户手中呢?这时候关系型数据库计算出这个额度或许就需要几分钟甚至更多时间，就需要hadoop了，这就是所谓的“秒级营销”. 针对真正的海量数据，一般不主张多表关联。
(2)在淘宝，当你浏览某个商品的时候，它会及时提示出你感兴趣的同类商品的产品信息和实时销售情况，这或许也需要用到hadoop。
(3)就是报表用到的年度报告或者年度环比数据报告的时候也会用到hadoop去计算。
(4)搜索引擎分析的时候应该也会用到。一个网友说过，其实还是看big data能否带来多大的效益!比如银行在躺着都赚钱的情况下，big data不一定是银行的项目. 况且hadoop是新兴技术，银行业对新技术还是相对保守的。

2.3.3 Hadoop 业务场景(三)

hadoop 主要用于大数据的并行计算，并行计算按计算特征分为：

• 数据密集型并行计算：数据量极大，但是计算相对简单的并行处理。如：大规模Web信息搜索;

• 计算密集型并行计算：数据量相对不是很大，但是计算较为复杂的并行计算。如：3-D建模与渲染，气象预报，科学计算;

• 数据密集与计算密集混合型的并行计算。如：3-D电影的渲染;

hadoop比较擅长的是数据密集的并行计算，它主要是对不同的数据做相同的事情，最后再整合。

我知道以及曾经实验过的hadoop的例子有：

• wordCount (相当于hadoop的HelloWorld的程序);

• 文档倒排索引;

• PageRank;

• K-Means 算法;

这些程序都可以从网上找到相应的解决方案。

hadoop的是根据Google MapReduce 提出的开源版本。但是它的性能不是很好。

hadoop主要应用于数据量大的离线场景。特征为：

1、数据量大。一般真正线上用Hadoop的，集群规模都在上百台到几千台的机器。这种情况下，T级别的数据也是很小的。Coursera上一门课了有句话觉得很不错：Don’t use hadoop, your data isn’t that big.

2、离线。Mapreduce框架下，很难处理实时计算，作业都以日志分析这样的线下作业为主。另外，集群中一般都会有大量作业等待被调度，保证资源充分利用。

3、数据块大。由于HDFS设计的特点，Hadoop适合处理文件块大的文件。大量的小文件使用Hadoop来处理效率会很低。举个例子，百度每天都会有用户对侧边栏广告进行点击。这些点击都会被记入日志。然后在离线场景下，将大量的日志使用Hadoop进行处理，分析用户习惯等信息。

MapReduce 的经典案例

MapReduce的一个经典实例是Hadoop。用于处理大型分布式数据库。由于Hadoop关联到云以及云部署，大多数人忽略了一点，Hadoop有些属性不适合一般企业的需求，特别是移动应用程序。下面是其中的一些特点：

Hadoop的最大价值在于数据库，而Hadoop所用的数据库是移动应用程序所用数据库的10到1000倍。对于许多人来说，使用Hadoop就是杀鸡用牛刀。

Hadoop有显著的设置和处理开销。 Hadoop工作可能会需要几分钟的时间，即使相关数据量不是很大。

Hadoop在支持具有多维上下文数据结构方面不是很擅长。例如，一个定义给定地理变量值的记录，然后使用垂直连接，来连续定义一个比hadoop使用的键值对定义更复杂的数据结构关系。

Hadoop必须使用迭代方法处理的问题方面用处不大，尤其是几个连续有依赖性步骤的问题。

3、Storm

伴随着信息科技日新月异的发展，信息呈现出爆发式的膨胀，人们获取信息的途径也更加多样、更加便捷，同时对于信息的时效性要求也越来越高。举个搜索场景中的例子，当一个卖家发布了一条宝贝信息时，他希望的当然是这个宝贝马上就可以被卖家搜索出来、点击、购买啦，相反，如果这个宝贝要等到第二天或者更久才可以被搜出来，估计不太适合了。再举一个推荐的例子，如果用户昨天在淘宝上买了一双袜子，今天想买一副泳镜去游泳，但是却发现系统在不遗余力地给他推荐袜子、鞋子，根本对他今天寻找泳镜的行为视而不见，估计这哥们心里就会想推荐不准。其实稍微了解点背景知识的码农们都知道，这是因为后台系统做的是每天一次的全量处理，而且大多是在夜深人静之时做的，那么你今天白天做的事情当然要明天才能反映出来。

3.1 Storm架构

全量数据处理使用的大多是鼎鼎大名的hadoop或者hive，作为一个批处理系统，hadoop以其吞吐量大、自动容错等优点，在海量数据处理上得到了广泛的使用。但是，hadoop不擅长实时计算，因为它天然就是为批处理而生的，这也是业界一致的共识。

在2011年Storm开源之前，由于Hadoop的火红，整个业界都在喋喋不休地谈论大数据。Hadoop的高吞吐，海量数据处理的能力使得人们可以方便地处理海量数据。但是，Hadoop的缺点也和它的优点同样鲜明——延迟大，响应缓慢，运维复杂。

有需求也就有创造，在Hadoop基本奠定了大数据霸主地位的时候，很多的开源项目都是以弥补Hadoop的实时性为目标而被创造出来。而在这个节骨眼上Storm横空出世了。

Storm带着流式计算的标签华丽丽滴出场了，看看它的一些卖点：

分布式系统：可横向拓展,现在的项目不带个分布式特性都不好意思开源。
运维简单：Storm的部署的确简单。虽然没有Mongodb的解压即用那么简单，但是它也就是多安装两个依赖库而已。
高度容错：模块都是无状态的，随时宕机重启。
无数据丢失：Storm创新性提出的ack消息追踪框架和复杂的事务性处理,能够满足很多级别的数据处理需求。不过，越高的数据处理需求，性能下降越严重。
多语言：实际上，Storm的多语言更像是临时添加上去似的。因为，你的提交部分还是要使用Java实现。

Storm主要分为两种组件Nimbus和Supervisor。这两种组件都是快速失败的，没有状态。任务状态和心跳信息等都保存在Zookeeper上的，提交的代码资源都在本地机器的硬盘上。

（1）Nimbus负责在集群里面发送代码，分配工作给机器，并且监控状态。全局只有一个。
（2）Supervisor会监听分配给它那台机器的工作，根据需要启动/关闭工作进程Worker。每一个要运行Storm的机器上都要部署一个，并且，按照机器的配置设定上面分配的槽位数。
（3）Zookeeper是Storm重点依赖的外部资源。Nimbus和Supervisor甚至实际运行的Worker都是把心跳保存在Zookeeper上的。Nimbus也是根据Zookeerper上的心跳和任务运行状况，进行调度和任务分配的。
（4）Storm提交运行的程序称为Topology。
Topology处理的最小的消息单位是一个Tuple，也就是一个任意对象的数组。
Topology由Spout和Bolt构成。Spout是发出Tuple的结点。Bolt可以随意订阅某个Spout或者Bolt发出的Tuple。Spout和Bolt都统称为component。

3.2 Storm优缺点

- （1）优点
Storm优势就在于Storm是实时的连续性的分布式的计算框架,一旦运行起来,除非你将它杀掉,否则它一直处理计算或等待计算的状态.

Storm是最佳的流式计算框架，Storm由Java和Clojure写成，Storm的优点是全内存计算，所以它的定位是分布式实时计算系统，按照Storm作者的说法，Storm对于实时计算的意义类似于Hadoop对于批处理的意义。
Storm的适用场景：
1）流数据处理
Storm可以用来处理源源不断流进来的消息，处理之后将结果写入到某个存储中去。
2）分布式RPC。由于Storm的处理组件是分布式的，而且处理延迟极低，所以可以作为一个通用的分布式RPC框架来使用。

3）运维简单：Storm的部署的确简单。虽然没有Mongodb的解压即用那么简单，但是它也就是多安装两个依赖库而已。

4）高度容错：模块都是无状态的，随时宕机重启。

5）无数据丢失：Storm创新性提出的ack消息追踪框架和复杂的事务性处理,能够满足很多级别的数据处理需求。不过，越高的数据处理需求，性能下降越严重。

6）多语言：实际上，Storm的多语言更像是临时添加上去似的。因为，你的提交部分还是要使用Java实现。
- （2）缺点
Storm不是一个完整的解决方案。使用Storm需要加入消息队列做数据入口，考虑如何在流中保存状态，考虑怎样将大问题用分布式去解决。解决这些问题的成本可能比增加一个服务器的成本还高。但是，一旦下定决定使用了Storm并解决了那些恼人的细节，你就能享受到Storm给你带来的简单，可拓展等优势了。

3.3 Storm应用场景

Storm被广泛应用于实时分析，在线机器学习，持续计算、分布式远程调用等领域。来看一些实际的应用:

（1）一淘-实时分析系统pora：实时分析用户的属性，并反馈给搜索引擎。最初，用户属性分析是通过每天在云梯上定时运行的MR job来完成的。为了满足实时性的要求，希望能够实时分析用户的行为日志，将最新的用户属性反馈给搜索引擎，能够为用户展现最贴近其当前需求的结果。
（2）携程-网站性能监控：实时分析系统监控携程网的网站性能。利用HTML5提供的performance标准获得可用的指标，并记录日志。Storm集群实时分析日志和入库。使用DRPC聚合成报表，通过历史数据对比等判断规则，触发预警事件。
（3）如果，业务场景中需要低延迟的响应，希望在秒级或者毫秒级完成分析、并得到响应，而且希望能够随着数据量的增大而拓展。那就可以考虑下，使用Storm了。

试想下，如果，一个游戏新版本上线，有一个实时分析系统，收集游戏中的数据，运营或者开发者可以在上线后几秒钟得到持续不断更新的游戏监控报告和分析结果，然后马上针对游戏的参数和平衡性进行调整。这样就能够大大缩短游戏迭代周期，加强游戏的生命力（实际上，zynga就是这么干的！虽然使用的不是Storm……Zynga研发之道探秘：用数据说话）。

除了低延迟，Storm的Topology灵活的编程方式和分布式协调也会给我们带来方便。用户属性分析的项目，需要处理大量的数据。使用传统的MapReduce处理是个不错的选择。但是，处理过程中有个步骤需要根据分析结果，采集网页上的数据进行下一步的处理。这对于MapReduce来说就不太适用了。但是，Storm的Topology就能完美解决这个问题。基于这个问题，我们可以画出这样一个Storm的Topology的处理图。

我们只需要实现每个分析的过程，而Storm帮我们把消息的传送和接受都完成了。更加激动人心的是，你只需要增加某个Bolt的并行度就能够解决掉某个结点上的性能瓶颈。

4、Spark

4.1 Spark架构

4.2 Spark优缺点

4.3 Spark应用场景

未完待续。。。。

5、总结

Storm与Spark、Hadoop这三种框架，各有各的优点，每个框架都有自己的最佳应用场景。
所以，在不同的应用场景下，应该选择不同的框架。
Storm是最佳的流式计算框架，Storm由Java和Clojure写成，Storm的优点是全内存计算，所以它的定位是分布式实时计算系统，按照Storm作者的说法，Storm对于实时计算的意义类似于Hadoop对于批处理的意义。

Storm的适用场景：

1）流数据处理
Storm可以用来处理源源不断流进来的消息，处理之后将结果写入到某个存储中去。
2）分布式RPC。由于Storm的处理组件是分布式的，而且处理延迟极低，所以可以作为一个通用的分布式RPC框架来使用。
SparkSpark是一个基于内存计算的开源集群计算系统，目的是更快速的进行数据分析。Spark由加州伯克利大学AMP实验室Matei为主的小团队使用Scala开发开发，类似于Hadoop MapReduce的通用并行计算框架，Spark基于Map Reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点，但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的Map Reduce的算法。

Spark的适用场景：

1）多次操作特定数据集的应用场合
Spark是基于内存的迭代计算框架，适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多，所需读取的数据量越大，受益越大，数据量小但是计算密集度较大的场合，受益就相对较小。
2）粗粒度更新状态的应用
由于RDD的特性，Spark不适用那种异步细粒度更新状态的应用，例如Web服务的存储或者是增量的Web爬虫和索引。就是对于那种增量修改的应用模型不适合。
总的来说Spark的适用面比较广泛且比较通用。
Hadoop是实现了MapReduce的思想，将数据切片计算来处理大量的离线数据数据。Hadoop处理的数据必须是已经存放在HDFS上或者类似HBase的数据库中，所以Hadoop实现的时候是通过移动计算到这些存放数据的机器上来提高效率。

Hadoop的适用场景：

1）海量数据的离线分析处理
2）大规模Web信息搜索
3）数据密集型并行计算

总结：

Hadoop适合于离线的批量数据处理适用于对实时性要求极低的场景

Storm适合于实时流数据处理，实时性方面做得极好

Spark是内存分布式计算框架，试图吞并Hadoop的Map-Reduce批处理框架和Storm的流处理框架，但是Spark已经做得很不错了，批处理方面性能优于Map-Reduce，但是流处理目前还是弱于Storm，产品仍在改进之中。

未完待续。。。。

你可能感兴趣的:(big-data)

数据分析之词云图绘制那个叫马尔的大夫数据可视化数据分析数据挖掘
试验任务概述：如下为所给CSDN博客信息表，分别汇总了'ai','algo','big-data','blockchain','hardware','math','miniprog'等7个标签的博客。对CSDN不同领域标签类别的博客内容进行词频统计，绘制词频统计图，并根据词频统计的结果绘制词云图。数据表链接：https://download.csdn.net/download/m0_5205157
nginx部署 vue配置代理服务器解决跨域问题请把小熊还给我& vue.js nginx 前端
为了演示方便使用的是windows部署1.首先将vue打包2.打包好的vue放入到nginx-1.24.0\html\下,这里我创建一个big-data文件夹所以放入到big-data方便多项目管理3.打开nginx.conf的配置文件修改server{listen8081;server_namelocalhost;location/{aliashtml/big-data/;indexindex.
第一周晨考自测（1.0） mez_Blog mez_Blog的专栏前端 JavaScript javascript 开发语言 ecmascript 学习前端
第一天：1.变量名的命名规则和规范变量名命名规则：由字母（大小写），数字，下划线（_），美元符号（$）组成不能以数字开头不能使用关键字和保留字变量名命名规范：当有多个字母组成时，使用驼峰写法（分为两种：大驼峰（bigData），小驼峰(big-data)），尽量不使用中文，变量名尽量有意义2.js中的数据类型js的数据类型可以分为两种：一种是基本数据类型（数字，字符串，undefined，null
通过Flask方式调用keras方法报错的怪异问题解决方法陈亮2019
最近使用keras+tensorflow的densent模型处理OCR，直接传入文件运行正常，但用Flask通过web上传文件后调用相同的功能时会报如下错误：File"e:\big-data\ocr\BDP_SMARTOCR-REPO\trunk\Src\epocr-lic\ocr.py",line69,incharRectext=keras_densenet(image)File"e:\big-
【实时计算架构系列1】WePay如何基于谷歌云平台(GCP)和kafka实现实时流式欺诈检测江南小白龙实时计算架构
原文：https://cloud.google.com/blog/big-data/2017/08/how-wepay-uses-stream-analytics-for-real-time-fraud-detection-using-gcp-and-apache-kafkaByWeiLi,LeadEngineeratWePay首先，wepay反欺诈场景：交易欺诈需要提取的特征例如：过去3个月交易
高性能服务端漫谈 Angela㐅cc
一、背景进入多核时代已经很久了，大数据概念也吵得沸沸扬扬，不管你喜欢不喜欢，不管你遇到没遇到，big-data或bigger-data都必须正视.处理大数据，基本都离不开分布式计算和分布式存储，这其中以hadoop最为使用广泛和经典。分布式系统，就离不开计算系统、网络系统、文件系统和数据库系统。这么多系统，之间又是如何协作的呢？通讯过程又是如何保障高性能的呢？1.单处理器在以前的单核心cpu下，我
用Spark分析Amazon的8000万商品评价（内含数据集、代码、论文） weixin_34232744
更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data；此外，通过Maxcompute及其配套产品，低廉的大数据分析仅需几步，详情访问https://www.aliyun.com/product/odps。亚马逊的商品评论和评分是一个非常重要的业务。亚马逊上的客户经常基于这些评论做出购买决定，并且单个不良评论可以导致潜在购买者重新考虑。几年前，我写了一篇非常
【Spark Summit EU 2016】使用Java Agent扩展Spark weixin_33772645
更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data；此外，通过Maxcompute及其配套产品，低廉的大数据分析仅需几步，详情访问https://www.aliyun.com/product/odps。本讲义出自JaroslavBachorik与AdrianPopescu在SparkSummitEU上的演讲，主要介绍了Spark缓存中出现的关于when,
Hadoop 中的数据倾斜 RichardLeeH hadoop学习之
转自：http://www.gemini5201314.net/big-data/hadoop-中的数据倾斜.html最近几次被问到关于数据倾斜的问题，这里找了些资料也结合一些自己的理解.在并行计算中我们总希望分配的每一个task都能以差不多的粒度来切分并且完成时间相差不大，但是集群中可能硬件不同，应用的类型不同和切分的数据大小不一致总会导致有部分任务极大的拖慢了整个任务的完成时间，硬件不同就不说
Project SAAAD: Scalable Adaptive Auto-encoded Anomaly Detection 易晴天 Anomaly detection
ProjectSAAAD:ScalableAdaptiveAuto-encodedAnomalyDetection可扩展的自适应自动编码异常检测ProjectSAAADaimstoexploretheuseofautoencodersforanomalydetectioninvarious‘big-data’problems.Specifically,theseproblemshavethefol
pg数据库（PostgreSQL）与gp数据库（GreenPlumSQL）的区别与联系芽孢八叠球菌 JAVA开发过程经验数据库-Oracle
以前项目采用的都是oracle或者是mysql的数据库，新的项目采用了gp数据库（greenplum），在这之前只听说过pg数据库（postgreSQL）。gp数据库官网：http://pivotal.io/big-data/pivotal-greenplumpg数据库官网：https://www.postgresql.org/经过学习和查询，得知greenplum是利用了postgre数据库的框
A Simple TBtools Manual (English) 生信札记
[Forversion0.665]CJ([email protected])SouthChinaAgriculturalUniversityOverviewRapiddevelopmentofhigh-throughputsequencing(HTS)techniqueshasledbiologyintothe“big-data”era.Dataanalysisusingvariousbioinf
数据分析学习（网站链接) stacy_liu
服务产品(商品)评论中的产品特征挖掘方法:http://blog.csdn.net/chixujohnny/article/details/52794685商品评论中的实体情感分析:http://blog.csdn.net/chixujohnny/article/details/53999327云栖社区大数据频道:https://yq.aliyun.com/big-data?spm=5176.10
我的2015年皮蛋嘚孤独
孤独の皮蛋皮蛋屌丝程序员一枚，开始于java培训班，过渡于java企业级应用开发，落地于大数据周边。喜欢音乐。喜欢睡觉。最快乐就是陪儿子一起玩的时候(孤独の皮蛋)2015年计划从以下几个方面编程生活活动家庭其他主要围绕工作和家庭...编程.语言.Javajava8/面向对象.Python多线程/map/reduce/for/dict/set/list/numpy/urllib2/.Big-data
big-data:hive 搭建及遇到的问题 qq_26496877 big-data:hive Big Data学习进程记录
配置hive-site.xml(这是一个简化版的配置，配置时，只需将下面的配置项配置，其余带有$的配置项目注释掉)其中最重要的就是元数据存储的mysql的jdbc链接参数javax.jdo.option.ConnectionURLjdbc:mysql://192.168.48.50:3306/hivejavax.jdo.option.ConnectionDriverNamecom.mysql.jd
2.3 基于IDEA开发第一个MapReduce大数据程序WordCount 王小雷-多面手 Linux Hadoop Machine Learning 大数据
2.3基于IDEA开发第一个MapReduce大数据程序WordCount开源地址https://github.com/wangxiaoleiAI/big-data卜算子·大数据目录开源“卜算子·大数据”系列文章、源码，面向大数据（分布式计算）的编程、应用、架构——每周更新！Linux、Java、Hadoop、Spark、Sqoop、hive、pig、hbase、zookeeper、Oozie、f
2.2 Hadoop3.1.0完全分布式集群配置与部署王小雷-多面手 Hadoop 大数据
2.2Hadoop3.1.0完全分布式集群配置与部署开源地址https://github.com/wangxiaoleiAI/big-data卜算子·大数据目录开源“卜算子·大数据”系列文章、源码，面向大数据（分布式计算）的编程、应用、架构——每周更新！Linux、Java、Hadoop、Spark、Sqoop、hive、pig、hbase、zookeeper、Oozie、flink…etc本节主
1.3 virtualbox高级应用构建本地大数据集群服务器王小雷-多面手 Linux Hadoop 大数据
1.3virtualbox高级应用构建本地大数据集群服务器开源地址https://github.com/wangxiaoleiAI/big-data卜算子·大数据目录开源“卜算子·大数据”系列文章、源码，面向大数据（分布式计算）的编程、应用、架构——每周更新！Linux、Java、Hadoop、Spark、Sqoop、hive、pig、hbase、zookeeper、Oozie、flink…etc
2.1 Hadoop伪分布式安装部署王小雷-多面手 Hadoop 大数据
2.1Hadoop伪分布式安装部署开源地址https://github.com/wangxiaoleiAI/big-data卜算子·大数据目录开源“卜算子·大数据”系列文章、源码，面向大数据（分布式计算）的编程、应用、架构——每周更新！Linux、Java、Hadoop、Spark、Sqoop、hive、pig、hbase、zookeeper、Oozie、flink…etc本节介绍如何在Linux
1.2 linux使用技巧快速入门王小雷-多面手 Linux Hadoop 大数据
1.2linux使用技巧快速入门开源地址https://github.com/wangxiaoleiAI/big-data卜算子·大数据目录为大数据知识做基础准备，首先要对Linux有初步的了解，接下来就讲解一些Linux常用的技巧命令。1.2.1debian/ubuntu常用命令#更新软件sudoaptupdatesudoaptupgrade#安装vimsudoaptinstallvim1.2.
1.1 Virtualbox虚拟机快速入门王小雷-多面手 Linux Hadoop 大数据
1.1Virtualbox虚拟机快速入门virtualbox安装、配置、安装Ubuntu18.04过程详细记录开源地址https://github.com/wangxiaoleiAI/big-data卜算子·大数据目录1.1.1关闭BIOS安全启动项、开启BIOS中允许CPU虚拟选项、下载virtualbox、下载LinuxUbuntu18.04镜像1.1.1.1如何关闭Securityboot(
“卜算子·大数据”学习系列原创文章、源码——从入门到精通王小雷-多面手 Database Linux Python Spark Hadoop MapReduce Hive Sqoop HBase Hadoop YARN 大数据
大数据big-data:white_check_mark:转载请注明出处与作者信息（如下）原创作者：王小雷作品出自：https://github.com/wangxiaoleiAI/big-data联系邮件：[email protected]评论issues最新文章：[x]“卜算子·大数据”目录——系列文章与源码介绍,目录[x]1.1Virtualbox虚拟机快速入门[x]
分享：2018年人工智能的三大预测数据分析v
关于2018年人工智能的三大预测原文:3PredictionsforAIin2018来源:https://www.business2community.com/big-data/3-predictions-ai-2018-01962681导读：调查列出了企业尚未投资AI的几个原因：缺乏IT基础设施（40%）；缺乏人才（34%）；缺乏执行预算（30%）；政策、法规及权益的复杂性（28%）；对客户预期
GemFire 8.2 在CentOS的安装步骤 dhtx_wzgl 数据库系统
原文：http://www.cnblogs.com/doubletree/p/5185395.htmlGemFire目前已经开源，开源项目的主页：http://geode.incubator.apache.org/，商业版本的主页：https://pivotal.io/big-data/pivotal-gemfire，关于开源版本如何编译，以及与商业版本的区别(功能上有区别)，我们以后再花时间来介
Hadoop 7、MapReduce执行环境配置拉斐尔[Raphael]
MR执行环境有两种：本地测试环境，服务器环境本地测试环境(windows，用于测试)1、下载Winddows版的Hadoop程序，解压后在Hadoop目录的bin目录放置一个winutils.exe可执行文件（下载地址：http://pan.baidu.com/s/1mhrsQyG）2、在windows下配置hadoop的环境变量 HADOOP_HOME E:\big-data\hadoop-2
GemFire 入门篇2：GemFire 8.2 在CentOS & Mac OS X的安装步骤 doubletree
GemFire目前已经开源，开源项目的主页：http://geode.incubator.apache.org/，商业版本的主页：https://pivotal.io/big-data/pivotal-gemfire，关于开源版本如何编译，以及与商业版本的区别(功能上有区别)，我们以后再花时间来介绍。我们先使用商业版本作为学习的入口，在初始学习阶段，迅速了解一个产品的最好方法就是亲手安装它。Gem
GemFire 入门篇2：GemFire 8.2 在CentOS & Mac OS X的安装步骤 doubletree
GemFire目前已经开源，开源项目的主页：http://geode.incubator.apache.org/，商业版本的主页：https://pivotal.io/big-data/pivotal-gemfire，关于开源版本如何编译，以及与商业版本的区别(功能上有区别)，我们以后再花时间来介绍。我们先使用商业版本作为学习的入口，在初始学习阶段，迅速了解一个产品的最好方法就是亲手安装它。Gem
R-note1 Note
R 新手如果你在R上遇到困难，那么你从这两个地方可以得到解答： http://www.r-project.org/mail.html http://stackoverflow.com/questions/tagged/r 大数据（R）网站：http://www.revolutionanalytics.com/big-data 如果
通过 IDE 向 Storm 集群远程提交 topology storm
转载： http://weyo.me/pages/techs/storm-topology-remote-submission/ http://www.javaworld.com/article/2078672/big-data/open-source-tools-open-source-java-projects-storm.html?page=2 作为一个懒癌晚期患
高性能服务端漫谈 cfyme 高性能
一、背景进入多核时代已经很久了，大数据概念也吵得沸沸扬扬，不管你喜欢不喜欢，不管你遇到没遇到，big-data或bigger-data都必须正视.处理大数据，基本都离不开分布式计算和分布式存储，这其中以hadoop最为使用广泛和经典。分布式系统，就离不开计算系统、网络系统、文件系统和数据库系统。这么多系统，之间又是如何协作的呢？通讯过程又是如何保障高性能的呢？1.单处理器在以前的单核心cpu下，我
java工厂模式 3213213333332132 java 抽象工厂
工厂模式有 1、工厂方法 2、抽象工厂方法。下面我的实现是抽象工厂方法, 给所有具体的产品类定一个通用的接口。 package 工厂模式; /** * 航天飞行接口 * * @Description * @author FuJianyong * 2015-7-14下午02:42:05 */ public interface SpaceF
nginx频率限制+python测试 ronin47 nginx 频率 python
部分内容参考：http://www.abc3210.com/2013/web_04/82.shtml 首先说一下遇到这个问题是因为网站被攻击，阿里云报警，想到要限制一下访问频率，而不是限制ip（限制ip的方案稍后给出）。nginx连接资源被吃空返回状态码是502，添加本方案限制后返回599，与正常状态码区别开。步骤如下：
java线程和线程池的使用 dyy_gusi ThreadPool thread Runnable timer
java线程和线程池一、创建多线程的方式 java多线程很常见，如何使用多线程，如何创建线程，java中有两种方式，第一种是让自己的类实现Runnable接口，第二种是让自己的类继承Thread类。其实Thread类自己也是实现了Runnable接口。具体使用实例如下： 1、通过实现Runnable接口方式 1 2
Linux 171815164 linux
ubuntu kernel http://kernel.ubuntu.com/~kernel-ppa/mainline/v4.1.2-unstable/ 安卓sdk代理 mirrors.neusoft.edu.cn 80 输入法和jdk sudo apt-get install fcitx su
Tomcat JDBC Connection Pool g21121 Connection
Tomcat7 抛弃了以往的DBCP 采用了新的Tomcat Jdbc Pool 作为数据库连接组件，事实上DBCP已经被Hibernate 所抛弃，因为他存在很多问题，诸如：更新缓慢，bug较多，编译问题，代码复杂等等。 Tomcat Jdbc P
敲代码的一点想法永夜-极光 java 随笔感想
入门学习java编程已经半年了,一路敲代码下来,现在也才1w+行代码量,也就菜鸟水准吧,但是在整个学习过程中,我一直在想,为什么很多培训老师,网上的文章都是要我们背一些代码?比如学习Arraylist的时候,教师就让我们先参考源代码写一遍,然
jvm指令集程序员是怎么炼成的 jvm 指令集
转自：http://blog.csdn.net/hudashi/article/details/7062675#comments 将值推送至栈顶时 const ldc push load指令 const系列该系列命令主要负责把简单的数值类型送到栈顶。(从常量池或者局部变量push到栈顶时均使用) 0x02 &nbs
Oracle字符集的查看查询和Oracle字符集的设置修改 aijuans oracle
本文主要讨论以下几个部分：如何查看查询oracle字符集、修改设置字符集以及常见的oracle utf8字符集和oracle exp 字符集问题。一、什么是Oracle字符集 Oracle字符集是一个字节数据的解释的符号集合,有大小之分,有相互的包容关系。ORACLE 支持国家语言的体系结构允许你使用本地化语言来存储，处理，检索数据。它使数据库工具，错误消息，排序次序，日期，时间，货
png在Ie6下透明度处理方法 antonyup_2006 css 浏览器 Firebug IE
由于之前到深圳现场支撑上线，当时为了解决个控件下载，我机器上的IE8老报个错，不得以把ie8卸载掉，换个Ie6,问题解决了，今天出差回来，用ie6登入另一个正在开发的系统，遇到了Png图片的问题，当然升级到ie8(ie8自带的开发人员工具调试前端页面JS之类的还是比较方便的，和FireBug一样，呵呵)，这个问题就解决了，但稍微做了下这个问题的处理。我们知道PNG是图像文件存储格式，查询资
表查询常用命令高级查询方法(二) 百合不是茶 oracle 分页查询分组查询联合查询
----------------------------------------------------分组查询 group by having --平均工资和最高工资 select avg(sal)平均工资,max(sal) from emp ; --每个部门的平均工资和最高工资
uploadify3.1版本参数使用详解 bijian1013 JavaScript uploadify3.1
使用：绑定的界面元素<input id='gallery'type='file'/>$("#gallery").uploadify({设置参数，参数如下}); 设置的属性： id: jQuery(this).attr('id'),//绑定的input的ID langFile: 'http://ww
精通Oracle10编程SQL(17)使用ORACLE系统包 bijian1013 oracle 数据库 plsql
/* *使用ORACLE系统包 */ --1.DBMS_OUTPUT --ENABLE:用于激活过程PUT,PUT_LINE,NEW_LINE,GET_LINE和GET_LINES的调用 --语法：DBMS_OUTPUT.enable(buffer_size in integer default 20000); --DISABLE:用于禁止对过程PUT,PUT_LINE,NEW
【JVM一】JVM垃圾回收日志 bit1129 垃圾回收
将JVM垃圾回收的日志记录下来，对于分析垃圾回收的运行状态，进而调整内存分配(年轻代，老年代，永久代的内存分配)等是很有意义的。JVM与垃圾回收日志相关的参数包括： -XX:+PrintGC -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -Xloggc -XX:+PrintGC 通
Toast使用白糖_ toast
Android中的Toast是一种简易的消息提示框，toast提示框不能被用户点击，toast会根据用户设置的显示时间后自动消失。创建Toast 两个方法创建Toast makeText(Context context, int resId, int duration) 参数：context是toast显示在
angular.identity boyitech AngularJS AngularJS API
angular.identiy 描述: 返回它第一参数的函数. 此函数多用于函数是编程. 使用方法: angular.identity(value); 参数详解: Param Type Details value * to be returned. 返回值: 传入的value 实例代码: <!DOCTYPE HTML>
java-两整数相除，求循环节 bylijinnan java
import java.util.ArrayList; import java.util.List; public class CircleDigitsInDivision { /** * 题目：求循环节，若整除则返回NULL，否则返回char*指向循环节。先写思路。函数原型：char*get_circle_digits(unsigned k,unsigned j)
Java 日期周年 Chen.H java C++c C#
/** * java日期操作(月末、周末等的日期操作) * * @author * */ public class DateUtil { /** */ /** * 取得某天相加(减)後的那一天 * * @param date * @param num *
[高考与专业]欢迎广大高中毕业生加入自动控制与计算机应用专业 comsci 计算机
不知道现在的高校还设置这个宽口径专业没有,自动控制与计算机应用专业,我就是这个专业毕业的,这个专业的课程非常多,既要学习自动控制方面的课程,也要学习计算机专业的课程,对数学也要求比较高.....如果有这个专业,欢迎大家报考...毕业出来之后,就业的途径非常广..... 以后
分层查询（Hierarchical Queries） daizj oracle 递归查询层次查询
Hierarchical Queries If a table contains hierarchical data, then you can select rows in a hierarchical order using the hierarchical query clause: hierarchical_query_clause::= start with condi
数据迁移 daysinsun 数据迁移
最近公司在重构一个医疗系统，原来的系统是两个.Net系统，现需要重构到java中。数据库分别为SQL Server和Mysql，现需要将数据库统一为Hana数据库，发现了几个问题，但最后通过努力都解决了。 1、原本通过Hana的数据迁移工具把数据是可以迁移过去的，在MySQl里面的字段为TEXT类型的到Hana里面就存储不了了，最后不得不更改为clob。 2、在数据插入的时候有些字段特别长
C语言学习二进制的表示示例 dcj3sjt126com c basic
进制的表示示例 # include <stdio.h> int main(void) { int i = 0x32C; printf("i = %d\n", i); /* printf的用法 %d表示以十进制输出 %x或%X表示以十六进制的输出 %o表示以八进制输出 */ return 0; }
NsTimer 和 UITableViewCell 之间的控制 dcj3sjt126com ios
情况是这样的: 一个UITableView, 每个Cell的内容是我自定义的 viewA viewA上面有很多的动画, 我需要添加NSTimer来做动画, 由于TableView的复用机制, 我添加的动画会不断开启, 没有停止, 动画会执行越来越多. 解决办法: 在配置cell的时候开始动画, 然后在cell结束显示的时候停止动画查找cell结束显示的代理
MySql中case when then 的使用 fanxiaolong casewhenthenend
select "主键", "项目编号", "项目名称","项目创建时间", "项目状态","部门名称","创建人" union (select pp.id as "主键", pp.project_number as &
Ehcache（01）——简介、基本操作 234390216 cache ehcache 简介 CacheManager crud
Ehcache简介目录 1 CacheManager 1.1 构造方法构建 1.2 静态方法构建 2 Cache 2.1&
最容易懂的javascript闭包学习入门 jackyrong JavaScript
http://www.ruanyifeng.com/blog/2009/08/learning_javascript_closures.html 闭包（closure）是Javascript语言的一个难点，也是它的特色，很多高级应用都要依靠闭包实现。下面就是我的学习笔记，对于Javascript初学者应该是很有用的。一、变量的作用域要理解闭包，首先必须理解Javascript特殊
提升网站转化率的四步优化方案 php教程分享数据结构 PHP 数据挖掘 Google 活动
网站开发完成后,我们在进行网站优化最关键的问题就是如何提高整体的转化率，这也是营销策略里最最重要的方面之一，并且也是网站综合运营实例的结果。文中分享了四大优化策略：调查、研究、优化、评估，这四大策略可以很好地帮助用户设计出高效的优化方案。 PHP开发的网站优化一个网站最关键和棘手的是，如何提高整体的转化率，这是任何营销策略里最重要的方面之一，而提升网站转化率是网站综合运营实力的结果。今天，我就分
web开发里什么是HTML5的WebSocket？ naruto1990 Web html5 浏览器 socket
当前火起来的HTML5语言里面，很多学者们都还没有完全了解这语言的效果情况，我最喜欢的Web开发技术就是正迅速变得流行的 WebSocket API。WebSocket 提供了一个受欢迎的技术，以替代我们过去几年一直在用的Ajax技术。这个新的API提供了一个方法，从客户端使用简单的语法有效地推动消息到服务器。让我们看一看6个HTML5教程介绍里的 WebSocket API：它可用于客户端、服
Socket初步编程——简单实现群聊 Everyday都不同 socket 网络编程初步认识
初次接触到socket网络编程，也参考了网络上众前辈的文章。尝试自己也写了一下，记录下过程吧：服务端：（接收客户端消息并把它们打印出来） public class SocketServer { private List<Socket> socketList = new ArrayList<Socket>(); public s
面试：Hashtable与HashMap的区别（结合线程） toknowme
昨天去了某钱公司面试，面试过程中被问道 Hashtable与HashMap的区别？当时就是回答了一点，Hashtable是线程安全的，HashMap是线程不安全的，说白了，就是Hashtable是的同步的，HashMap不是同步的，需要额外的处理一下。今天就动手写了一个例子，直接看代码吧 package com.learn.lesson001; import java
MVC设计模式的总结 xp9802 设计模式 mvc 框架 IOC
随着Web应用的商业逻辑包含逐渐复杂的公式分析计算、决策支持等，使客户机越来越不堪重负，因此将系统的商业分离出来。单独形成一部分，这样三层结构产生了。其中‘层’是逻辑上的划分。三层体系结构是将整个系统划分为如图2.1所示的结构[3] （1）表现层（Presentation layer）：包含表示代码、用户交互GUI、数据验证。该层用于向客户端用户提供GUI交互，它允许用户