钱曙光

从0到N建立高性价比的大数据平台

声明：本文为作者在CSDN技术公开课的分享原创整理，未经许可，禁止转载。
作者：郭炜，易观CTO，毕业于北京大学，曾任联想大数据总监、万达电商数据部总经理，曾在中金、IBM、Teradata公司担任大数据方向重要岗位。在智能硬件以及大数据分析领域具有丰富的理论和实践经验。
责编：钱曙光，关注架构和算法领域，寻求报道或者投稿请发邮件[email protected]，另有「CSDN 高级架构师群」，内有诸多知名互联网公司的大牛架构师，欢迎架构师加微信qshuguang2008申请入群，备注姓名+公司+职位。

分享内容简介

今天和大家分享的内容主要就是怎么样从0到N来建一个大数据平台。其实，每一个大数据平台都不是凭空而起的，每个企业刚刚开始数据分析的时候，也不是上来就是一个大数据开源平台Hadoop、Spark这样一个存储的。今天分享的内容，其实是根据企业发展的不同阶段，针对业务的需求来选择不同的大数据架构，配置不同规模的数据处理人员，根据企业不同的时间点，帮助企业从0到N，建立高性价比的大数据平台。

从0到N——数据大时代的划分

第一个先说从0到N大数据的时代划分，其实大数据时代不是现在才开始的，它早在以前就开始了，只不过那时候不叫大数据，在最开始的时候叫数据仓库。十年前，它在做企业内部的ERP、CRM的相对的一些集成。然后把里面做一些BI的分析报表，做一些数据挖掘。那个时候最著名的例子应该是啤酒和尿片的故事，就是关联数据挖掘能分析出来，周末男人经常去买尿片和啤酒故事。到后来互联网的出现大数据进入了Web2.0时代。在过去大家只是拿到一些用户结构化的交易信息和用户的联系信息，现在可以获得每一个人上网的点击流的信息，根据你的点击的情况做一些推荐。包括一些现在的猜你喜欢和搜索引擎排名，这些都是在Web2.0时候基于你在点击流的大数据的检索和大数据的一些处理。第三个阶段，现在我们所处的阶段，我认为就是IoT O2O时代，现在大家一讲到大数据，其实不仅仅包括了上网的行为日志，还包括像现在智能Wi-Fi与智能POS（感知在线下，一个在逛商场的时候，你在哪里停留了，停了多久，进了哪家店，吃了什么东西，唱了什么歌，看了什么电影这样的数据）把这些东西全部能收上来。还包括像现在的一些可穿戴的设备，去检测你的健康信息，也包括图象的识别、录像的分析，这些都是在现在这个时代大数据囊括的内容。

大家能感觉到，随着大数据时代的发展，从1.0，2.0到现在3.0，它离消费者的距离是越来越近了，过去原来都是高高在上，数据结果都是在相关的企业决策者的眼里，而现在其实我们都可以把它穿戴在身上，从手机上就能看到一些相关的数据的分析和相关的结果，整个数据对业务的影响力也是由弱慢慢变强，现在基本上如果一个企业没有一个数据决策，这个企业很难去运转。

从0到N——大数据时代企业划分

说过大数据时代的划分，下面来给大家介绍下我定义的大数据时代的企业划分，这里面我做了一个小的比喻，我根据一个企业的数量量，然后根据它的技术人员的分布，我去把它分成幼儿园、小学、中学、大学、硕士、博士等等。最后单独拿一个模板给传统企业。这里面的提到的PV数，如果你不是互联网的企业也没关系，你可以用你的企业每天日增的数据的处理条数，因为数据量其实决定了企业的技术框架复杂度和你的处理的人员多少。这里分别划分了几种：五万、五十万、五百万、五千万、五十亿条，大于五十亿条。数据技术人员的多少跟每一个企业发展阶段都是有直接关系的，具体情况参见上图，不再赘述。单独把传统企业拎出来，因为它稍微特殊，除了数据量的量级之外，传统行业的技术人员做大数据的人一般都比较匮乏，现在像零售、医疗、银行等等其实都是这个状态，而它的数据需求特别多，既需要OLAP，又要做挖掘，还要做个性推荐，对数据还有做一些数据产品，想法非常多，我们到后面也讨论一下，传统企业做大数据的时候要注意什么。

这个是我对不同数据阶段的划分，下面逐步介绍不同阶段适合的框架。

大学之前的基本框架

先说说大学之前的框架，就是所有的这些数据处理的基本框架，在大学之前其实无外乎分为以下几个模块：数据处理调度模块，数据展示工具，结构化数据存储（非结构化处理后放入结构化存储）。非结构化数据也可以用第三方的一些免费的分析工具，具体每个阶段略有不同。

先讲讲幼儿园阶段，此时数据专职人员几乎没有，主要都是结构化的数据。结构化数据在这个量级的时候每天五万条，用Mysql即可存储，数据处理调度的时候，不用专门复杂的ETL工具，用Shell+JAVA处理即可（此时企业也没有专职数据处理人员）。展示工具在这个阶段的时候，不用买什么工具，这里我强烈推荐Excel，待会我给大家讲讲为什么推荐它。对于非结构化数据，这个量级有很多第三方的免费工具，如果需要可以挑选一个使用。

幼儿园基本框架

Excel是小数据量最好分析工具

所见即所得。
产品使用方便，人员易上手
支持各种定制化展示
支持简单的数据挖掘
业务部门容易使用无招胜有招多少金融模型来自于Excel

为什么推崇Excel？到目前为止，个人一直认为Excel是小数据量的最好的分析工具，没有之一。第一，所见即所得，所有的数据处理和数据挖掘工具没有一个就像Excel一样，简单拖拖拽拽即可实现，旋转透视表、关联分析挖掘、或者回归分析完全就在一个界面上就能处理好，没有一个工具能比得上它。第二点是使用方便，人员易上手，对业务人员不用做什么培训，用Excel业务人员就能做出各种各样的分析报表，非常高效。第三，支持各种个性化的展示。如右图，在页面上面能画出来比较炫酷的这些图，Excel基本都支持,包括支持地图上展示热区图等，具体的方法，大家自行谷歌一下。第四，支持简单的数据挖掘。Excel支持大部分的基本数据挖掘算法，比如关联分析，决策树分类等，方法大家自行谷歌。 Excel我认为在数据量级不超过十万条的时候是最好的分析工具。所以用Mysql把这个数据做一下汇总，Excel直接展示，这也是在幼儿园阶段对你来讲最好的一个分析框架了。有些人会说用Excel不是大数据，但是到现在为止，很多数据分析师还在用Excel，个人认为无招胜有招，不在乎工具是怎么样，而是在乎你背后分析思路和分析的经验是如何。大家知道现在很多大家都说金融股票分析什么这些都非常高深，用各种量化模型，但是大家知道，很多金融模型都是来自Excel的，对于最基本的分析工具Excel，我向大家强烈推荐一下，无论哪个阶段一定要深学活用。

第三方分析——易观方舟帮助你分析页面流量

支持网页和APP
SDK只有66k
省去了各种数据加工的麻烦
基本指标一应俱全
目前开放的基本功能，永久免费
功能不断在迭代

对于在这个阶段，互联网非结构化分析有很多像友盟和方舟这样的免费分析工具。我在易观就简单说易观的方舟，通过易观的业界最小的SDK（Android只有66K）就可以看到各种基本的分析指标，存储和处理都不用操心了。基本的这些指标一应俱全，而且永久免费，指标数据可以下载回本地，如果需要明细数据回传服务也可以单聊。这个阶段，最重要的是把企业把业务流程打通，先活下来，这是在幼儿园这个阶段。

集美貌与智慧一身的“SQL Server”

为什么是SQL Server？

一个软件覆盖了这个阶段数据处理的所有功能
- 支持各种数据源的集成
- 支持ETL调度
- 支持报表展示
- 支持OLAP
数据量在几亿条之内（每天50万，一年1.5亿），查询效
率OK，如果扩展cluster，支持更好。
小数据分析神器Excel，完美结合，扩展了数据挖掘，展
现等功能
缺点：数据量大以后，效率跟不上

在小学阶段的企业基本上有一点数据了，每天大概有五十万条这样的数据，有一些数据的处理专职人员了，1到2个人。需要有ETL工具和一定数据量级的数据存储。这个时候，向小企业隆重推荐一个继承解决方案就是SQL Server。提到SQL Server其实也有很多人在鄙视，听上去一点都不高大上，怎么能叫大数据？但其实大家知道吗？无论是现在已经火的京东，还是现在的美团，刚刚起步的时候都曾经经过SQL Server做数据分析的阶段。我把SQL Server叫做“集美貌与智慧于一身”，为什么这么说？其实SQL Server其实是它目前唯一一款软件，覆盖了这个阶段数据处理分析的所有功能，支持各种数据源的支撑。因为企业在这个数据量级的时候，源数据库有多个异构数据库和异构数据来源，需要一个比较强大的ETL工具做集中数据存储。在这个阶段，可以利用SQL Server自身集成带的一个东西叫SSIS，SSIS组件是一个简化版的ETL处理工具，你购买了SQL Server，你不用再需要购买一个ETL工具。此外，SQL Server还集成SSRS，它是一个网页报表系统，这个东西本身还支持OLAP引擎，你不需要再单独买一套报表的展现工具，对于这个阶段的企业来讲，大部分需求也足够使用。第四个是OLAP引擎，就是上钻下钻旋转这些OLAP特性SQL Server全都支持，而且在数据量级在几亿条以内，数据查询效率OK。当然，如果企业比较富裕，你去购买Cognos、Tablau这样的产品的话，支持会更好一些。最关键的，完美结合刚才提到的小数据分析神器Excel。Excel直接连上SqlServer，那基本上就如虎添翼，原来Excel只能十万条，SQL Server扩展到一亿条。当然此时第三方的工具还可以继续用，你用的像方舟这些继续可以使。那方舟里面，但这个阶段除了刚才说PV、UV，现在可能就是分析一下这个页面路径了，就是这些人通过什么样的路径点击进来，到你那触达你的最终的购买路线的，这些人究竟它的转化率怎么样。包括一些留存分析，就是哪些用户是老用户，这些用户留存情况怎么样，是什么活动促销进来的等等。这个问题是在这个阶段肯定有的，但是用的工具不一定是易观的方舟也有其他的工具。

传统数据仓库+日志分析工具

日增500万，年度过5亿以内，2-4个人，暂时还没有人力搭建hadoop。

刚才讲到了幼儿园小学，现在上中学了。为什此时我还在推荐商业组件而不是开源组件，是因为在此时，大部分企业还是以满足企业内部需求为主，建立分析平台的时间和效率往往比建立高大上的平台有效切实的多，同时建立相关团队也需要时间，使用商业组件可以提高整体的效率。在中学的时候，每日日增数据量基本上是五百万量级，一般是小型的这些互联网企业，或者小的传统企业，此时，数据专职人员就有2到5个人了，这个数据量可能像一年下来可能要过十亿条了，单机的SQL Server支持可能会有一些吃力。目前这个阶段，我个人的建议还是你不要上Hapdoop这样大的平台，建立Hapdoop平台一定要10人以上的团队规模，这个其实是一个坎儿，在这个时间不要着急搭这种复杂的Hapdoop平台，但是对于您目前的企业数据量来讲，你需要一些专业的数据处理工具和展示工具了，就是你的小的企业可能刚才我说的SqlServer这个解决方案，已经不适合你了。那一般现在都有哪些？像数据处理调度的时候，因为刚才我提到说，SqlServer它自己集成，但是目前处理到SSIS，肯定是不能够完全满足你的要求了，于是就有比较专业的数据处理工具，有两个比较商业上过去用的非常有名的，一个叫Informatica，另一个Datastage，这两个其实都能满足大部分的企业的数据处理的调度的需求，现在大部分银行也在用。当然今天我们追求性价比，所以我给大家介绍常用开源的工具，叫做Kettle，目前大部分中小公司Kettle用的其实还是最多的，因为它的功能比Informatica、Datastage相比肯定要弱一些，但是比SSIS来讲还是要更强一些，而且现在Kettle还支持了Hadoop、Spark等等任务调度和监控，还是扩展性在这个阶段挺强的工具。

数据存储在这里也有一个升级，原先的存储在这个数据量级每年在15-20亿条，此时需要更大型的数据存储，比如说DB2、Oracle，这两个都是商业的，就是现在目前也是过去在商业数据仓库验证比较好的。我们追求性价比，也可以用去年开源的Greenplum。GP其实在大数据行业里面还挺有名的，去年年底实现开源免费使用。GP是在上百亿数据量级里面，唯一一个MPP架构且开源的数据存储平台，它的处理效率和DB2、Oracle一点不落后。在展示方面，随着业务量的增加，需求越来越多，也需要一些单独的查询展示工具。在这个环境下，数据量有一定数据量级了，但你的人不多，做自己的一些查询工具可能还不行，你方式是买一些商用的工具来去做一个过渡，所以我在这里推荐几个现在比较火的。Qlik Sense/Tablau这两个我用过都还不错，属于新一代的展现工具，当然还有老牌的Cognos和BO等表现都中规中矩，建议展示工具和业务需求部门一起评审，选一个合适的即可。选择合适的展示工具可以节约建立大数据平台的大量时间。

开源的ELK——简易日志分析平台

ELK
- Logstash
- ElasticsSearch
- Kabana
优点
- 搭建简易
- 迅速满足日志分析需求
- 自身具有多种展示方式
缺点
- 功能单一，只针对日志
- 扩展性不强

在中小学的时候，非结构化数据可以通过程序转换为结构化数据再存入传统结构化数据数据库的同时使用第三方免费工具来分析处理。在这个数据量级的时候，你会发现很多临时性的新需求，第三方免费的这些工具不够用，这时候ELK就派上用场了，ELK，就是Logstash、ElasticsSearch、Kabana缩写。在这个时间点，其实如果你想要自己一些自主的，这种非结构化的日志类的分析，可以使用ELK分析。

在这个时候如果你的公司还没有使用Python处理数据的话，一定要求你的技术人员开始使用Python，前面其实都没有单独对数据处理的语言对大家做限制，特别人比较少的时候，在这个时间点，一定需要让你的人员从JAVA转到Python去。Python有几个这样的好处，第一数据处理简洁明快，比Java针对数据开发效率高很多。过去有一个语言叫做Perl，现在Python已经取代了Perl的地位，成为一个数据处理的一个必会的语言。第二个好处是Python各种数据源和各种环境都支持，它的延展性特别高。第三个是Python支持各种数据挖掘的算法库，基本上各种在Python的这种库是最多的，甚至比JAVA还多。第四个是支持各种流式计算系统的框架，就是你将来学了Python以后，你可以顺利地从中学上大学。所以在这个阶段，我建议每一个企业在这个时候，去把Python脚本用起来。

第三方免费分析——易观方舟的用户画像

人口属性：设备群体特征
使用类型：都是使用什么类型的应用
使用类型时段：什么时间使用什么类型的APP
使用关联分析：从哪里来，到哪里去
用户偏好：用户标签

当然，在这个阶段，第三方的数据平台依然可以帮你做一些事情，比如说方舟的用户画像。因为这些功能的背后需要有大量的数据和大量的数据分析算法，来帮助你的企业告诉你，你的客户它的设备群体是什么样的，他们是在使用什么样类型的应用，这些应用在什么时间段怎么使用。也能告诉你做一些关联分析，就是你这个客户在使用应用之前，他从哪里来到哪里去，还给你很多的一些用户标签。这些其实是你在用ELK，这些统计的东西都是没有的，目前这个功能也是免费对外开放的，大家欢迎去使一下。

开源平台的引入与数据治理的加强

上完中学以后就要上大学了，包括小银行、政府机构、大部分传统机构，这个里面它要求的东西就更多了。上大学以后，系统的结构一下就变复杂了，为什么？除了非结构化数据的处理之外，在这个时候有两个非技术模块很重要，一个叫做主数据管理，一个叫做元数据管理，所有在这个阶段的企业都做了类似这样的项目。主数据是什么？在企业里面，各种各样的系统里面都有各种各样的数据，对于某些特殊的数据的标准数据就是主数据。举个例子，客户信息。你可能有CRM里面有，ERP里面有，可能生产调度系统里面有，可能销售的APP里面也有，你的网站上面也有。对于每一个客户来讲，谁作为唯一确定的数据做黄金拷贝？这就是主数据管理的意义，你一定把主数据存储独立存储，业务流程发生变更的时候，哪个系统有权限去改主数据，是非常重要的，否则最后客户的电话号码天天变来变去，你也不知道它哪个是最终有的有效数据。所以在这个时间点你一定要做一个主数据的管理。第二个元数据，元数据的管理，到这个阶段以后，表、存储特别多了，这些数据怎么能有效的管理。例如，元数据当中的血缘分析，就是你这个表它的数据从哪里来，到哪里去，这个数据怎么最后变成了指标展现出来，指标发生数据问题的时候，哪些数据处理过程可能存在一些故障可能，这些东西其实是在这个阶段做的。

在这个阶段开始要做真的开源平台的引入了，开源平台的引入和数据治理的加强，导致你的人员迅速地扩张。第一个这里面引入了Hadoop，Hadoop我目前建议你还是先用Hive先用用，逐步转为Map Reduce非结构化处理，通过Kafka，接入Storm也可以使用实时地流式计算，通过Storm直接反馈到前端的展现工具。在这个数据量级的时候，每天五千万条左右的结构化数据的处理量，可以使用开源的Greenplum或者商业化的Teradata。Teradata目前还是在MPP架构业界最快的，但是卖的也是最贵的。展现工具，企业依然可以去买第三方工具，自己不用去开发。此时的企业，数据挖掘的需求越来越多，使用数据挖掘工具的时候，原来做的一些简单的像Excel这样的工具已经无法满足个性化推荐、协同过滤这些算法了。挖掘工具可以在R SPSS、SAS、或Mlib库选一个。Mlib是Spark中的数据挖掘库，功能强大，处理速度快。不过此时我还不建议企业着急上Spark，因为大部分这些企业大数据投入还是有限的，Spark的使用会给人员带来新的需求。如果人员有限，那么可以选择商业的数据挖掘工具，如果人力比较富裕，可以使用开源的R结合python相关挖掘的类库，能解决企业大部分的挖掘和推荐需求。这个时间点上有一个特点就是在大部分的这个企业处理的时候，大部分数据还是将非结构化数据处理之后，变为结构化数据再做相关处理，哪怕经过了MapReduce，经过挖掘在线模型，最终的数据还会回到这种结构化的数据库里面再去使用。或者有小部分地流式实时数据处理来做展示。绝大部分数据存储还不是放在Hive和Hapdoop里面的，你的大部分的数据其实还是在结构化的数据里面。因为你的人员在这个阶段，其实还是结构化数据处理人员比非结构化数据处理人员多，你的业务需求也是结构化数据需求最多。

中流砥柱——Kafka/HDFS/Hadoop/Hive

最皮实的组合
- 鲁棒性
- 硬件兼容性
- 数据处理稳定性
每个系统大数据存储，都绕不开
缺点：慢！

分开来讲，Kafka/HDFS/Mapreduce/Hive，我把它叫做最皮实的大数据组合，原因有几个：第一就是稳定，无论你现在用的是Cloudera 还是Hortonworks，其实让你的开发人员去安装一套，安装配置的时候可能中间有一些坑，但是你只要把它安上去转起来一次以后，那后面基本上它的大部分问题几乎就没有了。不会像其他平台，在运行时有时候会有一些诡异的问题。它的兼容性也比较强，就是无论好硬件差硬件，它都能跑起来。数据处理的稳定性，数据处理是非常稳定的，你不用担心数据量徒增会出什么问题。所以现在目前为止，每一个大数据的存储都绕不开这个组合。缺点也很明显，就是慢。这个东西它是不会内存爆掉，不会死机，但是它转起来真的很慢，你想让它跑快起来，这个事其实挺难的，因为这个整个结构其实就不是那样的结构，经常你查一个SQL下去，你看着它先做map，然后再做reduce可能半个小时过去了。

贵族的开源——Greenplum

MPP架构，查询速度很快！
大数据量SQL查询，除了Teradata，商业化使用最多
稳定性强
GPDB目前使用最多，HAWQ支持HDFS是未来
缺点：吃硬件，万兆、多SAS盘、服务器很贵…

刚才我提到了Greenplum， Greenplum这家公司其实也是一家老牌公司了，它其实现在有两个开源的版本，一个以GPDB为核心，一个以HAWK位核心。GPDB是现在目前使用最多一个查询的引擎，广泛应用于银行、电信等等很多的领域里面，其实都是用了GPDB的SQL的查询比较多。HAWK是新版的GP存储引擎，现在支持HDFS，简单来讲它是底下存储换为HDFS，它本身的查询计划和优化还是用的GP的这一套东西，所以它的速度基本上和GPDB是相同的，只不过现在刚刚推出来，还需要一些时间验证和推广。但是整个趋势来看HAWK是未来，因为它支持的HDFS，对于数据的导入导出，磁盘的冗余替换都是非常有利的。易观作为GP开源以后第一个使用开源版本存储处理大量数据的企业（日处理量在100亿条左右），我们也遇到了一些坑。但是给我们带来的优势是查询速度非常快，同样的结构化数据的查询，不夸张的讲Hive需要1小时，GP 1分钟就可以算出来。目前来讲GP其实商业化用的是最多的，稳定性也是非常强，在大数据的类SQL这个领域里还是比较好用的。当然，它也有缺点，就是非常吃硬件。普通的开源软件我叫做屌丝开源，一般对硬件要求不高，而GP我管它叫贵族开源，它对网络和磁盘的IO要求极为苛刻，一旦你的网络和你的磁盘IO没有配置均衡有效的时候，它会经常出现一些诡异的问题。所以基本的配置，单光口万兆是最最基本的，没有这个硬件投入你就不要想用GP了，一般它推荐的是双万兆卡，就是一定要有光交机，两个万兆给它，每一个机器的磁盘很多的SAS盘。所以，它要求的硬件，包括整个的服务器，那你服务器本身主板其实这些要求全都规格都上去了。但是企业结构化数据到一定数据量级的时候，还是可以选它的，个人认为它还是比较靠谱的。

易观方舟的转化分析与应用评级

看自己产品转化
- 营销活动是否高转化为下单支付？
- 行业平均转化率如何？
- 什么渠道用户分享与传播多？
看行业均值、TOP10
- 市场是否已被领头羊蚕食？
- 长尾几无生存空间？
看自己评级
- 易观给你的第三方的评估

当然在这个阶段，第三方的平台依然可以给你一些帮助。例如，帮助你看你企业从广告到浏览到下单，转化率是如何的？行业均值差多远？这些易观都一些分行业的分析模板，只需要你简单的做一些数据嵌入即可。能看看行业趋势是怎么样，你自己看看这个行业的TOP10是怎么样。你的市场已经被领头羊吃掉了，或者你自己生存空间怎么样。再看看你在这个行业里排行如何？有没有一些新的缺口？另外易观给你做一个第三方的评估评级，给你的投资看下你的用户的价值有多大。这些基本功能都是永久免费的，而将来基于这些基本功能的扩展分析是要收费的。

那刚才讲完大学了，现在开始上研究生了，研究生每天的数据条数少于五十亿，那现在到了这个量级的时候，基本上专职人员是30到50人了，这个时候关键词就是一个字，开源。为什么？在这个量级的时候，如果你不去用一些开源的一些工具投入已经超过了你对于人员雇佣的投入费用。那对于这个阶段来讲，除了Hadoop系列，会引入Spark、麒麟、Presto、Druid这样的数据处理和存储平台。研发工具基本上原来的商业工具肯定是无法满足需求了，可以引用百度的E-Chart或者D3。他们之间各有千秋，但是我是支持国产的开源的，所以我选了echarts。

数据量增加、实时计算的引入导致全面开源化

内存计算的翘楚——Spark

目前最火的大数据开源项目
华人贡献占52%
大数据下数据挖掘必选项SparkR
即使使用磁盘，执行效率优于Hive几倍

研究生大数据必修课

缺点：如果达到很高效，硬件要支持
数据量比较大，节点比较多，对Scala要求比较高

先说Spark，目前最火的大数据开源项目。它的开源的火爆程度目前超过了Hadoop一倍可能还得多，而且华人在里面贡献的人名数超过50%以上。在这个数据量级，会有大量的数据挖掘模型和处理的需求，而Spark对于迭代式的数据挖掘，特别大数据量的处理的时候。同时，它的内存计算及相关框架效率是Hadoop运行效率的几倍，所以在研究生阶段，大数据必修课就是Spark。但缺点也挺明显，就是如果你想达到它的高效，因为它就是内存的计算，硬件整体环境需要支持。就是也许你现在不用万兆，那你也得用双网卡或者四网卡捆绑，你的网络IO得有保证，你的内存和CPU得能上来，这两个是你在Spark的时候必用的。另外，大家知道Spark是用scala做的，你对scala的要求就比较高了，因为你结点多的时候，这点或者那点总有点小问题，所以研发的技术人员必须得对scala比较熟悉，可以简单调试相关的问题。相对于Hadoop，Spark稳定性还在逐步加强，它在流程里会有一些小的bug出来，因为它虽然很火，但是它还会有各种各样的小问题，需要你去修修补补的。所以这个是你在研究生的时候你再去学。

OLAP的利器——Kylin

解决了大数据多维度查询速度慢，多维查询数据返回丌及时的问题
开源MOLAP利器
Apache金牌项目
源自Ebay内部大数据
利用Hbase，加速可以加速Hbase

中国人自己的开源项目！

缺点：预计算时间比较长

麒麟源自于e-Bay，现在它单独从e-Bay独立出来了，那它是Apache的金牌开源项目。麒麟是开源的MOlap的利器，解决了大数据多维查询速度慢，多维查询的反馈不及时的问题。目前麒麟底层主要是利用Hbase去做存储和查询，所以你要去想加快麒麟的速度的话，可以用增强磁盘和网络I/O的方式处理。麒麟目前国内很多大牌的地方也都用过了，包括像腾讯，美团都有使用，现在有很多经过实际的一些经验，它是OK的。最重要的一点，它是中国自己开源的项目，中国人自己的，所以大家一定要支持它。但是麒麟也有它的缺点了，就是它的预加载时间比较长，因为它是用空间换时间的。在大数据架构里，展示的时候如果想看到数据怎么上钻下钻，然后做一些查询，麒麟作为国产的开源的这样一个软件，我觉得还是强烈推荐的，这个大家可以去使用。

OLAP的生力军——Druid

解决单表大数据查询问题
支持实时增量的聚合
不支持查明细

正准POC，不乱评价
开源负责人是华人

缺点：未知，正在准备试用

Druid是最近比较火爆的查询平台，最近群里也一直在讨论，我正在做POC，暂时还不评论。试用以后再给大家做一个反馈。

内部SQL查询工具——Presto

Facebook开源内存SQL查询
可以跨mysql，Hadoop， cassandra查询
查询效率进高于Hive
SQL支持比较好
缺点：内存吃的很厉害，而且大查询出现诡异的异常
目前易观用作内部查询使用

Presto其实Facebook开源的，是一个内存式计算的框架，它比较牛的地方，它是一个能够跨Mysql跨Hadoop，跨cassandra的查询。支持跨库查询，可能主数据在Mysql，行为明细在Hive，用户标签在cassandra，一个语句可以解决所有问题。这件事情还是很牛逼的，但是现在它要支持很多新的数据库的Adapter，但是据说新的adapter要收费，查询效率也高于原生的Hive。我们原先也用 presto，美团也在使用。但是Presto的缺点也挺明显，就是如果你数量不大的时候，原来我们拿presto串到整个数据处理流程也很好。但缺点也很明显，Presto内存吃的很厉害，如果数据量级比较大的的查询（超过20亿左右，根据集群大小不同），就会出现很诡异的异常，而且每次异常的点都不一样。所以在这个情况下，就是我们现在易观拿它做内部查询使用，就是你不能把它串到数据处理流程里。

对开源平台的修改、对硬件的定制要求

到博士生了，更多的技术人员集中到算法层面，例如像知识库或者知识图谱的建立，或者在线推荐引擎和搜索优化这样。大数据平台方面，其实每个不同的这个地方，其实都不太一样。这个阶段每个公司都是自主的一些存储了，包括ETL的工具。在这个阶段原先免费开源的ETL调度工具都不行了，这个工具需要结合任务去动态调整资源，像易观自己做的EAMP，或者我在万达时候e-horse，除了你调度ETL流程之外，因为你的数据量很多了，它得能够去调动你的Hadoop的这些资源并处理一些特殊的业务情况。大数据存储的时候在此时各显神通，这个时候真的没有一个统一地说完整的解决方案。这里稍微提一点优化，就是需要将大数据分段处理了。因为这么大量的数据，如果直接扔到后台集群，集群压力会超大，性价比也不是最高。所以在这里举例，在互联网数据接收的时候，就开始做数据处理。例如，利用Lua在openresty去处理脏数据，分段优化整体的大数据处理流程。在这个阶段，基本上所有的这些博士生的企业，都有修改开源平台的能力，你的团队得能去修理开源的平台解决相关的问题。

性价比最高的定制化硬件

大数据集群要什么？不同场景不同
批量计算——高性价比的I/O，网络I/O，磁盘I/O
- 磁盘I/O，SSD？量大了用不起。
- 多磁盘，组Raid
- 网络I/O，光纤万兆？性价比丌吅适
- 多网卡捆绑，4块放一起
实时计算——网络 I/O，CPU
- 大内存
- 万兆
- 高CPU
- 磁盘？SSD，必须的

同时，你要对硬件做一些定制，就是如果你真的想做性价比最高，原来成型的这些机器不太好使了，其实有很多东西你得去配置什么要下一些功夫。大数据集群需要什么？就是不同场景，不太一样。批量计算，批量计算像Hadoop或者presto主要是高性价比的IO，指的是网络的IO，磁盘的IO。如果真的想框架不变，速度提升优化50%、70%，你想通过优化Hadoop这些优化，我觉得基本不太可能，你直接升SSD硬盘才是解决方案。如果性价比比较高的方案，优选的就是磁盘特别多的机器，在这个时候你去买更多的盘，比如说你的机器支持16块盘，把这16块盘，如果HDFS倍数是3的话，你组三个Raid，去处理，比你用8块盘的机器用罗裸快得多。磁盘IO这件事是我觉得第一个优化的。

第二个网络IO，网络IO，我们要高性价比，网络IO万兆当然是最好了但是性价比其实不合适，其实现在很多的这种多网卡捆绑的方案了，就是你买四块网卡，费点交换机，你把四块卡绑一起，其实它这个速度，虽然不是×4，但是基本上×2×3还可以。所以在这个时候也是一个廉价的解决方案，所以你的Hadoop集群在配的时候，你就用这种多磁盘，多网卡，CPU要不要高？其实我觉得不用。就是大部分的Hadoop出现的问题都不用在CPU上，都是在磁盘和网络IO上面的，就是你在这两个IO上面提上去，你的查询效率会高很多，而且也不用花太多钱。

对于时时计算来讲，这个事其实如果你真的想做得比较好，那么主要是网络IO和CPU，内存一定要大，你的网络，我觉得像GP、Spark这些你要想把它转得非常好，速度非常快，那你还是上万兆吧。如果你要想便宜的话，你就用四块网卡去捆绑，CPU，因为这个时候其实它是内存之间的交互，CPU如果不够高，那你最后CPU就有瓶颈，磁盘直接上SSD即可，现在目前其实你要想定制比较性价比高的这些硬件，其实主要还是回到它原来处理平台的时候，需要IO，需要CPU还是需要网络，从这几个角度来看，不同场景其实还是不太一样的。

当然，其实刚才讲了一堆开源的工具，我们也在做一些有趣的测试，就是拿我们现在易观处理完的，比如说一天大概五十亿条的数据，拿这个数据做一下评测，在不同场景下，每个查询效果怎么样，这个事其实我们现在正在做POC，做完以后，下次分享的时候，也跟大家去聊一聊。

刚才也说了各个不同的，从幼儿园到博士生，其实跨度还是挺大的，讲的从一开始的Mysql到最后整个完整的一个大数据平台。传统企业比较特殊，就是它大部分数据都是结构化数据，技术人员基本上不是特别多，要么就是外包，要么是自己内部人员。但大数据的这些算法和大数据的非结构化的处理比较少。我这里面关键词其实就是建议传统企业还是先建一个数据仓库，然后把少量的非结构化的处理放到结构化里面。

传统企业模板

大数据云化的观点

大数据云化是趋势
小公司，全面云化，借劣第三方云化解决方案，端到端解决问题
- 核心数据选一家大的（阿里、腾讯、Ucloud等）
- 周边方案丌一定只一家（多选几家功能触达为主）
大公司，大数据混吅云是当前的最佳实践
- 大数据集群自主
- 相关组件不产品云化

最后说说，大数据和云化的问题。各家云都上了各种大数据组件，这个东西可不可用？好不好用？该不该用？我的观点是这样的，就是大数据是云化是未来的趋势。目前在国内，如果你是小公司，那你就全面云化吧，那借助第三方的云化的解决方案，端到端解决问题，比如阿里、腾讯、Ucloud等等这个就不列了，这个感兴趣大家可以看易观的分析报告。周边端到端的数据分析服务云就不一定选一家，哪家能用它的一个优化的方案来解决你用哪家，对于移动互联网来讲，你可以选易观，当然你也可以加上其他的友商，在这个阶段对于中小公司来讲，这就可以了。对于大公司来讲，目前现在最佳的方案是混合云，最终落到还是一个混合云的方案。是为什么？就刚才提到，大数据集群从性价比来讲，从稳定性来讲，公有云都还有一段路要走。大数据集群可以在自己的私有云里面，那么你的相关的这些产品可以放到公共云上。

2016年8月12日-13日，由CSDN重磅打造的互联网应用架构实战峰会、运维技术与实战峰会将在成都举行，目前18位讲师和议题已全部确认。两场峰会大牛讲师来自阿里、腾讯、百度、京东、小米、乐视、聚美优品、YY互娱、华为、360等知名互联网公司，一线深度的实践，共同探讨高可用/高并发/高性能系统架构设计、电商架构、分布式架构、运维工具研发与实践、运维自动化系统的构建、DevOps、云上的运维案例分析、虚拟化技术、应用性能检测与管理、游戏行业的运维实践等，将和与会嘉宾共同探讨「构建更安全、更高性能、更稳定的架构和运维体系」等领域的话题与技术。【八折优惠中，点击这里抢票，欲购从速。】

你可能感兴趣的:(从0到N建立高性价比的大数据平台)

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
芦花鞋一四许叶晗
又是在一个寒冷的夏日里，青铜和葵花决定今天一起去卖芦花鞋，奶奶亲手给他们做了一碗热乎乎的粥对他们说:“就靠你们两挣生活费了这碗粥赶紧趁热喝了吧！”于是青铜和葵花喝完了奶奶给她们做的粥，就准备去镇上卖卢花鞋，这回青铜和葵花穿着新的芦花鞋来到了镇上。青铜这回看到了很多人都在卖，用手势表达对葵花说:“这回有好多人在抢我们生意呢！我们必须得吆喝起来。”葵花点了点头。可是谁知他们也大声的叫，卖芦花喽！卖芦花
QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
关于沟通这件事，项目经理不需要每次都面对面进行流程大师兄
很多项目经理都会遇到这样的问题，项目中由于事情太多，根本没有足够的时间去召开会议，那在这种情况下如何去有效地管理项目中的利益相关者？当然，不建议电子邮件也不需要开会的话，建议可以采取下面几种方式来形成有效的沟通，这几种方式可以帮助你努力的通过各种办法来保持和各方面的联系。项目经理首先要问自己几个问题，项目中哪些利益相关者是必须要进行沟通的？可以列出项目中所有的利益相关者清单，同时也整理出项目中哪些
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
铭刻于星（四十二）随风至
69夜晚，绍敏同学做完功课后，看了眼房外，没听到动静才敢从书包的夹层里拿出那个心形纸团。折痕压得很深，都有些旧了，想来是已经写好很久了。绍敏同学慢慢地、轻轻地捏开折叠处，待到全部拆开后，又反复抚平纸张，然后仔细地一字字默看。只是开头的三个字是第一次看到，让她心漏跳了几拍。“亲爱的绍敏：从四年级的时候，我就喜欢你了，但是我一直不敢说，怕影响你学习。六年级的时候听说有人跟你表白，你接受了，我很难过，但
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说造命者说
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说我叫吴起，生于公元前440年的战国初期，正是群雄并起、天下纷争不断的时候。后人说我是军事家、政治家、改革家，是兵家代表人物。评价我一生历仕鲁、魏、楚三国，通晓兵家、法家、儒家三家思想，在内政军事上都有极高的成就。周安王二十一年（公元前381年），因变法得罪守旧贵族，被人乱箭射死。我出生在卫国一个“家累万金”的富有家庭，从年轻时候起就不甘平凡
2020-01-25 晴岚85
郑海燕坚持分享590天2020.1.24在生活中只存在两个问题。一个问题是：你知道想要达成的目标是什么，但却不知道如何才能达成；另一个问题是：你不知道你的目标是什么。前一个是行动的问题，后一个是结果的问题。通过制定具体的下一步行动，可以解决不知道如何开始行动的问题。而通过去想象结果，对结果做预估，可以解决找不着目标的问题。对于所有吸引我们注意力，想要完成的任务，你可以先想象一下，预期的结果究竟是什
随笔 | 仙一般的灵气海思沧海
仙岛今天，我看了你全部，似乎已经进入你的世界我不知道，这是否是梦幻，还是你仙一般的灵气吸引了我也许每一个人都要有一份属于自己的追求，这样才能够符合人生的梦想，生活才能够充满着阳光与快乐我不知道，我为什么会这样的感叹，是在感叹自己的人生，还是感叹自己一直没有孜孜不倦的追求只感觉虚度了光阴，每天活在自己的梦中，活在一个不真实的世界是在逃避自己，还是在逃避周围的一切有时候我嘲笑自己，嘲笑自己如此的虚无，
想家爆米花机
也许不同于大家对家乡的思念，我对家乡甚至是疯狂的不舍。还未踏出车站就感觉到幸福，我享受这里的夕阳、这里的浓烈柴火味、这里每一口家常菜。我是宅女，我贪恋家的安逸。刚刚踏出大学校门，初出茅庐，无法适应每年只能国庆和春节回家。我焦虑、失眠、无端发脾气，是无法适应工作的节奏，是无法接受我将一步步离开家乡的事实。我不想承认自己胸无大志，选择再次踏上征程。图片发自App
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
OC语言多界面传值五大方式 Magnetic_h ios ui 学习 objective-c 开发语言
前言在完成暑假仿写项目时，遇到了许多需要用到多界面传值的地方，这篇博客来总结一下比较常用的五种多界面传值的方式。属性传值属性传值一般用前一个界面向后一个界面传值，简单地说就是通过访问后一个视图控制器的属性来为它赋值，通过这个属性来做到从前一个界面向后一个界面传值。首先在后一个界面中定义属性@interfaceBViewController:UIViewController@propertyNSSt
一百九十四章. 自相矛盾巨木擎天
唉！就这么一夜，林子感觉就像过了很多天似的，先是回了阳间家里，遇到了那么多不可思议的事情儿。特别是小伙伴们，第二次与自己见面时，僵硬的表情和恐怖的气氛，让自己如坐针毡，打从心眼里难受！还有东子，他现在还好吗？有没有被人欺负？护城河里的小鱼小虾们，还都在吗？水不会真的干枯了吧？那对相亲相爱漂亮的太平鸟儿，还好吧！春天了，到了做窝、下蛋、喂养小鸟宝宝的时候了，希望它们都能够平安啊！虽然没有看见家人，也
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
地推话术，如何应对地推过程中家长的拒绝校师学
相信校长们在做地推的时候经常遇到这种情况：市场专员反馈家长不接单，咨询师反馈难以邀约这些家长上门，校区地推疲软，招生难。为什么？仅从地推层面分析，一方面因为家长受到的信息轰炸越来越多，对信息越来越“免疫”；而另一方面地推人员的专业能力和营销话术没有提高，无法应对家长的拒绝，对有意向的家长也不知如何跟进，眼睁睁看着家长走远；对于家长的疑问，更不知道如何有技巧地回答，机会白白流失。由于回答没技巧和专业
谢谢你们，爱你们！鹿游儿
昨天家人去泡温泉，二个孩子也带着去，出发前一晚，匆匆下班，赶回家和孩子一起收拾。饭后，我拿出笔和本子（上次去澳门时做手帐的本子）写下了1\2\3\4\5\6\7\8\9,让后让小壹去思考，带什么出发去旅游呢？她在对应的数字旁边画上了，泳衣、泳圈、肖恩、内衣内裤、tapuy、拖鞋……画完后，就让她自己对着这个本子，将要带的，一一带上，没想到这次带的书还是这本《便便工厂》(晚上姑婆发照片过来，妹妹累得
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
小丽成长记（四十三）玲玲54321
小丽发现，即使她好不容易调整好自己的心态下一秒总会有不确定的伤脑筋的事出现，一个接一个的问题，人生就没有停下的时候，小问题不断出现。不过她今天看的书，她接受了人生就是不确定的，厉害的人就是不断创造确定性，在Ta的领域比别人多的确定性就能让自己脱颖而出，显示价值从而获得的比别人多的利益。正是这样的原因，因为从前修炼自己太少，使得她现在在人生道路上打怪起来困难重重，她似乎永远摆脱不了那种无力感，有种习
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
Cell Insight | 单细胞测序技术又一新发现，可用于HIV-1和Mtb共感染个体诊断尐尐呅
结核病是艾滋病合并其他疾病中导致患者死亡的主要原因。其中结核病由结核分枝杆菌（Mycobacteriumtuberculosis,Mtb）感染引起，获得性免疫缺陷综合症（艾滋病）由人免疫缺陷病毒（Humanimmunodeficiencyvirustype1,HIV-1）感染引起。国家感染性疾病临床医学研究中心/深圳市第三人民医院张国良团队携手深圳华大生命科学研究院吴靓团队，共同研究得出单细胞测序
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
瑶池防线谜影梦蝶
冥华虽然逃过了影梦的军队，但他是一个忠臣，他选择上报战况。败给影梦后成逃兵，高层亡尔还活着，七重天失守......随便一条，即可处死冥华。冥华自然是知道以仙界高层的习性此信一发自己必死无疑，但他还选择上报实情，因为责任。同样此信送到仙宫后，知道此事的人，大多数人都认定冥华要完了，所以上到仙界高层，下到扫大街的，包括冥华自己，全都准备好迎接冥华之死。如果仙界现在还属于两方之争的话，冥华必死无疑。然而
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在