SmartBrain

数据科学家分享：“大数据全栈技术与商用平台架构设计之路”

各位好：

回首10年多的科研工作历程，也是中国经济高速发展的10多年，中国高铁、核电、航空、互联网、云计算、大数据、人工智能等领域无不铭刻着“中国名片”，这就是科技是第一生产力的实践验证！12年前，获得北邮计算机工学硕士后信心满满的踏上了科研之路，一干就是十多年，有苦有泪有艰辛，但收获的是一种为国防科技发展能奉献和敢担当的责任感。今天，更一次站在了移动互联网这个朝阳产业的跑道上，和诸多大数据和人工智能的世界级大咖共商创新发展！7年前加入中国移动集团研究院，担任资深大数据专家和研究员，主攻大数据和人工智能平台架构设计和关键技术研究，并多次受邀在大数据行业和主流峰会进行学术交流，在见证我的学生们历练为BAT/TMD的技术专家同时，也悄然实现着我的技术梦想-让高科技研发标准化和平民化。今天有幸分享商用大数据平台研发经验，让大数据知识图谱在各位的脑海里转起来，并形成商用产品的作战体系，这是“作为架构师，何谓正确？”的行动基础。我分享四大部分：知识分类，系统架构，核心技术，经验分享。具体如下：

一、大数据知识归类:

文件存储：Hadoop HDFS、Tachyon、KFS
离线计算：Hadoop MapReduce、Spark
流式、实时计算：Storm、Spark Streaming
K-V、NOSQL数据库：HBase、Redis、MongoDB
资源管理：YARN、Mesos
日志收集：Flume、Scribe、Logstash、Kibana
消息系统：Kafka、StormMQ、ZeroMQ、RabbitMQ
查询分析：Hive、Impala、Pig、SparkSQL、Drill、Flink、Kylin、Druid
分布式协调服务：Zookeeper
集群管理与监控：Ambari、Ganglia、Nagios、Cloudera Manager
数据挖掘、机器学习：Mahout、Spark MLLib
数据同步：Sqoop
任务调度：Oozie

二、系统架构:

以物联网大数据平台的架构为例，围绕着这条主线：基础架构-》离线分析-》离线迁移-》离线同步-》实时计算-》实时交换-》实时调度-》实时存储-》智能分析

三、核心技术（10章）

第一章：Hadoop的崛起

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。Hadoop是实现了真正意义上的去“IOE”，尤其是开启了摆脱国外高科技公司的全球垄断时代，让全球用户可以轻松地在免费的Hadoop上开发和运行处理海量数据的应用程序。建议先把Hadoop集群构建起来，具体操作见我的博客：https://blog.csdn.net/peter_changyb/article/details/81195920。它主要有以下几个优点：

高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。
高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。
高效性。Hadoop能够在节点之间动态地移动数据，并保证各个节点动态平衡，因此处理速度非常快。
高容错性。Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。

Hadoop可以算是大数据存储和计算的开山鼻祖，现在大多开源的大数据框架都依赖Hadoop或者与它能很好的兼容。具备如下：

Hadoop 1.0、Hadoop 2.0
MapReduce、HDFS
NameNode、DataNode
JobTracker、TaskTracker
Yarn、ResourceManager、NodeManager

1.1 HDFS是Hadoop的关键技术所在

HDFS目录操作命令；上传、下载文件命令；提交运行MapReduce示例程序；打开Hadoop WEB界面，查看Job运行状态，查看Job运行日志。知道Hadoop的系统日志在哪里。

1.2 了解并行计算的核心原理

MapReduce：分而治之的优秀思想；HDFS：数据分片和数据复制为核心的技术。数据到底在哪里，什么是副本；

Yarn如何用分层管理思想革命性的改变了MapReduce的核心架构？NameNode职责？；Resource Manager职责？

1.3 亲自写MapReduce程序

Hadoop可以算是大数据存储和计算的开山鼻祖，现在大多开源的大数据框架都依赖Hadoop或者与它能很好的兼容。具备如下：

Hadoop 1.0、Hadoop 2.0
MapReduce、HDFS
NameNode、DataNode
JobTracker、TaskTracker
Yarn、ResourceManager、NodeManager

1.1 Hadoop是云计算产品代表

1.2 了解原理

MapReduce：如何分而治之；HDFS：数据到底在哪里，什么是副本；

Yarn到底是什么，它能干什么；NameNode到底在干些什么；Resource Manager到底在干些什么；

1.3 自己写一个MapReduce程序

请仿照WordCount例子，自己写一个WordCount程序，

第二章：Hive做离线分析-查询统计

2.1 SQL On Hadoop之Hive

什么是Hive？官方给的解释如下：The Apache Hive data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage and queried using SQL syntax.

为什么说Hive是数据仓库工具，而不是数据库工具呢？有的朋友可能不知道数据仓库，数据仓库是逻辑上的概念，底层使用的是数据库，数据仓库中的数据有这两个特点：最全的历史数据（海量）、相对稳定的；所谓相对稳定，指的是数据仓库不同于业务系统数据库，数据经常会被更新，数据一旦进入数据仓库，很少会被更新和删除，只会被大量查询。而Hive，也是具备这两个特点，因此，Hive适合做海量数据的数据仓库工具，而不是数据库工具。

Hive核心技术讲解参见我的博客 https://blog.csdn.net/Peter_Changyb/article/details/81977665

2.2 安装配置Hive

2.3 试试使用Hive

2.4 Hive是怎么工作的

2.5 学会Hive的基本命令

创建、删除表；加载数据到表；下载Hive表的数据

你具备以下技能和知识点：

MapReduce的原理（还是那个经典的题目，一个10G大小的文件，给定1G大小的内存，如何使用Java程序统计出现次数最多的10个单词及次数）；
HDFS读写数据的流程；向HDFS中PUT数据；从HDFS中下载数据；
自己会写简单的MapReduce程序，运行出现问题，知道在哪里查看日志；
会写简单的SELECT、WHERE、GROUP BY等SQL语句；
Hive SQL转换成MapReduce的大致流程；
Hive中常见的语句：创建表、删除表、往表中加载数据、分区、将表中数据下载到本地；

第三章：数据采集与迁移

此处也可以叫做数据采集，把各个数据源的数据采集到Hadoop上。

3.1 HDFS PUT命令

这个在前面你应该已经使用过了。put命令在实际环境中也比较常用，通常配合shell、python等脚本语言来使用。建议熟练掌握。

3.2 HDFS API

HDFS提供了写数据的API，自己用编程语言将数据写入HDFS，put命令本身也是使用API。

实际环境中一般自己较少编写程序使用API来写数据到HDFS，通常都是使用其他框架封装好的方法。比如：Hive中的INSERT语句，Spark中的saveAsTextfile等。建议了解原理，会写Demo。

3.3 Sqoop

Sqoop是一个主要用于Hadoop/Hive与传统关系型数据库，Oracle、MySQL、SQLServer等之间进行数据交换的开源框架。就像Hive把SQL翻译成MapReduce一样，Sqoop把你指定的参数翻译成MapReduce，提交到Hadoop运行，完成Hadoop与其他数据库之间的数据交换。

自己下载和配置Sqoop（建议先使用Sqoop1，Sqoop2比较复杂）。了解Sqoop常用的配置参数和方法。

使用Sqoop完成从MySQL同步数据到HDFS；使用Sqoop完成从MySQL同步数据到Hive表；如果后续选型确定使用Sqoop作为数据交换工具，那么建议熟练掌握，否则，了解和会用Demo即可。Sqoop导入Hbase核心代码见我的技术博客https://blog.csdn.net/Peter_Changyb/article/details/82557741

3.4 Flume

Flume是一个分布式的海量日志采集和传输框架，因为“采集和传输框架”，所以它并不适合关系型数据库的数据采集和传输。Flume可以实时的从网络协议、消息系统、文件系统采集日志，并传输到HDFS上。因此，如果你的业务有这些数据源的数据，并且需要实时的采集，那么就应该考虑使用Flume。下载和配置Flume。使用Flume监控一个不断追加数据的文件，并将数据传输到HDFS；Flume的配置和使用较为复杂，如果你没有足够的兴趣和耐心，可以先跳过Flume。核心技术参见我的技术博客https://blog.csdn.net/Peter_Changyb/article/details/81213997

第四章：数据同步

Hive和MapReduce进行分析了。那么接下来的问题是，分析完的结果如何从Hadoop上同步到其他系统和应用中去呢？其实，此处的方法和第三章基本一致的。

4.1 HDFS GET命令

把HDFS上的文件GET到本地。需要熟练掌握。

4.2 HDFS API

4.3 Sqoop

同3.3.使用Sqoop完成将HDFS上的文件同步到MySQL；使用Sqoop完成将Hive表中的数据同步到MySQL。

4.4 DataX

DataX 是一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。之所以介绍这个，是因为我们公司目前使用的Hadoop与关系型数据库数据交换的工具，就是之前基于DataX开发的，非常好用。现在DataX已经是3.0版本，支持很多数据源。你也可以在其之上做二次开发。有兴趣的可以研究和使用一下，对比一下它与Sqoop。DataX本身作为离线数据同步框架，采用Framework + plugin架构构建。将数据源读取和写入抽象成为Reader/Writer插件，纳入到整个同步框架中。

Reader：Reader为数据采集模块，负责采集数据源的数据，将数据发送给Framework。

Writer： Writer为数据写入模块，负责不断向Framework取数据，并将数据写入到目的端。

Framework：Framework用于连接reader和writer，作为两者的数据传输通道，并处理缓冲，流控，并发，数据转换等核心技术问题。

第五章：实时计算-SparkSQL

其实大家都已经发现Hive后台使用MapReduce作为执行引擎，实在是有点慢。因此SQL On Hadoop的框架越来越多，按我的了解，最常用的按照流行度依次为SparkSQL、Impala和Presto.这三种框架基于半内存或者全内存，提供了SQL接口来快速查询分析Hadoop上的数据。核心技术参考我的博客https://blog.csdn.net/Peter_Changyb/article/details/81904066

我们目前使用的是SparkSQL，至于为什么用SparkSQL，原因大概有以下吧：使用Spark还做了其他事情，不想引入过多的框架；Impala对内存的需求太大，没有过多资源部署。

5.1 关于Spark和SparkSQL

什么是Spark，什么是SparkSQL。

Spark有的核心概念及名词解释。

SparkSQL和Spark是什么关系，SparkSQL和Hive是什么关系。

SparkSQL为什么比Hive跑的快。

5.2 如何部署和运行SparkSQL

Spark有哪些部署模式？

如何在Yarn上运行SparkSQL？

使用SparkSQL查询Hive中的表。Spark不是一门短时间内就能掌握的技术，因此建议在了解了Spark之后，可以先从SparkSQL入手，循序渐进。

关于Spark和SparkSQL，如果你认真完成了上面的学习和实践，此时，你的”大数据平台”应该是这样的。

第六章：数据交换-一次采集、多次消费

在实际业务场景下，特别是对于一些监控日志，想即时的从日志中了解一些指标（关于实时计算，后面章节会有介绍），这时候，从HDFS上分析就太慢了，尽管是通过Flume采集的，但Flume也不能间隔很短就往HDFS上滚动文件，这样会导致小文件特别多。

为了满足数据的一次采集、多次消费的需求，这里要说的便是Kafka。

6.1 关于Kafka

什么是Kafka？Kafka的核心概念及名词解释。

6.2 如何部署和使用Kafka

使用单机部署Kafka，并成功运行自带的生产者和消费者例子。使用Java程序自己编写并运行生产者和消费者程序。Flume和Kafka的集成，使用Flume监控日志，并将日志数据实时发送至Kafka。

这时，使用Flume采集的数据，不是直接到HDFS上，而是先到Kafka，Kafka中的数据可以由多个消费者同时消费，其中一个消费者，就是将数据同步到HDFS。

为什么Spark比MapReduce快。
使用SparkSQL代替Hive，更快的运行SQL。
使用Kafka完成数据的一次收集，多次消费架构。
自己可以写程序完成Kafka的生产者和消费者。

从前面的学习，你已经掌握了大数据平台中的数据采集、数据存储和计算、数据交换等大部分技能，而这其中的每一步，都需要一个任务（程序）来完成，各个任务之间又存在一定的依赖性，比如，必须等数据采集任务成功完成后，数据计算任务才能开始运行。如果一个任务执行失败，需要给开发运维人员发送告警，同时需要提供完整的日志来方便查错。

第七章：实时调度

不仅仅是分析任务，数据采集、数据交换同样是一个个的任务。这些任务中，有的是定时触发，有点则需要依赖其他任务来触发。当平台中有几百上千个任务需要维护和运行时候，仅仅靠crontab远远不够了，这时便需要一个调度监控系统来完成这件事。调度监控系统是整个数据平台的中枢系统，类似于AppMaster，负责分配和监控任务。

7.1 Apache Oozie

1. Oozie是什么？有哪些功能？当你的系统引入了spark或者hadoop以后，基于Spark和Hadoop已经做了一些任务，比如一连串的Map Reduce任务，但是他们之间彼此右前后依赖的顺序，因此你必须要等一个任务执行成功后，再手动执行第二个任务。

Oozie是管理Hadoop作业的工作流调度系统
Oozie的工作流是一系列的操作图
Oozie协调作业是通过时间（频率）以及有效数据触发当前的Oozie工作流程
Oozie是针对Hadoop开发的开源工作流引擎，专门针对大规模复杂工作流程和数据管道设计
Oozie围绕两个核心：工作流和协调器，前者定义任务的拓扑和执行逻辑，后者负责工作流的依赖和触发。

2. Oozie可以调度哪些类型的任务（程序）？

3. Oozie可以支持哪些任务触发方式？

4. 安装配置Oozie。

7.2 其他开源的任务调度系统

Azkaban，light-task-scheduler，Zeus，等等。另外，我这边是之前单独开发的任务调度与监控系统。

第八章：实时处理

在第六章介绍Kafka的时候提到了一些需要实时指标的业务场景，实时基本可以分为绝对实时和准实时，绝对实时的延迟要求一般在毫秒级，准实时的延迟要求一般在秒、分钟级。对于需要绝对实时的业务场景，用的比较多的是Storm，对于其他准实时的业务场景，可以是Storm，也可以是Spark Streaming。当然，如果可以的话，也可以自己写程序来做。

8.1 Storm

1. 什么是Storm？有哪些可能的应用场景？

2. Storm由哪些核心组件构成，各自担任什么角色？

3. Storm的简单安装和部署。

4. 自己编写Demo程序，使用Storm完成实时数据流计算。案例实战参见我的技术博客https://blog.csdn.net/Peter_Changyb/article/details/82380603

8.2 Spark Streaming

1. 什么是Spark Streaming，它和Spark是什么关系？

2. Spark Streaming和Storm比较，各有什么优缺点？

3. 使用Kafka + Spark Streaming，完成实时计算的Demo程序。

至此，你的大数据平台底层架构已经成型了，其中包括了数据采集、数据存储与计算（离线和实时）、数据同步、任务调度与监控这几大模块。接下来是时候考虑如何更好的对外提供数据了。

第九章：规模迁移

通常对外（业务）提供数据访问，大体上包含以下方面。

离线：比如，每天将前一天的数据提供到指定的数据源（DB、FILE、FTP）等；离线数据的提供可以采用Sqoop、DataX等离线数据交换工具。
实时：比如，在线网站的推荐系统，需要实时从数据平台中获取给用户的推荐数据，这种要求延时非常低（50毫秒以内）。根据延时要求和实时数据的查询需要，可能的方案有：HBase、Redis、MongoDB、ElasticSearch等。
OLAP分析：OLAP除了要求底层的数据模型比较规范，另外，对查询的响应速度要求也越来越高，可能的方案有：Impala、Presto、SparkSQL、Kylin。如果你的数据模型比较规模，那么Kylin是最好的选择。
即席查询：即席查询的数据比较随意，一般很难建立通用的数据模型，因此可能的方案有：Impala、Presto、SparkSQL。

这么多比较成熟的框架和方案，需要结合自己的业务需求及数据平台技术架构，选择合适的。原则只有一个：越简单越稳定的，就是最好的。

如果你已经掌握了如何很好的对外（业务）提供数据，那么你的“大数据平台”应该是这样的：

第十章：机器学习

在我们的业务中，遇到的能用机器学习解决的问题大概这么三类：

分类问题：包括二分类和多分类，二分类就是解决了预测的问题，就像预测一封邮件是否垃圾邮件；多分类解决的是文本的分类；
聚类问题：从用户搜索过的关键词，对用户进行大概的归类。
推荐问题：根据用户的历史浏览和点击行为进行相关推荐。

机器学习核心技术参见我的技术博客https://blog.csdn.net/Peter_Changyb/article/details/82347169。大多数行业，使用机器学习解决的，也就是这几类问题。入门学习线路，数学基础；机器学习实战，懂Python最好；SparkMlLib提供了一些封装好的算法，以及特征处理、特征选择的方法。

四、经验分享

总之，对商用大数据平台而言，我们要考虑应用场景，用户规模和数据处理能力，以及未来3年的目标等。在应用场景的设计中，会考虑业务和技术的结合度量，业务的规模和流程设计。用户规模和数据处理能力，会考虑技术选型和架构设计。具体要考虑架构设计。架构中重要的核心指标：性能、可用性、伸缩性、扩展性的等架构指标。

一、性能

性能就是核心要素之一，具体如下：

CDN加速
反向代理
分布式缓存
异步化：通过分布式消息队列来实现削峰的目的。通过业务配合技术来解决问题。
集群：采用集群也是服务虚拟化的一个体现。用以避免单点问题，同时提供更加高可用，高性能的服务。
代码优化：多线程中，如果是密集型计算，线程数不宜超过CPU核数。如果是IO处理，则线程数=[任务执行时间/(任务执行时间-IO等待时间)] * CPU核数。除此之外，我们应该将对象设计成无状态对象，多采用局部对象，适当将锁细化。进行资源复用。比如采用单例模式，比如采用连接池。合理设置JVM参数。
存储性能优化：关系型数据库的索引采用B+树进行实现。而很多的nosql数据库则采用了LSM树进行存储。LSM在内存中保留最新增删改查的数据，直到内存无法放下，则与磁盘的下一级LSM树进行merge。所以对于写操作较多，而读操作更多的是查询最近写入数据的场景，其性能远高于b+树；采用HDFS结合map reduce进行海量数据存储和分析。其能自动进行并发访问和冗余备份，具有很高的可靠性。其等于是实现了RAID的功能。
数据访问接口优化：数据库层其实是最脆弱的一层，一般在应用设计时在上游就需要把请求拦截掉，数据库层只承担“能力范围内”的访问请求，所以，我们通过在服务层引入队列和缓存，让最底层的数据库高枕无忧。

二、高可用性

衡量一个系统架构设计是否满足高可用的目标，就是假设系统中任何一台或者多台服务器宕机时，以及出现各种不可预期的问题时，系统整体是否依然可用。一般就三个手段、冗余、集群化、分布式。高可用的主要手段就是冗余，应用部署在多台服务器上同时提供服务，数据存储在多台服务器上相互备份。安全服务是指计算机网络提供的安全防护措施，包括认证服务、访问控制、数据机密性服务、数据完整性服务和不可否认服务。特定的安全机制是用来实施安全服务的机制，包括加密机制、数据签名机制、访问控制机制、数据完整性机制、认证交换机制、流量填充机制、路由控制机制和公证机制。普遍性的安全机制不是为任何特定的服务而特设的，属于安全管理方面，分为可信功能度、安全标记、事件检测、安全审计跟踪和安全恢复。

三、高扩展性

扩展性指对现有系统影响最小的情况下，系统功能可持续扩展或提升的能力。表现在系统基础设施稳定不需要经常变更，应用之间较少依赖和耦合，当系统增加新功能时，不需要对现有系统的结构和代码进行修改。扩展性依赖于前期良好的架构设计。合理业务逻辑抽象，水平/垂直切割分布式化等等。可扩展架构的主要手段是事件驱动架构和分布式服务。事件驱动通常利用消息队列实现，通过这种方式将消息生产和处理逻辑分隔开。服务器服务则是将业务和可复用服务分离开来，通过分布式服务框架调用。新增加产品可用通过调用可复用的服务来实现自身的业务逻辑，而对现有产品没有任何影响。

四、高伸缩性

服务尽量同构。DB、cache在考虑分布式时尽量提前设计好扩展方案。也可以采用一些主流的对水平伸缩支持较好的nosql、memcached、hbase等。

围绕着大数据平台的全栈技术，以及数据流主线：数据采集-》数据集成-》数据处理-》数据微服务-》数据应用，我设计并实现了如下的商用大数据平台架构。

你可能感兴趣的:(大数据平台架构设计,大数据平台架构设计)

2022年第十三届中国数据库技术大会（DTCC2022）-核心PPT资料下载百家峰会大数据数据库 DTCC 数据库 DTCC 大数据
一、峰会简介本届大会以“数据智能价值创新”为主题，设置2大主会场，20+技术专场，邀请超百位行业专家，重点围绕时序数据库、图数据技术、实时数仓技术与应用实践、云原生数据库、大数据平台与数据安全等内容展开分享和探讨，为广大数据领域从业人士提供一场年度盛会和交流平台。本次峰会包含：NoSQL数据库技术实践、SQL审计与SQL优化、大数据平台架构设计、大数据应用、分布式数据库技术佳实践、分布式数据库应用
车联网大数据框架_车联网大数据平台架构设计-系统总体架构 weixin_39941262 车联网大数据框架
车联网海量数据存储与分析是典型的大数据应用场景：车载终端连接车辆内部CAN控制总线，实时收集车辆数据。一部分数据通过无线通讯方式及时传给后台以满足对车辆状态及故障状态实时监控的需求；其余大部分数据将先进行本地存储(如SD卡)，再通过离线导入存储在大数据框架中，以便后续进行深度挖掘。恒润科技针对车联网大数据平台(后称‘大数据平台’)的架构规划请见下图。数据源大数据平台的数据源包括两类数据：•车载终端
大数据平台架构设计探究浪尖聊大数据-浪尖数据仓库 kylin
近年来，随着IT技术与大数据、机器学习、算法方向的不断发展，越来越多的企业都意识到了数据存在的价值，将数据作为自身宝贵的资产进行管理，利用大数据和机器学习能力去挖掘、识别、利用数据资产。如果缺乏有效的数据整体架构设计或者部分能力缺失，会导致业务层难以直接利用大数据大数据，大数据和业务产生了巨大的鸿沟，这道鸿沟的出现导致企业在使用大数据的过程中出现数据不可知、需求难实现、数据难共享等一系列问题，本文
大数据期末课设~电商网站日志数据分析肉肉肉肉肉肉~丸子大数据大数据 spark 分布式
目录一、背景介绍...1二、大数据平台架构设计...2三、大数据平台系统设计...7四、数据分析与达成目标...11五、Spark综合编程与python可视化...33六、总结与体会...50一、背景介绍一般情况下，大数据平台指的是使用了Hadoop、Spark、Storm、Flink、Blink等这些分布式、实时或者离线计算框架，并在上面运行各种计算任务的平台。建设大数据平台的最终目的是服务于业
大数据平台架构设计探究 GOGOYAO
摘抄自大数据平台架构设计探究本文主要包括以下几个章节:本文第一部分介绍一下大数据基础组件和相关知识。第二部分会介绍lambda架构和kappa架构。第三部分会介绍lambda和kappa架构模式下的一般大数据架构第四部分介绍裸露的数据架构体系下数据端到端难点以及痛点。第五部分介绍优秀的大数据架构整体设计从第五部分以后都是在介绍通过各种数据平台和组件将这些大数据组件结合起来打造一套高效、易用的数据平
Smartbi：大数据平台架构设计系统数据中台数据仓库
大数据技术是一系列技术的总称，它是集合了数据采集与传输、数据存储、数据处理与分析、数据挖掘、数据可视化等技术，是一个庞大而复杂的技术体系。根据大数据从来源到应用，实现传输的流程，可以将大数据架构设计分为数据收集层、数据存储层、数据处理层、数据治理与建模层、数据应用层。一、数据收集层大数据收集层主要采用了大数据采集技术，实现对数据的ETL操作，ETL，是英文Extract-Transform-Loa
TOP100summit：【分享实录-WalmartLabs】利用开源大数据技术构建WMX广告效益分析平台 msup789
本篇文章内容来自2016年TOP100summitWalmartLabs实验室广告平台首席工程师、架构师粟迪夫的案例分享。编辑：Cynthia粟迪夫：WalmartLabs实验室广告平台首席工程师、架构师在大数据平台架构设计、消息中间件、分布式系统等领域有丰富经验。作为技术负责人，帮助多家企业搭建了大数据平台和分布式系统。目前主导WMX大数据平台、广告效益分析系统和实时数据管道的开发。导读：作为世
大数据平台架构设计探究 vivo互联网技术实时计算 etl lambda kappa 大数据
本文首发于vivo互联网技术微信公众号链接：https://mp.weixin.qq.com/s/npRRRDqNUHNjbybliFxOxA作者：刘延江近年来，随着IT技术与大数据、机器学习、算法方向的不断发展，越来越多的企业都意识到了数据存在的价值，将数据作为自身宝贵的资产进行管理，利用大数据和机器学习能力去挖掘、识别、利用数据资产。如果缺乏有效的数据整体架构设计或者部分能力缺失，会导致业务层
大数据平台架构设计探究 vivo互联网技术实时计算 etl lambda kappa 大数据
本文首发于vivo互联网技术微信公众号链接：https://mp.weixin.qq.com/s/npRRRDqNUHNjbybliFxOxA作者：刘延江近年来，随着IT技术与大数据、机器学习、算法方向的不断发展，越来越多的企业都意识到了数据存在的价值，将数据作为自身宝贵的资产进行管理，利用大数据和机器学习能力去挖掘、识别、利用数据资产。如果缺乏有效的数据整体架构设计或者部分能力缺失，会导致业务层
常见的大数据平台架构设计思路过往记忆
近年来，随着IT技术与大数据、机器学习、算法方向的不断发展，越来越多的企业都意识到了数据存在的价值，将数据作为自身宝贵的资产进行管理，利用大数据和机器学习能力去挖掘、识别、利用数据资产。如果缺乏有效的数据整体架构设计或者部分能力缺失，会导致业务层难以直接利用大数据大数据，大数据和业务产生了巨大的鸿沟，这道鸿沟的出现导致企业在使用大数据的过程中出现数据不可知、需求难实现、数据难共享等一系列问题，本文
大数据平台架构设计探究 vivo互联网技术数据分析
本文首发于vivo互联网技术微信公众号链接：https://mp.weixin.qq.com/s/npRRRDqNUHNjbybliFxOxA作者：刘延江近年来，随着IT技术与大数据、机器学习、算法方向的不断发展，越来越多的企业都意识到了数据存在的价值，将数据作为自身宝贵的资产进行管理，利用大数据和机器学习能力去挖掘、识别、利用数据资产。如果缺乏有效的数据整体架构设计或者部分能力缺失，会导致业务层
WalmartLabs：利用开源大数据技术构建WMX广告效益分析平台 Cynthia成
粟迪夫：WalmartLabs实验室广告平台首席工程师、架构师在大数据平台架构设计、消息中间件、分布式系统等领域有丰富经验。作为技术负责人，帮助多家企业搭建了大数据平台和分布式系统。目前主导WMX大数据平台、广告效益分析系统和实时数据管道的开发。导读：作为世界上最大的商品零售商，沃尔玛每天都投放大量的广告、产生大量的商品交易，生成大量数据，需要分析这些数据的关系以衡量广告活动的效果，并以此为依据制
大数据平台架构设计探究 vivo互联网技术实时计算 etl lambda kappa 大数据
本文首发于vivo互联网技术微信公众号链接：https://mp.weixin.qq.com/s/npRRRDqNUHNjbybliFxOxA作者：刘延江近年来，随着IT技术与大数据、机器学习、算法方向的不断发展，越来越多的企业都意识到了数据存在的价值，将数据作为自身宝贵的资产进行管理，利用大数据和机器学习能力去挖掘、识别、利用数据资产。如果缺乏有效的数据整体架构设计或者部分能力缺失，会导致业务层
大数据平台架构设计探究 vivo互联网技术
本文首发于vivo互联网技术微信公众号链接：https://mp.weixin.qq.com/s/npRRRDqNUHNjbybliFxOxA作者：刘延江近年来，随着IT技术与大数据、机器学习、算法方向的不断发展，越来越多的企业都意识到了数据存在的价值，将数据作为自身宝贵的资产进行管理，利用大数据和机器学习能力去挖掘、识别、利用数据资产。如果缺乏有效的数据整体架构设计或者部分能力缺失，会导致业务层
大数据平台架构设计探究 vivo互联网实时计算 lambda kappa 原创干货
本文首发于vivo互联网技术微信公众号链接：https://mp.weixin.qq.com/s/npRRRDqNUHNjbybliFxOxA作者：刘延江近年来，随着IT技术与大数据、机器学习、算法方向的不断发展，越来越多的企业都意识到了数据存在的价值，将数据作为自身宝贵的资产进行管理，利用大数据和机器学习能力去挖掘、识别、利用数据资产。如果缺乏有效的数据整体架构设计或者部分能力缺失，会导致业务层
数据分析学习路径计划 Alien_lily
大数据方向学习路径基础课程大数据的java基础大数据的linux基础大数据的网络基础python网络程序开发大数据的统计学基础大数据的矩阵计算基础Scala语言入门大数据的C++基础深入JVM内核–原理、诊断与优化深入理解Linux内核大数据平台架构方向搜索引擎构建与爬虫技术高并发大数据平台架构设计Hadoop方向Hadoop数据分析平台Hadoop应用开发实战案例Mahout机器学习平台Hado
金融机构大数据平台架构设计的 10 个考量点 bingdata123
1、金融企业大数据平台架构设计的关键点有哪些？架构设计的关键首要是要满足业务需求，提炼业务需求的非功能特性，提出针对性的架构设计方案。作业自主研发能力有限的企业，在大数据系统建设中首要是合理的选择技术组件，如果科技力量更强可以考虑参与开源社区对组件的优化完善等工作中。2、针对结构化、半结构化和非结构化的数据，在设计大数据平台中分别有哪些要点？大数据平台最好存储与计算相关的数据，非结构化数据如果不能
基于Hadoop的大数据平台整体架构设计 fengshulin
阅读更多1.软件架构设计大数据平台架构设计沿袭了分层设计的思想，将平台所需提供的服务按照功能划分成不同的模块层次，每一模块层次只与上层或下层的模块层次进行交互（通过层次边界的接口），避免跨层的交互，这种设计的好处是：各功能模块的内部是高内聚的，而模块与模块之间是松耦合的。这种架构有利于实现平台的高可靠性，高扩展性以及易维护性。比如，当我们需要扩容Hadoop集群时，只需要在基础设施层添加一台新的H
青云大数据平台架构设计---架构图、问题及解决方案 coolsunchen
http://www.infoq.com/cn/presentations/big-data-cloud-platform-architecture-design?utm_source=infoq&utm_medium=videos_homepage&utm_campaign=videos_row1本次分享的主要内容为基于云计算的大数据平台基础设施建设以及其架构特点。大数据是全球科技现在及未来的长
基础设施建设实战：云之大数据平台架构设计周小四
概要本次分享的主要内容为基于云计算的大数据平台基础设施建设以及其架构特点。大数据是全球科技现在及未来的长期热点，而大数据的基础建设则是其重要基石。大数据基础建设当前的趋势是云化与开放，而如何在云上提供弹性、敏捷，却不失稳定和高性能的大数据平台，则是非常有挑战的工作，因为这不仅对IaaS的存储、网络和计算等资源的调度存取能力提出了苛刻的要求，而且还需要认真思考到底该如何高效的利用云计算的特点来开发大
Maven Array_06 eclipse jdk maven
Maven Maven是基于项目对象模型(POM)，信息来管理项目的构建，报告和文档的软件项目管理工具。 Maven 除了以程序构建能力为特色之外，还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性，所以常常用两三行 Maven 构建脚本就可以构建简单的项目。由于 Maven 的面向项目的方法，许多 Apache Jakarta 项目发文时使用 Maven，而且公司
ibatis的queyrForList和queryForMap区别 bijian1013 java ibatis
一.说明 iBatis的返回值参数类型也有种：resultMap与resultClass，这两种类型的选择可以用两句话说明之： 1.当结果集列名和类的属性名完全相对应的时候，则可直接用resultClass直接指定查询结果类
LeetCode[位运算] - #191 计算汉明权重 Cwind java 位运算 LeetCode Algorithm 题解
原题链接：#191 Number of 1 Bits 要求：写一个函数，以一个无符号整数为参数，返回其汉明权重。例如，‘11’的二进制表示为'00000000000000000000000000001011', 故函数应当返回3。汉明权重：指一个字符串中非零字符的个数；对于二进制串，即其中‘1’的个数。难度：简单分析：将十进制参数转换为二进制，然后计算其中1的个数即可。 “
浅谈java类与对象 15700786134 java
java是一门面向对象的编程语言，类与对象是其最基本的概念。所谓对象，就是一个个具体的物体，一个人，一台电脑，都是对象。而类，就是对象的一种抽象，是多个对象具有的共性的一种集合，其中包含了属性与方法，就是属于该类的对象所具有的共性。当一个类创建了对象，这个对象就拥有了该类全部的属性，方法。相比于结构化的编程思路，面向对象更适用于人的思维
linux下双网卡同一个IP 被触发 linux
转自： http://q2482696735.blog.163.com/blog/static/250606077201569029441/ 由于需要一台机器有两个网卡，开始时设置在同一个网段的IP，发现数据总是从一个网卡发出，而另一个网卡上没有数据流动。网上找了下，发现相同的问题不少：一、关于双网卡设置同一网段IP然后连接交换机的时候出现的奇怪现象。当时没有怎么思考、以为是生成树
安卓按主页键隐藏程序之后无法再次打开肆无忌惮_ 安卓
遇到一个奇怪的问题，当SplashActivity跳转到MainActivity之后，按主页键，再去打开程序，程序没法再打开（闪一下），结束任务再开也是这样，只能卸载了再重装。而且每次在Log里都打印了这句话"进入主程序"。后来发现是必须跳转之后再finish掉SplashActivity 本来代码： // 销毁这个Activity fin
通过cookie保存并读取用户登录信息实例知了ing JavaScript html
通过cookie的getCookies()方法可获取所有cookie对象的集合；通过getName()方法可以获取指定的名称的cookie；通过getValue()方法获取到cookie对象的值。另外，将一个cookie对象发送到客户端，使用response对象的addCookie()方法。下面通过cookie保存并读取用户登录信息的例子加深一下理解。（1）创建index.jsp文件。在改
JAVA 对象池矮蛋蛋 java ObjectPool
原文地址： http://www.blogjava.net/baoyaer/articles/218460.html Jakarta对象池 ☆为什么使用对象池恰当地使用对象池化技术，可以有效地减少对象生成和初始化时的消耗，提高系统的运行效率。Jakarta Commons Pool组件提供了一整套用于实现对象池化
ArrayList根据条件+for循环批量删除的方法 alleni123 java
场景如下： ArrayList<Obj> list Obj-> createTime, sid. 现在要根据obj的createTime来进行定期清理。（释放内存） ------------------------- 首先想到的方法就是 for(Obj o:list){ if(o.createTime-currentT>xxx){
阿里巴巴“耕地宝”大战各种宝百合不是茶平台战略
“耕地保”平台是阿里巴巴和安徽农民共同推出的一个 “首个互联网定制私人农场”，“耕地宝”由阿里巴巴投入一亿，主要是用来进行农业方面，将农民手中的散地集中起来不仅加大农民集体在土地上面的话语权，还增加了土地的流通与利用率，提高了土地的产量，有利于大规模的产业化的高科技农业的发展，阿里在农业上的探索将会引起新一轮的产业调整，但是集体化之后农民的个体的话语权将更少，国家应出台相应的法律法规保护
Spring注入有继承关系的类（1） bijian1013 java spring
一个类一个类的注入 1.AClass类 package com.bijian.spring.test2; public class AClass { String a; String b; public String getA() { return a; } public void setA(Strin
30岁转型期你能否成为成功人士 bijian1013 成功
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
[Velocity三]基于Servlet+Velocity的web应用 bit1129 velocity
什么是VelocityViewServlet 使用org.apache.velocity.tools.view.VelocityViewServlet可以将Velocity集成到基于Servlet的web应用中，以Servlet+Velocity的方式实现web应用 Servlet + Velocity的一般步骤 1.自定义Servlet，实现VelocityViewServl
【Kafka十二】关于Kafka是一个Commit Log Service bit1129 service
Kafka is a distributed, partitioned, replicated commit log service.这里的commit log如何理解？ A message is considered "committed" when all in sync replicas for that partition have applied i
NGINX + LUA实现复杂的控制 ronin47 lua nginx 控制
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-14.输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字 bylijinnan java
public class TwoElementEqualSum { /** * 第 14 题：题目：输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字。要求时间复杂度是 O(n) 。如果有多对数字的和等于输入的数字，输出任意一对即可。例如输入数组 1 、 2 、 4 、 7 、 11 、 15 和数字 15 。由于
Netty源码学习-HttpChunkAggregator-HttpRequestEncoder-HttpResponseDecoder bylijinnan java netty
今天看Netty如何实现一个Http Server org.jboss.netty.example.http.file.HttpStaticFileServerPipelineFactory： pipeline.addLast("decoder", new HttpRequestDecoder()); pipeline.addLast(&quo
java敏感词过虑-基于多叉树原理 cngolon 违禁词过虑替换违禁词敏感词过虑多叉树
基于多叉树的敏感词、关键词过滤的工具包，用于java中的敏感词过滤 1、工具包自带敏感词词库，第一次调用时读入词库，故第一次调用时间可能较长，在类加载后普通pc机上html过滤5000字在80毫秒左右，纯文本35毫秒左右。 2、如需自定义词库，将jar包考入WEB-INF工程的lib目录，在WEB-INF/classes目录下建一个 utf-8的words.dict文本文件，
多线程知识 cuishikuan 多线程
T1，T2，T3三个线程工作顺序，按照T1，T2，T3依次进行 public class T1 implements Runnable{ @Override
spring整合activemq dalan_123 java spring jms
整合spring和activemq需要搞清楚如下的东东1、ConnectionFactory分： a、spring管理连接到activemq服务器的管理ConnectionFactory也即是所谓产生到jms服务器的链接 b、真正产生到JMS服务器链接的ConnectionFactory还得
MySQL时间字段究竟使用INT还是DateTime？ dcj3sjt126com mysql
环境：Windows XPPHP Version 5.2.9MySQL Server 5.1 第一步、创建一个表date_test（非定长、int时间） CREATE TABLE `test`.`date_test` (`id` INT NOT NULL AUTO_INCREMENT ,`start_time` INT NOT NULL ,`some_content`
Parcel: unable to marshal value dcj3sjt126com marshal
在两个activity直接传递List<xxInfo>时，出现Parcel: unable to marshal value异常。在MainActivity页面（MainActivity页面向NextActivity页面传递一个List<xxInfo>）： Intent intent = new Intent(this, Next
linux进程的查看上（ps） eksliang linux ps linux ps -l linux ps aux
ps:将某个时间点的进程运行情况选取下来转载请出自出处：http://eksliang.iteye.com/admin/blogs/2119469 http://eksliang.iteye.com ps 这个命令的man page 不是很好查阅，因为很多不同的Unix都使用这儿ps来查阅进程的状态，为了要符合不同版本的需求，所以这个
为什么第三方应用能早于System的app启动 gqdy365 System
Android应用的启动顺序网上有一大堆资料可以查阅了，这里就不细述了，这里不阐述ROM启动还有bootloader，软件启动的大致流程应该是启动kernel -> 运行servicemanager 把一些native的服务用命令启动起来（包括wifi, power, rild, surfaceflinger, mediaserver等等）-> 启动Dalivk中的第一个进程Zygot
App Framework发送JSONP请求(3) hw1287789687 jsonp 跨域请求发送jsonp ajax请求越狱请求
App Framework 中如何发送JSONP请求呢? 使用jsonp,详情请参考:http://json-p.org/ 如何发送Ajax请求呢? (1)登录 /*** * 会员登录 * @param username * @param password */ var user_login=function(username,password){ // aler
发福利，整理了一份关于“资源汇总”的汇总 justjavac 资源
觉得有用的话，可以去github关注：https://github.com/justjavac/awesome-awesomeness-zh_CN 通用 free-programming-books-zh_CN 免费的计算机编程类中文书籍精彩博客集合 hacke2/hacke2.github.io#2 ResumeSample 程序员简历
用 Java 技术创建 RESTful Web 服务 macroli java 编程 Web REST
转载：http://www.ibm.com/developerworks/cn/web/wa-jaxrs/ JAX-RS (JSR-311) 【 Java API for RESTful Web Services 】是一种 Java™ API，可使 Java Restful 服务的开发变得迅速而轻松。这个 API 提供了一种基于注释的模型来描述分布式资源。注释被用来提供资源的位
CentOS6.5-x86_64位下oracle11g的安装详细步骤及注意事项超声波 oracle linux
前言：这两天项目要上线了，由我负责往服务器部署整个项目，因此首先要往服务器安装oracle，服务器本身是CentOS6.5的64位系统，安装的数据库版本是11g，在整个的安装过程中碰到很多的坑，不过最后还是通过各种途径解决并成功装上了。转别写篇博客来记录完整的安装过程以及在整个过程中的注意事项。希望对以后那些刚刚接触的菜鸟们能起到一定的帮助作用。安装过程中可能遇到的问题（注
HttpClient 4.3 设置keeplive 和 timeout 的方法 supben httpclient
ConnectionKeepAliveStrategy kaStrategy = new DefaultConnectionKeepAliveStrategy() { @Override public long getKeepAliveDuration(HttpResponse response, HttpContext context) { long keepAlive
Spring 4.2新特性-@Import注解的升级 wiselyman spring 4
3.1 @Import @Import注解在4.2之前只支持导入配置类在4.2,@Import注解支持导入普通的java类,并将其声明成一个bean 3.2 示例演示java类 package com.wisely.spring4_2.imp; public class DemoService { public void doSomethin