wtflovecmt

大数据常用各组件优势特点及应用场景

1 Hadoop生态圈各常用组件介绍
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。具有可靠、高效、可伸缩的特点。
Hadoop的核心是YARN,HDFS和MapReduce。Hdfs是分布式文件存储系统，用于存储海量数据；MapReduce是并行处理框架，实现任务分解和调度。Hadoop可以用来搭建大型数据仓库，对海量数据进行存储、分析、处理和统计等。
1.1 HDFS
Hdfs是hadoop的核心组件，hdfs上的文件被分成块进行存储，默认块的大小是64M，块是文件存储处理的逻辑单元。
HDFS是Master和Slave的结构。分NameNode、SecondaryNameNode、DataNode这几个角色。
NameNode：是Master节点，管理数据块映射，处理客户端的读写请求，配置副本策略，管理HDFS的名称空间；
SecondaryNameNode：是NameNode的冷备份，分担NameNode的工作量，合并fsimage和fsedits然后再发给NameNode，定期同步元数据映像文件和修改日志，当NameNode发生故障时，备份转正。
DataNode：是Slave节点，负责存储client发来的数据块block，执行数据块的读写操作，定期向NameNode发送心跳信息。
1.1.1 Hdfs的特点
a) 数据冗余，硬件容错，每个数据块有三个备份；
b) 流式的数据访问，数据写入不易修改；
c) 适合存储大文件，小文件会增加NameNode的压力。
1.1.2 Hdfs的适用性与局限性
a) 适合数据批量读写，吞吐量高；
b) 不适合做交互式应用，低延迟很难满足；
c) 适合一次写入多次读取，顺序读写；
d) 不支持多用户并发写相同文件。
1.1.3 使用场景
数据存储分析
HDFS有完善的生态，可快速的导入数据到HDFS存储起来，在HDFS的基础上进行分析处理。
历史数据备份
HDFS可轻松扩展到PB、EB级别的大容量，高吞吐量，容错性保证数据安全。
1.2 MapReduce
MapReduce的工作原理用一句话概括就是，分而治之，然后归约，即将一个大任务分解为多个小任务（map），并行执行后，合并结果（reduce）。
整个MapReduce的过程大致分为Map–>Shuffle（排序）–>Combine（组合）–>Reduce。

a) 将文件拆分成splits(片)，并将每个split按行分割形成对。这一步由MapReduce框架自动完成，其中偏移量即key值；
b) 将分割好的对交给用户定义的map方法进行处理，生成新的对；
c) 得到map方法输出的对后，Mapper会将它们按照key值进行Shuffle（排序），并执行Combine过程，将key值相同得value值累加，得到Mapper的最终输出结果；
d) Reducer先对从Mapper接收的数据进行排序，再交由用户自定义的reduce方法进行处理，得到新的对。
1.3 YARN
YARN是Hadoop 2.0中的资源管理系统，它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务：一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。其中ResourceManager负责整个系统的资源管理和分配，而ApplicationMaster负责单个应用程序的管理。
YARN总体上仍然是Master/Slave结构，在整个资源管理框架中，ResourceManager为Master，NodeManager为Slave，ResourceManager负责对各个NodeManager上的资源进行统一管理和调度。当用户提交一个应用程序时，需要提供一个用以跟踪和管理这个程序的ApplicationMaster，它负责向ResourceManager申请资源，并要求NodeManger启动可以占用一定资源的任务。由于不同的ApplicationMaster被分布到不同的节点上，因此它们之间不会相互影响。
1.3.1 ResourceManager（RM）
RM是一个全局的资源管理器，负责整个系统的资源管理和分配。它主要由两个组件构成：调度器（Scheduler）和应用程序管理器（Applications Manager，ASM）。
（1）调度器
调度器根据容量、队列等限制条件（如每个队列分配一定的资源，最多执行一定数量的作业等），将系统中的资源分配给各个正在运行的应用程序。
需要注意的是，该调度器是一个“纯调度器”，它不再从事任何与具体应用程序相关的工作，比如不负责监控或者跟踪应用的执行状态等，也不负责重新启动因应用执行失败或者硬件故障而产生的失败任务，这些均交由应用程序相关的ApplicationMaster完成。调度器仅根据各个应用程序的资源需求进行资源分配，而资源分配单位用一个抽象概念“资源容器”（ResourceContainer，简称Container）表示，Container是一个动态资源分配单位，它将内存、CPU、磁盘、网络等资源封装在一起，从而限定每个任务使用的资源量。此外，该调度器是一个可插拔的组件，用户可根据自己的需要设计新的调度器，YARN提供了多种直接可用的调度器，比如Fair Scheduler和Capacity Scheduler等。
（2）应用程序管理器
应用程序管理器负责管理整个系统中所有应用程序，包括应用程序提交、与调度器协商资源以启动ApplicationMaster、监控ApplicationMaster运行状态并在失败时重新启动它等。
1.3.2 ApplicationMaster（AM）
用户提交的每个应用程序均包含1个AM，主要功能包括：
a) 与RM调度器协商以获取资源（用Container表示）；
b) 将得到的任务进一步分配给内部的任务；
c) 与NM通信以启动/停止任务；
d) 监控所有任务运行状态，并在任务运行失败时重新为任务申请资源以重启任务。
1.3.3 NodeManager（NM）
NM是每个节点上的资源和任务管理器，一方面，它会定时地向RM汇报本节点上的资源使用情况和各个Container的运行状态；另一方面，它接收并处理来自AM的Container启动/停止等各种请求。
1.3.4 Container
Container是YARN中的资源抽象，它封装了某个节点上的多维度资源，如内存、CPU、磁盘、网络等，当AM向RM申请资源时，RM为AM返回的资源便是用Container表示的。YARN会为每个任务分配一个Container，且该任务只能使用该Container中描述的资源。
1.3.5 YARN工作流程
当用户向YARN中提交一个应用程序后，YARN将分两个阶段运行该应用程序：
第一个阶段是启动ApplicationMaster；
第二个阶段是由ApplicationMaster创建应用程序，为它申请资源，并监控它的整个运行过程，直到运行完成。
Step1：用户向YARN中提交应用程序，其中包括ApplicationMaster程序、启动ApplicationMaster的命令、用户程序等；
Step2：ResourceManager为该应用程序分配第一个Container，并与对应的Node-Manager通信，要求它在这个Container中启动应用程序的ApplicationMaster；
Step3：ApplicationMaster首先向ResourceManager注册，这样用户可以直接通过ResourceManager查看应用程序的运行状态，然后它将为各个任务申请资源，并监控它的运行状态，直到运行结束，即重复步骤4~7；
Step4：ApplicationMaster采用轮询的方式通过RPC协议向ResourceManager申请和领取资源；
Step5：一旦ApplicationMaster申请到资源后，便与对应的NodeManager通信，要求它启动任务；
Step6：NodeManager为任务设置运行环境（包括环境变量、JAR包、二进制程序等）后，将任务启动命令写到一个脚本中，并通过运行该脚本启动任务；
Step7：各个任务通过某个RPC协议向ApplicationMaster汇报自己的状态和进度，以让ApplicationMaster随时掌握各个任务的运行状态，从而可以在任务失败时重新启动任务。在应用程序运行过程中，用户可随时通过RPC向ApplicationMaster查询应用程序的当前运行状态；
Step8：应用程序运行完成后，ApplicationMaster向ResourceManager注销并关闭自己。
1.3.6 应用场景
运行各类分布式计算，MapReduce、Spark、Tez、Flink 等分布式计算程序均可以运行在YARN集群中，YARN会为它们提供统一的资源分配及调度。
1.4 Hive
Hive是构建在Hadoop HDFS上的一个数据仓库，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能，其本质是将SQL转换为MapReduce程序。
数据仓库是一个面向主题的、集成的、不可更新的、随时间变化的数据集合，它用于支持企业或组织的决策分析处理。
Hive的表其实就是HDFS的目录/文件。
1.4.1 Hive的体系结构
Hive默认采用的是Derby数据库进行元数据的存储（metastore），也支持mysql数据库。Hive中的元数据包括表的名字，表的列和分区及其属性，表的属性，表的数据所在目录等。

1.4.2 HQL的执行过程
解释器、编译器、优化器完成HQL查询语句从词语分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在HDFS中，并在随后的MapReduce调用执行。
1.4.3 Hive安装的三种模式
a) 嵌入模式，数据存储在hive自带的derby数据库，只允许一个连接，多用于本地演示demo；
b) 本地模式，一般是mysql，与hive位于同一台服务器，允许多连接，但实际生产环境并不用这种模式；
c) 远程模式，mysql安装在远程服务器上，允许多连接，多用于实际生产环境。
1.4.4 Hive的数据类型
a) 基本数据类型
整型：tinyint/smallint/int/bigint
浮点型：float/double
布尔型：Boolean
字符串：string
b) 复杂数据类型
数组类型：Array，有一系列相同数据类型的元素组成
集合类型：Map，包括key->value键值对，可以通过key值访问元素
结构类型：struct，可以包含不同数据类型的元素，可以通过“点语法”的方式获得这些元素
c) 时间类型
Date、Timestamp
1.4.5 hive与关系型数据库的不同
a) hive和关系数据库存储文件的系统不同，hive使用的是hadoop的HDFS（hadoop的分布式文件系统），关系数据库则是服务器本地的文件系统；
b) hive使用的计算模型是mapreduce，而关系数据库则是自己设计的计算模型；
c) 关系数据库都是为实时查询的业务进行设计的，而hive则是为海量数据做数据挖掘设计的，实时性很差；实时性的区别导致hive的应用场景和关系数据库有很大的不同；
d) Hive很容易扩展自己的存储能力和计算能力，这个是继承hadoop的，而关系数据库在这个方面要比数据库差很多。
1.4.6 Hive的优势
a) 面向超大规模数据集：基于Hadoop生态，Hive具有存储和计算的扩展能力，可支持高可达千亿级的数据集查询。。
b) 支持多种数据格式：Hive支持多种格式数据，如纯文本、RCFile、Parquet、ORC等格式，以及HBase中的数据、ES中的数据等。Hive表一般使用ORC和Parquet格式，二者都是列式存储，压缩率很低，查询效率较高。
c) 易于上手：Hive采用HiveSql的查询方式，将HiveSql查询转换为job在Hadoop集群上执行，使用非常方便。
d) 内置大量UDF：Hive内置了大量用户函数UDF来操作时间、字符串和其他的数据挖掘工具，UDF种类非常丰富。
1.4.7 应用场景
大数据集的批处理作业：如网络日志分析，统计网站某一时间段内的pv、uv，多维度的数据分析。
1.5 Zookeeper
ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。
ZooKeeper的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。
ZooKeeper本质上是一个分布式的小文件存储系统。原本是Apache Hadoop的一个组件，现在被拆分为一个Hadoop的独立子项目，在Hbase（Hadoop的另外一个被拆分出来的子项目，用于分布式环境下的超大数据量的DBMS）中也用到了ZooKeeper集群。　
Hadoop，使用Zookeeper的事件处理确保整个集群只有一个NameNode，存储配置信息等.
HBase，使用Zookeeper的事件处理确保整个集群只有一个HMaster，察觉HRegionServer联机和宕机，存储访问控制列表等。
a) 启动ZK服务: sh bin/zkServer.sh start
b) 查看ZK服务状态: sh bin/zkServer.sh status
c) 停止ZK服务: sh bin/zkServer.sh stop
d) 重启ZK服务: sh bin/zkServer.sh restart
1.6 Hbase
1.6.1 HBase简介
HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。
HBase是Google Bigtable的开源实现，类似Google Bigtable利用GFS作为其文件存储系统，HBase利用Hadoop HDFS作为其文件存储系统；Google运行MapReduce来处理Bigtable中的海量数据，HBase同样利用Hadoop MapReduce来处理HBase中的海量数据；Google Bigtable利用 Chubby作为协同服务，HBase利用Zookeeper作为对应。
在hadoop 的各层系统中，HBase位于结构化存储层，Hadoop HDFS为HBase提供了高可靠性的底层存储支持；Hadoop MapReduce为HBase提供了高性能的计算能力；Zookeeper为HBase提供了稳定服务和failover机制（failover 又称故障切换，指系统中其中一项设备或服务失效而无法运作时，另一项设备或服务即可自动接手原失效系统所执行的工作）；Pig和Hive为HBase提供了高层语言支持，使得在HBase上进行数据统计处理变的非常简单； Sqoop则为HBase提供了方便的RDBMS数据导入功能，使得传统数据库数据向HBase中迁移变的非常方便。
Row Key: 行键，Table的主键，Table中的记录按照Row Key排序；
Timestamp: 时间戳，每次数据操作对应的时间戳，可以看作是数据的version number；
Column Family：列簇，Table在水平方向有一个或者多个Column Family组成，一个Column Family中可以由任意多个Column组成，即Column Family支持动态扩展，无需预先定义Column的数量以及类型，所有Column均以二进制格式存储，用户需要自行进行类型转换。
1.6.2 Hbase的特点
a) 易用性：HBase 采用 JAVA 语言编写, 并提供了易于使用的 JAVA API 供客户端访问, 基本能满足开发者的需求。
b) 强一致性：不论是从客户端还是服务端的视角, HBase 都可以确保并发读写情况下的强一致性, WAL机制为此提供了可靠的保证。
c) 可扩展性强：HBase 作为一款分布式数据库, 具有良好的可扩展性, 扩展方便, 可通过集群扩展不断增强集群的存储能力和请求处理能力。
1.6.3 使用场景
a) 要求写操作吞吐量高：HBase 单台 Regionserver 的写 QPS 可以稳定在 2K~3K , 并且可以通过集群扩展不断增强集群的扩展性, 理论上不存在上限。
b) 海量数据持久化：HBase 是分布式数据库, 可以真正存储海量的数据, 真正解决传统关系型数据库的痛点。
c) 大规模数据集中进行随机访问：HBase 是列式存储, 可以保证在大规模数据集情况下依然具有很好的随机访问性能。
d) 无需全部的关系型数据库特性：HBase 不适用于具有join, 多级索引, 表关系复杂的数据模型场景中。
1.7 Sqoop
Hadoop正成为企业用于大数据分析的最热门选择，但想将你的数据移植过去并不容易。Apache Sqoop正在加紧帮助客户将重要数据从数据库移到Hadoop。随着Hadoop和关系型数据库之间的数据移动渐渐变成一个标准的流程，云管理员们能够利用Sqoop的并行批量数据加载能力来简化这一流程，降低编写自定义数据加载脚本的需求。
Apache Sqoop（SQL-to-Hadoop）项目旨在协助 RDBMS 与 Hadoop 之间进行高效的大数据交流。用户可以在 Sqoop 的帮助下，轻松地把关系型数据库的数据导入到 Hadoop 与其相关的系统 (如HBase和Hive)中；同时也可以把数据从 Hadoop 系统里抽取并导出到关系型数据库里。因此，可以说Sqoop就是一个桥梁，连接了关系型数据库与Hadoop。
sqoop中一大亮点就是可以通过hadoop的mapreduce把数据从关系型数据库中导入数据到HDFS。Sqoop架构非常简单，其整合了Hive、Hbase和Oozie，通过map-reduce任务来传输数据，从而提供并发特性和容错。
Sqoop工作机制:Sqoop在import时，需要制定split-by参数。Sqoop根据不同的split-by参数值来进行切分，然后将切分出来的区域分配到不同map中。每个map中再处理数据库中获取的一行一行的值，写入到HDFS中(由此也可知，导入导出的事务是以Mapper任务为单位)。同时split-by根据不同的参数类型有不同的切分方法，如比较简单的int型，Sqoop会取最大和最小split-by字段值，然后根据传入的num-mappers来确定划分几个区域。
2 Flume
Flume 作为cloudera 开发的实时日志收集系统，受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为Flume OG（original generation），属于 cloudera。重构后的版本统称为 Flume NG（next generation）,属于Apache。
2.1 OG与NG比较
架构方面：
Flume OG有三种角色的节点：代理节点agent、收集节点collector、主节点master；
agent负责从各个数据源收集日志数据、将收集到的数据集中到collector,再由collector节点汇总存入到HDFS.而master负责管理agent\collector的活动；
agent、collector都称为node,node的角色根据配置的不同分为逻辑节点和物理节点,对于逻辑节点的区分、配置、使用非常复杂.
agent、collector由source、sink组成,表示当前节点的数据从source传送到sink
以上相对于Flume NG来说:
Flume NG只有一种角色节点：代理节点agent没有collector、master节点,这是最核心的变化.
去除逻辑节点和物理节点的概念和内容
agent节点的组成发生变化,由source、sink、channel三个组件组成。
Zookeeper方面：
Flume OG的稳定性依赖zookeeper,它需要zookeeper对其多类节点的工作进行管理,虽然OG可以使用内存的方式对各类节点进行管理,但需要用户忍受机器出现故障时信息丢失的出现.
Flume NG的节点角色数量由原来的3个缩减为1个,不存在多类角色的问题,所以不再需要zookeeper对各类节点协调的作用,由此脱离了对zookeeper的依赖.
2.2 flume中核心概念
a) Agent
使用JVM 运行Flume。每台机器运行一个agent，但是可以在一个agent中包含多个sources和sinks。
b) Client
生产数据，运行在一个独立的线程。
c) Source
从Client收集数据，传递给Channel。
d) Sink
Channel收集数据，运行在一个独立线程。
e) Channel
连接 sources 和 sinks ，这个有点像一个队列。
f) Events
可以是日志记录、 avro 对象等。
2.3 数据流模型
Flume(水道)以agent为最小的独立运行单位。一个agent就是一个JVM。单agent由Source、Sink和Channel三大组件构成。
Flume的数据流由事件(Event)贯穿始终。事件是Flume的基本数据单位，它携带日志数据(字节数组形式)并且携带有头信息，这些Event由Agent外部的Source，比如上图中的Web Server生成。当Source捕获事件后会进行特定的格式化，然后Source会把事件推入(单个或多个)Channel中。你可以把Channel看作是一个缓冲区，它将保存事件直到Sink处理完该事件。Sink负责持久化日志或者把事件推向另一个Source。很直白的设计，其中值得注意的是，Flume提供了大量内置的Source、Channel和Sink类型。不同类型的Source,Channel和Sink可以自由组合。组合方式基于用户设置的配置文件，非常灵活。比如：Channel可以把事件暂存在内存里，也可以持久化到本地硬盘上。Sink可以把日志写入HDFS, Hbase，甚至是另外一个Source等等。
3 Kafka
3.1 简介和特点
KAFKA是一个分布式的流式平台。特点如下：
a) 弹性扩展：当服务器资源达到限制时候，Kafka 支持在不停服情况下弹性扩容/缩容节点。
b) 大吞吐量：Kafka 支持以增加 partition 个数的方式，来增加整个 topic 的吞吐量。
3.2 使用场景
a) 消息队列：通过 Kafka 作为消息队列，解耦了收消息和发消息的服务，收发过程在毫秒级完成。
b) 海量日志：记录各类访问日志，后端通过顺序读写等技术，增加吞吐量。
4 Presto
Presto是一种分布式SQL查询引擎，用于查询分布在一个或多个异构数据源上的大型数据集。
4.1 Presto的特点
a) 不是数据库：Presto不是传统意义上的数据库，也不是MySQL、PostgreSQL或者Oracle的代替品，它并不存储数据，是一款OLAP分析工具。
b) 多数据源：Presto不仅可以访问HDFS，也可以操作不同的数据源，包括：RDBMS和其他的数据源（例如：Hive、Cassandra）等。一条Presto查询可以将多个数据源的数据进行合并，可以跨越整个组织进行分析。
c) 海量数据：擅长对海量数据(TB或者PB级别)进行复杂的计算分析。
d) 支持SQL：Presto 已经可以完全支持 ANSI SQL，并提供了一个 SQL Shell 给用户，用户可以直接使用ANSI SQL 进行数据查询和计算。
e) 速度快：低延迟高并发的全内存流水线式计算，比Hive快一个数量级。
4.2 使用场景
a) 准实时计算：基准数据若实时更新，Presto可快速完成计算，实现准实时计算的场景。
b) 交互式查询：以SQL语言作为接口的分布式实时查询引擎，可以对PB级的数据进行快速的交互式查询。
5 ClickHouse
ClickHouse 是俄罗斯的Yandex于2016年开源的列式存储数据库（DBMS），主要用于在线分析处理查询（OLAP），能够使用SQL查询实时生成分析数据报告。
5.1 优势特点
a) 快速的明细数据查询：数据按列存储，查询时，将列向量化处并行处理，高效利用cpu，来使用当前服务器上可用的所有资源，充分压榨机器性能，达到亿级数据查询毫秒级返回。
b) 多服务器分布式处理：数据可以保存在不同的shard上，每一个shard都由一组用于容错的replica组成，查询可以并行的在所有shard上进行处理。这些对用户来说是透明的。
5.2 使用场景
a) 高实时性要求
ClickHouse支持在表中定义主键。为了使查询能够快速在主键中进行范围查找，数据总是以增量的方式有序的存储在MergeTree中。因此，数据可以持续不断高效的写入到表中，并且写入的过程中不会存在任何加锁的行为，可达到每秒写入数十万的写入性能；
b) 大规模事件和日志快速分析
clickhouse支持万亿级数据的数据分析需求，达到每秒处理几亿行的吞吐能力，快速返回查询结果；
c) 漏斗分析
clickhouse提供了专用漏斗函数windowFunnel(window)(timestamp, cond1, cond2, cond3, …)，可快速进行漏斗型数据分析；
d) 适合在线查询
没有对数据做任何预处理的情况下以极低的延迟处理查询并将结果加载到用户的页面中。
6 Kudu
Kudu 是一个列式存储管理系统。支持水平可扩展，并具有高可用性特性。
6.1 优势特点
a) 快速的明细数据查询：数据存储在kudu，kudu与Impala紧密集成, impala将谓词下推到kudu，尽可能的接近底层kudu的底层，提高整体查询性能；
b) 高实时性要求：数据可直接低延迟的落入kudu中存储，通过impala进行查询，经内部测试，kudu实时写入性能达到每秒几万条数据。同时数据写入后首先存储在内存，可立即提供查询服务，实时性高；
c) 数据频繁更新：Kudu将底层数据分为base数据文件和delta数据文件，有更新的数据写入delta文件，后期自动做数据的merge，所以支持数据的频繁更新操作。
6.2 使用场景
a) 实时更新的应用：Kudu 通过高效的列式扫描提供了快速插入和更新的强大组合，从而在单个存储层上实现了实时分析用例，刚刚到达的数据就马上能被被终端用户使用访问到；
b) 时间序列应用：kudu可以对某几列数据进行hash分区，将数据均匀的打散在不同节点，对于访问时序数据，不存在热点数据问题，充分利用集群性能。
7 Kylin
Kylin是一个开源的分布式分析引擎，通过预计算构建cube实现快速查询分析。
7.1 优势特点
a) 交互式查询能力：通过Kylin，用户可以在kylin查询页面上与数据进行亚秒级交互，在同样的数据集上提供比Hive更好的性能；
b) kylin Cube多维数据的计算：Cube由多个Cuboid组合而成，Cuboid上的数据是原始数据聚合的数据，因此创建Cube可以看作是在原始数据导入时做的一个预计算预处理的过程。Kylin的强大之处在于充分利用了Hadoop的MapReduce并行处理的能力，高效处理导入的数据。
7.2 应用场景
查询类型比较固定的数据分析：通过固定的查询类型构建cube，将所有的维度组合事先计算，存储于HBase中，以空间换时间，提供快速查询
数据与hadoop紧密结合：数据存于HDFS，利用Hive将HDFS数据以关系数据方式存取，通过构建cube存储于Hbase。
8 Spark
Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。
8.1 优势特点
a) 快速
Spark使用最先进的DAG调度程序，查询优化器和物理执行引擎，实现批处理和流的高性能。与Hadoop的MapReduce相比，Spark基于内存的运算要快100倍以上，而基于磁盘的运算也要快10倍以上；
b) 易用
Spark支持Java、Python和Scala的API，还支持超过80种高级算子，可以轻松构建并行应用程序；
c) 通用
Spark提供了统一的解决方案。Spark可以用于批处理、交互式查询（通用Spark SQL）、流处理（通过Spark Streaming）、机器学习（通过Spark MLlib）和图计算（通过Spark GraphX）。这些不同类型的处理都可以在同一应用中无缝使用；
d) 到处运行
Spark可以使用自带的集群模式运行，也可以在EC2、在Hadoop Yarn上、Mesos上或Kubernetes上运行，同时可以访问HDFS、Alluxio、Cassandra、HBase、Hive及其它上百种数据源中的数据。
8.2 应用场景
a) 批处理
Spark的核心提供了分布式任务调度和基本的I/O功能，提供了基本的程序抽象RDD（弹性分布式数据集）。RDD是一个可以并行操作并有容错机制的数据集合，简化了编程复杂性，操纵RDD的方法类似于操纵本地数据集合。另外Spark SQL提供了领域特定语言，可使用Scala、Java或Python来操纵DataFrame/DataSet。这些都可用于批处理；
b) 交互式查询或执行代码
Spark Thriftserver支持使用命令行界面和ODBC/JDBC服务器执行SQL。而交互式的Python和Scala的Shell可以使用Spark集群来验证解决问题的方法，而不是像以前一样，需要打包、上传集群、验证等；
c) 流式计算
Spark Streaming充分利用Spark核心的快速调度能力来运行流分析。它截取小批量的数据并对之运行RDD转换。这种设计使流分析可在同一个引擎内使用同一组为批量分析编写而撰写的应用程序代码；
d) 机器学习
MLlib是Spark上分布式机器学习框架，可使用许多常见的机器学习和统计算法，简化大规模机器学习时间；
e) 图形处理
GraphX是Spark上的分布式图形处理框架。它提供了一组API，可用于表达图表计算并可以模拟Pregel抽象化。GraphX还对这种抽象化提供了优化运行。
9 Flink
Flink 是一个面向分布式数据流处理和批量数据处理的开源计算平台，在流式处理方面具有高吞吐、低延迟、高性能的特点，支持Exactly-once语义、高度灵活的窗口操作、event time等等。
9.1 优势特点
a) 快速
快，是Flink的主要特点。利用基于内存的数据流，并将迭代处理算法深度集成到系统的运行时中，这样，Flink使得系统能够以极快的速度处理数据密集型和迭代任务；
b) 可靠
轻量级分布式快照（Snapshot）实现的容错，在流处理失败时，通过这些Snapshot可以恢复数据流处理，支持Exactly-once语义；
c) 强大
灵活的窗口，丰富的表达能力，基于事件时间处理机制配合水位线功能可以有效地处理乱序流、解决消息延迟的问题；
d) 易用
面向用户提供了简单的DataStream和table sql API，在无需进行任何配置的情况下，Flink就可以运行在Yarn上。
9.2 应用场景
a) 实时ETL
对事实表的每一条新增记录进行转化计算，同时join维度表来扩充记录字段，将数据清洗延迟控制在秒以内；
b) 实时监控报警
对重要的事件做实时处理统计，动态获取报警规则，针对报警事件进行自定义处理；
c) 统计网站PV，UV
在大数据量下，传统数据库或者HADOOP（hbase…）的count效率都不高。使用flink对用户访问记录增量做实时的窗口计算，提供更高的吞吐和更低的延时；
d) 风控安全管理
使用CEP自定义匹配规则用来检测无尽数据流中的复杂事件。例如在安全应用中侦测异常行为；在金融应用中查找价格、交易量和其他行为的模式。

你可能感兴趣的:(大数据各组件总结)

所有指标全面领先！图像-点云配准最新SOTA！CoFiI2P详细介绍！ 3Ｄ视觉工坊 3D视觉从入门到精通 SLAM 自动驾驶 3D视觉
作者：大森林|来源：3D视觉工坊在公众号「3D视觉工坊」后台，回复「原论文」可获取论文pdf。添加微信：dddvisiona，备注：3D点云，拉你入群。文末附行业细分群。1.笔者总结本文介绍了CoFiI2P，这是一种新颖的图像到点云（I2P）配准网络。传统的I2P配准方法通常在点到像素级别估计对应关系，但忽略了全局关系，这往往导致陷入局部最优解。为了解决这个问题，CoFiI2P采用分层的方式提取对
用SpringBoot+mysql+html实现ATM 系统总结与扩展 SAFE20242034 #一 SpringBoot spring boot mysql html
这里写目录标题ATM系统总结与扩展项目概述主要功能模块1.用户注册2.用户登录3.账户查询4.存款与取款5.转账6.修改密码7.销户系统改进建议功能扩展技术优化完整代码实现数据库表设计后端代码（SpringBoot示例）1.Account实体类2.AccountRepository接口3.AccountController类前端代码（HTML+JavaScript示例）实际开发与部署步骤**1.开
Spring MVC学习笔记万般滋味皆生活后端开发 spring springmvc
文章目录SpringMVC什么是MVC设计模式？SpringMVC的核心组件SpringMVC的工作流程如何使用？SpringMVC注解SpringMVC数据绑定SpringMVC模型数据解析SpringMVC自定义数据转换器SpringMVCREST特点如何使用SpringMVC文件上传下载SpringMVC表单标签库常用的表单标签SpringMVC数据校验SpringMVCSpringMVC是
python多线程并发加速 AI算法网奇 python宝典 mysql python基础数据库
目录python多线程并发加速多线程例子打印线程号，进程号由于Python的全局解释器锁（GIL）限制，在CPU密集型任务中多线程的效果并不理想，但对于I/O密集型任务，多线程仍然是有效的。python多线程并发加速python多线程并发遍历数据库，然后查询历史记录，然后分析数据查询100ms，这时需要3分钟，加了并发处理后，需要1.2分钟后来数据库加了索引，需要6秒就可以了，总结：加索引能带来3
Unity中Tilemap Layer详解天天进步2015 编程技巧 unity 游戏引擎
Unity中TilemapLayer详解在Unity中，Tilemap的Layer用于管理和组织Tilemap中的瓷砖（Tiles），允许你在同一个场景中创建多个重叠的Tilemap层，以便更灵活地处理不同的图层效果，如背景、前景和碰撞层等。以下是详细的说明和示例：什么是Tilemap的Layer在Unity中，TilemapLayer是指在同一个Grid组件下的不同Tilemap对象，每个Til
【React】React中将 Props 传递给组件笨鸟程序员 react 前端技术前端 javascript react.js
当使用React时，props是组件之间传递数据的主要方式。以下是针对您提到的五个问题的详细解答：1.如何向组件传递props在父组件中，你可以通过组件标签的属性（attributes）将props传递给子组件。这些属性在子组件内部可以通过props对象来访问。functionParentComponent(){constname='Alice';constage=30;return();}fun
react学习 guhy fighting react react.js 学习前端
react框架的选择低代码、BI前瞻性bs架构，网页客户端去使用react就是用来代替DOM的，dom操作，构建前端界面的react-native直接开发ios，安卓，原生应用虚拟dom，操作react，影响dom，中间人现在的dom和当前的dom做比较看哪个发生了变化，做最小的修改1、虚拟dom2、兼容性3、性能好，避免做一些多余的操作声明式编程：结果为导向命令式编程：过程为导向基于组件开发，组
Android知识点目录迷路啦 Android android java 知识点
本人参考了一本书籍，但是那本书比较“坑”，没有很详细的介绍各个知识点，都还需要别人去单独搜索查询详细资料，那这本书实际就只是来了解个目录了。。。持续更新中...第1章Android触摸事件传递机制1.1触摸事件的类型1.2事件传递的三个阶段1.3View的事件传递机制1.4ViewGroup的事件传递机制触摸事件的分析与总结第2章AndroidView的绘制流程2.1绘制的整体流程2.2Measu
Synthesia技术浅析（四）：自然语言处理爱研究的小牛 AIGC—视频 AIGC—虚拟现实 AIGC—自然语言处理自然语言处理人工智能 AIGC
Synthesia的自然语言处理（NLP）模块是其核心技术之一，涵盖了文本转语音（TTS）、情感分析以及多语言支持等多个方面。一、文本转语音（TTS）1.关键组件Synthesia的TTS系统主要依赖于Tacotron2和WaveGlow模型。这些模型共同作用，将文本转换为高质量的语音。2.过程模型详解2.1文本预处理文本预处理是TTS的第一步，包括分词、标点符号处理、数字和日期格式转换等。分词（
【Vue3】defineExpose 正宗咸豆花 vue.js javascript 前端
【Vue3】defineExposedefineExpose是Vue3.2引入的一个新API，它是的配套API之一。在中，所有定义的变量和函数默认是私有的，不能从组件外部访问。如果你想让外部组件访问到内定义的属性或方法，你需要使用defineExpose显式地暴露它们。这是defineExpose的基本用法：import{defineExpose}from'vue'//...定义响应式数据、函数等
【React系列】父子组件通信—props属性传值川峰 React React props传值
本文来自#React系列教程：https://mp.weixin.qq.com/mp/appmsgalbum?__biz=Mzg5MDAzNzkwNA==&action=getalbum&album_id=1566025152667107329)一.认识组件的嵌套组件之间存在嵌套关系：在之前的案例中，我们只是创建了一个组件App；如果我们一个应用程序将所有的逻辑都放在一个组件中，那么这个组件就会变
基础渗透测试实验—永恒之蓝漏洞复现锅盖'awa' 网络安全小白之路 linux windows 系统安全安全性测试
文章目录概述一、漏洞简述二、组件概述三、漏洞影响四、漏洞复现4.1环境搭建4.2复现过程：1.查看上线主机2.使用Metasploit（MSF）工具3.选择一个编码技术，用来绕过杀毒软件的查杀4.远程控制目标机缓解措施概述永恒之蓝是指2017年4月14日晚，黑客团体ShadowBrokers（影子经纪人）公布一大批网络攻击工具，其中包含“永恒之蓝”工具，“永恒之蓝”利用Windows系统的SMB漏
如何使⽤props在React组件之间传递数据？程序员玫玫前端场景面试题-React篇 react.js 前端 javascript 前端框架面试深度学习
在React中，props（属性）是组件之间传递数据的主要⽅式。props是⽗组件向⼦组件传递数据的⼀种机制。以下是使⽤props在React组件之间传递数据的步骤：1.定义⽗组件：在⽗组件中，你可以在渲染⼦组件时，通过属性（即props）传递数据。functionParentComponent(){constname='Alice';constage=30;return(HellofromPar
Vue.js组件开发-实现导出PDF文件可自定义添加水印及水印样式方向 LCG元前端 vue.js pdf javascript
使用Vue实现导出PDF文件并添加水印，同时支持设置水印样式、方向和自定义水印内容。步骤安装依赖：使用html2canvas将HTML内容转换为canvas，使用jspdf生成PDF文件。创建Vue组件：在组件中实现水印生成、HTML转canvas、canvas转PDF的功能。设置水印样式和方向：支持自定义水印内容、字体、颜色、透明度、旋转角度等。导出PDF文件：将带有水印的HTML内容导出为PD
YOLOv11小白的进击之路（六）创新YOLO的iou及损失函数时的源码分析水静川流 YOLO YOLO pytorch yolo 计算机视觉人工智能 python
iou或者说是损失函数的修改经常作为论文的创新点之一，那这篇文章就总结分析了在对YOLO11进行损失函数创新时需要关注的源代码，新的一年祝大家论文与财都发发发！总的来看需要关注三个函数，分别位于YOLO庞大源码的不同文件，下面逐一分析：bbox_iou函数bbox_iou函数位于/ultralytics-main/ultralytics/utils/metrics.py，这个函数的目的是计算两个边
MongoDB 大俗大雅，上来问分片真三俗 -- 4 分什么分 Austindatabases mongodb 数据库
开头还是介绍一下群，如果感兴趣PolarDB,MongoDB,MySQL,PostgreSQL,Redis,OceanBase,SqlServer等有问题，有需求都可以加群群内有各大数据库行业大咖，可以解决你的问题。加群请联系liuaustin3，（共2710人左右1+2+3+4+5+6+7+8+9）(123456群均已爆满，7群400+，开8群9群)这是MongoDB宣传周的第五篇，这周真漫长，
大数据技术在数据安全治理中的应用罗思付之技术屋综合技术探讨及方案专栏大数据
摘要面对新形势下的数据安全治理挑战，顺应数据安全领域的技术发展趋势，针对大型国企在数据安全治理实际应用中突出的关键权限人员识别问题，提出了一种基于图算法的关键权限人员识别技术。该技术可以发现系统中潜在的权限影响因素，并可从多个角度衡量不同含义的权重影响力，识别结果可解释性强。针对数据安全治理中的用户与实体行为异常检测问题，提出一种基于生成对抗网络的用户与实体行为异常检测方法，实验结果表明，所提方法
【自动化】深度解析仓库存储UI自动化从零开始的-CodeNinja之路自动化 ui log4j
目录一、分层测试1.1单元(Unit)测试1.2接口（Service/服务/API）测试1.3集成（UI）测试1.4分层测试总结二、UI自动化2.1UI自动化作用2.2UI自动化优点2.3UI自动化缺点三、常见的UI自动化框架分析3.1Cypress和Selenium用户量对比3.2Cypress和Selenium实现架构对比3.3Cypress和Selenium环境框架对比四、如何做好UI自动化
GraphRAG、Naive RAG框架总结主流框架推荐(共23个)：LightRAG、nano-GraphRAG、Fast-GraphRAG、Dify、RAGflow等汀、人工智能 LLM工业级落地实践 LLM技术汇总人工智能 RAG 检索系统搜索推荐检索增强生成 Graph RAG Dify
设想你正致力于构建一个智能问答系统，该系统旨在从庞大的知识库中迅速而精确地提取关键信息，并据此生成自然流畅的回答。然而，随着数据规模的不断扩大，系统面临着严峻的挑战：检索效率逐渐下滑，生成内容的质量亦趋于下降。这正是当前众多检索增强型生成（RAG）系统亟需解决的核心问题——如何在数据冗余、检索效率低下以及生成内容不相关之间找到一个最佳的平衡点。RAG的发展瓶颈:传统RAG系统通过检索模型提取最相关
Mybatis-Flex的魅力星空宇航员 mybatis 数据库
目录一、Mybatis-Flex是什么？二、Mybatis-Flex的有什么特点？三、Mybatis-Flex和同类框架对比1）功能对比2）性能对比1.测试单条数据2.测试列表(List)数据查询3.分页查询4.数据更新总结四、Mybatis-Flex支持的数据库类型五、入门案例1.创建数据库2.创建SpringBoot项目，并添加Maven依赖3.对SpringBoot项目进行配置4.编写实体类
Kafka原理总结 DEMOAHUI mq中间件 kafka
Kafka是一个开源的分布式流式处理平台，在这个平台上可以发布、订阅以及处理数据流，具有强大的吞吐能力，让Kafka成为了一个高性能的发布与订阅消息系统一：概念理解Broker部署Kafka进程的服务被称之为Broker，Broker会接收Producer的消息，持久化到本地，然后Comsumer通Pull的形式进行消息拉取，通常使用集群的形式进行部署Producer生产者，即发送消息的一方，往B
阿里巴巴大数据系统体系架构大连赵哥大数据架构
数据应用层：这是最顶层，面向不同的用户群体提供服务，包括对内（公司内部使用）、对平台（平台用户）、对商家（商家使用）、对公众（普通消费者）。数据服务与基础工具层：这一层提供了一些基础服务和工具，例如：OneService：可能是一种服务或工具，用于统一数据服务。TDDL+MySQL：TDDL是淘宝分布式数据层的缩写，与MySQL结合使用，提供数据库服务。HBase：一个分布式列存储系统，适合于存储
【笔记】从华为云看4P理论的卓越践行者通信_楠木笔记华为云系统架构用户运营产品运营产品经理
在当今竞争激烈的云计算市场中，华为云犹如一颗明星取得了令人瞩目的成绩。其成功的背后，离不开对4P营销理论——产品（Product）、价格（Price）、渠道（Place）、促销（Promotion）的巧妙运用与深度融合。这一经典的营销理论框架，在华为云的市场战略布局中被赋予了新的活力与内涵，下面就结合最近的学习总结，让我们深入探究华为云是如何运用4P营销理论书写其辉煌篇章的。学习是一种愉悦，一种收
【学习笔记总结】华为云：应用上云后的安全规划及设计通信_楠木学习笔记华为云架构云计算安全架构
一、背景和问题数字化时代，随着信息技术的飞速发展，企业和各类组织纷纷将自身的应用程序迁移至云端。云计算凭借其诸多优势，如成本效益、可扩展性、灵活性以及便捷的资源共享等，已然成为了现代业务运营的重要支撑。今年，我所在企业也将IT系统全面迁移上XX云，究其原因是为了在激烈的市场竞争中保持敏捷性和创新性，需要快速部署新的应用并实现高效的数据处理，云平台提供的丰富资源和便捷的服务模式使其能够迅速满足这些需
Python-作业统计管理系统 Vicky__3021 Python实例 python 编程语言
目录一、设计目的二、需求分析三、总体设计1.系统流程设计2.系统模块设计四、详细设计1.模块选择2.界面设计3.模块实现五、总结六、感想七、Python源码mainexcelhandlejob一、设计目的1、教学目的本课程设计是学生学习完《Python程序设计》课程后，进行的一次全面的综合训练，通过课程设计，更好地掌握使用Python语言进行程序设计的方法，加深对Python语言特点和使用Pyth
【Numpy核心编程攻略：Python数据处理、分析详解与科学计算】1.24 随机宇宙：生成现实世界数据的艺术精通代码大仙 numpy python numpy python 开发语言
1.24随机宇宙：生成现实世界数据的艺术目录随机宇宙：生成现实世界数据的艺术引言复杂联合分布的采样技巧随机游走的蒙特卡洛实现基于物理规律的生成模型随机数在加密中的应用总结参考文献引言复杂联合分布的采样技巧随机游走的蒙特卡洛实现基于物理规律的生成模型随机数在加密中的应用总结参考文献随机数生成分布采样物理模拟密码学应用多元正态分布随机过程布朗运动流体动力学安全随机数随机性检验1.24.1引言在数据科学
微信小程序压缩图片及上传至云存储视图猿人小程序 canvas 小程序
微信小程序压缩图片及上传至云存储目的：将选择的任意图片压缩，给定压缩后的图片高度宽度最大值并保证同比例压缩，最后上传至微信云存储。思路：1使用wx.compressImage函数此函数只对jpg图片有效，其他图片格式不行；2使用canvas组件，先将图片绘制到canvas中:调用canvas.dragImage和canvas.draw函数，然后利用wx.canvasToTempFilePath将c
SpringBoot中运行Yolov5程序 eqa11 spring boot YOLO 后端
文章目录SpringBoot中运行Yolov5程序一、引言二、环境搭建1、SpringBoot项目创建2、YOLOv5环境配置三、SpringBoot与YOLOv5集成1、创建Python服务2、SpringBoot调用Python服务四、使用示例1、创建控制器五、总结SpringBoot中运行Yolov5程序一、引言在人工智能领域，目标检测是一个热门且实用的技术。YOLOv5作为目标检测算法中的
Java中运行Python程序 eqa11 python java 开发语言
文章目录Java中运行Python程序一、引言二、使用Jython运行Python程序1、Jython简介1.1、添加Jython依赖2、编写Java代码调用Python三、使用进程间通信运行Python程序1、原理2、编写Python脚本3、编写Java代码四、使用JNI运行Python程序1、JNI简介2、编写JNI代码3、编写Python脚本4、在Java中调用JNI库五、使用示例六、总结J
Transformer架构原理详解：残差连接和层归一化（Residual Connection an AI天才研究院 AI大模型企业级应用开发实战 Python实战大数据AI人工智能 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
《Transformer架构原理详解：残差连接和层归一化（ResidualConnectionandLayerNormalization）》文章关键词Transformer残差连接层归一化自注意力机制序列模型编码器与解码器摘要本文将深入解析Transformer架构的核心原理，特别是残差连接和层归一化技术。通过详细阐述这些关键组件的作用、数学模型和具体实现，读者将能够理解Transformer在处
PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那