亖嘁

再见以前说再见大数据计算框架复习

web 方式查看 hdfs 目录结构的地址是：http://主机名:50070

.
linux下存放公钥信息的是 id_rsa.pub 文件，放在 .ssh 目录下

.
下列可以实现定时任务调度的包括：Crontab、Oozie、Azkaban。
Hive 不可以实现定时任务调度。

.
hadoop配置文件（如：core-site.xml、hdfs-site.xml）在${HADOOP_HOME}/etc/hadoop 目录下

.
Hadoop1.0默认的调度器策略是：先进先出调度器

.
HDFS1.0 默认 Block Size大小是：64 MB

.
HBase 是 Bigtable 的开源实现

.
非关系型数据库：NoSql、Cloudant、MongoDB、redis、HBase
关系型数据库：Oracle、DB2、PostgreSQL、Microsoft SQL Server、Microsoft Access、MySQL、浪潮K-DB 等

.
NoSQL 类型：键值数据库、列族数据库、文档数据库和图形数据库
NoSQL 数据库的特点：灵活的可扩展性、灵活的数据类型、与云计算紧密耦合

.
非关系型数据库兴起原因：

关系数据库已经无法满足Web2.0的需求。主要表现在以下几个方面：

无法满足海量数据的管理需求
无法满足数据高并发的需求
无法满足高可扩展性和高可用性的需求

“One size fits all”模式很难适用于截然不同的业务场景

关系模型作为统一的数据模型既被用于数据分析，也被用于在线业务。但这两者一个强调高吞吐，一个强调低延时，已经演化出完全不同的架构。用同一套模型来抽象显然是不合适的
Hadoop就是针对数据分析
MongoDB、Redis等是针对在线业务，两者都抛弃了关系模型

关系数据库的关键特性包括完善的事务机制和高效的查询机制。但是，关系数据库引以为傲的两个关键特性，到了Web2.0时代却成了鸡肋，主要表现在以下几个方面：

Web2.0网站系统通常不要求严格的数据库事务
Web2.0并不要求严格的读写实时性
Web2.0通常不包含大量复杂的SQL查询（去结构化，存储空间换取更好的查询性能）

.
NoSQL 数据库与关系数据库比较：

关系数据库优劣：

优势：以完善的关系代数理论作为基础，有严格的标准，支持事务ACID四性，借助索引机制可以实现高效的查询，技术成熟，有专业公司的技术支持
劣势：可扩展性较差，无法较好支持海量数据存储，数据模型过于死板、无法较好支持 Web2.0 应用，事务机制影响了系统的整体性能等。

NoSQL 数据库优劣：

优势：可以支持超大规模数据存储，灵活的数据模型可以很好地支持 Web2.0 应用，具有强大的横向扩展能力等
劣势：缺乏数学理论基础，复杂查询性能不高，大都不能实现事务强一致性，很难实现数据完整性，技术尚不成熟，缺乏专业团队的技术支持，维护较困难等。

关系数据库和 NoSQL 数据库各有优缺点，彼此无法取代

关系数据库应用场景：电信、银行等领域的关键业务系统，需要保证强事务一致性
NoSQL 数据库应用场景：互联网企业、传统企业的非关键业务（比如数据分析）

采用混合架构
案例：亚马逊公司就使用不同类型的数据库来支撑它的电子商务应用

对于“购物篮”这种临时性数据，采用键值存储会更加高效
当前的产品和订单信息则适合存放在关系数据库中
大量的历史订单信息则适合保存在类似 MongoDB 的文档数据库中

.
从 NoSQL 到 NewSQL：

NewSQL 提供了与 NoSQL 相同的可扩展性，而且仍基于关系模型，还保留了极其成熟的 SQL 作为查询语言，保证了 ACID 事务特性。
简单来讲，NewSQL 就是在传统关系型数据库上集成了 NoSQL 强大的可扩展性。
传统的SQL架构设计基因中是没有分布式的，而 NewSQL 生于云时代，天生就是分布式架构。

.
非结构化数据：视频监控数据
结构化数据：企业ERP数据、财务系统数据、日志数据

.
Client 端上传文件的时候：Client 端将文件切分为 Block，依次上传

.
Hadoop 不支持数据的随机读写。
hbase 支持数据的随机读写。

.
NameNode 负责管理元数据信息 metadata，client 端每次读写请求，它都会从内存中读取或会写入 metadata 信息并反馈给 client 端。

.
MapReduce 的 input split 默认是一个 block。

.
MapReduce 适于 PB 级别以上的海量数据离线处理。

.
链式 MapReduce 计算中，对任意一个 MapReduce 作业，Map 和 Reduce 阶段可以有无限个 Mapper，但 Reducer 只能有一个。

.
MapReduce 计算过程中，相同的 key 默认会被发送到同一个 reduce task 处理。

.
HBase 对于空（NULL）的列，不需要占用存储空间，没有则空不存储

.
HBase 有列和列族。

.
大数据特点（4V）：数据量大（Volume）、数据类型繁多（Variety）、处理速度快（Velocity）、价值密度低（Value）。

.
大数据计算模式有哪些，针对什么问题，代表产品：

批处理计算：针对大规模数据的批量处理。MapReduce、Spark 等
流计算：针对流数据的实时计算。Storm、S4、Flume、Streams、Puma、DStream、Super Mario、银河流数据处理平台等
图计算：针对大规模图结构数据的处理。Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb 等
查询分析计算：大规模数据的存储管理和查询分析。Dremel、Hive、Cassandra、Impala 等

.
大数据的构成：结构化数据、半结构化数据、非结构化数据

.
大数据与云计算、物联网的关系：

云计算为大数据提供技术基础，大数据为云计算提供用武之地
物联网为云计算提供应用空间，云计算技术为物联网提供海量数据存储能力
物联网是大数据的重要来源，大数据技术为物联网数据分析提供支撑

.
名词解释：HDFS，Map/Reduce，Yarn

分布式文件系统 HDFS（Hadoop Distributed File System）是一个类似于GoogleGFS 的开源的分布式文件系统。它提供了一个可扩展、高可靠、高可用的大规模数据分布式存储管理系统，基于物理上分布在各个数据存储节点的本地 Linux 系统的文件系统，为上层应用程序提供了一个逻辑上成为整体的大规模数据存储文件系统。与 GFS 类似，HDFS 采用多副本（默认为 3 个副本）数据冗余存储机制，并提供了有效的数据出错检测和数据恢复机制，大大提高了数据存储的可靠性。
Map/Reduce：分布式计算模型，完成海量数据离线处理。
Yarn：负责整个集群资源的管理和调度。

.
hadoop 和 yarn 启动后，会包含哪些 java 进程？

Jps
hadoop：SecondaryNameNode、NameNode、DataNode
yarn：NodeManager、ResourceManager

.
简述Hadoop安装步骤？
解压并安装安装包，配置 JDK 环境，设置环境变量，修改关键文件，关闭防火墙，设置免密登录，web 方式查看 hdfs 目录结构检查是否可用

.
Hadoop特性（优势）:

高可靠性：采用多副本冗余存储的方式，即使一个副本发生故障，其他副本还可以对外提供服务。
高效性：采用分布式存储和分布式处理两大核心技术，高效地处理 PB 级别的数据。
高可扩展性：高效稳定地运行在廉价的计算机集群上，可以扩展到数以千计的节点。
高容错性：采用冗余存储方式，自动将失败的任务重新分配。
成本低：采用廉价的计算机集群，成本低，普通用户也可以用 pc 搭建 Hadoop 运行环境。
成熟的生态圈：拥有成熟的生态圈，囊括了大数据处理的方方面面。

.
HDFS特点：

数据冗余，硬件容错
适合存储大文件，一次写入，多次读取，顺序读写，不适合多用户并发写相同文件。
适合批量读写，吞吐量高；不适合交互式应用，低延迟很难满足。

.
HDFS数据管理策略：
为了保证数据的容错性和可靠性，HDFS 提供如下管理策略：

每个数据块 3 个副本，分布在两个机架内的三个节点上。
心跳检测：DataNode 定期向 NameNode 发送“心跳”信息，汇报自己的“健康“状态。
SecondaryNameNode 定期同步元数据的映像文件（FsImage）和修改日志（Editlog），当名称节点出错时，就可以根据 SecondaryNameNode 中的 FsImage 和 Editlog 数据进行恢复。

.
数据仓库：

数据仓库是面向主题的、集成的、稳定的，随时间变化的数据集合，用于支持经营管理中决策制定过程。
数据仓库系统的构成：数据仓库（DW）、仓库管理和分析工具。

.
Hive概述：

由 Facebook 开源，用于解决海量结构化日志的数据统计问题。现为 Apache 顶级开源项目（http://hive.apache.org）。
是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类 SQL 查询功能。底层支持多种执行引擎（MR / Tez / Spark）；
Hive 产生背景：MapReduce 门槛高，开发难度大，周期长；传统 RDBMS 人员的需要。
Hive 优缺点：
优势：

解决了传统关系数据库在大数据处理上的瓶颈。适合大数据的批量处理。
充分利用集群的 CPU 计算资源、存储资源，实现并行计算。
Hive 支持标准 SQL 语法，免去了编写 MR 程序的过程，减少了开发成本。
具有良好的扩展性，拓展功能方便。
劣势：
Hive 的 HQL 表达能力有限：有些复杂运算用 HQL 不易表达。
Hive 效率低：Hive 自动生成 MR 作业，通常不够智能；HQL 调优困难，粒度较粗；可控性差。
针对 Hive 运行效率低下的问题，促使人们去寻找一种更快，更具交互性的分析框架。
SparkSQL 的出现则有效的提高了 Sql 在 Hadoop 上的分析运行效率。

Hive 和传统数据库的对比：Hive 和 RDBMS 拥有类似的查询语言和数据存储模型。Hive 用 HDFS 存储数据，使用 HQL 语言，执行延迟高，数据处理规模大

.
Hive 运行机制：

用户通过用户接口连接 Hive，发布 Hive SQL
Hive 解析查询并制定查询计划
Hive 将查询转换成 MapReduce 作业
Hive 在 Hadoop 上执行 MapReduce 作业

.
HBase 概述：

HBase 是一个构建在 HDFS 之上的、分布式的、面向列的开源数据库。
HBase 是 Google BigTable 的开源实现（hbase.apache.org），它主要用于存储海量数据，提供准实时查询（百毫秒级），用于金融、电商、交通、电信等行业。
HBase 是 Hadoop 生态中的一种分布式列式数据库，旨在提供高可靠性、高性能、可扩展性和可伸缩性的数据存储解决方案。

.
HBase 特点：

大：一个表可以有上百亿行，上百万列（一般关系型数据库记录上限 5 百万）
面向列：面向列族的存储和权限控制，列独立检索。
稀疏：对于为空（NULL）的列,并不占用存储空间，因此，表可以设计的非常稀疏。
数据多版本：每个单元中的数据可以有多个版本，默认情况下，版本号自动分配，版本号就是单元格插入时的时间戳。
无模式：每一行都有一个可以排序的主键和任意多的列，列可以根据需要动态增加，同一张表中不同的行可以有截然不同的列。
数据类型单一：HBase 中的数据都是字符串，没有类型。

.
HBase 与关系数据库对比：

数据类型：关系数据库采用关系模型，具有丰富的数据类型和存储方式，HBase 则采用了更加简单的数据模型，它把数据存储为未经解释的字符串。
数据操作：关系数据库中包含了丰富的操作，其中会涉及复杂的多表连接。HBase 操作则不存在复杂的表与表之间的关系，只有简单的插入、查询、删除、清空等，因为 HBase 在设计上就避免了复杂的表和表之间的关系。
存储模式：关系数据库是基于行模式存储的。HBase 是基于列存储的，每个列族都由几个文件保存，不同列族的文件是分离的。
数据索引：关系数据库通常可以针对不同列构建复杂的多个索引，以提高数据访问性能。HBase 只有一个索引——行键，通过巧妙的设计，HBase 中的所有访问方法，或者通过行键访问，或者通过行键扫描，从而使得整个系统不会慢下来
数据维护：在关系数据库中，更新操作会用最新的当前值去替换记录中原来的旧值，旧值被覆盖后就不会存在。而在 HBase 中执行更新操作时，并不会删除数据旧的版本，而是生成一个新的版本，旧有的版本仍然保留
可伸缩性：关系数据库很难实现横向扩展，纵向扩展的空间也比较有限。相反，HBase 和 BigTable 这些分布式数据库就是为了实现灵活的水平扩展而开发的，能够轻易地通过在集群中增加或者减少硬件数量来实现性能的伸缩

.
HBase 数据模型：

Row Key：行的主键，标识一行数据，也称行键，用来检索记录的主键
HBase 表中数据访问的方式：

通过单个 Row Key 访问
通过 Row Key 的 Range
全表扫描

Row Key 行键可以是任意字符串，最大长度 64 K，一般 10 ~ 100 B，保存为字节数组
存储时，数据按照 Row Key 字典序排序

.
HBase 读写流程：
读流程：

客户端向 ZooKeeper 中发送请求
从 ZooKeeper 中拿到 metadata 的存储节点
去存储 metadata 的节点获取对应 region 的所在位置
访问对应的 region 获取数据
先去 memstore 中查询数据，如果有结果，直接返回
如果没有查询到结果，去 blockcache 查找数据，如果找到，直接返回
如果没有找到，去 storefile 中查找数据，并将查询到的结果缓存会 blockcache 中，方便下一次查询
将结果返回给客户端

注意：blockcache 是缓存，有大小限制，会有淘汰机制，默认将最早的数据淘汰

写流程：

client 向 ZooKeeper 发送请求
从 ZooKeeper 中拿到 metadata 的存储节点
去存储 matadata 的节点获取对应 region 所在的位置
访问对应的 region 写数据
首先会向 wal（Write-Ahead-Log）中写数据，写成功之后才会存储到 memstore
当 memstore 中的数据量达到阈值之后，进行溢写，溢写成 storefile
store file 是一个个的小文件，会进行合并（minor，major）
store file 是对 hfile 的封装，hfile 是实际存储再 hdfs 上的数据文件

验证 ZooKeeper 启动是否成功，看有无 QuorumPeerMain 进程。

.
HBase 启动和关闭服务：
启动：

先后启动 zookeeper、hdfs，
再启动 start-hbase.sh

启动后多 2 个进程 HMaser、HRegionServer

关闭：

先 stop-hbase.sh
再 stop-dfs.sh

.
Sqoop 概述：
Sqoop = Sql + Hadoop，是一个基于 Hadoop 与 RDBMS 间的数据传输工具，是Apache 顶级项目。

.
Sqoop 架构：
Sqoop 通过 Map 任务来传输数据，不需要 Reducer。

.
任务调度系统：

为什么需要任务调度系统：
一个完整的数据分析系统通常都是由大量任务单元组成，shell 脚本程序，java 程序，mapreduce 程序、hive 脚本等。各任务单元之间存在时间先后及前后依赖关系，为了很好地组织起这样的复杂执行计划，需要一个工作流调度系统来调度执行。
常见任务调度系统：

简单的任务调度：直接使用 linux 的 crontab 来定义。
复杂的任务调度：开发调度平台或使用现成的开源调度系统，如 Azkaban、Oozie等。

.
可视化概述：

数据可视化是指将大型数据集中的数据以图形图像形式表示，并利用数据分析和开发工具发现其中未知信息的处理过程。
数据可视化技术的基本思想是将数据库中每一个数据项作为单个图元素表示，大量的数据集构成数据图像，同时将数据的各个属性值以多维数据的形式表示，可以从不同的维度观察数据，从而对数据进行更深入的观察和分析

.
可视化工具：

入门级工具：Excel
信息图表工具：Google Chart API、D3、Visual.ly、Tableau、大数据魔镜等。
地图工具：Google Fusion Tables、Modest Maps、Leaflet 等。
时间线工具：Timetoast、Xtimeline 等。
高级分析工具：R、Weka、Gephi 等。

.
ECharts 简介：
ECharts 是一款由百度前端技术部开发的，基于 Javascript 的数据可视化图表库，提供直观，生动，可交互，可个性化定制的数据可视化图表，支持丰富的图表类型，现在是由 Apache 孵化器赞助的 Apache 开源基金会孵化的项目。

.
ECharts 开发环境：
ECharts 图表是嵌入到网页中展现的，我们借助于 JSP 动态网页技术，将数据库中的数据通过 Echarts 展现在网页中。
由于 Centos 中的 Eclipse 运行较慢，开发工作在 Window 下进行，访问的数据库是Centos 下的。

.
MySQL 添加用户：
默认情况下，Mysql 只接受本地客户端的访问，Window 下程序要访问 Mysql，需要授权，我们添加一个 guest 用户，可以远程访问 test 数据库下的所有表。

grant select,insert,update,delete on test.* to guest@“%” identified by “guest”;
identified by “guest”：是设置用户密码的意思

.
Eclipse 下开发 web 项目的步骤有哪些？

下载 tomcat 解压并集成到 eclipse 中；
建立 web project，编写页面；
部署工程，启动服务器，在浏览器中观察页面效果

.
大数据可视化典型案例：

全球黑客活动
互联网地图
编程语言之间的影响力关系图
百度迁徙
世界国家健康与财富之间的关系
3D可视化互联网地图APP

.
Spark 概述：

Spark 简介

Spark 最初由美国加州伯克利大学（UCBerkeley）的 AMP 实验室于 2009 年开发，是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序。
2013 年 Spark 加入 Apache 孵化器项目后发展迅猛，如今已成为 Apache 软件基金会最重要的分布式计算系统开源项目之一。
Spark 在 2014 年打破了 Hadoop 保持的基准排序纪录：
Spark / 206 个节点/ 23 分钟/ 110TB 数据；
Hadoop / 2000 个节点/ 72 分钟/ 110TB 数据；
Spark 用十分之一的计算资源，获得了比 Hadoop 快 3 倍的速度。

Spark 特点

运行速度快：使用 DAG 执行引擎以支持循环数据流与内存计算；
容易使用：支持使用 Scala、Java、Python 和 R 语言进行编程，可以通过 Spark Shell 进行交互式编程；
通用性：Spark 提供了完整而强大的技术栈，包括 SQL 查询、流式计算、机器学习和图算法组件；
运行模式多样：可运行于独立的集群模式中，可运行于 Hadoop 中，也可运行于Amazon EC2 等云环境中，并且可以访问 HDFS、Cassandra、HBase、Hive 等多种数据源。

Scala 简介

Scala 是 Spark 的主要编程语言，Spark 还支持 Java、Python、R 作为编程语言。
Scala 是一门现代的多范式编程语言，运行于 Java 平台（JVM，Java 虚拟机），并兼容现有的 Java 程序；
Scala 语法简洁，提供优雅的 API，具备强大的并发性，支持函数式编程，运行速度快，可以更好地支持分布式系统，且能融合到 Hadoop 生态圈中；提供了 REPL（Read-Eval-Print Loop，交互式解释器），提高程序开发效率。

Spark 与 Map / Reduce 对比：

Spark 的计算模式也属于 MapReduce，但不局限于 Map 和 Reduce 操作，还提供了多种数据集操作类型，编程模型比 Hadoop MapReduce 更灵活;
Spark 提供了内存计算，可将中间结果放到内存中，对于迭代运算效率更高;
Spark 基于 DAG（有向无环图）的任务调度执行机制，要优于 Hadoop MapReduce 的迭代执行机制;

.
Spark 生态系统：

Spark 的设计遵循“一个软件栈满足不同应用场景”的理念，逐渐形成了一套完整的生态系统；
主要包含 Spark Core、Spark SQL、Spark Streaming、MLLib 和 GraphX 等组件;
既能够提供内存计算框架，也支持 SQL 即时查询、实时流式计算、机器学习和图计算等；
可以部署在资源管理器 YARN 之上，提供一站式的大数据解决方案；

.
Spark 执行流程：

基本概念

RDD：是 Resillient Distributed Dataset（弹性分布式数据集）的简称，是分布式内存的一个抽象概念，提供了一种高度受限的共享内存模型；
DAG：是 Directed Acyclic Graph（有向无环图）的简称，反映 RDD 之间的依赖关系；
Executor：是运行在工作节点（WorkerNode）的一个进程，负责运行 Task ；
Application：用户编写的 Spark 应用程序；
Task：运行在 Executor 上的工作单元；
Job：一个 Job 包含多个 RDD 及作用于相应 RDD 上的各种操作；
Stage：是 Job 的基本调度单位，一个 Job 会分为多组 Task，每组 Task 被称为Stage，或者也被称为 TaskSet，代表了一组关联的、相互之间没有 Shuffle 依赖关系的任务组成的任务集；

执行流程
1、首先为应用构建起基本的运行环境，即由 Driver 创建一个 SparkContext，进行资源的申请、任务的分配和监控
2、资源管理器为 Executor 分配资源，并启动 Executor 进程
3、SparkContext 根据 RDD 的依赖关系构建 DAG 图，DAG 图提交给 DAGScheduler 解析成 Stage，然后把一个个 TaskSet 提交给底层调度器 TaskScheduler 处理；Executor向SparkContext 申请 Task，Task Scheduler 将 Task 发放给 Executor 运行，并提供应用程序代码
4、Task 在 Executor 上运行，把执行结果反馈给 TaskScheduler，然后反馈给DAGScheduler，运行完毕后写入数据并释放所有资源

.
Spark 部署和应用方式：
Spark 部署模式主要有四种：

Local 模式（单机模式）
Standalone 模式（使用 Spark 自带的简单集群管理器）
YARN 模式（使用 YARN 作为集群管理器）
Mesos 模式（使用 Mesos 作为集群管理器）。

不同的计算框架统一运行在 YARN 中，可以带来如下好处：

计算资源按需伸缩
不用负载应用混搭，集群利用率高
共享底层存储，避免数据跨集群迁移

.
流计算应用：

流计算是针对流数据的实时计算，可以应用在多种场景中，如 Web 服务、机器翻译、广告投放、自然语言处理、气候模拟预测等。
如百度、淘宝等大型网站中，每天都会产生大量流数据，包括用户的搜索内容、用户的浏览记录等数据。采用流计算进行实时数据分析，可以了解每个时刻的流量变化情况，甚至可以分析用户的实时浏览轨迹，从而进行实时个性化内容推荐。
但是，并不是每个应用场景都需要用到流计算的。流计算适合于需要处理持续到达的流数据、对数据处理有较高实时性要求的场景。

批量计算允许用充裕的时间处理静态数据，如 Hadoop、Hive 等。
流计算则需要及时处理数据，应达到如下要求：

高性能：处理大数据的基本要求，如每秒处理几十万条数据；
海量式：支持 TB 级甚至是 PB 级的数据规模；
实时性：保证较低的延迟时间，达到秒级别，甚至是毫秒级别；
分布式：支持大数据的基本架构，必须能够平滑扩展；
易用性：能够快速进行开发和部署；
可靠性：能可靠地处理流数据；

.
常用流计算框架：

现今常用的流计算框架有三个：Storm、Spark Streaming 和 Flink，它们都是开源的分布式系统，具有低延迟、可扩展和容错性诸多优点，允许你在运行数据流代码时，将任务分配到一系列具有容错能力的计算机上并行运行,都提供了简单的 API 来简化底层实现的复杂程度。
Flume 是 Cloudera 提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume 支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume 提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。
Flume 运行的核心是 Agent。Flume 以 Agent 为最小的独立运行单位，一个 Agent 就是一个 JVM（Java Virtual Machine），它是一个完整的数据采集工具，包含三个核心组件，分别是数据源（Source）、数据通道（Channel）和数据槽（Sink）。通过这些组件，“事件”可以从一个地方流向另一个地方。
Kafka 是由 LinkedIn 公司开发的一种高吞吐量的分布式消息订阅分发系统，用户通过 Kafka 系统可以发布大量的消息，也能实时订阅和消费消息。

.
Kafka：

Kafka 特性：
1、高吞吐量、低延迟：Kafka 每秒可以处理几十万条消息，它的延迟最低只有几毫秒；
2、可扩展性：Kafka 集群具有良好的可扩展性；
3、持久性、可靠性：消息被持久化到本地磁盘，并且支持数据备份，防止数据丢失；
3、容错性：允许集群中节点失败（若副本数量为 n，则允许 n-1 个节点失败）；
4、高并发：支持数千个客户端同时读写。使用消息队列能够使关键组件顶住突发的访问压力，而不会因为突发的超负荷的请求而完全崩溃；
5、顺序保证：在大多使用场景下，数据处理的顺序都很重要。大部分消息队列本来就是排序的，并且能保证数据会按照特定的顺序来处理。Kafka 保证一个分区内的消息的有序性；
6、异步通信：很多时候，用户不想也不需要立即处理消息。消息队列提供了异步处理机制，允许用户把一个消息放入队列，但并不立即处理它。想向队列中放入多少消息就放多少，然后在需要的时候再去处理它们。
Kafka应用场景：
1、日志收集：一个公司可以用 Kafka 收集各种日志，这些日志被 Kafka 收集以后，可以通过 Kafka 的统一接口服务开放给各种消费者，例如 Hadoop、HBase、Solr 等；
2、消息系统：可以对生产者和消费者实现解耦，并可以缓存消息；
3、用户活动跟踪：Kafka 经常被用来记录 Web 用户或者 APP 用户的各种活动，如浏览网页、搜索、点击等活动，这些活动信息被各个服务器发布到 Kafka 的主题（Topic）中，然后订阅者通过订阅这些主题来做实时的监控分析，或者装载到Hadoop、数据仓库中做离线分析和挖掘；
4、运营指标：Kafka 也经常用来记录运营监控数据，包括收集各种分布式应用的数据，生产环节各种操作的集中反馈，比如报警和报告；
5、流式处理：Kafka 实时采集的数据可以传递给流处理框架（比如 Spark Streaming、Storm、Flink）进行实时处理。
Kafka 消息传递模式
Kafka 采用消息发布、订阅模式，消息被持久化到一个主题（topic）中，消费者可以订阅一个或多个主题，消费者可以消费该主题中所有的数据，同一条数据可以被多个消费者消费，数据被消费后不会立马删除。在发布订阅消息系统中，消息的生产者称为“发布者”，消费者称为“订阅者”。
相关概念

Broker：Kafka 集群包含一个或多个服务器，这些服务器被称为“Broker”。
Topic：每条发布到 Kafka 集群的消息都有一个类别，这个类别被称为“Topic（主题）”。物理上不同 Topic 的消息分开存储，逻辑上一个 Topic 的消息虽然保存于一个或多个 Broker 上，但用户只需指定消息的 Topic，即可生产或消费数据，而不必关心数据存于何处。
Partition：是物理上的概念，每个 Topic 包含一个或多个 Partition。
Producer：负责发布消息到 Kafka Broker。
Consumer：消息消费者，向 Kafka Broker 读取消息的客户端。
Consumer Group：每个 Consumer 属于一个特定的 Consumer Group，可为每个 Consumer 指定 Group Name，若不指定 Group Name，则属于默认的 Group。同一个 Topic 的一条消息只能被同一个 Consumer Group 内的一个 Consumer 消费，但多个 Consumer Group 可同时消费这一消息。

一个典型的 Kafka 集群中包含若干 Producer、若干 Broker、若干 Consumer 以及一个 Zookeeper 集群。Kafka 通过 Zookeeper 管理集群配置。Producer 使用 push 模式将消息发布到 Broker，Consumer 使用 pull 模式从 Broker 订阅并消费消息。

.
Kettle简介

Kettle 是纯 java 开发，开源的 ETL 工具，用于数据库间的数据迁移。可以在 Linux、Windows、Unix 中运行。有图形界面，也有命令脚本还可以二次开发。作为一个端对端的数据集成平台，可以对多种数据源进行抽取（Extraction)、加载（Loading）、数据落湖（Data Lake Injection）、对数据进行各种清洗（Cleasing）、转换（Transformation）、混合（Blending），并支持多维联机分析处理（OLAP）和数据挖掘（Data mining）

你可能感兴趣的:(#,大数据计算框架,大数据)

Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
利用LangChain的StackExchange组件实现智能问答系统 nseejrukjhad langchain microsoft 数据库 python
利用LangChain的StackExchange组件实现智能问答系统引言在当今的软件开发世界中，StackOverflow已经成为程序员解决问题的首选平台之一。而LangChain作为一个强大的AI应用开发框架，提供了StackExchange组件，使我们能够轻松地将StackOverflow的海量知识库集成到我们的应用中。本文将详细介绍如何使用LangChain的StackExchange组件
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
自我意识徐立华
----读帕克.帕尔默《教学勇气》（P18----19）5.铸造我们的学科帕克.帕尔默说学科知识对我们的自身认同和外部世界有启发意义。学科会铸造我们。“在我们与学科的命题概念和学科的生活框架相遇之前，自我意识知识处于潜伏状态，通过回想学科是怎样唤醒自我意识，我们就可以找回教学心灵。”《教学勇气》（P18）我们的自我意识像冰山表面下无限延伸的冰层，常常处于潜伏状态。但是在我们对所教授的学科进行深入思
基于CODESYS的多轴运动控制程序框架：逻辑与运动控制分离，快速开发灵活操作 GPJnCrbBdl python 开发语言
基于codesys开发的多轴运动控制程序框架，将逻辑与运动控制分离，将单轴控制封装成功能块，对该功能块的操作包含了所有的单轴控制（归零、点动、相对定位、绝对定位、设置当前位置、伺服模式切换等等）。程序框架由主程序按照状态调用分归零模式、手动模式、自动模式、故障模式，程序状态的跳转都已完成，只需要根据不同的工艺要求完成所需的动作即可。变量的声明、地址的规划都严格按照C++的标准定义，能帮助开发者快速
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
SpringBlade dict-biz/list 接口 SQL 注入漏洞文章永久免费只为良心 oracle 数据库
SpringBladedict-biz/list接口SQL注入漏洞POC:构造请求包查看返回包你的网址/api/blade-system/dict-biz/list?updatexml(1,concat(0x7e,md5(1),0x7e),1)=1漏洞概述在SpringBlade框架中，如果dict-biz/list接口的后台处理逻辑没有正确地对用户输入进行过滤或参数化查询（PreparedSta
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
ArrayList 源码解析程序猿进阶 Java基础 ArrayList List java 面试性能优化架构设计 idea
ArrayList是Java集合框架中的一个动态数组实现，提供了可变大小的数组功能。它继承自AbstractList并实现了List接口，是顺序容器，即元素存放的数据与放进去的顺序相同，允许放入null元素，底层通过数组实现。除该类未实现同步外，其余跟Vector大致相同。每个ArrayList都有一个容量capacity，表示底层数组的实际大小，容器内存储元素的个数不能多于当前容量。当向容器中添
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
Spring MVC 全面指南：从入门到精通的详细解析一杯梅子酱技术栈学习 spring mvc java
引言：SpringMVC，作为Spring框架的一个重要模块，为构建Web应用提供了强大的功能和灵活性。无论是初学者还是有一定经验的开发者，掌握SpringMVC都将显著提升你的Web开发技能。本文旨在为初学者提供一个全面且易于理解的学习路径，通过详细的知识点分析和实际案例，帮助你快速上手SpringMVC，让学习过程既深刻又高效。一、SpringMVC简介1.1什么是SpringMVC？Spri
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
今天是总结薛帅
今天来个最后一天的总结。为什么要学习写作技巧呢？就如同建房子，如果想要住的安全、舒服，我们要先打地基，建房子的框架，这样才能随意的装修。那么我们要怎么建好才能建好写作的地基呢？1走直路，少弯路01利他：能够给别人带来价值。02吸引：吸住读者的眼球。03打动：打动人心，引起共鸣。04说服：用数据说话。05刻意：通过有意识的训练。06修改：好的文章至上修改10遍。07模仿：10万+的文章必有成功的道理
Python 课程10-单元测试可愛小吉 Python教學 python 单元测试开发语言 TDD unittest
前言在现代软件开发中，单元测试已成为一种必不可少的实践。通过测试，我们可以确保每个功能模块在开发和修改过程中按预期工作，从而减少软件缺陷，提高代码质量。而测试驱动开发（TDD）则进一步将测试作为开发的核心部分，先编写测试，再编写代码，以测试为指导开发出更稳定、更可靠的代码。Python提供了强大的unittest模块，它是Python标准库的一部分，专门用于编写和执行单元测试。与其他测试框架相比，
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
MyBatis 详解阿贾克斯的黎明 java mybatis
目录目录一、MyBatis是什么二、为什么使用MyBatis（一）灵活性高（二）性能优化（三）易于维护三、怎么用MyBatis（一）添加依赖（二）配置MyBatis（三）创建实体类和接口（四）使用MyBatis一、MyBatis是什么MyBatis是一个优秀的持久层框架，它支持自定义SQL、存储过程以及高级映射。MyBatis免除了几乎所有的JDBC代码以及设置参数和获取结果集的工作。它可以通过简
【自动化测试】UI自动化的分类、如何选择合适的自动化测试工具以及其中appium的设计理念、引擎和引擎如何工作 Lossya ui 自动化测试工具自动化测试 appium
引言UI自动化测试主要针对软件的用户界面进行测试，以确保用户界面元素的交互和功能符合预期文章目录引言一、UI自动化的分类1.1基于代码的自动化测试1.2基于录制/回放的自动化测试1.3基于框架的自动化测试1.4按测试对象分类1.5按测试层次分类1.6按测试执行方式分类1.7按测试目的分类二、如何选择合适的自动化测试工具2.1项目需求分析2.2工具特性评估2.3成本考虑2.4团队技能2.5试用和评估
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
python爬取微信小程序数据,python爬取小程序数据 2301_81900439 前端
大家好，小编来为大家解答以下问题，python爬取微信小程序数据，python爬取小程序数据，现在让我们一起来看看吧！Python爬虫系列之微信小程序实战基于Scrapy爬虫框架实现对微信小程序数据的爬取首先，你得需要安装抓包工具，这里推荐使用Charles，至于怎么使用后期有时间我会出一个事例最重要的步骤之一就是分析接口，理清楚每一个接口功能，然后连接起来形成接口串思路,再通过Spider的回调
字节二面 Redstone Monstrosity 前端面试
1.假设你是正在面试前端开发工程师的候选人，面试官让你详细说出你上一段实习过程的收获和感悟。在上一段实习过程中，我获得了宝贵的实践经验和深刻的行业洞察，以下是我的主要收获和感悟：一、专业技能提升框架应用熟练度：通过实际项目，我深入掌握了React、Vue等前端框架的使用，不仅提升了编码效率，还学会了如何根据项目需求选择合适的框架。问题解决能力：在实习期间，我遇到了许多预料之外的技术难题。通过查阅文
【Golang】实现 Excel 文件下载功能 RumIV Golang golang excel 开发语言
在当今的网络应用开发中，提供数据导出功能是一项常见的需求。Excel作为一种广泛使用的电子表格格式，通常是数据导出的首选格式之一。在本教程中，我们将学习如何使用Go语言和GinWeb框架来创建一个Excel文件，并允许用户通过HTTP请求下载该文件。准备工作在开始之前，请确保您的开发环境中已经安装了Go语言和相关的开发工具。此外，您还需要安装GinWeb框架和excelize包，这两个包都将用于我
golang 实现文件上传下载 wangwei830 go
Gin框架上传下载上传（支持批量上传）httpRouter.POST("/upload",func(ctx*gin.Context){forms,err:=ctx.MultipartForm()iferr!=nil{fmt.Println("error",err)}files:=forms.File["fileName"]for_,v:=rangefiles{iferr:=ctx.SaveUplo
【Java】已解决：org.springframework.jdbc.datasource.lookup.DataSourceLookupFailureException 屿小夏 java 开发语言
文章目录一、分析问题背景问题背景描述出现问题的场景二、可能出错的原因三、错误代码示例四、正确代码示例五、注意事项已解决：org.springframework.jdbc.datasource.lookup.DataSourceLookupFailureException在使用Spring框架进行开发时，数据源的配置和使用是非常关键的一环。然而，有时候我们可能会遇到org.springframewo
SpringBoot和SpringMVC是什么关系?SpringBoot替代SpringMVC了吗? 瑞金彭于晏 spring boot 后端 java MVC spring 数据库
SpringBoot和SpringMVC都是SpringFramework生态系统中的一部分，但它们各自扮演着不同的角色和提供不同的功能集。理解它们之间的关系，首先需要了解SpringFramework本身。SpringFrameworkSpringFramework是一个全面的、开源的应用程序开发框架，它提供了广泛的功能来支持企业应用开发的几乎所有方面。SpringFramework的核心特性之
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
探索Zebra4J：构建高效企业级Web应用的微服务框架叶准鑫Natalie
探索Zebra4J：构建高效企业级Web应用的微服务框架ZebraZebra4J/Zebra4Js基于SpringBoot的JavaWeb/Nodejs框架项目地址:https://gitcode.com/gh_mirrors/zebra/Zebra项目介绍在当今快速发展的技术环境中，构建高效、可扩展的企业级Web应用是每个开发团队的追求。Zebra4J作为一款基于SpringBoot的全新微服务
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后

再见以前说再见 大数据计算框架复习

你可能感兴趣的:(#,大数据计算框架,大数据)

再见以前说再见大数据计算框架复习