白水不开

Kafka学习（1）——kafka文档阅读笔记

以下内容，仅为文档Kafka Documentation的阅读笔记。阅读时的版本为0.9.0.x。

1. 开始
- 1.1 引言
- 1.2 使用场景
- 1.3 快速开始
- 1.4 相关技术生态
- 1.5 升级
2. API
- 2.1 Producer API
- 2.2 Consumer API
  - 2.2.1 高级消费者API（旧）
  - 2.2.2 低级消费者API（旧）
  - 2.2.3 消费者API（新）
3. 配置
- 3.1 Broker Configs
- 3.2 Producer Configs
- 3.3 Consumer Configs
  - 3.3.1 Old Consumer Configs
  - 3.3.2 New Consumer Configs
- 3.4 Kafka Connect Configs
4 设计
- 4.1 动机
- 4.2 持久化
- 4.3 效率
- 4.4 producer
- 4.5 consumer
- 4.6 消息传递
- 4.7 Replication
- 4.8 日志压缩
- 4.9 Quotas
5 设计
6 操作
- 6.1 常用操作
  - 6.1.1 topic操作
  - 6.1.2 关闭集群
  - 6.1.3 平衡leader
  - 6.1.4 集群间镜像数据
  - 6.1.5 查看consumer位置
  - 6.1.6 集群扩展
  - 6.1.7 退役中的broker
  - 6.1.8 增加replication因子
  - 6.1.9 设置阈值
- 6.2 数据中心
- 6.3 kafka配置
- 6.4 jdk
- 6.5 硬盘和操作系统
- 6.6 监控
- 6.7 zookeeper
7 安全
- 7.1 安全概述
- 7.2 使用SSL进行加密和认证
- 7.3 使用SASL进行认证
- 7.4 认证和控制列表ACLs
- 7.5 zookeeper认证
8 kafka连接

1 开始

1.1 引言

kafka提供提交日志的服务，具有分布式、分块、可复制的特点。

1.2 使用场景

传送消息。解构数据生产和数据消费。
网站活动追踪。用作管道，不同类别信息使用不同topic。
度量。分布式数据聚合的中心点。
日志累积。持久化store的中转站。
流处理。流处理框架的中转站。
事件源。
提交日志。

1.3 快速开始

1.4 相关技术生态

1.5 升级

2 API

2.1 Producer

依赖：


    org.apache.kafka
    kafka-clients
    0.9.0.0

2.2 Consumer

2.2.1 高级消费者API（旧）

2.2.2 低级消费者API（旧）

2.2.3 消费者API（新）

新的消费者API不再区分高级/低级。

依赖：


    org.apache.kafka
    kafka-clients
    0.9.0.0

3 配置

4 设计

4.1 动机

高吞吐量，支持大容量事件流；

高抗压，支持离线系统周期性的数据压力；

低延迟；

动态分布式分区；

容错；

4.2 持久化

磁盘线性读写要比随机读写快很多；

常量时间。基于文件的读和追加来构建持久化队列；

4.3 效率

打包发送消息。

producer、broker和consumer同时使用标准二进制消息格式。

zero-copy。

数据压缩

4.4 producer

producer只向leader partition发送消息

通过load balance，将消息发送到不同的partition。

批量发送

4.5 consumer

kafka采用pull模式。

push VS pull

push是一种推送行为，及时性好，对consumer要求较高，consumer的消费速率能够跟得上producer的生产速率。

pull是一种拉取行为，可以在consumer端控制消费速率，可使消费速率最大化。但若producer没有数据生产时，consumer会陷入轮询。

消费点

通过offset指示消费的位置。

4.6 消息传递

消息传递保证措施一般有以下几种：

最多一次。消息不成功则不重传，可能丢消息。
最少一次。消息不成功则重传。
只传一次。消息只传递一次且成功。

kafka的做法：

4.7 Replication

哪些follower会备份

和大部分分布式系统一样，Kafka处理失败需要明确定义一个Broker是否“活着”。对于Kafka而言，节点存活满足两个条件：

节点必须维持它和zookeeper的session。
Follower必须能够及时将Leader的消息复制过来，且不能落后太多。

Leader会跟踪与其保持同步的follower列表，该列表称为ISR（即in-sync Replica）。只有ISR中的follower执行复制。一旦leader发现follower未存活，则将其从ISR中删除，follower又存活，则将其添加到ISR中。Kafka只解决这种fail/recover，不处理“Byzantine”（“拜占庭”）问题。

一条消息只有被ISR里的所有replica都从Leader复制过去才会被认为“committed”。这种机制确保了只要ISR有一个或以上的replica，被“committed”的消息就一定不会丢失。

如何选举leader

Kafka在ZooKeeper中动态维护了一个ISR（in-sync replicas），这个ISR里的所有Replica都跟上了leader，只有ISR里的成员才有被选为Leader的可能。在这种模式下，对于f+1个Replica，一个Partition能在保证不丢失已经commit的消息的前提下容忍f个Replica的失败。

在ISR中至少有一个follower时，Kafka可以确保已经commit的数据不丢失，但如果某个Partition的所有Replica都宕机了，就无法保证数据不丢失了。这种情况下有两种可行的方案：

等待ISR中的任一个Replica“活”过来，并且选它作为Leader
选择第一个“活”过来的Replica（不一定是ISR中的）作为Leader

这就需要在可用性和一致性当中作出一个简单的折衷。如果一定要等待ISR中的Replica“活”过来，那不可用的时间就可能会相对较长。而且如果ISR中的所有Replica都无法“活”过来了，或者数据都丢失了，这个Partition将永远不可用。选择第一个“活”过来的Replica作为Leader，而这个Replica不是ISR中的Replica，那即使它并不保证已经包含了所有已commit的消息，它也会成为Leader而作为consumer的数据源（前文有说明，所有读写都由Leader完成）。Kafka0.9.*使用了第二种方式。

可用性和耐用性保证

两种方案：

禁用leader选举
控制最小ISR大小。ISR的大小达到一定的数量后，才可以进行写入。提高了耐用性，但这样降低了可用性。

replica管理

分配Replica的算法如下：

(1) 将n个Broker和待分配的Partition排序
(2) 第i个Partition分配到第i%n个Broker
(3) 第i个Partition的第j个Replica分配到第(i + j) %n个Broker

Leader Election方案：

在所有broker中选出一个controller，所有Partition的Leader选举都由controller决定。controller会将Leader的改变直接通过RPC的方式通知给需要为此作出响应的Broker。同时controller也负责增删Topic以及Replica的重新分配。

controller不可用时，剩余的可用broker之一会成为新的controller。

4.8 日志压缩

4.9 Quotas

0.9版本提供。

Quotas（限额）以client-id为单位。

Quotas的出现是为了防止不良client独占broker资源，造成网络饱和、拒绝服务。

quota.producer.default, quota.consumer.default默认值可认为是无穷大。

违反quotas的client会被降速。

5 实现

6 操作

6.1 常用操作

6.1.1 topic操作

新增topic

bin/kafka-topics.sh --zookeeper zk_host:port/chroot --create --topic my_topic_name --partitions 20 --replication-factor 3 --config x=y

修改topic

修改partitions

bin/kafka-topics.sh --zookeeper zk_host:port/chroot --alter --topic my_topic_name --partitions 40

增加configs

bin/kafka-topics.sh --zookeeper zk_host:port/chroot --alter --topic my_topic_name --config x=y

删除configs

bin/kafka-topics.sh --zookeeper zk_host:port/chroot --alter --topic my_topic_name --deleteConfig x

删除topic

    bin/kafka-topics.sh --zookeeper zk_host:port/chroot --delete --topic my_topic_name

默认情况下topic是不能删除的，删除操作需要delete.topic.enable=true支持。

6.1.2 关闭集群

优雅的stop需要满足两个条件：

同步所有的log
leader关闭前需要将数据移动replica

6.1.3 平衡leader

手动：

bin/kafka-preferred-replica-election.sh --zookeeper zk_host:port/chroot

自动：

auto.leader.rebalance.enable=true

6.1.4 集群间镜像数据

示例：

bin/kafka-run-class.sh kafka.tools.MirrorMaker --consumer.config consumer-1.properties --consumer.config consumer-2.properties --producer.config producer.properties --whitelist my-topic

从2个集群（consumer-1.properties和consumer-2.properties）镜像my-topic的数据到新集群（producer.properties）

需要以下配置配合：

auto.create.topics.enable=true

6.1.5 查看consumer位置

示例：

bin/kafka-run-class.sh kafka.tools.ConsumerOffsetChecker --zkconnect localhost:2181 --group test

6.1.6 集群扩展

集群扩展涉及到数据重分配。

自动移动数据

示例移动foo1和foo2所有的分区到5，6上

topics-to-move.json：

{"topics": [{"topic": "foo1"},
            {"topic": "foo2"}],
 "version":1
}

生成移动方案。：

bin/kafka-reassign-partitions.sh --zookeeper localhost:2181 --topics-to-move-json-file topics-to-move.json --broker-list "5,6" --generate

执行：

bin/kafka-reassign-partitions.sh --zookeeper localhost:2181 --reassignment-json-file expand-cluster-reassignment.json --execute

检查移动结果：

bin/kafka-reassign-partitions.sh --zookeeper localhost:2181 --reassignment-json-file expand-cluster-reassignment.json --verify

自定义移动数据

定义分配计划custom-reassignment.json：

{"version":1,"partitions":[{"topic":"foo1","partition":0,"replicas":[5,6]},{"topic":"foo2","partition":1,"replicas":[2,3]}]}

执行：

bin/kafka-reassign-partitions.sh --zookeeper localhost:2181 --reassignment-json-file custom-reassignment.json --execute

检查：

bin/kafka-reassign-partitions.sh --zookeeper localhost:2181 --reassignment-json-file custom-reassignment.json --verify

6.1.7 退役中的broker

6.1.8 增加replication因子

increase-replication-factor.json：

{"version":1, "partitions":[{"topic":"foo","partition":0,"replicas":[5,6,7]}]}

执行：

bin/kafka-reassign-partitions.sh --zookeeper localhost:2181 --reassignment-json-file increase-replication-factor.json --execute

验证：

bin/kafka-reassign-partitions.sh --zookeeper localhost:2181 --reassignment-json-file increase-replication-factor.json --verify

查看topic配置：

bin/kafka-topics.sh --zookeeper localhost:2181 --topic foo --describe

6.1.9 设置阈值

设置默认阈值：

quota.producer.default=10485760
quota.consumer.default=10485760

设置特定用户的阈值：

bin/kafka-configs.sh  --zookeeper localhost:2181 --alter --add-config 'producer_byte_rate=1024,consumer_byte_rate=2048' --entity-name clientA --entity-type clients

查看：

./kafka-configs.sh  --zookeeper localhost:2181 --describe --entity-name clientA --entity-type clients

6.2 数据中心

6.3 kafka配置

producer相关的比较重要的配置：

压缩率
同步或异步
批量大小

6.4 jdk

建议jdk版本1.8

6.5 硬盘和操作系统

memory：吞吐率*时间
os：推荐unix系统
disk：建议使用多块磁盘，可提高吞吐率。

linux清除策略

file -> pagecache -> disk

Pdflush控制pagecache -> disk的flush，如果flush速率跟不上写入pagecache的速率，会阻塞写入过程。

Ext4文件系统

6.4 硬盘和操作系统

6.6 监控

6.7 zookeeper

7 安全

7.1 安全概述

7.2 使用SSL进行加密和认证

示例：

#!/bin/bash
#Step 1
keytool -keystore server.keystore.jks -alias localhost -validity 365 -genkey
#Step 2
openssl req -new -x509 -keyout ca-key -out ca-cert -days 365
keytool -keystore server.truststore.jks -alias CARoot -import -file ca-cert
keytool -keystore client.truststore.jks -alias CARoot -import -file ca-cert
#Step 3
keytool -keystore server.keystore.jks -alias localhost -certreq -file cert-file
openssl x509 -req -CA ca-cert -CAkey ca-key -in cert-file -out cert-signed -days 365 -CAcreateserial -passin pass:test1234
keytool -keystore server.keystore.jks -alias CARoot -import -file ca-cert
keytool -keystore server.keystore.jks -alias localhost -import -file cert-signed

broker配置：

listeners=PLAINTEXT://host.name:port,SSL://host.name:port

ssl.keystore.location=/var/private/ssl/kafka.server.keystore.jks
ssl.keystore.password=test1234
ssl.key.password=test1234
ssl.truststore.location=/var/private/ssl/kafka.server.truststore.jks
ssl.truststore.password=test1234
security.inter.broker.protocol=SSL

检查：

openssl s_client -debug -connect localhost:9093 -tls1

配置client：

# 只支持0.9
security.protocol=SSL
ssl.truststore.location=/var/private/ssl/kafka.client.truststore.jks
ssl.truststore.password=test1234

ssl.keystore.location=/var/private/ssl/kafka.client.keystore.jks
ssl.keystore.password=test1234
ssl.key.password=test1234

# Examples using console-producer and console-consumer:
kafka-console-producer.sh --broker-list localhost:9093 --topic test --producer.config client-ssl.properties
kafka-console-consumer.sh --bootstrap-server localhost:9093 --topic test --new-consumer --consumer.config client-ssl.properties

7.3 使用SASL进行认证

7.4 认证和控制列表ACLs

7.5 zookeeper认证

8 kafka连接

分布式系统理论基础二-CAP 王知无(import_bigdata)
GitHub：https://github.com/wangzhiwubigdata/God-Of-BigData关注公众号,内推,面试,资源下载,关注更多大数据技术~大数据成神之路~预计更新500+篇文章，已经更新50+篇~引言CAP是分布式系统、特别是分布式存储领域中被讨论最多的理论，“什么是CAP定理？”在Quora分布式系统分类下排名FAQ的No.1。CAP在程序员中也有较广的普及，它不仅
Hadoop 和 Spark 的内存管理机制分析王子良. 经验分享 hadoop spark 大数据
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
数仓建模（五）选择数仓技术栈：Hive & ClickHouse & 其它昊昊该干饭了数仓建模大数据 hive clickhouse hadoop
在大数据技术的飞速发展下，数据仓库（DataWarehouse，简称数仓）成为企业处理和分析海量数据的核心工具。市场上主流数仓技术栈丰富，如Hive、ClickHouse、Druid、Greenplum等，对于初学者而言，选择合适的技术栈是一项挑战。本文将详细解析Hive、ClickHouse及其他数仓技术，帮助读者根据场景需求选择最佳工具。目录一、数据仓库的基础概念和技术选型原则1.1什么是数据
使用 Hadoop 实现大数据的高效存储与查询王子良. 经验分享大数据 hadoop 分布式
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
Python 爬虫：获取网页数据的 5 种方法王子良. 经验分享 python python 开发语言爬虫
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
星环科技×恒生电子，联合打造反洗钱解决方案人工智能
随着反洗钱行为更具隐蔽性、多样性和跨区域性，金融机构的反洗钱能力也相应面临新一轮升级。将大数据技术应用于反洗钱领域，可借助大数据平台高效整合、分析海量客户身份信息和交易数据，保障反洗钱系统有效开展客户风险等级评定、可疑交易筛查、黑名单监测等工作，为反洗钱工作赋能。近日，星环科技与恒生电子联合发布反洗钱解决方案，系统覆盖金融机构全业务全客户全流程，满足客户尽调、大额可疑交易检测、名单筛查、自评估等各
“大数据+技校”：VR虚拟仿真实训室的发展前景武汉唯众智创大数据 vr 大数据实训室大数据实验室大数据VR实训室
在技术教育的新时代，大数据与虚拟现实技术的融合正在重塑技校的教学模式。"大数据+技校"模式下的VR虚拟仿真实训室，为技校学生提供了一个创新的学习平台，预示着教育方式的深刻变革。一、大数据与技校教育的深度融合大数据技术的应用为技校教育带来了前所未有的机遇。通过收集和分析学生的学习数据、行为数据以及就业数据等，技校能够更准确地了解学生的学习情况、技能掌握程度和就业需求，从而为学生提供更加个性化的学习方
Spring Boot 和微服务：快速入门指南王子良. Java 经验分享 spring boot 微服务后端
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
内部知识库的未来展望：技术融合与用户体验的双重升级
在当今数字化飞速发展的时代，企业内部知识库作为知识管理的关键载体，正站在变革的十字路口，即将迎来技术融合与用户体验双重升级的崭新时代，这一系列变化将深度重塑企业知识管理的格局。一、技术融合：开启知识管理新篇（一）大数据+内部知识库：知识挖掘的深度拓展大数据技术的蓬勃发展为内部知识库注入了强大动力。企业积累的海量业务数据、员工行为数据等，犹如一座未经深度开采的金矿。未来，借助大数据分析工具，内部知识
初学者如何用 Python 写第一个爬虫？王子良. python 经验分享 python 开发语言爬虫
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
大数据技术实训：Zookeeper集群配置东风无力百花残_ 大数据技术大数据 zookeeper 分布式
一、本地模式安装部署1）安装前准备（1）安装jdk（2）拷贝Zookeeper安装包到Linux系统下（3）解压到指定目录tar-zxvfzookeeper-3.5.7.tar.gz-C/opt/module/2）配置修改（1）将/opt/module/zookeeper-3.5.7/conf这个路径下的zoo_sample.cfg修改为zoo.cfg；$mvzoo_sample.cfgzoo.c
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
使用python实现微信小程序自动签到光头哥不光头 python
学校：重庆财经职业学院学院：应用技术学院专业班级：大数据技术与应用05班名字：吴雨璇指导老师：张彤老师一：使用python实现微信小程序自动签到意义1.首先对于咱们的APP有很大的作用,那就是当用户点击签到以后,平台就有那么多用户在使用,签到的人越多,产品的活跃度就越高。2.还有一点就是大家应该能够想到,那就是用户点击签到是在首页,有些点开就需要进行签到,点击较多,对于产品销售是非常重要的。3.微
starrocks和clickhouse数据库比较 CodeMaster_37714848 clickhouse 数据库
Starrocks和ClickHouse都是用于数据分析的数据库，但它们的设计理念和用途有所不同。下面是这两者的一些主要比较点：1.基础架构与设计目标Starrocks:Starrocks是一个专注于实时数据分析的平台，常用于大数据处理和商业智能应用。它设计用于高效处理大规模数据集，并且支持复杂查询和数据处理。支持多种数据源的集成，并且可以与其他大数据技术（如Hadoop、Spark）协同工作。C
大数据技术之Hadoop（一） pauls
Hadoop概述1.1Hadoop是什么Hadoop是什么1）Hadoop是一个由Apache基金会所开发的分布式系统基础架构。2）主要解决，海量数据的存储和海量数据的分析计算问题。3）广义上来说，Hadoop通常是指一个更广泛的概念——Hadoop生态圈。Hadoop生态1.2Hadoop发展历史（了解）Hadoop发展历史1）Hadoop创始人DougCutting，为了实现与Google类似
Hive 的 SerDe 是什么？ Shockang 大数据技术体系大数据 hive
前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系正文hive的SerDe是什么SerDe是Serializer/Deserializer的简写。hive使用SerDe进行行对象的序列与反序列化。最后实现把文件内容映射到hive表中的字段数据类型。为了更好的阐
【大数据Big DATA】大数据解决方案，提供完整的大数据采集，大数据存储，大数据处理，具体业务应用解决方案 _晓夏_ JAVA大数据大数据解决方案大数据BIG DATA 大数据采集大数据存储大数据处理大数据分析
大数据解决方案是指利用大数据技术，结合企业实际业务需求，为企业提供数据采集、存储、处理、分析和报告等一站式服务，以帮助企业更好地利用大数据提高运营效率、优化决策制定。以下是一些常见的大数据解决方案：一、数据采集数据采集是大数据解决方案的起点，涉及从各种数据源中抓取和收集数据。常见的大数据采集工具包括Flume、Scribd等，这些工具可以帮助企业快速、高效地采集各类数据。二、数据存储大数据存储解决
Spark一些个人总结易逑实战数据大数据 spark big data scala
文章目录前言一、Spark是什么二、Spark用来做什么三、Spark的优势是什么四、为什么用Spark五、Spark解决了什么问题总结前言随着大数据技术的发展，一些更加优秀的组件被提了出来，比如现在最常用的Spark组件，基于RDD原理在大数据处理中占据了越来越重要的作用。在此我们探索了Spark的原理，以及其在大数据开发中的重要作用。一、Spark是什么Spark是一个用来实现快速，通用的集群
系统架构师考试学习笔记第三篇——架构设计高级知识（13）未来信息综合技术 SheldonK 软件架构师学习分享学习笔记
本课时考点：第13课时主要学习信息物理系统技术、人工智能技术、机器人技术、边缘计算、数字孪生体技术以及云计算和大数据技术等内容。根据考试大纲，本课时知识点会涉及单项选择题（约占3~5分）和下午案例题（25分），论文也会有覆盖。本课时知识架构如图13.1所示。一、信息物理系统技术概述1.信息物理系统的概念信息物理系统（Cyber-PhysicalSystem,CPS),最早由美国国家航空航天局于19
Mac 安装Hadoop教程（HomeBrew安装）追光天使 macos hadoop 大数据
1.引言本教程旨在介绍在Mac电脑上安装Hadoop，便于编程开发人员对大数据技术的熟悉和掌握。2.前提条件2.1安装JDK想要在你的Mac电脑上安装Hadoop，你必须首先安装JDK。具体安装步骤这里就不详细描述了。你可参考Mac安装JDK8。2.2配置ssh环境在Mac下配置ssh环境，防止后面启动hadoop时出现Connectionrefused连接被拒绝的错误。sshlocalhost执
2024年（第7届）“泰迪杯”数据分析技能赛通知泰迪智能科技01 泰迪杯大数据人工智能
由泰迪杯数据分析技能赛组织委员会、广东泰迪智能科技股份有限公司主办，广东省工业与应用数学学会、人民邮电出版社和北京泰迪云智信息技术研究院协办的“泰迪杯”数据分析技能赛（以下简称竞赛）即将开展。竞赛目的在于以赛促学、以赛促教、以赛促改、以赛促创，实现大数据技术技能人才培养的“岗课赛证”融通，深化教学标准与岗位标准、教学过程与生产过程的对接，培养更多升级版的高层次高素质技术技能人才。竞赛时间安排报名起
大数据技术之Flume 企业开发案例——自定义 Interceptor（8）大数据深度洞察 Flume flume 大数据
目录自定义Interceptor1）案例需求2）需求分析3）实现步骤创建一个Maven项目，并引入以下依赖。定义CustomInterceptor类并实现Interceptor接口。编辑flume配置文件分别在hadoop12，hadoop13，hadoop14上启动flume进程，注意先后顺序。在hadoop12使用netcat向localhost:44444发送字母和数字。观察hadoop13
大数据技术之HBase 与 Hive 集成(7) 大数据深度洞察 Hbase 大数据 hbase hive
目录使用场景HBase与Hive集成使用1）案例一2）案例二使用场景如果大量的数据已经存放在HBase上面，并且需要对已经存在的数据进行数据分析处理，那么Phoenix并不适合做特别复杂的SQL处理。此时，可以使用Hive映射HBase的表格，之后通过编写HQL进行分析处理。HBase与Hive集成使用Hive安装https://blog.csdn.net/qq_45115959/article/
大数据技术之Flume 数据流监控——Ganglia 的安装与部署（11）大数据深度洞察 Flume 大数据 flume
目录Flume数据流监控Ganglia的安装与部署Ganglia组件介绍1）安装Ganglia2）在hadoop12修改配置文件/etc/httpd/conf.d/ganglia.conf3）在hadoop12修改配置文件/etc/ganglia/gmetad.conf4）在hadoop12,hadoop13,hadoop14修改配置文件/etc/ganglia/gmond.conf5）在hado
Hadoop 中的大数据技术：调优篇（3）大数据深度洞察大数据 hadoop 分布式
HDFS—故障排除NameNode故障处理需求NameNode进程崩溃且存储的数据丢失，如何恢复NameNode？故障模拟终止NameNode进程[lzl@hadoop12current]$kill-919886删除NameNode存储的数据[[email protected]]$rm-rf/opt/module/hadoop-3.1.3/data/dfs/name/*问题解决从Se
大数据技术之Flume okbin1991 大数据 flume java hadoop 开发语言
第1章Flume概述1.1Flume定义Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。1.2Flume基础架构Flume组成架构如下图所示。1.2.1AgentAgent是一个JVM进程，它以事件的形式将数据从源头送至目的。Agent主要有3个部分组成，Source、Channel、Sink。1.2.2Sourc
大数据技术之HBase API(3) 大数据深度洞察 Hbase 大数据 hbase 数据库
目录HBaseAPI环境准备创建连接单线程创建连接多线程创建连接DDLDMLHBaseAPI环境准备新建项目后，在pom.xml中添加如下依赖：org.apache.hbasehbase-server2.4.11org.glassfishjavax.elorg.glassfishjavax.el3.0.1-b06注意：javax.el包虽然会报错不存在，但这仅是一个测试用的依赖，不会影响实际使用。
大数据技术之HBase整合 Phoenix(6) 大数据深度洞察 Hbase 大数据 hbase 数据库
目录HBase整合PhoenixPhoenix简介Phoenix定义为什么使用PhoenixPhoenix快速入门安装1）官网地址2）Phoenix部署PhoenixShell操作Table表的映射数字类型说明PhoenixJDBC操作Phoenix二级索引二级索引配置文件全局索引（globalindex）包含索引（coveredindex）本地索引（localindex）HBase整合Phoen
knob UI插件使用换个号韩国红果果 JavaScript jsonp knob
图形是用canvas绘制的 js代码 var paras = { max:800, min:100, skin:'tron',//button type thickness:.3,//button width width:'200',//define canvas width.,canvas height displayInput:'tr
Android+Jquery Mobile学习系列(5)-SQLite数据库白糖_ JQuery Mobile
目录导航 SQLite是轻量级的、嵌入式的、关系型数据库，目前已经在iPhone、Android等手机系统中使用,SQLite可移植性好，很容易使用，很小，高效而且可靠。因为Android已经集成了SQLite，所以开发人员无需引入任何JAR包，而且Android也针对SQLite封装了专属的API，调用起来非常快捷方便。我也是第一次接触S
impala-2.1.2-CDH5.3.2 dayutianfei impala
最近在整理impala编译的东西，简单记录几个要点：根据官网的信息（https://github.com/cloudera/Impala/wiki/How-to-build-Impala）： 1. 首次编译impala，推荐使用命令： ${IMPALA_HOME}/buildall.sh -skiptests -build_shared_libs -format 2.仅编译BE ${I
求二进制数中1的个数周凡杨 java 算法二进制
解法一：对于一个正整数如果是偶数，该数的二进制数的最后一位是 0 ，反之若是奇数，则该数的二进制数的最后一位是 1 。因此，可以考虑利用位移、判断奇偶来实现。 public int bitCount(int x){ int count = 0; while(x!=0){ if(x%2!=0){ /
spring中hibernate及事务配置 g21121 Hibernate
hibernate的sessionFactory配置：  <bean id="sessionFactory" class="org.springframework.orm.hibernate3.LocalSessionFactoryBean"> <
log4j.properties 使用 510888780 log4j
log4j.properties 使用一.参数意义说明输出级别的种类 ERROR、WARN、INFO、DEBUG ERROR 为严重错误主要是程序的错误 WARN 为一般警告，比如session丢失 INFO 为一般要显示的信息，比如登录登出 DEBUG 为程序的调试信息配置日志信息输出目的地 log4j.appender.appenderName = fully.qua
Spring mvc-jfreeChart柱图（2）布衣凌宇 jfreechart
上一篇中生成的图是静态的，这篇将按条件进行搜索，并统计成图表，左面为统计图，右面显示搜索出的结果。第一步：导包第二步；配置web.xml(上一篇有代码) 建BarRenderer类用于柱子颜色 import java.awt.Color; import java.awt.Paint; import org.jfree.chart.renderer.category.BarR
我的spring学习笔记14-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。 PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java
maven 之 cobertura 简单使用 antlove maven test unit cobertura report
1. 创建一个maven项目 2. 创建com.CoberturaStart.java package com; public class CoberturaStart { public void helloEveryone(){ System.out.println("=================================================
程序的执行顺序百合不是茶 JAVA执行顺序
刚在看java核心技术时发现对java的执行顺序不是很明白了,百度一下也没有找到适合自己的资料,所以就简单的回顾一下吧代码如下; 经典的程序执行面试题 //关于程序执行的顺序 //例如： //定义一个基类 public class A(){ public A(
设置session失效的几种方法 bijian1013 web.xml session失效监听器
在系统登录后，都会设置一个当前session失效的时间，以确保在用户长时间不与服务器交互，自动退出登录，销毁session。具体设置很简单，方法有三种：（1）在主页面或者公共页面中加入：session.setMaxInactiveInterval(900);参数900单位是秒，即在没有活动15分钟后，session将失效。这里要注意这个session设置的时间是根据服务器来计算的，而不是客户端。所
java jvm常用命令工具 bijian1013 java jvm
一.概述程序运行中经常会遇到各种问题，定位问题时通常需要综合各种信息，如系统日志、堆dump文件、线程dump文件、GC日志等。通过虚拟机监控和诊断工具可以帮忙我们快速获取、分析需要的数据，进而提高问题解决速度。本文将介绍虚拟机常用监控和问题诊断命令工具的使用方法，主要包含以下工具: &nbs
【Spring框架一】Spring常用注解之Autowired和Resource注解 bit1129 Spring常用注解
Spring自从2.0引入注解的方式取代XML配置的方式来做IOC之后，对Spring一些常用注解的含义行为一直处于比较模糊的状态，写几篇总结下Spring常用的注解。本篇包含的注解有如下几个： Autowired Resource Component Service Controller Transactional 根据它们的功能、目的，可以分为三组，Autow
mysql 操作遇到safe update mode问题 bitray update
我并不知道出现这个问题的实际原理,只是通过其他朋友的博客,文章得知的一个解决方案,目前先记录一个解决方法,未来要是真了解以后,还会继续补全. 在mysql5中有一个safe update mode,这个模式让sql操作更加安全,据说要求有where条件,防止全表更新操作.如果必须要进行全表操作,我们可以执行 SET
nginx_perl试用 ronin47 nginx_perl试用
因为空闲时间比较多，所以在CPAN上乱翻，看到了nginx_perl这个项目(原名Nginx::Engine)，现在托管在github.com上。地址见：https://github.com/zzzcpan/nginx-perl 这个模块的目的，是在nginx内置官方perl模块的基础上，实现一系列异步非阻塞的api。用connector/writer/reader完成类似proxy的功能（这里
java-63-在字符串中删除特定的字符 bylijinnan java
public class DeleteSpecificChars { /** * Q 63 在字符串中删除特定的字符 * 输入两个字符串，从第一字符串中删除第二个字符串中所有的字符。 * 例如，输入”They are students.”和”aeiou”，则删除之后的第一个字符串变成”Thy r stdnts.” */ public static voi
EffectiveJava--创建和销毁对象 ccii 创建和销毁对象
本章内容： 1. 考虑用静态工厂方法代替构造器 2. 遇到多个构造器参数时要考虑用构建器（Builder模式） 3. 用私有构造器或者枚举类型强化Singleton属性 4. 通过私有构造器强化不可实例化的能力 5. 避免创建不必要的对象 6. 消除过期的对象引用 7. 避免使用终结方法 1. 考虑用静态工厂方法代替构造器类可以通过
[宇宙时代]四边形理论与光速飞行 comsci
从四边形理论来推论为什么光子飞船必须获得星光信号才能够进行光速飞行？一组星体组成星座向空间辐射一组由复杂星光信号组成的辐射频带，按照四边形-频率假说一组频率就代表一个时空的入口那么这种由星光信号组成的辐射频带就代表由这些星体所控制的时空通道，该时空通道在三维空间的投影是一
ubuntu server下python脚本迁移数据 cywhoyi python Kettle pymysql cx_Oracle ubuntu server
因为是在Ubuntu下，所以安装python、pip、pymysql等都极其方便，sudo apt-get install pymysql，但是在安装cx_Oracle（连接oracle的模块）出现许多问题，查阅相关资料，发现这边文章能够帮我解决，希望大家少走点弯路。http://www.tbdazhe.com/archives/602 1.安装python 2.安装pip、pymysql
Ajax正确但是请求不到值解决方案 dashuaifu Ajax async
Ajax正确但是请求不到值解决方案解决方案：1 . async: false , 2. 设置延时执行js里的ajax或者延时后台java方法！！！！！！！例如： $.ajax({ &
windows安装配置php+memcached dcj3sjt126com PHP Install memcache
Windows下Memcached的安装配置方法 1、将第一个包解压放某个盘下面，比如在c:\memcached。 2、在终端（也即cmd命令界面）下输入 'c:\memcached\memcached.exe -d install' 安装。 3、再输入： 'c:\memcached\memcached.exe -d start' 启动。（需要注意的: 以后memcached将作为windo
iOS开发学习路径的一些建议 dcj3sjt126com ios
iOS论坛里有朋友要求回答帖子，帖子的标题是：想学IOS开发高阶一点的东西，从何开始，然后我吧啦吧啦回答写了很多。既然敲了那么多字，我就把我写的回复也贴到博客里来分享，希望能对大家有帮助。欢迎大家也到帖子里讨论和分享，地址：http://bbs.csdn.net/topics/390920759 下面是我回复的内容：结合自己情况聊下iOS学习建议，
Javascript闭包概念 fanfanlovey JavaScript 闭包
1.参考资料 http://www.jb51.net/article/24101.htm http://blog.csdn.net/yn49782026/article/details/8549462 2.内容概述要理解闭包，首先需要理解变量作用域问题内部函数可以饮用外面全局变量 var n=999; 　　functio
yum安装mysql5.6 haisheng mysql
1、安装http://dev.mysql.com/get/mysql-community-release-el7-5.noarch.rpm 2、yum install mysql 3、yum install mysql-server 4、vi /etc/my.cnf 添加character_set_server=utf8
po/bo/vo/dao/pojo的详介 IT_zhlp80 java BO VO DAO POJO po
JAVA几种对象的解释 PO:persistant object持久对象,可以看成是与数据库中的表相映射的java对象。最简单的PO就是对应数据库中某个表中的一条记录，多个记录可以用PO的集合。PO中应该不包含任何对数据库的操作. VO:value object值对象。通常用于业务层之间的数据传递，和PO一样也是仅仅包含数据而已。但应是抽象出的业务对象,可
java设计模式 kerryg java 设计模式
设计模式的分类：一、设计模式总体分为三大类： 1、创建型模式（5种）：工厂方法模式，抽象工厂模式，单例模式，建造者模式，原型模式。 2、结构型模式（7种）：适配器模式，装饰器模式，代理模式，外观模式，桥接模式，组合模式，享元模式。 3、行为型模式（11种）：策略模式，模版方法模式，观察者模式，迭代子模式，责任链模式，命令模式，备忘录模式，状态模式，访问者
[1]CXF3.1整合Spring开发webservice——helloworld篇木头.java spring webservice CXF
Spring 版本3.2.10 CXF 版本3.1.1 项目采用MAVEN组织依赖jar 我这里是有parent的pom，为了简洁明了，我直接把所有的依赖都列一起了，所以都没version，反正上面已经写了版本 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="ht
Google 工程师亲授：菜鸟开发者一定要投资的十大目标 qindongliang1922 工作感悟人生
身为软件开发者，有什么是一定得投资的？ Google 软件工程师 Emanuel Saringan 整理了十项他认为必要的投资，第一项就是身体健康，英文与数学也都是必备能力吗？来看看他怎么说。（以下文字以作者第一人称撰写））你的健康无疑地，软件开发者是世界上最久坐不动的职业之一。每天连坐八到十六小时，休息时间只有一点点，绝对会让你的鲔鱼肚肆无忌惮的生长。肥胖容易扩大罹患其他疾病的风险，
linux打开最大文件数量1,048,576 tianzhihehe c linux
File descriptors are represented by the C int type. Not using a special type is often considered odd, but is, historically, the Unix way. Each Linux process has a maximum number of files th
java语言中PO、VO、DAO、BO、POJO几种对象的解释衞酆夼 java VO BO POJO po
PO:persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。可以看成是与数据库中的表相映射的java对象。最简单的PO就是对应数据库中某个表中的一条记录，多个记录可以用PO的集合。PO中应该不包含任何对数据库的操作。 BO:business object业务对象封装业务逻辑的java对象