大模型Maynor

基于Flume+Kafka+Hbase+Flink+FineBI的实时综合案例(三)离线分析

文章目录

- 08：离线分析：Hbase表设计及构建
- 09：离线分析：Kafka消费者构建
- 10：离线分析：Hbase连接构建
- 11：离线分析：Rowkey的构建
- 12：离线分析：Put数据列构建
- 13：离线分析：存储运行测试
- 14：离线分析：Hive关联测试
- 15：离线分析：Phoenix关联测试

08：离线分析：Hbase表设计及构建

目标：掌握Hbase表的设计及创建表的实现
路径
- step1：基础设计
- step2：Rowkey设计
- step3：分区设计
- step4：建表
实施
- 基础设计
  - Namespace：MOMO_CHAT
  - Table：MOMO_MSG
  - Family：C1
  - Qualifier：与数据中字段名保持一致
- Rowkey设计
  - 查询需求：根据发件人id + 收件人id + 消息日期查询聊天记录
    - 发件人账号
    - 收件人账号
    - 时间
  - 设计规则：业务、唯一、长度、散列、组合
  - 设计实现
    - 加盐方案：CRC、Hash、MD5、MUR
    - => 8位、16位、32位
```
MD5Hash【发件人账号_收件人账号_消息时间 =》 8位】_发件人账号_收件人账号_消息时间
```
- 分区设计
  - Rowkey前缀：MD5编码，由字母和数字构成
  - 数据并发量：高
  - 分区设计：使用HexSplit16进制划分多个分区
- 建表
  - 启动Hbase：start-hbase.sh
  - 进入客户端：hbase shell
```
#创建NS
create_namespace 'MOMO_CHAT'
#建表
create 'MOMO_CHAT:MOMO_MSG', {NAME => "C1", COMPRESSION => "GZ"}, { NUMREGIONS => 6, SPLITALGO => 'HexStringSplit'}
```
小结
- 掌握Hbase表的设计及创建表的实现

09：离线分析：Kafka消费者构建

目标：实现离线消费者的开发

路径

整体实现的路径

//入口：调用实现消费Kafka，将数据写入Hbase
public void main(){
    //step1:消费Kafka
    consumerKafka();
    
}

//用于消费Kafka数据
public void consumerKafka(){
    prop = new Properties()
	KafkaConsumer consumer = new KafkaConsumer(prop)
    consumer.subscribe("MOMO_MSG")
    ConsumerRecords  records = consumer.poll
    //基于每个分区来消费和处理
        record ：Topic、Partition、Offset、Key、Value
    	//step2:写入Hbase
        writeToHbase(value)
    //提交这个分区的offset
     commitSycn(offset+1)
}


//用于将value的数据写入Hbase方法
public void writeToHbase(){
    //step1：构建连接
    //step2：构建Table对象
    //step3：构建Put对象
    //获取rowkey
   rowkey = getRowkey(value)
    Put put = new Put(rowkey)
    put.添加每一列
    table.put()
}

public String getRowkey(){
    value.getSender
    value.getReceiver
    value.getTime
        rowkey = MD5+sender+receiverId +time
        return rowkey
}

实施

    /**
     * 用于消费Kafka的数据，将合法数据写入Hbase
     */
    private static void consumerKafkaToHbase() throws Exception {
        //构建配置对象
        Properties props = new Properties();
        //指定服务端地址
        props.setProperty("bootstrap.servers", "node1:9092,node2:9092,node3:9092");
        //指定消费者组的id
        props.setProperty("group.id", "momo");
        //关闭自动提交
        props.setProperty("enable.auto.commit", "false");
        //指定K和V反序列化的类型
        props.setProperty("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        props.setProperty("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        //构建消费者的连接
        KafkaConsumer<String, String> consumer = new KafkaConsumer<>(props);
        //指定订阅哪些Topic
        consumer.subscribe(Arrays.asList("MOMO_MSG"));
        //持续拉取数据
        while (true) {
            //向Kafka请求拉取数据，等待Kafka响应，在100ms以内如果响应，就拉取数据，如果100ms内没有响应，就提交下一次请求： 100ms为等待Kafka响应时间
            //拉取到的所有数据：多条KV数据都在ConsumerRecords对象，类似于一个集合
            ConsumerRecords<String, String> records = consumer.poll(Duration.ofMillis(100));
            //todo:3-处理拉取到的数据：打印
            //取出每个分区的数据进行处理
            Set<TopicPartition> partitions = records.partitions();//获取本次数据中所有分区
            //对每个分区的数据做处理
            for (TopicPartition partition : partitions) {
                List<ConsumerRecord<String, String>> partRecords = records.records(partition);//取出这个分区的所有数据
                //处理这个分区的数据
                long offset = 0;
                for (ConsumerRecord<String, String> record : partRecords) {
                    //获取Topic
                    String topic = record.topic();
                    //获取分区
                    int part = record.partition();
                    //获取offset
                    offset = record.offset();
                    //获取Key
                    String key = record.key();
                    //获取Value
                    String value = record.value();
                    System.out.println(topic + "\t" + part + "\t" + offset + "\t" + key + "\t" + value);
                    //将Value数据写入Hbase
                    if(value != null && !"".equals(value) && value.split("\001").length == 20 ){
                        writeToHbase(value);
                    }
                }
                //手动提交分区的commit offset
                Map<TopicPartition, OffsetAndMetadata> offsets = Collections.singletonMap(partition,new OffsetAndMetadata(offset+1));
                consumer.commitSync(offsets);
            }
        }
    }

小结
- 实现离线消费者的开发

10：离线分析：Hbase连接构建

目标：实现Hbase连接的构建

实施

    private static SimpleDateFormat format = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");
	private static Connection conn;
    private static Table table;
    private static TableName tableName = TableName.valueOf("MOMO_CHAT:MOMO_MSG");//表名
    private static byte[] family = Bytes.toBytes("C1");//列族

    // 静态代码块: 随着类的加载而加载,一般只会加载一次,避免构建多个连接影响性能
    static{
        try {
            //构建配置对象
            Configuration conf = HBaseConfiguration.create();
            conf.set("hbase.zookeeper.quorum","node1:2181,node2:2181,node3:2181");
            //构建连接
            conn = ConnectionFactory.createConnection(conf);
            //获取表对象
            table = conn.getTable(tableName);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

小结
- 实现Hbase连接的构建

11：离线分析：Rowkey的构建

目标：实现Rowkey的构建

实施

private static String getMomoRowkey(String stime, String sender_accounter, String receiver_accounter) throws Exception {
        //转换时间戳
        long time = format.parse(stime).getTime();
        String suffix = sender_accounter+"_"+receiver_accounter+"_"+time;
        //构建MD5
        String prefix = MD5Hash.getMD5AsHex(Bytes.toBytes(suffix)).substring(0,8);
        //合并返回
        return prefix+"_"+suffix;
    }

小结
- 实现Rowkey的构建

12：离线分析：Put数据列构建

目标：实现Put数据列的构建

实施

put.addColumn(Bytes.toBytes("C1"),Bytes.toBytes("msg_time"),Bytes.toBytes(items[0]));
put.addColumn(Bytes.toBytes("C1"),Bytes.toBytes("sender_nickyname"),Bytes.toBytes(items[1]));
put.addColumn(Bytes.toBytes("C1"),Bytes.toBytes("sender_account"),Bytes.toBytes(items[2]));
put.addColumn(Bytes.toBytes("C1"),Bytes.toBytes("sender_sex"),Bytes.toBytes(items[3]));
put.addColumn(Bytes.toBytes("C1"),Bytes.toBytes("sender_ip"),Bytes.toBytes(items[4]));
put.addColumn(Bytes.toBytes("C1"),Bytes.toBytes("sender_os"),Bytes.toBytes(items[5]));
put.addColumn(Bytes.toBytes("C1"),Bytes.toBytes("sender_phone_type"),Bytes.toBytes(items[6]));
put.addColumn(Bytes.toBytes("C1"),Bytes.toBytes("sender_network"),Bytes.toBytes(items[7]));
put.addColumn(Bytes.toBytes("C1"),Bytes.toBytes("sender_gps"),Bytes.toBytes(items[8]));
put.addColumn(Bytes.toBytes("C1"),Bytes.toBytes("receiver_nickyname"),Bytes.toBytes(items[9]));
put.addColumn(Bytes.toBytes("C1"),Bytes.toBytes("receiver_ip"),Bytes.toBytes(items[10]));
put.addColumn(Bytes.toBytes("C1"),Bytes.toBytes("receiver_account"),Bytes.toBytes(items[11]));
put.addColumn(Bytes.toBytes("C1"),Bytes.toBytes("receiver_os"),Bytes.toBytes(items[12]));
put.addColumn(Bytes.toBytes("C1"),Bytes.toBytes("receiver_phone_type"),Bytes.toBytes(items[13]));
put.addColumn(Bytes.toBytes("C1"),Bytes.toBytes("receiver_network"),Bytes.toBytes(items[14]));
put.addColumn(Bytes.toBytes("C1"),Bytes.toBytes("receiver_gps"),Bytes.toBytes(items[15]));
put.addColumn(Bytes.toBytes("C1"),Bytes.toBytes("receiver_sex"),Bytes.toBytes(items[16]));
put.addColumn(Bytes.toBytes("C1"),Bytes.toBytes("msg_type"),Bytes.toBytes(items[17]));
put.addColumn(Bytes.toBytes("C1"),Bytes.toBytes("distance"),Bytes.toBytes(items[18]));
put.addColumn(Bytes.toBytes("C1"),Bytes.toBytes("message"),Bytes.toBytes(items[19]));

小结
- 实现Put数据列的构建

13：离线分析：存储运行测试

目标：测试运行消费Kafka数据动态写入Hbase

实施

启动消费者程序

启动Flume程序

cd /export/server/flume-1.9.0-bin
bin/flume-ng agent -c conf/ -n a1 -f usercase/momo_mem_kafka.properties -Dflume.root.logger=INFO,console

启动模拟数据

java -jar /export/data/momo_init/MoMo_DataGen.jar \
/export/data/momo_init/MoMo_Data.xlsx \
/export/data/momo_data/ \
10

观察Hbase结果

小结
- 测试运行消费Kafka数据动态写入Hbase

14：离线分析：Hive关联测试

目标：使用Hive关联Hbase实现离线分析
路径
- step1：关联
- step2：查询

实施

启动Hive和yarn

start-yarn.sh
hive-daemon.sh metastore
hive-daemon.sh hiveserver2
start-beeline.sh

关联

create database MOMO_CHAT;
use MOMO_CHAT;
create external table if not exists MOMO_CHAT.MOMO_MSG (
  id string,
  msg_time string ,
  sender_nickyname string , 
  sender_account string , 
  sender_sex string , 
  sender_ip string ,
  sender_os string , 
  sender_phone_type string ,
  sender_network string , 
  sender_gps string , 
  receiver_nickyname string ,
  receiver_ip string ,
  receiver_account string ,
  receiver_os string ,
  receiver_phone_type string ,
  receiver_network string ,
  receiver_gps string ,
  receiver_sex string ,
  msg_type string ,
  distance string ,
  message string 
) stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' 
with serdeproperties('hbase.columns.mapping'=':key,C1:msg_time,C1:sender_nickyname, 
C1:sender_account,C1:sender_sex,C1:sender_ip,C1:sender_os,C1:sender_phone_type,
C1:sender_network,C1:sender_gps,C1:receiver_nickyname,C1:receiver_ip,C1:receiver_account,
C1:receiver_os,C1:receiver_phone_type,C1:receiver_network,C1:receiver_gps,C1:receiver_sex,
C1:msg_type,C1:distance,C1:message ') tblproperties('hbase.table.name'='MOMO_CHAT:MOMO_MSG');

分析查询

--基础查询
select 
  msg_time,sender_nickyname,receiver_nickyname,distance 
from momo_msg limit 10;

--查询聊天记录：发送人id + 接收人id + 日期：1f300e5d_13280256412_15260978785_1632888342000
select 
  * 
from momo_msg 
where sender_account='13280256412' 
and receiver_account='15260978785' 
and substr(msg_time,0,10) = '2021-09-29';

--统计每个小时的消息数
select
  substr(msg_time,0,13) as hour,
  count(*) as cnt
from momo_msg
group by substr(msg_time,0,13);

小结
- 使用Hive关联Hbase实现离线分析

15：离线分析：Phoenix关联测试

目标：使用Phoenix关联Hbase实现即时查询
路径
- step1：关联
- step2：查询

实施

启动

cd /export/server/phoenix-5.0.0-HBase-2.0-bin/
bin/sqlline.py node1:2181

关联

create view if not exists MOMO_CHAT.MOMO_MSG (
  "id" varchar primary key,
  C1."msg_time" varchar ,
  C1."sender_nickyname" varchar , 
  C1."sender_account" varchar , 
  C1."sender_sex" varchar , 
  C1."sender_ip" varchar ,
  C1."sender_os" varchar , 
  C1."sender_phone_type" varchar ,
  C1."sender_network" varchar , 
  C1."sender_gps" varchar , 
  C1."receiver_nickyname" varchar ,
  C1."receiver_ip" varchar ,
  C1."receiver_account" varchar ,
  C1."receiver_os" varchar ,
  C1."receiver_phone_type" varchar ,
  C1."receiver_network" varchar ,
  C1."receiver_gps" varchar ,
  C1."receiver_sex" varchar ,
  C1."msg_type" varchar ,
  C1."distance" varchar ,
  C1."message" varchar
);

即时查询

--基础查询
select 
  "id",c1."sender_account",c1."receiver_account" 
from momo_chat.momo_msg 
limit 10;

--查询每个发送人发送的消息数
select 
  c1."sender_account" ,
  count(*) as cnt 
from momo_chat.momo_msg 
group by c1."sender_account";

--查询每个发送人聊天的人数
select 
  c1."sender_account" ,
  count(distinct c1."receiver_account") as cnt 
from momo_chat.momo_msg 
group by c1."sender_account" 
order by cnt desc;

小结
- 使用Phoenix关联Hbase实现即时查询

如何自己设计一个类似Dubbo的RPC框架？赵广陆 dubbo rpc java 网络协议
1问题分析:如何自己设计一个类似Dubbo的RPC框架？说实话，就这问题，其实就跟问你如何自己设计一个MQ一样的道理，就考两个：你有没有对某个rpc框架原理有非常深入的理解。你能不能从整体上来思考一下，如何设计一个rpc框架，考考你的系统设计能力。2面试题回答:其实问到你这问题，你起码不能认怂，因为是知识的扫盲，那我不可能给你深入讲解什么kafka源码剖析，dubbo源码剖析，何况我就算讲了，你要
被怼了：acks=all消息也会丢失？ java
消息队列是面试中一定会被问到的技术模块，虽然它在面试题占比不及并发编程和数据库，但也属于面试中的关键性问题。所以今天我们就来看一道，MQ中高频，但可能会打破你以往认知的一道面试题。所谓的关键问题指的是这道面试题会影响你整体面试结果。我们在面试消息队列（MessageQueue，MQ）时，尤其是面试Kafka时，经常会被问到：如何保证消息不丢失？那么，我们的回答会分为以下3部分：保证生产者消息不丢失
TDengine 做为 FLINK 数据源技术参考手册 TDengine （老段） tdengine flink 大数据涛思数据时序数据库数据库
ApacheFlink是一款由Apache软件基金会支持的开源分布式流批一体化处理框架，可用于流处理、批处理、复杂事件处理、实时数据仓库构建及为机器学习提供实时数据支持等诸多大数据处理场景。与此同时，Flink拥有丰富的连接器与各类工具，可对接众多不同类型的数据源实现数据的读取与写入。在数据处理的过程中，Flink还提供了一系列可靠的容错机制，有力保障任务即便遭遇意外状况，依然能稳定、持续运行。借
Hadoop HA 架构 weixin_30569033 shell 大数据
为什么要用集群?企业里面,多台机器伪分布式每一个角色都是一个进程HDFS:NNSNNDNYARN:RMNM大数据所有组件,都是主从架构master-slaveHDFS读写请求都是先到NN节点,但是,HBase读写请求不是经过master,建表和删除表是需要经过masterNN节点挂了,就不能提供对外服务(-put,-get)需要配置两个NN节点(实时的,任何时刻只有一台active对外,另外一台是
【1】阿里面试题整理独自破碎E Java面经 c#java kafka mybatis hash
[1].Kafka如何保证数据一致性？Kafka主要通过副本机制、ISR机制、持久化机制以及事务机制等多种方式共同保证了数据的一致性。副本机制是Kafka确保数据一致性的基础，使用ISR(In-SyncReplica)机制来处理副本之间的同步，将消息持久化到硬盘中，以确保消息在发生故障时不会丢失。引入事务机制来支持事务性消息，确保消息的原子性、一致性、隔离性和持久性，从而保证数据在生产和消费过程中
Kafka 如何实现高性能言之。架构面试 kafka 分布式
1.高吞吐量的设计分布式架构：Kafka通过分布式的集群架构设计来横向扩展，提高吞吐量。多个生产者、消费者和节点可以同时并行工作，分担流量负载。分区机制：Kafka使用分区来分散负载，每个topic可以有多个分区，每个分区可以独立处理读写操作。消费者可以并行地处理多个分区的数据，从而提升性能。分区内部的消息顺序性得到保证，但多个分区之间消息顺序不保证，这种设计能够实现高并发的处理。2.顺序写入与高
林子雨《大数据技术原理与应用》第五讲——NoSQL数据库天才代号23 大数据数据库 hadoop nosql 大数据
林子雨《大数据技术原理与应用》第五讲——NoSQL数据库林子雨《大数据技术原理与应用》第五讲笔记NoSQL数据库特点灵活的可扩展性灵活的数据模型和云计算结合查询性能差未形成通用的行业标准维护更加复杂NoSQL数据库有四大类型键值数据库：redis列族数据库：HBase、Cassandra文档数据库：MongoDB图数据库：Neo4j键值数据库数据模型：键是一个字符串对象，值可以是任意类型的对象典型
Debezium系列之：debezium把sqlserver数据库多张表的数据发送到一个kafka topic 快乐骑行^_^ debezium Debezium sqlserver数据库 kafka topic
Debezium系列之：debezium把sqlserver数据库多张表的数据发送到一个kafkatopic一、需求二、debezium实现sqlservercdc三、相关参数详解四、完整参数一、需求把一个sqlserver数据库多张表的数据全部发送到kafka集群的一个topic二、debezium实现sqlservercdc相关技术实现参考博主以下几篇博客：Debezium系列之：安装部署de
MySql-MySqlConnector DataLu MySql-debezium mysql 数据库数据库开发大数据开源 java
提示：MySqlConnector类的主要职责是从MySQL数据库中捕获数据变更，并将这些变更以事件的形式发布到Kafka中。这使得下游的应用程序可以通过订阅Kafka主题来实时获取MySQL数据库中的变更信息。文章目录前言一、核心功能二、代码分析总结前言提示：MySqlConnector类是一个关键组件，它负责设置和管理整个数据捕获流程，从配置到数据库连接，再到数据变更事件的捕获和发送。这对于实
DB2-Db2StreamingChangeEventSource DataLu DB2-debezium 数据库数据库开发大数据开源
提示：Db2StreamingChangeEventSource类主要用于从IBMDb2数据库中读取变更数据捕获(CDC,ChangeDataCapture)信息。CDC是一种技术，允许系统跟踪数据库表中数据的更改，这些更改可以是插入、更新或删除操作。在大数据和实时数据处理场景中，CDC可以用来同步数据到其他系统，比如数据仓库、数据湖或者流处理平台如ApacheKafka。文章目录前言一、核心功能
kakfa-消息不丢失华东算法王（原聪明的小孩子 facebook twitter 机器学习新浪微博微信公众平台
Kafka作为一个分布式流处理平台，设计时就高度关注消息的可靠性和不丢失，确保在分布式环境下即使发生故障，消息也不会丢失。Kafka的消息不丢失主要依赖以下几个机制：1.消息持久化Kafka保证消息在磁盘上的持久化，即使在系统崩溃的情况下，消息仍然可以恢复。这一机制是Kafka消息不丢失的基础。•写入日志文件：每个Kafka分区都将消息按顺序追加到磁盘上的日志文件中（logsegment）。这种顺
一. spring cloud gateway集成 spring cloud stream binder kafka，实现“动态路由“刷新与加载之采坑记录 yanfei_1986 spring cloud gateway cloud stream kafka
一、前言SpringCloudStream是用于构建消息驱动的微服务应用程序的框架。本文主要介绍如何集成SpringCloudStream，以Kafka发布订阅模式(topic)，实现发送消息>>消费消息。我所找到的帖子大部分都是关于binderRabbitMQ，后来又拜读了官方文档(google翻译)，逐渐对SpringCloudStream有了清晰的认识。真正集成时，并没有那么顺利；我看别人都
Kafka 压缩算法详细介绍王多鱼的梦想～ kafka 分布式运维 apache
文章目录一、Kafka压缩算法概述二、Kafka压缩的作用2.1降低网络带宽消耗2.2提高Kafka生产者和消费者吞吐量2.3减少Kafka磁盘存储占用2.4减少KafkaBroker负载2.5降低跨数据中心同步成本三、Kafka压缩的原理3.1Kafka压缩的基本原理3.2.Kafka压缩的工作流程3.3Kafka压缩的数据存储格式四、Kafka压缩方式配置4.1Kafka生产者（Produce
LEO、LSO、AR、ISR、HW都表示什么含义？ jasen91 kafka 大数据
LEO（LogEndOffset）：日志末端位移值或末端偏移量，表示日志下一条待插入消息的位移值。举个例子，如果日志有10条消息，位移值从0开始，那么，第10条消息的位移值就是9。此时，LEO=10。LSO（LogStableOffset）：这是Kafka事务的概念。如果你没有使用到事务，那么这个值不存在（其实也不是不存在，只是设置成一个无意义的值）。该值控制了事务型消费者能够看到的消息范围。它经
Kafka常见问题之 org.apache.kafka.common.errors.RecordTooLargeException 王多鱼的梦想～ Kafka修炼手册 kafka apache 分布式运维
文章目录Kafka常见问题之org.apache.kafka.common.errors.RecordTooLargeException:Themessageis1,048,576byteswhenserializedwhichislargerthanthemaximumrequestsize.1.错误解析2.错误原因3.错误复现案例3.1生产者发送超大消息4.解决方案4.1方法1：调整Kafka
Kafka常见问题之Kafka 报错：org.apache.kafka.common.errors.NotLeaderOrFollowerException 王多鱼的梦想～ Kafka修炼手册 kafka 分布式
Kafka常见问题之Kafka报错：org.apache.kafka.common.errors.NotLeaderOrFollowerException文章目录Kafka常见问题之Kafka报错：org.apache.kafka.common.errors.NotLeaderOrFollowerException0.NotLeaderOrFollowerException描述1.NotLeade
RabbitMQ面试题汇总 Blocking The Sky 项目 rabbitmq java rabbitmq 分布式 java spring boot
RabbitMQ面试题一、RabbitMQ基础1.什么是RabbitMQ，它的基本架构是怎样的？2.RabbitMQ支持哪些协议？3.说一下AMQP协议？4.为什么要使用RabbitMQ？5.MQ的应用场景有哪些？6.解耦、异步、削峰是什么？7.消息队列有什么缺点？8.Kafka、ActiveMQ、RabbitMQ、RocketMQ有什么优缺点？9.简单说一下RabbitMQ的缺点？10.说说Ra
Apache Flink流处理框架 weixin_44594317 apache flink 大数据
ApacheFlink是一个分布式流处理框架和数据处理引擎，专注于以低延迟和高吞吐量处理无界和有界的数据流。它可以同时处理流式数据和批处理数据，并且提供强大的容错机制和状态管理功能。Flink常用于实时分析、复杂事件处理（CEP）、机器学习和批量数据处理等场景。1.Flink的核心概念在理解Flink的工作原理之前，先要了解它的一些核心概念：流处理(StreamProcessing)：处理数据流中
使用Flink进行流式图处理 AI天才研究院大数据AI人工智能 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
使用Flink进行流式图处理1.背景介绍1.1大数据时代的到来随着互联网、物联网和移动互联网的快速发展,数据呈现出爆炸式增长。根据IDC的预测,到2025年,全球数据量将达到175ZB。传统的批处理系统已经无法满足对实时数据处理的需求。因此,流式计算应运而生,成为大数据处理的重要组成部分。1.2流式计算的概念流式计算是一种新兴的数据处理范式,它能够持续不断地处理来自各种数据源的数据流。与传统的批处
Flink流式计算入门 @Rocky Flink flink 大数据
什么是流式计算流式计算是一种实时处理和分析大规模数据流的计算方法，其核心思想是将数据视为连续流动的序列，而不是静态存储的数据。与传统的批处理计算不同，流式计算能够在数据生成的同时进行处理，提供及时的结果。核心概念数据流：流式计算中的基本单位，表示一系列动态生成的数据。数据流可以来自传感器、网络请求、用户行为等多种来源。计算流：在数据流上进行的各种计算操作，如过滤、聚合和转换等。这些操作实时进行，并
【使用Apache Flink 实现滑动窗口流式计算】我明天再来学Web渗透后端技术总结 apache flink linq 开发语言
什么是Flink？ApacheFlink是一个用于分布式流式处理和批处理的开源实时计算引擎。它具备低延迟、高吞吐量和exactly-once语义的特点，适用于各种实时数据处理场景。Flink的核心概念作业（Job）：Flink程序的执行单元。数据流（DataStream）：表示连续的数据流，可以进行转换和计算。窗口（Window）：用于对无限数据流进行有界的数据切片处理。状态（State）：用于保
一个真正可用的docker-compse部署单机版kafka 版本2.x garen_dimon 软件研究 docker kafka 容器
注意：kafka3.x版本，Kafka3.x需要Java11或更高版本。确保系统已安装合适的Java版本。Kafka3.x推荐使用ZooKeeper3.5.x或更高版本。确保ZooKeeper集群与Kafka版本兼容。如果你计划使用KRaft模式替换传统的ZooKeeper模式，请确保你已经了解新模式的要求和配置。在网上搜索单机docker-compose部署kafka，出现最多的内容如下：ver
Docker-Compose以KRaft模式快速部署Kafka LUCIAZZZ docker kafka 容器 java 运维 spring boot
我们创建一个docker-compose.yaml文件然后后台启动我们的DockerComposedocker-composeup-d我们修改配置后可以关闭后重启docker-composedowndocker-compose.yaml文件内容version:"3"services:kafka:image:'bitnami/kafka:latest'user:rootenvironment:-KA
Kafka（一）使用Docker Compose安装单机Kafka以及Kafka UI_docker 部署单机kafka 2401_84166396 2024年程序员学习 kafka docker ui
开启JMX监控JMX_PORT=9998KAFKA_JMX_OPTS=-Dcom.sun.management.jmxremote-Dcom.sun.management.jmxremote.authenticate=false-Dcom.sun.management.jmxremote.ssl=false-Djava.rmi.server.hostname=kafka-Dcom.sun.mana
Kafka 副本 leader 是怎么选举的？？思维导图代码示例（java 架构) 用心去追梦 kafka java 架构
Kafka中的副本（Replica）Leader选举是确保数据高可用性和容错性的重要机制。当一个分区的Leader副本不可用时，Kafka需要从该分区的ISR（In-SyncReplicas）列表中选择一个新的Leader来继续处理生产者和消费者的请求。ISR列表包含所有与Leader保持同步的副本。Kafka副本Leader选举思维导图KafkaReplicaLeaderElection├──触
Kafka 深入客户端 — 事务黄名富微服务 kafka 分布式 java 微服务 zookeeper
Kafka事务确保了数据在写入Kafka时的原子性和一致性。1幂等幂等就是对接口的多次调用所产生的结果和调用一次是一致的。Kafka生产者在进行重试的时候可能会写入重复的消息，开启幂等性功能后就可以避免这种情况。将生产者客户端参数enable.idempotence设置为true即可。1.1实现原理Kafka引入了producerid（简称PID）和序列号（sequencenumber）这两个概念
Kafka原理总结 DEMOAHUI mq中间件 kafka
Kafka是一个开源的分布式流式处理平台，在这个平台上可以发布、订阅以及处理数据流，具有强大的吞吐能力，让Kafka成为了一个高性能的发布与订阅消息系统一：概念理解Broker部署Kafka进程的服务被称之为Broker，Broker会接收Producer的消息，持久化到本地，然后Comsumer通Pull的形式进行消息拉取，通常使用集群的形式进行部署Producer生产者，即发送消息的一方，往B
kafka系列-日志存储 chayangdz Kafka Kafka
kafka中的消息，是以主题进行归类的，每个主题分为一个或多个分区，主题和分区是逻辑上的概念。消息在发送时，会按照规则追加到其中一个分区中。分区里的每一条消息，都会被分配一个唯一的序列号，也就是偏移量（offset）分区是逻辑上的概念，往分区追加消息时，其实是写到日志（Log）中，为了防止日志过大，kafka还有日志分段（LogSegment）的概念，Log在物理上是以文件夹的形式存储，每个Log
阿里巴巴大数据系统体系架构大连赵哥大数据架构
数据应用层：这是最顶层，面向不同的用户群体提供服务，包括对内（公司内部使用）、对平台（平台用户）、对商家（商家使用）、对公众（普通消费者）。数据服务与基础工具层：这一层提供了一些基础服务和工具，例如：OneService：可能是一种服务或工具，用于统一数据服务。TDDL+MySQL：TDDL是淘宝分布式数据层的缩写，与MySQL结合使用，提供数据库服务。HBase：一个分布式列存储系统，适合于存储
基于Spark的实时计算服务的流程架构小小搬运工40 spark 大数据
基于Spark的实时计算服务的流程架构通常涉及多个组件和步骤，从数据采集到数据处理，再到结果输出和监控。以下是一个典型的基于Spark的实时计算服务的流程架构：1.数据源数据源是实时计算服务的起点，常见的数据源包括：消息队列：如Kafka、RabbitMQ、AmazonKinesis等。日志系统：如Flume、Logstash等。传感器数据：物联网设备产生的数据流。数据库变更数据捕获（CDC）：如
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache

基于Flume+Kafka+Hbase+Flink+FineBI的实时综合案例(三)离线分析

文章目录

08：离线分析：Hbase表设计及构建

09：离线分析：Kafka消费者构建

10：离线分析：Hbase连接构建

11：离线分析：Rowkey的构建

12：离线分析：Put数据列构建

13：离线分析：存储运行测试

14：离线分析：Hive关联测试

15：离线分析：Phoenix关联测试

你可能感兴趣的:(#,Flink,flume,kafka,hbase)