zxj19880502

Flink设置Source数据源使用kafka获取数据

流处理说明

有边界的流bounded stream:批数据

无边界的流unbounded stream:真正的流数据

Source

基于集合

package com.pzb.source;

import org.apache.flink.api.common.RuntimeExecutionMode;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;

import java.util.Arrays;

/**
 * Desc 演示DataStream-Source-基于集合
 */
public class SourceDemo01_Collection {
    public static void main(String[] args) throws Exception {
        //TODO 0.env
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        // 设置自动处理，不设置默认流处理
        env.setRuntimeMode(RuntimeExecutionMode.AUTOMATIC);

        //TODO 1.source
        DataStream ds1 = env.fromElements("hadoop spark flink", "hadoop spark flink");
        DataStream ds2 = env.fromCollection(Arrays.asList("hadoop spark flink", "hadoop spark flink"));
        DataStream ds3 = env.generateSequence(1, 100);//产生一个从1-100的有序数据	官方认为此方法已过时，建议使用下方的方法
        DataStream ds4 = env.fromSequence(1, 100);//产生一个从1-100的有序数据

        //TODO 2.transformation

        //TODO 3.sink
        ds1.print();
        ds2.print();
        ds3.print();
        ds4.print();

        //TODO 4.execute
        env.execute();
    }
}

基于文件

package com.pzb.source;

import org.apache.flink.api.common.RuntimeExecutionMode;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;

/**
 * Desc 演示DataStream-Source-基于本地/HDFS的文件/文件夹/压缩文件
 */
public class SourceDemo02_File {
    public static void main(String[] args) throws Exception {
        //TODO 0.env
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setRuntimeMode(RuntimeExecutionMode.AUTOMATIC);

        //TODO 1.source
        DataStream ds1 = env.readTextFile("data/input/words.txt");
        DataStream ds2 = env.readTextFile("data/input/dir");// 读取该目录下的所有文件
        DataStream ds3 = env.readTextFile("data/input/wordcount.txt.gz"); // 读取压缩包文件
        DataStream ds4 = env.readTextFile("hdfs://hadoop111:8020/data/input/words.txt");// 读hdfs文件


        //TODO 2.transformation

        //TODO 3.sink
        ds1.print();
        ds2.print();
        ds3.print();

        //TODO 4.execute
        env.execute();
    }
}

基于Socket

package com.pzb.source;

import org.apache.flink.api.common.RuntimeExecutionMode;
import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.util.Collector;

/**
 * Desc 演示DataStream-Source-基于Socket
 */
public class SourceDemo03_Socket {
    public static void main(String[] args) throws Exception {
        //TODO 0.env
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setRuntimeMode(RuntimeExecutionMode.AUTOMATIC);

        //TODO 1.source
        DataStream lines = env.socketTextStream("node1", 9999);// 不管怎么设置socketTextStream并行度,其并行度都为1


        //TODO 2.transformation
        /*SingleOutputStreamOperator words = lines.flatMap(new FlatMapFunction() {
            @Override
            public void flatMap(String value, Collector out) throws Exception {
                String[] arr = value.split(" ");
                for (String word : arr) {
                    out.collect(word);
                }
            }
        });

        words.map(new MapFunction>() {
            @Override
            public Tuple2 map(String value) throws Exception {
                return Tuple2.of(value,1);
            }
        });*/

        //注意:下面的操作将上面的2步合成了1步,直接切割单词并记为1返回
        SingleOutputStreamOperator> wordAndOne = lines.flatMap(new FlatMapFunction>() {
            @Override
            public void flatMap(String value, Collector> out) throws Exception {
                String[] arr = value.split(" ");
                for (String word : arr) {
                    out.collect(Tuple2.of(word, 1));
                }
            }
        });

        SingleOutputStreamOperator> result = wordAndOne.keyBy(t -> t.f0).sum(1);

        //TODO 3.sink
        result.print();

        //TODO 4.execute
        env.execute();
    }
}

基于Kafka

addSource

首先添加相关依赖

		
            org.apache.flink
            flink-connector-kafka_2.11
            1.13.6

package com.peng.kafka_;

import org.apache.flink.api.common.RuntimeExecutionMode;
import org.apache.flink.api.common.serialization.SimpleStringSchema;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer;

import java.util.Properties;

/**
 * @author 海绵先生
 * @Description TODO Source对接Kafka
 * @date 2022/10/11-17:07
 */
public class KafkaComsumerDemo {
    public static void main(String[] args) throws Exception {
        //TODO 0.env
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setRuntimeMode(RuntimeExecutionMode.AUTOMATIC);

        //TODO 1.source
        //准备kafka连接参数
        Properties props  = new Properties();
        props.setProperty("bootstrap.servers", "hadoop111:9092");//集群地址
        props.setProperty("group.id", "flink");//消费者组id
        props.setProperty("auto.offset.reset","latest");//latest有offset记录从记录位置开始消费,没有记录从最新的/最后的消息开始消费 /earliest有offset记录从记录位置开始消费,没有记录从最早的/最开始的消息开始消费
        props.setProperty("flink.partition-discovery.interval-millis","5000");//会开启一个后台线程每隔5s检测一下Kafka的分区情况,实现动态分区检测
        props.setProperty("enable.auto.commit", "true");//自动提交，设置offset
        props.setProperty("auto.commit.interval.ms", "2000");//自动提交的时间间隔
        //使用连接参数创建FlinkKafkaConsumer/kafkaSource
        FlinkKafkaConsumer kafkaSource = new FlinkKafkaConsumer("flink_kafka", new SimpleStringSchema(), props);// String泛型为当前存储数据的数据类型
        /*
        SimpleStringSchema接口：官方注释说 Very simple serialization schema for strings ：非常简单的字符串序列化架构。将数据序列化和反序列化成String类型，默认编码格式为UTF-8。
        */
        
        //使用kafkaSource
        DataStream kafkaDS = env.addSource(kafkaSource);
        

        //TODO 2.transformation

        //TODO 3.sink
        kafkaDS.print();

        //TODO 4.execute
        env.execute();
    }
}

Kafka存储的数据类型是字节数据类型，要想把字节数据类型转换成Java中对应的基本数据类型/类数据类型，需要进行反序列化操作。

自定义反序列化：

package com.peng.kafka_;

import com.alibaba.fastjson.JSON;
import lombok.AllArgsConstructor;
import lombok.Data;
import lombok.NoArgsConstructor;
import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.api.common.serialization.DeserializationSchema;
import org.apache.flink.api.common.serialization.SimpleStringSchema;
import org.apache.flink.api.common.typeinfo.TypeInformation;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer;
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaProducer;
import cn.hutool.json.JSONUtil;

import java.io.IOException;
import java.util.Properties;

/**
 * @author 海绵先生
 * @Description TODO    实现将Kafka里的Json数据消息转换成所对应的类
 * @date 2022/11/6-11:28
 */
public class Kafka_Sink_Source {
    @Data
    @AllArgsConstructor
    @NoArgsConstructor
    public static class People{
        private int id;
        private String name;
        private int age;
    }
    public static void main(String[] args) throws Exception {
        // env
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        // TODO sink    自定义生产数据，将数据传送到Kafka
        DataStreamSource peopleDataStreamSource = env.fromElements(new People(1, "zhangsan", 18),
                new People(2, "lisi", 20),
                new People(3, "wangwu", 22));
        Properties sinkProperties = new Properties();
        sinkProperties.setProperty("bootstrap.servers","hadoop111:9092");
        SingleOutputStreamOperator map = peopleDataStreamSource.map(new MapFunction() {
            @Override
            public String map(People value) throws Exception {//因为Kafka是识别不了Java里的数据类型的，因此要将其转换成String类型
                // 直接.toString也行，但是为了后面更好的反序列化，所以就转换成了JSONString
                return JSON.toJSONString(value);
            }
        });
        FlinkKafkaProducer sinkKafka = new FlinkKafkaProducer<>("flink_kafka", new SimpleStringSchema(), sinkProperties);
        map.addSink(sinkKafka);

        // TODO source 对接上一步，接收kafka数据
        Properties sourceProperties = new Properties();
        sourceProperties.setProperty("bootstrap.servers","hadoop111:9092");
        sourceProperties.setProperty("group.id", "flink");//消费者组id
        sourceProperties.setProperty("auto.offset.reset","latest");
        sourceProperties.setProperty("flink.partition-discovery.interval-millis","5000");
        sourceProperties.setProperty("enable.auto.commit", "false");//自动提交，设置offset
        sourceProperties.setProperty("auto.commit.interval.ms", "2000");//自动提交的时间间隔
        FlinkKafkaConsumer flink = new FlinkKafkaConsumer("flink_kafka", new DeserializationSchema() {
            @Override
            public TypeInformation getProducedType() {
                // 定义返回的类型
                return TypeInformation.of(People.class);
            }

            @Override
            public People deserialize(byte[] message) throws IOException {
                // 引入import cn.hutool.json.JSONUtil;
                // 将String类型的数据，通过key值转换成对用的class
                return JSONUtil.toBean(new String(message),People.class);
            }

            @Override
            public boolean isEndOfStream(People nextElement) {
                return false;
            }
        },sourceProperties);

        DataStreamSource peopleDataStreamSource1 = env.addSource(flink);

        peopleDataStreamSource1.print("反序列化结果：");// 反序列化结果：:2> Kafka_Sink_Source.People(id=1, name=zhangsan, age=18)

        env.execute();
    }

}

这样数据就具有类的操作了

自定义Source-随机订单数据

注意: lombok的使用

Rich代表“富”，它可以获得运行环境的上下文，并拥有一些生命周期的方法

open是 Rich Function 的初始化方法，也就是会开启一个算子的生命周期。当一个算子的实际工作方法例如 map()或者 filter()方法被调用之前，open()会首先被调用。所以像文件 IO 的创建，数据库连接的创建，配置文件的读取等等这样一次性的工作，都适合在 open()方法中完成。
close()方法，是生命周期中的最后一个调用的方法，类似于解构方法。一般用来做一些清理工作。
run()
cancel()
并且，每个transform方法都有对应的Rich抽象类

package com.pzb.source;

import lombok.AllArgsConstructor;
import lombok.Data;
import lombok.NoArgsConstructor;
import org.apache.flink.api.common.RuntimeExecutionMode;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.source.RichParallelSourceFunction;

import java.util.Random;
import java.util.UUID;

/**
 * Desc 演示DataStream-Source-自定义数据源
 * 需求:
 */
public class SourceDemo04_Customer {
    public static void main(String[] args) throws Exception {
        //TODO 0.env
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setRuntimeMode(RuntimeExecutionMode.AUTOMATIC);

        //TODO 1.source
        DataStream orderDS = env.addSource(new MyOrderSource()).setParallelism(2);

        //TODO 2.transformation

        //TODO 3.sink
        orderDS.print();

        //TODO 4.execute
        env.execute();
    }
    @Data
    @AllArgsConstructor
    @NoArgsConstructor
    public static class Order{
        private String id;
        private Integer userId;
        private Integer money;
        private Long createTime;
    }
    public static class MyOrderSource extends RichParallelSourceFunction{//Order为输出的数据类型

        private Boolean flag = true;
        //执行并生成数据
        @Override
        public void run(SourceContext ctx) throws Exception {//当线程启动时，会自动启动run方法
            Random random = new Random();
            while (flag) {
                //UUID是java.util包里的类，具有自定生成订单的功能
                String oid = UUID.randomUUID().toString();
                int userId = random.nextInt(3);
                int money = random.nextInt(101);
                long createTime = System.currentTimeMillis();
                ctx.collect(new Order(oid,userId,money,createTime));
                Thread.sleep(1000);
            }
        }

        //执行cancel命令的时候执行
        @Override
        public void cancel() {
            flag = false;
        }
    }
}

自定义Source-MySQL

package com.pzb.source;

import lombok.AllArgsConstructor;
import lombok.Data;
import lombok.NoArgsConstructor;
import org.apache.flink.api.common.RuntimeExecutionMode;
import org.apache.flink.configuration.Configuration;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.source.RichParallelSourceFunction;

import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.PreparedStatement;
import java.sql.ResultSet;

/**
 * Desc 演示DataStream-Source-自定义数据源-MySQL
 * 需求:
 */
public class SourceDemo05_Customer_MySQL {
    public static void main(String[] args) throws Exception {
        //TODO 0.env
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setRuntimeMode(RuntimeExecutionMode.AUTOMATIC);

        //TODO 1.source
        DataStream studentDS = env.addSource(new MySQLSource()).setParallelism(1);

        //TODO 2.transformation

        //TODO 3.sink
        studentDS.print();

        //TODO 4.execute
        env.execute();
    }

   /*
   CREATE TABLE `t_student` (
    `id` int(11) NOT NULL AUTO_INCREMENT,
    `name` varchar(255) DEFAULT NULL,
    `age` int(11) DEFAULT NULL,
    PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=7 DEFAULT CHARSET=utf8;

INSERT INTO `t_student` VALUES ('1', 'jack', '18');
INSERT INTO `t_student` VALUES ('2', 'tom', '19');
INSERT INTO `t_student` VALUES ('3', 'rose', '20');
INSERT INTO `t_student` VALUES ('4', 'tom', '19');
INSERT INTO `t_student` VALUES ('5', 'jack', '18');
INSERT INTO `t_student` VALUES ('6', 'rose', '20');
    */

    @Data
    @NoArgsConstructor
    @AllArgsConstructor
    public static class Student {
        private Integer id;
        private String name;
        private Integer age;
    }
    
	// 貌似这些方法都会自动调用？？？是线程？
    public static class MySQLSource extends RichParallelSourceFunction {
        private boolean flag = true;
        // 数据库的连接对象
        private Connection conn = null;
        private PreparedStatement ps =null;
        private ResultSet rs  = null;
        //open只执行一次,适合开启资源
        @Override
        public void open(Configuration parameters) throws Exception {
            conn = DriverManager.getConnection("jdbc:mysql://localhost:3306/bigdata", "root", "root");
            String sql = "select id,name,age from t_student";
            ps = conn.prepareStatement(sql);// 执行SQL语句
        }

        //open后会启动run方法
        @Override
        public void run(SourceContext ctx) throws Exception {
            while (flag) {// 先设置死循环，让程序持续读取数据，调用cancel时，破除死循环
                rs = ps.executeQuery();//executeQuery会把数据库响应的查询结果存放在ResultSet类对象中供我们使用。
                while (rs.next()) {// 遍历Set里的值
                    int id = rs.getInt("id");//根据列标签获取对应的值
                    String name = rs.getString("name");
                    int age  = rs.getInt("age");
                    ctx.collect(new Student(id,name,age));
                }
                Thread.sleep(5000);
            }
        }

        //接收到cancel命令时取消数据生成
        @Override
        public void cancel() {
            flag = false;
        }

        //close里面关闭资源
        @Override
        public void close() throws Exception {
            if(conn != null) conn.close();
            if(ps != null) ps.close();
            if(rs != null) rs.close();

        }
    }

}

大数据经典技术解析：Hadoop+Spark大数据分析原理与实践 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介大数据时代已经来临。随着互联网、移动互联网、物联网等新兴技术的出现，海量数据开始涌现。而在这些海量数据的基础上进行有效的处理，成为迫切需要解决的问题之一。ApacheHadoop和ApacheSpark是目前主流开源大数据框架。由于其易于部署、高容错性、并行计算能力强、适应数据量大、可编程、社区支持广泛等特点，大大提升了大数据应用的效率和效果。本文通过对Hado
python读取redis大数据_大数据系列——Redis学习笔记 weixin_39661345
1.Redis的简介Redis是一个开源(BSD许可)，内存存储的数据结构服务器,可用作数据库，高速缓存和消息队列代理它支持字符串、哈希表、列表、集合、有序集合，位图，hyperloglogs等数据类型内置复制、Lua脚本、LRU收回、事务以及不同级别磁盘持久化功能，同时通过RedisSentinel提供高可用，通过RedisCluster提供自动分区。简言之，Redis是一种面向“键/值”对数据
英伟达DeepStream学习笔记30——kafka和AMQP的区别翟羽嚄英伟达TX2 /Xavier /deepstream开发 kafka 学习 rabbitmq
作为消息队列来说，企业中选择mq的还是多数，因为像Rabbit，Rocket等mq中间件都属于很成熟的产品，性能一般但可靠性较强，而kafka原本设计的初衷是日志统计分析，现在基于大数据的背景下也可以做运营数据的分析统计，而redis的主要场景是内存数据库，作为消息队列来说可靠性太差，而且速度太依赖网络IO，在服务器本机上的速度较快，且容易出现数据堆积的问题，在比较轻量的场合下能够适用。Rabbi
XLNet：超越BERT的新星 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
-XLNet：超越BERT的新星1.背景介绍1.1自然语言处理的重要性自然语言处理(NaturalLanguageProcessing,NLP)是人工智能领域的一个重要分支,旨在使计算机能够理解和生成人类语言。随着大数据时代的到来,海量的自然语言数据不断涌现,对NLP技术的需求与日俱增。NLP技术已广泛应用于机器翻译、智能问答、信息检索、情感分析等诸多领域,为人类生产和生活带来了巨大便利。1.2预
Spark核心之06：知识点梳理小技工丨大数据技术学习 SparkSQL spark 大数据
spark知识点梳理spark_〇一1、spark是什么spark是针对于大规模数据处理的统一分析引擎，它是基于内存计算框架，计算速度非常之快，但是它仅仅只是涉及到计算，并没有涉及到数据的存储，后期需要使用spark对接外部的数据源，比如hdfs。2、spark四大特性1、速度快spark比mapreduce快的2个主要原因1、基于内存（1）mapreduce任务后期再计算的时候，每一个job的输
部署Wordpress(LNMP)+ELK 多练项目 Linux 系统架构 linux elk 运维
LNMP+EFK主机软件服务版本主机名192.168.100.100Nginx-1.18、Filebeatnode100192.168.100.101PHP-5.6.27node101192.168.100.102MySQL5.7node102192.168.100.103Kafkakafka103192.168.100.104Kafkanode104192.168.100.105Kafkanod
Hadoop基础知识及部署模式 2301_82242502 hadoop 大数据分布式
一、Hadoop是什么Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力，解决海量数据的存储及海量数据的分析计算问题。广义上的Hadoop是指Hadoop的整个技术生态圈；狭义上的Hadoop指的是其核心三大组件，包括HDFS、YARN及MapReduce.二、Hadoop的发展史Hadoop起源于Lucen
探讨Hadoop的基础架构及其核心特点 xx155802862xx hadoop 大数据分布式
Hadoop是一个开源软件框架，用于存储和处理大规模数据集。它是Apache软件基金会下的一个项目，灵感来源于Google的两篇论文：一篇关于Google文件系统（GFS），另一篇关于MapReduce。Hadoop设计用于从单台服务器扩展到数千台机器，每台机器提供局部计算和存储。而不仅仅是处理大数据，Hadoop的真正价值在于其对于数据的高容错性、可扩展性以及相对低成本的存储和处理能力。以下是探
Java应用实战：从入门到精通的全面指南听风吟丶 java 开发语言
引言Java，作为一门跨平台的高级编程语言，自1995年由SunMicrosystems推出以来，凭借其“一次编写，到处运行”的特性，迅速在全球范围内获得了广泛的认可和应用。无论是企业级应用、移动应用开发，还是大数据处理、云计算平台，Java都扮演着举足轻重的角色。本篇文章旨在为初学者提供一条清晰的学习路径，同时也为有一定基础的开发者提供进阶的指导，帮助大家从入门走向精通。一、Java基础篇：搭建
大数据技术学习框架（更新中......）小技工丨大数据技术学习大数据学习
Hadoop相关HDFS分布式文件系统MR(MapReduce)离线数据处理MR-图解YARN集群资源管理ZooKeeperZooKeeper分布式协调框架Hive相关Hive-01之数仓、架构、数据类型、DDL、内外部表Hive-02之分桶表、数据导入导出、静动态分区、查询、排序、hiveserver2Hive-03之传参、常用函数、explode、lateralview、行专列、列转行、UDF
【自学笔记】大数据基础知识点总览-持续更新 Long_poem 笔记大数据
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录大数据基础知识点总览1.大数据概述2.大数据处理技术3.数据仓库与数据挖掘4.大数据分析与可视化5.大数据平台与架构6.大数据安全与隐私总结大数据基础知识点总览1.大数据概述定义：大数据是指数据量巨大、类型多样、处理速度快的数据集合。特征：4V（Volume、Velocity、Variety、Veracity）描述了大数据的主
大数据处理实践探索 ---- 笔试面试题：ElasticSearch shiter 大数据机器学习实践探索笔试面试题 elasticsearch
ES中的倒排索引是什么？传统的检索方式是通过文章，逐个遍历找到对应关键词的位置。倒排索引，是通过分词策略，形成了词和文章的映射关系表，也称倒排表，这种词典+映射表即为倒排索引。其中词典中存储词元，倒排表中存储该词元在哪些文中出现的位置。有了倒排索引，就能实现O(1)时间复杂度的效率检索文章了，极大的提高了检索效率。加分项：倒排索引的底层实现是基于：FST（FiniteStateTransducer
.Net Core HttpClient处理响应压缩溪源More python java 编程语言 spring http
前言在上篇文章[ASP.NETCore中的响应压缩]中我们谈到了在ASP.NETCore服务端处理关于响应压缩的请求，服务端的主要工作就是根据Content-Encoding头信息判断采用哪种方式压缩并返回。之前在群里有人问道过，现在的网络带宽这么高了还有必要在服务端针对请求进行压缩吗？确实，如今分布式和负载均衡技术这么成熟，很多需要处理高并发大数据的场景都可以通过增加服务器节点来进行。但是，在资
破解高并发难题：百万到亿级系统架构实战指南繁华之中悟静架构数据结构软件需求软件工程微服务软件构建
参考书籍《架构真意-企业级应用架构设计方法论与实践》作者范刚孙玄机械工业出版社本书通过架构设计方法论、分布式架构设计与实践和大数据架构设计三部分内容，系统阐述了在软件开发的时候，如何设计软件架构，并且对1000万级、5000万级、亿级等不同量级流量的系统平台给出了不同的技术架构方案。书籍对于想快速熟悉软件架构构建思想和理念的从业者，有较大的帮助。第一部分架构设计方法论架构设计按照“5视图法”分为逻
Kafka 为什么会消息堆积？忍者算法 kafka 分布式
Kafka定期清理Partition，但消息堆积（backlog）依然可能发生，主要是因为Kafka的清理机制和消息消费进度是两回事。我们可以用一个快递仓库的类比来解释。类比：Kafka就像一个快递仓库生产者（Producer）=快递员，不断往仓库里送包裹（消息）。消费者（Consumer）=快递员从仓库取件，派送给客户。Kafka的清理机制=仓库的定期清理，把太久没人取走的包裹扔掉，以免仓库爆满
Pulsar 学习目录编码的三叔 pulsar java kafka 大数据 python
Pulsar诞生于2012年，最初的目的是为在Yahoo内部，取代其他消息系统，构建统一逻辑大集群的消息平台。当时的其他消息系统（包括Kafka），都不能满足Yahoo的需求，比如大集群多租户、稳定可靠的IO服务质量、百万级Topic、跨地域复制等，因此Pulsar应运而生。Pulsar项目当时在Yahoo内部被叫做CMS（CloudMessageService），从名字可以看出Pulsar诞生时
Rabbit MQ 高频面试题【刷题系列】 Microi风闲【面试宝典】ASP.NET Core rabbitmq 面试
文章目录一、公司生产环境用的什么消息中间件？二、Kafka、ActiveMQ、RabbitMQ、RocketMQ有什么优缺点？三、解耦、异步、削峰是什么？四、消息队列有什么缺点？五、RabbitMQ一般用在什么场景？六、简单说RabbitMQ有哪些角色？七、RabbitMQ有几种工作模式？八、如何保证RabbitMQ消息的顺序性？九、消息怎么路由？十、如何保证消息不被重复消费？十一、如何确保消息接
【update 更新数据语法合集】.NET开源ORM框架 SqlSugar 系列 m0_74823595 面试学习路线阿里巴巴 .net 开源
系列文章目录文章目录系列文章目录前言??一、实体对象更新1.1单条与批量1.2不更新某列1.3只更新某列1.4NULL列不更新1.5无主键/指定列1.6更新添加条件1.7大数据更新1.8重新赋值1：list中的值修改1.9重新赋值2:列中的值+1二、根据表达式更新（像SQL）2.1指定多个字段更新2.2一个字段更新2.3字段+1更新2.4Set语法是支持多个的2.5批量更新IN2.6表达式无实体更
【赵渝强老师】Kafka的消费者与消费者组大数据kafka
消费者就是从Kafka集群消费数据的客户端，下图展示了一个消费者从主题中消费数据的模型。上图展示的是单消费者模型。单消费者模型存在一些问题。如果Kafka上游生产的数据很快，超过了单个消费者的消费速度，那么就会导致数据堆积。视频讲解如下：https://www.bilibili.com/video/BV1ue2EYxEpL/?aid=113269394117...为了解决单消费者存在的问题，Kaf
Ubuntu从零创建Hadoop集群爱编程的王小美大数据专业知识系列 ubuntu hadoop linux
目录前言前提准备1.设置网关和网段2.查看虚拟机IP及检查网络3.Ubuntu相关配置镜像源配置下载vim编辑器4.设置静态IP和SSH免密(可选)设置静态IPSSH免密5.JDK环境部署6.Hadoop环境部署7.配置Hadoop配置文件HDFS集群规划HDFS集群配置1.配置works文件2.配置hadoop-env.sh文件3.配置core-site.xml文件4.配置hdfs-site.x
爬虫实战分享：高效爬取汽车官方销售排行榜的技术方案威哥说编程 python 网络爬虫
随着大数据技术的飞速发展，爬虫技术在各行各业中得到了广泛应用。汽车行业作为一个信息密集型行业，销售数据、排行榜和车型趋势等内容成为了汽车公司、市场研究者和消费者关注的重点。爬虫技术为这些数据的收集和分析提供了强有力的支持。本文将介绍如何通过爬虫技术高效爬取某汽车官方销售排行榜，并讨论常见的技术难点与解决方案。1.目标与需求分析我们的目标是从某汽车官方网站上高效地爬取官方销售排行榜。爬取内容包括：销
入门Apache Spark：基础知识和架构解析 juer_0001 java spark
介绍ApacheSparkSpark的历史和背景ApacheSpark是一种快速、通用、可扩展的大数据处理引擎，最初由加州大学伯克利分校的AMPLab开发，于2010年首次推出。它最初设计用于支持分布式计算框架MapReduce的交互式查询，但逐渐发展成为一种更通用的数据处理引擎，能够处理数据流、批处理和机器学习等工作负载。Spark的特点和优势Spark是一种快速、通用、可扩展的大数据处理框架，
用大白话解释数据库分库分表sharding是什么有什么用怎么用心心祥蓉数据库
Sharding是什么？Sharding（分片）就像把一整个图书馆的书拆开放到多个小房间，每个房间只存一部分书。这样找书的人不用挤在一个大厅里翻找，效率更高。技术定义：把一个大数据库拆分成多个小数据库（分片），分散到不同服务器上，解决单台服务器性能不足的问题。比如原本一个数据库存10亿条用户数据，拆成10个库，每个存1亿条。场景类比：图书馆分房间：按书的类型（科技、文学）或首字母分房间。电商分订单
云计算相关工作岗位有哪些，薪资怎么样？欧米说云云计算腾讯云阿里云云计算
云计算、大数据、人工智能作为新一代信息技术产业，未来发展前景不可估量，就业前途一片光明，自然薪资待遇也不会差。随着亚马逊云、阿里云、华为云等云厂商的快速发展，也产生了大量的岗位需求，同时厂商为了增强自身影响力，也设置了很多证书考试，acp、ace、hcip、hcie等等。在这里想进入相关行业大厂从事云相关的工作的同学可以先考取大厂的对应证书，增加自己简历含金量，从而进入大厂。免费领取阿里云华为认证
Flink同步数据mysql到doris问题合集土豆沒加常用工具 flink mysql 大数据
Flink同步数据mysql到doris官方同步流程Doris安装下载地址导入镜像启动配置Flink-cdc安装（自制）下载地址导入镜像启动命令启动问题修复Flink报错Couldnotacquiretheminimumrequiredresources.作业报错Mysql8.0PublicKeyRetrievalisnotallowed作业报错Connectto127.0.0.1:8040[/1
Flink架构体系：深入解析Apache Flink的架构与工作原理雨中徜徉的思绪漫溢 flink 架构 apache 大数据
Flink架构体系：深入解析ApacheFlink的架构与工作原理ApacheFlink是一种高性能、分布式、流式处理引擎，被广泛应用于大数据处理和实时分析场景。本文将深入解析Flink的架构体系和工作原理，包括核心组件和数据流处理过程，并提供相应的示例代码。Flink架构概述ApacheFlink的架构基于流式处理模型，它通过将数据流划分为有向无环图（DAG）的形式，将大规模的数据处理任务划分为
Flink的架构体系 GDDGHS_ flink 架构大数据
Flink中的重要角⾊JobManager处理器JobManager处理器也称之为Master，用于协调分布式执行，它们用来调度task，协调检查点，协调失败时恢复等。Flink运行时至少存在一个master处理器，如果配置高可用模式则会存在多个master处理器，它们其中有一个是leader，而其他的都是standby。TaskManager处理器TaskManager处理器也称之为Worker
Streampark 入门到生产实践大数据学习爱好者 spark开发和机器学习数据仓库数据仓库大数据
Streampark入门到生产实践1.StreamPark初探1.1什么是StreamPark1.2Features1.3架构2.环境安装要求如何插入一段漂亮的代码片3.安装apache-streampark最新版4.使用教程4.1配置Flink_home4.2git拉取项目和构建项目4.3企业微信告警4.4相关参数配置4.5相关参数配置yarn-session1.StreamPark初探1.1什
Flink——部署StreamPark penghaichao 实时-Flink篇 flink 大数据
环境准备提前部署好了Flink1.18，官方要求1.12及以上jdk1.8Mysql5.7，官方要求5.6及以上，也可省略，系统自带h2Step1：通过streampark官网下载安装包Step2：跟着官网的userguide进行操作部署成功后即可通过http://host:10000进行访问，ui界面如下图遇到的问题：原因是mysql数据库默认为localhost主机进行访问，修改权限为'%'后
Flink K8s Application任务的使用老哥哥-老刘 flink
FlinkK8sApplication任务的使用FlinkK8sApplication任务的使用构键k8s集群提供flink运行任务的环境下载flink客户端任务编程任务jar生成过程k8sApplication运行Application模式架构启动命令PodTemplateFlinkK8sApplication任务的使用构键k8s集群在这里，我们需要搭建一个K8S环境用于提供flink任务的运行
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，