嘉平11

zk、hbase、redis保存Sparkstreaming 的offset

一、zk:


import cn.qphone.spark.`trait`.LoggerTrait
import cn.qphone.spark.utils.{CommonUtils, SparkUtils}
import kafka.common.TopicAndPartition
import kafka.message.MessageAndMetadata
import kafka.serializer.StringDecoder
import org.apache.curator.framework.CuratorFrameworkFactory
import org.apache.curator.retry.ExponentialBackoffRetry
import org.apache.spark.streaming.StreamingContext
import org.apache.spark.streaming.dstream.InputDStream
import org.apache.spark.streaming.kafka.{HasOffsetRanges, KafkaUtils, OffsetRange}

import scala.collection.{JavaConversions, mutable}

object Demo6_SparkStreaming_Kafka_Zookeeper extends LoggerTrait{

    // zookeeper的客户端
    val client = {
        val client = CuratorFrameworkFactory.builder()
            .connectString("hbase1,hbase2,hbase3")
            .retryPolicy(new ExponentialBackoffRetry(1000, 3))
            .namespace("kafka/consumers/offsets")
            .build()
        client.start()
        client
    }


    def main(args: Array[String]): Unit = {
        //1. 入口
        val ssc = SparkUtils.getLocalStreamingContext("Demo6_SparkStreaming_Kafka_Zookeeper", 2)
        val kafkaParams = CommonUtils.toMap("demo6.properties")
        val topics = "bjbigdata1909-1".split(",").toSet

        //2. 加载数据
        val messages:InputDStream[(String, String)] = createMsg(ssc, kafkaParams, topics)

        //3. 遍历消息
        messages.foreachRDD((rdd, btime) => {
            if (!rdd.isEmpty()) {
                //3.1 将偏移量读取到东西打印
                println("-"*100)
                println(s"bTime = ${btime}")
                println("#"*50 + "     " + rdd.count())
                //3.2 保存最新的偏移量到zookeeper
                storeOffsets(rdd.asInstanceOf[HasOffsetRanges].offsetRanges, kafkaParams("group.id"))
            }
        })

        ssc.start()
        ssc.awaitTermination()
    }

    /**
     * 从zk中读取手动保存offset信息，然后从kafka指定offset位置开始读取数据，如果没有读取到offset信息，那么从开始位置开始读取信息
     */
    def createMsg(ssc:StreamingContext, kafkaParams:Map[String, String], topics:Set[String]):InputDStream[(String, String)] = {
        //1. 从zookeeper中读取offset信息
        val fromOffsets:Map[TopicAndPartition, Long] = getFromOffsets(topics, kafkaParams("group.id"))
        //2. 读取外部数据
        var messages:InputDStream[(String, String)] = null
        //2.1 判断
        if (fromOffsets.isEmpty) { // 如果没有读取到偏移量，说明之前从来没有保存过，从开始的位置开始读取
            messages = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](ssc, kafkaParams, topics)
        }else { //读取到了偏移量，从指定位置开始读取
            //2.2 创建messageHandler
            val messageHandler = (msgHandler:MessageAndMetadata[String, String]) => (msgHandler.key(), msgHandler.message())
            //2.3 读取指定位置的offset的数据
            messages = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder, (String, String)](ssc, kafkaParams, fromOffsets, messageHandler)
        }
        messages
    }

    /**
     * 根据主题和消费者组来获取到对应的偏移量
     * 首先我们定义了offset保存在zookeeper的哪一个目录下：/kafka/topic/group/partition
     * 其次，partition中保存了的数据就是我们的offset
     */
    def getFromOffsets(topics:Set[String], group:String) : Map[TopicAndPartition, Long] = {
        //1. 定义一个结构专门保存偏移量
        val offsets = mutable.Map[TopicAndPartition, Long]()
        //2. 遍历主题
        for(topic <- topics) {
            //2.1 自定义offset在zookeeper的位置
            val path = s"${topic}/${group}"
            //2.2 判断zookeeper中此path路径是否存在
            isExists(path)
            //2.3 遍历获取分区:还需要将java的数组转换位scala的数组
            for(partition <- JavaConversions.asScalaBuffer(client.getChildren.forPath(path))) {
                //2.3.1 这个路径是用来保存偏移量
                val fullPath = s"${path}/${partition}"
                //2.3.2 获取偏移量
                val offset = new String(client.getData.forPath(fullPath)).toLong
                //2.3.3 数据保存offsets
                offsets.put(TopicAndPartition(topic, partition.toInt), offset)
            }
        }
        offsets.toMap
    }

    /**
     * 判断节点是否存在，如果不存在就创建之
     */
    def isExists(path:String):Unit = {
        if (client.checkExists().forPath(path) == null) { // 如果路径不存在
            client.create().creatingParentsIfNeeded().forPath(path)
        }
    }

    /**
     * 将偏移量保存会zookeeper
     */
    def storeOffsets(offsetRanges:Array[OffsetRange], group:String) = {
        //1. 遍历偏移量范围的数组
        for(offsetRange <- offsetRanges) {
            //2. 获取主题分区以及偏移量
            val topic = offsetRange.topic
            val partition = offsetRange.partition
            val untilOffset = offsetRange.untilOffset
            //3. 创建保存在zookeeper上的目录
            val path = s"${topic}/${group}/${partition}"
            isExists(path)
            //4. 保存偏移量到partition
            client.setData().forPath(path, untilOffset.toString.getBytes())
        }
    }
}

二、HBase保存

1.工具类


import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.Cell;
import org.apache.hadoop.hbase.CellUtil;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.TableName;
import org.apache.hadoop.hbase.client.*;
import org.apache.hadoop.hbase.filter.BinaryComparator;
import org.apache.hadoop.hbase.filter.CompareFilter;
import org.apache.hadoop.hbase.filter.Filter;
import org.apache.hadoop.hbase.filter.RowFilter;
import org.junit.Test;

import java.io.IOException;
import java.util.HashMap;
import java.util.LinkedList;
import java.util.List;
import java.util.Map;
import java.util.concurrent.ExecutionException;

/**
 * HBase连接的客户端工具类
 */
public class HBaseUtils {

    // pool就是存放hbase的连接对象的连接池
    private static LinkedList pool = new LinkedList<>();

    // 初始化5条hbase的连接对象到连接池中
    static {
        try {
            Configuration conf = new Configuration();
            conf.set("hbase.rootdir", "hdfs://hbase1:9000");
            conf.set("hbase.cluster.distributed", "true");
            conf.set("hbase.zookeeper.quorum", "hbase1,hbase2,hbase3");
            conf.set("hbase.regionserver.wal.codec", "org.apache.hadoop.hbase.regionserver.wal.IndexedWALEditCodec");
            for (int i = 0;i < 5;i++) {
                pool.push(ConnectionFactory.createConnection(conf));
            }
        }catch (Exception e) {
            e.printStackTrace();
        }
    }

    // 获取连接对象
    public static Connection getConnection() {
        while (pool.isEmpty()) {
            try {
                System.out.println("connection pool is null, please wait for a moment~~~");
                Thread.sleep(1000);
            }catch (Exception e) {
                e.printStackTrace();
            }
        }
        return pool.poll();
    }

    // 释放连接对象，将连接对象归还给连接池
    public static void release(Connection connection) {
        pool.push(connection);
    }

    // 根据参数创建表
    public static Map getColValue(Connection connection, TableName tableName, byte[] rk, byte[] cf) {
        //1. 声明map存放最终结果
        Map partition2Offset = new HashMap<>();
        try {
            //2. 获取到表对象
            Table table = connection.getTable(tableName);
            Scan scan = new Scan();
            //3. 条件
            Filter filter = new RowFilter(CompareFilter.CompareOp.EQUAL, new BinaryComparator(rk));
            scan.setFilter(filter);
            //4. 创建扫描器
            ResultScanner scanner = table.getScanner(scan);
            //5. 遍历
            for (Result result : scanner) {
                List cells = result.listCells(); // 获取到每一个cell(k,v)
                for (Cell cell : cells) {
                    //col
                    byte[] column = CellUtil.cloneQualifier(cell);
                    //value
                    byte[] values = CellUtil.cloneValue(cell);

                    int partition = Integer.valueOf(new String(column));
                    long offset = Long.valueOf(new String(values));

                    partition2Offset.put(partition, offset);
                }
            }
            return partition2Offset;

        }catch (Exception e) {
            e.printStackTrace();
        }
        return null;
    }

    //将col和value设置到hbase
    public static void set(Connection connection, TableName tableName, byte[] rk, byte[] cf, byte[] col, byte[] value) {
        try {
            Table table = connection.getTable(tableName);
            Put put = new Put(rk);
            put.addColumn(cf, col, value);
            table.put(put);
            table.close();
        }catch (Exception e) {
            e.printStackTrace();
        }
    }
}

2、正式代码：

import cn.qphone.hbase.utils.HBaseUtils
import cn.qphone.spark.`trait`.LoggerTrait
import cn.qphone.spark.utils.{CommonUtils, SparkUtils}
import kafka.common.TopicAndPartition
import kafka.message.MessageAndMetadata
import kafka.serializer.StringDecoder
import org.apache.hadoop.hbase.TableName
import org.apache.hadoop.hbase.util.Bytes
import org.apache.spark.streaming.StreamingContext
import org.apache.spark.streaming.dstream.InputDStream
import org.apache.spark.streaming.kafka.{HasOffsetRanges, KafkaUtils, OffsetRange}

import scala.collection.{JavaConversions, mutable}

/**
 * 一 使用hbase来手动管理offset信息，保证数据被依次消费
 * 1. 有：从指定的offset位置开始消费
 * 2. 没有：从offset为0开始消费
 *
 * 二 使用指定的offset向kafka拉取数据
 * 三 拉取到数据之后进行业务处理
 * 四 offset需要重新更新到hbase
 *
 * create 'spark-topic-offset', 'cf'
 *
 * rowkey:topic-group
 * column:partition:offset
 * */
object Demo7_SparkStreaming_Kafka_HBase extends LoggerTrait{

    def main(args: Array[String]): Unit = {
        //1. 入口
        val ssc = SparkUtils.getLocalStreamingContext("Demo6_SparkStreaming_Kafka_Zookeeper", 2)
        val kafkaParams = CommonUtils.toMap("demo6.properties")
        val topics = "bjbigdata1909-1".split(",").toSet

        //2. 加载数据
        val messages:InputDStream[(String, String)] = createMsg(ssc, kafkaParams, topics)

        //3. 遍历消息
        messages.foreachRDD((rdd, btime) => {
            if (!rdd.isEmpty()) {
                //3.1 将偏移量读取到东西打印
                println("-"*100)
                println(s"bTime = ${btime}")
                println("#"*50 + "     " + rdd.count())
                //3.2 保存最新的偏移量到zookeeper
                storeOffsets(rdd.asInstanceOf[HasOffsetRanges].offsetRanges, kafkaParams("group.id"))
            }
        })

        ssc.start()
        ssc.awaitTermination()
    }

    /**
     * 从hbase中读取手动保存offset信息，然后从kafka指定offset位置开始读取数据，如果没有读取到offset信息，那么从开始位置开始读取信息
     */
    def createMsg(ssc:StreamingContext, kafkaParams:Map[String, String], topics:Set[String]):InputDStream[(String, String)] = {
        //1. 从hbase中读取offset信息
        val fromOffsets:Map[TopicAndPartition, Long] = getFromOffsets(topics, kafkaParams("group.id"))
        //2. 读取外部数据
        var messages:InputDStream[(String, String)] = null
        //2.1 判断
        if (fromOffsets.isEmpty) { // 如果没有读取到偏移量，说明之前从来没有保存过，从开始的位置开始读取
            messages = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](ssc, kafkaParams, topics)
        }else { //读取到了偏移量，从指定位置开始读取
            //2.2 创建messageHandler
            val messageHandler = (msgHandler:MessageAndMetadata[String, String]) => (msgHandler.key(), msgHandler.message())
            //2.3 读取指定位置的offset的数据
            messages = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder, (String, String)](ssc, kafkaParams, fromOffsets, messageHandler)
        }
        messages
    }

    /**
     * 根据主题和消费者组来获取到对应的偏移量
     * 首先我们定义了offset保存在hbase：
     * 其次，partition中保存了的数据就是我们的offset
     */
    def getFromOffsets(topics:Set[String], group:String) : Map[TopicAndPartition, Long] = {
        //1. 定义一个结构专门保存偏移量
        val offsets = mutable.Map[TopicAndPartition, Long]()
        //1.1 获取到HBase connection
        val connection = HBaseUtils.getConnection
        val tableName = TableName.valueOf("spark-topic-offset")
        val cf = Bytes.toBytes("cf")

        //2. 遍历主题
        for(topic <- topics) {
            //2.1 自定义rowkey
            val rk = s"${topic}-${group}".getBytes()
            //2.2 获取表的分区以及对应的偏移量
            val partition2Offsets = HBaseUtils.getColValue(connection, tableName, rk, cf)
            val partition2Offsets2 = JavaConversions.mapAsScalaMap(partition2Offsets)
            //2.3 遍历获取分区:还需要将java的数组转换位scala的数组
            for ((k, v) <- partition2Offsets2) {
                offsets.put(TopicAndPartition(topic, (k+"").toInt), v)
            }
        }
        HBaseUtils.release(connection)
        offsets.toMap
    }

    /**
     * 将偏移量保存会hbase
     */
    def storeOffsets(offsetRanges:Array[OffsetRange], group:String) = {
        //0.
        val connection = HBaseUtils.getConnection
        val tableName = TableName.valueOf("spark-topic-offset")
        val cf = Bytes.toBytes("cf")
        //1. 遍历偏移量范围的数组
        for(offsetRange <- offsetRanges) {
            //2. 获取主题分区以及偏移量
            val rk = s"${offsetRange.topic}-${group}".getBytes()
            val partition = offsetRange.partition
            val untilOffset = offsetRange.untilOffset

            //3. 将结果保存到hbase
           HBaseUtils.set(connection, tableName, rk, cf, (partition+"").getBytes(), (untilOffset+"").getBytes())
        }
    }

}

三、redis保存

package sparkStrreaming.day3

import java.util

import kafka.common.TopicAndPartition
import kafka.message.MessageAndMetadata
import kafka.serializer.StringDecoder
import org.apache.spark.SparkConf
import org.apache.spark.streaming.dstream.InputDStream
import org.apache.spark.streaming.{Seconds, StreamingContext}
import utils.CommonUtils
import org.apache.curator.framework.CuratorFrameworkFactory
import org.apache.curator.retry.ExponentialBackoffRetry
import org.apache.spark.streaming.StreamingContext
import org.apache.spark.streaming.dstream.InputDStream
import org.apache.spark.streaming.kafka.{HasOffsetRanges, KafkaUtils, OffsetRange}
import redis.clients.jedis.Jedis

import scala.collection.{JavaConversions, mutable}


object Demo8_SparkStreaming_Kafka_Redis {


  val jedis = new Jedis("mini1",6379)

  def main(args: Array[String]): Unit = {


    val ssc = new StreamingContext(new SparkConf().setMaster("local[*]").setAppName("redis"),Seconds(2))
    val kafkaParams: Map[String, String] = CommonUtils.toMap("demo6.properties")
    val topics="test1".split("\\s+").toSet

    val messages: InputDStream[(String, String)] = createMsg(ssc,kafkaParams,topics)

    messages.foreachRDD((rdd,btime)=>{
      if(!rdd.isEmpty()){
        println("-"*100)
        println(s"btime=${btime}")
       println("#"*50)
        println(rdd.count())
updateOffsets(rdd.asInstanceOf[HasOffsetRanges].offsetRanges,kafkaParams("group.id"))
      }
    })


    ssc.start()
    ssc.awaitTermination()
  }



    def createMsg(ssc:StreamingContext,kafkaParams :Map[String,String],topics:Set[String]):InputDStream[(String,String)]={
      val fromOffsets: Map[TopicAndPartition, Long] = getFromOffsets(topics,kafkaParams("group.id"))
      var messages:InputDStream[(String,String)]=null
       if(fromOffsets.isEmpty){
          messages = KafkaUtils.createDirectStream[String,String,StringDecoder,StringDecoder](ssc,kafkaParams,topics)
       }else{
         val msgHandler=(msgHandler:MessageAndMetadata[String,String])=>(msgHandler.key(),msgHandler.message())
         messages=KafkaUtils.createDirectStream[String,String,StringDecoder,StringDecoder,(String,String)](ssc,kafkaParams,fromOffsets,msgHandler)
       }
      messages
    }


    def getFromOffsets(topics: Set[String], group: String): Map[TopicAndPartition,Long]={
      var offsets=mutable.Map[TopicAndPartition,Long]()
      for(topic<-topics){
        val key=s"${topic}_${group}"
       // val str: String = jedis.get(key).toString
        val string: util.Map[String, String] = jedis.hgetAll(key)
        for(  partition<-JavaConversions.mapAsScalaMap(string)){
          offsets.put(TopicAndPartition(topic,partition._1.toInt),partition._2.toLong)
        }
      }
      offsets.toMap

    }


  def updateOffsets(offsetRanges: Array[OffsetRange], group: String) = {
    for(offsetRange<-offsetRanges){
val topic=offsetRange.topic
      val partition=offsetRange.partition
      val offset=offsetRange.untilOffset

      jedis.hset(s"${topic}_${group}",partition.toString,offset.toString)
    }
    }

}

python手写kmeans算法菜鸟懿机器学习聚类算法 python
kmean聚类是最基础和常见的算法，工程上使用比较常见，spark,sklearn都有实现，本文手写实现kmeans#!/usr/bin/pythonimportsysimportrandomimportmathdefcreate_rand_points(max_x,max_y,count):"""Createcountpoints(0-x),(0-y)."""points=[]foriinran
大数据学习（67）- Flume、Sqoop、Kafka、DataX对比 viperrrrrrr 大数据学习 flume kafka sqoop datax
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦工具主要作用数据流向实时性数据源/目标应用场景Flume实时日志采集与传输从数据源到存储系统实时日志文件、网络流量等→HDFS、HBase、Kafka等日志收集、实时监控、实时分析Sqoop关系型数据库与Hadoop间数据同步关系型数据库→Hadoop生态系统（HDFS、Hive、
数据分析大数据面试题大杂烩01 爱学习的菜鸟罢了大数据 flink 大数据面试 hive hadoop kafka
互联网:通过埋点实时计算用户浏览频次用优惠券等措施吸引用户,通过历史信息用非智能学习的title方式构造用户画像(抖音,京东)电信,银行统计营收和针对用户的个人画像:处理大量非实时数据政府:健康码,扫码之后确诊,找出与确诊对象有关联的人订单订单表(除商品以外所有信息),商品详情表,通过搜集用户title进行定制化推荐点击流数据通过埋点进行用户点击行为分析FLINK一般用来做实时SPARK一般用来做
kafka 中的 rebalance 百里自来卷 kafka 数据库分布式
Kafka的Rebalance（重平衡）机制本质上是一个协调过程，用于在消费者组内动态分配分区，以保证消费任务均匀分布。Rebalance主要由KafkaConsumerGroup协议（GroupMembershipProtocol）驱动，涉及多个关键组件和步骤。以下是KafkaRebalance底层的核心实现逻辑：1.触发Rebalance的原因Kafka的Rebalance可能会在以下几种情况
Java面试精选：Kafka+Zookeeper+redis+JVM+RabbitMQ，最全总结我叫小迁W：bjmsb2019 Java 架构面试数据库 java redis mysql 分布式
大家开始准备金九银十了吗？不知是跳槽还是找工作的朋友，趁现在增进一下自己的技术何尝不是一件好事呢？一、RabbitMQ1.rabbitmq的使用场景有哪些？2.rabbitmq有哪些重要的角色？3.rabbitmq有哪些重要的组件？4.rabbitmq中vhost的作用是什么？5.rabbitmq的消息是怎么发送的？6.rabbitmq怎么保证消息的稳定性？7.rabbitmq怎么避免消息丢失？8
doris：SQL 方言兼容向阳1218 大数据 doris
提示从2.1版本开始，Doris可以支持多种SQL方言，如Presto、Trino、Hive、PostgreSQL、Spark、Clickhouse等等。通过这个功能，用户可以直接使用对应的SQL方言查询Doris中的数据，方便用户将原先的业务平滑的迁移到Doris中。警告该功能目前是实验性功能，您在使用过程中如遇到任何问题，欢迎通过邮件组、GitHubIssue等方式进行反馈。部署服务下载最新版
25年大数据开发省赛样题第一套，离线数据处理答案 Tometor 大数据 spark scala
省赛样题一，数据抽取模块这一模块的作用是从mysql抽取数据到ods层进行指标计算，在题目中要求进行全量抽取，并新增etl-date字段进行分区，日期为比赛前一天importorg.apache.spark.sql.SparkSessionimportjava.util.PropertiesobjectTask1{defmain(args:Array[String]):Unit={valspark
Kafka、RocketMQ、RabbitMQ三款消息中间件的原理家常凉菜 kafka rocketmq rabbitmq
最近学习了Kafka、RocketMQ、RabbitMQ三款消息中间件的原理，本文主要是记录一下Kafka、RabbitMQ、RocketMQ三款中间件之间的区别。下面先对各自的架构进行简单的介绍，然后详细对比一下他们之间的关键不同点。由于学习时间和个人水平有限，文中错误之处在所难免,敬请指正。一、Kafka简介Producer：生产者，向Kafka集群（Broker）中发送消息Consumer：
java八股文之消息中间件 Rverdoser linq c#
org.apache.kafkakafka-clients3.0.02.创建生产者生产者（Producer）是发送消息到Kafka的一个客户端。以下是一个简单的生产者示例：importorg.apache.kafka.clients.producer.KafkaProducer;importorg.apache.kafka.clients.producer.ProducerRecord;impor
sparkML入门，通俗解释机器学习的框架和算法 Tometor spark-ml 机器学习算法回归数据挖掘人工智能 scala
一、机器学习的整体框架（类比烹饪）假设你要做一道菜，机器学习的过程可以类比为：步骤-->烹饪类比-->机器学习对应1.确定目标|想做什么菜（红烧肉/沙拉）|明确任务(分类/回归/聚类)2.准备食材|买菜、洗菜、切菜|数据收集与预处理3.设计食谱|决定烹饪步骤和调料|选择算法和模型设计4.试做并尝味道|调整火候和调味|模型训练与调参5.最终成品|端上桌的菜|模型部署与应用二、机器学习的核心流程1.数
flink读kafka写入mysql_Flink 1.9 实战：使用 SQL 读取 Kafka 并写入 MySQL 苏远岫
上周六在深圳分享了《FlinkSQL1.9.0技术内幕和最佳实践》，会后许多小伙伴对最后演示环节的Demo代码非常感兴趣，迫不及待地想尝试下，所以写了这篇文章分享下这份代码。希望对于FlinkSQL的初学者能有所帮助。完整分享可以观看Meetup视频回顾：https://developer.aliyun.com/live/1416这份代码主要由两部分组成：1)能用来提交SQL文件的SqlSubmi
Flink SQL 读取 Kafka 数据到 Mysql 实战小技工丨大数据技术学习 flink sql kafka
Flink1.9.2SQL读取Kafka数据到Mysql实战案例需求通过Flinksql使用DDL的方式，实现读取kafka用户行为数据，对数据进行实时处理，根据时间分组，求PV和UV，然后输出到mysql中。1、kafka中的消息的格式数据以JSON格式编码，格式如下：{"user_id":1101,"item_id":1875,"category_id":456876,"behavior":"
本地docker安装zookeeper,kafka,flink a724952091 flink kafka docker
首先安装zookeeper这里zookeeper的安装是为了去使用kafka这里我们安装的是wurstmeister的kafka和zookeeper镜像也是在hub.docker.com网站上，Star最多的kafka镜像直接在cmd执行run命令（前提是有本地docker。。。）第一次使用因为本地没有此镜像会去下载dockerrun-d--namezookeeper-p2181-twurstme
Docker-compose编排部署Kafka伪分布式集群(为后续实验搭建基础环境) F_Hello_World Kafka kafka docker
本实验参照官网http://kafka.apache.org/documentation/构建,为后续了解kafka应用做环境准备。搭建环境：MAC10.15docker19.03.4docker-composeversion1.24.1jdk1.8以上(对于kafka2.x以上版本已遗弃对jdk1.7的支持)zookeeper-3.4.14(这里没使用kafka自带zk,而使用外置zk,这里zk
deepseek+ansible实现AI自动化集群部署大囚长 AIOps 大模型 ansible 人工智能自动化
DeepSeek与Ansible协同配置Linux集群的完整机制方案，涵盖架构设计、工具调用链及Agent提示词体系：一、系统架构设计（四层联动）![架构图示意]用户交互层→AI决策层→执行引擎层→数据反馈层││││▼▼▼▼Web/CLI→DeepSeek引擎→Ansible→监控系统用户交互层Web界面：支持自然语言输入（如"部署10节点Kafka集群"）CLI工具：deepseek-ctlcr
面试基础---分布式架构基础消息队列Kafka vs RabbitMQ vs RocketMQ 对比 WeiLai1112 分布式架构面试分布式架构 java 后端 dubbo spring boot
分布式架构消息队列深度解析：KafkavsRabbitMQvsRocketMQ引言在高并发、高可用的分布式系统中，消息队列是实现异步通信、流量削峰、系统解耦的核心组件。Kafka、RabbitMQ和RocketMQ是当前最主流的消息中间件，各自在性能、可靠性、生态支持等方面有独特优势。本文将深入探讨三者的设计原理、核心特性及适用场景，结合电商、金融等实际案例与源码分析，为技术选型提供全面指导。1.
大数据面试之路 (三) mysql 愿与狸花过一生大数据面试职场和发展
技术选型通常也是被问道的问题，一方面考察候选人对技术掌握程度，另一方面考察对项目的理解，以及项目总结能力。介绍项目是从数据链路介绍，是一个很好来的方式，会让人觉得思路清晰，项目理解透彻。将SparkSQL加工后的数据存入MySQL通常基于以下几个关键原因：1.数据应用场景适配OLTP与OLAP分工：SparkSQL擅长处理大数据量的OLAP（分析型）任务，而MySQL作为OLTP（事务型）数据库，
Kafka 深入解析：架构原理、基本使用及丢数据场景分析唐唐爱吃糖111 kafka 架构分布式云原生云计算 k8s
Kafka是一个高吞吐、分布式的消息队列系统，被广泛应用于日志处理、流式数据处理和事件驱动架构。本篇文章将详细介绍Kafka的架构原理、基本使用方法，并分析Kafka可能的丢数据场景及其解决方案。一、Kafka介绍1.什么是Kafka？Kafka是Apache基金会开源的分布式流处理平台，主要用于：消息队列（MessageQueue）：解耦生产者（Producer）和消费者（Consumer）。日
Java集成消息队列实战：从RabbitMQ到Kafka的完整解决方案 [特殊字符] 添砖Java中 java-rabbitmq java rabbitmq kafka spring boot
一、为什么消息队列是分布式系统的血脉？❓1.1消息队列核心价值异步处理：订单创建→发送短信异步执行系统解耦：支付服务与物流服务独立演进流量削峰：应对秒杀活动瞬时流量可靠传输：网络故障时保证消息不丢失1.2技术选型指南消息队列吞吐量延迟可靠性适用场景RabbitMQ万级微秒级★★★★★金融交易、实时通知Kafka百万级毫秒级★★★★☆日志收集、流处理RocketMQ十万级毫秒级★★★★★电商订单、事
如何使用 SparkLLM 进行自然语言处理 shuoac python
在当代自然语言处理领域，拥有强大的跨域知识和语言理解能力的模型至关重要。iFLYTEK开发的SparkLLM便是这样一个大规模认知模型。通过学习大量文本、代码和图像，SparkLLM能够理解和执行基于自然对话的任务。在本文中，我们将深入探讨如何配置和使用SparkLLM来处理自然语言任务。技术背景介绍大规模语言模型（LLM）近年来在各个领域中获得了广泛的应用，它们在处理自然语言任务时表现出色。iF
RDD 行动算子阿强77 RDD Spark
在ApacheSpark中，RDD（弹性分布式数据集）是核心数据结构之一。行动算子会触发实际的计算并返回结果或执行某些操作。以下是Scala中常见的RDD行动算子：1.collect()将RDD中的所有数据收集到驱动程序中，并返回一个数组。注意：如果数据集很大，可能会导致内存不足。valdata:Array[T]=rdd.collect()2.count()返回RDD中元素的总数。valcount
使用Spring Boot集成Kafka开发：接收Kafka消息的Java应用 YazIdris java spring boot kafka
Kafka是一个分布式的流处理平台，它具有高吞吐量、可扩展性和容错性的特点。SpringBoot提供了与Kafka集成的便捷方式，使得开发者可以轻松地创建Kafka消息接收应用。本文将介绍如何使用SpringBoot集成Kafka开发，以及如何编写Java代码来接收Kafka消息。首先，确保你已经安装了Kafka和Zookeeper，并启动了它们。接下来，创建一个新的SpringBoot项目，并添
讲一下Spark的shuffle过程冰火同学 Spark spark 大数据分布式
首先Spark的shuffle是Spark分布式集群计算的核心。Spark的shuffle可以从shuffle的阶段划分，shuffle数据存储，shuffle的数据拉取三个方面进行讲解。首先shuffle的阶段分为shuffle的shufflewrite阶段和shuffleread阶段。shufflewrite的触发条件就是上游的Stage任务shuffleMapTask完成计算后，会哪找下游S
Spark常见面试题目（1）冰火同学 Spark spark 面试大数据
Spark有哪几种部署的方式，谈谈方式都有哪些特点第一种是local本地部署,通常就是一台机器用于测试。第二种是standalone部署模式，就是一个master节点，控制几个work节点，其实一台机器的standalone模式就是它自己即是master,又是work。第三种是yarn模式，就是吧spark交给yarn进行资源调度管理。第四种就是messon模式，这种在国内很少见到。Spark主备
Spark数据倾斜的问题冰火同学 Spark spark 大数据分布式
Spark数据倾斜业务背景Spark数据倾斜表现Spark的数据倾斜，包括SparkStreaming和SparkSQL，表现主要有下面几种：1、Excutorlost，OOM，Shuffle过程出错2、DriverOOM3、单个Excutor执行器一直在运行，整体任务卡在某个阶段不能结束4、正常运行的任务突然失败数据倾斜产生的原因以Spark使用场景为例，我们再做数据计算的时候会涉及类似coun
Spring Boot 集成 Kafka m0_74824592 面试学习路线阿里巴巴 spring boot kafka linq
在现代软件开发中，分布式系统和微服务架构越来越受到关注。为了实现系统之间的异步通信和解耦，消息队列成为了一种重要的技术手段。Kafka作为一种高性能、分布式的消息队列系统，被广泛应用于各种场景。而SpringBoot作为一种流行的Java开发框架，提供了便捷的方式来构建应用程序。本文将介绍如何在SpringBoot项目中集成Kafka，包括Kafka的基本概念、SpringBoot集成Kafka的
PySpark实现导出两个包含多个Parquet数据文件的S3目录里的对应值的差异值分析 weixin_30777913 python spark 数据分析云计算
编写PySpark代码实现从一个包含多个Parquet数据文件的AmazonS3目录的dataframe数据里取两个维度字段，一个度量字段的数据，根据这两个维度字段的数据分组统计，计算度量字段的数据的分组总计值，得到一个包含两个维度字段和度量字段的分组总计值字段的dataframe，再从另一个包含多个Parquet数据文件的S3目录的dataframe数据里取两个维度字段，一个度量字段的数据组成一
Hadoop、Spark和 Hive 的详细关系夜行容忍 hadoop spark hive
Hadoop、Spark和Hive的详细关系1.ApacheHadoopHadoop是一个开源框架，用于分布式存储和处理大规模数据集。核心组件：HDFS(HadoopDistributedFileSystem)：分布式文件系统，提供高吞吐量的数据访问。YARN(YetAnotherResourceNegotiator)：集群资源管理和作业调度系统。MapReduce：基于YARN的并行处理框架，用
大数据技术生态圈：Hadoop、Hive、Spark的区别和关系雨中徜徉的思绪漫溢大数据 hadoop hive
大数据技术生态圈：Hadoop、Hive、Spark的区别和关系在大数据领域中，Hadoop、Hive和Spark是三个常用的开源技术，它们在大数据处理和分析方面发挥着重要作用。虽然它们都是为了处理大规模数据集而设计的，但它们在功能和使用方式上存在一些区别。本文将详细介绍Hadoop、Hive和Spark的区别和关系，并提供相应的源代码示例。Hadoop：Hadoop是一个用于分布式存储和处理大规
flink+kafka实现流数据处理学习上海研博数据 java
在应用系统的建设过程中，通常都会遇到需要实时处理数据的场景，处理实时数据的框架有很多，本文将以一个示例来介绍flink+kafka在流数据处理中的应用。1、概念介绍flink：是一个分布式、高可用、高可靠的大数据处理引擎，提供了一种高效、可靠、可扩展的方式来处理和分析实时数据。kafka：是用于构建实时数据管道和流应用程序并具有横向扩展，容错，wickedfast（变态快）等优点的一种消息中间件。
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &

zk、hbase、redis保存Sparkstreaming 的offset

一、zk:

二、HBase保存

1.工具类

2、正式代码：

三、redis保存

你可能感兴趣的:(Spark,kafka,spark)