HeCCXX

Spark Streaming+kafka+spring boot+elasticsearch实时项目（canal）

在本次实验中，利用spark、elasticsearch、kafka等相关框架搭建一个实时计算系统。

具体流程如下图所示，

用户访问对应服务，由nginx服务器进行负载均衡访问具体的主机上的服务，访问过程中将产生用户具体的操作日志，该操作日志将由具体服务发送保存到Kafka集群（或者可以写到具体文件，可以通过Flume对日志文件进行采集，发送到Kafka集群）。
数据缓存到kafka集群后，利用Spark Streaming对Kafka进行具体时间间隔的消费（批处理），对消费的数据进行业务去重，计算，加工，完成后，将数据写到Mysql数据库或者ES（用于对数据的检索和分析）。
数据保存到ES后，编写Spring boot程序，将es中数据读取，并按照一定的业务逻辑进行处理，将需求数据以json格式返回。在本次实验中，编写的改spring boot程序主要用于发布接口，由另外一个前端程序请求该接口，返回相应数据，当然也可以写到一个web工程中，本次例程中主要是偏向于基础。
另外一个web工程访问具体业务接口，返回json数据，解析响应数据，利用echart.js绘制相应图表，并设置时间间隔进行请求，实时更新图表内容。

注：另外，还可以通过canal监控对应的业务数据，对更改的业务数据进行抓取，发送给kafka。主要利用的是mysql的主从备份的原理，将canal伪装成一台mysql slave服务器，从主节点请求数据。

一、环境搭建

集群搭建可以参考

三台虚拟机，分别为hadoop1、hadoop2、hadoop3，本次例程中使用的是centos 6.8。

分配的内存为：(当然内存足够可以多分配)

主机	内存	处理器
hadoop1	4G	2
hadoop2	2G	1
hadoop3	2G	1

hadoop集群，（可选，方便查看具体job 日志）hadoop版本 hadoop-2.7.2
zookeeper集群，版本：zookeeper-3.4.10
kafka集群，版本 kafka_2.11-0.11.0.2
spark集群（可选），版本spark-2.1.1-bin-hadoop2.7 将项目部署到集群上可以考虑搭建spark集群，测试则不需要，在idea测试即可。
elasticsearch集群，版本 elasticsearch-6.6.0 ，可以再安装一个es的可视化平台，kibana 版本kibana-6.6.0-linux-x86_64
redis 可单机可集群，版本redis-5.0.6
nginx

二、项目搭建

如下图所示，为本项目的功能文件目录结构。

canal模块为利用canal API将mysql数据库修改的数据发送到kafka集群。
common模块是公用的依赖和工具类。
dw-chart模块是web项目，负责向对应接口请求数据，并绘制图表，前端展示。
export2ES模块（可忽略），将hive数据导入到es。
logger模块，是用户请求的对应服务的spring boot工程，负责将用户操作日志发送给kafka。
mock模块，是模拟用户操作日志，负责向logger模块发起请求。
publisher模块，spring boot功能，负责发布访问接口，由dw-chart请求相应数据。
realtime模块，spark streaming计算，负责消费kafka数据，并保存到es中。
sql文件夹中是对应的order_info 模拟生成数据的存储过程和部分模拟数据，用于cannal监控，和统计销售额。

三、分析过程

kafka集群中topic有以下三个，GMALL_STARTUP（用于统计每日活跃度）、GMALL_EVENT（暂时未使用）、GMALL_ORDER（用于统计销售额）。
es集群中index有以下三个，gmall_dau（保存计算每日活跃度的结果数据）、gmall_order（保存计算后的销售额数据）、gmall_sale_detail（保存从hive中导入到es的数据）。

日志数据格式如下，一条json数据表示用户做的一次操作，当type为startup为登录，可以记录当前app的每日活跃度。

{
    "area": "guangdong",   //地址
    "uid": "186",          
    "itemid": 17,          //主题id
    "npgid": 14,
    "evid": "addCart",     //时间id
    "os": "andriod",       //用户操作系统
    "pgid": 43,
    "appid": "gmall_hcx",    //appid
    "mid": "mid_74",         //用户唯一id
    "type": "event",         //用户操作类型
    "ts": 1574325528404      //时间戳
}

mysql中的order_info表中数据如下，记录着用户下单产生的业务数据，由canal监控mysql数据库的这个表的变化，并将数据写入kafka集群中，便于之后统计销售额。

以下为spark streaming代码，进行每日活跃度的统计。首先从kafka中读取数据为inputDstream，再将输入流转换为泛型为具体样例类的输入流。利用redis对数据进行去重，因为统计用户活跃度，当一个用户多次登录后，只取这个用户的一次有效登录记录。利用redis去重后，还需要考虑到当一个批次读取的数据中有重复数据时，redis未能去重，则需要再对过滤后的数据进一步去重，去重思路是将想用mid的数据分为同一组，即一个用户的登录记录分为一组，只取其中一条作为有效数据，其余的去除。

val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("dau_app")
    val ssc = new StreamingContext(sparkConf,Seconds(5))

    val inputDstream: InputDStream[ConsumerRecord[String, String]] = MyKafkaUtil.getKafkaStream(GmallConstant.KAFKA_TOPIC_STARTUP,ssc)

    //转换操作
    val startuplogStream: DStream[Startuplog] = inputDstream.map {
      record =>
        val jsonStr: String = record.value()
        val startuplog: Startuplog = JSON.parseObject(jsonStr, classOf[Startuplog])
        val date = new Date(startuplog.ts)
        val DateStr: String = new SimpleDateFormat("yyyy-MM-dd HH:mm").format(date)
        val splits: Array[String] = DateStr.split(" ")
        startuplog.logDate = splits(0)
        startuplog.logHour = splits(1).split(":")(0)
        startuplog.logHourMinute = splits(1)
        startuplog
    }
    //利用redis进行去重过滤
    val filteredDstream: DStream[Startuplog] = startuplogStream.transform {
      rdd =>
        //driver  周期性执行
        val curdate: String = new SimpleDateFormat("yyyy-MM-dd").format(new Date())
        val jedis: Jedis = RedisUtil.getJedisClient
        val key = "dau:" + curdate
        val dauSet: util.Set[String] = jedis.smembers(key)
        val dauBC: Broadcast[util.Set[String]] = ssc.sparkContext.broadcast(dauSet)
        val filteredRDD: RDD[Startuplog] = rdd.filter {
          startuplog =>
            //executor
            val dauSet: util.Set[String] = dauBC.value
            !dauSet.contains(startuplog.mid)
        }
        filteredRDD
    }
    val groupbyMidDstram: DStream[(String, Iterable[Startuplog])] = filteredDstream.map {
      startiplog => (startiplog.mid, startiplog)
    }.groupByKey()
    //去重思路，把相同mid的数据分成一组，每组取一个
    val distinctDstream: DStream[Startuplog] = groupbyMidDstram.flatMap {
      case (mid, startuplogItr) =>
        startuplogItr.take(1)
    }
    //保存到redis中
    distinctDstream.foreachRDD{rdd=>
      //driver
      //redis   type  set
      //key  dau:2019-06-03  value:mids
      rdd.foreachPartition{startuplogItr =>
        //executor
        val jedis: Jedis = RedisUtil.getJedisClient
        val list: List[Startuplog] = startuplogItr.toList
        for (startuplog<- list){
          val key = "dau:" + startuplog.logDate
          val value = startuplog.mid
          jedis.sadd(key,value)
          println(startuplog)
        }
        MyEsUtil.indexBulk(GmallConstant.ES_INDEX_DAU,list)
        jedis.close()
      }
    }
    ssc.start()
    ssc.awaitTermination()

以下为canal API 部分代码，负责监听mysql数据库的order_info表的数据变化，将改变后的数据发送到kafka集群。

CanalConnector canalConnector = CanalConnectors.newSingleConnector(new InetSocketAddress("hadoop1", 11111), "example", "", "");
        while (true){
            //连接、订阅表、获取数据
            canalConnector.connect();
            canalConnector.subscribe("gmall.order_info");
            Message message = canalConnector.get(100);
            int size = message.getEntries().size();
            if (size == 0){
                try {
                    System.out.println("no Data...");
                    Thread.sleep(5000);
                } catch (InterruptedException e) {
                    e.printStackTrace();
                }
            }else {
                for (CanalEntry.Entry entry : message.getEntries()) {

                    //判断时间类型，只处理行变化业务
                    if (entry.getEntryType().equals(CanalEntry.EntryType.ROWDATA)){
                        //将数据集进行反序列化
                        ByteString storeValue = entry.getStoreValue();
                        CanalEntry.RowChange rowChange = null;
                        try {
                             rowChange = CanalEntry.RowChange.parseFrom(storeValue);

                        } catch (InvalidProtocolBufferException e) {
                            e.printStackTrace();
                        }
                        // 获取行集
                        List<CanalEntry.RowData> rowDatasList = rowChange.getRowDatasList();
                        //操作类
                        CanalEntry.EventType eventType = rowChange.getEventType();
                        //表名
                        String tableName = entry.getHeader().getTableName();
                        CanalHandler.handle(tableName,eventType,rowDatasList);
                    }
                }
            }
        }

四、项目运行

1、首先启动zookeeper集群和kafka集群、nginx。

nginx配置文件内容如下：

#user  nobody;
worker_processes  1;
#error_log  logs/error.log;
#error_log  logs/error.log  notice;
#error_log  logs/error.log  info;
#pid        logs/nginx.pid;
events {
    worker_connections  1024;
}
http {
    upstream logserver{
        server   hadoop1:8080  weight=1;
        server   hadoop2:8080  weight=1;
        server   hadoop3:8080  weight=1;
}
    include       mime.types;
    default_type  application/octet-stream;
    sendfile        on;
    #tcp_nopush     on;
    #keepalive_timeout  0;
    keepalive_timeout  65;
    #gzip  on;

    server {
        listen       80;
        server_name  logserver;
        #charset koi8-r;
        #access_log  logs/host.access.log  main;
        location / {
            root   html;
            index  index.html index.htm;
            proxy_pass http://logserver;
            proxy_connect_timeout 10;
        }
        #error_page  404              /404.html;
        # redirect server error pages to the static page /50x.html
        #
        error_page   500 502 503 504  /50x.html;
        location = /50x.html {
            root   html;
        }
    }
}

zookeeper配置文件内容如下：

# The number of milliseconds of each tick
tickTime=2000
# The number of ticks that the initial 
# synchronization phase can take
initLimit=10
# The number of ticks that can pass between 
# sending a request and getting an acknowledgement
syncLimit=5
# the directory where the snapshot is stored.
# do not use /tmp for storage, /tmp here is just 
# example sakes.

server.1=hadoop1:2888:3888
server.2=hadoop2:2888:3888
server.3=hadoop3:2888:3888
dataDir=/home/hadoop/zookeeper-3.4.10/zkData
# the port at which the clients will connect
clientPort=2181
# the maximum number of client connections.
# increase this if you need to handle more clients
#maxClientCnxns=60
#
# Be sure to read the maintenance section of the 
# administrator guide before turning on autopurge.
#
# http://zookeeper.apache.org/doc/current/zookeeperAdmin.html#sc_maintenance
#
# The number of snapshots to retain in dataDir
#autopurge.snapRetainCount=3
# Purge task interval in hours
# Set to "0" to disable auto purge feature
#autopurge.purgeInterval=1

kafka集群配置主节点配置文件内容如下：(slave节点的配置文件内容也需要修改，具体可参考网上内容)

boker.id=0
zookeeper.connect=hadoop1:2181,hadoop2:2181,hadoop3:2181
listeners=PLAINTEXT://hadoop1:9092
advertised.listeners=PLAINTEXT://hadoop1:9092
delete.topic.enable=true   #用于删除topic

2、将logger模块打包上传到三台虚拟机，并每台都启动。

可以在hadoop1主机编写一个启动脚本来启动三台主机的服务。脚本内容如下，具体需要修改java路径和jar包路径。

#!/bin/bash
JAVA_BIN=/home/hadoop/jdk1.8/bin/java
PROJECT=gmall
APPNAME=logger-0.0.1-SNAPSHOT.jar
SERVER_PORT=8080

case $1 in
"start")
{
  for i in hadoop1 hadoop2 hadoop3
  do
  echo "=======启动日志服务：$i"
  ssh $i "$JAVA_BIN -Xms32m -Xmx64m -jar gmall/$APPNAME --server.port=$SERVER_PORT >/home/hadoop/gmall/boot.log 2>&1 &"
  done
};;

"stop")
{
 for i in hadoop1 hadoop2 hadoop3
  do 
   echo "=========关闭日志服务：$i=========="
   ssh $i "ps -ef | grep $APPNAME | grep -v grep | awk '{print \$2}' |xargs kill" >/dev/null 2>&1 &
  done
};;

esac

3、启动JsonMocker程序，发送请求到nginx服务器，访问三台主机的具体服务，并将日志保存到kafka集群中。（可以直接在IDEA中启动，发送请求，看到终端输出200返回结果，并kafka对应topic有数据即成功）

4、启动spark streaming程序 DauApp，从kafka读取数据进行计算处理，并将结果保存到es中。（可以直接在IDEA中启动，通过查看es-head或kibana查询有数据来查看，如果有数据即成功）

5、启动发布接口spring-boot程序，读取es中数据，按照对应的业务逻辑处理数据，并以json形式返回。（可以在IDEA中启动，也可以打包部署到集群，浏览器访问对应接口地址，返回json数据即成功）

6、启动前端展示web项目，通过请求对应接口，得到返回的json数据，将数据解析后利用echart绘制图表。（可以在IDEA中启动，也可以打包部署到集群，浏览器输入地址后，看到对应图表，并且图表按照规律时间变化及成功）

效果图：（每日活跃度完成显示，显示昨天和今天两天的对比图）

7、销售额统计部分，首先需要配置canal，监听对应的mysql，canal的配置文件内容如下，启动canal bin/startup.sh

conf/example/instance.properties 主要配置slaveId和mysql地址，还有canal的用户和密码，这个需要在mysql中配置一个用户和密码，用于canal操作mysql中的表。

#################################################
## mysql serverId , v1.0.26+ will autoGen 
canal.instance.mysql.slaveId=3

# enable gtid use true/false
canal.instance.gtidon=false

# position info
canal.instance.master.address=hadoop1:3306
canal.instance.master.journal.name=
canal.instance.master.position=
canal.instance.master.timestamp=
canal.instance.master.gtid=

# rds oss binlog
canal.instance.rds.accesskey=
canal.instance.rds.secretkey=
canal.instance.rds.instanceId=

# table meta tsdb info
canal.instance.tsdb.enable=true
#canal.instance.tsdb.url=jdbc:mysql://127.0.0.1:3306/canal_tsdb
#canal.instance.tsdb.dbUsername=canal
#canal.instance.tsdb.dbPassword=canal

#canal.instance.standby.address =
#canal.instance.standby.journal.name =
#canal.instance.standby.position =
#canal.instance.standby.timestamp =
#canal.instance.standby.gtid=

# username/password
canal.instance.dbUsername=canal
canal.instance.dbPassword=canal
canal.instance.connectionCharset = UTF-8
canal.instance.defaultDatabaseName =test
# enable druid Decrypt database password
canal.instance.enableDruid=false
#canal.instance.pwdPublicKey=MFwwDQYJKoZIhvcNAQEBBQADSwAwSAJBALK4BUxdDltRRE5/zXpVEVPUgunvscYFtEip3pmLlhrWpacX7y7GCMo2/JM6LeHmiiNdH1FWgGCpUfircSwlWKUCAwEAAQ==

# table regex
canal.instance.filter.regex=.*\\..*
# table black regex
canal.instance.filter.black.regex=

# mq config
canal.mq.topic=example
canal.mq.partition=0
# hash partition config
#canal.mq.partitionsNum=3
#canal.mq.partitionHash=mytest.person:id,mytest.role:id
#################################################

8、启动canal API程序，将mysql业务表的修改数据保存到kafka对应topic，启动程序后，需要利用sql文件夹中的sql脚本，在对应mysql数据库中创建存储过程和表，并利用存储过程修改order_info表，此时canal监听到数据发生改变，就会读取bin文件，将数据发送到kafka集群。

利用下列存储过程修改表中数据，具体含义可查看存储过程。

call init_data(varchar do_date_string, int order_incr_num, int user_incr_num, tinyint if_truncate);
call init_data('2019-11-22', 10, 5, false)

9、启动spark streaming程序的orderApp，读取kafka数据，并进行处理后保存到es对应index中。（可以直接在IDEA中运行，查看es中idnex中有数据增加即成功）

10、启动publisher模块和dw-chart模块，输入访问地址，可以查看到以下效果图。当然也可以通过kibana的图表工具绘制对应的图，如下第二张图所示，设置对应的index和字段后也可以查看到自己需要的图。

五、总结

本次的例程主要是针对基础，完成一个完整的从数据模拟、数据采集到传输、计算、结果展示的流程。这样的一个简单实时系统还有很多需要完善的地方，也有很多更优选择，可以在后期完善，该例程用于记录学习过程，也希望能帮到想学习大数据的同学。

完整工程github：https://github.com/HeCCXX/gmall-parent.git

在K8S中，如何使用EFK实现日志的统一管理？ Dusk_橙子 K8S kubernetes 容器云原生
在Kubernetes中，EFK是一种常见的日志统一管理方案。EFK堆栈允许你收集、存储、搜素、分析和可视化容器应用程序的日志。下面是如何在Kubernetes中使用EFK实现日志统一管理的详细步骤：部署Elasticsearchelasticsearch是一个分布式、RESTful风格的搜索和分析引擎，能够解决越来越多用例的查询语言，它通常用于日志和事件数据分析。首先，你需要再kubernete
【Redis】golang操作Redis基础入门 m0_74825360 面试学习路线阿里巴巴 redis golang 数据库
【Redis】golang操作Redis基础入门大家好我是寸铁??总结了一篇【Redis】golang操作Redis基础入门sparkles:喜欢的小伙伴可以点点关注??Redis的作用Redis（RemoteDictionaryServer）是一个开源的内存数据库，它主要用于存储键值对，并提供多种数据结构的支持。Redis的主要作用包括：1.缓存:Redis可以作为缓存系统，将常用的数据缓存在内
搭建单机伪分布式Hadoop+spark+scala 啥也不会0-0 分布式 hadoop spark
目录一、准备环境包：二、创建centos7虚拟机并配置ip三、链接Xshell并上环境包四、安装JDK1.解压jdk2.设置JAVA环境变量3.执行source使设置生效：4.检查JAVA是否可用。五、免密登陆1.创建ssh秘钥，输入如下命令，生成公私密钥2.将master公钥id_dsa复制到master进行公钥认证，实现本机免密登陆，测试完exit退出六、安装Hadoop软件1.解压hadoo
CDP中的Hive3之Apache Hive3特性对许 #Hive #Spark hive cdp
CDP中的Hive3之ApacheHive3特性1、ApacheHive3特性2、Hive不支持的接口和功能3、HiveonTez简介4、ApacheHive3架构概述CDP中采用的是ApacheHive3版本，相比Hive1/2，该版本在事务和安全性等方面有重大改进，了解这些版本之间的主要差异对于SQL用户至关重要，包括使用ApacheSpark和ApacheImpala的用户1、ApacheH
Hadoop 与 Spark：大数据处理的比较王子良. 大数据经验分享 hadoop spark 大数据
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
虚拟机VMware Workstation Pro安装集群+hadoop+spark+scala 落枫兮 hadoop spark scala
参考资料：参考视频教程链接：大数据实验虚拟机安装Hadoop和Spark_哔哩哔哩_bilibiliup主：孤独时代的硕硕namenode安装选择镜像、路径、磁盘（最好不要c盘）、内存和处理器编辑名称与位置可点击此处自定义硬盘进行设置。选择语言、时区、软件、位置和网络
大数据手写面试题Scala语言实现大全（持续更新）大模型大数据攻城狮大数据数据结构算法面试题面试宝典
在大数据领域，Scala语言因其强大的函数式编程特性和对并发处理的良好支持而成为了开发者们的热门选择。有些面试官，为了考验面试者的基本功，需要让手写一些面试题，以数据结构和算法类的居多。本文将为您提供一些常见的Scala手写面试题及参考答案，帮助您在面试或工作中更好地运用Scala。目录1.冒泡排序2.二分查找3.快速排序4.归并排序5.手写Spark-WordCount6.手写Spark程序求平
Elasticsearch 8.17.1 JAVA工具类熟透的蜗牛牛X的开源框架 elasticsearch
一、ElasticSearchUtilspackagecom.wssnail.elasticsearch.util;importco.elastic.clients.elasticsearch.ElasticsearchClient;importco.elastic.clients.elasticsearch._types.FieldValue;importco.elastic.clients.e
CentOS8下安装wget、wget2 奔跑吧邓邓子高效运维 linux centos wget wget2
提示：“奔跑吧邓邓子”的高效运维专栏聚焦于各类运维场景中的实际操作与问题解决。内容涵盖服务器硬件（如IBMSystem3650M5）、云服务平台（如腾讯云、华为云）、服务器软件（如Nginx、Apache、GitLab、Redis、Elasticsearch、Kubernetes、Docker等）、开发工具（如Git、HBuilder）以及网络安全（如挖矿病毒排查、SSL证书配置）等多个方面。无论
Grafana 小馋喵知识杂货铺性能 grafana
Grafana是一款广泛使用的开源数据可视化与监控平台，通过与Prometheus、InfluxDB、Elasticsearch等多种数据源集成，提供强大的监控、数据展示和告警功能。其告警体系在及时通知系统异常、保障业务稳定性方面起到关键作用。Grafana告警体系概述Grafana的告警体系分为以下几个部分：告警规则：用于定义何时触发告警，包括监控指标、评估条件和评估时间间隔。告警规则可以基于面
ElasticSearch查询第四篇：匹配查询（Match）悦光阴字符串 java python elasticsearch 索引
《ElasticSearch查询》目录导航：ElasticSearch查询第一篇：搜索APIElasticSearch查询第二篇：文档更新ElasticSearch查询第三篇：词条查询ElasticSearch查询第四篇：匹配查询(Match)ElasticSearch查询第五篇：布尔查询匹配(Match)查询属于全文(Fulltext)查询，不同于词条查询，ElasticSearch引擎在处理全
使用iFlyTek SparkLLM进行实时聊天应用开发 dagGAIYD 前端 javascript java python
技术背景介绍在当今的AI应用开发中，实时对话模型越来越受到重视。iFlyTek的SparkLLM为开发者提供了强大的聊天模型API，支持灵活的集成和扩展。本文将介绍如何使用SparkLLM搭建一个简单的聊天应用，包括基本的API初始化和调用，以及如何实现流式输出。核心原理解析SparkLLM是一款基于大规模语言模型的对话生成系统。它的核心在于通过自然语言理解和生成，实现人机之间的自然交流。通过使用
【Elasticsearch】RestClient操作文档乙卯年QAQ elasticsearch jenkins 大数据 java
RestClient操作文档新增文档实体类API语法查询文档删除文档修改文档批量导入文档小结新增文档将数据库中的信息导入elasticsearch中以商品数据为例实体类定义一个索引库结构对应的实体。@Data@ApiModel(description="索引库实体")publicclassItemDoc{@ApiModelProperty("商品id")privateStringid;@ApiMo
elasticsearch pipeline 总结 weixin_40455124 elasticsearch 代码分析及扩展 pipeline elasticsearch ingest index
pipeline可以理解为elasticsearch对接收到的数据的入库前再处理过程，这个过程可以非常复杂，包括修改数据归属index。pipeline运行在ingestnode上一个pipeline由多个process组成，一个nodes支持哪些process，可以通过GET/_nodes/ingest查看，每种processor用途可以参看https://www.elastic.co/guid
ElasticSearch解析logback日志并处理异常栈轨迹甘蓝聊Java 【更新中...】项目中的那些事 elasticsearch logback pipeline multiline filebeat多行
文章目录背景分析IngestPipeline解析日志-示例查看IngestPipeline创建Pipeline添加Grok处理器添加时间戳、IP地址和用户代理处理器测试Pipeline多行消息管理filestreaminputloginput解决自定义pipeline解析logback日志Grok处理器Date处理器失败处理器为loginput添加多行处理验证调整Kibana数据视图验证失败处理器
es-Ingest pipelines 童小绿笔记 elasticsearch 大数据 big data
Ingestpipelinesnode为ingest角色，对indexingrequest做预处理，主要用于数据转换为合规、期望值的场景官方地址：https://www.elastic.co/guide/en/elasticsearch/reference/7.13/ingest.html#ingest使用pipeline必要条件node角色必须为：ingestpipeline的组成{"descr
Elasticsearch 摄取节点(Ingest Node)使用Pipeline预处理文档 °Fuhb ELK elasticsearch es 预处理节点 pipeline ingest node
1.IngestnodeIngestnode是elasticsearch的节点类型之一，通过在Ingestnode配置pipeline管道，可以在文档存入索引之前对文档进行预处理。例如：删除字段，重命名字段，修改字段值等等。默认情况下，所有节点都是IngestNode，可以通过修改elasticsearch.yml，把node.ingest改成false来关闭node.ingest:false要实
ElasticSearch 实战： ES 文档 API 用心去追梦 elasticsearch jenkins 大数据
Elasticsearch提供了一系列文档（Document）API，用于对索引中的个体数据单元进行增删改查操作。以下是对主要文档API的实战介绍：1.索引文档(IndexAPI)目的：插入或更新文档。请求方式：PUT或POSTURL：PUT//_doc/或POST//_doc/请求体：包含待索引的文档数据，以JSON格式表示。示例：PUT/my_index/_doc/1{"title":"Exa
Elasticsearch 摄取节点(Ingest Node)常用的数据处理器(Processor) °Fuhb ELK elasticsearch es Processor 预处理 Ingest Node
文章目录SetProcessorAppendProcessorRemoveProcessorRenameProcessorConvertProcessorGrokProcessorDotExpanderProcessorDropProcessorFailProcessorJoinProcessorSplitProcessorKVProcessorJSONProcessorTrimProcessor
MySQL、HBase 和 Elasticsearch：特点与区别详解一休哥助手 mysql hbase elasticsearch
引言随着大数据和分布式计算的快速发展，数据库系统已从传统的关系型数据库（RDBMS）扩展到多种新型数据存储技术，包括NoSQL数据库和搜索引擎等。MySQL、HBase和Elasticsearch是其中三种非常常见的数据存储系统，它们在各自的领域都有着重要的应用。MySQL作为传统的关系型数据库，HBase则是一个分布式、可扩展的NoSQL数据库，而Elasticsearch则是一个分布式的搜索引
es 3期第22节-Bucket特殊分桶聚合实战 DavidSoCool elasticsearch elasticsearch 大数据搜索引擎
####1.Elasticsearch是数据库，不是普通的Java应用程序，传统数据库需要的硬件资源同样需要，提升性能最有效的就是升级硬件。####2.Elasticsearch是文档型数据库，不是关系型数据库，不具备严格的ACID事务特性，任何企图直接替代严格事务性场景的应用项目都会失败!!!####3.Elasticsearch原则上适合一切非事务性应用场景或能够容许一定的延迟的事务性场景;能
es 3期第25节-运用Rollup减少数据存储 DavidSoCool elasticsearch elasticsearch 大数据搜索引擎
####1.Elasticsearch是数据库，不是普通的Java应用程序，传统数据库需要的硬件资源同样需要，提升性能最有效的就是升级硬件。####2.Elasticsearch是文档型数据库，不是关系型数据库，不具备严格的ACID事务特性，任何企图直接替代严格事务性场景的应用项目都会失败!!!####3.Elasticsearch原则上适合一切非事务性应用场景或能够容许一定的延迟的事务性场景;能
ELK Stack：日志管理与分析的神兵利器 Aries263 elk jenkins 运维
在当今的数字化时代，数据是企业运营的核心。而日志数据，作为数据的重要组成部分，对于监控、分析和故障排查具有不可替代的作用。ELKStack（Elasticsearch、Logstash和Kibana的组合）凭借其强大的日志收集、处理和可视化能力，成为了众多企业和开发者首选的日志管理与分析工具。本文将深入探讨ELKStack的工作原理、应用场景以及如何使用它来构建高效的日志管理系统。一、ELKSta
Elasticsearch Date类型使用技巧 weixin_30886233 大数据 json java
elasticsearch原生支持date类型。这里简单记录下使用的方法。使用date类型可以用如下两种方式：使用毫秒的时间戳，直接将毫秒值传入即可。传入格式化的字符串，默认是ISO8601标准，例如2015-02-27T00:07Z(零时区)、2015-02-27T08:07+08:00(东八区),这两个时间实际是同一个，只是时区不同。另外还可以自定义时间格式，参见es的文档。但个人不建议使用自
Oracle 到 Elasticsearch 数据迁移同步
简述Elasticsearch是一个分布式的实时搜索与数据分析引擎，具有强大的可扩展性和高度的灵活性。CloudCanal对于Elasticsearch的支持经过了多轮迭代，支持版本从6.x和7.x一路扩展到8.x，并适配了其丰富多样的API。同时CloudCanal对Oracle源端同步技术进行了多处优化，大幅提升了数据同步的稳定性和可靠性。本文主要介绍如何使用CloudCanal快速构建一条O
有了TiDB，是否还需要“散装”大数据组件？狮歌~资深攻城狮 tidb 数据仓库数据分析数据库分布式
有了TiDB，是否还需要“散装”大数据组件？最近和同事们讨论一个问题：在大数据应用日益增多的今天，如果使用了TiDB这样的一体化数据库，还需要使用那些传统的大数据组件（比如Hadoop、Spark等）吗？相信大家在公司或项目中，常常遇到需要处理大量数据的场景，特别是互联网、金融、电商等行业。随着TiDB的兴起，它作为一款分布式关系型数据库，似乎能够解决不少大数据问题。那么，问题来了：如果我们已经选
Spark GraphX原理与代码实例讲解 AI大模型应用之禅 AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
SparkGraphX原理与代码实例讲解作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着互联网和大数据技术的迅猛发展，社交网络、推荐系统、生物信息学、图分析等领域对图计算的需求日益增长。传统的图处理技术如GraphLab、Neo4j等，虽然功能强大，但往往存在扩展性差、易用性低、计算效率不足等问题。为了解决这些问题，A
elasticSearch数据的导入和导出 ZNineSun 大数据 elasticsearch elasticdump node
es数据的导入和导出需要借助于elasticdump工具，这是一个nodejs的插件，安装方式直接使用npm即可，安装指令如下：npminstallelasticdump-g如果您的电脑还未安装Node环境，请移步此处：《npm安装教程》1.导出指定索引的数据到本地elasticdump--input=http://localhost:9200/demo--output=D:/ES/date/de
Python 操作 Elasticsearch 全指南：从连接到数据查询与处理 XMYX-0 python elasticsearch jenkins
文章目录Python操作Elasticsearch全指南：从连接到数据查询与处理引言安装`elasticsearch-py`连接到Elasticsearch创建索引插入数据查询数据1.简单查询2.布尔查询更新文档删除文档和索引删除文档删除索引批量插入数据处理分页结果总结Python操作Elasticsearch全指南：从连接到数据查询与处理引言在大数据分析与搜索应用中，Elasticsearch是
【Es】python es操作小毛驴吃梨子 elasticsearch python 大数据
表因为es是集群所以es_hosts是列表fromelasticsearchimportElasticsearchES_HOSTS=["127.0.0.1:9200"]ES_HTTP_AUTH="******************"#连接Eses=Elasticsearch(hosts=ES_HOSTS,http_auth=ES_HTTP_AUTH,maxsize=60,timeout=30,m
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb