Ybb_studyRecord

Apache Durid(入门安装数据摄取查询集成SpringBoot)

Apache Durid

Apache Durid
- 1. Durid概述
- - 1.1 为什么使用
  - - 1.1.1 云原生数据库
    - 1.1.2 轻松集成
    - 1.1.3 超高性能
    - 1.1.4 工作流
    - 1.1.5 多种部署方式
  - 1.2 使用场景
  - - 1.2.1 常见的使用场景
    - - 1.2.1.1 用户活动和行为
      - 1.2.1.2 网络流
      - 1.2.1.3 数字营销
      - 1.2.1.4 应用性能管理
      - 1.2.1.5 物联网和设备指标
      - 1.2.1.6 OLAP和商业智能
    - 1.2.2 适合的场景
    - 1.2.3 不适合的场景
- 2. Durid是什么
- - 2.1 主要特性
  - 2.2 和其他技术对比
  - 2.3 数据摄入
  - 2.4 数据存储
  - 2.5 查询
- 3. 安装部署
- - 3.1 环境介绍
  - 3.2 安装方式
  - - 3.2.1 源代码编译
    - 3.2.2 官网下载
    - 3.2.3 Imply组合套件
  - 3.3 单机配置参考
  - - 3.3.1 Nano-Quickstart
    - 3.3.2 微型快速入门
    - 3.3.3 小型
    - 3.3.4 中型
    - 3.3.5 大型
    - 3.3.6 超大型
  - 3.4 单机版安装
  - - 3.4.1 软件要求
    - 3.4.2 硬件要求
  - 3.5 imply方式安装
  - - 3.5.1 安装perl
    - 3.5.2 关闭防火墙
    - 3.5.3 安装JDK
    - - 3.5.3.1 下载JDK
    - 3.5.4 安装imply
    - - 3.5.4.1 登录Imply官网
- 4. 数据摄取
- - 4.1 加载本地文件
  - - 4.1.1.1 数据选择
    - 4.1.1.2 演示数据查看
    - 4.1.1.3 选择数据源
    - 4.1.1.4 加载数据
  - 4.1.2 数据源规范配置
  - - 4.1.2.1 设置时间列
    - 4.1.2.2 设置转换器
    - 4.1.2.3 设置过滤器
    - 4.1.2.4 配置schema
    - 4.1.2.5 配置Partition
  - 4.1.3 提交任务
  - 4.2 kafka加载流式数据
  - - 4.2.1 安装Kafka
    - - 4.2.1.1 编辑资源清单
    - 4.2.4 发送数据到kafka
  - # 4.2.5 数据选择
  - 4.2.8 清理数据
- 5. 数据查询
- - 5.1 准备工作
  - - 5.1.1 导入大量数据
  - 5.2 原生查询
  - - 5.2.1 查询语法
  - 5.3 查询类型
  - - 5.4.1 时间序列查询
    - - 查询属性
    - 5.4.2 TopN查询
    - 5.4.5 分组查询
  - 5.5 查询组件
  - - 5.5.1 Filter
    - 5.5.2聚合器
  - 5.6 Druid SQL
  - - 5.6.1基本查询
    - - 5.6.1.1查询数据总条数
      - 5.6.2 聚合功能
  - 5.7 客户端API
  - - 5.7.1 引入Pom依赖

Apache Durid

1. Durid概述

Apache Druid是一个集时间序列数据库、数据仓库和全文检索系统特点于一体的分析性数据平台。本文将带你简单了解Druid的特性，使用场景，技术特点和架构。这将有助于你选型数据存储方案，深入了解Druid存储，深入了解时间序列存储等。
Apache Druid是一个高性能的实时分析型数据库。

1.1 为什么使用

1.1.1 云原生数据库

一个现代化的云原生，流原生，分析型数据库
Druid是为快速查询和快速摄入数据的工作流而设计的。Druid强在有强大的UI，运行时可操作查询，和高性能并发处理。Druid可以被视为一个满足多样化用户场景的数据仓库的开源替代品。

1.1.2 轻松集成

轻松与现有的数据管道集成
Druid可以从消息总线流式获取数据（如Kafka，Amazon Kinesis），或从数据湖批量加载文件（如HDFS，Amazon S3和其他同类数据源）。

1.1.3 超高性能

比传统方案快100倍的性能

Druid对数据摄入和数据查询的基准性能测试大大超过了传统解决方案。
Druid的架构融合了数据仓库，时间序列数据库和检索系统最好的特性。

1.1.4 工作流

解锁新的工作流
Druid为Clickstream，APM(应用性能管理系统)，supply chain(供应链)，网络遥测，数字营销和其他事件驱动形式的场景解锁了新的查询方式和工作流。Druid专为实时和历史数据的快速临时查询而构建。

1.1.5 多种部署方式

可以部署在AWS/GCP/Azure，混合云，k8s和租用服务器上
Druid可以部署在任Linux环境中，无论是内部环境还是云环境。部署Druid是非常easy的：通过添加或删减服务来扩容缩容。

1.2 使用场景

Apache Druid适用于对实时数据提取，高性能查询和高可用要求较高的场景。因此，Druid通常被作为一个具有丰富GUI的分析系统，或者作为一个需要快速聚合的高并发API的后台。Druid更适合面向事件数据。

1.2.1 常见的使用场景

比较常见的使用场景

1.2.1.1 用户活动和行为

Druid经常用在点击流，访问流，和活动流数据上。具体场景包括：衡量用户参与度，为产品发布追踪A/B测试数据，并了解用户使用方式。Druid可以做到精确和近似计算用户指标，例如不重复计数指标。这意味着，如日活用户指标可以在一秒钟计算出近似值(平均精度98%)，以查看总体趋势，或精确计算以展示给利益相关者。Druid可以用来做“漏斗分析”，去测量有多少用户做了某种操作，而没有做另一个操作。这对产品追踪用户注册十分有用。

1.2.1.2 网络流

Druid常常用来收集和分析网络流数据。Druid被用于管理以任意属性切分组合的流数据。Druid能够提取大量网络流记录，并且能够在查询时快速对数十个属性组合和排序，这有助于网络流分析。这些属性包括一些核心属性，如IP和端口号，也包括一些额外添加的强化属性，如地理位置，服务，应用，设备和ASN。Druid能够处理非固定模式，这意味着你可以添加任何你想要的属性。

1.2.1.3 数字营销

Druid常常用来存储和查询在线广告数据。这些数据通常来自广告服务商，它对衡量和理解广告活动效果，点击穿透率，转换率（消耗率）等指标至关重要。
Druid最初就是被设计成一个面向广告数据的强大的面向用户的分析型应用程序。在存储广告数据方面，Druid已经有大量生产实践，全世界有大量用户在上千台服务器上存储了PB级数据。

1.2.1.4 应用性能管理

Druid常常用于追踪应用程序生成的可运营数据。和用户活动使用场景类似，这些数据可以是关于用户怎样和应用程序交互的，它可以是应用程序自身上报的指标数据。Druid可用于下钻发现应用程序不同组件的性能如何，定位瓶颈，和发现问题。
不像许多传统解决方案，Druid具有更小存储容量，更小复杂度，更大数据吞吐的特点。它可以快速分析数以千计属性的应用事件，并计算复杂的加载，性能，利用率指标。比如，基于百分之95查询延迟的API终端。我们可以以任何临时属性组织和切分数据，如以天为时间切分数据，如以用户画像统计，如按数据中心位置统计。

1.2.1.5 物联网和设备指标

Driud可以作为时间序列数据库解决方案，来存储处理服务器和设备的指标数据。收集机器生成的实时数据，执行快速临时的分析，去估量性能，优化硬件资源，和定位问题。
和许多传统时间序列数据库不同，Druid本质上是一个分析引擎。Druid融合了时间序列数据库，列式分析数据库，和检索系统的理念。它在单个系统中支持了基于时间分区，列式存储，和搜索索引。这意味着基于时间的查询，数字聚合，和检索过滤查询都会特别快。
你可以在你的指标中包括百万唯一维度值，并随意按任何维度组合group和filter(Druid 中的dimension维度类似于时间序列数据库中的tag)。你可以基于tag group和rank，并计算大量复杂的指标。而且你在tag上检索和过滤会比传统时间序列数据库更快。

1.2.1.6 OLAP和商业智能

Druid经常用于商业智能场景。公司部署Druid去加速查询和增强应用。和基于Hadoop的SQL引擎(如Presto或Hive)不同，Druid为高并发和亚秒级查询而设计，通过UI强化交互式数据查询。这使得Druid更适合做真实的可视化交互分析。

1.2.2 适合的场景

如果您的使用场景符合以下的几个特征，那么Druid是一个非常不错的选择：

数据插入频率比较高，但较少更新数据
大多数查询场景为聚合查询和分组查询（GroupBy），同时还有一定得检索与扫描查询
将数据查询延迟目标定位100毫秒到几秒钟之间
数据具有时间属性（Druid针对时间做了优化和设计）
在多表场景下，每次查询仅命中一个大的分布式表，查询又可能命中多个较小的lookup表
场景中包含高基维度数据列（例如URL，用户ID等），并且需要对其进行快速计数和排序
需要从Kafka、HDFS、对象存储（如Amazon S3）中加载数据

1.2.3 不适合的场景

如果您的使用场景符合以下特征，那么使用Druid可能是一个不好的选择：

根据主键对现有数据进行低延迟更新操作。Druid支持流式插入，但不支持流式更新（更新操作是通过后台批处理作业完成）
延迟不重要的离线数据系统
场景中包括大连接（将一个大事实表连接到另一个大事实表），并且可以接受花费很长时间来完成这些查询

2. Durid是什么

Apache Druid 是一个开源的分布式数据存储引擎。
Druid的核心设计融合了OLAP/analytic databases，timeseries database，和search systems的理念，以创造一个适用广泛用例的统一系统。Druid将这三种系统的主要特性融合进Druid的ingestionlayer(数据摄入层)，storage format(存储格式化层)，querying layer(查询层)，和core architecture(核心架构)中。

2.1 主要特性

列式存储
Druid单独存储并压缩每一列数据。并且查询时只查询特定需要查询的数据，支持快速scan，ranking和groupBy。
原生检索索引
Druid为string值创建反向索引以达到数据的快速搜索和过滤。
流式和批量数据摄入
开箱即用的Apache kafka，HDFS，AWS S3连接器connectors，流式处理器。
灵活的数据模式
Druid优雅地适应不断变化的数据模式和嵌套数据类型。
基于时间的优化分区
Druid基于时间对数据进行智能分区。因此，Druid基于时间的查询将明显快于传统数据库。
支持SQL语句
除了原生的基于JSON的查询外，Druid还支持基于HTTP和JDBC的SQL。
水平扩展能力
百万/秒的数据摄入速率，海量数据存储，亚秒级查询。
易于运维
可以通过添加或移除Server来扩容和缩容。Druid支持自动重平衡，失效转移。

2.2 和其他技术对比

Druid：是一个实时处理时序数据的OLAP数据库，它的索引首先按照时间分片，查询的时候也是按照时间线去路由索引。
Kylin：核心是Cube，Cube是一种预计算技术，预先对数据作多维索引，查询时只扫描索引而不访问原始数据从而提速。
Presto：它没有使用MapReduce，大部分场景下比Hive快一个数量级，其中的关键是所有的处理都在内存中完成。
Impala：基于内存运算，速度快，支持的数据源没有Presto多。
Spark SQL：基于Spark平台上的一个OLAP框架，基本思路是增加机器来并行计算，从而提高查询速度。

ES：最大的特点是使用了倒排索引解决索引问题。根据研究，ES在数据获取和聚集用的资源比在Druid高。
框架选型：

从超大数据的查询效率来看： Druid > Kylin > Presto > Spark SQL
从支持的数据源种类来讲： Presto > Spark SQL > Kylin > Druid

2.3 数据摄入

Druid同时支持流式和批量数据摄入。Druid通常通过像Kafka这样的消息总线（加载流式数据）或通过像HDFS这样的分布式文件系统（加载批量数据）来连接原始数据源。
Druid通过Indexing处理将原始数据以segment的方式存储在数据节点，segment是一种查询优化的数据结构。

2.4 数据存储

像大多数分析型数据库一样，Druid采用列式存储。根据不同列的数据类型（string，number等），Druid对其使用不同的压缩和编码方式。Druid也会针对不同的列类型构建不同类型的索引。
类似于检索系统，Druid为string列创建反向索引，以达到更快速的搜索和过滤。类似于时间序列数据库，Druid基于时间对数据进行智能分区，以达到更快的基于时间的查询。
不像大多数传统系统，Druid可以在数据摄入前对数据进行预聚合。这种预聚合操作被称之为rollup，这样就可以显著的节省存储成本。

2.5 查询

Druid支持JSON-over-HTTP和SQL两种查询方式。除了标准的SQL操作外，Druid还支持大量的唯一性操作，利用Druid提供的算法套件可以快速的进行计数，排名和分位数计算。

Drui被设计成一个健壮的系统，它需要7*24小时运行。
Druid拥有以下特性，以确保长期运行，并保证数据不丢失。

数据副本
Druid根据配置的副本数创建多个数据副本，所以单机失效不会影响Druid的查询。
独立服务
Druid清晰的命名每一个主服务，每一个服务都可以根据使用情况做相应的调整。服务可以独立失败而不影响其他服务的正常运行。例如，如果数据摄入服务失效了，将没有新的数据被加载进系统，但是已经存在的数据依然可以被查询。
自动数据备份
Druid自动备份所有已经indexed的数据到一个文件系统，它可以是分布式文件系统，如HDFS。你可以丢失所有Druid集群的数据，并快速从备份数据中重新加载。
滚动更新
通过滚动更新，你可以在不停机的情况下更新Druid集群，这样对用户就是无感知的。所有Druid版本都是向后兼容。

3. 安装部署

3.1 环境介绍

Durid端口列表
以下是Durid默认的端口列表，防止因为端口占用导致服务器启动失败

3.2 安装方式

获取Druid安装包有以下几种方式

3.2.1 源代码编译

druid/release，主要用于定制化需求时，比如结合实际环境中的周边依赖，或者是加入支持特定查询的部分的优化必定等。

3.2.2 官网下载

官网安装包下载：download，包含Druid部署运行的最基本组件

3.2.3 Imply组合套件

Imply，该套件包含了稳定版本的Druid组件、实时数据写入支持服务、图形化展示查询Web UI和SQL查询支持组件等，目的是为更加方便、快速地部署搭建基于Druid的数据分析应用产品。

3.3 单机配置参考

3.3.1 Nano-Quickstart

1 CPU, 4GB 内存
启动命令: bin/start-nano-quickstart
配置目录: conf/druid/single-server/nano-quickstart

3.3.2 微型快速入门

4 CPU, 16GB 内存
启动命令: bin/start-micro-quickstart
配置目录: conf/druid/single-server/micro-quickstart

3.3.3 小型

8 CPU, 64GB 内存 (~i3.2xlarge)
启动命令: bin/start-small
配置目录: conf/druid/single-server/small

3.3.4 中型

16 CPU, 128GB 内存 (~i3.4xlarge)
启动命令: bin/start-medium
配置目录: conf/druid/single-server/medium

3.3.5 大型

32 CPU, 256GB 内存 (~i3.8xlarge)
启动命令: bin/start-large
配置目录: conf/druid/single-server/large

3.3.6 超大型

64 CPU, 512GB 内存 (~i3.16xlarge)
启动命令: bin/start-xlarge
配置目录: conf/druid/single-server/xlarge

3.4 单机版安装

3.4.1 软件要求

Java 8 (8u92+)
Linux, Mac OS X, 或者其他的类Unix OS (Windows是不支持的)
安装Docker环境
安装Docker-compose环境

3.4.2 硬件要求

Druid包括几个单服务配置示例，以及使用这些配置启动Druid进程的脚本。
如果您在笔记本电脑等小型机器上运行以进行快速评估，那么micro-quickstart配置是一个不错的选择，适用于 4CPU/16GB RAM环境。如果您计划在教程之外使用单机部署进行进一步评估，我们建议使用比micro-quickstart更大的配置。
虽然为大型单台计算机提供了示例配置，但在更高规模下，我们建议在集群部署中运行Druid，以实现容错和减少资源争用。

3.5 imply方式安装

安装推荐Imply方式，Imply方式出了提供druid组件，还有图形化、报表等功能

3.5.1 安装perl

因为启动druid 需要用到perl环境，需要安装下

yum install perl gcc kernel-devel

3.5.2 关闭防火墙

#查看防火状态 
systemctl status firewalld 
#暂时关闭防火墙 
systemctl stop firewalld 
#永久关闭防火墙 
systemctl disable firewalld

3.5.3 安装JDK

选择与自己系统相匹配的版本，我的是Centos7 64位的，所以如果是我的话我会选择此版本，要
记住的你们下载的话选择的是以tar.gz结尾的。

3.5.3.1 下载JDK

到Oracle 官网下载jdk1.8，选择 jdk-8u301-linux-x64.tar.gz

将文件下载到本地后上传到linux目录下

上传文件，解压目录

mkdir /usr/local/java
tar -zxvf jdk-8u301-linux-x64.tar.gz

配置环境变量
配置环境变量，修改profile文件并加入如下内容

vi /etc/profile

export JAVA_HOME=/usr/local/java/jdk1.8.0_291 
export 
CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools 
.jar 
export PATH=$PATH:$JAVA_HOME/bin

生效配置

source /etc/profile

检查环境

java -version

3.5.4 安装imply

3.5.4.1 登录Imply官网

访问https://imply.io/get-started,进入Imply官网，查找合适的imply的版本的安装包，并填写简要信息后就可以下载了

解压imply
下载后上传到服务器，并进行解压

# 创建imply安装目录 
mkdir /usr/local/imply 
# 解压imply 
tar -zxvf imply-2021.05-1.tar.gz

环境准备
进入 imply-2021.05-1 目录后

# 进入imply目录 
cd imply-2021.05-1

快速启动
使用本地存储、默认元数据存储derby，自带zookeeper启动，来体验下 druid

# 创建日志目录 
mkdir logs 
# 使用命令启动 
nohup bin/supervise -c conf/supervise/quickstart.conf > logs/quickstart.log 2>&1 &

查看日志
通过 quickstart.log 来查看impl启动日志

tail -f logs/quickstart.log

每启动一个服务均会打印出一条日志。可以通过var/sv/xxx/current查看服务启动时的日志信息

tail -f var/sv/broker/current

访问Imply
可以通过访问 9095 端口来访问 imply 的管理页面

http://localhost:9095/

访问Druid
访问 8888 端口就可以访问到我们的 druid 了

http://localhost:8888

4. 数据摄取

4.1 加载本地文件

我们导入演示案例种的演示文件

4.1.1.1 数据选择

通过UI选择 local disk

并选择 Connect data

4.1.1.2 演示数据查看

演示数据在 quickstart/tutorial 目录下的 wikiticker-2015-09-12-sampled.json.gz 文件

4.1.1.3 选择数据源

因为我们是通过 imply 安装的，在 Base directory 输入绝对路径 /usr/local/imply/imply- 2021.05-1/dist/druid/quickstart/tutorial , File filter 输入 wikiticker-2015-09-12- sampled.json.gz ,并选择 apply 应用配置，我们数据已经加载进来了

Base directory 和 File filter 分开是因为可能需要同时从多个文件中摄取数据。

4.1.1.4 加载数据

数据定位后，您可以点击"Next: Parse data"来进入下一步。

数据加载器将尝试自动为数据确定正确的解析器。在这种情况下，它将成功确定 json 。可以随意使用不同的解析器选项来预览Druid如何解析您的数据。

4.1.2 数据源规范配置

4.1.2.1 设置时间列

json 选择器被选中后，点击 Next：Parse time 进入下一步来决定您的主时间列。
Druid的体系结构需要一个主时间列（内部存储为名为 _time 的列）。如果您的数据中没有时间戳，请选择固定值（Constant Value）。在我们的示例中，数据加载器将确定原始数据中的时间列是唯一可用作主时间列的候选者。
这里可以选择时间列，以及时间的显示方式

4.1.2.2 设置转换器

在这里可以新增虚拟列，将一个列的数据转换成另一个虚拟列，这里我们没有设置，直接跳过

4.1.2.3 设置过滤器

这里可以设置过滤器，对于某些数据可以不进行显示，这里我们也跳过

4.1.2.4 配置schema

在 Configure schema 步骤中，您可以配置将哪些维度和指标摄入到Druid中，这些正是数据在被Druid中摄取后出现的样子。由于我们的数据集非常小，关掉rollup、确认更改

4.1.2.5 配置Partition

一旦对schema满意后，点击 Next 后进入 Partition 步骤，该步骤中可以调整数据如何划分为段文件的方式，因为我们数据量非常小，这里我们按照 DAY 进行分段

4.1.3 提交任务

发布数据
点击完成 Tune 步骤，进入到 Publish 步，在这里我们可以给我们的数据源命名，这里我们就命名为 druid-sampled ，

点击下一步就可以查看我们的数据规范

这就是您构建的规范，为了查看更改将如何更新规范是可以随意返回之前的步骤中进行更改，同样，您也可以直接编辑规范，并在前面的步骤中看到它。
提交任务
对摄取规范感到满意后，请单击 Submit ，然后将创建一个数据摄取任务。
您可以进入任务视图，重点关注新创建的任务。任务视图设置为自动刷新，请等待任务成功。

当一项任务成功完成时，意味着它建立了一个或多个段，这些段现在将由Data服务器接收。
查看数据源
从标题导航到 Datasources 视图，一旦看到绿色（完全可用）圆圈，就可以查询数据源。此时，您可以转到 Query 视图以对数据源运行SQL查询。

查询数据
可以转到查询页面进行数据查询，这里在sql窗口编写sql后点击运行就可以查询数据了

4.2 kafka加载流式数据

4.2.1 安装Kafka

这里我们使用 docker-compose 的方式启动kafka

4.2.1.1 编辑资源清单

vi docker-compose.yml

version: '2'
services:
  kafka:
    image: wurstmeister/kafka       ## 镜像
    volumes: 
        - /etc/localtime:/etc/localtime ## 挂载位置（kafka镜像和宿主机器之间时间保持一直）
    ports:
      - "9092:9092"
    environment:
      KAFKA_ADVERTISED_HOST_NAME: 192.168.64.186   ## 修改:宿主机IP
      KAFKA_ZOOKEEPER_CONNECT: 192.168.64.186:2181       ## 卡夫卡运行是基于zookeeper的
      KAFKA_ADVERTISED_PORT: 9092
      KAFKA_LOG_RETENTION_HOURS: 120
      KAFKA_MESSAGE_MAX_BYTES: 10000000
      KAFKA_REPLICA_FETCH_MAX_BYTES: 10000000
      KAFKA_GROUP_MAX_SESSION_TIMEOUT_MS: 60000
      KAFKA_NUM_PARTITIONS: 3
      KAFKA_DELETE_RETENTION_MS: 1000

启动容器

docker-compose up -d 
docker-compose ps

验证kafka
启动kafka后需要验证kafka是否可用
登录容器
登录容器并进入指定目录

#进入容器 
docker exec -it kafka_kafka_1 bash 
#进入 /opt/kafka_2.13-2.7.0/bin/ 目录下 
cd /opt/kafka_2.13-2.7.0/bin/

发送消息
运行客户端发送消息，注意这里的连接地址需要写我们配置的宿主机地址

#运行kafka生产者发送消息 
./kafka-console-producer.sh --broker-list 192.168.64.173:9092 --topic test

发送的数据如下

{"datas": 
[{"channel":"","metric":"temperature","producer":"ijinus","sn":"IJA0101- 
00002245","time":"1543207156000","value":"80"}],"ver":"1.0"}

消费消息
运行消费者消费消息

./kafka-console-consumer.sh --bootstrap-server 192.168.64.173:9092 --topic test --from-beginning

有数据打印说明我们kafka安装是没有问题的

4.2.4 发送数据到kafka

编写代码
编写代码发送消息到kafka中

import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.kafka.core.KafkaTemplate;
import org.springframework.stereotype.Component;

@Component
public class KafkaSender {
    @Autowired
    private KafkaTemplate<String, String> kafkaTemplate;

    /**
     * 发送消息到kafka
     *
     * @param topic   主题
     * @param message 内容体
     */
    public void sendMsg(String topic, String message) {
        kafkaTemplate.send(topic, message);
    }
}

@RestController
@RequestMapping("/taxi")
public class KafkaController {
    @Autowired
    private KafkaSender kafkaSender;


    @RequestMapping("/batchTask/{num}")
    public String batchAdd(@PathVariable("num") int num) {
        for (int i = 0; i < num; i++) {
            Message message = Utils.getRandomMessage();
            kafkaSender.sendMsg("message", JSON.toJSONString(message));
        }
        return "OK";
    }

    @RequestMapping("/update")
    public String update(@RequestBody Message message) {
        kafkaSender.sendMsg("messageupdate", JSON.toJSONString(message));
        return "OK";
    }
}

server:
  port: 8010
spring:
  application:
    name: druid-kafka-service
    ######################### 数据源连接池的配置信息  #################
  kafka:
    bootstrap-servers: localhost:9092
    producer: # producer 生产者
      retries: 0 # 重试次数
      acks: 1 # 应答级别:多少个分区副本备份完成时向生产者发送ack确认(可选0、1、all/-1)
      batch-size: 16384 # 批量大小
      buffer-memory: 33554432 # 生产端缓冲区大小
      key-serializer: org.apache.kafka.common.serialization.StringSerializer
      #      value-serializer: com.itheima.demo.config.MySerializer
      value-serializer: org.apache.kafka.common.serialization.StringSerializer

发送消息
使用postman 发送消息到kafka，消息地址：http://localhost:8010/taxi/batchTask/10，消息数据如下

显示OK说明消息已经发送到了kafka中

# 4.2.5 数据选择

kafka数据查看
在load页面选择kafka，进行数据摄取模式选择

选择数据源
在这里输入ZK的地址以及需要选择数据的 topic

localhost:9092

加载数据
点击 apply 应用配置，设置加载数据源

数据源规范配置
设置时间列
json 选择器被选中后，点击 Next：Parse time 进入下一步来决定您的主时间列。
因为我们的时间列有两个创建时间以及打车时间，我们配置时间列为 trvelDate

设置转换器
在这里可以新增虚拟列，将一个列的数据转换成另一个虚拟列，这里我们增加一个状态的虚拟列，来显示状态的中文名称我们定义 0：测试数据， 1:发起打车，2：排队中，3：司机接单，4：乘客上车，5：完成打车
我们使用 case_simple 来实现判断功能，更多判断功能参考

case_simple(status,0,'测试数据',1,'发起打车',2,'排队中',3,'司机接单',4,'完成打车','状态 错误')

在这里我们新建了一个 status_text 的虚拟列来展示需要中文显示的列

配置年龄默认值，如果为空我们设置为25

nvl(age,25)

配置性别设置，我们需要设置为男女，0：男，1：女，如果为null，我们设置为男

设置过滤器
这里可以设置过滤器，对于某些数据不展示，这里我们使用区间过滤器选择显示 status>=1 的数据，具体表达式可用参考

{
"type" : "bound", 
"dimension" : "status", 
"ordering": "numeric", 
"lower": "1", 
}

因为我们把数据是0的测试数据不显示了，所以只显示了一条数据为1的数据

配置schema
在 Configure schema 步骤中，您可以配置将哪些维度和指标摄入到Druid中，这些正是数据在被Druid中摄取后出现的样子。由于我们的数据集非常小，关掉rollup、确认更改。

配置Partition
一旦对schema满意后，点击 Next 后进入 Partition 步骤，该步骤中可以调整数据如何划分为段文件的方式，因为我们打车一般按照小时来算的，我们设置为分区为``hour

配置拉取方式
这里设置kafka的拉取方式，主要设置偏移量的一些配置
在 Tune 步骤中**，将 Use earliest offset 设置为 True 非常重要**，因为我们需要从流的开始位置消费数据。其他没有任何需要更改的地方，进入到 Publish 步

提交任务
发布数据
点击完成 Tune 步骤，进入到 Publish 步，在这里我们可以给我们的数据源命名，这里我们就命名为 taxi-message ，

点击下一步就可以查看我们的数据规范

这就是您构建的规范，为了查看更改将如何更新规范是可以随意返回之前的步骤中进行更改，同样，您也可以直接编辑规范，并在前面的步骤中看到它。
提交任务
对摄取规范感到满意后，请单击 Submit ，然后将创建一个数据摄取任务。
您可以进入任务视图，重点关注新创建的任务。任务视图设置为自动刷新，请等待任务成功。

当一项任务成功完成时，意味着它建立了一个或多个段，这些段现在将由Data服务器接收。

查看数据源
从标题导航到 Datasources 视图，一旦看到绿色（完全可用）圆圈，就可以查询数据源。此时，您可以转到 Query 视图以对数据源运行SQL查询。

查询数据
可以转到查询页面进行数据查询，这里在sql窗口编写sql后点击运行就可以查询数据了

动态添加数据
发送一条数据到kafka

druid 查询数据,发现新的数据已经进来了

4.2.8 清理数据

关闭集群

# 进入impl安装目录 
cd /usr/local/imply/imply-2021.05-1 
# 关闭集群 
./bin/service --down

等待关闭服务
通过进程查看，查看服务是否已经关闭

ps -ef|grep druid

清理数据
通过删除druid软件包下的 var 目录的内容来重置集群状态

ll
rm -rf var

** 重新启动集群**

nohup bin/supervise -c conf/supervise/quickstart.conf > logs/quickstart.log 2>&1 &

查看数据源
登录后查看数据源，我们发现已经被重置了

5. 数据查询

Druid支持JSON-over-HTTP和SQL两种查询方式。除了标准的SQL操作外，Druid还支持大量的唯一性操作，利用Druid提供的算法套件可以快速的进行计数，排名和分位数计算。

5.1 准备工作

5.1.1 导入大量数据

准备大量数据提供查询,我们插入1万条随机打车数据

http://localhost:8010/taxi/batchTask/100000

查看数据摄取进程
我们发现数据摄取进程正在运行，可以等待数据摄取任务结束

5.2 原生查询

Druid 最开始的时候是不支持 SQL 查询的，原生查询是通过查询 Broker 提供的 http server 来实现的

5.2.1 查询语法

curl -L -H'Content-Type:application/json' -XPOST --data-binary 
@<query_json_file> <queryable_host>:<port>/druid/v2/?pretty

查询案例
编辑查询JSON

# 创建查询目录 
mkdir query 
# 编辑查询的JSON 
vi query/filter1.json

{ 
"queryType":"timeseries", 
"dataSource":"taxi_message", 
"granularity":"month", 
"aggregations":[ 
{ 
"type":"count", 
"name":"taxiNum" 
}
],
"filter":{"type":"selector","dimension":"status","value":1}, 
"intervals":["2021-06-07/2022-06-07"] 
}

参数解释

queryType：查询类型，timeseries代表时间序列查询
dataSource：数据源，指定需要查询的数据源是什么
granularity：分组粒度，指定需要进行分组的粒度是什么样的
aggregations：聚合查询：里面我们聚合了count，对数据进行统计
filter：数据过滤，需要查询那些数据
intervals：查询时间的范围，注意时间范围是前闭后开的，后面的日期是查询不到的

执行查询命令
在命名行中执行下面的命令会将查询json发送到对应的broker中进行查询 --data-binary 指定的查询json的路径

curl -L -H 'Content-Type:application/json' -XPOST --data-binary 
@query/filter1.json http://192.168.64.177:8082/druid/v2/?pretty

我们查询了每个月发起打车的人数有多少

5.3 查询类型

druid查询采用的是HTTP RESTFUL方式，REST接口负责接收客户端的查询请求，客户端只需要将查询条件封装成JSON格式，通过HTTP方式将JSON查询条件发送到broker节点，查询成功会返回JSON格式的结果数据。了解一下druid提供的查询类型

5.4.1 时间序列查询

timeseries时间序列查询对于指定时间段按照查询规则返回聚合后的结果集，查询规则中可以设置查询粒度，结果排序方式以及过滤条件，过滤条件可以使用嵌套过滤，并且支持后聚合。

查询属性

时间序列查询主要包括7个主要部分

数据源
，Granularity
，Filters
，聚合
，Post Aggregations
,Grand Total
,Zero-filling
,上下文参数

{ 
"queryType":"topN", 
"dataSource":"taxi_message", 
"dimension":"local", 
"threshold":2, 
"metric":"age", 
"granularity":"month", 
"aggregations":[ 
{ 
"type":"longMin", 
"name":"age", 
"fieldName":"age" 
}
], 
"filter":{"type":"selector","dimension":"sex","value":"也"}, 
"intervals":["2021-06-07/2022-06-07"] 
}

5.4.2 TopN查询

topn查询是通过给定的规则和显示维度返回一个结果集，topn查询可以看做是给定排序规则，返回单一维度的group by查询，但是topn查询比group by性能更快。metric这个属性是topn专属的按照该指标排序。
查询属性
topn的查询属性如下

案例
查询每个季度年龄最小的女性的前两个的城市

vi query/topN.json

{ 
"queryType":"topN",
"dataSource":"taxi_message", 
"dimension":"local", 
"threshold":2, 
"metric":"age", 
"granularity":"Quarter", 
"aggregations":[ 
{ 
"type":"longMin", 
"name":"age", 
"fieldName":"age" 
}
], 
"filter":{"type":"selector","dimension":"sex","value":"也"}, 
"intervals":["2021-06-07/2022-06-07"] 
}

执行查询

curl -L -H 'Content-Type:application/json' -XPOST --data-binary @query/topN.json http://192.168.64.177:8082/druid/v2/?pretty

5.4.5 分组查询

在实际应用中经常需要进行分组查询，等同于sql语句中的Group by查询，如果对单个维度和指标进行分组聚合计算，推荐使用topN查询，能够获得更高的查询性能，分组查询适合多维度，多指标聚合查询

查询属性
下表内容为一个GroupBy查询的主要部分：

案例
每一季度统计年龄在21-31的男女打车的数量

vi query/groupBy.json

{ 
"queryType":"groupBy", 
"dataSource":"taxi_message", 
"granularity":"Quarter", 
"dimensions":["sex"], 
"aggregations":[ 
{ 
"type":"count", 
"name":"taxiNum" 
}
],
"filter":{ 
"type":"bound", 
"dimension":"age", 
"lower":"21", 
"upper":"31", 
"alphaNumeric":true 
},
"intervals":["2021-06-07/2022-06-07"]
}

执行查询

curl -L -H 'Content-Type:application/json' -XPOST --data-binary 
@query/groupBy.json http://192.168.64.177:8082/druid/v2/?pretty

5.5 查询组件

在介绍具体的查询之前，我们先来了解一下各种查询都会用到的基本组件，如
Filter,Aggregator,Post-Aggregator,Query,Interval等，每种组件都包含很多的细节

5.5.1 Filter

Filter就是过滤器，在查询语句中就是一个JSON对象，用来对维度进行筛选和过滤，表示维度满足
Filter的行是我们需要的数据，类似sql中的where字句。Filter包含的类型如下：
选择过滤器
Selector Filter的功能类似于SQL中的 where key=value ,它的json示例如下

"Filter":{"type":"selector","dimension":dimension_name,"value":target_value}

使用案例

vi query/filter1.json

{ 
"queryType":"timeseries", 
"dataSource":"taxi_message", 
"granularity":"month", 
"aggregations":[ 
{ 
"type":"count", 
"name":"taxiNum" 
}
],
"filter":{"type":"selector","dimension":"status","value":1}, 
"intervals":["2021-06-07/2022-06-07"] 
}

正则过滤器
Regex Filter 允许用户使用正则表达式进行维度的过滤筛选，任何java支持的标准正则表达式druid都支持，它的JSON格式如下：

"filter":{"type":"regex","dimension":dimension_name,"pattern":regex}

使用案例，我们搜索姓名包含数字的的用户进行聚合统计

vi query/filter2.json

{ 
"queryType":"timeseries", 
"dataSource":"taxi_message", 
"granularity":"month", 
"aggregations":[ 
{ 
"type":"count", 
"name":"taxiNum" 
}
],
"filter":{"type":"regex","dimension":"username","pattern":"[0-9]{1,}"}, 
"intervals":["2021-06-07/2022-06-07"] 
}

执行查询

curl -L -H 'Content-Type:application/json' -XPOST --data-binary 
@query/filter2.json http://192.168.64.177:8082/druid/v2/?pretty

逻辑过滤器
Logincal Expression Filter包含and,not,or三种过滤器，每一种都支持嵌套，可以构建丰富的逻辑表达式，与sql中的and,not,or类似，JSON表达式如下：

"filter":{"type":"and","fields":[filter1,filter2]} 
"filter":{"type":"or","fields":[filter1,filter2]} 
"filter":{"type":"not","fields":[filter]}

使用案例，我们查询每一个月，进行打车并且是女性的数量

vi query/filter3.json

{ 
"queryType":"timeseries", 
"dataSource":"taxi_message", 
"granularity":"month", 
"aggregations":[ 
{ 
"type":"count", 
"name":"taxiNum" 
}
],
"filter":{ 
"type":"and", 
"fields":[ 
{"type":"selector","dimension":"status","value":1}, 
{"type":"selector","dimension":"sex","value":"也"} 
] 
},
"intervals":["2021-06-07/2022-06-07"] 
}

进行数据查询

curl -L -H 'Content-Type:application/json' -XPOST --data-binary 
@query/filter3.json http://192.168.64.177:8082/druid/v2/?pretty

包含过滤器
In Filter类似于SQL中的in，比如 where username in(‘zhangsan’,‘lisi’,‘zhaoliu’)，它的JSON格式如下：

{ 
"type":"in", 
"dimension":"local", 
"values":['四川省','江西省','福建省'] 
}

使用案例，我们查询每一个月，在四川省、江西省、福建省打车的人数

vi query/filter4.json

{ 
"queryType":"timeseries", 
"dataSource":"taxi_message", 
"granularity":"month", 
"aggregations":[ 
{ 
"type":"count", 
"name":"taxiNum" 
}
],
"filter":{ 
"type":"in", 
"dimension":"local", 
"values":["四川省","江西省","福建省"] 
},
"intervals":["2021-06-07/2022-06-07"] 
}

进行数据查询

curl -L -H 'Content-Type:application/json' -XPOST --data-binary 
@query/filter4.json http://192.168.64.177:8082/druid/v2/?pretty

区间过滤器
Bound Filter是比较过滤器，包含大于，等于，小于三种，它默认支持的就是字符串比较，是基于字典顺序，如果使用数字进行比较，需要在查询中设定alpaNumeric的值为true，需要注意的是Bound Filter默认的大小比较为>=或者<=，因此如果使用<或>,需要指定lowerStrict值为true，或者upperStrict值为true,它的JSON格式如下: 21 <=age<=31

{
"type":"bound", 
"dimension":"age", 
"lower":"21", #默认包含等于 
"upper":"31", #默认包含等于 
"alphaNumeric":true #数字比较时指定alphaNumeric为true 
}

使用案例，我们查询每一个月，年龄在21-31之间打车人的数量

vi query/filter5.json

{ 
"queryType":"timeseries", 
"dataSource":"taxi_message", 
"granularity":"month", 
"aggregations":[ 
{ 
"type":"count", 
"name":"taxiNum" 
}
],
"filter":{ 
"type":"bound", 
"dimension":"age", 
"lower":"21", 
"upper":"31", 
"alphaNumeric":true 
},
"intervals":["2021-06-07/2022-06-07"] 
}

进行数据查询

curl -L -H 'Content-Type:application/json' -XPOST --data-binary @query/filter5.json http://192.168.64.177:8082/druid/v2/?pretty

聚合粒度
聚合粒度通过granularity配置项指定聚合时间跨度，时间跨度范围要大于等于创建索引时设置的索引粒度，druid提供了三种类型的聚合粒度分别是：Simple,Duration,Period

Simple的聚合粒度
Simple的聚合粒度通过druid提供的固定时间粒度进行聚合，以字符串表示，定义查询规则的时候不需要显示设置type配置项，druid提供的常用Simple粒度：
all,none,minute,fifteen_minute,thirty_minute,hour,day,month,Quarter（季度）,year；

all：会将起始和结束时间内所有数据聚合到一起返回一个结果集，
none：按照创建索引时的最小粒度做聚合计算，最小粒度是毫秒为单位，不推荐使用性能较差；
minute：以分钟作为聚合的最小粒度；
fifteen_minute：15分钟聚合；
thirty_minute：30分钟聚合
hour：一小时聚合
day：天聚合
month：月聚合
Quarter：季度聚合
year：年聚合

编写测试，我们这里按照季度聚合，并且我们过滤年龄是21-31的数据，并且按照地域以及性别进行分组

vi query/filter6.json

{ 
"queryType":"groupBy", 
"dataSource":"taxi_message", 
"granularity":"Quarter", 
"dimensions":["local","sex"], 
"aggregations":[ 
{ 
"type":"count", 
"name":"taxiNum" 
}
],
"filter":{ 
"type":"bound", 
"dimension":"age", 
"lower":"21", 
"upper":"31", 
"alphaNumeric":true 
},
"intervals":["2021-06-07/2022-06-07"] 
}

进行查询

curl -L -H 'Content-Type:application/json' -XPOST --data-binary @query/filter6.json http://192.168.64.177:8082/druid/v2/?pretty

Duration聚合粒度
duration聚合粒度提供了更加灵活的聚合粒度，不只局限于Simple聚合粒度提供的固定聚合粒度，而是以毫秒为单位自定义聚合粒度，比如两小时做一次聚合可以设置duration配置项为7200000毫秒，所以Simple聚合粒度不能够满足的聚合粒度可以选择使用Duration聚合粒度。
注意：使用Duration聚合粒度需要设置配置项type值为duration
编写测试，我们按照

vi query/filter7.json

{ 
"queryType":"groupBy", 
"dataSource":"taxi_message", 
"granularity":{ 
"type":"duration", 
"duration":7200000 
},
"dimensions":["local","sex"], 
"aggregations":[ 
{ 
"type":"count", 
"name":"taxiNum" 
}
],
"filter":{ 
"type":"bound", 
"dimension":"age", 
"lower":"21", 
"upper":"31", 
"alphaNumeric":true 
},
"intervals":["2021-06-07/2021-06-10"] 
}

数据查询

curl -L -H 'Content-Type:application/json' -XPOST --data-binary @query/filter7.json http://192.168.64.177:8082/druid/v2/?pretty

Period聚合粒度
Period聚合粒度采用了日期格式，常用的几种时间跨度表示方法，一小时：PT1H,一周：P1W，一天：P1D，一个月：P1M；使用Period聚合粒度需要设置配置项type值为period,
编写测试，我们按照一天进行聚合

vi query/filter8.json

{ 
"queryType":"groupBy", 
"dataSource":"taxi_message", 
"granularity":{ 
"type":"period", 
"period":"P1D" 
},
"dimensions":["sex"], 
"aggregations":[ 
{ 
"type":"count", 
"name":"taxiNum" 
}
],
"filter":{ 
"type":"bound", 
"dimension":"age", 
"lower":"21", 
"upper":"31", 
"alphaNumeric":true 
},
"intervals":["2021-06-07/2021-06-10"] 
}

数据查询

curl -L -H 'Content-Type:application/json' -XPOST --data-binary @query/filter8.json http://192.168.64.177:8082/druid/v2/?pretty

5.5.2聚合器

Aggregator是聚合器，聚合器可以在数据摄入阶段和查询阶段使用，在数据摄入阶段使用聚合器能够在数据被查询之前按照维度进行聚合计算，提高查询阶段聚合计算性能，在查询过程中，使用聚合器能够实现各种不同指标的组合计算。

公共属性
聚合器的公共属性介绍

type：声明使用的聚合器类型；
name：定义返回值的字段名称，相当于sql语法中的字段别名；
fieldName：数据源中已定义的指标名称，该值不可以自定义，必须与数据源中的指标名一致；

计数聚合
计数聚合器，等同于sql语法中的count函数，用于计算druid roll-up合并之后的数据条数，并不是摄入的原始数据条数，在定义数据模式指标规则中必须添加一个count类型的计数指标count;
比如想查询Roll-up 后有多少条数据，查询的JSON格式如下

vi query/aggregator1.json

{ 
"queryType":"timeseries", 
"dataSource":"taxi_message", 
"granularity":"Quarter", 
"aggregations":[ 
{ 
"type":"count", 
"name":"count" 
} 
],
"filter":{ 
"type":"bound", 
"dimension":"age", 
"lower":"21", 
"upper":"31", 
"alphaNumeric":true 
},
"intervals":["2021-06-07/2022-06-07"] 
}

求合聚合
求和聚合器，等同于sql语法中的sum函数，用户指标求和计算，druid提供两种类型的聚合器，分别是long类型和double类型的聚合器；
第一类就是longSum Aggregator ,负责整数类型的计算，JSON格式如下：
{“type”:“longSum”,“name”:out_name,“fieldName”:“metric_name”}
第二类是doubleSum Aggregator,负责浮点数计算，JSON格式如下：
{“type”:“doubleSum”,“name”:out_name,“fieldName”:“metric_name”}
示例

vi query/aggregator2.json

{ 
"queryType":"timeseries", 
"dataSource":"taxi_message", 
"granularity":"Quarter", 
"aggregations":[ 
{ 
"type":"longSum", 
"name":"ageSum", 
"fieldName":"age" 
} 
],
"filter":{ 
"type":"bound", 
"dimension":"age", 
"lower":"21", 
"upper":"31", 
"alphaNumeric":true 
},
"intervals":["2021-06-07/2022-06-07"] 
}

5.6 Druid SQL

Druid SQL是一个内置的SQL层，是Druid基于JSON的本地查询语言的替代品，它由基于 ApacheCalcite的解析器和规划器提供支持
Druid SQL将SQL转换为查询Broker(查询的第一个进程)上的原生Druid查询，然后作为原生Druid查询传递给数据进程。除了在Broker上转换SQL) 的（轻微）开销之外，与原生查询相比，没有额外的性能损失。

5.6.1基本查询

5.6.1.1查询数据总条数

可以在druid的控制台进行查询

select count(1) from "taxi_message"

查询当前打车人数
我们可以统计出来当前的打车的人数

5.6.2 聚合功能

聚合函数可以出现在任何查询的SELECT子句中。可以使用类似语法过滤任何聚合器 AGG(expr) FILTER(WHERE whereExpr) 。过滤的聚合器仅聚合与其过滤器匹配的行。同一SQL查询中的两个聚合器可能具有不同的筛选器。
只有COUNT聚合可以接受DISTINCT。

查询数据总条数
可以在druid的控制台进行查询

select count(1) from "taxi_message"

5.7 客户端API

我们在这里实现SpringBoot+Mybatis实现SQL查询ApacheDruid数据

5.7.1 引入Pom依赖

  <dependencies>
        <dependency>
            <groupId>org.springframework.bootgroupId>
            <artifactId>spring-boot-starter-webartifactId>
        dependency>
        <dependency>
            <groupId>org.springframework.bootgroupId>
            <artifactId>spring-boot-starter-testartifactId>
        dependency>

        <dependency>
            <groupId>org.mybatis.spring.bootgroupId>
            <artifactId>mybatis-spring-boot-starterartifactId>
            <version>2.2.0version>
        dependency>


        <dependency>
            <groupId>org.apache.calcite.avaticagroupId>
            <artifactId>avaticaartifactId>
            <version>1.18.0version>
        dependency>

        <dependency>
            <groupId>org.apache.calcite.avaticagroupId>
            <artifactId>avatica-serverartifactId>
            <version>1.18.0version>
        dependency>
    dependencies>

配置数据源连接
在application.yml中配置数据库的连接信息
连接时需注意Druid时区和JVM时区，不设置时区时默认采用JVM时区
文档参考地址：https://calcite.apache.org/avatica/docs/client_reference.html

spring:
  datasource:
    # 连接池信息
    url: jdbc:avatica:remote:url=http://192.168.64.177:8082/druid/v2/sql/avatica/
    # 驱动信息
    driver-class-name: org.apache.calcite.avatica.remote.Driver

编写代码

@Data
@ToString
public class TaxiMessage {

    private String __time;
    private Integer age;
    private Integer createDate;
    private String local;
    private String sex;
    private Integer status;
    private String statusText;
    private String username;
    }

编写mapper
所有字段名、表名必须使用如下方式标识 “表名”

@Mapper
public interface TaxiMessageMapper {
    @Select("SELECT * FROM \"taxi_message\" where username=#{username}")
    public TaxiMessage findByUserName(String username);
}

编写Service

@Service
public class TaxiMessageService {
    @Autowired
    private TaxiMessageMapper taxiMessageMapper;

    public TaxiMessage findByUserName(String username) {
        return taxiMessageMapper.findByUserName(username);
    }
}

编写启动类

@SpringBootApplication
@MapperScan(basePackages = "com.druid.mapper")
public class Application {
    public static void main(String[] args) {
        SpringApplication.run(Application.class);
    }
}

** 编写测试类**

@RunWith(SpringRunner.class)
@SpringBootTest(classes = Application.class)
public class DruidTest {
    @Autowired
    private TaxiMessageService taxiMessageService;

    @Test
    public void test() {
        TaxiMessage taxiMessage = taxiMessageService.findByUserName("eFQfLXmXD4");
        System.out.println(taxiMessage);
        Assert.assertNotNull(taxiMessage);
    }
}

你可能感兴趣的:(Durid,Durid查询,集成Springboot,Durid数据摄取,安装)

Java Panama 项目：Java 与 AI 的融合 AI天才研究院计算 Java实战 DeepSeek R1 &大数据AI人工智能大模型人工智能 java python
JavaPanama项目：Java与AI的融合Java在AI领域的优势Java在AI领域的优势主要体现在以下几个方面：强大的生态系统：Java拥有丰富的库和框架，为AI开发提供了坚实的基础。跨平台性：Java的“一次编写，到处运行”特性，降低了AI应用的运维成本。高性能与稳定性：Java虚拟机（JVM）的优化和垃圾回收机制，确保了AI应用的高效运行和内存管理。实时数据处理能力：Java可以高效处理
Windows操作系统部署Tomcat详细讲解 web15085415935 面试学习路线阿里巴巴 windows tomcat java
Tomcat是一个开源的JavaServlet容器，用于处理JavaWeb应用程序的请求和响应。以下是关于Tomcat的用法大全：一、安装Tomcat下载访问ApacheTomcat官方网站（https://tomcat.apache.org/），根据你的操作系统（如Windows、Linux、macOS）和需求选择合适的版本进行下载。例如，对于开发环境，通常选择较新的稳定版本。安装（以Windo
Tomcat升级步骤 qq_33928223 软件部署 tomcat java
以下是ApacheTomcat升级的一般步骤，具体操作可能因环境和需求有所不同，请根据实际情况进行调整：1.确定当前版本和目标版本确认当前版本:查看当前正在运行的Tomcat版本。$CATALINA_HOME/bin/version.sh选择目标版本:根据需求选择要升级到的目标版本（如从8.x到9.x或更高版本）。2.备份现有安装备份配置文件：server.xmlweb.xmlcontext.xm
安心联车辆管理系统二次开发方向全分析安心联-车辆监控管理系统人工智能大数据
安心联车辆动态监控管理系统作为基于北斗/GPS的综合性车辆管理平台，其二次开发方向可从功能扩展、技术优化、行业适配等多个维度展开。结合搜索结果中的技术架构、功能模块及行业需求，以下是主要的二次开发方向及相关技术实现建议：1.协议兼容性与硬件集成扩展方向：支持更多行业协议与传感器类型。当前系统已兼容JT/T808、JT/T809等交通行业协议，可扩展至其他领域（如物流、冷链运输）的专用协议（如GB/
MyBatis-Plus 的加载及初始化一个public的class java mybatis
在SpringBoot启动过程中，MyBatis-Plus的加载和初始化涉及多个阶段的工作。这些工作包括MyBatis-Plus自身的配置解析、Mapper接口的扫描与注册、SQL语句的动态注入以及底层MyBatis的初始化等。以下是对整个过程的详细分析：1.SpringBoot启动时对MyBatis-Plus的加载SpringBoot在启动时会对MyBatis-Plus进行自动配置（AutoCo
虚拟机安装windows提示OOBEREGION techpupil windows
在VMware中安装win10一直提示OOBEREGION，在查找后发现在给他的硬件配置时，给他的内核数一定要大于2，我原来是1，搞了很长时间都不行
QML与C++集成之道 QT性能优化QT原理源码QT界面美化 qt qt6.3 qt5 QT教程 c++
QML与C++集成之道补天云火鸟博客创作软件1QML基础和C++整合入门1.1QML语言概览1.1.1QML语言概览QML语言概览QML语言概览QML简介及用途QML（QuickModelLanguage）是Qt库中的一种声明式编程语言，主要用于构建复杂的用户界面。它是一种面向对象的语言，但使用场景和传统面向对象编程有所不同。QML允许开发者以XML或JSON格式编写代码来描述UI组件、它们的属性
中小微企业PLM实施策略：3万元预算构建基础功能的路径程序员
中小微企业在数字化转型的浪潮中，产品生命周期管理（PLM）系统的实施对于提升企业竞争力至关重要。然而，中小微企业往往面临预算有限的困境。如何在3万元预算内构建PLM基础功能，成为众多企业关注的焦点。本文将深入探讨这一路径，为中小微企业提供切实可行的实施策略。明确PLM基础功能需求首先要清晰界定中小微企业在不同发展阶段对PLM基础功能的需求。对于中小微企业而言，核心需求通常围绕产品数据管理、流程管理
OpenCV 基础模块 Python 版 ice_junjun OpenCV opencv python 计算机视觉
OpenCV基础模块权威指南（Python版）一、模块全景图plaintextOpenCV架构(v4.x+)├─核心层│├─core：基础数据结构与操作（Mat/Scalar/Point）│└─imgproc：图像处理流水线（滤波→变换→检测）├─交互层│├─highgui：GUI与媒体I/O（显示/捕获/交互）│└─video：视频分析（运动检测/目标跟踪）├─3D视觉层│└─calib3d：相
腾讯面经，有点难度~ 后端go
今天分享组织内的朋友在腾讯安全的实习面经。内容涵盖了QPS测试方法、SQL聚合查询、Linux进程管理、Redis数据结构与持久化、NAT原理、Docker隔离机制、Go语言GMP调度模型、协程控制、系统调用流程、变量逃逸分析及map操作等等知识点。下面是我整理的面经详解：面经详解一个表，里面有数据列，id，name,class，查学生最喜欢的前10个课程，sql语句实现SELECTclass,C
技术书籍推荐(001):电子书免费下载 c++
[0000]CodeLikeaProinRust(英文版)免费电子书PDF下载下载地址：http://t-book.sunlogging.com/2025/03/19/book/book_0000/书籍简介：本书是一本面向中高级Rust开发者的进阶指南，旨在帮助读者快速掌握Rust语言的核心工具、数据结构、内存管理、测试策略、异步编程及优化技巧。全书分为五个部分：ProRust基础涵盖Rust项目
Pydantic字段级校验：解锁@validator的12种应用
title:Pydantic字段级校验：解锁@validator的12种应用date:2025/3/23updated:2025/3/23author:cmdragonexcerpt:Pydantic校验系统支持通过pre验证器实现原始数据预处理，在类型转换前完成字符清洗等操作。格式验证涵盖正则表达式匹配与枚举值约束，确保护照编号等字段符合规范。动态校验机制处理跨字段依赖关系及环境感知验证，根据运
Java有哪些编程技巧？ java
Java编程技巧：提升效率与质量的实用指南在Java编程中，掌握一些高效的编程技巧不仅可以提高开发效率，还能提升代码的可读性、可维护性和性能。以下是一些实用的Java编程技巧，供开发者参考和应用。一、代码优化技巧（一）合理使用数据类型选择合适的数据类型：根据实际需求选择合适的数据类型。例如，如果只需要存储整数，且数值范围较小，可以使用int而不是long，以节省内存。使用包装类时需谨慎：Java的
DunTrust IP SSL证书——支持多端口验证 https
市面上99%的证书品牌的IPSSL证书在签发过程中会涉及默认80或者443端口开放问题，但是也有少数服务商也支持其他端口验证。一、IPSSL证书概述IPSSL证书是一种用于保护IP地址安全的SSL证书，它能够对IP地址进行HTTPS加密，确保传输数据的安全性和完整性。IPSSL证书通常用于没有域名或需要直接使用IP地址进行访问的场景。二、多端口验证的支持情况市面上99%的证书品牌的IPSSL证书在
跟着外贸高手学跟单！分享6大实用跟单技巧
在外贸行业中，订单的成交95%依赖于高效的跟单技巧。无论是分析客户行为，还是灵活运用价格策略，每一步都可能成为促成交易的关键。本文将结合外贸实战经验，分享6大核心跟单技巧，并介绍如何通过ZohoBooks的智能化外贸管理工具提升跟单效率与成功率。技巧1：深度分析客户，精准锁定需求核心方法：通过海关数据、社交媒体（如领英、脸书）及搜索引擎（谷歌）挖掘客户的采购历史、合作供应商、竞争对手等关键信息，并
内网IP地址SSL证书申请指南安全
SSL/TLS证书是保障网站和服务安全的重要工具，能够加密数据传输并验证服务器身份。然而，对于局域网/内网IP地址而言，申请SSL证书的过程具有一定的特殊性，以下是一份详细的攻略：一、了解局域网/内网IP地址的特殊性唯一性问题：局域网/内网IP地址在内部网络中可能具有唯一性，但在整个互联网中并不唯一。访问限制：局域网/内网IP地址通常只能在内部网络中访问，无法从外部网络直接访问。二、选择证书颁发机
医疗器械企业出海，如何应对序列号跟踪、批次管理难题？
全球医疗器械市场规模持续扩大，越来越多的中国医疗器械企业选择走出国门，参与全球竞争。在出海过程中，欧盟、美国等国家均要求企业建立完整的追溯体系，这给国内医疗企业带来了新的挑战。这该如何破局？ZohoBooks以智能库存管理、全球化合规支持和多系统集成能力，可以成为医疗器械企业出海的“数字化护航者”。一、医疗器械出海的三大管理痛点1、序列号跟踪：从生产到终端的全链条追溯难题医疗器械的序列号需贯穿生产
使用PHP对接StockTV全球金融市场数据API实战指南 php股票接口
关键词：PHPAPI开发、金融市场数据、WebSocket实时数据、cURL实战一、项目概述StockTV作为全球领先的金融数据平台，提供覆盖股票、外汇、期货和加密货币的实时行情服务。本文将手把手教你使用PHP实现以下核心功能：✅RESTAPI调用：获取历史行情数据✅WebSocket订阅：实时价格推送✅生产级特性：异常重试、速率控制、数据缓存✅高性能优化：连接池、异步处理二、环境准备1.运行环境
Spring 事务管理全解析：原理、源码与实战工一木子 SpringFramework 笔记 spring 数据库 java
Spring事务管理全解析：原理、源码与实战事务（Transaction）是保证数据一致性的重要机制，Spring通过声明式事务和编程式事务提供强大的事务管理能力。本篇文章将深入剖析Spring事务的底层原理、传播机制、源码解析，并通过代码实战讲解如何正确使用Spring事务。1.什么是事务？（What）事务是数据库操作的最小执行单元，必须具备ACID（原子性、一致性、隔离性、持久性）特性。Spr
SQL中体会多对多 PlumCarefree sql 数据库
我们可以根据学生与课程多对多关系的数据库模型，给出实际的表数据以及对应的查询结果示例，会用到JOIN``LEFTJOIN两种连接1.学生表（students）student_idstudent_name1张三2李四3王五2.课程表（courses）course_idcourse_name1数学2英语3物理3.选课表（student_courses）idstudent_idcourse_id1112
云智慧：拥抱AI算法驱动的智能运维服务创新引擎
随着信息化、数字化、智能化的加码，企业对人工智能、大数据等技术应用呈现出明显兴趣，海笔研究对国内中型规模企业调研表明，在2020年，54.1%的企业选择购买人工智能类应用，41.9%的企业选择购买大数据及BI类应用，各类产品软件的应用大幅提升了企业信息系统复杂度，以及运维管理难度。业务发展催生服务需求从系统管理者角度出发，信息系统从“单机Excel表格”到“集中式单系统”再到“微服务、云架构”等，
云智慧发布对象关系型数据库CloudPanguDB，打破传统技术壁垒
近日，云智慧推出关系型数据库CloudPanguDB（中文名称：盘古数据库），旨在通过高兼容性能和创新技术架构，降低企业项目整体运营成本。无论是处理海量复杂数据，还是构建清晰有序的数据结构关系，CloudPanguDB都具有强大的应用价值。随着各产业数字化转型的迅速发展，企业对国产化数据库需求与日俱增。CloudPanguDB以云智慧自身产品技术为基础，统一优化技术架构，功能覆盖关系型数据库、全文
螺旋折线 | 第九届蓝桥杯省赛C++B组 @Mr.stone 蓝桥杯 c++算法
如下图所示的螺旋折线经过平面上所有整点恰好一次。对于整点(X,Y)，我们定义它到原点的距离dis(X,Y)是从原点到(X,Y)的螺旋折线段的长度。例如dis(0,1)=3,dis(−2,−1)=9给出整点坐标(X,Y)，你能计算出dis(X,Y)吗？输入格式包含两个整数X,Y。输出格式输出一个整数，表示dis(X,Y)。数据范围−109≤X,Y≤109输入样例：01输出样例：3题解：数学计算题目，
算力租赁：人工智能时代的“水电煤”革命——以NVIDIA 4090为例解读下一代算力解决方案算法工程gpu
引言：当AI算力需求遇上“算力饥渴症”2023年，ChatGPT仅用2个月突破1亿用户，StableDiffusion让普通人秒变艺术家，但背后是单次训练消耗超10万GB内存、千亿级参数的恐怖算力需求。当全球AI企业陷入“算力饥渴症”时，一种名为算力租赁的创新模式正以每年37%的增速（MarketsandMarkets数据）重塑行业格局。本文将深度解析这一革命性服务，并聚焦搭载NVIDIARTX4
C++20中哪些特性对内存管理有帮助？ c++
C++20引入了多项改进和新特性，这些特性在内存管理方面提供了更强大的支持和更高的灵活性。以下是C++20中对内存管理有帮助的主要特性：一、对齐分配器（AlignedAllocator）C++20引入了对齐分配器，允许开发者在分配内存时指定对齐参数，从而确保分配的内存块满足特定的对齐要求。这在处理需要特定对齐的硬件或数据结构时非常有用。cpp复制std::aligned_alloc(64,1024
python本地连接minio 伶星37 python 网络服务器
在你浏览器能成功访问到你的minio网页，并且成功登录之后。接下来如果你想用python连接数据库，并且想用python连接minio，就可以用这个blog。连接代码client=Minio("localhost:9000",#9000是默认端口号access_key="admin",#你的账户secret_key="password",#你的密码secure=False,#这点我会详细说明)为什
MybatisPlus 伶星37 spring boot 后端
代码部分添加依赖该代码添加位置：就是在springboot配置文件里面的pom.xml里面要添加的东西对新手说的话，如果这一步没有看懂的话，可以去看一下基础，否则这样的话不能做到理解学习//mybatis-plus的一个插件com.baomidoumybatis-plus-boot-starter3.4.2//这个是关于mysql的一种依赖mysqlmysql-connector-java5.1.
操作系统练习题齐飞 linux
文章目录一、单选题二、多选题三、填空题四、简答题一、单选题1、在计算机系统中配置操作系统的主要目的是（）。A、增强计算机系统的功能B、提高系统资源的利用率C、提高系统的运行速度D、合理组织系统的工作流程，以提高系统吞吐量正确答案：B2、操作系统的主要功能是管理计算机系统中的（），其中包括处理机、存储器，以及文件和设备。这里的存储器管理主要是对进程进行管理。A、程序和数据B、资源C、软件D、硬件正确
服务器负载均衡是什么意思？ lddfff_3a 负载均衡
什么是负载均衡？负载均衡是由多台服务器以对称的方式组成一个服务器集合，每台服务器都具有等价的地位，都可以单独对外供应效力而无须其他服务器的辅助。经过某种负载分管技术，将外部发送来的央求均匀分配到对称结构中的某一台服务器上，而接收到央求的服务器独登时回应客户的央求。均衡负载可以平均分配客户央求到服务器列阵，籍此供应快速获取重要数据，解决很多并发访问效力问题。这种群集技术可以用最少的出资取得接近于大型
数据权限访问控制（Apache Sentry） deepdata_cn 权限管理 apache sentry
ApacheSentry最初由Cloudera公司内部开发，针对Hadoop系统中的数据（主要是HDFS、Hive的数据）进行细粒度控制，对HDFS、Hive以及Impala有着良好的支持性。2013年Sentry成为Apache的孵化项目，为Hadoop集群元数据和数据存储提供集中、细粒度的访问控制。其架构包括DataEngine、Plugin、Policymetadata等部分，Plugin负
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f

Apache Durid(入门 安装 数据摄取 查询 集成SpringBoot)

Apache Durid

Apache Durid

1. Durid概述

1.1 为什么使用

1.1.1 云原生数据库

1.1.2 轻松集成

1.1.3 超高性能

1.1.4 工作流

1.1.5 多种部署方式

1.2 使用场景

1.2.1 常见的使用场景

1.2.1.1 用户活动和行为

1.2.1.2 网络流

1.2.1.3 数字营销

1.2.1.4 应用性能管理

1.2.1.5 物联网和设备指标

1.2.1.6 OLAP和商业智能

1.2.2 适合的场景

1.2.3 不适合的场景

2. Durid是什么

2.1 主要特性

2.2 和其他技术对比

2.3 数据摄入

2.4 数据存储

2.5 查询

3. 安装部署

3.1 环境介绍

3.2 安装方式

3.2.1 源代码编译

3.2.2 官网下载

3.2.3 Imply组合套件

3.3 单机配置参考

3.3.1 Nano-Quickstart

3.3.2 微型快速入门

3.3.3 小型

3.3.4 中型

3.3.5 大型

3.3.6 超大型

3.4 单机版安装

3.4.1 软件要求

3.4.2 硬件要求

3.5 imply方式安装

3.5.1 安装perl

3.5.2 关闭防火墙

3.5.3 安装JDK

3.5.3.1 下载JDK

3.5.4 安装imply

3.5.4.1 登录Imply官网

4. 数据摄取

4.1 加载本地文件

4.1.1.1 数据选择

4.1.1.2 演示数据查看

4.1.1.3 选择数据源

4.1.1.4 加载数据

4.1.2 数据源规范配置

4.1.2.1 设置时间列

4.1.2.2 设置转换器

4.1.2.3 设置过滤器

4.1.2.4 配置schema

4.1.2.5 配置Partition

4.1.3 提交任务

4.2 kafka加载流式数据

4.2.1 安装Kafka

4.2.1.1 编辑资源清单

4.2.4 发送数据到kafka

# 4.2.5 数据选择

4.2.8 清理数据

5. 数据查询

5.1 准备工作

5.1.1 导入大量数据

5.2 原生查询

5.2.1 查询语法

5.3 查询类型

5.4.1 时间序列查询

查询属性

5.4.2 TopN查询

5.4.5 分组查询

5.5 查询组件

5.5.1 Filter

Apache Durid(入门安装数据摄取查询集成SpringBoot)