范桂飓

数据仓库性能测试方法论与工具集

目录
数据仓库 v.s. 传统数据库
数据仓库性能测试案例
- 性能指标
- 测试方案
- - 测试场景
  - 测试数据集
  - 测试用例
  - 性能指标
  - 测试脚本工具
- 基准环境准备
- - 硬件环境
  - 软件环境
- 测试操作步骤
- - Cloudwave 执行步骤
  - - 导入数据集
    - TestCase 1. 执行 13 条标准 SQL 测试语句
    - TestCase 2. 执行多表联合 join 拓展 SQL1 测试语句
    - TestCase 3. 执行多表联合 join 拓展 SQL2 测试语句
  - StarRocks 执行步骤
  - - 导入数据集
    - TestCase 1. 执行 13 条标准 SQL 测试语句
    - TestCase 2. 执行多表联合 join 拓展 SQL1 测试语句
    - TestCase 3. 执行多表联合 join 拓展 SQL2 测试语句
- 测试结果分析
从数据仓库到云原生数据仓库

数据仓库 v.s. 传统数据库

随着 5G 网络和 IoT 技术的兴起，以及越来越复杂多变的企业经营环境，都在促使着包括工业制造、能源、交通、教育和医疗在内的传统行业纷纷开启了数字化转型之路。由于长尾效应的存在，千行百业的数字化转型过程中必然会释放出比以往任何时候都要庞大的海量数据。那么如何对这些涌现的数据集合进行有效的存储、分析和利用，继而帮忙企业进行运营决策优化甚至创造出新的获客模式和商业模式形成竞争力，就成为了摆在企业主面前亟需解决的问题。

在这样的需求背景下，我们也观察到近年来市场上正在出现越来越多的数据仓库产品。数据仓库（Data Warehouse）是一种用于集成、存储和分析大规模结构化数据与非结构化数据的数据管理系统。相对于传统的仅用于数据存储的数据库（Database）而言，数据仓库更是一种专门设计的 “数据存储 + 数据分析 + 数据管理" 一体化解决方案，强调数据的易用性、可分析性和可管理性，提供了包括：数据清洗、整合、转换、复杂查询、报表生成和数据分析等功能，用于帮助企业实现基于数据的决策制定和数字化运营场景。

更具体而言，下列表格中从技术层面更细致的对比了两者的区别：

对比项	传统数据库	云原生数据仓库
需求面向	面向数据存储，主要用于支持事务处理以满足业务操作的需求。	面向大规模数据存储与高效能数据分析，主要用于数据分析和决策支持和，以满足企业的报表、分析和数据挖掘需求。
数据结构和组织方式	通常以表格的形式组织数据，采用关系型数据模型，通过 SQL 语句进行数据操作。	采用星型或雪花型的结构，将数据组织成事实表和维度表，通过复杂的查询和分析操作进行数据处理。
数据处理复杂性	通常处理相对较小规模和实时的数据。	处理的数据量通常很大，并且涉及到多个源系统的数据集成和转换，需要处理复杂的查询和分析操作，同时兼容 SQL 语句。
可扩展性	从分析到方案制定再到落地实施，周期较长。	在线水平扩展，分钟级扩展。
数据量级	一般处理 TB 左右以下性能良好，随着数据量增加维护难度增加。	支持 TB 至 PB 量级，通过平台管理功能进行运维实例管理和监控。
DBA 维护成本	工作量较大，中间件，SQL 优化性能分析要求 DBA 有丰富的技术经验。	平台化运维管理，功能模块化处理，DBA 工作更便捷高效。
数据分片	引用中间件层需要手动维护分片规则，制定不当容易出现数据倾斜。	分布式数据库自身具有路由分片算法，分布相对均匀可按需调整。

可见，在数据价值爆发的时代背景中，数据仓库在千行百业中都有着相应的应用场景，例如：

金融和银行业：应用数据仓库平台对大量的金融数据进行分析和建模，继而支持风险评估、交易分析和决策制定。
零售和电子商务行业：应用数据仓库平台完成销售分析、供应链分析、客户行为分析等，帮助零售商了解产品销售情况、优化库存策略、提升客户满意度，并进行个性化推荐和营销活动。
市场营销和广告行业：应用数据仓库平台整合不同渠道的市场数据和客户行为数据，帮助企业了解客户需求，支持目标市场分析、广告效果评估、客户细分等工作。

基于以上原因，我们也希望能够与时俱进地去考察市场上的数据仓库产品的特性，并以此支撑公司技术选型工作。技术选型是一项系统且严谨的工作内容，需要从功能、性能、成熟度、可控性、成本等多个方面进行考虑，本文则主要关注在性能方面，尝试探讨一种可复用的性能测试方案，包括：性能指标、方法论和工具集这 3 个方面的内容。

数据仓库性能测试案例

性能指标

数据仓库的性能指标需要根据具体的应用场景来设定，但通常的会包括以下几个方面：

读写性能：衡量数据仓库在读取和写入数据方面的性能表现。包括：吞吐量（每秒处理的请求数量）、延迟（请求的响应时间）、并发性（同时处理的请求数量）等。
水平扩展性：衡量数据仓库在大规模系统中的水平扩展能力，能够随着客户端的并发增长而进行弹性扩展，并获得线性的性能提升。
数据一致性：测试数据仓库在分布式环境中的数据一致性保证程度。根据应用场景的不同，对数据强一致性、弱一致性、最终一致性会有不同的侧重。
故障恢复和高可用性：测试数据仓库在面对故障时的恢复能力和高可用性。可以模拟节点故障或网络分区等场景，评估数据仓库的故障转移和数据恢复性能。
数据安全性：评估数据仓库在数据保护方面的性能。包括：数据的备份和恢复速度、数据加密和访问控制等。
集群管理和资源利用率：评估数据仓库在集群管理和资源利用方面的性能。包括：节点的动态扩缩容、负载均衡、资源利用率等。
数据库管理工具性能：评估数据仓库管理工具在配置、监控、诊断和优化等方面的性能表现。

在本文中主要关注读写性能方面的操作实践。

测试方案

为了进一步完善测试流程，以及对国产数据仓库大趋势的倾向性，所以本文采用了相对方便获取且同样都是采用了 Hadoop 作为底层分布式文件系统支撑的两款国产数据仓库产品进行测试：

Cloudwave 4.0（2023 年 5 月发版）是一款由北京翰云时代数据技术有限公司推出的国产商业云原生数据仓库产品。
StarRocks 3.0（2023 年 4 月发版）是一款使用 Elastic License 2.0 协议的国产开源数据仓库产品，

另外，这两款产品的安装部署和操作手册的文档都非常详尽，请大家自行查阅，下文中主要记录了测试操作步骤，并不赘述基本安装部署的步骤。

Cloudwave：https://github.com/CloudwaveDatabase/cloudwave
StarRocks：https://github.com/StarRocks/starrocks

测试场景

在本文中首先关注应用场景更加广泛的结构化数据的 SQL 读写场景。

测试数据集

测试数据集则采用了常见的 SSB1000 国际标准测试数据集，该数据集的主要内容如下表所示：

表名	表行数（单位：行）	描述
lineorder	60 亿	SSB 商品订单表
customer	3000 万	SSB 客户表
part	200 万	SSB 零部件表
supplier	200 万	SSB 供应商表
dates	2556	日期表

测试用例

TestCase 1. 执行 13 条标准 SQL 测试语句。

use ssb1000;

# 1
select sum(lo_revenue) as revenue from lineorder,dates where lo_orderdate = d_datekey and d_year = 1993 and lo_discount between 1 and 3 and lo_quantity < 25;
# 2
select sum(lo_revenue) as revenue from lineorder,dates where lo_orderdate = d_datekey and d_yearmonthnum = 199401 and lo_discount between 4 and 6 and lo_quantity between 26 and 35;
# 3
select sum(lo_revenue) as revenue from lineorder,dates where lo_orderdate = d_datekey and d_weeknuminyear = 6 and d_year = 1994 and lo_discount between 5 and 7 and lo_quantity between 26 and 35;
# 4
select sum(lo_revenue) as lo_revenue, d_year, p_brand from lineorder ,dates,part,supplier where lo_orderdate = d_datekey and lo_partkey = p_partkey and lo_suppkey = s_suppkey and p_category = 'MFGR#12' and s_region = 'AMERICA' group by d_year, p_brand order by d_year, p_brand;
# 5
select sum(lo_revenue) as lo_revenue, d_year, p_brand from lineorder,dates,part,supplier where lo_orderdate = d_datekey and lo_partkey = p_partkey and lo_suppkey = s_suppkey and p_brand between 'MFGR#2221' and 'MFGR#2228' and s_region = 'ASIA' group by d_year, p_brand order by d_year, p_brand;
# 6
select sum(lo_revenue) as lo_revenue, d_year, p_brand from lineorder,dates,part,supplier where lo_orderdate = d_datekey and lo_partkey = p_partkey and lo_suppkey = s_suppkey and p_brand = 'MFGR#2239' and s_region = 'EUROPE' group by d_year, p_brand order by d_year, p_brand;
# 7
select c_nation, s_nation, d_year, sum(lo_revenue) as lo_revenue from lineorder,dates,customer,supplier where lo_orderdate = d_datekey and lo_custkey = c_custkey and lo_suppkey = s_suppkey and c_region = 'ASIA' and s_region = 'ASIA'and d_year >= 1992 and d_year <= 1997 group by c_nation, s_nation, d_year order by d_year asc, lo_revenue desc;
# 8
select c_city, s_city, d_year, sum(lo_revenue) as lo_revenue from lineorder,dates,customer,supplier where lo_orderdate = d_datekey and lo_custkey = c_custkey and lo_suppkey = s_suppkey and  c_nation = 'UNITED STATES' and s_nation = 'UNITED STATES' and d_year >= 1992 and d_year <= 1997 group by c_city, s_city, d_year order by d_year asc, lo_revenue desc;
# 9
select c_city, s_city, d_year, sum(lo_revenue) as lo_revenue from lineorder,dates,customer,supplier where lo_orderdate = d_datekey and lo_custkey = c_custkey and lo_suppkey = s_suppkey and (c_city='UNITED KI1' or c_city='UNITED KI5') and (s_city='UNITED KI1' or s_city='UNITED KI5') and d_year >= 1992 and d_year <= 1997 group by c_city, s_city, d_year order by d_year asc, lo_revenue desc;
# 10
select c_city, s_city, d_year, sum(lo_revenue) as lo_revenue from lineorder,dates,customer,supplier where lo_orderdate = d_datekey and lo_custkey = c_custkey and lo_suppkey = s_suppkey and (c_city='UNITED KI1' or c_city='UNITED KI5') and (s_city='UNITED KI1' or s_city='UNITED KI5') and d_yearmonth  = 'Dec1997' group by c_city, s_city, d_year order by d_year asc, lo_revenue desc;
# 11
select d_year, c_nation, sum(lo_revenue) - sum(lo_supplycost) as profit from lineorder,dates,customer,supplier,part where lo_orderdate = d_datekey and lo_custkey = c_custkey and lo_suppkey = s_suppkey and lo_partkey = p_partkey and c_region = 'AMERICA' and s_region = 'AMERICA' and (p_mfgr = 'MFGR#1' or p_mfgr = 'MFGR#2') group by d_year, c_nation order by d_year, c_nation;
# 12
select d_year, s_nation, p_category, sum(lo_revenue) - sum(lo_supplycost) as profit from lineorder,dates,customer,supplier,part where lo_orderdate = d_datekey and lo_custkey = c_custkey and lo_suppkey = s_suppkey and lo_partkey = p_partkey and c_region = 'AMERICA'and s_region = 'AMERICA' and (d_year = 1997 or d_year = 1998) and (p_mfgr = 'MFGR#1' or p_mfgr = 'MFGR#2') group by d_year, s_nation, p_category order by d_year, s_nation, p_category;
# 13
select d_year, s_city, p_brand, sum(lo_revenue) - sum(lo_supplycost) as profit from lineorder,dates,customer,supplier,part where lo_orderdate = d_datekey and lo_custkey = c_custkey and lo_suppkey = s_suppkey and lo_partkey = p_partkey and c_region = 'AMERICA'and s_nation = 'UNITED STATES' and (d_year = 1997 or d_year = 1998) and p_category = 'MFGR#14' group by d_year, s_city, p_brand order by d_year, s_city, p_brand;

TestCase 2. 执行多表联合 join 拓展 SQL1 测试语句。

select count(*) from lineorder,customer where lo_custkey = c_custkey;

TestCase 3. 执行多表联合 join 拓展 SQL2 测试语句。

select count(*) from lineorder,customer,supplier where lo_custkey = c_custkey and lo_suppkey = s_suppkey;

性能指标

这里设定 2 个最常见的性能指标：

最大 CPU 资源占用数据；
最大 TestCase 执行耗时数据。

并且为了对测试结果进行 “去噪“，每个 TestCases 都会执行 19 轮 SQL 测试脚本。值得注意的是，还需要额外的去除掉第 1 轮的测试数据，因为第 1 次查询性能数据会收到系统 I/O 的变量因素影响。所以应该对余下的 18 轮测试数据做平均计算，以此获得更加准确的 SQL 执行平均耗时数据。

测试脚本工具

Cloudwave 测试脚本：

#!/bin/bash
# Program:
#       test ssb
# History:
# 2023/03/17    junfenghe.cloud@qq.com  version:0.0.1

rm -rf ./n*txt
for ((i=1; i<20; i++))
do
    cat sql_ssb.sql |./cplus.sh > n${i}.txt
done

StarRocks 测试脚本：

#!/bin/bash
# Program:
#       test ssb
# History:
# 2023/03/17    junfenghe.cloud@qq.com  version:0.0.1

rm -rf ./n*txt
for ((i=1; i<20; i++))
do
    cat sql_ssb.sql | mysql -uroot -P 9030 -h 127.0.0.1 -v -vv -vvv >n${i}.txt
done

结果分析脚本：

#!/bin/bash
# Program:
#       analysis cloudwave/starrocks logs of base compute
# History:
# 2023/02/20     junfenghe.cloud@qq.com  version:0.0.1

path=/bin:/sbin:/usr/bin:/usr/sbin:/usr/local/sbin:/usr/local/bin:~/bin
export path

suff="(s)#####"

if [ -z "${1}" ]
then
    echo "Please input database'name"
    exit -1
fi

if [ -z "$2" ]
then
    echo "Please input times of scanner"
    exit -f
fi

if [ -n "${3}" ]
then
    suff=${3}
fi

for current in ${2}
do
    result_time=""

    if [ "${1}" == "starrocks" ]
    then
        for time in $( cat ${current} | grep sec  | awk -F '('  '{print $2}' | awk -F ' ' '{print $1}' )
        do
            result_time="${result_time}${time}${suff}"
        done
    elif [ "${1}" == "cloudwave" ]
    then
        for time in $( cat ${current} | grep Elapsed | awk '{print $2}'| sed 's/:/*60+/g'| sed 's/+00\*60//g ; s/+0\*60//g ; s/^0\*60+//g' )
        do
            result_time="${result_time}${time}${suff}"
        done
    fi
    echo ${result_time%${suff}*}
done

exit 0

sql_ssb.sql 文件：用于保存不同 TestCases 中的 SQL 测试语句，然后被测试脚本读取。

基准环境准备

硬件环境

为了方便测试环境的准备和节省成本，同时尽量靠近分布式的常规部署方式。所以测试的硬件环境采用了阿里云上的 4 台 64 Core 和 256G Memory 的云主机来组成分布式集群，同时为了进一步避免磁盘 I/O 成为了性能瓶颈，所以也都挂载了 ESSD pl1 高性能云盘。

软件环境

JDK 19：Cloudwave 4.0 依赖
JDK 8：StarRocks 3.0 依赖
MySQL 8：作为 StarRocks FE（前端）
Hadoop 3.2.2：作为 Cloudwave 和 StarRocks 的分布式存储，并设定文件副本数为 2。

测试操作步骤

Cloudwave 执行步骤

导入数据集

查看为 Hadoop 准备的存储空间。

$ ./sync_scripts.sh 'df -h' | grep home

格式化 Hadoop 存储空间。

$ hdfs namenode -format

启动 HDFS，并查看服务状态。

$ start-dfs.sh 
$ ./sync_scripts.sh 'jps'

$ hdfs dfs -mkdir /cloudwave
$ hdfs dfs -mkdir /cloudwave/uploads
$ hdfs dfs -put ssb1000 /cloudwave/uploads/

检查数据上传结果，可以看到 SSB1000 数据集，占用了 606GB 的存储空间。

$ hdfs dfs -du -h /
$ du -sh /home/cloudwave/ssb-poc-0.9.3/ssb-poc/output/data_dir/ssb1000

启动 Cloudwave。

$ ./start-all-server.sh

导入 SSB1000 数据集。

$ ./cplus_go.bin -s 'loaddata ssb1000'

因为数据集非常大所以导入的时间较长，大概 58 分钟。
通过执行 HDFS 的命令，可以看到 Cloudwave 对数据集同步进行了数据压缩，这也是 Cloudwave 的特性功能之一。SSB1000 的原始大小是 606G，导入后被压缩到到了 360G。下图中的 720G 表示 HDFS 中 2 个数据副本的总大小，压缩比达到了可观的 59%。

TestCase 1. 执行 13 条标准 SQL 测试语句

将 TestCase 1 的 13 条标准 SQL 测试语句写入到 sql_ssb.sql 文件中，然后执行 Cloudwave 测试脚本，同时监控记录 CPU 资源的使用率数据。

$ ./test_ssb.sh

结果如下图所示。在 TestCase 1 中，4 节点的 Cloudwave 集群的最大 CPU 使用率平均为 5763% / 6400% = 90%（注：64 Core CPU 总量为 6400%）。

如下图所示，执行分析脚本程序来计算 TestCase 1 的平均耗时为 7.6s。

$ ./analysis.sh cloudwave "$(ls n*txt)" +

TestCase 2. 执行多表联合 join 拓展 SQL1 测试语句

将 TestCase 2 的多表联合 join 拓展 SQL1 测试语句写入到 sql_ssb.sql 文件中，然后执行 Cloudwave 测试脚本，同时监控记录 CPU 资源的使用率数据。

$ ./test_ex.sh

结果如下图所示。在 TestCase 2 中，4 节点的 Cloudwave 集群的最大 CPU 使用率平均为 0.0935%（6% / 6400%）。

如下图所示，执行分析脚本程序来计算 TestCase 2 的平均耗时为 12ms。

$ ./analysis.sh cloudwave "$(ls n*txt)" +

TestCase 3. 执行多表联合 join 拓展 SQL2 测试语句

将 TestCase 2 的多表联合 join 拓展 SQL2 测试语句写入到 sql_ssb.sql 文件中，然后执行 Cloudwave 测试脚本，同时监控记录 CPU 资源的使用率数据。

$ ./test_ex.sh

结果如下图所示。在 TestCase 2 中，4 节点的 Cloudwave 集群的最大 CPU 使用率平均为 0.118%（7.6% / 6400%）。

如下图所示，执行分析脚本程序来计算 TestCase 3 的平均耗时为 14ms。

$ ./analysis.sh cloudwave "$(ls n*txt)" +

StarRocks 执行步骤

导入数据集

清空 HDFS 存储。

$ hdfs dfs -rm -r /cloudwave
$ hdfs dfs -ls /

启动 StarRocks FE（前端）守护进程。

$ ./fe/bin/start_fe.sh --daemon

添加 StarRocks BE（后端）单元。

$ mysql -uroot -h127.0.0.1 -P9030
$ ALTER SYSTEM ADD BACKEND "172.17.161.33:9050"; 
$ ALTER SYSTEM ADD BACKEND "172.17.161.32:9050"; 
$ ALTER SYSTEM ADD BACKEND "172.17.161.31:9050"; 
$ ALTER SYSTEM ADD BACKEND "172.17.161.30:9050";

启动 StarRocks BE 守护进程。

$ ./sync_scripts.sh "cd $(pwd)/be/bin && ./start_be.sh --daemon &&ps -ef | grep starrocks_be"

验证 StarRocks 集群状态，依次查看 4 个节点都 Alive=true 了。
创建表。
开始导入数据，SSB1000 的导入时间总计为 112 分钟。

$ date && ./bin/stream_load.sh data_dir/ssb100 && date

导入过程中可以发现虽然设置了 HDFS 的副本数为 2，但 StarRocks 将副本数自动修改为了 3。

另外在导入数据集时，发现 StarRocks 似乎没有进行数据压缩，占用了 1T 的存储空间，所以导入时间也相应的变得更长。

TestCase 1. 执行 13 条标准 SQL 测试语句

将 TestCase 1 的 13 条标准 SQL 测试语句写入到 sql_ssb.sql 文件中，然后执行 StarRocks 测试脚本，同时监控记录 CPU 资源的使用率数据。

$ ./test_ssb.sh

结果如下图所示。在 TestCase 1 中，4 节点的 StarRocks 集群的最大 CPU 使用率平均为 67%（4266% / 6400%）。

如下图所示，执行分析脚本程序来计算 TestCase 1 的平均耗时为 10.39s。

$ ./analysis.sh cloudwave "$(ls n*txt)" +

TestCase 2. 执行多表联合 join 拓展 SQL1 测试语句

将 TestCase 2 的多表联合 join 拓展 SQL1 测试语句写入到 sql_ssb.sql 文件中，然后执行 StarRocks 测试脚本，同时监控记录 CPU 资源的使用率数据。

$ ./test_ex.sh

结果如下图所示。在 TestCase 2 中，4 节点的 StarRocks 集群的最大 CPU 使用率平均为 78.7%（5037% / 6400%）。

如下图所示，执行分析脚本程序来计算 TestCase 2 的平均耗时为 2.79s。

$ ./analysis.sh cloudwave "$(ls n*txt)" +

TestCase 3. 执行多表联合 join 拓展 SQL2 测试语句

将 TestCase 2 的多表联合 join 拓展 SQL2 测试语句写入到 sql_ssb.sql 文件中，然后执行 StarRocks 测试脚本，同时监控记录 CPU 资源的使用率数据。

$ ./test_ex.sh

结果如下图所示。在 TestCase 2 中，4 节点的 Cloudwave 集群的最大 CPU 使用率平均为 90.5%（5797% / 6400%）。

如下图所示，执行分析脚本程序来计算 TestCase 3 的平均耗时为 4.8s。

$ ./analysis.sh cloudwave "$(ls n*txt)" +

测试结果分析

13 条标准 SQL 测试语句结果统计：

数据仓库	数据集	响应时间（s）	CPU 最大占用率	存储压缩比	数据导入时间
Cloudwave 4.0	ssb1000	7.602	90%（5763%/6400%）	59%（360G/606G）	58分钟
StarRocks 3.0	ssb1000	10.397	66.6%（4266%/6400%）	169%（1024G/606G）	112分钟

2 条多表联合 join 扩展 SQL 测试语句结果统计：

数据仓库	数据集	拓展SQL1响应时间（s）	拓展SQL1 CPU 最大占用率	拓展SQL2响应时间（s）	拓展SQL2 CPU 最大占用率
Cloudwave 4.0	ssb1000	0.012	0.0935%（6%/6400）	0.014	0.118%（7.6%/6400）
StarRocks 3.0	ssb1000	2.79	78.7%（5037%/6400）	4.8	90.5%（5797%/6400）

从上述测试结果中可以看出 Cloudwave 云原生数据仓库的性能表现是非常突出的，尤其在在多表联合 join 扩展 SQL 场景下，Cloudwave 4.0版本的 CPU 资源占有率非常低的同时执行速度也非常快。

当然，数据仓库性能优化和测试是一门复杂的系统工程，由于文档篇幅的限制上文中也只是选取了比较有限的测试场景和性能指标，主要是为了学习研究和交流之用，实际上还有很多值得优化和扩展的细节。

从数据仓库到云原生数据仓库

最后在记录下一些学习心得。从前提到数据库（Database）我会认为它们单纯就是一个用于存放结构化数据或非结构化数据的 DBMS（Database Management System）应用软件。但随着数据挖掘的价值体系被越来越多用户所认可，以及越来越多的用户需求将数据应用于提升实际的生产效率上。使得单纯面向数据存储的数据库逐渐被堆叠了越来越多的业务应用功能，进而演变成一个面向数据分析的数据仓库（Data Warehouse）。

以基于云原生架构的 Cloudwave 4.0 数据仓库的为例，从下图的产品架构可以看出，Cloudwave 除了支持常规的结构化数据和非结构化数据存储功能之外，还具有面向顶层应用程序的数据服务层，以多样化的 SDK 驱动程序向应用程序提供数据存储、数据管理、平台管理、服务接入插件等能力。

尤其是 Cloudwave 所支持的并行全文检索功能令我印象深刻，这个功能在文本信息处理场景中非常必要。下面引用了《翰云数据库技术白皮书》中的一段介绍。更多的技术细节也推荐阅读这本技术白皮书。

Cloudwave 能够对 CLOB 大文本字段以及 Bfile 文件（e.g. 常用的 PDF、Word、 Excel、PPT、Txt 以及 Html 等）实现全文索引功能，实现了基于 HDFS 的 Lucene 索引存储，保证了索引数据的安全性，并对 Lucene 索引数据进行自动分段，由多服务器均衡管理。全文检索时，多服务器对索引段并行检索，这样就提高了查询效率。处理 Bfile 类型的文件时，利用现有的解析类库，从不同格式的文档中侦测和提取出元数据和结构化内容。

此外，Cloudwave 云原生数据仓库还集成了云原生架构技术体系，带来了更多的集群化管理优势，例如：

弹性扩展性：支持根据需求进行弹性扩展，根据数据量和工作负载的变化自动调整资源。这使得数据仓库能够处理大规模数据集和高并发查询，并满足不断增长的业务需求。
灵活性和敏捷性：可以快速适应业务变化和新的数据分析需求，支持与多种云原生平台上多种分析工具和技术的无缝集成。
强大的生态系统支持：便于与其他云服务和工具进行集成，例如：机器学习平台、可视化平台等等。它与云提供商的生态系统紧密结合，能够快速获取最新的技术和功能更新，并获得强大的支持和服务。

你可能感兴趣的:(云原生内容合伙人专栏,数据仓库,大数据,spark,数据库,kubernetes,分布式,数据分析)

Stable Diffusion教程：提示词（模型、插件、安装包可分享）会AIGC的小孩 AI作画 ai绘画人工智能 stable diffusion 人工智能作画
什么是提示词文章提到的模型、插件、安装包都可分享，需要的小伙伴文末领取！你可能没写过提示词，但是一定听说过“提示词”这几个字，也大概能知道它的重要性。没听说过也没关系，下面我就带你认识认识。提示词就是我们给AI模型下发的指令。提示词写对了，AI才能输出相应的结果，提示词写的越好，AI输出的内容质量越高、越贴近你的需求。这有点像程序代码，代码逻辑写对了，程序才能正常运行，代码写的越好，程序运行时发生
《基于文本挖掘的青岛市民宿评论分析系统设计与实现》开题报告 Python数据分析与机器学习毕业论文/研究报告数据挖掘数据分析人工智能算法
目录一、选题依据：1.研究背景2.理论意义3.现实意义4.国内外研究现状、水平及发展趋势简述（1）国外研究现状（2）国内研究现状（3）发展趋势二、研究内容1.主要研究内容2.研究方法(1)文献研究法(2)数据挖掘法3.技术路线4.实施方案（1）数据采集与预处理（2）设置LDA主题模型（3）情感分析（4）系统集成与可视化5.可行性分析三、主要参考文献一、选题依据：1.研究背景当下，社会经济蓬勃发展，
利用数据库特性和函数一次性生成多条动态数据那片海还在吗 test 数据库
利用数据库特性和函数一次性生成多条动态数据在数据库操作中，有时需要一次性生成多条动态数据，以满足测试、初始化等需求。不同的数据库系统提供了各自的特性和函数来实现这一目的。以下将分别介绍MySQL、Oracle和SQLServer中实现一次性生成多条动态数据的方法。一、MySQL1.1使用INSERTINTO...SELECT结合自增序列和随机函数示例场景假设要向users表（包含id、userna
MySQL 存储引擎笔记 L_！！！ MySQL mysql 笔记数据库
MySQL存储引擎笔记1.简介存储引擎是MySQL中负责数据存储和检索的底层组件。不同的存储引擎提供不同的特性（事务、锁机制、索引类型等），直接影响数据库的性能和功能。--查询建表语句，默认存储引擎：InnoDBshowcreatetableaccount;--查看当前数据库支持的存储引擎SHOWENGINES;--查看某张表的存储引擎SHOWTABLESTATUSLIKE'表名';2.InnoD
探索Vue.js中的文件夹上传解决方案：vue-simple-uploader 小金子J 前端框架 vue.js 前端 javascript
在现代Web应用开发中，文件上传是一个常见需求。然而，随着应用复杂性的增加，传统的文件上传方式可能无法满足所有需求，特别是当涉及到文件夹上传和大文件处理时。本文将介绍一个基于Vue.js的解决方案——vue-simple-uploader，它不仅支持文件夹上传，还具备强大的功能，能够满足多样化的上传需求。业务场景在某些业务场景中，用户需要上传整个文件夹，而不仅仅是单个文件。例如，在内容管理系统中上
【测试用例】测试用例概念及组成部分介绍（超详细）风云说通信精讲测试理论测试用例测试理论
目录1.什么是测试用例2.测试用例的内容3.测试用例的目的4.测试用例和测试方法的区别5.如何保证测试用例覆盖所有需求和功能点6.如何评审一个测试用例有效性7.测试用例评审标准8.测试用例评审人员9.测试用例必选项10.测试用例的作用1.什么是测试用例测试用例是指对一项特定的软件产品进行测试任务的描述，体现测试方案、方法、技术和策略。其内容包括测试目标、测试环境、输入数据、测试步骤、预期结果、测试
Nginx的缓存机制天天进步2015 计算机网络 nginx 缓存运维
Nginx是一款高性能的HTTP和反向代理服务器，它的缓存机制在提升网站性能和减少服务器负载方面发挥了重要作用。本文将介绍Nginx的缓存机制，包括其工作原理、配置方法以及常见的应用场景。Nginx缓存的工作原理Nginx的缓存机制主要通过将请求的响应结果存储在本地文件系统中，以便在后续请求中直接返回缓存的内容，而无需再次请求上游服务器。这种机制不仅可以减少服务器的负载，还能显著提高响应速度。缓存
通义升级2.1文生视频模型彩色蚂蚁 AIGC应用 AIGC 图像生成音视频
作者公众号大数据与AI杂谈（TalkCheap），转载请标明出处年底果然各家AI视频厂商扎堆更新，昨天才写了一篇Vidu2.0版本更新的测评文章，同天通义也更新了他的文生视频模型，最新版本是2.1版和我两个月前做的测试相比，2.1版文生视频模型能力明显得到了大幅的提升，效果拔群，我总体甚至感觉这个版本可称当前（2025年1月10日）国内最强文生视频模型。那下面那我们来看看它的实际表现注：通义是阿里
springboot-利用反射调用service层方法从Excel读取数据写入数据库报错：java.lang.NullPointerException，小坑一个正在努力中。。。 springboot java 数据库 spring boot
最近在做一个小项目，需要从读取Excel数据写入到数据库。利用的是easyExcel的read方法，通过实现了ReadListener接口的监听器去调用service层方法实现数据持久化操作。但业务表那么多，本身在读取过程中不需要做任何操作，只要数据从Excel读出来直接写到mysql就可以，因此不想给每个表都写一个监听器，通过泛型加反射的方式实现类的匹配和方法调用。我的方案是：1.前台选择Exc
文章解读与仿真程序复现思路——EI\CSCD\北大核心《计及负荷分级响应的电气化铁路“源-网-车-储”应急牵引供电策略》电网论文源程序文章解读程序
本专栏栏目提供文章与程序复现思路，具体已有的论文与论文源程序可翻阅本博主免费的专栏栏目《论文与完整程序》论文与完整源程序_电网论文源程序的博客-CSDN博客https://blog.csdn.net/liang674027206/category_12531414.html电网论文源程序-CSDN博客电网论文源程序擅长文章解读,论文与完整源程序,等方面的知识,电网论文源程序关注python,机器学
文章解读与仿真程序复现思路——EI\CSCD\北大核心《基于源荷两侧不确定的虚拟电厂灵活性调整建模及调度策略》电网论文源程序文章解读程序
本专栏栏目提供文章与程序复现思路，具体已有的论文与论文源程序可翻阅本博主免费的专栏栏目《论文与完整程序》论文与完整源程序_电网论文源程序的博客-CSDN博客https://blog.csdn.net/liang674027206/category_12531414.html电网论文源程序-CSDN博客电网论文源程序擅长文章解读,论文与完整源程序,等方面的知识,电网论文源程序关注python,机器学
中国信通院“护证计划”正式启动，合合信息入选首批技术支撑单位大模型人工智能算法
随着人工智能技术的飞速发展，AI照“骗”在各个行业泛滥成灾，数字图像的真实性面临前所未有的挑战。近日，由中国互联网协会中小企业发展工委会主办的“卓信大数据计划”2025年度会议在京召开。本次会议上，中国信通院、中国互联网协会、中国图象图形学学会以及合合信息、蚂蚁安全实验室等多家企业代表共同启动了以AI守护AI，面向可信证照的专项行动“护证计划”，合合信息成功入选“护证计划”首批技术支撑单位。图说：
知乎终于想开了！不用登录也能看全文了，网友：早该这样了程序员
最近，不少网友发现，在知乎电脑版网页上阅读回答时，终于不用再被弹窗逼着登录了！这个被吐槽了近一年的“强制登录看全文”政策悄然取消，用户点击“展开阅读全文”后可以直接浏览完整内容，连评论都能看。虽然打开问题页面时还是会弹出登录提示，但随手关掉后就能畅读无阻。知乎的“反复横跳”史2020年：知乎开始试探性要求用户登录，直接打开问题链接会弹窗提示登录。2024年5月：彻底“锁死”PC端，不登录连回答全文
Squid代理服务之反向代理模式数据挖掘深度学习人工智能算法
Squid反向代理深度解析与应用指南Squid作为一款高效的代理服务器，其反向代理模式在分布式系统中扮演着重要角色。我们通过结构化的技术分解，深入探讨其核心机制和实际应用场景。█核心原理分解表阶段技术解析协议层实现客户端请求阶段客户端通过DNS解析连接到反向代理域名，生成HTTP1.1/2.0标准请求包TCP三次握手建立连接，TLS1.2+加密通信请求路由决策根据cache_peer配置的负载均衡
cocos creator从零开发简单框架(27)-核心Wait cocos
将wait.png放到项目res/texture/core目录下。场景创建Sprite(单色)组件并重命名为Wait，大小设置为750x1334，颜色设置为黑色，透明度Opacity设置为160。拖动wait.png到Wait节点下，然后把Wait节点拖动到resources/core目录下并从场景删除。新建scripts/core/Wait.ts，内容如下。importAppConstantsf
【Stable Diffusion】AnimatedDiff--AI动画插件使用技巧分享；文生视频、图生视频、AI生成视频工具；乘凉~ 人工智能应用 stable diffusion 人工智能音视频
本专栏主要记录人工智能的应用方面的内容，包括chatGPT、DeepSeek、AI绘画等等；在当今AI的热潮下，不学习AI，就要被AI淘汰；所以欢迎小伙伴加入本专栏和我一起探索AI的应用，通过AI来帮助自己提升生产力；本文的目标就是让每一个读者，都能学会并掌握AnimateDiff的使用；成功用它来生成你想要的视频。AnimateDiff是StableDiffusion的一个插件，借助它，你可以实
2024 开放原子开发者大会活动回顾｜瀚高 IvorySQL 开源数据库在国产软件的开源实践
12月20日-21日，2024开放原子开发者大会暨首届开源技术学术大会在武汉成功举办。大会汇聚开源领域一线开发者和知名学者共同探讨开源领域所面临的关键性挑战问题、研究方向和技术难题，推动跨学科的研究和应用，加速开源文化的广泛传播，推进开源生态可持续性繁荣发展。本次大会设置了多个分论坛，针对不同的技术方向与现阶段趋势热点进行分享和交流。其中，IvorySQL社区受邀在“开源低代码与大模型融合创新发展
如何设置AD域用户仅登录到指定的计算机？AD域管理软件 ad前端
一什么是AD域？简单理解：ActiveDirectory域内的directorydatabase（目录数据库）是被用来存储用户账户、计算机账户、打印机和共享文件夹等对象，而提供目录服务的组件就是ActiveDirectory（活动目录）域服务（ActiveDirectoryDomainService，ADDS），它负责目录数据库的存储、添加、删除、修改与查询等操作。一般适用于一个局域网内。在AD域
清华大学《DeepSeek与AI幻觉》（无套路免费分享） xiecoding.cn 人工智能 deepseek deepseek教程 deepseek与AI幻觉 deepseek清华教程
随着人工智能技术的飞速发展，以DeepSeek为代表的国产大模型正逐渐成为各行各业的重要工具。然而，AI在生成内容时常常会出现“幻觉”——即生成与事实不符、逻辑断裂或脱离上下文的内容。清华大学新闻与传播学院与人工智能学院联合推出的这篇教程《DeepSeek与AI幻觉》，系统性地讲解了AI幻觉的成因、评测方法及应对策略，旨在帮助用户更好地理解和使用AI工具。《DeepSeek与AI幻觉》：https
传奇服务器遭遇袭击，广大玩家需密切关注
近年来，我国游戏市场日益繁荣，《热血传奇》凭借多年累积的人气依然稳居榜首。然而，在近日《热血传奇》服务器却遭遇一起恶意攻击事件。本次攻击事件不仅让众多期待更新内容的玩家感到遗憾，也给服务器稳定运行带来严重影响。一、传奇服务器被袭背景据《热血传奇》官方通报，此次袭击事发在昨晚9月22时至凌晨1时的时间段内。受此影响，多台传奇服务器遭遇大规模拒绝服务攻击（DDoS），导致大量玩家无法正常登录游戏。目前
新型僵尸网络针对100个国家发起30万次DDoS攻击
近日，网络安全研究人员发现了一个名为Gorilla（又名GorillaBot）的新僵尸网络恶意软件家族，它是已泄露的Mirai僵尸网络源代码的变种。网络安全公司NSFOCUS在上个月发现了这一活动，并称该僵尸网络在今年9月4日至9月27日期间发布了30多万条攻击命令，攻击密度之高令人震惊。据悉，该僵尸网络平均每天会发出不少于2万条分布式拒绝服务（DDoS）攻击的命令。该僵尸网络以100多个国家为目
短剧APP遭遇DDoS攻击的解决方法 ddosapp负载均衡带宽ip
随着短剧应用的普及和用户量的激增，网络安全问题也逐渐成为焦点。DDoS（分布式拒绝服务）攻击是一种常见的网络攻击形式，旨在通过大量虚假流量使目标服务瘫痪。对于短剧APP来说，遭遇DDoS攻击可能导致服务中断、用户流失和品牌信誉受损。以下是应对DDoS攻击的有效解决方法：使用DDoS防护服务最直接和有效的方式是借助专业的DDoS防护服务。这些服务提供商通过分布式的防御系统能够快速检测并拦截恶意流量，
报告称2024年上半年DDoS攻击数量激增，同比增长46% 游戏游戏开发ddos金融电商
8月15日消息，网络安全公司Gcore在最新发布的报告显示，2024年上半年全球分布式拒绝服务攻击（DDoS）事件数量达到了44.5万起，与去年同期相比增长了46%，与2023年下半年相比增长了34%，显示出网络攻击活动的显著增加。在攻击力度方面，2024年上半年记录到的最大DDoS攻击规模达到了1.7Tbps，略高于2023年记录的1.6Tbps。虽然0.1Tbps的增长看似微小，但这预示着网络
preview窗口 unity_Unity3D 在Inspector中预览场景 weixin_39957186 preview窗口 unity
在Project窗口中点击模型，可以在Preview窗口中进行预览(见下图)，但是场景却不能预览。当项目中有比较多的场景，而场景中内容多的时候，我们需要双击每一个打开它才能查看内容，比较耗时。今天我们来实现一下类似3D物体预览的场景预览。当单击场景的时候，可以直接快速的在Inspector中显示他们的内容。效果如下：创建一个ScenePreview.cs文件，将下面代码复制进去。完整代码如下：us
YashanDB安装部署数据库
本章节对YashanDB产品的安装部署过程提供指导和示例。安装数据库服务端Note：在环境配置和产品安装过程中，可能需要重启服务器，若服务器上有其他应用，请确保不会对其造成影响。本章节是YashanDB在新环境的安装指导，对已在运行YashanDB某个版本的环境，需进行升级而不是安装部署，具体操作请参考升级。请遵循如下操作顺序：正式执行安装程序前，请阅读安装前准备文档，了解产品对软硬件环境的要求，
钉钉宜搭智能车辆管理系统：AIoT技术驱动的全场景解决方案（价值体现版）阿三0812 人工智能
一、系统核心架构通过“智能硬件+AI中台+低代码平台”三层架构，构建覆盖车辆全生命周期的数字化管理系统：感知层：车载OBD、GPS定位器、NFC识别器等设备实时采集车辆位置、油耗、驾驶行为等20+类数据分析层：AI算法引擎处理亿级数据流，实现智能调度、风险预警、能效分析等核心功能应用层：钉钉宜搭低代码平台快速搭建审批流、数据看板等业务模块，支持多端协同二、核心功能解析1.公务车辆智能化管理智能硬件
YashanDB元数据和数据导入导出数据库
本章将对YashanDB内置导入导出工具imp和exp进行介绍及提供基础示例。exp工具是YashanDB的配套导出工具，提供元数据导出及CSV导出能力；imp为YashanDB的配套导入工具，提供元数据导入能力。用户可通过使用exp工具将YashanDB数据库中的表结构、索引、约束等所有数据生成一个元数据文件，该元数据文件可通过配套的导入工具imp导入至同构的YashanDB数据库中。或者通过e
YashanDB csv数据快速导入数据库
本章将对YashanDB内置数据导入工具yasldr进行介绍及提供基础示例。yasldr是YashanDB提供的客户端导入工具，可用于执行CSV格式的数据文件导入。导入前准备1.准备导入数据文件：以安装用户登录数据库所在服务器，在HOME路径下执行如下命令创建datafile文件：$vidatafile将如下内容写入datafile文件中：`1|load|1012|load|201`按Esc，输入
【2025版】最新渗透工程师手册：60个SQL注入Payload清单集合，从零基础到精通，收藏这篇就够了！_sql注入的payload 网络安全小宇哥 sql 数据库 web安全测试工具计算机网络安全网络
联合注入Payload报错注入Payloadextractvalue函数updatexml函数BigInt数据类型溢出floor函数堆叠注入Payload盲注Payload布尔盲注SQL联合注入Payload#查字段1'orderby1#1'orderby100##联合查询(假设字段为3)-1'unionselect1,2,3#//-1使页面报错，方便显示#查所有数据库名(假设回显为2)-1'un
Ubuntu Linux运维实战指南4_文件系统基础知识 IT_张三 Ubuntu Linux运维指南 linux 运维 ubuntu
4文件系统的层次结构文件系统是Ubuntu的核心内容之一。在Linux系统中，一切都是文件，而文件系统就是文件的组织和管理方式。可以这么说，在本书中除前3章外，其余的所有章节都会涉及文件系统。深入理解和掌握文件系统是每个Linux学习者都必须面对的问题。而掌握好文件系统，Linux系统中的许多难题都会迎刃而解。本章将介绍什么是文件系统、文件系统的层次结构、Linux文件系统的组织结构、Linux中
java数字签名三种方式知了ing java jdk
以下3钟数字签名都是基于jdk7的 1，RSA String password="test"; // 1.初始化密钥 KeyPairGenerator keyPairGenerator = KeyPairGenerator.getInstance("RSA"); keyPairGenerator.initialize(51
Hibernate学习笔记 caoyong Hibernate
1>、Hibernate是数据访问层框架，是一个ORM(Object Relation Mapping)框架，作者为:Gavin King 2>、搭建Hibernate的开发环境 a>、添加jar包: aa>、hibernatte开发包中/lib/required/所
设计模式之装饰器模式Decorator（结构型）漂泊一剑客 Decorator
1. 概述若你从事过面向对象开发，实现给一个类或对象增加行为，使用继承机制，这是所有面向对象语言的一个基本特性。如果已经存在的一个类缺少某些方法，或者须要给方法添加更多的功能（魅力），你也许会仅仅继承这个类来产生一个新类—这建立在额外的代码上。
读取磁盘文件txt，并输入String 一炮送你回车库 String
public static void main(String[] args) throws IOException { String fileContent = readFileContent("d:/aaa.txt"); System.out.println(fileContent);
js三级联动下拉框 3213213333332132 三级联动
//三级联动省/直辖市<select id="province"></select> 市/省直辖<select id="city"></select> 县/区 <select id="area"></select>
erlang之parse_transform编译选项的应用 616050468 parse_transform 游戏服务器属性同步 abstract_code
最近使用erlang重构了游戏服务器的所有代码，之前看过C++/lua写的服务器引擎代码，引擎实现了玩家属性自动同步给前端和增量更新玩家数据到数据库的功能，这也是现在很多游戏服务器的优化方向，在引擎层面去解决数据同步和数据持久化，数据发生变化了业务层不需要关心怎么去同步给前端。由于游戏过程中玩家每个业务中玩家数据更改的量其实是很少
JAVA JSON的解析 darkranger java
// { // “Total”：“条数”， // Code: 1, // // “PaymentItems”:[ // { // “PaymentItemID”:”支款单ID”, // “PaymentCode”:”支款单编号”, // “PaymentTime”:”支款日期”, // ”ContractNo”:”合同号”， //
POJ-1273-Drainage Ditches aijuans ACM_POJ
POJ-1273-Drainage Ditches http://poj.org/problem?id=1273 基本的最大流，按LRJ的白书写的 #include<iostream> #include<cstring> #include<queue> using namespace std; #define INF 0x7fffffff int ma
工作流Activiti5表的命名及含义 atongyeye 工作流 Activiti
activiti5 - http://activiti.org/designer/update在线插件安装 activiti5一共23张表 Activiti的表都以ACT_开头。第二部分是表示表的用途的两个字母标识。用途也和服务的API对应。 ACT_RE_*: 'RE'表示repository。这个前缀的表包含了流程定义和流程静态资源（图片，规则，等等）。 A
android的广播机制和广播的简单使用百合不是茶 android 广播机制广播的注册
Android广播机制简介在Android中，有一些操作完成以后，会发送广播，比如说发出一条短信，或打出一个电话，如果某个程序接收了这个广播，就会做相应的处理。这个广播跟我们传统意义中的电台广播有些相似之处。之所以叫做广播，就是因为它只负责“说”而不管你“听不听”，也就是不管你接收方如何处理。另外，广播可以被不只一个应用程序所接收，当然也可能不被任何应
Spring事务传播行为详解 bijian1013 java spring 事务传播行为
在service类前加上@Transactional，声明这个service所有方法需要事务管理。每一个业务方法开始时都会打开一个事务。 Spring默认情况下会对运行期例外(RunTimeException)进行事务回滚。这
eidtplus operate 征客丶 eidtplus
开启列模式: Alt+C 鼠标选择 OR Alt+鼠标左键拖动列模式替换或复制内容(多行): 右键-->格式-->填充所选内容-->选择相应操作 OR Ctrl+Shift+V(复制多行数据,必须行数一致) -------------------------------------------------------
【Kafka一】Kafka入门 bit1129 kafka
这篇文章来自Spark集成Kafka(http://bit1129.iteye.com/blog/2174765)，这里把它单独取出来，作为Kafka的入门吧下载Kafka http://mirror.bit.edu.cn/apache/kafka/0.8.1.1/kafka_2.10-0.8.1.1.tgz 2.10表示Scala的版本，而0.8.1.1表示Kafka
Spring 事务实现机制 BlueSkator spring 代理事务
Spring是以代理的方式实现对事务的管理。我们在Action中所使用的Service对象，其实是代理对象的实例，并不是我们所写的Service对象实例。既然是两个不同的对象，那为什么我们在Action中可以象使用Service对象一样的使用代理对象呢？为了说明问题，假设有个Service类叫AService，它的Spring事务代理类为AProxyService，AService实现了一个接口
bootstrap源码学习与示例：bootstrap-dropdown（转帖） BreakingBad bootstrap dropdown
bootstrap-dropdown组件是个烂东西，我读后的整体感觉。一个下拉开菜单的设计： <ul class="nav pull-right"> <li id="fat-menu" class="dropdown">
读《研磨设计模式》-代码笔记-中介者模式-Mediator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 中介者模式（Mediator）：用一个中介对象来封装一系列的对象交互。 * 中介者使各对象不需要显式地相互引用，从而使其耦合松散，而且可以独立地改变它们之间的交互。 * * 在我看来，Mediator模式是把多个对象（
常用代码记录 chenjunt3 UI Excel J#
1、单据设置某行或某字段不能修改 //i是行号,"cash"是字段名称 getBillCardPanelWrapper().getBillCardPanel().getBillModel().setCellEditable(i, "cash", false); //取得单据表体所有项用以上语句做循环就能设置整行了 getBillC
搜索引擎与工作流引擎 comsci 算法工作搜索引擎网络应用
最近在公司做和搜索有关的工作，(只是简单的应用开源工具集成到自己的产品中)工作流系统的进一步设计暂时放在一边了，偶然看到谷歌的研究员吴军写的数学之美系列中的搜索引擎与图论这篇文章中的介绍，我发现这样一个关系(仅仅是猜想) -----搜索引擎和流程引擎的基础--都是图论，至少像在我在JWFD中引擎算法中用到的是自定义的广度优先
oracle Health Monitor daizj oracle Health Monitor
About Health Monitor Beginning with Release 11g, Oracle Database includes a framework called Health Monitor for running diagnostic checks on the database. About Health Monitor Checks Health M
JSON字符串转换为对象 dieslrae java json
作为前言,首先是要吐槽一下公司的脑残编译部署方式,web和core分开部署本来没什么问题,但是这丫居然不把json的包作为基础包而作为web的包,导致了core端不能使用,而且我们的core是可以当web来用的(不要在意这些细节),所以在core中处理json串就是个问题.没办法,跟编译那帮人也扯不清楚,只有自己写json的解析了.
C语言学习八结构体，综合应用，学生管理系统 dcj3sjt126com C语言
实现功能的代码： # include <stdio.h> # include <malloc.h> struct Student { int age; float score; char name[100]; }; int main(void) { int len; struct Student * pArr; int i,
vagrant学习笔记 dcj3sjt126com vagrant
想了解多主机是如何定义和使用的, 所以又学习了一遍vagrant 1. vagrant virtualbox 下载安装 https://www.vagrantup.com/downloads.html https://www.virtualbox.org/wiki/Downloads 查看安装在命令行输入vagrant 2.
14.性能优化-优化-软件配置优化 frank1234 软件配置性能优化
1.Tomcat线程池修改tomcat的server.xml文件： <Connector port="8080" protocol="HTTP/1.1" connectionTimeout="20000" redirectPort="8443" maxThreads="1200" m
一个不错的shell 脚本教程入门级 HarborChung linux shell
一个不错的shell 脚本教程入门级建立一个脚本　　Linux中有好多中不同的shell，但是通常我们使用bash (bourne again shell) 进行shell编程，因为bash是免费的并且很容易使用。所以在本文中笔者所提供的脚本都是使用bash（但是在大多数情况下，这些脚本同样可以在 bash的大姐，bourne shell中运行）。　　如同其他语言一样
Spring4新特性——核心容器的其他改进 jinnianshilongnian spring 动态代理 spring4 依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
Linux设置tomcat开机启动 liuxingguome tomcat linux 开机自启动
执行命令sudo gedit /etc/init.d/tomcat6 然后把以下英文部分复制过去。（注意第一句#!/bin/sh如果不写，就不是一个shell文件。然后将对应的jdk和tomcat换成你自己的目录就行了。 #!/bin/bash # # /etc/rc.d/init.d/tomcat # init script for tomcat precesses
第13章 Ajax进阶（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Troubleshooting Crystal Reports off BW blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Troubleshooting+Crystal+Reports+off+BW#TroubleshootingCrystalReportsoffBW-TracingBOE Quite useful, especially this part: SAP BW connectivity For t
Java开发熟手该当心的11个错误 tomcat_oracle java jvm 多线程单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
正则表达式大全 yang852220741 html 编程正则表达式
今天向大家分享正则表达式大全，它可以大提高你的工作效率正则表达式也可以被当作是一门语言，当你学习一门新的编程语言的时候，他们是一个小的子语言。初看时觉得它没有任何的意义，但是很多时候，你不得不阅读一些教程，或文章来理解这些简单的描述模式。一、校验数字的表达式数字：^[0-9]*$ n位的数字：^\d{n}$ 至少n位的数字：^\d{n,}$ m-n位的数字：^\d{m,n}$

数据仓库性能测试方法论与工具集

目录

文章目录

数据仓库 v.s. 传统数据库

数据仓库性能测试案例

性能指标

测试方案

测试场景

测试数据集

测试用例

性能指标

测试脚本工具

基准环境准备

硬件环境

软件环境

测试操作步骤

Cloudwave 执行步骤

导入数据集

TestCase 1. 执行 13 条标准 SQL 测试语句

TestCase 2. 执行多表联合 join 拓展 SQL1 测试语句

TestCase 3. 执行多表联合 join 拓展 SQL2 测试语句

StarRocks 执行步骤

导入数据集

TestCase 1. 执行 13 条标准 SQL 测试语句

TestCase 2. 执行多表联合 join 拓展 SQL1 测试语句

TestCase 3. 执行多表联合 join 拓展 SQL2 测试语句

测试结果分析

从数据仓库到云原生数据仓库

你可能感兴趣的:(云原生内容合伙人专栏,数据仓库,大数据,spark,数据库,kubernetes,分布式,数据分析)