爱学大树锯

2020-12-03《Presto分布式SQL查询引擎——kkb笔记复习》

Presto分布式SQL查询引擎

一、课前准备

jdk版本要求：Java 8 Update 151 or higher (8u151+), 64-bit
安装好hadoop集群
安装好hive

二、课堂主题

介绍presto
presto架构
prsto安装部署
presto使用

三、课堂目标

理解presto
独立完成presto安装部署
使用presto

四、知识要点

1. Presto是什么？

Hadoop提供了大数据存储与计算的一整套解决方案；但是它采用的是MapReduce计算框架，只适合离线和批量计算，无法满足快速实时的Ad-Hoc查询计算的性能要求
Hive使用MapReduce作为底层计算框架，是专为批处理设计的。但随着数据越来越多，使用Hive进行一个简单的数据查询可能要花费几分到几小时，显然不能满足交互式查询的需求。
Facebook于2012年秋开始开发了Presto，每日查询数据量在1PB级别。Facebook称Presto的性能比Hive要快上10倍多。2013年Facebook正式宣布开源Presto。
Presto是apache下开源的==OLAP的分布式SQL查询引擎==，数据量支持从GB到PB级别的数据量的查询，并且查询时，能做到秒级查询。
另外，Presto虽然可以解析SQL，但它并非是标准的数据库；不能替代如MySQL、PostgreSQL、Oracle关系型数据库，不是用于处理OLTP的
presto是利用分布式查询，高效的对海量数据进行查询；
presto可以用来查询hdfs上的海量数据；但是，presto不仅仅可以用来查询hdfs的数据，它还被设计成能够对很多其他的数据源的数据做查询；
比如数据源有HDFS、Hive、Druid、Kafka、kudu、MySQL、Redis等；下图是Presto 0.237支持的数据源

2. Presto架构

Presto查询引擎是一个Master-Slave的架构，Coordinator是主，worker是从；
一个presto集群，由一个Coordinator节点，一个Discovery Server节点（通常内嵌于Coordinator节点中），多个Worker节点组成
- Coordinator负责接收查询请求、解析SQL语句、生成执行计划、任务调度给Worker节点执行、worker管理。
- Worker节点是工作节点；负责实际执行查询任务Task；Worker节点启动后向Discovery Server服务注册；Coordinator从Discovery Server获得可以正常工作的Worker节点。
Presto CLI提交查询到Coordinator
catalog表示数据源；每个catalog包含Connector及Schema
- 其中Connector是数据源的适配器；presto通过Connector与不同的数据源（如Redis、Hive、Kafka）连接；如果配置了Hive Connector，需要配置一个Hive MetaStore服务为Presto提供Hive元信息，Worker节点与HDFS交互读取数据。
- Schema类似于MySQL中的数据库的概念；Schema中又包含Table，类似于MySQL中的表

3. Presto特点

1. 优点

高性能：Presto基于内存计算，减少数据的落盘，计算更快；轻量快速，支持近乎实时的查询
多数据源：通过配置不同的Connector，presto可以连接不同的数据源，所以可以将来自不同数据源的表进行连接查询
支持SQL：完全支持ANSI SQL，并提供了sql shell命令行工具
扩展性：可以根据实际的需要，开发特定的数据源的Connector，从而可以sql查询此数据元的数据

2. 缺点

虽然Presto是基于内存做计算；但是数据量大时，数据并非全部存储在内存中；
- 比如Presto可针对PB级别的数据做计算，但Presto并非将所有数据全部存储在内存中，不同场景有不同做法；
- 比如count， avg等聚合运算，会读部分数据，计算，在清理内存；再读数据再计算、清理内存；所以占据内存并不是很高；
- 但是如果做join操作，中间可能会产生大量的临时数据，造成执行速度变慢；join时，hive的数据反而更快些。所以如果join的话，建议在hive中，先进行join生成宽表，再使用presto查询此宽表数据

3. presto与impala对比

impala性能比presto稍好
但是，impala只能对接hive；而presto能对接很多种类的数据源

4. 安装部署Presto

官网地址：https://prestodb.io/

github地址

presto集群规划

主机名	角色
node01	coordinator
node02	worker
node03	worker

1. 安装部署Presto Server

presto要求

确认python版本是2.4+

确认java版本是8u151+；若如下图，是151之前的版本，安装presto时，需要特殊处理

1. 下载安装包

https://repo1.maven.org/maven2/com/facebook/presto/presto-server/0.237/presto-server-0.237.tar.gz

然后将tar.gz包上传到node01的/kkb/soft目录

2. 解压

cd /kkb/soft/
tar -xzvf presto-server-0.237.tar.gz -C /kkb/install/

3. 配置JAVA

若java版本低于8u151，那么需要上传8u151+的版本压缩包到/kkb/soft；若不低于，则跳过此步骤
解压

cd /kkb/soft/
tar -xzvf jdk-8u251-linux-x64.tar.gz -C /kkb/install/
cd /kkb/install/
scp -r jdk1.8.0_251/ node02:$PWD
scp -r jdk1.8.0_251/ node03:$PWD

指定presto使用的java版本（3个节点都要修改）

ln -s presto-server-0.237/ presto
vim /kkb/install/presto/bin/launcher

添加如下内容

PATH=/kkb/install/jdk1.8.0_251/bin:$PATH
java -version

注意：需要加在exec "$(dirname "$0")/launcher.py" "$@"之前

3. 创建相关目录

创建存储数据文件夹；presto将存储log及其他数据到此目录

cd /kkb/install
cd presto
mkdir data

创建存储配置文件的文件夹

mkdir etc

4. 添加JVM配置文件

etc目录下添加jvm.config配置文件

cd /kkb/install/presto/etc
vim jvm.config

内容如下

-server
-Xmx16G
-XX:+UseG1GC
-XX:G1HeapRegionSize=32M
-XX:+UseGCOverheadLimit
-XX:+ExplicitGCInvokesConcurrent
-XX:+HeapDumpOnOutOfMemoryError
-XX:+ExitOnOutOfMemoryError

5. 配置数据源

presto支持不同的数据源，通过catalog进行配置；不同的数据源，有不同的catalog

现以hive数据源为例，创建个hive的catalog
etc中创建目录catalog

cd /kkb/install/presto-server-0.237/etc
mkdir catalog
cd catalog
vim hive.properties

添加如下内容注：因编辑问题凡遇到、自动忽略

connector.name=hive-hadoop2
hive.metastore.uri=thrift://node03:9083

6. 分发presto

cd /kkb/install/
scp -r presto node02:/kkb/install/
scp -r presto node03:/kkb/install/

7. 配置node.properties

进入三台节点的/kkb/install/presto/etc目录，修改node.properties文件

cd /kkb/install/presto/etc
vim node.properties

三台节点的内容==分别==如下

# node01如下内容
node.environment=production
node.id=ffffffff-ffff-ffff-ffff-fffffffffff1
node.data-dir=/kkb/install/presto/data

# node2如下内容
node.environment=production
node.id=ffffffff-ffff-ffff-ffff-fffffffffff2
node.data-dir=/kkb/install/presto/data

# node03如下内容
node.environment=production
node.id=ffffffff-ffff-ffff-ffff-fffffffffff3
node.data-dir=/kkb/install/presto/data

说明：

node.environment 环境的名称；presto集群各节点的此名称必须保持一致

node.id presto每个节点的id，必须唯一

node.data-dir 存储log及其他数据的目录

8. 配置config.properties

通过配置config.properties文件，指明server是coordinator还是worker
虽然presto server可以同时作为coordinator和worker；但是为了更好的性能，一般让server要么作为coordinator，要么作为worker
presto是主从架构；主是coordinator，从是worker
现设置node01作为coordinator节点；node02、node03节点作为worker节点
node01上配置coordinator

cd /kkb/install/presto/etc
vim config.properties

添加如下内容

coordinator=true
node-scheduler.include-coordinator=false
http-server.http.port=8880
query.max-memory=50GB
query.max-memory-per-node=1GB
discovery-server.enabled=true
discovery.uri=http://node01:8880

说明：

coordinator=true 允许此presto实例作为coordinator

node-scheduler.include-coordinator 是否允许在coordinator上运行work

http-server.http.port presto使用http服务进行内部、外部的通信；指定http server的端口

query.max-memory 一个查询运行时，使用的所有的分布式内存的总量的上限

query.max-memory-per-node query在执行时，使用的任何一个presto服务器上使用的内存上限

discovery-server.enabled presto使用discovery服务，用来发现所有的presto节点

discovery.uri discovery服务的uri

node02、node03上配置worker

cd /kkb/install/presto/etc
vim config.properties

添加如下内容

coordinator=false
http-server.http.port=8880
query.max-memory=50GB
discovery.uri=http://node01:8880

9. 启动presto server

若要用presto对接hive数据，需要启动hive metastore服务
上课环境：hive安装在node03上，所以在node03启动metastore服务

nohup hive --service metastore > /dev/null 2>&1 &

在node01、node02、node03上分别启动presto server，执行以下命令

cd /kkb/install/presto
# 前台启动，控制台打印日志
bin/launcher run
# 或使用后台启动presto
bin/launcher start

jps查看，各节点出现名为PrestoServer的进程
日志所在目录

/kkb/install/presto/data/var/log

2. 安装部署Presto命令行接口

1. 下载安装包

下载地址：https://repo1.maven.org/maven2/com/facebook/presto/presto-cli/0.237/presto-cli-0.237-executable.jar
安装包放到node01的目录/kkb/soft

2. 重命名文件

cd /kkb/soft
mv presto-cli-0.237-executable.jar prestocli

3. 增加可执行权限

chmod u+x prestocli

4. 启动presto cli

注意：==先启动HDFS==
查看presto客户端jar包的使用方式

./prestocli --help

两种方式；方式一

./prestocli --server node01:8880 --catalog hive --schema default

说明：

--catalog hive 中的hive指的是etc/catalog中的hive.properties的文件名

方式二

java -jar presto-cli-0.237-executable.jar --server node01:8880 --catalog hive --schema default

退出presto cli

quit

5. 体验命令操作

Presto的命令行操作，相当于Hive命令行操作。每个表必须要加上schema前缀；例如

select * from schema.table limit 5

或者切换到指定的schema，再查询表数据
use myhive;
select * from score limit 3;

3. 安装部署Presto 可视化客户端

1. 下载安装包

presto有个开源的带可视化界面的客户端yanagishima
源码下载地址：yanagishima
官网地址
将下载的包yanagishima-18.0.zip上传到node01点/kkb/soft目录

2. 解压缩

cd /kkb/soft
unzip -d /kkb/install yanagishima-18.0.zip

# 若出现-bash: unzip: command not found，表示没有安装unzip；需要安装；然后再解压缩
sudo yum -y install unzip zip

cd /kkb/install/yanagishima-18.0

3. 修改配置文件

修改yanagishima.properties文件

cd /kkb/install/yanagishima-18.0/conf
vim yanagishima.properties

添加如下内容

jetty.port=7080
presto.datasources=kkb-presto
presto.coordinator.server.kkb-presto=http://node01:8880
catalog.kkb-presto=hive
schema.kkb-presto=default
sql.query.engines=presto

4. 启动yanagishima

后台启动：nohup bin/yanagishima-start.sh >yanagishima.log 2>&1 &

[hadoop@node01 yanagishima-18.0]$ pwd
/kkb/install/yanagishima-18.0
前台启动：bin/yanagishima-start.sh
>yanagishima.log

node01上多出名为YanagishimaServer的进程
启动web界面

http://node01:7080

在界面中进行查询了

若ui界面显示很慢，或者不显示，可以尝试将node01替换成相应的ip地址
查看表结构；
每个表后面都有个复制键，点一下会复制完整的表名，然后再上面框里面输入sql语句，ctrl+enter组合键或Run按钮执行显示结果
这里有个Tree View，可以查看所有表的结构，包括Schema、表、字段等。

比如执行select * from hive.myhive.score，这个句子里Hive这个词可以删掉，即变成select * from myhive.score；hive是上面配置的Catalog名称
注意：==sql语句末尾不要加分号;否则报错==

5. Presto查询及优化

1. Presto sql语法

以下用hive connector演示
查看schema有哪些

SHOW SCHEMAS;

查看有哪些表

SHOW TABLES;

创建schema

语法：CREATE SCHEMA [ IF NOT EXISTS ] schema_name

CREATE SCHEMA testschema;

删除schema

语法：DROP SCHEMA [ IF EXISTS ] schema_name
drop schema testschema;

创建表

语法：CREATE TABLE [ IF NOT EXISTS ]
table_name (column_name data_type [ COMMENT comment],... ]

create table stu4(id int, name varchar(20));

创建表CTAS

语法：
CREATE TABLE [ IF NOT EXISTS ] table_name [ ( column_alias, ... ) ]
[ COMMENT table_comment ]
[ WITH ( property_name = expression [, ...] ) ]
AS query
[ WITH [ NO ] DATA ]

create table if not exists myhive.stu5 as select id, name from stu1;

删除表中符合条件的行

语法：DELETE FROM table_name [ WHERE condition ]
说明：hive connector只支持一次性的删除一个完整的分区；不支持删除一行数据

DELETE FROM order_partition where month='2019-03';

查看表的描述信息

DESCRIBE hive.myhive.stu1;

ANALYZE获得表及列的统计信息

语法：ANALYZE table_name

ANALYZE hive.myhive.stu1;

prepare 给statement起一个名称，等待将来的执行
execute执行一个准备好的statement

语法：PREPARE statement_name FROM statement

prepare my_select1 from select * from score;
execute my_select1;

prepare my_select2 from select * from score where s_score < 90 and s_score > 70;
execute my_select2;

prepare my_select3 from select * from score where s_score < ? and s_score > ?;
execute my_select3 using 90, 70;

EXPLAIN：查询一个statement的逻辑计划或分布式执行计划，或校验statement

语法：
EXPLAIN [ ( option [, ...] ) ] statement

where option can be one of:

    FORMAT { TEXT | GRAPHVIZ | JSON }
    TYPE { LOGICAL | DISTRIBUTED | VALIDATE | IO }

查询逻辑计划语句：
explain select s_id, avg(s_score) from score group by s_id;
等价于
explain (type logical)select s_id, avg(s_score) from score group by s_id;

查询分布式执行计划distributed execution plan
explain (type distributed)select s_id, avg(s_score) from score group by s_id;

校验语句的正确性
explain (type validate)select s_id, avg(s_score) from score group by s_id;

explain (type io, format json)select s_id, avg(s_score) from score group by s_id;

SELECT查询

语法：
[ WITH with_query [, ...] ]
SELECT [ ALL | DISTINCT ] select_expr [, ...]
[ FROM from_item [, ...] ]
[ WHERE condition ]
[ GROUP BY [ ALL | DISTINCT ] grouping_element [, ...] ]
[ HAVING condition]
[ { UNION | INTERSECT | EXCEPT } [ ALL | DISTINCT ] select ]
[ ORDER BY expression [ ASC | DESC ] [, ...] ]
[ LIMIT [ count | ALL ] ]

from_item：
table_name [ [ AS ] alias [ ( column_alias [, ...] ) ] ]
from_item join_type from_item [ ON join_condition | USING ( join_column [, ...] ) ]

join_type：
[ INNER ] JOIN
LEFT [ OUTER ] JOIN
RIGHT [ OUTER ] JOIN
FULL [ OUTER ] JOIN
CROSS JOIN

grouping_element：
()
expression
GROUPING SETS ( ( column [, ...] ) [, ...] )
CUBE ( column [, ...] )
ROLLUP ( column [, ...] )

语句：
with语句：用于简化内嵌的子查询
select a, b
from (
select s_id as a, avg(s_score) as b from score group by s_id
) as tbl1;

等价于：
with tbl1 as (select s_id as a, avg(s_score) as b from score group by s_id)
select a, b from tbl1;

多个子查询也可以用with
WITH
  t1 AS (SELECT a, MAX(b) AS b FROM x GROUP BY a),
  t2 AS (SELECT a, AVG(d) AS d FROM y GROUP BY a)
SELECT t1.*, t2.*
FROM t1
JOIN t2 ON t1.a = t2.a;

with语句中的关系可以串起来（chain）
WITH
  x AS (SELECT a FROM t),
  y AS (SELECT a AS b FROM x),
  z AS (SELECT b AS c FROM y)
SELECT c FROM z;


group by:
select s_id as a, avg(s_score) as b from score group by s_id;
等价于：
select s_id as a, avg(s_score) as b from score group by 1;
1代表查询输出中的第一列s_id

select count(*) as b from score group by s_id;

可参考官网文档

2. 存储优化

合理设置分区

与Hive类似，Presto会根据元信息读取分区数据，合理的分区能减少Presto数据读取量，提升查询性能。
使用列式存储

Presto对ORC文件读取做了特定优化，因此在Hive中创建Presto使用的表时，建议采用ORC格式存储。相对于Parquet，Presto对ORC支持更好。
使用压缩

数据压缩可以减少节点间数据传输对IO带宽压力，对于即席查询需要快速解压，建议采用snappy压缩
预先排序

对于已经排序的数据，在查询的数据过滤阶段，ORC格式支持跳过读取不必要的数据。比如对于经常需要过滤的字段可以预先排序。

3. SQL优化

列剪裁

只选择使用必要的字段：由于采用列式存储，选择需要的字段可加快字段的读取、减少数据量。避免采用*读取所有字段

[GOOD]: SELECT s_id, c_id FROM score

[BAD]:  SELECT * FROM score

过滤条件必须加上分区字段

对于分区表，where语句中优先使用分区字段进行过滤。day是分区字段，vtime是具体访问时间

[GOOD]: SELECT vtime, stu, address FROM tbl where day=20200501

[BAD]:  SE LECT * FROM tbl where vtime=20200501

Group By语句优化：

合理安排Group by语句中字段顺序对性能有一定提升。将Group By语句中字段按照每个字段distinct数据多少进行降序排列，减少GROUP BY语句后面的排序一句字段的数量能减少内存的使用.

uid个数多；gender少
[GOOD]: SELECT GROUP BY uid, gender

[BAD]:  SELECT GROUP BY gender, uid

Order by时使用Limit，尽量避免ORDER BY： Order by需要扫描数据到单个worker节点进行排序，导致单个worker需要大量内存

[GOOD]: SELECT * FROM tbl ORDER BY time LIMIT 100

[BAD]:  SELECT * FROM tbl ORDER BY time

使用近似聚合函数：对于允许有少量误差的查询场景，使用这些函数对查询性能有大幅提升。比如使用approx_distinct() 函数比Count(distinct x)有大概2.3%的误差

select approx_distinct(s_id) from score;

用regexp_like代替多个like语句： Presto查询优化器没有对多个like语句进行优化，使用regexp_like对性能有较大提升

SELECT
...
FROM
access
WHERE
method LIKE '%GET%' OR
method LIKE '%POST%' OR
method LIKE '%PUT%' OR
method LIKE '%DELETE%'

优化：
SELECT
...
FROM
access
WHERE
regexp_like(method, 'GET|POST|PUT|DELETE')

使用Join语句时将大表放在左边： Presto中join的默认算法是broadcast join，即将join左边的表分割到多个worker，然后将join右边的表数据整个复制一份发送到每个worker进行计算。如果右边的表数据量太大，则可能会报内存溢出错误。

[GOOD] SELECT ... FROM large_table l join small_table s on l.id = s.id
[BAD] SELECT ... FROM small_table s join large_table l on l.id = s.id

使用Rank函数代替row_number函数来获取Top N
UNION ALL 代替 UNION ：不用去重
使用WITH语句：查询语句非常复杂或者有多层嵌套的子查询，请试着用WITH语句将子查询分离出来

6. 其他注意事项

1. 字段名引用

避免和关键字冲突：MySQL对字段加反引号`；Presto对字段加双引号分割

当然，如果字段名称不是关键字，可以不加这个双引号。

2. 函数

对于Timestamp，需要进行比较的时候，需要添加Timestamp关键字，而MySQL中对Timestamp可以直接进行比较。

/*MySQL的写法*/
SELECT t FROM a WHERE t > '2020-05-01 00:00:00'; 

/*Presto的写法*/
SELECT t FROM a WHERE t > timestamp '2020-05-01 00:00:00';

3. 不支持INSERT OVERWRITE语法

Presto中不支持insert overwrite语法，只能先delete，然后insert into。

4. QUET格式

Presto目前支持Parquet格式，支持查询，但不支持insert

五、拓展点、未来计划、行业趋势

官网走一遭
- 安装部署
- connector
- function
- sql statement syntax

注：以上来自kkb课堂笔记

你可能感兴趣的:(presto,presto)

Hadoop核心组件最全介绍 Cachel wood 大数据开发 hadoop 大数据分布式 spark 数据库计算机网络
文章目录一、Hadoop核心组件1.HDFS(HadoopDistributedFileSystem)2.YARN(YetAnotherResourceNegotiator)3.MapReduce二、数据存储与管理1.HBase2.Hive3.HCatalog4.Phoenix三、数据处理与计算1.Spark2.Flink3.Tez4.Storm5.Presto6.Impala四、资源调度与集群管
现代数据湖架构全景解析：存储、表格式、计算引擎与元数据服务的协同生态讲文明的喜羊羊拒绝pua 大数据架构数据湖 Spark Iceberg Amoro 对象存储
本文全面剖析现代数据湖架构的核心组件，深入探讨对象存储（OSS/S3）、表格式（Iceberg/Hudi/DeltaLake）、计算引擎（Spark/Flink/Presto）及元数据服务（HMS/Amoro）的协作关系，并提供企业级选型指南。一、数据湖架构演进与核心价值数据湖架构演进历程现代数据湖核心价值矩阵维度传统数仓现代数据湖存储成本高（专有硬件）低（对象存储）数据时效性小时/天级分钟/秒级
读数据自助服务实践指南：数据开放与洞察提效16查询优化服务
1.查询优化服务1.1.好查询和坏查询之间的差别非常明显1.2.重复且长时间运行的查询是需要调优的1.3.痛点1.3.1.像Hadoop、Spark和Presto这样的查询引擎有太多的旋钮1.3.1.1.对于大多数数据用户来说，理解这些旋钮的功能和影响需要深入了解查询引擎的内部工作原理1.3.2.鉴于数据的PB级规模，对于大多数数据用户来说，编写针对分布式数据处理最佳实践的优化查询方案极具挑战性1
ClickHouse与Presto对比：OLAP引擎选型指南 AI天才研究院 ChatGPT 计算 AI大模型应用入门实战与进阶 clickhouse 网络 ai
ClickHouse与Presto对比：OLAP引擎选型指南关键词：ClickHouse、Presto、OLAP引擎、选型指南、数据分析摘要：本文旨在为读者提供一份全面的ClickHouse与Presto对比的OLAP引擎选型指南。通过对这两款流行的OLAP引擎的核心概念、算法原理、数学模型、实际应用场景等多方面进行深入分析，并结合项目实战案例和代码解读，帮助读者了解它们各自的特点和优势。同时，还
海量数据查询加速：Presto、Trino、Apache Arrow 实战指南晴天彩虹雨 Flink +Kafka 实时数仓实战 apache clickhouse 数据仓库大数据 flink
本文聚焦大数据场景下的交互式查询与分析性能提升，深入对比分析Presto与Trino架构优化，实战ApacheArrow向量化执行加速，并提供部署建议、参数优化、查询调优等落地操作指南。一、为什么需要查询加速引擎？在PB级别数据仓库场景中，常见SQL查询存在以下瓶颈：高并发慢响应：数据量大、扫描范围广多表Join性能差：无索引或维度数据未优化传统MPP查询代价高：I/O与CPU未充分利用为解决上述
当 PyIceberg 和 DuckDB 遇见 AWS S3 Tables：打造 Serverless 数据湖“开源梦幻组合” 一个没有感情的程序猿 aws serverless 开源
引言在一些大数据分析场景比如电商大数据营销中，我们需要快速分析存储海量用户行为数据（如浏览、加购、下单），以进行用户行为分析，优化营销策略。传统方法依赖Spark/Presto集群或Redshift查询S3上的Parquet/ORC文件，这对于需要快速迭代、按需执行的分析来说，成本高、运维复杂且响应不够敏捷。本文将介绍一种现代化的Serverless解决方案：利用S3Tables（内置优化的Apa
【K8S学习之生命周期钩子】详细了解 postStart 和 preStop 生命周期钩子 oceanweave Kubernetes学习笔记 kubernetes 学习
0.参考Kubernetes容器生命周期——钩子函数详解（postStart、preStop）-人艰不拆_zmc-博客园详解KubernetesPod优雅退出-人艰不拆_zmc-博客园1.Kubernetes生命周期钩子概述在Kubernetes中，生命周期钩子（LifecycleHooks）是容器启动和终止时执行的自定义操作。它们允许你在容器的生命周期中插入“定制逻辑”，比如初始化、资源清理、通
数据分析平台选型与最佳实践：如何打造高效、灵活的数据生态？ Echo_Wish 大数据高阶实战秘籍数据分析数据挖掘
数据分析平台选型与最佳实践：如何打造高效、灵活的数据生态？在大数据时代，数据分析平台已经成为企业决策的核心支撑。从传统BI（商业智能）到现代AI驱动的数据分析，选择合适的平台不仅影响数据处理效率，也决定了企业的数字化竞争力。面对市场上的众多解决方案（如ApacheSpark、ClickHouse、Snowflake、BigQuery、Presto），如何进行合理选型，并确保数据分析流程高效落地？今
Trino分布式 SQL 查询引擎会探索的小学生分布式 sql 数据库 hadoop spark
Trino（以前称为PrestoSQL）是一个开源的分布式SQL查询引擎，专为交互式分析查询设计，可对大规模数据集进行快速查询。以下从多个方面详细介绍Trino：主要特点多数据源支持：Trino能够连接多种不同类型的数据源，包括关系型数据库（如MySQL、PostgreSQL）、数据仓库（如Snowflake、Redshift）、大数据存储系统（如Hive、Cassandra）等。这使得用户可以在
Trino深度解析 Debug_TheWorld 大数据学习大数据
一、Trino概述与核心优势Trino（原名PrestoSQL）是一款开源的分布式SQL查询引擎，专为交互式分析与异构数据源联邦查询设计。其核心目标是提供低延迟、高吞吐的查询能力，支持从GB到PB级数据的跨源分析，适用于数据湖、实时报表、ETL加速等场景。与同类引擎（如Spark、Hive）相比，Trino具备以下显著优势：存算分离架构：通过连接器（Connector）抽象数据源，支持Hive、M
Erlang Git-Daemon 使用指南邓娉靓Melinda
ErlangGit-Daemon使用指南egitdTheErlanggit-daemon项目地址:https://gitcode.com/gh_mirrors/eg/egitd项目介绍Egitd是一个由TomPreston-Werner开发的基于Erlang的git-daemon实现。该工具旨在提供一种更灵活、可扩展且易于记录的方式来服务公共Git仓库。曾经在GitHub上短暂地用于生产环境，直至
数据分析开源可视化工具 PONY LEE 数据可视化数据分析数据可视化
另外大数据可视化工具请参考github可视化工具_一般用哪些工具做大数据可视化分析？superset简单易用，可以对接mysql、presto、doris、postgresql、ClickHouse、sparkSQL、hive、oracle、sqlserver、Elasticsearch等多种数据源，官网安装部署：dockerrun-d-p"8088:8088"--namesupersetaman
Redash：让数据可视化变得简单开源项目精选信息可视化开源 github
Redash是一款开源的BI工具，提供了基于web的数据库查询和数据可视化功能。Redash允许快速和方便地访问数十亿条记录，使用AmzonRedshift处理和收集这些记录。Redash支持查询多个数据库，包括：Redshift、GoogleBigQuery、PostgreSQL、MySQL、Graphite、Presto、Google电子表格、ClouderaImpala、Hive和自定义脚本
数据中台（二）数据中台相关技术栈 Yuan_CSDF #数据中台
1.平台搭建1.1.Amabari+HDP1.2.CM+CDH2.相关的技术栈数据存储：HDFS，HBase，Kudu等数据计算：MapReduce,Spark,Flink交互式查询：Impala,Presto在线实时分析：ClickHouse，Kylin，Doris，Druid，Kudu等资源调度：YARN，Mesos，Kubernetes任务调度：Oozie，Azakaban，AirFlow，
海量数据查询加速：Presto、Trino、Apache Arrow 晴天彩虹雨 apache 大数据 hive 数据仓库
1.引言在大数据分析场景下，查询速度往往是影响业务决策效率的关键因素。随着数据量的增长，传统的行存储数据库难以满足低延迟的查询需求，因此，基于列式存储、向量化计算等技术的查询引擎应运而生。本篇文章将深入探讨Presto、Trino、ApacheArrow三种主流的查询优化工具，剖析其核心机制，并通过案例分析展示它们在实际业务中的应用。2.Presto：分布式SQL查询引擎2.1Presto介绍Pr
doris：SQL 方言兼容向阳1218 大数据 doris
提示从2.1版本开始，Doris可以支持多种SQL方言，如Presto、Trino、Hive、PostgreSQL、Spark、Clickhouse等等。通过这个功能，用户可以直接使用对应的SQL方言查询Doris中的数据，方便用户将原先的业务平滑的迁移到Doris中。警告该功能目前是实验性功能，您在使用过程中如遇到任何问题，欢迎通过邮件组、GitHubIssue等方式进行反馈。部署服务下载最新版
Ranger 2.1.0集成Trino 玄慈 ranger trino cdh java cloudera 大数据
Ranger2.1.0与trino359集成一、基础环境jdk-11.0.12Maven3.6.1Git最新版二、下载ranger2.1.0源码下载之后的目录为ranger-6.3.4本文目录地址是/grid/dfs0/code/ranger-6.3.4三、修改pom.xml修改控制组件版本的pom.xmlranger-6.3.4/pom.xml一、presto的版本号改成359359二、更改组件
时间函数（Hive-Sql\Mysql\Presto）菜鸟教程*…* mysql hive sql mysql
特殊说明：1、时间函数有多种方法，比如本月第一天（T-1）：mon_firstday(sysdate(-1))或者concat(substr(sysdate(-1),1,8),‘01’)等。2、通常离线数据是T-1，故取数据时候，月至今的范围是1号至昨天，故本业会标注T-1，请知晓。3、看函数产生的效果：（1）Hive-Sql如果想看函数的效果，可以在集市输入select+函数。例如selects
centos安装mysql报错：mysql-community-client-plugins-8.0、o Presto metadata available for mysql80-community 其实她不懂 centos mysql linux
执行sudoyum-yinstallmysql-community-server命令刚开始报错mysql-community-client-plugins-8.0.40-1.el7.x86_64.rpm的公钥尚未安装失败的软件包是：mysql-community-client-plugins-8.0.40-1.el7.x86_64GPG密钥配置为：file:///etc/pki/rpm-gpg/R
关于JavaScript（你所不知道的小秘密） Taptaq 前端 javascript 前端
主流浏览器的内核IE：tridentChrome：webkit/blinkfirefox：GeckoOpera：最初是presto，现在用的是blinkSafari：webkit引入JS的方式页面内嵌标签（可在head内或body内）外部引入（常用方法）JS基本语法变量：变量声明：声明，赋值分解。单一var。（vara=100）命名规则：变量名必须以英文字母，*，$开头*变量名可以包括英文字母，，
Docker下Dubbo服务优雅上下线实现丿似锦 dubbo kubernetes dubbo qos
简介在Docker容器环境中部署基于Dubbo的服务时，实现服务的优雅上下线是至关重要的。这通常涉及到两个关键步骤：首先，确保服务能够从注册中心摘除，停止接受新的请求；其次，等待所有正在处理的请求完成后再终止容器。通过结合Kubernetes的preStopHook和Dubbo的QoS功能，可以有效地实现这一目标。环境Docker+Kubernetes+SpringBoot+Dubbo⭐实现Pre
HIVE- SPARK 流川枫_ 20210706 hdfs hive spark
日常记录备忘Hive修改字段类型之后（varchar->string）Hive可以查到数据，Presto查询报错;分区字段数据类型和表结构字段类型不一样；spark-sql分区表和非分区表兼容问题，不能关联可以建临时表把分区数据导入，用完数据将表删除；count有数据，select没数据可能是压缩格式所导致；优化合全量任务，之前是row_number()函数先插入当天增量，取出最新的数据插入全量表
大数据之-hdfs+hive+hbase+kudu+presto集群(6节点) 管哥的运维私房菜大数据 hdfs hive kudu presto hbase
几个主要软件的下载地址：prestohttps://prestosql.io/docs/current/index.htmlkudurpm包地址https://github.com/MartinWeindel/kudu-rpm/releaseshivehttp://mirror.bit.edu.cn/apache/hive/hdfshttp://archive.apache.org/dist/ha
流媒体娱乐服务平台在AWS上使用Presto作为大数据的交互式查询引擎的具体流程和代码 weixin_30777913 aws 大数据 python 音视频
一家流媒体娱乐服务平台拥有庞大的用户群体和海量的数据。为了高效处理和分析这些数据，它选择了Presto作为其在AWSEMR上的大数据查询引擎。在AWSEMR上使用Presto取得了显著的成果和收获。这些成果不仅提升了数据查询效率，降低了运维成本，还促进了业务的创新与发展。实施过程：Presto集群部署：在AWSEMR上部署了Presto集群，该集群与HiveMetastore和AmazonS3集成
Presto 时间、日期及计算相关日期三生暮雨渡瀟瀟 presto big data presto
由于工作中在数据迁移，大数据平台数据查询引擎使用Presto，和传统的数据库时间函数有区别，整理一版，供大家参考，一起学习，有错误欢迎指正。1、查询当前日期selectcurrent_date;2、查询当前时间selectcurrent_timestamp;_col0---------------------------------------2022-01-0220:45:58.551Asia/
hive表修改字段类型没有级连导致历史分区报错尘世壹俗人大数据Hive技术 hive hadoop 数据仓库
一：问题背景修改hive的分区表时有级连概念，指字段的最新状态，默认只对往后的分区数据生效，而之前的分区保留历史元数据状态。好处就是修改语句的效率很快，坏处就是如果历史分区的数据还有用，那就回发生分区元数据和表元数据的不一致报错最终导致：presto或hive任务抽取历史分区会报如下的错误Thereisamismatchbetweenthetableandpartitionschemas.Thet
2024年Presto【基础 01】简介+架构+数据源+数据模型(2)，2024年最新一线互联网公司面经总结 2401_84264536 架构
学习路线：这个方向初期比较容易入门一些，掌握一些基本技术，拿起各种现成的工具就可以开黑了。不过，要想从脚本小子变成黑客大神，这个方向越往后，需要学习和掌握的东西就会越来越多以下是网络渗透需要学习的内容：网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以点击这里获取一个人可以走的很快，但一群人才能走的更远！不
Presto【基础 01】简介+架构+数据源+数据模型 2401_84254343 程序员架构
一个Catalog包含Schema和Connector。例如，配置JMX的Catalog，通过JXMConnector访问JXM信息。当执行一条SQL语句时，可以同时运行在多个Catalog。Presto处理table时，是通过表的完全限定（fully-qualified）名来找到Catalog。例如，一个表的权限定名是hive.test_data.test，则test是表名，test_data是
兼容 Trino Connector，扩展 Apache Doris 数据源接入能力｜Lakehouse 使用手册 vvvae1234 apache
ApacheDoris内置支持包括Hive、Iceberg、Hudi、Paimon、LakeSoul、JDBC在内的多种Catalog，并为其提供原生高性能且稳定的访问能力，以满足与数据湖的集成需求。而随着ApacheDoris用户的增加，新的数据源连接需求也随之增加。因此，从3.0版本开始，ApacheDoris引入了TrinoConnector兼容框架。Trino/Presto作为业界较早应用
2024年大数据高频面试题(下篇）猿与禅 Java架构师面试大数据面试 scala 即席查询分桶调度系统数据倾斜
文章目录Scala数据类型函数式编程闭包函数柯里化面向对象样例类对象与伴生对象特质(trait)模式匹配隐式转换即席查询KylinKylin特点Kylin工作原理核心算法Kylin总结Kylin的优点什么场景用KylinKylin的缺点Impala什么是ImpalaImpala为什么快FrontendBackendImpala总结：Presto什么是PrestoPresto的执行过程Presto总
java数字签名三种方式知了ing java jdk
以下3钟数字签名都是基于jdk7的 1，RSA String password="test"; // 1.初始化密钥 KeyPairGenerator keyPairGenerator = KeyPairGenerator.getInstance("RSA"); keyPairGenerator.initialize(51
Hibernate学习笔记 caoyong Hibernate
1>、Hibernate是数据访问层框架，是一个ORM(Object Relation Mapping)框架，作者为:Gavin King 2>、搭建Hibernate的开发环境 a>、添加jar包: aa>、hibernatte开发包中/lib/required/所
设计模式之装饰器模式Decorator（结构型）漂泊一剑客 Decorator
1. 概述若你从事过面向对象开发，实现给一个类或对象增加行为，使用继承机制，这是所有面向对象语言的一个基本特性。如果已经存在的一个类缺少某些方法，或者须要给方法添加更多的功能（魅力），你也许会仅仅继承这个类来产生一个新类—这建立在额外的代码上。
读取磁盘文件txt，并输入String 一炮送你回车库 String
public static void main(String[] args) throws IOException { String fileContent = readFileContent("d:/aaa.txt"); System.out.println(fileContent);
js三级联动下拉框 3213213333332132 三级联动
//三级联动省/直辖市<select id="province"></select> 市/省直辖<select id="city"></select> 县/区 <select id="area"></select>
erlang之parse_transform编译选项的应用 616050468 parse_transform 游戏服务器属性同步 abstract_code
最近使用erlang重构了游戏服务器的所有代码，之前看过C++/lua写的服务器引擎代码，引擎实现了玩家属性自动同步给前端和增量更新玩家数据到数据库的功能，这也是现在很多游戏服务器的优化方向，在引擎层面去解决数据同步和数据持久化，数据发生变化了业务层不需要关心怎么去同步给前端。由于游戏过程中玩家每个业务中玩家数据更改的量其实是很少
JAVA JSON的解析 darkranger java
// { // “Total”：“条数”， // Code: 1, // // “PaymentItems”:[ // { // “PaymentItemID”:”支款单ID”, // “PaymentCode”:”支款单编号”, // “PaymentTime”:”支款日期”, // ”ContractNo”:”合同号”， //
POJ-1273-Drainage Ditches aijuans ACM_POJ
POJ-1273-Drainage Ditches http://poj.org/problem?id=1273 基本的最大流，按LRJ的白书写的 #include<iostream> #include<cstring> #include<queue> using namespace std; #define INF 0x7fffffff int ma
工作流Activiti5表的命名及含义 atongyeye 工作流 Activiti
activiti5 - http://activiti.org/designer/update在线插件安装 activiti5一共23张表 Activiti的表都以ACT_开头。第二部分是表示表的用途的两个字母标识。用途也和服务的API对应。 ACT_RE_*: 'RE'表示repository。这个前缀的表包含了流程定义和流程静态资源（图片，规则，等等）。 A
android的广播机制和广播的简单使用百合不是茶 android 广播机制广播的注册
Android广播机制简介在Android中，有一些操作完成以后，会发送广播，比如说发出一条短信，或打出一个电话，如果某个程序接收了这个广播，就会做相应的处理。这个广播跟我们传统意义中的电台广播有些相似之处。之所以叫做广播，就是因为它只负责“说”而不管你“听不听”，也就是不管你接收方如何处理。另外，广播可以被不只一个应用程序所接收，当然也可能不被任何应
Spring事务传播行为详解 bijian1013 java spring 事务传播行为
在service类前加上@Transactional，声明这个service所有方法需要事务管理。每一个业务方法开始时都会打开一个事务。 Spring默认情况下会对运行期例外(RunTimeException)进行事务回滚。这
eidtplus operate 征客丶 eidtplus
开启列模式: Alt+C 鼠标选择 OR Alt+鼠标左键拖动列模式替换或复制内容(多行): 右键-->格式-->填充所选内容-->选择相应操作 OR Ctrl+Shift+V(复制多行数据,必须行数一致) -------------------------------------------------------
【Kafka一】Kafka入门 bit1129 kafka
这篇文章来自Spark集成Kafka(http://bit1129.iteye.com/blog/2174765)，这里把它单独取出来，作为Kafka的入门吧下载Kafka http://mirror.bit.edu.cn/apache/kafka/0.8.1.1/kafka_2.10-0.8.1.1.tgz 2.10表示Scala的版本，而0.8.1.1表示Kafka
Spring 事务实现机制 BlueSkator spring 代理事务
Spring是以代理的方式实现对事务的管理。我们在Action中所使用的Service对象，其实是代理对象的实例，并不是我们所写的Service对象实例。既然是两个不同的对象，那为什么我们在Action中可以象使用Service对象一样的使用代理对象呢？为了说明问题，假设有个Service类叫AService，它的Spring事务代理类为AProxyService，AService实现了一个接口
bootstrap源码学习与示例：bootstrap-dropdown（转帖） BreakingBad bootstrap dropdown
bootstrap-dropdown组件是个烂东西，我读后的整体感觉。一个下拉开菜单的设计： <ul class="nav pull-right"> <li id="fat-menu" class="dropdown">
读《研磨设计模式》-代码笔记-中介者模式-Mediator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 中介者模式（Mediator）：用一个中介对象来封装一系列的对象交互。 * 中介者使各对象不需要显式地相互引用，从而使其耦合松散，而且可以独立地改变它们之间的交互。 * * 在我看来，Mediator模式是把多个对象（
常用代码记录 chenjunt3 UI Excel J#
1、单据设置某行或某字段不能修改 //i是行号,"cash"是字段名称 getBillCardPanelWrapper().getBillCardPanel().getBillModel().setCellEditable(i, "cash", false); //取得单据表体所有项用以上语句做循环就能设置整行了 getBillC
搜索引擎与工作流引擎 comsci 算法工作搜索引擎网络应用
最近在公司做和搜索有关的工作，(只是简单的应用开源工具集成到自己的产品中)工作流系统的进一步设计暂时放在一边了，偶然看到谷歌的研究员吴军写的数学之美系列中的搜索引擎与图论这篇文章中的介绍，我发现这样一个关系(仅仅是猜想) -----搜索引擎和流程引擎的基础--都是图论，至少像在我在JWFD中引擎算法中用到的是自定义的广度优先
oracle Health Monitor daizj oracle Health Monitor
About Health Monitor Beginning with Release 11g, Oracle Database includes a framework called Health Monitor for running diagnostic checks on the database. About Health Monitor Checks Health M
JSON字符串转换为对象 dieslrae java json
作为前言,首先是要吐槽一下公司的脑残编译部署方式,web和core分开部署本来没什么问题,但是这丫居然不把json的包作为基础包而作为web的包,导致了core端不能使用,而且我们的core是可以当web来用的(不要在意这些细节),所以在core中处理json串就是个问题.没办法,跟编译那帮人也扯不清楚,只有自己写json的解析了.
C语言学习八结构体，综合应用，学生管理系统 dcj3sjt126com C语言
实现功能的代码： # include <stdio.h> # include <malloc.h> struct Student { int age; float score; char name[100]; }; int main(void) { int len; struct Student * pArr; int i,
vagrant学习笔记 dcj3sjt126com vagrant
想了解多主机是如何定义和使用的, 所以又学习了一遍vagrant 1. vagrant virtualbox 下载安装 https://www.vagrantup.com/downloads.html https://www.virtualbox.org/wiki/Downloads 查看安装在命令行输入vagrant 2.
14.性能优化-优化-软件配置优化 frank1234 软件配置性能优化
1.Tomcat线程池修改tomcat的server.xml文件： <Connector port="8080" protocol="HTTP/1.1" connectionTimeout="20000" redirectPort="8443" maxThreads="1200" m
一个不错的shell 脚本教程入门级 HarborChung linux shell
一个不错的shell 脚本教程入门级建立一个脚本　　Linux中有好多中不同的shell，但是通常我们使用bash (bourne again shell) 进行shell编程，因为bash是免费的并且很容易使用。所以在本文中笔者所提供的脚本都是使用bash（但是在大多数情况下，这些脚本同样可以在 bash的大姐，bourne shell中运行）。　　如同其他语言一样
Spring4新特性——核心容器的其他改进 jinnianshilongnian spring 动态代理 spring4 依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
Linux设置tomcat开机启动 liuxingguome tomcat linux 开机自启动
执行命令sudo gedit /etc/init.d/tomcat6 然后把以下英文部分复制过去。（注意第一句#!/bin/sh如果不写，就不是一个shell文件。然后将对应的jdk和tomcat换成你自己的目录就行了。 #!/bin/bash # # /etc/rc.d/init.d/tomcat # init script for tomcat precesses
第13章 Ajax进阶（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Troubleshooting Crystal Reports off BW blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Troubleshooting+Crystal+Reports+off+BW#TroubleshootingCrystalReportsoffBW-TracingBOE Quite useful, especially this part: SAP BW connectivity For t
Java开发熟手该当心的11个错误 tomcat_oracle java jvm 多线程单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
正则表达式大全 yang852220741 html 编程正则表达式
今天向大家分享正则表达式大全，它可以大提高你的工作效率正则表达式也可以被当作是一门语言，当你学习一门新的编程语言的时候，他们是一个小的子语言。初看时觉得它没有任何的意义，但是很多时候，你不得不阅读一些教程，或文章来理解这些简单的描述模式。一、校验数字的表达式数字：^[0-9]*$ n位的数字：^\d{n}$ 至少n位的数字：^\d{n,}$ m-n位的数字：^\d{m,n}$