张小凡vip

数据仓库(十)---分布式SQL查询引擎---presto安装部署和连接hive使用

我们在上一章已经了解了presto的简介，本章进行部署和使用。

官网教程

https://prestodb.io/docs/current/installation.html
http://prestodb-china.com/docs/current/installation/deployment.html （京东版本）
https://teradata.github.io/presto/docs/current/overview.html （teradata版本）

环境准备

Presto 有以下几个基本要求：
Linux 或者 Mac OS X 系统
Java 8，64位

我的环境

操作系统：CentOS release 6.6 (Final)
ps:查看系统版本使用命令

lsb_release -a

Hadoop集群：CDH 5.13.0, Parcel
JDK 版本：java version 1.8.0_131

Presto单节点安装配置

实际使用中一般需要多节点安装配置，为了快速熟悉和尝试Presto，我们可以先尝试安装单节点的Presto服务。
所谓的单节点就是把Presto的coordinator和worker都部署在同一个节点上。

下载

下载链接
https://repo1.maven.org/maven2/com/facebook/presto/presto-server/
该链接中有很多版本的presto，目前最新的是0.195版本。
为了方便Presto进行升级，建议在presto安装目录的外面创建一个目录命名为presto。

使用命令创建目录

mkdir presto

进入目录使用命令下载
cd ./presto wget https://repo1.maven.org/maven2/com/facebook/presto/presto-server/0.195/presto-server-0.195.tar.gz

使用命令解压压缩文件

tar -xf presto-server-0.195.tar.gz

配置Presto

在安装目录中创建一个etc目录。在这个etc目录中放入以下配置信息：
节点属性：每个节点的环境配置信息
JVM 配置：JVM的命令行选项
配置属性：Presto server的配置信息
Catalog属性：configuration forConnectors（数据源）的配置信息

使用命令
cd ./presto-server-0.195 mkdir etc

Node Properties

节点属性配置文件：etc/node.properties包含针对于每个节点的特定的配置信息。一个节点就是在一台机器上安装的Presto实例。这份配置文件一般情况下是在Presto第一次安装的时候，由部署系统创建的。一个etc/node.properties配置文件至少包含如下配置信息：
node.environment=production node.id=ffffffff-ffff-ffff-ffff-ffffffffffff node.data-dir=/var/presto/data

针对上面的配置信息描述如下：

node.environment：集群名称。所有在同一个集群中的Presto节点必须拥有相同的集群名称。
node.id：每个Presto节点的唯一标示。每个节点的node.id都必须是唯一的。在Presto进行重启或者升级过程中每个节点的node.id必须保持不变。如果在一个节点上安装多个Presto实例（例如：在同一台机器上安装多个Presto节点），那么每个Presto节点必须拥有唯一的node.id。
node.data-dir：数据存储目录的位置（操作系统上的路径）。Presto将会把日期和数据存储在这个目录下。

使用命令
cd ./etc vim node.properties
输入配置
node.environment=production
node.id=a0001
node.data-dir=/home/zzq/var/presto/data
如图:

点击esc，输入:wq回车保存退出。

JVM配置

JVM配置文件，etc/jvm.config，包含一系列在启动JVM的时候需要使用的命令行选项。这份配置文件的格式是：一系列的选项，每行配置一个单独的选项。由于这些选项不在shell命令中使用。因此即使将每个选项通过空格或者其他的分隔符分开，java程序也不会将这些选项分开，而是作为一个命令行选项处理。（就像下面例子中的OnOutOfMemoryError选项）。
一个典型的etc/jvm.config配置文件如下：
-server
-Xmx16G
-XX:+UseConcMarkSweepGC
-XX:+ExplicitGCInvokesConcurrent
-XX:+CMSClassUnloadingEnabled
-XX:+AggressiveOpts
-XX:+HeapDumpOnOutOfMemoryError
-XX:OnOutOfMemoryError=kill -9 %p
-XX:ReservedCodeCacheSize=150M
由于OutOfMemoryError将会导致JVM处于不一致状态，所以遇到这种错误的时候我们一般的处理措施就是将dump headp中的信息（用于debugging），然后强制终止进程。

Presto会将查询编译成字节码文件，因此Presto会生成很多class，因此我们我们应该增大Perm区的大小（在Perm中主要存储class）并且要允许Jvm class unloading。

使用命令

vim jvm.config

因为我的节点内存比较大为126G，所以可以设置的内存也比较大，我设置为32G。
输入配置
-server
-Xmx32G
-XX:+UseConcMarkSweepGC
-XX:+ExplicitGCInvokesConcurrent
-XX:+CMSClassUnloadingEnabled
-XX:+AggressiveOpts
-XX:+HeapDumpOnOutOfMemoryError
-XX:OnOutOfMemoryError=kill -9 %p
-XX:ReservedCodeCacheSize=300M
如图

点击esc，输入:wq回车保存退出。

Config Properties

Presto的配置文件：etc/config.properties包含了Presto server的所有配置信息。每个Presto server既是一个coordinator也是一个worker。但是在大型集群中，处于性能考虑，建议单独用一台机器作为 coordinator。
一个coordinator的etc/config.properties应该至少包含以下信息：
旧版本
coordinator=true
node-scheduler.include-coordinator=false
http-server.http.port=8080
task.max-memory=1GB
discovery-server.enabled=true
discovery.uri=http://example.net:8080

新版本
coordinator=true
node-scheduler.include-coordinator=true
http-server.http.port=8080
query.max-memory=50GB
query.max-memory-per-node=1GB
discovery-server.enabled=true
discovery.uri=http://example.net:8080

以下是最基本的worker配置：
旧版本
coordinator=false
http-server.http.port=8080
task.max-memory=1GB
discovery.uri=http://example.net:8080

新版本
coordinator=false
http-server.http.port=8080
query.max-memory=50GB
query.max-memory-per-node=1GB
discovery.uri=http://example.net:8080

但是如果你用一台机器进行测试，那么这一台机器将会即作为coordinator，也作为worker。
对配置项解释如下：
coordinator：指定是否运维Presto实例作为一个coordinator(接收来自客户端的查询情切管理每个查询的执行过程)。
node-scheduler.include-coordinator：是否允许在coordinator服务中进行调度工作(即作为coordinator又作为worker。对于大型的集群，在一个节点上的Presto server即作为coordinator又作为worker将会降低查询性能。因为如果一个服务器作为worker使用，那么大部分的资源都会被worker占用，那么就不会有足够的资源进行关键任务调度、管理和监控查询执行。
http-server.http.port：指定HTTP server的端口。Presto 使用 HTTP进行内部和外部的所有通讯。
task.max-memory=1GB：一个单独的任务使用的最大内存 (一个查询计划的某个执行部分会在一个特定的节点上执行)。这个配置参数限制的GROUP BY语句中的Group的数目、JOIN关联中的右关联表的大小、ORDER BY语句中的行数和一个窗口函数中处理的行数。该参数应该根据并发查询的数量和查询的复杂度进行调整。如果该参数设置的太低，很多查询将不能执行；但是如果设置的太高将会导致JVM把内存耗光。
discovery-server.enabled：Presto 通过Discovery 服务来找到集群中所有的节点。为了能够找到集群中所有的节点，每一个Presto实例都会在启动的时候将自己注册到discovery服务。Presto为了简化部署，并且也不想再增加一个新的服务进程，Presto coordinator 可以运行一个内嵌在coordinator 里面的Discovery 服务。这个内嵌的Discovery 服务和Presto共享HTTP server并且使用同样的端口。
discovery.uri：Discovery server的URI。由于启用了Presto coordinator内嵌的Discovery 服务，因此这个uri就是Presto coordinator的uri。修改example.net:8080，根据你的实际环境设置该URI。注意：这个URI一定不能以“/“结尾。

使用命令

vim config.properties

因为是单节点，ip为192.168.30.252，所以输入配置如下:
coordinator=true
node-scheduler.include-coordinator=true
http-server.http.port=8080
query.max-memory=50GB
query.max-memory-per-node=1GB
discovery-server.enabled=true
discovery.uri=http://192.168.30.252:8080
如图:

点击esc，输入:wq回车保存退出。

日志级别

日志配置文件：etc/log.properties。在这个配置文件中允许你根据不同的日志结构设置不同的日志级别。每个logger都有一个名字（通常是使用logger的类的全标示类名）. Loggers通过名字中的“.“来表示层级和集成关系。 (像java里面的包). 如下面的log配置信息：
com.facebook.presto=INFO
This would set the minimum level to INFO for both com.facebook.presto.server and com.facebook.presto.hive. The default minimum level is INFO (thus the above example does not actually change anything). There are four levels: DEBUG, INFO, WARN and ERROR.

使用命令

vim log.properties

因为考虑到info级别的日志输出会占比较多的空间，我们这里只要ERROR级别的错误。
输入配置
com.facebook.presto=ERROR
如图:

点击esc，输入:wq回车保存退出。

Catalog Properties

Presto通过connectors访问数据。这些connectors挂载在catalogs上。 connector可以提供一个catalog中所有的schema和表。例如： Hive connector 将每个hive的database都映射成为一个schema，所以如果hive connector挂载到了名为hive的catalog，并且在hive的web有一张名为clicks的表，那么在Presto中可以通过hive.web.clicks来访问这张表。
通过在etc/catalog目录下创建catalog属性文件来完成catalogs的注册。
例如：
如果要创建jmx数据源的连接器，可以创建一个etc/catalog/jmx.properties文件，文件中的内容如下，完成在jmxcatalog上挂载一个jmxconnector：
connector.name=jmx

如果要创建hive数据源的连接器，可以创建一个etc/catalog/hive.properties文件，文件中的内容如下，完成在hivecatalog上挂载一个hiveconnector：
connector.name=hive-hadoop2
hive.metastore.uri=thrift://example.net:9083
hive.config.resources=/etc/hadoop/conf/core-site.xml,/etc/hadoop/conf/hdfs-site.xml

参数说明
connector.name为连接器名称，hive的话需要加上版本号例如hive-hadoop2
hive.metastore.uri需要与hive的metastore地址和端口对应。
一般配置在/etc/hive/conf/hive-site.xml中。

hive.config.resources需要与hadoop集群的配置路径对应。
CDH安装的一般都在/etc/hadoop/conf路径下。
如图:

更多信息可以参考
hadoop基础—-hadoop实战(十一)—–hadoop管理工具—CDH的目录结构了解

我们这里要连接hive，所以应该配置hive的连接器。
使用命令
mkdir catalog cd ./catalog vim hive.properties
输入配置
connector.name=hive-hadoop2
hive.metastore.uri=thrift://192.168.30.252:9083
hive.config.resources=/etc/hadoop/conf/core-site.xml,/etc/hadoop/conf/hdfs-site.xml

更多连接器详细的信息参考
https://prestodb.io/docs/current/connector.html

如图:

点击esc，输入:wq回车保存退出。

配置完毕
最终etc的目录中配置文件如图:

启动运行Presto

在安装目录的bin/launcher文件，就是启动脚本。Presto可以使用如下命令作为一个后台进程启动：

cd /home/zzq/presto/presto-server-0.195 bin/launcher start

另外，也可以在前台运行，日志和相关输出将会写入stdout/stderr（可以使用类似daemontools的工具捕捉这两个数据流）：

cd /home/zzq/presto/presto-server-0.195 bin/launcher run

停止
cd /home/zzq/presto/presto-server-0.195 bin/launcher stop

Presto可以列出支持的命令和命令行选项。
cd /home/zzq/presto/presto-server-0.195 bin/launcher --help

另外可以查看服务进程命令
cd /home/zzq/presto/presto-server-0.195 bin/launcher status

查看进程： ps -aux|grep PrestoServer 或 jps

启动完之后，日志将会写在var/log目录下，该目录下有如下文件：

launcher.log：这个日志文件由launcher创建，并且server的stdout和stderr都被重定向到了这个日志文件中。这份日志文件中只会有很少的信息，包括：
在server日志系统初始化的时候产生的日志和JVM产生的诊断和测试信息。
server.log：这个是Presto使用的主要日志文件。一般情况下，该文件中将会包括server初始化失败时产生的相关信息。这份文件会被自动轮转和压缩。
http-request.log：这是HTTP请求的日志文件，包括server收到的每个HTTP请求信息，这份文件会被自动轮转和压缩。

连接hive测试验证

下载 presto-cli-0.100-executable.jar：Presto CLI为用户提供了一个用于查询的可交互终端窗口。CLI是一个可执行 JAR文件, 这也就意味着你可以像UNIX终端窗口一样来使用CLI ，下载地址(注意版本对应):
https://repo1.maven.org/maven2/com/facebook/presto/presto-cli/

我这里是0.195版本，使用命令

wget https://repo1.maven.org/maven2/com/facebook/presto/presto-cli/0.195/presto-cli-0.195-executable.jar

文件下载后，重名名为 presto，使用命令

mv presto-cli-0.195-executable.jar presto

使用 chmod +x 命令设置可执行权限

chmod a+x presto

在hive中查一下hive default库中的表
hive自带了一个thrift的客户端———-beeline
打开beeline
使用命令

beeline

连接hiveserver2
使用命令

!connect jdbc:hive2://host253:10000

（host253是hiveserver2所启动的那台主机名，端口默认是10000）

有可能需要输入当前linux用户名和密码。
正常连接上之后会出现
0: jdbc:hive2://host253:10000>
这时可以尝试操作数据库了，使用命令

show tables;

结果如下图：

ctrl+c退出hive cli，进入presto cli,使用命令如下:

./presto --server 192.168.30.252:8080 --catalog hive --schema default

如果要调试，可加 –debug, ip与端口必须与config.properties配置文件中的uri 地址一致，配置的IP就用IP，机器名就用机器名。

使用命令

show tables;

结果如图：

与hive中查询的一致，说明presto部署成功可以使用。

退出presto cli使用命令

quit;

Presto多节点安装配置

架构和集群分配

我们在配置Presto多集群时，首先就是要规划架构和集群分配。
一般来说需要一个coordinator和多个worker。
我们的机子如下

则分配如下:
hadoop1 (192.169.30.250):coordinator调度节点
hadoop2 (192.169.30.251):worker节点
hadoop3 (192.169.30.252):worker节点
hadoop4 (192.169.30.253):worker节点
hadoop5 (192.169.30.217):worker节点

下载解压

根据单点安装时一样的步骤每一台机子进行下载解压。(也可以把单点时配置好的进行打包上传到其他机子解压)

配置修改

根据每个节点的定位进行配置创建和修改。
因为大部分配置一样，所以我们把单点的配置打包下载分别上传到其他节点。
需要修改的配置如下:

Node Properties

使用命令

vim etc/node.properties

内容如下

node.environment=production
node.id=ffffffff-ffff-ffff-ffff-ffffffffffff
node.data-dir=/var/presto/data

这里每个节点的node.id需要不一样，比如在后面加上001、002等

Config Properties

coordinator调度节点使用命令

vim etc/config.properties

内容如下

coordinator=true
node-scheduler.include-coordinator=false
http-server.http.port=8080
query.max-memory=50GB
query.max-memory-per-node=1GB
discovery-server.enabled=true
discovery.uri=http://192.168.30.217:8080

discovery.uri与coordinator调度节点的ip对应。
调度节点只负责调度时node-scheduler.include-coordinator设置为false
调度节点也作为worker时node-scheduler.include-coordinator设置为true

worker节点使用命令

vim etc/config.properties

内容如下

coordinator=false
http-server.http.port=8080
query.max-memory=50GB
query.max-memory-per-node=1GB
discovery.uri=http://192.168.30.217:8080

启用与使用

启动方式与单点的一样，每台都启动起来即可使用。

管理

presto提供了Web的管理界面，可以查看多节点的情况。
根据端口来访问，比如8080,则访问
http://192.168.30.252:8080/

【数据仓库】hadoop web UI 增加账号密码认证花菜回锅肉大数据数据仓库数据仓库 hadoop
升级了hadoop版本到3.3.6,未配置任何鉴权，默认端口98708088开放到了公网，结果没几天就被挖矿攻击了。通过开放的端口提交了很多非法任务到yarn上，并成功在服务器执行了恶意脚本。这次是真实真切的感受了，网络环境的险恶，以前仅仅是别人的案例来提高自己的安全意识，这次完完全全是自己的真实案例，让自己对网络完全有的更深切的认知。在研究了hadoop官方提供的安全方案后，发现是懵的，要么配置
Hive重点面试题 Major Tom _ hive hadoop 数据仓库
文章目录Hive面试重点题目及答案1.Hive的优缺点及使用场景2.Hive与数据仓库的区别3.Hive的基本架构与元数据存储4.Hive内外部表的区别及适用场景5.Hive数据倾斜原因与解决方法6.HiveMapReduce的底层实现与优化方式7.Hive窗口函数的使用场景8.Hive分区与分桶的区别9.Hive的存储格式10.Hive计算引擎（MapReduce,Tez,Spark）的对比Hi
Oracle 分区在什么情况下使用？思维导图代码示例（java 架构) 用心去追梦 oracle java 架构
Oracle分区的适用场景Oracle分区（Partitioning）是一种强大的数据管理工具，适用于特定类型的数据库工作负载和数据结构。以下是一些适合使用分区的情况：1.大型表优化超大数据量：当表包含数百万甚至数十亿行时，分区可以帮助提高查询性能。频繁更新：对于经常被插入、更新或删除的数据，分区可以减少锁定范围，提高并发性。2.数据仓库历史数据分析：在数据仓库中，通常会存储多年的历史数据。通过按
数据建模中的Chasm 陷阱小Tomkk #MySQL 数据库 mysql Chasm 陷阱
数据建模中的Chasm陷阱在数据仓库中，Chasm陷阱（ChasmTrap）是指一种设计问题，通常出现在数据仓库建模的过程中，尤其是在使用星型模式（StarSchema）或者雪花型模式（SnowflakeSchema）时。这个问题通常发生在多个事实表与维度表之间的关系存在不一致或难以解决的情况，导致数据查询和分析时产生不正确的结果。文章目录数据建模中的Chasm陷阱我这里举例说明Chasm陷阱解决
数据仓库之Kappa架构 james二次元数据仓库数据仓库
Kappa架构是一种简化的数据处理架构，旨在处理实时数据流，解决传统Lambda架构中批处理和实时处理的复杂性。Kappa架构完全基于流处理，不区分批处理和实时处理，所有数据都是通过流处理系统进行处理。以下是对Kappa架构的详细介绍：核心概念数据流处理：所有数据都是以事件流的形式处理的，没有批处理的概念。数据流是连续的，实时的，不需要区分历史数据和实时数据。简化架构：通过统一的流处理框架简化数据
【面试系列】Ruby 高频面试题野老杂谈全网最全IT公司面试宝典面试 ruby 职场和发展编程语言
欢迎来到我的博客，很高兴能够在这里和您见面！欢迎订阅相关专栏：⭐️全网最全IT互联网公司面试宝典：收集整理全网各大IT互联网公司技术、项目、HR面试真题.⭐️AIGC时代的创新与未来：详细讲解AIGC的概念、核心技术、应用领域等内容。⭐️全流程数据技术实战指南：全面讲解从数据采集到数据可视化的整个过程，掌握构建现代化数据平台和数据仓库的核心技术和方法。文章目录Ruby初级面试题及附详细解答1.Ru
活动火热报名中 | Data+AI 融合趋势下的智能数仓平台建设人工智能大数据阿里云数据库数据
活动介绍随着AI应用浪潮的深入，Data+AI能够让数据和AI团队在一个平台上进行协作,端到端的完成模型开发部署等。MaxCompute作为阿里云最核心的核心战略级云数仓产品之一，在Data+AI融合趋势下，通过经典数据仓库能力定义与云数据架构的深刻理解，构建出面向下一代智能云数仓，并为用户提供了Data+AI一体化开发体验。本次活动，我们将聚焦“Data+AI融合趋势下的智能数仓平台建设”，诚邀
【数据仓库】三日看尽长安花系统架构师数据仓库
数据仓库：概念、架构与应用目录什么是数据仓库数据仓库的特点数据仓库的架构3.1数据源层3.2数据集成层（ETL）3.3数据存储层3.4数据展示与应用层数据仓库的建模方法4.1星型模型4.2雪花模型4.3星座模型数据仓库与数据库的区别数据仓库的应用场景数据仓库的优缺点分析数据仓库的未来趋势总结1.什么是数据仓库数据仓库（DataWarehouse,DW）是一种用于分析和报告的数据库系统，专门为大规模
TDengine 做为 FLINK 数据源技术参考手册 TDengine （老段） tdengine flink 大数据涛思数据时序数据库数据库
ApacheFlink是一款由Apache软件基金会支持的开源分布式流批一体化处理框架，可用于流处理、批处理、复杂事件处理、实时数据仓库构建及为机器学习提供实时数据支持等诸多大数据处理场景。与此同时，Flink拥有丰富的连接器与各类工具，可对接众多不同类型的数据源实现数据的读取与写入。在数据处理的过程中，Flink还提供了一系列可靠的容错机制，有力保障任务即便遭遇意外状况，依然能稳定、持续运行。借
hive表指定分区字段搜索_Hive学习-Hive基本操作（建库、建表、分区表、写数据）... weixin_39710660 hive表指定分区字段搜索
hive简单认识Hive是建立在HDFS之上的数据仓库，所以Hive的数据全部存储在HDFS上。Hive的数据分为两部分，一部分是存在HDFS上的具体数据，一部分是描述这些具体数据的元数据信息，一般Hive的元数据存在MySQL上。Hive是类SQL语法的数据查询、计算、分析工具，执行引擎默认的是MapReduce，可以设置为Spark、Tez。Hive分内部表和外部表，外部表在建表的同时指定一个
Doris实战——特步集团零售数据仓库项目实践吵吵叭火 #Doris 大数据大数据数据仓库
目录一、背景二、总体架构三、ETL实践3.1批量数据的导入3.2实时数据接入3.3数据加工3.4BI查询四、实时需求响应五、其他经验5.1DorisBE内存溢出5.2SQL任务超时5.3删除语句不支持表达式5.4Drop表闪回六、未来展望原文大佬的这篇Doris数仓建设案例有借鉴意义，这里摘抄下来用作学习和知识沉淀。如有侵权等告知~一、背景特步集团有限公司是中国领先的体育用品企业之一，为了提高特步
设计转换Apache Hive的HQL语句为Snowflake SQL语句的Python程序方法 weixin_30777913 python 数据仓库 hive sql
首先，根据以下各类HQL语句的基本实例和官方文档记录的这些命令语句各种参数设置，得到各种HQL语句的完整实例，然后在Snowflake的官方文档找到它们对应的SnowflakeSQL语句，建立起对应的关系表。在这个过程中要注意HQL语句和SnowflakeSQL语句的区别，比如Hive可以给单个用户加权限，但是Snowflake数据仓库是RBAC，也就是基于角色的权限控制，所以HQL语句中给用户加
在AWS上使用KMS客户端密钥加密S3文件，同时支持PySpark读写和Snowflake导入 weixin_30777913 python spark 大数据云计算数据仓库
现有AWSEMR集群上运行PySpark代码，可以读写S3上的数据文件，Snowflake数据仓库也需要导入S3上的文件到表。现在要用AWSKMS有客户端密钥加密S3上的文件，同时允许PySpark代码，可以读写S3上的数据文件，Snowflake数据仓库导入S3上的文件到表。为了实现AWSEMR上的PySpark读写KMS加密的S3文件，并让Snowflake导入这些文件，请按照以下步骤操作：一
使用 JuiceFS 快照功能实现数据库发布与端到端测试 Juicedata 架构运维
今天的博客来自JuiceFS云服务用户Jerry，他们通过使用JuiceFSsnapshot功能，创新性地实现了数据的版本控制。Jerry，是一家位于北美的科技公司，利用人工智能和机器学习技术，简化用户购买汽车和家庭保险的比较及购买流程。在软件开发领域，严格的测试和受控发布已经成为几十年来的标准做法。但如果我们能将这些原则应用到数据库和数据仓库中会怎样？想象一下，能够为数据基础设施定义一套带有测试
DB2-Db2StreamingChangeEventSource DataLu DB2-debezium 数据库数据库开发大数据开源
提示：Db2StreamingChangeEventSource类主要用于从IBMDb2数据库中读取变更数据捕获(CDC,ChangeDataCapture)信息。CDC是一种技术，允许系统跟踪数据库表中数据的更改，这些更改可以是插入、更新或删除操作。在大数据和实时数据处理场景中，CDC可以用来同步数据到其他系统，比如数据仓库、数据湖或者流处理平台如ApacheKafka。文章目录前言一、核心功能
【Oracle篇】使用impdp导入报错ORA-39001:ORA-39000:ORA-39142:incompatible version number xxx in dump file的问题解决奈斯DB Oracle专栏 oracle 数据库
《博主介绍》：✨又是一天没白过，我是奈斯，从事IT领域✨《擅长领域》：✌️擅长阿里云AnalyticDBforMySQL(分布式数据仓库)、Oracle、MySQL、Linux、prometheus监控；并对SQLserver、NoSQL(MongoDB)有了解✌️大佬们都喜欢静静的看文章，并且也会默默的点赞收藏加关注如标题所示这篇文章是记录并分享一下使用数据泵导入时的报错，这个报错是博主在一年之
kettle常用的数据库连接示例星月情缘02 ETL技术 kettle sql连接
kettle是一款强大的数据抽取转换工具，在数据仓库，ETL任务处理中使用的非常频繁的开源工具。它也支持众多的数据库连接类型。下面是支持的数据库连接对比图。请参考学习。就介绍这么多。
Hive存储系统全面测试报告蚂蚁质量软件测试测试用例功能测试
引言在大数据时代，数据存储和处理技术的重要性日益凸显。ApacheHive作为一个基于Hadoop的数据仓库工具，因其能够提供类SQL查询功能（HiveQL）而广受欢迎。Hive的设计初衷是为了简化大数据集的查询和管理，它允许用户通过简单的SQL语句来操作存储在Hadoop分布式文件系统（HDFS）上的大规模数据集。然而，随着数据量的激增和业务需求的多样化，Hive存储系统的功能、性能和安全性面临
C++和Python实现SQL Server数据库导出数据到S3并导入Redshift数据仓库 weixin_30777913 c++python 数据库数据仓库 sqlserver
用C++实现高性能数据处理，Python实现操作Redshift导入数据文件。在VisualStudio2022中用C++和ODBCAPI导出SQLServer数据库中张表中的所有表的数据为CSV文件格式的数据流，用逗号作为分隔符，用双引号包裹每个数据，字符串类型的数据去掉前后的空格，数据中如果包含双引号，则将一个双引号替换为两个双引号，创建gzip压缩文件，输出数据流写入到gzip压缩文件包中的
从腾讯云数据仓库TCHouse安全地转移数据到AWS Redshift weixin_30777913 数据仓库腾讯云云计算 python aws
实现从AWSDirectConnect连接到腾讯云数据仓库TCHouse-P、TCHouse-C或TCHouse-D，然后使用AWSGlue读取数据并在AWSRedshift中创建对应表并复制数据，需要按照以下步骤进行操作：网络连接设置AWSDirectConnect配置：在AWS管理控制台中，创建一个DirectConnect连接到你的本地网络或腾讯云所在的网络环境。配置虚拟接口（VIF），确保
【智慧水务】二供数仓功能架构大雨淅淅物联网网络人工智能
目录一、数据采集层（一）设备数据采集（二）水质数据采集（三）用户数据采集二、数据传输层（一）有线传输（二）无线传输三、数据存储层（一）原始数据存储（二）数据仓库存储四、数据分析层（一）实时数据分析（二）历史数据分析（三）预测性分析五、数据展示层（一）可视化界面（二）移动端应用六、系统管理层（一）用户权限管理（二）数据备份与恢复（三）系统维护与升级一、数据采集层（一）设备数据采集传感器数据：在二次供
hive视图与物化视图使用详解达达玲玲 hive hadoop 数据仓库大数据
Hive视图和物化视图都是在数据仓库中处理数据的概念。下面对Hive视图和物化视图进行详细解释：Hive视图：1.Hive视图是一个逻辑表，它是对基础表的查询结果的引用，被视为一个新表。2.视图可以简化复杂查询，隐藏复杂的逻辑，并将查询重用。3.视图不存储数据，而是在查询时动态地返回结果。4.视图可以基于单个表或多个表创建，也可以对其他视图创建。Hive视图的使用方式：1.创建视图：```sqlC
数据分析中的上钻、下钻、切片和切块贾斯汀玛尔斯数据治理数据湖 hadoop 数据分析数据挖掘
“上钻”、“下钻”、“切片”、“切块”是数据分析和数据展示中的常见概念，尤其是在处理多维数据或数据仓库时。以下是每个术语的解释：上钻（DrillUp）：这是指从数据的更详细层级上升到更概括的层级。比如，假设你有一个按时间划分的销售数据，当前在查看按月的销售情况，通过上钻，你可以切换到按季度或年度查看整体情况。这个过程让你可以从详细数据中抽象出更高层次的趋势或概览。下钻（DrillDown）：这是指
破解数据模型相似度计算难题：为数据应用清障秉寒大数据
引言在数字化浪潮下，数据仓库和数据湖已成为企业数据管理的核心基础设施。然而，随着它们在公司运营中服役时间的增长，一个棘手的问题逐渐浮现：相似的数据模型如雨后春笋般涌现，字段属性重复度常常高达80%以上。这不仅造成了数据冗余，还让用户在海量的数据模型中迷失方向，使用体验大打折扣。本文将提出一种计算数据模型相似度的方案，助力企业解决这一难题。问题剖析数据模型的相似性问题，本质上源于企业数据架构缺乏统一
大数据平台建设整体架构设计方案 AI天才研究院 ChatGPT AI大模型企业级应用开发实战大数据AI人工智能大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
《大数据平台建设整体架构设计方案》关键词：大数据平台、分布式存储、分布式计算、数据仓库、数据湖、数据安全、数据质量管理、数据治理、数据挖掘、机器学习、图计算、自然语言处理、Hadoop、Spark、Flink、项目规划、运维管理、最佳实践。摘要：本文将深入探讨大数据平台建设整体架构设计方案，从概述与核心概念、技术栈、建设实践、运维管理以及经验展望等多个方面进行详细阐述。通过梳理大数据平台的核心组成
【数仓】数据仓库高频面试题题英文版(1) 和风与影面试数据仓库
今天更新数据仓库高频面试题英文版，分为三个部分。下面是第一部分。音频文件点击下方获取。【数仓】数据仓库高频面试题题英文版(1)【数仓】数据仓库高频面试题题英文版(2)【数仓】数据仓库高频面试题题英文版(3)WhatisDataWarehouse?Datawarehousing(DW)isamethodofgatheringandanalysingdatafrommanysourcesinord
低代码系统-产品架构案例介绍、伙伴云（十）露临霜低代码
下面介绍的是伙伴云的零代码平台，伙伴云有类似于在线Excel的产品，下面介绍的是零代码产品。依旧是从下至上，从左至右的顺序。开发层应用搭建层面，这里包括的系统架构层面以及底层的技术架构层。可以看到没有提到国产化能力的。但是有数据仓库，也就是能对数据进行管理、加工、和对接。主要是为了在用户视图查看时进行不同纬度的数据展示，比如：大屏展示、报表、甘特图展示等此外，流程是对接的标准BPMN的路程，可以做
探秘数据仓库新势力：网络建模秉寒数据仓库
引言在数据如洪流般奔涌的时代，数据仓库作为企业数据管理和分析的核心枢纽，其建模技术也在不断革新。传统的数据仓库建模方式，如星型模型、雪花模型，曾为企业的数据组织和分析立下汗马功劳，但随着业务的日益复杂和数据关系的千变万化，它们逐渐显露出一定的局限性。而网络建模作为数据仓库领域的新名词，正以其独特的魅力和强大的功能，成为数据仓库技术发展的新方向。网络建模：打破传统的枷锁传统建模的局限传统的数据仓库建
Hive数据仓库中的数据导出到MySQL的数据表不成功 sin2201 出错问题数据仓库 hive mysql
可能的原因：(1)没有下载flume和sqoop(2)权限问题：因为MySQL数据库拒绝了root用户从hadoop3主机的连接请求，root用户没有从hadoop3主机进行连接的权限解决：通过MySQL的授权命令来授予权限mysql>GRANTALLPRIVILEGESONsqoop_weblog.*TO'root'@'hadoop3'IDENTIFIEDBY'2020';QueryOK,0ro
Hive面试题汇总大数据侠客 hive相关问题汇总及解决 hive hadoop 数据仓库面试
Hive定义Hive是建立在Hadoop上的数据仓库基础构架。可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种
HttpClient 4.3与4.3版本以下版本比较 spjich java httpclient
网上利用java发送http请求的代码很多，一搜一大把，有的利用的是java.net.*下的HttpURLConnection，有的用httpclient，而且发送的代码也分门别类。今天我们主要来说的是利用httpclient发送请求。 httpclient又可分为 httpclient3.x httpclient4.x到httpclient4.3以下 httpclient4.3
Essential Studio Enterprise Edition 2015 v1新功能体验 Axiba .net
概述：Essential Studio已全线升级至2015 v1版本了！新版本为JavaScript和ASP.NET MVC添加了新的文件资源管理器控件，还有其他一些控件功能升级，精彩不容错过，让我们一起来看看吧！ syncfusion公司是世界领先的Windows开发组件提供商，该公司正式对外发布Essential Studio Enterprise Edition 2015 v1版本。新版本
[宇宙与天文]微波背景辐射值与地球温度 comsci 背景
宇宙这个庞大,无边无际的空间是否存在某种确定的,变化的温度呢? 如果宇宙微波背景辐射值是表示宇宙空间温度的参数之一,那么测量这些数值,并观测周围的恒星能量输出值,我们是否获得地球的长期气候变化的情况呢? &nbs
lvs-server 男人50 server
#!/bin/bash # # LVS script for VS/DR # #./etc/rc.d/init.d/functions # VIP=10.10.6.252 RIP1=10.10.6.101 RIP2=10.10.6.13 PORT=80 case $1 in start) /sbin/ifconfig eth2:0 $VIP broadca
java的WebCollector爬虫框架 oloz 爬虫
WebCollector主页： https://github.com/CrawlScript/WebCollector 下载：webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。接下来看demo package org.spider.myspider; import cn.edu.hfut.dmic.webcollector.cra
jQuery append 与 after 的区别小猪猪08
1、after函数定义和用法： after() 方法在被选元素后插入指定的内容。语法： $(selector).after(content) 实例： <html> <head> <script type="text/javascript" src="/jquery/jquery.js"></scr
mysql知识充电香水浓 mysql
索引索引是在存储引擎中实现的，因此每种存储引擎的索引都不一定完全相同，并且每种存储引擎也不一定支持所有索引类型。根据存储引擎定义每个表的最大索引数和最大索引长度。所有存储引擎支持每个表至少16个索引，总索引长度至少为256字节。大多数存储引擎有更高的限制。MYSQL中索引的存储类型有两种：BTREE和HASH，具体和表的存储引擎相关； MYISAM和InnoDB存储引擎
我的架构经验系列文章索引 agevs 架构
下面是一些个人架构上的总结，本来想只在公司内部进行共享的，因此内容写的口语化一点，也没什么图示，所有内容没有查任何资料是脑子里面的东西吐出来的因此可能会不准确不全，希望抛砖引玉，大家互相讨论。要注意，我这些文章是一个总体的架构经验不针对具体的语言和平台，因此也不一定是适用所有的语言和平台的。（内容是前几天写的，现附上索引）前端架构 http://www.
Android so lib库远程http下载和动态注册 aijuans andorid
一、背景在开发Android应用程序的实现，有时候需要引入第三方so lib库，但第三方so库比较大，例如开源第三方播放组件ffmpeg库, 如果直接打包的apk包里面, 整个应用程序会大很多.经过查阅资料和实验，发现通过远程下载so文件，然后再动态注册so文件时可行的。主要需要解决下载so文件存放位置以及文件读写权限问题。二、主要
linux中svn配置出错 conf/svnserve.conf:12: Option expected 解决方法 baalwolf option
在客户端访问subversion版本库时出现这个错误： svnserve.conf:12: Option expected 为什么会出现这个错误呢，就是因为subversion读取配置文件svnserve.conf时，无法识别有前置空格的配置文件，如### This file controls the configuration of the svnserve daemon, if you##
MongoDB的连接池和连接管理 BigCat2013 mongodb
在关系型数据库中，我们总是需要关闭使用的数据库连接，不然大量的创建连接会导致资源的浪费甚至于数据库宕机。这篇文章主要想解释一下mongoDB的连接池以及连接管理机制，如果正对此有疑惑的朋友可以看一下。通常我们习惯于new 一个connection并且通常在finally语句中调用connection的close()方法将其关闭。正巧，mongoDB中当我们new一个Mongo的时候，会发现它也
AngularJS使用Socket.IO bijian1013 JavaScript AngularJS Socket.IO
目前，web应用普遍被要求是实时web应用，即服务端的数据更新之后，应用能立即更新。以前使用的技术（例如polling）存在一些局限性，而且有时我们需要在客户端打开一个socket，然后进行通信。 Socket.IO(http://socket.io/)是一个非常优秀的库，它可以帮你实
[Maven学习笔记四]Maven依赖特性 bit1129 maven
三个模块为了说明问题，以用户登陆小web应用为例。通常一个web应用分为三个模块，模型和数据持久化层user-core, 业务逻辑层user-service以及web展现层user-web， user-service依赖于user-core user-web依赖于user-core和user-service 依赖作用范围 Maven的dependency定义
【Akka一】Akka入门 bit1129 akka
什么是Akka Message-Driven Runtime is the Foundation to Reactive Applications In Akka, your business logic is driven through message-based communication patterns that are independent of physical locatio
zabbix_api之perl语言写法 ronin47 zabbix_api之perl
zabbix_api网上比较多的写法是python或curl。上次我用java－－http://bossr.iteye.com/blog/2195679，这次用perl。for example: #!/usr/bin/perl use 5.010 ; use strict ; use warnings ; use JSON :: RPC :: Client ; use
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ brotherlamp linux运维工程师 linux运维工程师教程 linux运维工程师视频 linux运维工程师资料 linux运维工程师自学
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ ----------------------------------------------------- 兄弟连Linux运维工程师课堂实录-计算机基础-1-课程体系介绍1 链接：http://pan.baidu.com/s/1i3GQtGL 密码：bl65 兄弟连Lin
bitmap求哈密顿距离-给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y( bylijinnan java
import java.util.Random; /** * 题目： * 给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y(y1,y2,y3,y4,y5)， * 使得他们的哈密顿距离（d=|x1-y1| + |x2-y2| + |x3-y3| + |x4-y4| + |x5-y5|）最大
map的三种遍历方法 chicony map
package com.test; import java.util.Collection; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; public class TestMap { public static v
Linux安装mysql的一些坑 chenchao051 linux
1、mysql不建议在root用户下运行 2、出现服务启动不了，111错误，注意要用chown来赋予权限，我在root用户下装的mysql，我就把usr/share/mysql/mysql.server复制到/etc/init.d/mysqld, (同时把my-huge.cnf复制/etc/my.cnf) chown -R cc /etc/init.d/mysql
Sublime Text 3 配置 daizj 配置 Sublime Text
Sublime Text 3 配置解释(默认){// 设置主题文件“color_scheme”: “Packages/Color Scheme – Default/Monokai.tmTheme”,// 设置字体和大小“font_face”: “Consolas”,“font_size”: 12,// 字体选项：no_bold不显示粗体字，no_italic不显示斜体字，no_antialias和
MySQL server has gone away 问题的解决方法 dcj3sjt126com SQL Server
MySQL server has gone away 问题解决方法，需要的朋友可以参考下。应用程序（比如PHP）长时间的执行批量的MYSQL语句。执行一个SQL，但SQL语句过大或者语句中含有BLOB或者longblob字段。比如，图片数据的处理。都容易引起MySQL server has gone away。今天遇到类似的情景，MySQL只是冷冷的说：MySQL server h
javascript/dom:固定居中效果 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&
使用 Spring 2.5 注释驱动的 IoC 功能 e200702084 spring bean 配置管理 IOC Office
使用 Spring 2.5 注释驱动的 IoC 功能 developerWorks 文档选项将打印机的版面设置成横向打印模式打印本页将此页作为电子邮件发送将此页作为电子邮件发送级别：初级陈雄华 (quickselect@163.com), 技术总监, 宝宝淘网络科技有限公司 2008 年 2 月 28 日 &nb
MongoDB常用操作命令 geeksun mongodb
1. 基本操作 db.AddUser(username,password) 添加用户 db.auth(usrename,password) 设置数据库连接验证 db.cloneDataBase(fromhost)
php写守护进程（Daemon） hongtoushizi PHP
转载自： http://blog.csdn.net/tengzhaorong/article/details/9764655 守护进程（Daemon）是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程是一种很有用的进程。php也可以实现守护进程的功能。 1、基本概念 &nbs
spring整合mybatis,关于注入Dao对象出错问题 jonsvien DAO spring bean mybatis prototype
今天在公司测试功能时发现一问题：先进行代码说明： 1，controller配置了Scope="prototype"（表明每一次请求都是原子型） @resource/@autowired service对象都可以（两种注解都可以）。 2，service 配置了Scope="prototype"（表明每一次请求都是原子型）
对象关系行为模式之标识映射 home198979 PHP 架构企业应用对象关系标识映射
HELLO!架构一、概念 identity Map:通过在映射中保存每个已经加载的对象，确保每个对象只加载一次，当要访问对象的时候，通过映射来查找它们。其实在数据源架构模式之数据映射器代码中有提及到标识映射，Mapper类的getFromMap方法就是实现标识映射的实现。二、为什么要使用标识映射？在数据源架构模式之数据映射器中 //c
Linux下hosts文件详解 pda158 linux
　1、主机名：　　无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。　　公网：IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。　　局域网：每台机器都有一个主机名，用于主机与主机之间的便于区分，就可以为每台机器设置主机
nginx配置文件粗解 spjich java nginx
#运行用户#user nobody;#启动进程,通常设置成和cpu的数量相等worker_processes 2;#全局错误日志及PID文件#error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log inf
数学函数 w54653520 java
public class S { // 传入两个整数，进行比较，返回两个数中的最大值的方法。 public int get( int num1, int nu

数据仓库(十)---分布式SQL查询引擎---presto安装部署和连接hive使用

官网教程

环境准备

我的环境

Presto单节点安装配置

下载

配置Presto

Node Properties

JVM配置

Config Properties

日志级别

Catalog Properties

启动运行Presto

连接hive测试验证

Presto多节点安装配置

架构和集群分配

下载解压

配置修改

启用与使用

管理

你可能感兴趣的:(数据仓库)