蓝鲸123

Hive on Spark环境搭建

文章目录

Hive 引擎简介
环境配置（ssh已经搭好）
- JDK准备
- Hadoop 准备
- - 配置集群
  - 启动集群
  - LZO压缩配置
- Hive 准备
- - Hive 元数据配置到 MySQL
- Spark 准备
- Hive on Spark 配置
- Hive on Spark测试
- Spark on yarn & spark on hive配置

Hive 引擎简介

Hive 引擎包括：默认 MR、tez、spark

最底层的引擎就是MR （Mapreduce）无需配置，Hive运行自带

Hive on Spark：Hive 既作为存储元数据又负责 SQL 的解析优化，语法是 HQL 语法，执行引擎变成了 Spark，Spark 负责采用 RDD 执行。

Spark on Hive : Hive 只作为存储元数据，Spark 负责 SQL 解析优化，语法是 Spark SQL语法，Spark 负责采用 RDD 执行。

环境配置（ssh已经搭好）

Java 1.8.0+
Hadoop 2.7.0
MySQL
Hive 3.1.2
Spark 2.3.0

为了方便只用单台虚拟机去跑，多台和单台一个套路，分发即可

JDK准备

1）卸载现有JDK

sudo rpm -qa | grep -i java | xargs -n1 sudo rpm -e --nodeps

2）解压JDK到/opt/module目录下

tar -zxvf jdk-8u212-linux-x64.tar.gz -C /opt/module/

3）配置JDK环境变量
1）进入 /etc/profile
添加如下内容，然后保存（:wq）退出

#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_212
export PATH=$PATH:$JAVA_HOME/bin

2）让环境变量生效

source /etc/profile

3）测试JDK是否安装成功

java -version

Hadoop 准备

部署
1）进入到Hadoop安装包路径下

cd /opt/software/

2）解压安装文件到/opt/module下面
https://hadoop.apache.org/release/2.7.0.html

wget https://archive.apache.org/dist/hadoop/common/hadoop-2.7.0/hadoop-2.7.0.tar.gz
tar -zxvf hadoop-2.7.0.tar.gz -C /opt/module/

3）将Hadoop添加到环境变量
1）获取Hadoop安装路径

/opt/module/hadoop-2.7.0

（2）打开/etc/profile文件

sudo vim /etc/profile

在profile文件末尾添加JDK路径：（shitf+g）
#HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-2.7.0
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

(3)

source /etc/profile

配置集群

1）核心配置文件
配置core-site.xml (hadoop-2.7.0/etc/hadoop/core-site.xml )




<configuration>
	
    <property>
        <name>fs.defaultFSname>
        <value>hdfs://192.168.1.250:8020value>
    property>
    
    <property>
        <name>hadoop.tmp.dirname>
        <value>/mnt/data_online/hadoop-datavalue>
    property>

    <property>
        <name>hadoop.http.staticuser.username>
        <value>atomechovalue>
    property>

    
    <property>
        <name>hadoop.proxyuser.atomecho.hostsname>
        <value>*value>
    property>
    
    <property>
        <name>hadoop.proxyuser.atomecho.groupsname>
        <value>*value>
    property>
    
    <property>
        <name>hadoop.proxyuser.atomecho.groupsname>
        <value>*value>
    property>

    <property>
 	<name>io.compression.codecsname>
 	<value>
 		org.apache.hadoop.io.compress.GzipCodec,
 		org.apache.hadoop.io.compress.DefaultCodec,
 		org.apache.hadoop.io.compress.BZip2Codec,
 		org.apache.hadoop.io.compress.SnappyCodec,
 		com.hadoop.compression.lzo.LzoCodec,
 		com.hadoop.compression.lzo.LzopCodec
 	value>
   property>
   <property>
        <name>io.compression.codec.lzo.classname>
        <value>com.hadoop.compression.lzo.LzoCodecvalue>
   property>

configuration>

2）HDFS配置文件
配置hdfs-site.xml




<configuration>
	
	<property>
        <name>dfs.namenode.http-addressname>
        <value>192.168.1.250:9870value>
    property>

	
    <property>
        <name>dfs.namenode.secondary.http-addressname>
        <value>192.168.1.250:9868value>
    property>

    
    <property>
        <name>dfs.replicationname>
        <value>1value>
    property>
configuration>

3）YARN配置文件
配置yarn-site.xml




<configuration>
	
    <property>
        <name>yarn.nodemanager.aux-servicesname>
        <value>mapreduce_shufflevalue>
    property>

    
    <property>
        <name>yarn.resourcemanager.hostnamename>
        <value>192.168.1.250value>
    property>

    
    <property>
        <name>yarn.nodemanager.env-whitelistname>
   <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOMEvalue>
    property>

    
    <property>
        <name>yarn.scheduler.minimum-allocation-mbname>
        <value>512value>
    property>
    <property>
        <name>yarn.scheduler.maximum-allocation-mbname>
        <value>12288value>
    property>

    
    <property>
        <name>yarn.nodemanager.resource.memory-mbname>
        <value>12288value>
    property>

    
    <property>
        <name>yarn.nodemanager.pmem-check-enabledname>
        <value>falsevalue>
    property>
    <property>
        <name>yarn.nodemanager.vmem-check-enabledname>
        <value>falsevalue>
property>

	
<property>
    <name>yarn.log-aggregation-enablename>
    <value>truevalue>
property>


<property>
    <name>yarn.log.server.urlname>
    <value>http://192.168.1.250:19888/jobhistory/logsvalue>
property>


<property>
    <name>yarn.log-aggregation.retain-secondsname>
    <value>604800value>
property>

configuration>

4）MapReduce配置文件
配置mapred-site.xml




<configuration>
	
    <property>
        <name>mapreduce.framework.namename>
        <value>yarnvalue>
property>

	
<property>
    <name>mapreduce.jobhistory.addressname>
    <value>192.168.1.250:10020value>
property>


<property>
    <name>mapreduce.jobhistory.webapp.addressname>
    <value>192.168.1.250:19888value>
property>

configuration>

5）配置workers

192.168.1.250

6）配置hadoop-env.sh

export JAVA_HOME=/opt/module/jdk1.8.0_212

启动集群

（1）如果集群是第一次启动，需要在192.168.1.250节点格式化NameNode（注意格式化之前，一定要先停止上次启动的所有namenode和datanode进程，然后再删除data和log数据）

bin/hdfs namenode -format

(2）启动HDFS

sbin/start-dfs.sh

（3）在配置了ResourceManager的节点启动YARN

sbin/start-yarn.sh

（4）Web端查看HDFS的Web页面：http://192.168.1.250:9870

（5）Web端查看SecondaryNameNode : http://192.168.1.250:9868/status.html （单机模式下面什么都没有）
6）Web端查看ResourceManager ： http://192.168.1.250:8088/cluster

LZO压缩配置

编译hadoop-lzo

wget https://www.oberhumer.com/opensource/lzo/download/lzo-2.10.tar.gz
tar -zxvf lzo-2.10.tar.gz
cd lzo-2.10
./configure --enable-shared --prefix /usr/local/lzo-2.10
make && sudo make install

# build hadoop-lzo
C_INCLUDE_PATH=/usr/local/lzo-2.10/include \
LIBRARY_PATH=/usr/local/lzo-2.10/lib \
  mvn clean package

2）将编译好后的 hadoop-lzo-0.4.20.jar 放入 /opt/module/hadoop-2.7.0/share/hadoop/common/

$ pwd
/opt/module/hadoop-2.7.0/share/hadoop/common/
$ ls
hadoop-lzo-0.4.20.jar

2）core-site.xml 增加配置支持 LZO 压缩

<configuration>
 <property>
 <name>io.compression.codecsname>
 <value>
 org.apache.hadoop.io.compress.GzipCodec,
 org.apache.hadoop.io.compress.DefaultCodec,
 org.apache.hadoop.io.compress.BZip2Codec,
 org.apache.hadoop.io.compress.SnappyCodec,
 com.hadoop.compression.lzo.LzoCodec,
 com.hadoop.compression.lzo.LzopCodec
 value>
 property>
 <property>
 <name>io.compression.codec.lzo.classname>
 <value>com.hadoop.compression.lzo.LzoCodecvalue>
 property>
configuration>

Hadoop 2.x 端口号总结

MySQL准备
安装mysql
1）进入msyql 库

mysql> use mysql

2）查询 user 表

mysql> select user, host from user;

3）修改 user 表，把 Host 表内容修改为%

mysql> update user set host="%" where user="root";

4）刷新

mysql> flush privileges;

Hive 准备

下载hive：https://dlcdn.apache.org/hive/
1）把 apache-hive-3.1.2-bin.tar.gz上传到 linux 的/opt/software 目录下

2）解压 apache-hive-3.1.2-bin.tar.gz 到/opt/module目录下面

tar -zxvf /opt/software/apache-hive-3.1.2-bin.tar.gz -C /opt/module/

3）修改 apache-hive-3.1.2-bin.tar.gz 的名称为 hive

mv /opt/module/apache-hive-3.1.2-bin/ /opt/module/hive

4）修改/etc/profile，添加环境变量

sudo vim /etc/profile
添加内容
#HIVE_HOME
export HIVE_HOME=/opt/module/hive
export PATH=$PATH:$HIVE_HOME/bin

source 一下 /etc/profile 文件，使环境变量生效

source /etc/profile

Hive 元数据配置到 MySQL

拷贝驱动
下载mysql JDBC： https://repo1.maven.org/maven2/mysql/mysql-connector-java/8.0.30/

将 MySQL 的 JDBC 驱动拷贝到 Hive 的 lib 目录下

cp /opt/software/mysql-connector-j-8.0.33.jar /opt/module/hive/lib/

配置 Metastore 到 MySQL

在$HIVE_HOME/conf 目录下新建 hive-site.xml 文件

vim hive-site.xml

添加如下内容



<configuration>
 <property>
 	<name>javax.jdo.option.ConnectionURLname>
	<value>jdbc:mysql://192.168.1.249:3306/metastore?useSSL=falsevalue>
 property>
 <property>
 	<name>javax.jdo.option.ConnectionDriverNamename>
 	<value>com.mysql.jdbc.Drivervalue>
 property>
 <property>
 	<name>javax.jdo.option.ConnectionUserNamename>
 	<value>rootvalue>
 property>
 <property>
	 <name>javax.jdo.option.ConnectionPasswordname>
 	 <value>Lettcue2kgvalue>
 property>
 <property>
 	<name>hive.metastore.warehouse.dirname>
 	<value>/user/hive/warehousevalue>
 property>
 <property>
 	<name>hive.metastore.schema.verificationname>
 	<value>falsevalue>
 property>
 <property>
 	<name>hive.server2.thrift.portname>
 	<value>10000value>
 property>
 <property>
 	<name>hive.server2.thrift.bind.hostname>
 	<value>192.168.1.249value>
 property>
 <property>
	<name>hive.metastore.event.db.notification.api.authname>
 	<value>falsevalue>
 property>

 <property>
 	<name>hive.cli.print.headername>
 	<value>truevalue>
 property>
 <property>
 	<name>hive.cli.print.current.dbname>
 	<value>truevalue>
 property>

	 
<property>
 	<name>spark.yarn.jarsname>
 	<value>hdfs://192.168.1.250:8020/spark-jars/*value>
property>


<property>
 	<name>hive.execution.enginename>
 	<value>sparkvalue>
property>

<property>
 	<name>hive.spark.client.connect.timeoutname>
 	<value>10000msvalue>
property>

configuration>

启动 Hive

初始化元数据库

1）登陆MySQL

mysql -uroot -p

2）新建 Hive 元数据库

mysql> create database metastore;
mysql> quit;

3）初始化 Hive 元数据库

schematool -initSchema -dbType mysql -verbose

启动 hive 客户端
1）启动 Hive 客户端

 bin/hive

2）查看一下数据库

hive (default)> show databases;
OK
database_name
default

Spark 准备

（1）Spark 官网下载 jar 包地址：

http://spark.apache.org/downloads.html

（2）上传并解压解压 spark-2.3.0-bin-hadoop2.7.tgz

wget https://archive.apache.org/dist/spark/spark-2.3.0/spark-2.3.0-bin-hadoop2.7.tgz
tar -zxvf spark-2.3.0-bin-hadoop2.7.tgz -C /opt/module/ 
mv /opt/module/spark-2.3.0-bin-hadoop2.7 /opt/module/spark

（3）配置 SPARK_HOME 环境变量

sudo vim /etc/profile
添加如下内容
# SPARK_HOME
export SPARK_HOME=/opt/module/spark
export PATH=$PATH:$SPARK_HOME/bin

source 使其生效

source /etc/profile

（4）在hive 中创建 spark 配置文件

vim /opt/module/hive/conf/spark-defaults.conf

添加如下内容（在执行任务时，会根据如下参数执行）

spark.master yarn
spark.eventLog.enabled true
spark.eventLog.dir hdfs://192.168.1.250:8020/spark-history
spark.executor.memory 2g
spark.driver.memory 1g

在 HDFS 创建如下路径，用于存储历史日志

hadoop fs -mkdir /spark-history

（5）向 HDFS 上传 Spark 纯净版 jar 包
上传并解压 spark-2.3.0-bin-without-hadoop.tgz

tar -zxvf /opt/software/spark-2.3.0-bin-without-hadoop.tgz

6）上传 Spark 纯净版 jar 包到 HDFS

hadoop fs -mkdir /spark-jars
hadoop fs -put spark-2.3.0-bin-without-hadoop/jars/* /spark-jars

Hive on Spark 配置

修改 hive-site.xml 文件

vim /opt/module/hive/conf/hive-site.xml

添加如下内容


 	spark.yarn.jars
 	hdfs://192.168.1.250:8020/spark-jars/*

 


 	hive.execution.engine
 	spark



 	hive.spark.client.connect.timeout
 	10000ms

1）兼容性说明

注意：官网下载的 Hive3.1.2 和 Spark3.0.0 默认是不兼容的。因为 Hive3.1.2 支持的 Spark版本是 2.4.5，所以需要我们重新编译 Hive3.1.2 版本。

编译步骤：官网下载 Hive3.1.2 源码，修改 pom 文件中引用的 Spark 版本为 3.0.0，如果编译通过，直接打包获取 jar 包。如果报错，就根据提示，修改相关方法，直到不报错，打包获取 jar 包。

Hive on Spark测试

1）启动 hive 客户端

bin/hive

（2）创建一张测试表

hive (default)> create table huanhuan(id int, name string);

hive (default)> show tables;
OK
tab_name
huanhuan
Time taken: 0.117 seconds, Fetched: 1 row(s)

3）通过 insert 测试效果

hive (default)> insert into huanhuan values(1,'haoge');

Query ID = root_20230604114221_a1118af6-6182-455b-80fa-308382ddbee0
Total jobs = 1
Launching Job 1 out of 1
In order to change the average load for a reducer (in bytes):
  set hive.exec.reducers.bytes.per.reducer=
In order to limit the maximum number of reducers:
  set hive.exec.reducers.max=
In order to set a constant number of reducers:
  set mapreduce.job.reduces=
Running with YARN Application = application_1685849514092_0001
Kill Command = /opt/module/hadoop-2.7.0/bin/yarn application -kill application_1685849514092_0001
Hive on Spark Session Web UI URL: http://192.168.1.250:43725

Query Hive on Spark job[0] stages: [0, 1]
Spark job[0] status = RUNNING
--------------------------------------------------------------------------------------
          STAGES   ATTEMPT        STATUS  TOTAL  COMPLETED  RUNNING  PENDING  FAILED
--------------------------------------------------------------------------------------
Stage-0 ........         0      FINISHED      1          1        0        0       0
Stage-1 ........         0      FINISHED      1          1        0        0       0
--------------------------------------------------------------------------------------
STAGES: 02/02    [==========================>>] 100%  ELAPSED TIME: 23.28 s
--------------------------------------------------------------------------------------
Spark job[0] finished successfully in 23.28 second(s)
Loading data to table default.huanhuan
OK
col1	col2
Time taken: 98.25 seconds

Spark on yarn & spark on hive配置

编辑 SPARK_HOME/conf/spark-defaults.conf

spark.master yarn
spark.driver.memory 512m
spark.yarn.am.memory 512m
spark.executor.memory 512m


# 配置spark日志
spark.eventLog.enabled true
spark.eventLog.dir hdfs://192.168.1.250:8020/spark-logs
spark.history.provider org.apache.spark.deploy.history.FsHistoryProvider
spark.history.fs.logDirectory hdfs://192.168.1.250:8020/spark-logs
spark.history.fs.update.interval 10s
spark.history.ui.port 18080

编辑/etc/profile

export HADOOP_HOME=/opt/module/hadoop-2.7.0
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export LD_LIBRARY_PATH=$HADOOP_HOME/lib/native:$LD_LIBRARY_PATH

source/etc/profile

source  /etc/profile

拷贝hadoop和hive的配置到spark
把hadoop下的
core-site.xml
hdfs-site.xml
拷贝到 SPARK_HOME/conf/

hive下的配置
hive-site.xml
拷贝到 SPARK_HOME/conf/

拷贝mysql的驱动

 cp mysql-connector-java-5.1.38-bin.jar $SPARK_HOME/jars/

例子
main.py

import pyspark
from pyspark.sql import SparkSession
from pyspark.sql import Row

spark = SparkSession.builder.enableHiveSupport().getOrCreate()

df=spark.sql("show databases")
df.show()
# https://www.projectpro.io/recipes/write-csv-data-table-hive-pyspark

提交脚本
submit.sh

SPARK_PATH=/opt/module/spark
YARN_QUEUE=default
# DEPLOY_MODE=cluster
DEPLOY_MODE=client

${SPARK_PATH}/bin/spark-submit \
 --master yarn \
 --name "spark_demo_lr" \
 --queue ${YARN_QUEUE} \
 --deploy-mode ${DEPLOY_MODE} \
 --driver-memory 4g \
 --driver-cores 2 \
 --executor-memory 4g \
 --executor-cores 2 \
 --num-executors 2 \
 --conf spark.default.parallelism=10 \
 --conf spark.executor.memoryOverhead=2g \
 --conf spark.driver.memoryOverhead=1g \
 --conf spark.yarn.maxAppAttempts=1 \
 --conf spark.yarn.submit.waitAppCompletion=true \
 ./main.py

你可能感兴趣的:(hive,spark,hadoop)

【Python系列】高效Parquet数据处理策略：合并与分析实践小团团0 python 开发语言
在大数据时代，数据的存储、处理和分析变得尤为重要。Parquet作为一种高效的列存储格式，被广泛应用于大数据处理框架中，如ApacheSpark、ApacheHive等。Parquet是一个开源的列存储格式，它被设计用于支持复杂的嵌套数据结构，同时提供高效的压缩和编码方案，以优化存储空间和查询性能。以下将详细介绍如何使用Python对Parquet文件进行数据处理与合并，并提供相应的源码示例。一、
hbase表无法删除，命令行卡住问题处理 spring208208 大数据组件线上问题分析 hbase 数据库大数据
问题现象hbase表无法删除，命令行卡住1.activemaster日志出现超时WARNorg.apache.hadoop.hbase.master.procedure.TruncateTableProcedure:Retriableerrortryingtotruncatetable=xxxstate=TRUNCATE_TABLE_PRE_OPERATIONorg.apache.hadoop.h
Go 语言实用工具：如何高效解压 ZIP 文件程序员爱钓鱼 golang ios 开发语言
在日常开发中，我们经常需要处理ZIP文件，例如从远程服务器下载压缩包后解压、备份数据或处理日志文件等。在本文中，我们将介绍一个使用Go语言编写的高效ZIP文件解压工具，并提供示例代码帮助你快速上手。代码实现以下是Unzip函数的完整实现，它可以将ZIP文件解压到指定的目录，并返回解压后的文件路径列表。packageutilsimport("archive/zip""fmt""io""os""pat
spark explain如何使用 fzip Spark spark 执行计划
在Spark中，explain是分析SQL或DataFrame执行计划的核心工具，通过不同模式可展示查询优化和执行的详细信息，默认情况下，这个语句只提供关于物理计划的信息。以下是具体使用方法及不同模式的作用：1.explain的基本语法在Spark3.0及以上版本，explain支持多种模式参数，通过mode指定输出格式：#DataFrame调用方式df.explain(mode="simple"
【Spark】查询优化中分区（Partitioning）和分桶（Bucketing）是什么关系？什么时候应当分区，什么时候应当分桶？ petrel2015 spark 大数据分布式数据库
在学习Spark的过程中，分区和分桶乍一看很像，都能为了计算加速，但是仔细一想，一查还是有些差异的，甚至说差异很大。那么具体有什么差异点，有什么相同点。我做出了如下的整理，供大家参考，欢迎指正。相同点分区（Partitioning）和分桶（Bucketing）在很多方面具有相似性，它们都是用于优化大数据查询性能的技术数据划分的目的：优化查询性能分区和分桶的核心目标是通过将数据分割成更小的逻辑单元来
pyspark学习rdd处理数据方法——学习记录亭午学习
python黑马程序员"""文件，按JSON字符串存储1.城市按销售额排名2.全部城市有哪些商品类别在售卖3.上海市有哪些商品类别在售卖"""frompysparkimportSparkConf,SparkContextimportosimportjsonos.environ['PYSPARK_PYTHON']=r"D:\anaconda\envs\py10\python.exe"#创建Spark
【Linux 下的 bash 无法正常解析, Windows 的 CRLF 换行符问题导致的】待磨的钝刨 linux bash windows
文章目录报错原因：解决办法：方法一：用`dos2unix`修复方法二：手动转换换行符方法三：VSCode或其他编辑器手动改总结这个错误很常见，原因是你的wait_for_gpu.sh脚本文件格式不对，具体来说是Windows的CRLF换行符问题导致的，Linux下的bash无法正常解析。hadoop@hadoop:~/anaconda3$bashwait_for_gpu.sh:invalidopt
数据湖Iceberg、Hudi和Paimon比较_数据湖框架对比(1) 2301_79098963 程序员知识图谱人工智能
4.Schema变更支持对比项ApacheIcebergApacheHudiApachePaimonSchemaEvolutionALLback-compatibleback-compatibleSelf-definedschemaobjectYESNO(spark-schema)NO（我理解，不准确）SchemaEvolution：指schema变更的支持情况，我的理解是hudi仅支持添加可选列
大数据技术实战---项目中遇到的问题及项目经验一个“不专业”的阿凡大数据
问题导读：1、项目中遇到过哪些问题？2、Kafka消息数据积压，Kafka消费能力不足怎么处理？3、Sqoop数据导出一致性问题？4、整体项目框架如何设计？项目中遇到过哪些问题7.1Hadoop宕机（1）如果MR造成系统宕机。此时要控制Yarn同时运行的任务数，和每个任务申请的最大内存。调整参数：yarn.scheduler.maximum-allocation-mb（单个任务可申请的最多物理内存
Apache大数据旭哥优选大数据选题 Apache大数据旭大数据定制选题 java hadoop spark 开发语言 idea hive 数据库架构
定制旭哥服务，一对一，无中介包安装+答疑+售后态度和技术都很重要定制按需求做要求不高就实惠一点定制需提前沟通好怎么做，这样才能避免不必要的麻烦python、flask、Django、mapreduce、mysqljava、springboot、vue、echarts、hadoop、spark、hive、hbase、flink、SparkStreaming、kafka、flume、sqoop分析+推
hive相关命令 Wang·Br bigdata 笔记 hive
hive相关命令1.hive-helphive-e:不进入hive交互窗口，执行sql语句hive-e"select*users"hive-f:执行脚本中sql语句#创建文件hqlfile1.sql，内容：select*fromusers#执行文件中的SQL语句hive-fhqlfile1.sql#执行文件中的SQL语句，将结果写入文件hive-fhqlfile1.sql>>result1.log
hive服务启停脚本热爱技术的小陈大数据 hive 大数据 hadoop
hive.sh#!/bin/bashHIVE_LOG_DIR=$HIVE_HOME/logs#创建日志目录if[!-d$HIVE_LOG_DIR]thenmkdir-p$HIVE_LOG_DIRfi#检查进程是否运行正常,参数1为进程名,参数2为进程端口functioncheck_process(){pid=$(ps-ef2>/dev/null|grep-vgrep|grep-i$1|awk'{p
【Hive】-- hive 3.1.3 伪分布式部署（单节点） oo寻梦in记 Apache Paimon 大数据服务部署 hive 分布式 hadoop
1、环境准备1.1、版本选择apachehive3.1.3apachehadoop3.1.0oraclejdk1.8mysql8.0.15操作系统：Macos10.151.2、软件下载https://archive.apache.org/dist/hive/https://archive.apache.org/dist/hadoop/1.3、解压tar-zxvfapache-hive-4.0.0-
【Linux】Hadoop-3.4.1的伪分布式集群的初步配置孤独打铁匠Julian Linux linux hadoop ubuntu
配置步骤一、检查环境JDK#目前还是JDK8最适合Hadoopjava-versionecho$JAVA_HOMEHadoophadoopversionecho$HADOOP_HOME二、配置SSH免密登录Hadoop需要通过SSH管理节点（即使在伪分布式模式下）sudoaptinstallopenssh-server#安装SSH服务（如未安装）cd~/.ssh/ssh-keygen-trsa#生
Hive 分区实战指南：动态分区 vs 静态分区的深度解析自然术算 Hive面试100篇 hive hadoop 数据仓库
一、为什么需要分区？在Hive数据仓库中，表数据通常以**分区（Partition）**形式组织。想象一个存储了10年电商订单的表，如果没有分区，所有数据会集中在一个目录下：/user/hive/warehouse/orders/├──part-00000├──part-00001└──...（百万个文件）这种情况下，即使执行WHEREdt='2023-12-31'的查询，Hive也需要扫描全表数
jmeter安装和jmeter历史版本下载 weixin_30432007 java
一、jmete下载：1、最新版本下载地址：http://jmeter.apache.org/download_jmeter.cgi2、历史版本下载地址：https://archive.apache.org/dist/jmeter/binaries/二、软件安装及设置环境变量1、JDK安装目录在D:\ProgramFiles\Java，其环境变量设置为：JAVA_HOME值为：D:\ProgramF
Hadoop 集群规划与部署最佳实践 AI天才研究院 Python实战 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介2009年2月2日，ApacheHadoop项目诞生。它是一个开源的分布式系统基础架构，用于存储、处理和分析海量的数据。Hadoop具有高容错性、可靠性、可扩展性、适应性等特征，因而广泛应用于数据仓库、日志分析、网络流量监测、推荐引擎、搜索引擎等领域。由于Hadoop采用“分而治之”的架构设计理念，因此可以轻松应对数据量、计算能力和存储成本的增长。2013年底，
MySQL 到 Hadoop：Sqoop 数据迁移 ETL Ice星空 ETL
文章目录ETL：Extract-Transform-Load数据迁移过程一、Extract数据抽取1.ODS：OperationalDataStore-可操作数据存储2.DW：DataWarehouse-数据仓库3.DM：DataMart-数据集市二、Transform数据清洗和转换1.数据清洗2.数据转换三、Load数据加载四、数据迁移方法1.Sqoop1.1MySQL->Hive1.1.1im
Azure Delta Lake、Databricks和Event Hubs实现实时欺诈检测 weixin_30777913 azure 云计算
设计Azure云架构方案实现AzureDeltaLake和AzureDatabricks，结合AzureEventHubs/Kafka摄入实时数据，通过DeltaLake实现Exactly-Once语义，实时欺诈检测（流数据写入DeltaLake，批处理模型实时更新），以及具体实现的详细步骤和关键PySpark代码。完整实现代码需要根据具体数据格式和业务规则进行调整，建议通过DatabricksR
HBase安装 lianhedaxue Hadoop hbase
HBase安装本章将介绍如何安装HBase和初始配置。需要用Java和Hadoop来处理HBase，所以必须下载java和Hadoop并安装系统中。安装前设置安装Hadoop在Linux环境下之前，需要建立和使用LinuxSSH(安全Shell)。按照下面设立Linux环境提供的步骤。创建一个用户首先，建议从Unix创建一个单独的Hadoop用户，文件系统隔离Hadoop文件系统。按照下面给出创建
HBase的架构介绍，安装及简单操作 pk_xz123456 大数据 hbase 架构数据库
一、HBase安装1.环境准备Java环境：确保系统中已经安装了Java8或更高版本。可以通过在命令行中输入java-version来检查Java版本。Hadoop环境：HBase依赖于Hadoop，需要先安装并配置好Hadoop集群。确保Hadoop的相关服务（如HDFS、YARN等）已经正常启动。2.下载HBase从HBase官方网站（https://hbase.apache.org/）下载适
Hive常用函数 - abs Called_Kingsley Hive hive 函数
Hive常用函数-abs官方解释abs(x)-returnstheabsolutevalueofx个人理解就是返回函数括号内数字的绝对值。想要获取该数的绝对值的时候就用这个函数没错使用示例selectabs(-1);>1官方示例abs(x)-returnstheabsolutevalueofxExample:>SELECTabs(0)FROMsrcLIMIT1;0>SELECTabs(-5)FRO
通过启用Ranger插件的Hive审计日志同步到Doris做分析 fzip Doris Hive doris 审计 hive
以下是基于ApacheDoris的RangerHive审计日志同步方案详细步骤，结合审计日志插件与数据导入策略实现：一、Doris环境准备1.创建审计日志库表参考搜索结果的表结构设计，根据Ranger日志字段调整建表语句：CREATEDATABASEIFNOTEXISTSranger_audit;CREATETABLEIFNOTEXISTSranger_audit_hive_log(repoTyp
探索数据安全新境界：Apache Spark SQL Ranger Security插件深度揭秘乌昱有Melanie
探索数据安全新境界：ApacheSparkSQLRangerSecurity插件深度揭秘项目地址:https://gitcode.com/gh_mirrors/sp/spark-ranger随着大数据的爆炸性增长，数据安全性成为了企业不可忽视的核心议题。在这一背景下，【ApacheSparkSQLRangerSecurityPlugin】以其强大的数据访问控制能力脱颖而出，成为数据处理领域的明星级
HDFS相关的面试题努力的搬砖人. java 面试 hdfs
以下是150道HDFS相关的面试题，涵盖了HDFS的基本概念、架构、操作、数据存储、高可用性、权限管理、性能优化、容错机制、与MapReduce的结合、安全性、数据压缩、监控与管理、与YARN的关系、数据一致性、数据备份与恢复等方面，希望对你有所帮助。HDFS基本概念1.HDFS是什么？它的设计目标是什么？•HDFS是Hadoop分布式文件系统，设计目标是实现对大规模数据的高吞吐量访问，适用于一次
基于Azure云平台构建实时数据仓库 weixin_30777913 云计算 azure 开发语言 spark python
设计Azure云架构方案实现AzureDeltaLake和AzureDatabricks，结合电商网站的流数据，构建实时数据仓库，支持T+0报表（如电商订单分析），具以及具体实现的详细步骤和关键PySpark代码。一、架构设计[电商网站]→[AzureEventHubs]→[AzureDatabricksStreaming]↓[AzureDeltaLake]←→[DatabricksSQLAnal
linux上安装postgresql9.5 crayon-shin-chan #postgresql surprise #linux linux ubuntu PostgreSQL 数据库
1.查看源版本czy@Mint~$sudoapt-getupdateczy@Mint~$apt-cachemadisonpostgresqlpostgresql|9.5+173ubuntu0.3|http://archive.ubuntu.com/ubuntuxenial-updates/mainamd64Packagespostgresql|9.5+173ubuntu0.3|http://arc
hadoop3.x--搭建hadoop高可用集群（HA模式）运维小菜 hadoop hadoop hdfs
hadoop高可用集群（HA模式）一、安装前1.集群规划2.安装前配置3.安装jdk与hadoop4.克隆虚拟机与互信配置5.搭建zookeeper集群二、HDFS1.配置hdfs2.初始化启动hdfs集群三、MapReduce与Yarn1.配置MapReduce2.配置yarn3.启动yarn四、验证1.查看java进程2.hdfs与yarn前台页面一、安装前1.集群规划hostnameipNN
linux grep命令蓝菱 linux linux grep 正则表达式
转自http://www.cnblogs.com/end/archive/2012/02/21/2360965.htm1.作用Linux系统中grep命令是一种强大的文本搜索工具，它能使用正则表达式搜索文本，并把匹配的行打印出来。grep全称是GlobalRegularExpressionPrint，表示全局正则表达式版本，它的使用权限是所有用户。2.格式grep[options]3.主要参数[o
【已解决】将CentOS7系统安装至U盘（四）：安装Qt5.14.2（解决#error qt requires c++11 support问题） pyengine qt c++开发语言 centos
目录1下载安装文件2安装Qt5.14.2和QtCreator3解决编译问题1下载安装文件从Qt官网或清华大学镜像站https://mirrors.tuna.tsinghua.edu.cn/gnu/gcchttps://mirrors.tuna.tsinghua.edu.cn/qt/archive/qt/5.14/5.14.2/下载Qt安装文件。以清华大学镜像站为例，下载如下：wgethttps:/
java Illegal overloaded getter method with ambiguous type for propert的解决 zwllxs java jdk
好久不来iteye,今天又来看看，哈哈,今天碰到在编码时，反射中会抛出 Illegal overloaded getter method with ambiguous type for propert这么个东东，从字面意思看，是反射在获取getter时迷惑了，然后回想起java在boolean值在生成getter时，分别有is和getter，也许我们的反射对象中就有is开头的方法迷惑了jdk，
IT人应当知道的10个行业小内幕 beijingjava 工作互联网
10. 虽然IT业的薪酬比其他很多行业要好，但有公司因此视你为其“佣人”。　　尽管IT人士的薪水没有互联网泡沫之前要好，但和其他行业人士比较，IT人的薪资还算好点。在接下的几十年中，科技在商业和社会发展中所占分量会一直增加，所以我们完全有理由相信，IT专业人才的需求量也不会减少。　　然而，正因为IT人士的薪水普遍较高，所以有些公司认为给了你这么多钱，就把你看成是公司的“佣人”，拥有你的支配
java 实现自定义链表 CrazyMizzz java 数据结构
1.链表结构链表是链式的结构 2.链表的组成链表是由头节点，中间节点和尾节点组成节点是由两个部分组成： 1.数据域 2.引用域 3.链表的实现 &nbs
web项目发布到服务器后图片过一会儿消失麦田的设计者 struts2 上传图片永久保存
作为一名学习了android和j2ee的程序员，我们必须要意识到，客服端和服务器端的交互是很有必要的，比如你用eclipse写了一个web工程，并且发布到了服务器（tomcat）上，这时你在webapps目录下看到了你发布的web工程，你可以打开电脑的浏览器输入http://localhost:8080/工程/路径访问里面的资源。但是，有时你会突然的发现之前用struts2上传的图片
CodeIgniter框架Cart类 name 不能设置中文的解决方法 IT独行者 CodeIgniter Cart 框架　
今天试用了一下CodeIgniter的Cart类时遇到了个小问题，发现当name的值为中文时，就写入不了session。在这里特别提醒一下。在CI手册里也有说明，如下： $data = array( 'id' => 'sku_123ABC', 'qty' => 1, '
linux回收站 _wy_ linux 回收站
今天一不小心在ubuntu下把一个文件移动到了回收站，我并不想删，手误了。我急忙到Nautilus下的回收站中准备恢复它，但是里面居然什么都没有。后来我发现这是由于我删文件的地方不在HOME所在的分区，而是在另一个独立的Linux分区下，这是我专门用于开发的分区。而我删除的东东在分区根目录下的.Trash-1000/file目录下，相关的删除信息（删除时间和文件所在
jquery回到页面顶端知了ing html jquery css
html代码： <h1 id="anchor">页面标题</h1> <div id="container">页面内容</div> <p><a href="#anchor" class="topLink">回到顶端</a><
B树、B-树、B+树、B*树矮蛋蛋 B树
原文地址： http://www.cnblogs.com/oldhorse/archive/2009/11/16/1604009.html B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； &nb
数据库连接池 alafqq 数据库连接池
http://www.cnblogs.com/xdp-gacl/p/4002804.html @Anthor:孤傲苍狼数据库连接池用MySQLv5版本的数据库驱动没有问题，使用MySQLv6和Oracle的数据库驱动时候报如下错误： java.lang.ClassCastException: $Proxy0 cannot be cast to java.sql.Connec
java泛型百合不是茶 java泛型
泛型在Java SE 1.5之前，没有泛型的情况的下，通过对类型Object的引用来实现参数的“任意化”，任意化的缺点就是要实行强制转换，这种强制转换可能会带来不安全的隐患泛型的特点：消除强制转换确保类型安全向后兼容简单泛型的定义：泛型：就是在类中将其模糊化，在创建对象的时候再具体定义 class fan
javascript闭包[两个小测试例子] bijian1013 JavaScript JavaScript
一.程序一 <script> var name = "The Window"; var Object_a = { 　　name : "My Object", 　　getNameFunc : function(){ var that = this; 　　　　return function(){ 　　　　
探索JUnit4扩展：假设机制（Assumption） bijian1013 java Assumption JUnit 单元测试
一.假设机制（Assumption）概述理想情况下，写测试用例的开发人员可以明确的知道所有导致他们所写的测试用例不通过的地方，但是有的时候，这些导致测试用例不通过的地方并不是很容易的被发现，可能隐藏得很深，从而导致开发人员在写测试用例时很难预测到这些因素，而且往往这些因素并不是开发人员当初设计测试用例时真正目的，
【Gson四】范型POJO的反序列化 bit1129 POJO
在下面这个例子中，POJO(Data类)是一个范型类，在Tests中，指定范型类为PieceData，POJO初始化完成后，通过 String str = new Gson().toJson(data); 得到范型化的POJO序列化得到的JSON串，然后将这个JSON串反序列化为POJO import com.google.gson.Gson; import java.
【Spark八十五】Spark Streaming分析结果落地到MySQL bit1129 Stream
几点总结： 1. DStream.foreachRDD是一个Output Operation，类似于RDD的action，会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 2. 获取MySQL Connection的操作应该放在foreachRDD的参数（是一个RDD[T]=>Unit的函数类型)，这样，当foreachRDD方法在每个Worker上执行时，
NGINX + LUA实现复杂的控制 ronin47 nginx lua
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-递归判断数组是否升序 bylijinnan java
public class IsAccendListRecursive { /*递归判断数组是否升序 * if a Integer array is ascending,return true * use recursion */ public static void main(String[] args){ IsAccendListRecursiv
Netty源码学习-DefaultChannelPipeline2 bylijinnan java netty
Netty3的API http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/ChannelPipeline.html 里面提到ChannelPipeline的一个“pitfall”：如果ChannelPipeline只有一个handler（假设为handlerA）且希望用另一handler（假设为handlerB）来
Java工具之JPS chinrui java
JPS使用熟悉Linux的朋友们都知道，Linux下有一个常用的命令叫做ps（Process Status)，是用来查看Linux环境下进程信息的。同样的，在Java Virtual Machine里面也提供了类似的工具供广大Java开发人员使用，它就是jps（Java Process Status)，它可以用来
window.print分页打印 ctrain window
function init() { var tt = document.getElementById("tt"); var childNodes = tt.childNodes[0].childNodes; var level = 0; for (var i = 0; i < childNodes.length; i++) {
安装hadoop时执行jps命令Error occurred during initialization of VM daizj jdk hadoop jps
在安装hadoop时，执行JPS出现下面错误 [slave16][email protected]:/tmp/hsperfdata_hdfs# jps Error occurred during initialization of VM java.lang.Error: Properties init: Could not determine current working
PHP开发大型项目的一点经验 dcj3sjt126com PHP 重构
一、变量最好是把所有的变量存储在一个数组中，这样在程序的开发中可以带来很多的方便，特别是当程序很大的时候。变量的命名就当适合自己的习惯，不管是用拼音还是英语，至少应当有一定的意义，以便适合记忆。变量的命名尽量规范化，不要与PHP中的关键字相冲突。二、函数 PHP自带了很多函数，这给我们程序的编写带来了很多的方便。当然，在大型程序中我们往往自己要定义许多个函数，几十
android笔记之--向网络发送GET/POST请求参数 dcj3sjt126com android
使用GET方法发送请求 private static boolean sendGETRequest (String path, Map<String, String> params) throws Exception{ //发送地http://192.168.100.91:8080/videoServi
linux复习笔记之bash shell (3) 通配符 eksliang linux 通配符 linux通配符
转载请出自出处： http://eksliang.iteye.com/blog/2104387 在bash的操作环境中有一个非常有用的功能，那就是通配符。下面列出一些常用的通配符，如下表所示符号意义 * 万用字符，代表0个到无穷个任意字符 ? 万用字符，代表一定有一个任意字符 [] 代表一定有一个在中括号内的字符。例如：[abcd]代表一定有一个字符，可能是a、b、c
Android关于短信加密 gqdy365 android
关于Android短信加密功能，我初步了解的如下（只在Android应用层试验）： 1、因为Android有短信收发接口，可以调用接口完成短信收发；发送过程：APP（基于短信应用修改）接受用户输入号码、内容——>APP对短信内容加密——>调用短信发送方法Sm
asp.net在网站根目录下创建文件夹 hvt .net C#hovertree asp.net Web Forms
假设要在asp.net网站的根目录下建立文件夹hovertree,C#代码如下： string m_keleyiFolderName = Server.MapPath("/hovertree"); if (Directory.Exists(m_keleyiFolderName)) { //文件夹已经存在 return; } else { try { D
一个合格的程序员应该读过哪些书 justjavac 程序员书籍
编者按：2008年8月4日，StackOverflow 网友 Bert F 发帖提问：哪本最具影响力的书，是每个程序员都应该读的？ “如果能时光倒流，回到过去，作为一个开发人员，你可以告诉自己在职业生涯初期应该读一本，你会选择哪本书呢？我希望这个书单列表内容丰富，可以涵盖很多东西。” 很多程序员响应，他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单，不过都是推荐数
单实例实践跑龙套_az 单例
1、内部类 public class Singleton { private static class SingletonHolder { public static Singleton singleton = new Singleton(); } public Singleton getRes
PO VO BEAN 理解 q137681467 VO DTO po
PO：全称是 persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。 BO：全称是 business object:业务对象主要作用是把业务逻辑封装为一个对象。这个对
战胜惰性，暗自努力金笛子努力
偶然看到一句很贴近生活的话：“别人都在你看不到的地方暗自努力，在你看得到的地方，他们也和你一样显得吊儿郎当，和你一样会抱怨，而只有你自己相信这些都是真的，最后也只有你一人继续不思进取。”很多句子总在不经意中就会戳中一部分人的软肋，我想我们每个人的周围总是有那么些表现得“吊儿郎当”的存在，是否你就真的相信他们如此不思进取，而开始放松了对自己的要求随波逐流呢？我有个朋友是搞技术的，平时嘻嘻哈哈，以
NDK/JNI二维数组多维数组传递 wenzongliang 二维数组 jni NDK
多维数组和对象数组一样处理，例如二维数组里的每个元素还是一个数组用jArray表示，直到数组变为一维的，且里面元素为基本类型，去获得一维数组指针。给大家提供个例子。已经测试通过。 Java_cn_wzl_FiveChessView_checkWin( JNIEnv* env,jobject thiz,jobjectArray qizidata) { jint i,j; int s