programmerdingl

hive学习资料

Hive

1. 引言

什么是Hive

1.  Hive是apache组织提供的一个基于Hadoop的数据仓库产品
    数据库   DataBase   OLTP  
    数据量级小  
    数据价值高
    数据仓库  DataWarehouse OLAP 
    数据量级大
    数据价值低
2.  Hive基于Hadoop 
    底层数据存储 HDFS
    运算方式    MR

原有MapReduce处理相关操作时，存在的问题|

mapreduce处理相关操作时，繁琐
mapReduce的作用：没有统计，没有分组合并，只做数据清洗，是可以没有reduce
Hive核心设计思想
1. metastore （rdb）文件 — 数据库相关概念的对应关系（映射 Mapping）
2. SQL —> 复杂的过程( 语法检查语义检查生成语法树优化sql的执行顺序 )----> MapReduce
3. 类SQL ( HQL Hive Query Language
  HQL Hibernate Query Language )

2. Hive的环境搭建和基本使用

hive安装

1. hadoop安装完成
2. 解压缩hive.tar 到 /opt/install
3. 修改hive_home/conf/hive-env.sh
   # Set HADOOP_HOME to point to a specific hadoop install directory
   HADOOP_HOME=/usr/hadoop-2.6.0
   # Hive Configuration Directory can be controlled by:
   export HIVE_CONF_DIR=/opt/install/apache-hive-0.13.1-bin/conf
4. 在hdfs 创建  /tmp  
               /user/hive/warehouse
5. bin/hive
   jps --- runjar进程

hive基本使用

1. 查看hive中的所有数据库
   show databases
2. 创建用户自己的库
   create database baizhi_158;
   create database if not exists baizhi_158;
3. 使用用户自定义的数据库
   use db_name
   use baizhi_158;
#  所谓hive中的数据库，本质就是hdfs上的一级目录 默认： /user/hive/warehouse/${db_name}.db
4. 建表语句
   create table if not exists t_user(
    id int,
    name string
   )row format delimited fields terminated by '\t';
5. 查看当前数据库中所有的表 
   show tables
# 所谓hive中的表，本质就是hdfs上的一级目录 默认： /user/hive/warehouse/${db_name}.db/${table_name}
                                            /user/hive/warehouse/baizhi_158.db/t_user
6. hive中导入数据命令
   load data local inpath '' into table table_name;
   load data local inpath '/root/data/data1' into table t_user;

# 所谓hive导入数据，本质就是hdfs中目录的数据文件
# 细节：
  1. hive中的数据导入，本质上就是hdfs文件上传，删除表中的数据，本质上就是hdfs中文件的删除
     hive  load data local inpath '/root/hive/data/data1' into table t_user;
     hdfs  bin/hdfs dfs -put /root/hive/data/data1 /user/hive/warehouse/baizhi_158.db/t_user
  2. hive命令的数据导入，如果出现文件名相同的情况下，自动改名
  3. hive中表的数据，只的是这个目录下，所有文件数据之和
  4. hive 执行sql 
     select * 的操作 不启动mr
     select column  启动mr

3. 切换MetaStore从derby到mysql

hive的metastore默认使用的derby数据库，进行映射存储
问题：derby作为metastore使用，只能让客户开启一个client进行访问

安装MySQL

1. wget -i -c http://dev.mysql.com/get/mysql57-community-release-el7-10.noarch.rpm
2. yum -y install mysql57-community-release-el7-10.noarch.rpm
3. yum -y install mysql-community-server
4. systemctl start  mysqld.service

5. mysql管理员密码
   5.1 grep "password" /var/log/mysqld.log 查看临时密码
       A temporary password is generated for root@localhost: ium+hhgLH7Xv
   5.2 mysql -uroot -pium+hhgLH7Xv
   5.3 修改密码
       set global validate_password_policy=0;
       set global validate_password_length=1;
       ALTER USER 'root'@'localhost' IDENTIFIED BY '123456';
   5.4 systemctl restart mysqld.service
   5.5 mysql -uroot -p123456

6. 打开mysql远端访问权限
   6.1  set global validate_password_policy=0;
   6.2  set global validate_password_length=1;
   6.3  GRANT ALL PRIVILEGES ON *.* TO root@"%" IDENTIFIED BY "123456";
   6.4  flush privileges;
   6.5  systemctl stop firewalld

hive相关的设置

hive_home/conf/hive-site.xml
 
        javax.jdo.option.ConnectionURL
        jdbc:mysql://localhost:3306/hive_mysql?createDatabaseIfNotExist=true&useSSL=false
        JDBC connect string fora JDBC metastore
    
    
        javax.jdo.option.ConnectionDriverName
        com.mysql.jdbc.Driver
        Driver class name for aJDBC metastore
    
    
        javax.jdo.option.ConnectionUserName
        yourname
        username to use againstmetastore database
    
    
        javax.jdo.option.ConnectionPassword
        yourpass
        password to use againstmetastore database

mysql驱动jar 上传 hive/lib

4. yum加速

1. mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.backup
2. 下载 centos7文件 并且上传 /etc/yum.repos.d/
3. yum clean all
4. yum makecache

5. Hive相关的配置参数

6. Hive的命令行启动参数

1. hive终端基本的形式
   bin/hive
2. 启动hive的同时，设置hive的相关参数
   bin/hive --hiveconf hive.cli.print.current.db true
3. 启动hive的同时，指定数据库
   bin/hive --database db_name
4. 启动hive的同时，运行sql语句
   bin/hive --database baizhi_158 -e 'select * from t_user'
   bin/hive --database baizhi_158 -e 'select * from t_user' > /root/hive_file 
   bin/hive --database baizhi_158 -e 'select * from t_user' >> /root/hive_file 
5. 启动hive的同时，运行sql文件中的sql语句
   bin/hive --database baizhi_158 -f /root/hive_sql

7. Hive相关SQL命令的详解

数据库相关

1. 创建数据库
   create database if not exists db_name;  // /user/hive/warehouse/db_name.db
   create database if not exists db_name location '/suns'  //
2. 显示所有数据库
   show databases;
3. 使用数据库
   use db_name
4. 删除数据库
   drop database baizhi_suns; //删除空数据库
   drop database baizhi_suns cascade //删除非空库

表的相关操作

管理表建表

0. 查看表的结构
   1. 查看基本结构
      desc table_name;
      desc t_user;
      describe t_user;
   2. 查看表的扩展信息
      desc extended table_name;
      desc extended t_user;
   3. 格式化查看表的扩展信息
      desc formatted table_name;
      desc formatted t_user;
      
1. 基本建表语句
   create table if not exists table_name(
   id int,
   name string
   )row format delimited fields terminated by 't\';
 2. 指定表的存储位置
   create table if not exists table_name(
   id int,
   name string
   )row format delimited fields terminated by 't\' locaiton 'hdfs_path';
 3. as 关键字建表 （洗数据）
   create table if not exists table_name as select id,name from t_user;
 4. like 关键字建表 
   create table if not exists table_name like t_user;

外部表

语法

1. 基本建表语句
   create external table if not exists table_name(
   id int,
   name string
   )row format delimited fields terminated by 't\';
 2. 指定表的存储位置
   create external table if not exists table_name(
   id int,
   name string
   )row format delimited fields terminated by 't\' locaiton 'hdfs_path';
 3. as 关键字建表 （洗数据）
   create external table if not exists table_name as select id,name from t_user;
 4. like 关键字建表 
   create external table if not exists table_name like t_user;

管理表与外部表的区别

1. 管理表删除后，在hive中表将被删除，同时hdfs上目录也会被删除
2. 外部表删除后，在hive中表将被删除，同时hdfs上目录不会被删除 （删除metastore中的信息）

3. 分区表

  > 分区表一般是用于对hive查询进行优化使用，为了提高查询效率
  >
  > 1. 分区 必须有一个统一的父级目录，日后便于做全表的统一处理
  > 2. 分区的子目录和数据本身之间没有必然联系，只是区分数据 （静态分区）

  ~~~markdown
  create table t_user_part(
  id int,
  name string)
  partitioned by (data string) row format delimited fields terminated by '\t';
  
  load data local inpath '/root/hive/data/data1' into table t_user_part partition (data='17');
  load data local inpath '/root/hive/data/data1' into table t_user_part partition (data='18');
  
  select * from t_user_part;
  
  select * from t_user_part where data='17' 
  ~~~

桶表（了解）
临时表（了解）

8. 数据的导入

1. 本地数据的导入（linux) 【重点】
   load data local inpath '' into table table_name
2. hdfs中导入数据
   load data inpath '' into table table_name
   本质：目录中的数据移动
3. hdfs相关shell完成文件导入
   bin/hdfs dfs -put 'local_path' '/user/hive/warehouse/db_name.db/table_name'  
4. as关键字 【重点】
   创建表的同时，通过查询导入数据
   create table t_xxx as select id,name from t_yyy;
5. insert关键字 【重点】
   表已经存在，通过查询导入数据
   insert into table xxxx select id,name from t_user;

9.数据的导出

1. insert导出 【重点】
   导出的数据 mr 自动生成
   insert overwrite local directory '/root/xiaohei' select name from t_user; 
2. hdfs的shell 【了解】
   bin/hdfs dfs -get 'user/hive/warehouse/db_name.db/table' '/root/xxx'
3. hive启动的命令行参数 【了解】
   bin/hive --database 'baizhi129' -f /root/hive.sql > /root/result
4. sqoop方式 【重点】
5. Hive导入 导出命令【了解】
   1. export 导出
	  export table tb_name to 'hdfs_path'
   2. import 导入
	  import table tb_name from 'hdfs_path'

10. Hive中HQL (类SQL)

1. 基本查询
   select * from t_user; 不启动mr
   select id from t_user; 启动mr
2. where 
   select * from t_user where id = xxx;
3. 常见谓词 in  between and  
4. 逻辑运算  and or not
5. 分组函数  count()  avg() sum() max() min()
6. 分组 group by 
7. 排序 order by 
8. 分页 limit
   不支持 limit 2,3
9. 多表联合查询 
   select e.id,e.name,d.dname
   from t_emp e
   inner join t_dept d
   on e.dept_id = d.id;
10. 内置函数（窗口函数）
    select length(name) from t_user_like;
    select length('suns')
    to_date
    year
    select substring('suns',1,2)
 11. hive不支持子查询

11. Hive中与MapReduce相关的参数设置

1. mapreduce中map个数？
   textInputFormat --- > block ----> split ----> map
   dbInputFormat   ----> 1 row ----> 1 split ----> 1 map
2. mapreduce中reduce个数？
   默认 1 个
   mapred-default.xml
   
      mapreduce.job.reduces
      1
   
   job中应用过程中reduce 0---n
   job.setReduceNumTasks()
 3.Hive中MapReduce相关参数的设置 
   hive-site.xml
    
          hive.exec.reducers.bytes.per.reducer
          1000000000
    
    
         hive.exec.reducers.max
         999

12. Hive中特殊参数设置

hive-site.xml

  hive.fetch.task.conversion
  minimal
  
    1. minimal : SELECT STAR, FILTER on partition columns, LIMIT only  不启动MR,非上述3种情况，会启动MR
    2. more    : SELECT, FILTER, LIMIT only (TABLESAMPLE, virtual columns) 所有select,where,limit 都不起MR

13.Hive没有集群

14.实战中如何使用Hive?

总结：hive是一种离线处理的大数据技术，不需要实时产生处理结果，所以在hive中所做的相关操作，最终通过Sqoop导入RDB,通过Java程序直接访问RDB获得相应的结果。

15.Sqoop （CDH）

Hadoop 各种发行版本  
1.   apache开源版 ：      免费   难用 
2.   Cloudera （CDH）    Doug Cutting首席架构师  $4000   1个
3.   Hortonworks                               $12000  10个

搭建CDH版Hadoop及其Hive

1. 解压缩hadoop
2. 创建临时目录的位置
   hadoop_home/data/tmp
3. 修改配置文件 hadoop_home/etc/hadoop
   hadoop-env.sh
   yarn-env.sh
   mapred-env.sh
   
   core-site.xml
   
        fs.defaultFS
        hdfs://hive1:8020
    

    
        hadoop.tmp.dir
        /opt/install/hadoop-2.5.0-cdh5.3.6/data/tmp
    
   hdfs-site.xml
   
  	 dfs.replication
  	 1
   
   
   	  dfs.permissions.enabled
  	  false
   
   mapred-site.xml
   
      mapreduce.framework.name
      yarn
   
   yarn-site.xml
   
        yarn.nodemanager.aux-services
        mapreduce_shuffle
   
   slaves 
     hive1
4. 替换cdh lib/native本地库
5. 格式化namenode
6. 启动服务进程
7. 安装hive并解压缩
8. 修改配置文件
   hive-env.sh
   hive-site.xml
9. 上传mysql驱动 hive_home/lib
10. hdfs /tmp
         /user/hive/warehouse

安装Sqoop

1. 解压缩Sqoop
2. 修改配置 sqoop_home/conf
   修改conf/sqoop-env.sh
   export HADOOP_COMMON_HOME=/opt/install/hadoop-2.5.0-cdh5.3.6
   export HADOOP_MAPRED_HOME=/opt/install/hadoop-2.5.0-cdh5.3.6
   export HIVE_HOME=/opt/install/hive-0.13.1-cdh5.3.6
3. mysql-connect.jar copy sqoop_home/lib
4. 测试sqoop是否正常使用
   bin/sqoop list-databases -connect jdbc:mysql://hive1:3306 -username root -password 123456

sqoop命令的书写规范

1. 一行写 
   bin/sqoop list-databases -connect jdbc:mysql://hive1:3306 -username root -password 123456   
2. 每一个关键字一行
   bin/sqoop list-databases \
   --connect \
   jdbc:mysql://hive1:3306 \
   --username root \
   --password 123456

mysql的准备工作

#mysql 创建数据库 创建表
create database sqoop

create table mysql_user(
id int primary key,
name varchar(12)
);
insert into mysql_user values (1,'suns1');
insert into mysql_user values (2,'suns2');
insert into mysql_user values (3,'suns3');
insert into mysql_user values (4,'suns4');
insert into mysql_user values (5,'suns5');

insert into mysql_user values (6,'suns6');
insert into mysql_user values (7,'suns7');
insert into mysql_user values (8,'suns8');

Sqoop的Import（导入）

bin/sqoop import \
--connect \
jdbc:mysql://hive1:3306/sqoop \
--username root \
--password 123456 \
--table mysql_user

# Sqoop 进行的数据导入和导出，本质上也是运行的MapReduce 
# 如果不指定hdfs的导入路径，那么sqoop生成默认值 /user/root/${table_name}
# mapReduce的目标是数据库，所以Map的数量，由数据库的行数决定
# 导出文件的列分割符，是，

# 指定sqoop导入位置
bin/sqoop import \
--connect \
jdbc:mysql://hive1:3306/sqoop \
--username root \
--password 123456 \
--table mysql_user \
--target-dir /sqoop

# 删除已存在的目标目录
bin/sqoop import \
--connect \
jdbc:mysql://hive1:3306/sqoop \
--username root \
--password 123456 \
--table mysql_user \
--target-dir /sqoop \
--delete-target-dir

# 设置map的个数
bin/sqoop import \
--connect \
jdbc:mysql://hive1:3306/sqoop \
--username root \
--password 123456 \
--table mysql_user \
--target-dir /sqoop \
--delete-target-dir \
--num-mappers 1

# 设置列分隔符
bin/sqoop import \
--connect \
jdbc:mysql://hive1:3306/sqoop \
--username root \
--password 123456 \
--table mysql_user \
--target-dir /sqoop \
--delete-target-dir \
--num-mappers 1 \
--fields-terminated-by '\t'

# 快速导入
  使用mysql 导出工具  dump 
bin/sqoop import \
--connect \
jdbc:mysql://hive1:3306/sqoop \
--username root \
--password 123456 \
--table mysql_user \
--target-dir /sqoop \
--delete-target-dir \
--num-mappers 1 \
--fields-terminated-by '\t' \
--direct

#细节： sqoop 需要和 mysql 安装在同一个节点
       如果没有安装在同一个节点，需要把mysql/bin下的内容 复制到sqoop机器

# 增量导入
--check-column         Source column to check for incremental    id
--last-value            Last imported value in the incremental    5
--incremental     Define an incremental import of type     append
                               'append' or 'lastmodified'
                               
--delete-target-dir \ 不需要加

bin/sqoop import \
--connect \
jdbc:mysql://hive1:3306/sqoop \
--username root \
--password 123456 \
--table mysql_user \
--target-dir /sqoop \
--num-mappers 1 \
--fields-terminated-by '\t' \
--direct \
--check-column id \
--last-value 5 \
--incremental append

# hive表的导入
#--hive-import \
#--hive-database baizhi125 \
#--hive-table t_user \

bin/sqoop import \
--connect \
jdbc:mysql://hive1:3306/sqoop \
--username root \
--password 123456 \
--table mysql_user \
--delete-target-dir \
--hive-import \
--hive-database baizhi129 \
--hive-table t_user \
--num-mappers 1 \
--fields-terminated-by '\t'

Sqoop的Export (HDFS/Hive ----> MySQL )

bin/sqoop export \
--connect \
jdbc:mysql://hive1:3306/sqoop \
--username root \
--password 123456 \
--table to_mysql \
--export-dir /sqoop \
--num-mappers 1 \
--input-fields-terminated-by '\t'

Sqoop脚本化编程

sqoop文件

create table filetomysql(
 id int,
 name varchar(12)
);
1. 创建一个Sqoop文件 普通文件 sqoop.file
export
--connect
jdbc:mysql://hive1:3306/sqoop
--username
root
--password
123456
--table
filetomysql
--export-dir
/sqoop
--num-mappers
1
--input-fields-terminated-by
'\t'

2. 执行文件
bin/sqoop --options-file /root/sqoop.file

job作业

1. 创建作业
bin/sqoop job \
--create test_job1 \
-- \
export \
--connect \
jdbc:mysql://hive1:3306/sqoop \
--username root \
--password 123456 \
--table filetomysql \
--export-dir /sqoop \
--num-mappers 1 \
--input-fields-terminated-by '\t'

2. 执行job作业
bin/sqoop job --exec test_job1(job_id)

3. 解决job作业执行过程中的密码输入问题
echo -n "123456"  >> /root/password

bin/sqoop job \
--create test_job2 \
-- \
export \
--connect \
jdbc:mysql://hive1:3306/sqoop \
--username root \
--password-file file:///root/password \
--table filetomysql \
--export-dir /sqoop \
--num-mappers 1 \
--input-fields-terminated-by '\t'

bin/sqoop job -exec test_job2

思考Sqoop实战，主要的应用方式

1. 安装crontab (centos7 默认安装)
   yum -y install vixie-cron
   yum -y install crontabs
2. 启动服务
   systemctl start crond.service
   systemctl stop crond.service
   systemctl restart crond.service

   /sbin/service crond start
   /sbin/service crond stop
3. 编辑定时计划
   crontab -e 
   minute   hour   day   month   week   command 
   */5 * * * * command
   ··
   */1 * * * * /opt/install/sqoop-1.4.5-cdh5.3.6/test_job2.sh
   0 0 * * * /opt/install/sqoop-1.4.5-cdh5.3.6/test_job2.sh

   【https://www.cnblogs.com/tiandi/p/7147031.html】

mappers 1
–input-fields-terminated-by ‘\t’

  bin/sqoop job -exec test_job2
  ~~~

思考Sqoop实战，主要的应用方式

1. 安装crontab (centos7 默认安装)
   yum -y install vixie-cron
   yum -y install crontabs
2. 启动服务
   systemctl start crond.service
   systemctl stop crond.service
   systemctl restart crond.service

   /sbin/service crond start
   /sbin/service crond stop
3. 编辑定时计划
   crontab -e 
   minute   hour   day   month   week   command 
   */5 * * * * command
   ··
   */1 * * * * /opt/install/sqoop-1.4.5-cdh5.3.6/test_job2.sh
   0 0 * * * /opt/install/sqoop-1.4.5-cdh5.3.6/test_job2.sh

   【https://www.cnblogs.com/tiandi/p/7147031.html】

你可能感兴趣的:(hive)

linux grep命令蓝菱 linux linux grep 正则表达式
转自http://www.cnblogs.com/end/archive/2012/02/21/2360965.htm1.作用Linux系统中grep命令是一种强大的文本搜索工具，它能使用正则表达式搜索文本，并把匹配的行打印出来。grep全称是GlobalRegularExpressionPrint，表示全局正则表达式版本，它的使用权限是所有用户。2.格式grep[options]3.主要参数[o
【已解决】将CentOS7系统安装至U盘（四）：安装Qt5.14.2（解决#error qt requires c++11 support问题） pyengine qt c++开发语言 centos
目录1下载安装文件2安装Qt5.14.2和QtCreator3解决编译问题1下载安装文件从Qt官网或清华大学镜像站https://mirrors.tuna.tsinghua.edu.cn/gnu/gcchttps://mirrors.tuna.tsinghua.edu.cn/qt/archive/qt/5.14/5.14.2/下载Qt安装文件。以清华大学镜像站为例，下载如下：wgethttps:/
安装Qt 5.15.2 noodleboy qt
安装Qt5.15.2自Qt5.15开始，Qt不提供离线安装包了，需要使用在线安装器安装，但是Qt5.15版本不直接显示。需要勾选Archive选项，且很有可能需要梯子工具。
Sqoop安装部署愿与狸花过一生大数据 sqoop hadoop hive
ApacheSqoop简介Sqoop（SQL-to-Hadoop）是Apache开源项目，主要用于：将关系型数据库中的数据导入Hadoop分布式文件系统（HDFS）或相关组件（如Hive、HBase）。将Hadoop处理后的数据导出回关系型数据库。核心特性批量数据传输支持从数据库表到HDFS/Hive的全量或增量数据迁移。并行化处理基于MapReduce实现并行导入导出，提升大数据量场景的效率。自
Mysql-经典实战案例（10）：如何用PT-Archiver完成大表的自动归档从不删库的DBA Mysql 经典实战案例 mysql 数据库
真实痛点：电商订单表存储优化场景现状分析某电商平台订单表（order_info）每月新增500万条记录主库：高频读写，SSD存储（空间告急）历史库：HDD存储，只读查询优化目标✅自动迁移7天前的订单到历史库✅每周六23:30执行，不影响业务高峰✅确保数据一致性第一章：前期准备：沙盒实验室搭建1.1实验环境架构生产库：10.33.112.22历史库：10.30.76.41.2环境初始化（双节点执行）
Hive面试题御风行云天面试题大全 hive hadoop 数据仓库面试
Hive面试题1Hive基础概念1.1解释Hive是什么以及它的用途Hive的主要用途：1.2描述Hive架构和组件1.HiveCLI/Beeline和WebUI2.HiveQL3.HiveDriver（驱动）4.Metastore5.Compiler（编译器）6.Optimizer（优化器）7.Executor（执行器）8.HadoopCoreComponents（核心组件）9.HiveUDFs
Hive 实际应用场景及对应SQL示例小技工丨大数据随笔 hive sql hadoop 大数据数据仓库
Hive实际应用场景及对应SQL示例一、‌日志分析场景‌**场景说明‌：**处理大规模日志数据（如Web访问日志），分析用户行为或系统运行状态。SQL示例‌：--统计每日UV（用户访问量）SELECTdate,COUNT(DISTINCTuser_id)ASdaily_uvFROMweb_logsWHEREevent_type='page_view'GROUPBYdate;技术要点‌：使用DIST
#Hadoop全分布式安装 #mysql安装 #hive安装砸吧砸吧 hadoop hive yarn mysql
分布式（多台机器部署不同组件）与集群（多台机器部署相同组件）概念。Linux基础命令linux具有文件数：目录、文件，从根目录开始，路径具有唯一性。pwd：显示当前路径特殊符号：/：根目录.：隐藏文件，如果路径以.开始，表示当前目录下..：当前目录下的上一级~：当前目录的home目录--help：帮助命令使用linux常用操作命令tab键：自动补全ls：显示指定目录内容默认：当前路径-a：显示所有
hive 使用oracle数据库 sardtass hadoop hive 开源项目
hive使用oracle作为数据源，导入数据使用sqoop或kettle或自己写代码（淘宝的开源项目中有一个xdata就是淘宝自己写的）。感觉sqoop比kettle快多了，淘宝的xdata没用过。hive默认使用derby作为存储表信息的数据库，默认在哪启动就在哪建一个metadata_db文件放数据，可以在conf下的hive-site.xml中配置为一个固定的位置，这样不论在哪启动都可以了。
HiveMetastore 的架构简析 houzhizhen hive hive
HiveMetastore的架构简析HiveMetastore是Hive元数据管理的服务。可以把元数据存储在数据库中。对外通过api访问。hive_metastore.thrift对外提供的Thrift接口定义在文件standalone-metastore/src/main/thrift/hive_metastore.thrift中。内容包括用到的结构体和枚举，和常量，和rpcService。如分
Hive与Spark的UDF：数据处理利器的对比与实践窝窝和牛牛 hive spark hadoop
文章目录Hive与Spark的UDF：数据处理利器的对比与实践一、UDF概述二、HiveUDF解析实现原理代码示例业务应用三、SparkUDF剖析-JDBC方式使用SparkThriftServer设置通过JDBC使用UDFSparkUDF的Java实现（用于JDBC方式）通过beeline客户端连接使用业务应用场景四、Hive与SparkUDF在JDBC模式下的对比五、实际部署与最佳实践六、总结
尚硅谷电商数仓6.0，hive on spark,spark启动不了新时代赚钱战士 hive spark hadoop
在datagrip执行分区插入语句时报错[42000][40000]Errorwhilecompilingstatement:FAILED:SemanticExceptionFailedtogetasparksession:org.apache.hadoop.hive.ql.metadata.HiveException:FailedtocreateSparkclientforSparksessio
qt-5.15.2 源码编译 Linux weixin_40857106 服务器运维
QT官方源码下载地址：https://download.qt.io/archive/qt/5.15/5.15.12/single/qt-everywhere-opensource-src-5.15.12.tar.xz安装Qt所需的依赖：sudoaptinstallbuild-essentiallibgl1-mesa-devlibxkbcommon-devlibnss3-devlibdbus-1-d
鸿蒙HarmonyOS开发：应用程序静态包-HAR 让开，我要吃人了鸿蒙开发 OpenHarmony HarmonyOS harmonyos 华为移动开发前端 html 开发语言鸿蒙
HAR（HarmonyArchive）是静态共享包，可以包含代码、C++库、资源和配置文件。通过HAR可以实现多个模块或多个工程共享ArkUI组件、资源等相关代码。使用场景作为二方库，发布到OHPM私仓，供公司内部其他应用使用。作为三方库，发布到OHPM中心仓，供其他应用使用。约束限制HAR不支持在设备上单独安装/运行，只能作为应用模块的依赖项被引用。HAR不支持在配置文件中声明UIAbility
flutter 使用xcodebuild 命令打包ipa 肥肥呀呀呀 flutter
苹果打ipa包(注意苹果打包需要连接真机)方式一、1.先执行flutterbuildios生成framework2.执行命令xcodebuild-exportArchive-archivePathbuild/ios/Runner.xcarchive-exportOptionsPlistexportOptions.plist-exportPathbuild/ios/ipaexportOptions.
Hadoop相关面试题努力的搬砖人. java 面试 hadoop
以下是150道Hadoop面试题及其详细回答，涵盖了Hadoop的基础知识、HDFS、MapReduce、YARN、HBase、Hive、Sqoop、Flume、ZooKeeper等多个方面，每道题目都尽量详细且简单易懂：Hadoop基础概念类1.什么是Hadoop？Hadoop是一个由Apache基金会开发的开源分布式计算框架，主要用于处理和存储大规模数据集。它提供了高容错性和高扩展性的分布式存
oracle cdc logminer与oracle xstream 24k小善 java 大数据 flink
以下为OracleCDC技术中XStream与LogMiner的核心差异解析，结合技术背景、实现原理、性能表现等维度进行系统化对比。一、技术背景与定位差异LogMiner：官方日志分析工具的非正式应用最初设计用于数据库管理员（DBA）审计和分析历史日志，非专为CDC场景优化[1][9][16]。通过解析归档日志（ArchiveLog）或在线日志（OnlineRedoLog）提取变更记录，采用轮询机
csv转为utf8编码_中文的csv文件的编码改成utf8的方法 John Sheppard csv转为utf8编码
直奔主题：把包含中文的csv文件的编码改成utf-8的方法：啰嗦几句：在用pandas读取hive导出的csv文件时，经常会遇到类似UnicodeDecodeError:'gbk'codeccan'tdecodebyte0xa3inposition12这样的问题，这种问题是因为导出的csv文件包含中文，且这些中文的编码不是gbk，直接用excel打开这些文件还会出现乱码，但用记事本打开这些csv则
企业信息化整体架构图 weixin_33937913 系统架构
今天无意间发现一张企业信息化的图，放在这里以后参考。CollaboraticeCommerce转载于:https://www.cnblogs.com/Masterpiece/archive/2004/12/29/83696.html
Hive函数大全：从核心内置函数到自定义UDF实战指南（附详细案例与总结）一个天蝎座白勺程序猿大数据开发从入门到实战合集 hive hadoop 数据仓库
目录背景‌一、Hive函数分类与核心函数表‌1.内置函数分类‌2.用户自定义函数（UDF）分类二、常用函数详解与实战案例‌1.数学函数‌2.字符串函数‌3.窗口函数‌4.自定义UDF实战‌三、总结与优化建议‌1.核心总结2.性能优化建议‌3.常问问题背景‌Hive作为Hadoop生态中最常用的数据仓库工具，其强大的函数库是高效处理和分析海量数据的核心能力之一。Hive函数分为‌内置函数‌和‌用户自
dcm4che jamie_zhengmin dcm4che archive jboss 工具服务器
dcm4che工具包DICOMtoolkitDICOM工具包dcm4chee归档服务器器IHE影像管理器和影像归档执行器（dcm4jbossarchive影像归档器，影像扫描检查和报告的管理）dcm4che2重架构dcm4che的重架构实现
将Hive数据导出为CSV和Excel格式的方法翠绿探寻 hive excel hadoop 编程
将Hive数据导出为CSV和Excel格式的方法在Hive中存储和处理大规模数据是一项常见的任务。有时候，我们需要将Hive中的数据导出为CSV或Excel格式，以便进行进一步的分析或与其他工具进行集成。本文将介绍如何使用编程的方式将Hive数据导出为CSV和Excel格式，并提供相应的源代码。Hive数据导出为CSV格式要将Hive数据导出为CSV格式，我们可以使用Hive的内置函数INSERT
debian11安装MongoDB 韩搏 Linux基础 mongodb 数据库
debian11bit64安装MongoDB6.0安装必要的包sudoaptinstallgnupgcurl导入MongoDB公钥curl-fsSLhttps://www.mongodb.org/static/pgp/server-6.0.asc|sudogpg--dearmor-o/usr/share/keyrings/mongodb-archive-keyring.gpg创建MongoDB源列
linux 安装anaconda与jupyter notebook配置土豆土豆，我是洋芋 python
一、anaconda安装在官网或清华镜像下载anaconda在载前看一下自己的系统版本，下载对应的anaconda版本。在系统中输入：cat/proc/version，如下图所示##下载地址1）官网：https://www.anaconda.com/distribution/2）清华镜像：https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/安
Hive 与 SparkSQL 的语法差异及性能对比自然术算 Hive hive hadoop 大数据 spark
在大数据处理领域，Hive和SparkSQL都是极为重要的工具，它们为大规模数据的存储、查询和分析提供了高效的解决方案。虽然二者都致力于处理结构化数据，并且都采用了类似SQL的语法来方便用户进行操作，但在实际使用中，它们在语法细节和性能表现上存在诸多差异。了解这些差异，对于开发者根据具体业务场景选择合适的工具至关重要。语法差异数据定义语言（DDL）表创建语法Hive：在Hive中创建表时，需要详细
Oracle V$SESSION详解雨的遐想 oracle 数据库
V$SESSION是SYS用户下面对于SYS.V_$SESSION视图的同义词。在本视图中，每一个连接到数据库实例中的session都拥有一条记录。包括用户session及后台进程如DBWR，LGWR，arcchiver等等。1.V$SESSION中的常用列V$SESSION是基础信息视图，用于找寻用户SID或SADDR，及检查用户的动态：（1）SQL_HASH_VALUE，SQL_ADDRESS
Spark任务读取hive表数据导入es 小小小小小小小小小小码农 hive elasticsearch spark java
使用elasticsearch-hadoop将hive表数据导入es，超级简单1.引入pomorg.elasticsearchelasticsearch-hadoop9.0.0-SNAPSHOT2.创建sparkconf//spark参数设置SparkConfsparkConf=newSparkConf();//要写入的索引sparkConf.set("es.resource","");//es集
Redis 安装详细教程（小白版）小小鸭程序员 spring java AI编程 spring cloud redis
一、Windows系统安装Redis方法1：直接安装（推荐新手）下载RedisforWindows访问微软维护的Redis版本：https://github.com/microsoftarchive/redis/releases下载Redis-x64-3.2.100.msi（或最新版本）安装包。安装Redis双击下载的.msi文件点击下一步，勾选“AddRedisinstallationfolde
Hive SQL 精进系列：REGEXP_REPLACE 函数的用法进一步有进一步的欢喜 Hive SQL 精进系列 hive sql hadoop
目录一、引言二、REGEXP_REPLACE函数基础2.1基本语法参数详解2.2简单示例三、REGEXP_REPLACE函数的应用场景3.1去除特殊字符3.2统一字符串格式四、REGEXP_REPLACE与REPLACE函数的对比4.1功能差异4.2适用场景五、REGEXP_REPLACE与REGEXP函数的对比5.1功能差异5.2适用场景六、总结一、引言字符串处理是数据处理中的常见需求，Hive
Hive SQL 精进系列：SUBSTR 函数的多样用法进一步有进一步的欢喜 Hive SQL 精进系列 hive sql hadoop
目录一、引言二、SUBSTR函数基础介绍2.1基本语法2.2参数详解2.3简单示例三、SUBSTR函数常见应用场景3.1提取日期中的年份、月份或日期3.2隐藏部分敏感信息四、SUBSTR函数高级用法4.1结合条件判断动态截取4.2处理复杂字符串模式五、总结一、引言SUBSTR函数是HiveSQL中一个用于字符串截取的重要函数，在处理文本数据时发挥着关键作用。本文将全面且深入地介绍HiveSQL中S
Java 并发包之线程池和原子计数 lijingyao8206 Java计数 ThreadPool 并发包 java线程池
对于大数据量关联的业务处理逻辑，比较直接的想法就是用JDK提供的并发包去解决多线程情况下的业务数据处理。线程池可以提供很好的管理线程的方式，并且可以提高线程利用率，并发包中的原子计数在多线程的情况下可以让我们避免去写一些同步代码。这里就先把jdk并发包中的线程池处理器ThreadPoolExecutor 以原子计数类AomicInteger 和倒数计时锁C
java编程思想抽象类和接口百合不是茶 java 抽象类接口
接口c++对接口和内部类只有简介的支持,但在java中有队这些类的直接支持 1 ,抽象类 : 如果一个类包含一个或多个抽象方法,该类必须限定为抽象类(否者编译器报错) 抽象方法 : 在方法中仅有声明而没有方法体 package com.wj.Interface;
[房地产与大数据]房地产数据挖掘系统 comsci 数据挖掘
随着一个关键核心技术的突破,我们已经是独立自主的开发某些先进模块,但是要完全实现,还需要一定的时间... 所以,除了代码工作以外,我们还需要关心一下非技术领域的事件..比如说房地产 &nb
数组队列总结沐刃青蛟数组队列
数组队列是一种大小可以改变，类型没有定死的类似数组的工具。不过与数组相比，它更具有灵活性。因为它不但不用担心越界问题，而且因为泛型（类似c++中模板的东西）的存在而支持各种类型。以下是数组队列的功能实现代码： import List.Student; public class
Oracle存储过程无法编译的解决方法 IT独行者 oracle 存储过程　
今天同事修改Oracle存储过程又导致2个过程无法被编译，流程规范上的东西，Dave 这里不多说，看看怎么解决问题。 1. 查看无效对象 XEZF@xezf(qs-xezf-db1)> select object_name,object_type,status from all_objects where status='IN
重装系统之后oracle恢复文强chu oracle
前几天正在使用电脑，没有暂停oracle的各种服务。突然win8.1系统奔溃，无法修复，开机时系统提示正在搜集错误信息，然后再开机，再提示的无限循环中。无耐我拿出系统u盘准备重装系统，没想到竟然无法从u盘引导成功。晚上到外面早了一家修电脑店，让人家给装了个系统，并且那哥们在我没反应过来的时候，直接把我的c盘给格式化了并且清理了注册表，再装系统。然后的结果就是我的oracl
python学习二（一些基础语法）小桔子 pthon 基础语法
紧接着把！昨天没看继续看django 官方教程，学了下python的基本语法与c类语言还是有些小差别： 1.ptyhon的源文件以UTF-8编码格式 2. / 除结果浮点型 // 除结果整形 % 除取余数 * 乘 ** 乘方 eg 5**2 结果是5的2次方25 _&
svn 常用命令 aichenglong SVN 版本回退
1 svn回退版本 1)在window中选择log,根据想要回退的内容,选择revert this version或revert chanages from this version 两者的区别: revert this version:表示回退到当前版本(该版本后的版本全部作废) revert chanages from this versio
某小公司面试归来 alafqq 面试
先填单子，还要写笔试题，我以时间为急，拒绝了它。。时间宝贵。老拿这些对付毕业生的东东来吓唬我。。面试官很刁难，问了几个问题，记录下； 1，包的范围。。。public,private,protect. --悲剧了 2，hashcode方法和equals方法的区别。谁覆盖谁.结果，他说我说反了。 3，最恶心的一道题，抽象类继承抽象类吗？（察，一般它都是被继承的啊） 4，stru
动态数组的存储速度比较集合框架百合不是茶集合框架
集合框架：自定义数据结构(增删改查等) package 数组; /** * 创建动态数组 * @author 百合 * */ public class ArrayDemo{ //定义一个数组来存放数据 String[] src = new String[0]; /** * 增加元素加入容器 * @param s要加入容器
用JS实现一个JS对象，对象里有两个属性一个方法 bijian1013 js对象
<html> <head> </head> <body> 用js代码实现一个js对象，对象里有两个属性，一个方法 </body> <script> var obj={a:'1234567',b:'bbbbbbbbbb',c:function(x){
探索JUnit4扩展：使用Rule bijian1013 java 单元测试 JUnit Rule
在上一篇文章中，讨论了使用Runner扩展JUnit4的方式，即直接修改Test Runner的实现(BlockJUnit4ClassRunner)。但这种方法显然不便于灵活地添加或删除扩展功能。下面将使用JUnit4.7才开始引入的扩展方式——Rule来实现相同的扩展功能。 1. Rule &n
[Gson一]非泛型POJO对象的反序列化 bit1129 POJO
当要将JSON数据串反序列化自身为非泛型的POJO时，使用Gson.fromJson(String, Class)方法。自身为非泛型的POJO的包括两种： 1. POJO对象不包含任何泛型的字段 2. POJO对象包含泛型字段，例如泛型集合或者泛型类 Data类 a.不是泛型类， b.Data中的集合List和Map都是泛型的 c.Data中不包含其它的POJO
【Kakfa五】Kafka Producer和Consumer基本使用 bit1129 kafka
0.Kafka服务器的配置一个Broker，一个Topic Topic中只有一个Partition（） 1. Producer： package kafka.examples.producers; import kafka.producer.KeyedMessage; import kafka.javaapi.producer.Producer; impor
lsyncd实时同步搭建指南——取代rsync+inotify ronin47
1. 几大实时同步工具比较 1.1 inotify + rsync 最近一直在寻求生产服务服务器上的同步替代方案，原先使用的是 inotify + rsync，但随着文件数量的增大到100W+，目录下的文件列表就达20M，在网络状况不佳或者限速的情况下，变更的文件可能10来个才几M，却因此要发送的文件列表就达20M，严重减低的带宽的使用效率以及同步效率；更为要紧的是，加入inotify
java-9. 判断整数序列是不是二元查找树的后序遍历结果 bylijinnan java
public class IsBinTreePostTraverse{ static boolean isBSTPostOrder(int[] a){ if(a==null){ return false; } /*1.只有一个结点时，肯定是查找树 *2.只有两个结点时，肯定是查找树。例如{5,6}对应的BST是 6 {6,5}对应的BST是
MySQL的sum函数返回的类型 bylijinnan java spring sql mysql jdbc
今天项目切换数据库时，出错访问数据库的代码大概是这样： String sql = "select sum(number) as sumNumberOfOneDay from tableName"; List<Map> rows = getJdbcTemplate().queryForList(sql); for (Map row : rows
java设计模式之单例模式 chicony java设计模式
在阎宏博士的《JAVA与模式》一书中开头是这样描述单例模式的：　　作为对象的创建模式，单例模式确保某一个类只有一个实例，而且自行实例化并向整个系统提供这个实例。这个类称为单例类。单例模式的结构　　单例模式的特点：单例类只能有一个实例。单例类必须自己创建自己的唯一实例。单例类必须给所有其他对象提供这一实例。　　饿汉式单例类 publ
javascript取当月最后一天 ctrain JavaScript
 <script language=javascript> var current = new Date(); var year = current.getYear(); var month = current.getMonth(); showMonthLastDay(year, mont
linux tune2fs命令详解 daizj linux tune2fs 查看系统文件块信息
一.简介： tune2fs是调整和查看ext2/ext3文件系统的文件系统参数，Windows下面如果出现意外断电死机情况，下次开机一般都会出现系统自检。Linux系统下面也有文件系统自检，而且是可以通过tune2fs命令，自行定义自检周期及方式。二.用法： Usage: tune2fs [-c max_mounts_count] [-e errors_behavior] [-g grou
做有中国特色的程序员 dcj3sjt126com 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有
Android：TextView属性大全 dcj3sjt126com textview
android:autoLink 设置是否当文本为URL链接/email/电话号码/map时，文本显示为可点击的链接。可选值(none/web/email/phone/map/all) android:autoText 如果设置，将自动执行输入值的拼写纠正。此处无效果，在显示输入法并输
tomcat虚拟目录安装及其配置 eksliang tomcat配置说明 tomca部署web应用 tomcat虚拟目录安装
转载请出自出处：http://eksliang.iteye.com/blog/2097184 1.-------------------------------------------tomcat 目录结构 config：存放tomcat的配置文件 temp ：存放tomcat跑起来后存放临时文件用的 work ：当第一次访问应用中的jsp
浅谈：APP有哪些常被黑客利用的安全漏洞 gg163 APP
首先，说到APP的安全漏洞，身为程序猿的大家应该不陌生；如果抛开安卓自身开源的问题的话，其主要产生的原因就是开发过程中疏忽或者代码不严谨引起的。但这些责任也不能怪在程序猿头上，有时会因为BOSS时间催得紧等很多可观原因。由国内移动应用安全检测团队爱内测（ineice.com）的CTO给我们浅谈关于Android 系统的开源设计以及生态环境。 1. 应用反编译漏洞：APK 包非常容易被反编译成可读
C#根据网址生成静态页面 hvt Web .net C#asp.net hovertree
HoverTree开源项目中HoverTreeWeb.HVTPanel的Index.aspx文件是后台管理的首页。包含生成留言板首页，以及显示用户名，退出等功能。根据网址生成页面的方法： bool CreateHtmlFile(string url, string path) { //http://keleyi.com/a/bjae/3d10wfax.htm stri
SVG 教程（一）天梯梦 svg
SVG 简介 SVG 是使用 XML 来描述二维图形和绘图程序的语言。学习之前应具备的基础知识：继续学习之前，你应该对以下内容有基本的了解： HTML XML 基础如果希望首先学习这些内容，请在本站的首页选择相应的教程。什么是SVG？ SVG 指可伸缩矢量图形 (Scalable Vector Graphics) SVG 用来定义用于网络的基于矢量
一个简单的java栈 luyulong java 数据结构栈
public class MyStack { private long[] arr; private int top; public MyStack() { arr = new long[10]; top = -1; } public MyStack(int maxsize) { arr = new long[maxsize]; top
基础数据结构和算法八：Binary search sunwinner Algorithm Binary search
Binary search needs an ordered array so that it can use array indexing to dramatically reduce the number of compares required for each search, using the classic and venerable binary search algori
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！刘星宇 c 面试
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！ 1.gets()函数问：请找出下面代码里的问题： #include<stdio.h> int main(void) { char buff[10]; memset(buff,0,sizeof(buff));
ITeye 7月技术图书有奖试读获奖名单公布 ITeye管理员活动 ITeye 试读
ITeye携手人民邮电出版社图灵教育共同举办的7月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 7月试读活动回顾： http://webmaster.iteye.com/blog/2092746 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《Java性能优化权威指南》