sun_0128

hive基础

文章目录

一.什么是Hive?
二.Hive体系架构
三.hive操作
四.hive数据类型和数据结构
五.使用hive建表

1.创建内部表
2.Hive建表语句解析
3. Hive建表高阶语句 - CTAS and WITH
4. 创建临时表,`TEMPORARY`关键字修饰
5. 表操作 - 删除/修改表
6. 装载数据：LOAD

六. Hive分区（Partition）

一.什么是Hive?

基于Hadoop的数据仓库解决方案

将结构化的数据文件映射为数据库表
提供类sql的查询语言HQL（Hive Query Language）
Hive让更多的人使用Hadoop

Hive成为Apache顶级项目

Hive始于2007年的Facebook
官网：hive.apache.org

Hive的优势和特点

提供了一个简单的优化模型
HQL类SQL语法，简化MR开发
支持在不同的计算框架上运行
支持在HDFS和HBase上临时查询数据
支持用户自定义函数、格式
成熟的JDBC和ODBC驱动程序，用于ETL和BI
稳定可靠（真实生产环境）的批处理
有庞大活跃

Hive的发展里程碑和主流版本的社区
Hive发展历史及版本

07年8月 – 始于Facebook
13年5月 – 0.11 Stinger Phase 1 ORC HiveServer2
13年10月 – 0.12.0 Stinger Phase 2 - ORC improvement
14年4月 – Hive 0.13.0 as Stinger Phase 3
14年11月 – Hive 0.14.0
15年2月 – Hive 1.0.0
15年5月 – Hive 1.2.0 （1.2.1 本系列课实验重点版本 )
16年2月 – Hive 2.0.0 (添加 HPLSQL, LLAP)
16年6月 – Hive 2.1.0 （2.1.0 本系列课实验补充版本 )

二.Hive体系架构

Hive元数据管理
记录数据仓库中模型的定义、各层级间的映射关系
存储在关系数据库中

默认Derby, 轻量级内嵌SQL数据库,Derby非常适合测试和演示,存储在.metastore_db目录中
实际生产一般存储在MySQL中,修改配置文件hive-site.xml
HCatalog
将Hive元数据共享给其他应用程序

三.hive操作

Hive操作-命令窗口模式
有两种客户端工具：Beeline和Hive命令行（CLI）
有两种模式：命令行模式和交互模式
命令行模式

操作	HiveServer2 Beeline	HiveServer1 CLI
Server Connection	beeline –u -n -p	hive –h -p
Help	beeline -h or beeline --help	hive -H
Run Query	beeline -e 或beeline -f	hive -e 或hive -f
Define Variable	beeline --hivevar key=value	hive --hivevar key=value

交互模式

操作	HiveServer2 Beeline	HiveServer1 CLI
Enter Mode	beeline	hive
Connect	!connect	N/A
List Tables		!table
List Columns	!column	desc table_name;
Save Result	!record 或!record	N/A
Run Shell CMD	!sh ls	!ls;
Run DFS CMD	dfs -ls	dfs -ls ;
Run SQL File	!run	source ;
Check Version	!dbinfo	!hive --version;
Quit Mode	!quit	quit;

Hive操作-客户端交互模式
  1检查Hive服务是否已经正常启动
  2.1使用Hive交互方式（输入hive即可）
  2.2使用beeline

需启动hiveserver2服务
nohup hive --service metastore &（非必须）
nohup hive --service hiveserver2 &
输入beeline进入beeline交互模式
!connect jdbc:hive2://hadoop101:10000

四.hive数据类型和数据结构

Hive数据类型 - 基本数据类型
类似于SQL数据类型

Hive数据类型 - 集合数据类型

ARRAY：存储的数据为相同类型
MAP：具有相同类型的键值对
STRUCT：封装了一组字段

类型	格式	类型	格式
ARRAY	[‘Apple’,‘Orange’,‘Mongo’]	ARRAY	a[0] = ‘Apple’
MAP	{‘A’:‘Apple’,‘O’:‘Orange’}	MAP	b[‘A’] = ‘Apple’
STRUCT	{‘Apple’,2}	STRUCT	c.weight = 2

Hive数据结构

数据结构	描述	逻辑关系	物理存储(hdfs)
Database	数据库	表的集合	文件夹
Table	表	行数据的集合	文件夹
Partition	分区	用于分割数据	文件夹
Buckets	分桶	用于分布数据	文件
Row	行	行记录	文件中的行
Columns	列	列记录	每行中指定的位置
Views	视图	逻辑概念，可跨越多张表	不存储数据
Index	索引	记录统计数据信息	文件夹

数据库（Database)

表的集合，HDFS中表现为一个文件夹

默认在hive.metastore.warehouse.dir属性目录下
如果没有指定数据库，默认使用default数据库

create database if not exists myhivebook;
use myhivebook;
show databases;
describe database default;  -- 可以查看数据库更多的描述信息
alter database myhivebook set owner user dayongd;
drop database if exists myhivebook cascade;

如何在hive环境中知道当前所在数据库？

1.select current_database();
2.set hive.cli.print.current.db=true; 比较推荐

数据表（Table)

分为内部表和外部表
内部表（管理表）

HDFS中为所属数据库目录下的子文件夹
数据完全由Hive管理，删除表(元数据)会删除数据

外部表（External Tables）

数据保存在指定位置的HDFS路径中
Hive不完全管理数据，删除表(元数据)不会删除数据

五.使用hive建表

1.创建内部表

-- 创建一个内部表
create table if not exists student(
id int, name string
)
row format delimited fields terminated by '\t'
stored as textfile
location '/home/hadoop/hive/warehouse/student';
-- 查询表的类型
desc formatted student;

效果如下:

2.Hive建表语句解析

CREATE EXTERNAL TABLE IF NOT EXISTS employee_external (  -- IF NOT EXISTS可选，如果表存在，则忽略
    name string,										-- 列出所有列和数据类型
    work_place ARRAY<string>,
    sex_age STRUCT<sex:string,age:int>,
    skills_score MAP<string,int>,
    depart_title MAP<STRING,ARRAY<STRING>>
)
COMMENT 'This is an external table'					-- COMMENT可选为注释
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '|'							-- 如何分隔列（字段）
COLLECTION ITEMS TERMINATED BY ','					-- 如何分隔集合和映射	
MAP KEYS TERMINATED BY ':'							
STORED AS TEXTFILE									-- 文件存储格式
LOCATION '/home/hadoop/hive/warehouse/employee'; 	-- 数据存储路径（HDFS)

Hive建表 - 分隔符
Hive中默认分隔符

字段：^A(\001)
集合：^B(\002)
映射：^C(\003)

在hive中建表时可以指定分割符

-- 指定列分隔符语法
ROW FORMAT DELIMITED FIELDS TERMINATED BY '|'

3. Hive建表高阶语句 - CTAS and WITH

CTAS – as select方式建表

CREATE TABLE ctas_people as SELECT * FROM people; -- 执行后如下效果

hive (test)> select * from people;
OK
1       tom     23      2019-03-16
2       jack    12      2019-03-13
3       robin   14      2018-08-13
4       justin  34      2018-10-12
5       jarry   24      2017-11-11
6       jasper  24      2017-12-12
Time taken: 0.038 seconds, Fetched: 6 row(s)
hive (test)> CREATE TABLE ctas_people as SELECT * FROM people;
Query ID = root_20200708193232_081c2128-9d18-42e2-9ee5-404f29e5cf4c
Total jobs = 3
Launching Job 1 out of 3
Number of reduce tasks is set to 0 since there's no reduce operator
Starting Job = job_1594181035887_0005, Tracking URL = http://hadoop01:8088/proxy/application_1594181035887_0005/
Kill Command = /opt/install/hadoop/bin/hadoop job  -kill job_1594181035887_0005
Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 0
2020-07-08 19:32:40,043 Stage-1 map = 0%,  reduce = 0%
2020-07-08 19:32:47,383 Stage-1 map = 100%,  reduce = 0%, Cumulative CPU 1.06 sec
MapReduce Total cumulative CPU time: 1 seconds 60 msec
Ended Job = job_1594181035887_0005
Stage-4 is selected by condition resolver.
Stage-3 is filtered out by condition resolver.
Stage-5 is filtered out by condition resolver.
Moving data to: hdfs://hadoop01:9000/hive/warehouse/test.db/.hive-staging_hive_2020-07-08_19-32-28_180_5629274260635048548-1/-ext-10001
Moving data to: hdfs://hadoop01:9000/hive/warehouse/test.db/ctas_people
Table test.ctas_people stats: [numFiles=1, numRows=6, totalSize=131, rawDataSize=125]
MapReduce Jobs Launched:
Stage-Stage-1: Map: 1   Cumulative CPU: 1.06 sec   HDFS Read: 3695 HDFS Write: 204 SUCCESS
Total MapReduce CPU Time Spent: 1 seconds 60 msec
OK
Time taken: 20.451 seconds
hive (test)> select * from ctas_people;
OK
1       tom     23      2019-03-16
2       jack    12      2019-03-13
3       robin   14      2018-08-13
4       justin  34      2018-10-12
5       jarry   24      2017-11-11
6       jasper  24      2017-12-12
Time taken: 0.029 seconds, Fetched: 6 row(s)

CTE (CTAS with Common Table Expression)

CREATE TABLE cte_people AS
WITH 
r1 AS  (SELECT name FROM r2 WHERE name = 'jarry'),
r2 AS  (SELECT name FROM people WHERE age= '24'),
r3 AS  (SELECT name FROM people  WHERE name='tom' )
SELECT * FROM r1 UNION ALL SELECT * FROM r3;
-- 执行后如下效果:

hive (test)> CREATE TABLE cte_people AS
           > WITH
           > r1 AS  (SELECT name FROM r2 WHERE name = 'jarry'),
           > r2 AS  (SELECT name FROM people WHERE age= '24'),
           > r3 AS  (SELECT name FROM people  WHERE name='tom' )
           > SELECT * FROM r1 UNION ALL SELECT * FROM r3;
Query ID = root_20200708193737_b5225b3b-590f-4605-9d42-7057d82f6a1e
Total jobs = 3
Launching Job 1 out of 3
Number of reduce tasks is set to 0 since there's no reduce operator
Starting Job = job_1594181035887_0006, Tracking URL = http://hadoop01:8088/proxy/application_1594181035887_0006/
Kill Command = /opt/install/hadoop/bin/hadoop job  -kill job_1594181035887_0006
Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 0
2020-07-08 19:37:51,123 Stage-1 map = 0%,  reduce = 0%
2020-07-08 19:37:59,518 Stage-1 map = 100%,  reduce = 0%, Cumulative CPU 1.61 sec
MapReduce Total cumulative CPU time: 1 seconds 610 msec
Ended Job = job_1594181035887_0006
Stage-4 is selected by condition resolver.
Stage-3 is filtered out by condition resolver.
Stage-5 is filtered out by condition resolver.
Moving data to: hdfs://hadoop01:9000/hive/warehouse/test.db/.hive-staging_hive_2020-07-08_19-37-39_588_4606334093878180145-1/-ext-10001
Moving data to: hdfs://hadoop01:9000/hive/warehouse/test.db/cte_people
Table test.cte_people stats: [numFiles=1, numRows=2, totalSize=10, rawDataSize=8]
MapReduce Jobs Launched:
Stage-Stage-1: Map: 1   Cumulative CPU: 1.61 sec   HDFS Read: 5015 HDFS Write: 81 SUCCESS
Total MapReduce CPU Time Spent: 1 seconds 610 msec
OK
Time taken: 21.136 seconds
hive (test)> select * from
from                  from_unixtime(        from_utc_timestamp(
hive (test)> select * from cte_people;
OK
tom
jarry
Time taken: 0.029 seconds, Fetched: 2 row(s)

like 只复制表结构

CREATE TABLE people_like LIKE people;

执行后查看两表的表结构,如下:

hive (test)> desc people;
OK
id                      int
name                    string
age                     int
start_date              date
Time taken: 0.027 seconds, Fetched: 4 row(s)
hive (test)> desc people_like;
OK
id                      int
name                    string
age                     int
start_date              date
Time taken: 0.054 seconds, Fetched: 4 row(s)
hive (test)> select * from people;
OK
1       tom     23      2019-03-16
2       jack    12      2019-03-13
3       robin   14      2018-08-13
4       justin  34      2018-10-12
5       jarry   24      2017-11-11
6       jasper  24      2017-12-12
Time taken: 0.032 seconds, Fetched: 6 row(s)
hive (test)> select * from people_like;
OK
Time taken: 0.025 seconds
hive (test)>

4. 创建临时表,`TEMPORARY`关键字修饰

临时表是应用程序自动管理在复杂查询期间生成的中间数据的方法

表只对当前session有效，session退出后自动删除
表空间位于/tmp/hive-(安全考虑)
如果创建的临时表表名已存在，实际用的是临时表

5. 表操作 - 删除/修改表

删除表

DROP TABLE IF EXISTS employee [With PERGE]; -- With PERGE直接删除（可选），否则会放到 .Trash目录,相当于windows系统的回收站
TRUNCATE TABLE employee; -- 清空表数据

修改表（Alter针对元数据）

ALTER TABLE employee RENAME TO new_employee; -- 修改表名
ALTER TABLE c_employee SET TBLPROPERTIES ('comment'='New name, comments');
ALTER TABLE employee_internal SET SERDEPROPERTIES ('field.delim' = '$');
ALTER TABLE c_employee SET FILEFORMAT RCFILE; -- 修正表文件格式
-- 修改表的列操作
ALTER TABLE employee_internal CHANGE old_name new_name STRING; -- 修改列名
ALTER TABLE c_employee ADD COLUMNS (work string); -- 添加列,注意没有逗号
ALTER TABLE c_employee REPLACE COLUMNS (name string); -- 替换列,注意没有逗号

6. 装载数据：LOAD

LOAD用于在Hive中移动数据

LOAD DATA LOCAL INPATH '/home/dayongd/Downloads/employee.txt' 
OVERWRITE INTO TABLE employee;
-- 加LOCAL关键字，表示原始文件位于Linux本地，执行后为拷贝数据
LOAD DATA LOCAL INPATH '/home/dayongd/Downloads/employee.txt' 
OVERWRITE INTO TABLE employee_partitioned  PARTITION (year=2014, month=12);
-- 没有LOCAL关键字，表示文件位于HDFS文件系统中,执行后为直接移动数据
LOAD DATA INPATH '/tmp/employee.txt'  
OVERWRITE INTO TABLE employee_partitioned PARTITION (year=2017, month=12);

LOCAL：指定文件位于本地文件系统，执行后为拷贝数据
OVERWRITE：表示覆盖表中现有数据

六. Hive分区（Partition）

分区主要用于提高性能

分区列的值将表划分为一个个的文件夹
查询时语法使用"分区"列和常规列类似
查询时Hive会只从指定分区查询数据，提高查询效率
分为静态分区和动态分区
1.静态分区,常用于增量表,指定分区就忽略该字段强行为分区值
创建分区表:

create table userinfos(
	userid string,
	age string,
	birthday string) 
partitioned by (sex string) 	-- 通过PARTITINED BY定义分区
row format delimited fields terminated by ',' stored as textfile;
-- 注意:分区字段不能和表字段相同,实质就是一个字段

静态分区操作:

-- 添加分区
alter table userinfos add partition(sex='male') ;
-- 删除分区
alter table userinfos drop partition (sex='male');

分区表操作:

-- 查看分区表有多少分区
show partitions dept_partition;

-- 加载数据到分区表中
LOAD DATA LOCAL INPATH '/opt/install/hive/tmp/test.csv'
OVERWRITE INTO TABLE  userinfos partition(sex='male');
-- 这种方式不合理直接忽略了性别,在查的时候强行改变该列的值但是原数据没有改变
-- 可查看该表,如下所示全是male

2.动态分区,场景:数据量较小,全量导入

建表:

create table myusers( userid string,username string,birthday string) partitioned by (sex string)
row format delimited fields terminated by ',' stored as textfile;

步骤
1.开启动态(因为默认就是静态)

set hive.exec.dynamic.partition=true;
set hive.exec.dynamic.partition.mode=nonstrict;

2.插入数据(不指定分区值,该字段相同值就会分为一个分区)

insert into myusers partition(sex) select * from ods_users;

效果如下:

怎么做一个AI产品经理？ AI筑梦师 AI产品经理人工智能产品经理
AI产品经理全面进化：在人工智能迅猛发展的时代，产品经理的角色正经历前所未有的转型。从传统的需求捕捉者到技术与商业紧密结合的创新推动者，AI产品经理肩负着将前沿AI技术转化为解决用户痛点的产品的重要任务。随着大数据、云计算和大模型技术的不断成熟，产品经理不仅需要具备敏锐的市场洞察，还必须深刻理解AI技术本质，跨界整合技术、数据与业务优势，从而推动产品的持续创新与落地。本文将全面解析AI产品经理的角
封神台SQL注入-基础靶场1-布尔盲注原味瓜子、 SQL注入布尔盲注封神台 SQL注入
文章目录布尔盲注（一）布尔盲注（二）布尔盲注（三）布尔盲注（一）1、判断注入类型id=1and1=1//有数据id=1and1=2//noresultsfound判断为数字型布尔盲注2、判断数据库长度，获取数据库名andlength(database())=1数据库名长12抓包，爆破，获取andascii(substr(database(),1
sequelize + Nodejs + MySQL 的简单用法小公鸡卡哇伊呀~ mysql 数据库
HowtoUseSequelizeORMinNodeJS-Tutorial1Sequlize简介Sequelize是最流行的可以与Nodejs一起使用的一种关系数据库ORM(Object-relationalmapping对象关系映射)，Mongoose是MongoDB的ORM.Sequelize的作用，简单地说，就是避免在代码里写原生SQL语句，而是将这种语句改成JavaScript：不必再写类
JavaWeb学习——登录校验灰太狼想上班 JavaWeb基础学习 spring tomcat servlet 后端
JavaWeb学习——登录校验一、功能实现只需要接受请求参数username和password，然后调用接口在数据库表中查询键值匹配的数据项即可二、登录校验登录校验通常分为两步，一是登录标记，二是统一拦截1、会话跟踪会话：用户打开浏览器，访问web服务器的资源，会话建立，知道有一方断开连接，会话结束。在一次会话中可以包含多次请求和响应会话跟踪：一种维护浏览器的方法，服务器要识别多次请求是否来自于同
运维面试常问的100道题（大数据统计）無爲謂人工智能运维面试
一、基础知识类1、请解释什么是运维？运维是指对企业的IT系统进行运行维护，包括硬件设备、软件系统、网络等的监控、管理、优化和故障处理，以确保系统的稳定、高效运行，满足业务需求。2、简述运维的主要职责有哪些？服务器的安装、配置、维护和监控。网络设备的管理和维护。数据库的管理和维护。应用系统的部署、升级和维护。故障处理和应急响应。性能优化和容量规划。安全管理和漏洞修复。3、什么是服务器？有哪些类型？服
基于oracle linux的 DBI/DBD 标准化安装文档(四) linux
一、安装DBIDBI(DatabaseInterface)是perl连接数据库的接口。其是perl连接数据库的最优方法，他支持包括Orcale,Sybase,mysql,db2等绝大多数的数据库，下面将简要介绍其安装方法。1.1解压tar-zxvfDBI-1.616_901.tar.gz1.2安装依赖yuminstallperl-ExtUtils-CBuilderperl-ExtUtils-Mak
mysql中json数组对象mybatis如何自动映射
需求:假如数据库某个表的一个字段是json数据类型,字段名是students,类型是,存的是json格式的学生数组,现要用一个List来接收,如何实现自动转换.1.实现TypeHandlerwhy?如果json字段存的是数组,直接使用"com.baomidou.mybatisplus.extension.handlers.FastjsonTypeHandler"会给你转成List类型;所以需要自己
wordpress导入mysql数据库文件的方法及注意事项 wodrpress资源分享 wordpress 数据库 mysql wordpress
WordPress是一个流行的开源内容管理系统，通常用于构建网站和博客。它使用MySQL数据库来存储和管理网站数据。在某些情况下，您可能需要将现有的MySQL数据库导入到新的WordPress安装中。本文将介绍如何导入MySQL数据库文件到WordPress以及需要注意的事项。一、备份现有数据库在进行任何数据库导入操作之前，强烈建议您先备份现有的数据库。这样可以确保在导入过程中出现问题时，您不会丢
【go从入门到精通】探秘struct结构体转json为什么需要首字母大写？前网易架构师-高司机 golang从入门到精通 golang json go 结构体首字母大写 golang从入门到精通 go从入门到精通
目录作者简介：问题抛出分析结论作者简介：高科，先后在IBMPlatformComputing从事网格计算，淘米网，网易从事游戏服务器开发，拥有丰富的C++，go等语言开发经验，mysql，mongo，redis等数据库，设计模式和网络库开发经验，对战棋类，回合制，moba类页游，手游有丰富的架构设计和开发经验。并且深耕深度学习和数据集训练，提供商业化的视觉人工智能检测和预警系统（煤矿，工厂，制造业
Linq的理解 It_sharp C#Linq 匿名类型
前面的话这篇文章主要是在工具书中linq的基础上，我做了一些归纳。目录什么是Linq方法语法和查询语法查询表达式的结构标准查询运算符什么是Linq?Linq（link）代表语言集成查询（LanguageIntegratedQuery）Linq是.NET框架的扩展，它允许我们以使用SQL查询数据库的方式来查询数据集合。使用Linq，你可以从数据库、程序对象的集合以及XML文档中查询数据。一个例子st
SQLite？低调不是小众... 架构文摘JGWZ sqlite 数据库学习后端
前几天在一个群里看到一位同学说：“SQLite这么小众的数据库，到底是什么人在用啊？”首先要说的是SQLite可不是小众的数据库，相反，SQLite是世界上装机量最多的数据库，远超MySQL，只不过比较低调而已。低调到我想在官网上找一个好看的用来当插图的图片都找不到，只能截一张官网首页来撑一撑，看起来十分朴素。我最早听说SQLite是刚毕业工作的时候，我们部门做微软内容管理产品的二次开发，其中有一
融合网络实训室初步建设方案设想武汉唯众智创网络融合网络实训室融合网络融合网络实验室网络融合实训室网络融合实验室
一、引言在数字化浪潮席卷全球的当下，网络技术已然成为推动社会发展和经济增长的关键力量。从日常的生活购物到企业的运营管理，从便捷的社交沟通到前沿的科研探索，网络技术无处不在，深刻地改变着人们的生活与工作方式。随着5G、物联网、云计算、大数据等新兴技术的迅猛发展，网络技术领域对于专业人才的需求呈现出爆发式增长。据权威机构预测，未来几年，网络技术相关岗位的人才缺口将持续扩大。这些岗位不仅要求从业者具备扎
Redis 安装详细教程（小白版）小小鸭程序员 spring java AI编程 spring cloud redis
一、Windows系统安装Redis方法1：直接安装（推荐新手）下载RedisforWindows访问微软维护的Redis版本：https://github.com/microsoftarchive/redis/releases下载Redis-x64-3.2.100.msi（或最新版本）安装包。安装Redis双击下载的.msi文件点击下一步，勾选“AddRedisinstallationfolde
mysql迁移docker_docker迁入迁出mysql 困困斐 mysql迁移docker
docker迁出mysql数据库测试环境：docker服务器mysql服务器IP192.168.163.19192.168.163.16操作系统CentOS7.8CentOS7.8docker版本Docker18.09.9/数据库版本MySQL8.0.22MySQL8.0.221.查看docker相关情况[root@docker-test/data/mysql/data]$dockerps启动my
docker容器迁移，以mysql容器为例风萧易去情难还 docker docker mysql 容器
在容器化环境中，容器迁移是确保应用程序在不同环境中平滑部署和运行的关键。本文将详细介绍如何将一个正在运行的MySQL容器从一台机器迁移到另一台机器。特别内网安装数据库等软件时，所需依赖和工具下载困难，可以通过镜像迁移方式完成软件安装。一、准备工作在开始迁移之前，我们需要准备以下几项工作：源机器（A机器）：正在运行的MySQL容器。#拉取mysql镜像dockerpullmysql:8.0.25#创
Hive SQL 精进系列：REGEXP_REPLACE 函数的用法进一步有进一步的欢喜 Hive SQL 精进系列 hive sql hadoop
目录一、引言二、REGEXP_REPLACE函数基础2.1基本语法参数详解2.2简单示例三、REGEXP_REPLACE函数的应用场景3.1去除特殊字符3.2统一字符串格式四、REGEXP_REPLACE与REPLACE函数的对比4.1功能差异4.2适用场景五、REGEXP_REPLACE与REGEXP函数的对比5.1功能差异5.2适用场景六、总结一、引言字符串处理是数据处理中的常见需求，Hive
Hive SQL 精进系列：SUBSTR 函数的多样用法进一步有进一步的欢喜 Hive SQL 精进系列 hive sql hadoop
目录一、引言二、SUBSTR函数基础介绍2.1基本语法2.2参数详解2.3简单示例三、SUBSTR函数常见应用场景3.1提取日期中的年份、月份或日期3.2隐藏部分敏感信息四、SUBSTR函数高级用法4.1结合条件判断动态截取4.2处理复杂字符串模式五、总结一、引言SUBSTR函数是HiveSQL中一个用于字符串截取的重要函数，在处理文本数据时发挥着关键作用。本文将全面且深入地介绍HiveSQL中S
云原生：K8s（Kubernetes）高频典型面试题汇总老舅的火箭爱扫地云原生 kubernetes 容器
1.简述etcd及其特点？答：etcd是CoreOS团队发起的开源项目，是一个管理配置信息和服务发现（servicediscovery）的项目，它的目标是构建一个高可用的分布式键值（key-value）数据库，基于Go语言实现。特点：l简单：支持REST风格的HTTP+JSONAPIl安全：支持HTTPS方式的访问l快速：支持并发1k/s的写操作l可靠：支持分布式结构，基于Raft的一致性算法，R
Hive----Hive进阶操作(三) HIVE 特殊分隔符处理 XiaodunLP Hive
HIVE特殊分隔符处理补充：hive读取数据的机制：1、首先用InputFormat的一个具体实现类读入文件数据，返回一条一条的记录（可以是行，或者是你逻辑中的“行”）2、然后利用SerDe的一个具体实现类，对上面返回的一条一条的记录进行字段切割Hive对文件中字段的分隔符默认情况下只支持单字节分隔符，如果数据文件中的分隔符是多字符的，如下所示：01||huangbo02||xuzheng03||
Docker 中 MySQL 迁移策略（单节点） Java咩 docker mysql 容器
目录一、简介二、操作流程2.1进入mysql容器2.2导出MySQL数据2.3.将导出的文件复制到宿主机2.4创建DockerCompose配置2.5启动新的Docker容器2.6导入数据到新的容器2.7验证数据2.8删除旧的容器（删除操作需慎重）三、推荐配置四、写在后面一、简介本人发现自己Docker中Mysql的时区不对，导致每次连接数据库都需要设置时区，所以考虑进行数据库迁移，重新搭建一个正
hive-进阶版-1 数据牧马人 hive hadoop 数据仓库
第6章hive内部表与外部表的区别Hive是一个基于Hadoop的数据仓库工具，用于对大规模数据集进行数据存储、查询和分析。Hive支持内部表（ManagedTable）和外部表（ExternalTable）两种表类型，它们在数据存储、管理方式和生命周期等方面存在显著区别。以下是内部表和外部表的主要区别：1.数据存储位置内部表：数据存储在Hive的默认存储目录下，通常位于HDFS（HadoopDi
数据库核心技术面试题深度剖析：主从同步、二级索引与Change Buffer 后端数据库mysql
在数据库相关岗位的面试中，主从同步、二级索引、ChangeBuffer是高频考察点。本文将从面试题角度拆解这三个技术点，覆盖底层原理、性能优化、设计思想，并结合实际场景与高频追问，助你构建系统性回答框架。一、主从同步：高可用架构的灵魂1.基础问题：主从同步的基本流程是什么？答：核心流程：主库将事务写入Binlog（二进制日志）从库的IO线程拉取Binlog到本地RelayLog从库的SQL线程重放
嵌入式SDIO 总线面试题及参考答案大模型大数据攻城狮 fpga开发嵌入式面经 SPI USB接口 SD总线 SDIO总线牛客网
目录SDIO总线与SD总线的核心区别是什么？(附框架图）简述SDIO总线物理接口的组成及其功能（CLK、CMD、DAT0-DAT3）。SDIO总线支持的最大数据传输位宽是多少？如何配置？解释SDIO总线中的主从模式架构及通信流程。SDIO卡的功能类型有哪些（如Wi-Fi、蓝牙、GPS）？SDIO总线时钟信号（CLK）的作用及典型频率范围SDIO协议中的OCR寄存器作用是什么？如何通过CMD5获取卡
计算机毕业设计springboot教务管理系统 0k1c1源码+系统+程序+lw文档+部署呦呦网络 spring boot java mysql
计算机毕业设计springboot教务管理系统0k1c1源码+系统+程序+lw文档+部署计算机毕业设计springboot教务管理系统0k1c1源码+系统+程序+lw文档+部署本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：ideaeclipse前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAVA运行环境：Win10、JDK1.8数据库：MySQL5
大模型和数据要素赋能实体零售行业数字化转型建设和实施方案优享智库大模型数据要素数据治理数据仓库主数据零售
大模型和数据要素赋能实体零售行业数字化转型建设和实施方案更多参考公众号：优享智库引言项目背景与意义数字化转型目标与期望实施方案概述零售行业现状及挑战实体零售行业现状数字化转型面临的挑战市场需求与趋势分析大模型与数据要素赋能策略大模型技术及应用场景数据要素采集、整合与治理赋能策略制定与实施路径数字化转型关键技术与解决方案人工智能技术及应用大数据分析与挖掘技术云计算、物联网等技术支持定制化解决方案设计
面试求助：接口测试用例设计主要考虑哪些方面？海姐软件测试 lua 开发语言
一、基础功能验证1.正常场景覆盖关键点：验证接口在合法输入下的正确响应（状态码、数据结构、业务逻辑）。案例：json复制//用户登录接口输入：{"username":"合法用户","password":"正确密码"}预期：200OK+token返回+数据库登录记录更新2.异常场景覆盖关键点：触发错误码（4xx/5xx）的边界条件。测试维度：参数缺失/类型错误（如整型传字符串）非法参数值（如手机号格
SpringBoot实践（三十二）：5分钟搭建springboot单体应用开发框架 A叶子叶 #SpringBoot与微服务 java 开发语言
熟悉语言和开发工具上基础快速使用框架构建应用是个机械工作，5分钟完成开发准备工作，没有冗余动作。目录准备工作开发框架搭建spring初始化常规依赖其他依赖规范化开发目录结构依赖适配代码生成器响应体封装github代码准备工作后端开发需要数据持久化，数据库使用mysql，这也是生产环境大部分的选择，本地开发如果没有mysql可以直接在idea上创建h2数据库，具体创建方式可以参考：使用IDEA创建H
MySQL UPDATE 更新操作详解 wjs2024 开发语言
MySQLUPDATE更新操作详解概述在数据库管理中，UPDATE语句是用于修改表中现有记录的重要工具。本篇文章将详细介绍MySQL中的UPDATE语句，包括其语法、使用场景、注意事项等，旨在帮助数据库管理员和开发者更好地理解和运用这一关键操作。语法结构MySQL的UPDATE语句的基本语法如下：UPDATEtable_nameSETcolumn1=value1,column2=value2,..
建立高质量个人数据库：解锁DeepSeek的关键 CodeJourney. 人工智能算法 python
在人工智能飞速发展的时代，DeepSeek为普通人处理数据、提升工作效率带来了新的可能。然而，很多人在使用过程中存在误区，本文围绕如何正确利用DeepSeek搭建高质量个人数据库展开探讨，强调其对个人成长和发展的重要性，并通过具体实例展示其强大功能。重新理解DeepSeekDeepSeek的普及使普通人能够轻松搭建个人数据库，但不少人在使用时存在错误认知。他们将DeepSeek视为主角，把杂乱无章
postgresql 数据库使用 what_2018 数据库数据库 postgresql oracle
目录索引查看索引创建删除索引修改数据库时区索引查看索引 select*frompg_indexeswheretablename='t_table_data'; 或者select*frompg_statio_all_indexeswhererelname='t_table_data';创建CREATEINDEXix_table_data_timeONt_table_data(id,create_ti
多线程编程之理财周凡杨 java 多线程生产者消费者理财
现实生活中，我们一边工作，一边消费，正常情况下会把多余的钱存起来，比如存到余额宝，还可以多挣点钱，现在就有这个情况：我每月可以发工资20000万元（暂定每月的1号），每月消费5000（租房+生活费）元（暂定每月的1号），其中租金是大头占90%，交房租的方式可以选择（一月一交，两月一交、三月一交），理财：1万元存余额宝一天可以赚1元钱，
[Zookeeper学习笔记之三]Zookeeper会话超时机制 bit1129 zookeeper
首先，会话超时是由Zookeeper服务端通知客户端会话已经超时，客户端不能自行决定会话已经超时，不过客户端可以通过调用Zookeeper.close()主动的发起会话结束请求，如下的代码输出内容 Created /zoo-739160015 CONNECTEDCONNECTED .............CONNECTEDCONNECTED CONNECTEDCLOSEDCLOSED
SecureCRT快捷键 daizj secureCRT 快捷键
ctrl + a : 移动光标到行首ctrl + e ：移动光标到行尾crtl + b: 光标前移1个字符crtl + f: 光标后移1个字符crtl + h : 删除光标之前的一个字符ctrl + d ：删除光标之后的一个字符crtl + k ：删除光标到行尾所有字符crtl + u : 删除光标至行首所有字符crtl + w: 删除光标至行首
Java 子类与父类这间的转换周凡杨 java 父类与子类的转换
最近同事调的一个服务报错，查看后是日期之间转换出的问题。代码里是把 java.sql.Date 类型的对象强制转换为 java.sql.Timestamp 类型的对象。报java.lang.ClassCastException。代码：
可视化swing界面编辑朱辉辉33 eclipse swing
今天发现了一个WindowBuilder插件，功能好强大，啊哈哈，从此告别手动编辑swing界面代码，直接像VB那样编辑界面，代码会自动生成。首先在Eclipse中点击help，选择Install New Software,然后在Work with中输入WindowBui
web报表工具FineReport常用函数的用法总结（文本函数）老A不折腾 finereport web报表工具报表软件 java报表
文本函数 CHAR CHAR(number):根据指定数字返回对应的字符。CHAR函数可将计算机其他类型的数字代码转换为字符。 Number:用于指定字符的数字，介于1Number:用于指定字符的数字，介于165535之间（包括1和65535）。示例: CHAR(88)等于“X”。 CHAR(45)等于“-”。 CODE CODE(text):计算文本串中第一个字
mysql安装出错林鹤霄 mysql安装
[root@localhost ~]# rpm -ivh MySQL-server-5.5.24-1.linux2.6.x86_64.rpm Preparing... #####################
linux下编译libuv aigo libuv
下载最新版本的libuv源码，解压后执行： ./autogen.sh 这时会提醒找不到automake命令，通过一下命令执行安装（redhat系用yum，Debian系用apt-get）： # yum -y install automake # yum -y install libtool 如果提示错误：make: *** No targe
中国行政区数据及三级联动菜单 alxw4616
近期做项目需要三级联动菜单,上网查了半天竟然没有发现一个能直接用的! 呵呵,都要自己填数据....我了个去这东西麻烦就麻烦的数据上. 哎,自己没办法动手写吧. 现将这些数据共享出了,以方便大家.嗯,代码也可以直接使用文件说明 lib\area.sql -- 县及县以上行政区划分代码（截止2013年8月31日)来源：国家统计局发布时间：2014-01-17 15:0
哈夫曼加密文件百合不是茶哈夫曼压缩哈夫曼加密二叉树
在上一篇介绍过哈夫曼编码的基础知识,下面就直接介绍使用哈夫曼编码怎么来做文件加密或者压缩与解压的软件,对于新手来是有点难度的,主要还是要理清楚步骤; 加密步骤: 1,统计文件中字节出现的次数,作为权值 2,创建节点和哈夫曼树 3,得到每个子节点01串 4,使用哈夫曼编码表示每个字节
JDK1.5 Cyclicbarrier实例 bijian1013 java thread java多线程 Cyclicbarrier
CyclicBarrier类一个同步辅助类，它允许一组线程互相等待，直到到达某个公共屏障点 (common barrier point)。在涉及一组固定大小的线程的程序中，这些线程必须不时地互相等待，此时 CyclicBarrier 很有用。因为该 barrier 在释放等待线程后可以重用，所以称它为循环的 barrier。 CyclicBarrier支持一个可选的 Runnable 命令，
九项重要的职业规划 bijian1013 工作学习
一. 学习的步伐不停止古人说，活到老，学到老。终身学习应该是您的座右铭。世界在不断变化，每个人都在寻找各自的事业途径。您只有保证了足够的技能储
【Java范型四】范型方法 bit1129 java
范型参数不仅仅可以用于类型的声明上，例如 package com.tom.lang.generics; import java.util.List; public class Generics<T> { private T value; public Generics(T value) { this.value =
【Hadoop十三】HDFS Java API基本操作 bit1129 hadoop
package com.examples.hadoop; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoo
ua实现split字符串分隔 ronin47 lua split
LUA并不象其它许多"大而全"的语言那样，包括很多功能，比如网络通讯、图形界面等。但是LUA可以很容易地被扩展：由宿主语言(通常是C或 C++)提供这些功能，LUA可以使用它们，就像是本来就内置的功能一样。LUA只包括一个精简的核心和最基本的库。这使得LUA体积小、启动速度快，从而适合嵌入在别的程序里。因此在lua中并没有其他语言那样多的系统函数。习惯了其他语言的字符串分割函
java-从先序遍历和中序遍历重建二叉树 bylijinnan java
public class BuildTreePreOrderInOrder { /** * Build Binary Tree from PreOrder and InOrder * _______7______ / \ __10__ ___2 / \ / 4
openfire开发指南《连接和登陆》开窍的石头 openfire 开发指南 smack
第一步官网下载smack.jar包下载地址：http://www.igniterealtime.org/downloads/index.jsp#smack 第二步把smack里边的jar导入你新建的java项目中开始编写smack连接openfire代码 p
[移动通讯]手机后盖应该按需要能够随时开启 comsci 移动
看到新的手机，很多由金属材质做的外壳，内存和闪存容量越来越大，CPU速度越来越快，对于这些改进，我们非常高兴，也非常欢迎但是，对于手机的新设计，有几点我们也要注意第一：手机的后盖应该能够被用户自行取下来，手机的电池的可更换性应该是必须保留的设计,
20款国外知名的php开源cms系统 cuiyadll cms
内容管理系统，简称CMS，是一种简易的发布和管理新闻的程序。用户可以在后端管理系统中发布，编辑和删除文章，即使您不需要懂得HTML和其他脚本语言，这就是CMS的优点。在这里我决定介绍20款目前国外市面上最流行的开源的PHP内容管理系统，以便没有PHP知识的读者也可以通过国外内容管理系统建立自己的网站。 1. Wordpress WordPress的是一个功能强大且易于使用的内容管
Java生成全局唯一标识符 darrenzhu java uuid unique identifier id
How to generate a globally unique identifier in Java http://stackoverflow.com/questions/21536572/generate-unique-id-in-java-to-label-groups-of-related-entries-in-a-log http://stackoverflow
php安装模块检测是否已安装过, 使用的SQL语句 dcj3sjt126com sql
SHOW [FULL] TABLES [FROM db_name] [LIKE 'pattern'] SHOW TABLES列举了给定数据库中的非TEMPORARY表。您也可以使用mysqlshow db_name命令得到此清单。本命令也列举数据库中的其它视图。支持FULL修改符，这样SHOW FULL TABLES就可以显示第二个输出列。对于一个表，第二列的值为BASE T
5天学会一种 web 开发框架 dcj3sjt126com Web 框架 framework
web framework层出不穷，特别是ruby/python,各有10+个,php/java也是一大堆根据我自己的经验写了一个to do list,按照这个清单，一条一条的学习，事半功倍，很快就能掌握一共25条，即便很磨蹭，2小时也能搞定一条，25*2=50。只需要50小时就能掌握任意一种web框架各类web框架大同小异:现代web开发框架的6大元素，把握主线，就不会迷路建议把本文
Gson使用三(Map集合的处理,一对多处理) eksliang json gson Gson map Gson 集合处理
转载请出自出处：http://eksliang.iteye.com/blog/2175532 一、概述 Map保存的是键值对的形式，Json的格式也是键值对的，所以正常情况下，map跟json之间的转换应当是理所当然的事情。二、Map参考实例 package com.ickes.json; import java.lang.refl
cordova实现“再点击一次退出”效果 gundumw100 android
基本的写法如下： document.addEventListener("deviceready", onDeviceReady, false); function onDeviceReady() { //navigator.splashscreen.hide(); document.addEventListener("b
openldap configuration leaning note iwindyforest configuration
hostname // to display the computer name hostname <changed name> // to change go to: /etc/sysconfig/network, add/modify HOSTNAME=NEWNAME to change permenately dont forget to change /etc/hosts
Nullability and Objective-C 啸笑天 Objective-C
https://developer.apple.com/swift/blog/?id=25 http://www.cocoachina.com/ios/20150601/11989.html http://blog.csdn.net/zhangao0086/article/details/44409913 http://blog.sunnyxx
jsp中实现参数隐藏的两种方法 macroli JavaScript jsp
在一个JSP页面有一个链接，//确定是一个链接?点击弹出一个页面，需要传给这个页面一些参数。//正常的方法是设置弹出页面的src="***.do?p1=aaa&p2=bbb&p3=ccc"//确定目标URL是Action来处理?但是这样会在页面上看到传过来的参数，可能会不安全。要求实现src="***.do"，参数通过其他方法传！//////
Bootstrap A标签关闭modal并打开新的链接解决方案 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
Bootstrap里面的js modal控件使用起来很方便，关闭也很简单。只需添加标签 data-dismiss="modal" 即可。可是偏偏有时候需要a标签既要关闭modal，有要打开新的链接，尝试多种方法未果。只好使用原始js来控制。 <a href="#/group-buy" class="btn bt
二维数组在Java和C中的区别流淚的芥末 java c 二维数组数组
Java代码： public class test03 { public static void main(String[] args) { int[][] a = {{1},{2,3},{4,5,6}}; System.out.println(a[0][1]); } } 运行结果： Exception in thread "mai
systemctl命令用法 wmlJava linux systemctl
对比表，以 apache / httpd 为例任务旧指令新指令使某服务自动启动 chkconfig --level 3 httpd on systemctl enable httpd.service 使某服务不自动启动 chkconfig --level 3 httpd off systemctl disable httpd.service 检查服务状态 service h