TT15751097576

Hive数据仓库踏坑（上）

Hive数据仓库

了解！！！

大数据解三个问题:(1)海量（PB级以上，EB，ZB，YB等）数据的传输（2）海量数据的存储（3）海量数据的计算

常识：b—>B—>KB—>MB—>GB—>TB—>PB—>EB—>ZB—>YB等等

Hive：由Facebook开源用于解决海量结构化日志的数据统计

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能

Hive本身不存储数据，他就是提供了一种管理方式

本质是：将HQL转化成Map Reduce程序——>>好处：减少开发人员的学习成本，方便任务的运行，降低开发成本

1）Hive处理的数据存储在HDFS（Hive相当于Hadoop的客户端）

2）Hive分析数据底层的默认实现是Map Reduce（可以修改）

3）执行程序运行在Yarn上（资源调度）

**Hive优点：**Hive的执行延迟比较高，因此Hive常用于数据分析，对实时性要求不高的场合使用

Hive支持用户自定义函数，用户可以根据自己的需求来实现自己的函数

**Hive缺点：**Hive的HQL表达能力有限

（1）迭代式算法无法表达

（2）数据挖掘方面不擅长

Hive的效率比较低

（1）Hive的自动生成的Map Reduce（吞吐量大，但是速度比较慢）作业，通常情况下不够智能化

(2)Hive调优比窘困难，力度较粗

Hive架构原理

Hive和数据库比较

除了查询语言类似，其他一切关系都没有（不要有什么联想）

HIve是建立在Hadoop之上的，所有的Hive的数据都是存储在HDFS中的，而数据库可以将数据保存在块设备或者本地文件系统中

Hive一次写入多次读出，在Hive中不建议对数据进行改写，所有的数据都是加载的时候确定好的

数据库更多的是进行实时的增删改查。

Hive（处理数据量大）不能建立索引（计算引擎就是Map Reduce），查询的时候只能取扫描更多的（全盘）数据（比较暴力），因此访问延迟比较高。数据库MySQL（处理数据量小）的计算引擎是InnoDB

北美大数据Hive笔记

掌握Hive数据类型
掌握Hive的数据库和表的操作
掌握Hive的数据分区

理解Hive的数据分桶，视图（view）

0909，主要学DDL

将结构化的数据文件映射为数据库表

提供类SQL的查询语言HQL

主要是解决海量数据的结构化分析

Hive是Hadoop的客户端，HQL类SQL语法，简化MR开发。

提供了简单的优化模型，支持在HDFS和HB上临时查询数据，
支持用户自定义函数，格式。
成熟的JDBC和ODBC驱动程序，用于ETL和BI（商业智能）
稳定可靠（真实生产环境）的批处理，有庞大活跃的社区

工作中工作效率+开发效率相互权衡。

Hive元数据管理

记录数据仓库中模型的定义，各层级的映射关系
存储在关系数据库中

默认Derby（单用户单线程），轻量级内嵌SQL数据库

Derby非常适合测试和演示

存储在.metastore_db目录中

实际生产一般存储在MySQL中

修改设置文件hive-site.xml
- Hcatalog
  
  将Hive元数据共享给其他应用程序

启动beeline服务

//用hive也可以 ，就是用这个好看，自动生成表格。
[root@sandbox-hdp ~]# beeline -u 'jdbc:hive2://localhost:10000/default'
//关闭
[root@sandbox-hdp ~]# lill -9

命令行模式：就是上面图片的第三条语句（两条语句使用一下）。不是交互式的

最右面的一整列都可以使用

使用环境

上面的图片有展现工具，Hive的jdbc工具。

CDH的用Hues HDP 适用于Ambari Hiew View

下载HUE界面，有图标界面。

上面加黑加粗为常用重点。（4个）

对于Hive的String类型相当于数据库中的varchar类型，给类型是一个可变的字符串，不过她不能声明其中最能存储多少个字符，理论上它可以存储2GB的字符数。

Hive数据类型 - 复杂数据类型

ARRAY：存储的数据卫星同数据类型

MAP：具有相同类型的键值队

STRUCT:封装了一组字段（结构体，跟业务相关，可以组成对象，取值的时候c.weight=2 c相当于列的名字）

Hive元数据存储结构

数据结构	描述	逻辑关系	物理存储（HDFS）
Database	数据库	表的结合	文件夹
Table	表	行数据集合	文件夹
Partition	分区	用于分割数据	文件夹
Buckts	分桶	用于分布数据	文件
Row	行	行记录	文件中的行
Columns	列	列记录	每行中指定的位置
Views	视图	逻辑给你按，可跨越多张表	不存储数据
Index	索引	记录统计数据信息	文件夹

分区Partition是在表的基础上取优化，

数据库（Database）

表的集合，HDFS中表现为一种文件夹

默认为在hive.metastore.warehouse.dir属性目录下

建库建表

0: jdbc:hive2://localhost:10000/default> create database if not exists myhivebook;
No rows affected (1.405 seconds)
0: jdbc:hive2://localhost:10000/default> show databases;
+----------------+--+
| database_name  |
+----------------+--+
| default        |
| foodmart       |
| myhivebook     |
| xademo         |
+----------------+--+
4 rows selected (0.546 seconds)
0: jdbc:hive2://localhost:10000/default>

Hive中的注释：–我在你。。。注释中不要出啊先分号（；）

数据表（内部表/外部表）

免面试题：Hive内部表和外部表概念？区别？最实用的场景？

第四章 DDL数据定义语言（库的增删改查以及表的增删改查）

创建数据库，数据库在HDFS上默认存储路径是/user/hive/warrehouse/*.db

//在hive中存放文件夹的路径 pwd查看根目录

[root@sandbox-hdp ~]# cd /home/hive/

//显示数据库
hive> show databases;
//使用 default 数据库
hive> use default;
//显示 default 数据库中的表
hive> show tables;
//删除已创建的 student 表
hive> drop table student;
//创建 student 表, 并声明文件分隔符’\t’
hive> create table student(id int, name string) ROW FORMAT DELIMITED FIELDS
TERMINATED
BY '\t';
//加载/opt/module/datas/student.txt 文件到 student 数据库表中。
hive> load data local inpath '/opt/module/datas/student.txt' into table student;
//Hive 查询结果
hive> select * from student;
OK
1001 zhangshan
1002 lishi
1003 zhaoliu
Time taken: 0.266 seconds, Fetched: 3 row(s)

//创建数据库   名字为hive_db,默认路径为/user/hive/下面
hive> create database hive_db;
//创建数据库（要在数据库下面）
create database hive_db;
//指定目录下创建数据库（根目录）location
hive> create database hive_db2 location '/';
//创建一个表,默认路径是根路径下
create table hive_db.test(id int);
//查看所有数据库
hive> show databases;
//标准写法：if not exists，创建数据库的标准写法，防止出现名字相同
hive> create database if not exists hive_db;
OK
Time taken: 0.034 seconds
hive> 
//模糊查询：查询数据库的详情
hive> show databases like 'hive*';
OK
hive_db
hive_db2
Time taken: 0.035 seconds, Fetched: 2 row(s)
hive> 
//查询数据库的摸一个表
hive> desc database hive_db;
//显示数据库的详细信息，extended  显示额外信息；
hive> desc database extended db_hive;
//修改数据库，，，括号里面的相当于键值队类型
hive> alter database hive_db set dbproperties("CTtime"="2020-06-22");
OK
Time taken: 0.642 seconds
//查看更改后的粗狂信息
hive> desc database hive_db;
OK
hive_db		hdfs://sandbox-hdp.hortonworks.com:8020/apps/hive/warehouse/hive_db.db	root	USER	
Time taken: 2.64 seconds, Fetched: 1 row(s)
//查看修改后的详细信息
hive> desc database extended hive_db;
OK
hive_db		hdfs://sandbox-hdp.hortonworks.com:8020/apps/hive/warehouse/hive_db.db	root	USER	{CTtime=2020-06-22}
Time taken: 0.271 seconds, Fetched: 1 row(s)
//删除空数据库
hive>drop database db_hive;
//删除非空数据库(先if exists判断数据库是否存在)
hive> drop database if exists db_hive2;
//如果数据库不为空，可采用cascade命令，强制删除
hive> drop database db_hive cascade;
//删除数据表
hive>drop table test;
//查看所有数据表
hive>show tables;
//查看所有数据库
hive>show databases;

如果数据库不为空，可采用cascade命令，强制删除

hive> drop database hive_db cascade;

创建数据表

//第一种方式
hive>create table student;
//第二种方式(有表结构和数据)
hive>create table student1 as select * from student;
//第三种方式(只有表结构没有表数据)
hive>create table student2 like student;
//查看某表的具体信息
hive>desc student;

创建表语法 CREATE TABLE

创建表
1．建表语法
CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name 
[(col_name data_type [COMMENT col_comment], ...)] 
[COMMENT table_comment] 
[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] 
[CLUSTERED BY (col_name, col_name, ...) 
[SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS] 
[ROW FORMAT row_format] 
[STORED AS file_format] 
[LOCATION hdfs_path]
[TBLPROPERTIES (property_name=property_value, ...)]
[AS select_statement]
2．字段解释说明
（1）CREATE TABLE 创建一个指定名字的表。如果相同名字的表已经存在，则抛出异
常；用户可以用 IF NOT EXISTS 选项来忽略这个异常。
（2）EXTERNAL 关键字可以让用户创建一个外部表，在建表的同时可以指定一个指向
实际数据的路径（LOCATION），在删除表的时候，内部表的元数据和数据会被一起删
除，而外部表只删除元数据，不删除数据。
（3）COMMENT：为表和列添加注释。
（4）PARTITIONED BY 创建分区表
（5）CLUSTERED BY 创建分桶表
（6）SORTED BY 不常用，对桶中的一个或多个列另外排序
（7）ROW FORMAT 
DELIMITED [FIELDS TERMINATED BY char] [COLLECTION ITEMS 
TERMINATED BY char]
[MAP KEYS TERMINATED BY char] [LINES TERMINATED BY char] 
| SERDE serde_name [WITH SERDEPROPERTIES (property_name=property_value, 
property_name=property_value, ...)]
用户在建表的时候可以自定义 SerDe 或者使用自带的 SerDe。如果没有指定 ROW 
FORMAT 或者 ROW FORMAT DELIMITED，将会使用自带的 SerDe。在建表的时候，用户
还需要为表指定列，用户在指定表的列的同时也会指定自定义的 SerDe，Hive 通过 SerDe 确
定表的具体的列的数据。
SerDe 是 Serialize/Deserilize 的简称， hive 使用 Serde 进行行对象的序列与反序列化。
（8）STORED AS 指定存储文件类型
常用的存储文件类型：SEQUENCEFILE（二进制序列文件）、TEXTFILE（文本）、
RCFILE（列式存储格式文件）
如果文件数据是纯文本，可以使用 STORED AS TEXTFILE。如果数据需要压缩，使
用 STORED AS SEQUENCEFILE。 （9）LOCATION ：指定表在 HDFS 上的存储位置。
（10）AS：后跟查询语句，根据查询结果创建表。 （11）LIKE 允许用户复制现有的表结构，但是不复制数据。

上传文件

//上传文件第一种
//load data local从本地上传和put一样
//load data 在HDFS文件移动
//into table emp   追加在这个文件后面（防止覆盖）
hive> load data local inpath '/home/hive/emp.txt' into table emp;
//上传文件第二种
[rootj@sandbox-hdp ~] hdfs dfs -put 本地路径 上传路径

类型转化

Hive的元子数据类型是可以进行隐式转换的，类似于Java的类型转换，如TINYINT可以转换成INT，TINYINT会自动转换为INT类型，但是Hive不会进行反向转化，例如，表达式使用TINYINT类型，INT不会自动转换为TINYINT类型，它会返回错误，除非转换成CAST操作。

（1）任何类型都可以隐式地转换为一个范围更广的类型，如TINYINT可以转换成INT，INT可以转换成BIGINT。

（2）所有整数类型，FLOAT和STRING类型都可以隐式地转换成DOUBLE。

（3）TINYINT，SMALLNT，INT都可以转换为FLOAT。

（4）BOOLEAN类型不可以转换为任何其他类型。

2，可以使用CAST操作显示进行数据类型转换。

例如：CAST（‘1’ASINT）将把字符串‘1’转换成整数1；如果强制转换失败，如执行CAST（‘X’ASINT），表达式返回空值NULL。

修改数据库，数据库的其他元数据信息都是不可更改的，包括数据库名和数据库所在的目录位置。

管理表（就是内部表）：因为这种表，Hive会（或多或少地）控制着数据的生命周期。Hive默认情况下会将这些表的数据存储在由配置型hive.metastore.warehose.dir(例如：/user/hive/warehouse)所定义的目录下，当我们删除一个管理表时，Hive也会删除这个表中的数据。管理表不适合和其他工具共享数据。删除时：元数据和源数据全部删除。

内部表

//这个只能查看出字段，无法看出是内部表还是外部表
hive>desc student;
//查看表的详细信息extended
hive>desc extended student;
//查看是内部表还是外部表
hive> desc formatted student;
//创建数据库可以指定位置，创建表也可以指定位置

外部表：Hive并非完全拥有这份数据，删除该表并不会删掉这份数据，不过描述表的元数据信息会被删掉。

管理表和外部表的使用场景

每天将收集到网站日志定期流入HDFS文本文件，在外部表（原始日志表）的基础上做大量的统计分析，用到的中间表，结果表使用内部表存储，数据通过SELECT+INSET进入内部表。

//导入文件
[root@sandbox-hdp ~]# vi dept.txt
		
10   ACCOUNTING  1700
20   RESEARCH    1800
30   SALES       1900
40   OPERATIONS  1700
~                          

//创建一个部门表
hive> create external table dept(deptid int,dname string,loc int)
    > row format delimited fields terminated by '\t';
//创建一个员工表（外部表）
//导入文件
[root@sandbox-hdp ~]# vi emp.txt
7369   SMITH     CLERK     7902    1980-12-17    800.00    20
7499   ALLEN     SALESMAN  7698    1981-2-20     1600.00   300.00  30

//创建外部表（在删除表的时候，不会把元数据删除）
create table if not exists emp(
empno int,
ename string,
job string,
mgr int,
hiredate string,
sal double,
comm double,
deptno int)
row format delimited fields terminated by '\t';

hive> load data local inputh '/root/dept.txt' into table dept;
hive> load data local inputh '/root/emp.txt' into table emp;
hive> select * from dept;
hive> select * from emp;
//查看当前所有数据库
hive>show tables;

管理表与外部表的相互转换

管理表与外部表的互相转换
（1）查询表的类型
hive (default)> desc formatted student2;
Table Type: MANAGED_TABLE
（2）修改内部表 student2 为外部表
alter table student2 set tblproperties('EXTERNAL'='TRUE');
（3）查询表的类型
hive (default)> desc formatted student2;
Table Type: EXTERNAL_TABLE
（4）修改外部表 student2 为内部表
alter table student2 set tblproperties('EXTERNAL'='FALSE');
（5）查询表的类型
hive (default)> desc formatted student2;
Table Type: MANAGED_TABLE
注意：('EXTERNAL'='TRUE')和('EXTERNAL'='FALSE')为固定写法，区分大小写！

分区表

分区表实际上就是对应一个HDFS文件上的独立的文件，该文件加下是该分区所有的数据文件。Hive 中的分区就是分目录，把一个大的数据集根据业务需要分割成小的数据集。在查询时通过WHERE子句中的表达式选择查询所需要的指定分区，这样查询效率会更高。

新建一个分区表

//创建一个分区表，名为stu_partition,对应的参数类型为id   int，name string类型
hive> create table stu_partition(id int,name string)
	//分割的 按列，还要指定列的类型
    > partitioned by(month string)//按月分区month string
    //行   格式    划定   自定义字段    以空格终止
    > rom format delimited fields terminated by '\t';
    
hive> show tables;//即可看见新创建的stu_partition分区表。
//往分区表里面加载数据
//加载数据load data
hive> load data local inpath '/home/hive/emp.txt' into table stu_partition 			     		partition(month="20200623");
hive> load data local inpath '/home/hive/emp.txt' into table stu_partition 					   partition(month="20200624");
hive> load data local inpath '/home/hive/emp.txt' into table stu_partition 					   partition(month="20200625");

//查看两个分区内容中的数据
hive> select * from stu_partition where month=20200625 or month=20200624;
//添加多个分区   中间需要用空格
hive> alter table stu_partition add partition(month="20200626") 								partition(month="20200627")；
//删除多个分区   中间需要用逗号
hive> alter table stu_partition drop 															partition(month="20200626"),partition(month="20200627");

$[外链图片转存失败(img-LuDeTq70-1568646957760)(C:\Users\tt\AppData\Roaming\Typora\typora-user-images\1568050239114.png)]$

二级分区：

//创建二级分区表（就是制定了两个文件夹）
hive> create table stu2(id int,name string)
	//按照年月来划分
    > partitioned by(month string,day string)
    > row format delimited fields terminated by '\t';
//往二级分区表中添加数据   
hive> load data local inpath '/home/hive/emp.txt' into table stu2 
		//必须要指定分区
		//注意：分区字段（month="20200626",day="23"）不能是表中(id int,name string)的字段
		partition(month="20200626",day="23");

把数据直接上传到分区目录上，让分区表和数据产生关系的三种方式

//第一种方法
//创建一个分区表
hive> dfs -mkdir -p /apps/hive/warehouse/stu_partition/month=20200626;
//往分区表中输入数据
hive> dfs -put /home/hive/emp.txt /apps/hive/warehouse/stu_partition/month=20200626;
//执行修复命令    修复repair              
hive> msck repair table stu_partition;
//查询分区表中的数据
hive> select * from stu_partition where month=20200626;

//第二种方法
hive> dfs -mkdir -p /apps/hive/warehouse/stu_partition/month=20200627;
hive> dfs -put /home/hive/emp.txt /apps/hive/warehouse/stu_partition/month=20200627;
//直接添加一个分区
hive> alter table stu_partition add partition(month=20200627);
hive> select * from stu_partition where month=20200627;

//第三种方法
//上传数据和load数据分区

修改表增加/修改/替换列信息

//查看当前数据库里面的表
hive>show tables;
//修改数据表的名字  关键字：rename to
hive>alter table student2 rename to student3;
//查看是否更改成功
hive>show tables;
//更改表中的列名     关键字：change column       更改id
hive>alter table student3 change column id stu_id string;
//查看表中的列是否更该成功
hive>desc student3;
//添加列名字    关键字：add column()
hive>alter table student3 add column(desc string);
//替换所有的列名     关键字：replace columns()
hive>alter table student3 replace columns (id int,nu string,...一一对应)
//查看表数据
hive>desc student3;

第五章 DML数据的控制语言（数据的操作语言）

//创建一张新的分区表
hive>create table student2(id int,name string)
	>row format delimited fields terminated by '\t';

	 向表中装载数据（Load） 
1．语法
//向新建表中导入数据   关键字 load data local inpath
hive> load data [local] inpath '/opt/module/datas/student.txt' [overwrite] into table student 
[partition (partcol1=val1,…)];
（1）load data:表示加载数据
（2）local:表示从本地加载数据到 hive 表；否则从 HDFS 加载数据到 hive 表 
（3）inpath:表示加载数据的路径
（4）overwrite:表示覆盖表中已有数据，否则表示追加
（5）into table:表示加载到哪张表
（6）student:表示具体的表
（7）partition:表示上传到指定分区

特写：导入数据（into与overwrite）

（1）向表中装载数据（Load）

//从本地导入　　　就相当于移动到表里面
//第一种方式
//关键字：load data local inpath  '文件夹路径'  ovewrwrite into table  表名
hive> load data local inpath '/home/hive/emp.txt' overwrite into table student2;
//第二种方式  去掉overwrite
//into表示追加（在后面一直叠加）
hive> load data local inpath '/home/hive/emp.txt' into table student2;
//加上overwrite 表示覆盖（复写）
hive> load data local inpath '/home/hive/emp.txt' overwrite into table student2;


//从HDFS上的导入
／／先把文件上传到HDFS上
[root@sandbox-hdp ~]# cd /home/hive/
[root@sandbox-hdp hive]# ls
create_table_script.hql  data_copyto_hdfs  dept.txt  derby.log  emp.txt  foodmart_data  foodmart_data.zip  __MACOSX
//移动到根目录下面
[root@sandbox-hdp hive]# hadoop fs -put emp.txt /

//回到hive界面   关键字：load data inoath '文件夹路径' into table 数据表名；
hive> load data inpath '/emp.txt' into table student2;
//查看数据表中的数据
hive> select * from student2;

（2）通过查询语句向表中插入数据（Insert）

//单表插入（基本表插入，根据单张表查询结果）
//stu2这张表是二级分区表   关键字：insert into table      partition（）
hive> insert into table stu2 partition(month=202006,day=26)
    > select * from student2;
//查看stu2
hive> select * from stu2;



//多插入模式（根据多张表查询结果）
//如果查询语句都来自同一张表，则可以提前把表写在开头
hive> from student2
	>insert into table stu2 partition(month=202006,day=24)
	>select *
	>insert into table stu2 partition(month=202006,day=25)
	>select *;
//查询表stu2
hive>select * from stu2;

创建表时通过Location指定加载数据路径

//创建一个表，把数据导入表中
//用like创建相同的表
hive> create batle student1 like student2;
hive> dfs -put /home/hive/emp.txt /apps/hive/warehouse/student1;
hive> select * from student1;




//创建一个表
//数据已经存在集群了，我只需要对数据重新建表（外部表），
hive>dfs -mkdir -p /user/atguigu;
//把数据传递过来（指定已经有的位置上）
hive>dfs -put  /opt/module/datas/student.txt /user/adguigu;
hive>select * from student4;





1．上传数据到 hdfs 上
hive (default)> dfs -mkdir /student;
hive (default)> dfs -put /opt/module/datas/student.txt /student;
2. 创建表，并指定在 hdfs 上的位置
hive (default)> create external table if not exists student5(
id int, name string
)
row format delimited fields terminated by '\t'
location '/student; 3．查询数据
hive (default)> select * from student5;

Import数据到指定Hive表中

//进入表格 student
hive>import table student 
	//form 
	>from '/user/atguigu/export';

数据导出

1.Insert导出

（1）将查询的结果导出到本地

//这是走Map Reduce的
//将查询的结果导出到本地  关键字：insert（插入） overwrite（覆盖） local directory （本地目录）
hive> insert overwrite local directory '/apps/hive/warehouse/student1' 
	//以"\t"结尾的行格式分段字段
    > row format delimited fields terminated by '\t'
    //用查询方式的结果作为条件（导入的内容）
    > select * from student1;

（2）将查询的结果导出到HDFS上（将数据导到HDFS）

//不需要local，  先在根目录下面创建student
hive> insert overwrite  directory '/student'
	//以"\t"结尾的行格式分段字段
    > row format delimited fields terminated by '\t'
    //用查询方式的结果作为条件（导入的内容）
    > select * from student1;

（3） Hadoop 命令导出到本地

hive (default)> dfs -get /user/hive/warehouse/student/month=201709/000000_0 

				/opt/module/datas/export/student3.

（4）Hive Shell 命令导出

基本语法：（hive -f/-e 执行语句或者脚本 > file） 

[atguigu@hadoop102 hive]$ bin/hive -e 'select * from default.student;' > 

						  /opt/module/datas/export/student4.txt;

（5）Export 导出到 HDFS 上

//
(defahiveult)> export table default.student 
			 //存放的路径，可以自动创建文件夹
			 > to '/user/hive/warehouse/export/student'; 

export 和 import 主要用于两个 Hadoop 平台集群之间 Hive 表迁移。

清除表中数据(这里指的是管理表)

//先查看数据表
hive>show tables;
//再查看数据表中的数据是否存在
hive>select * from student4;
//清除表中的数据
hive>truncate * from student4;
//查看是否清楚成功
hive>select * from student4;

查询 --（基本查询）

书写规范：（1）SQL语言不分大小写

（2）SQL可以在一行写也可以在多行写

（3）关键字不饿能被缩减也不能被拆分

（4）各句子一般要分行写

（5）使用缩进提高语句的可读性

(6) 长单词的列名选哟取别名

先加载一些数据

hive>load data local inpath '/opt/module/datas/dept.txt' intp table dept;

三者的区别：count(1) count(*) count(column)列

基本函数
hive> select count(*) from emp;
//求最大值  max   min   avg平均值   sum求和
hive> select max(sal) from emp;

Limit语句（典型的查询会返回多行数据，LiMIT子句用于限制返回的行数）

//限制查询的条数    关键字：limit
hive>select * from emp limit 5;

Where语句(就是一个过滤条件)

1.使用WHERE子句，将不满足条件的行过滤掉、

2.WHERE子句紧随FROM子句

3.案例实操

//查询出薪水大于1000的所有员工
hive> select * from emp where sal > 1000;

比较运算符（Between/In/Is Null）

Like和RL ike

（1）使用LIKE原酸选择类似的值

（2）选择条件可以包含字符或数字

%代表零个或多个字符（任意个字符）。 _代表一个字符。

（3）RLIKE子句事Hive中这个功能的扩展，其可以通过Java的正则表达式这个更强大的语言来指定匹配条件

//查找薪水中含有2的员工信息       正则表达式
hive>select * from emp where sal RLIKE '[2]';

逻辑运算符（And–Or–Not）与–或--非

聚合函数：多（传入多行）变一（输出一行）

分组

Group BY语句

GROUP BY语句通常和聚合函数一起使用，按照一个或者多个列队结果进行分组，然后对每个分组执行局和操作。（如果不是聚合函数，则需要把字段放到group by里面）

（1）计算emp表每个部门平均工资

hive> selsect t.deptno,avg(t.sal) avg_sal from enp t group by t.demtno;

(2)计算emp每个部门中每个岗位的最高薪水

hive> aelect t.job,max(t.sal) max_sal from emp t group by t.deptno, t.job;

Having语句

1.having与where不同点

(1) where 针对表中的列发挥作用，查询数据；having针对查询结果中的列发挥作用，筛选数据。

hive> select deptno,avg(sal) avg_sal from emp
    > group by deptno
    > having avg_sal > 2000;

等值 Join

Hive支持长常用的SQL JOIN语句，但是只支持等值连接，不i支持非等值连接。

实际案例：多表查询。
//根据员工表和部门表中的部门编号相等，查询员工编号，员工名称和部门名称。
hive>select e.empno,e.ename, d.deotno, d.dname 
	>from emp e join dept d 
	>on e.deptno = deptno;

内连接
内连接：只有进行连接的两个表中都存在与连接条件相匹配的数据才会被保留下来。
hive (default)> select e.empno, e.ename, d.deptno 
				from emp e join dept d 
				on e.deptno = d.deptno;
左外连接
左外连接：JOIN 操作符左边表中符合 WHERE 子句的所有记录将会被返回。
hive (default)> select e.empno, e.ename, d.deptno 
				from emp e left join dept d 
				on e.deptno = d.deptno;
右外连接
右外连接：JOIN 操作符右边表中符合 WHERE 子句的所有记录将会被返回。
hive (default)> select e.empno, e.ename, d.deptno 
				from emp e right join dept d 
				on e.deptno = d.deptno;
满外连接(所有数据)
满外连接：将会返回所有表中符合 WHERE 语句条件的所有记录。如果任一表的指定字

段没有符合条件的值的话，那么就使用 NULL 值替代。
hive (default)> select e.empno, e.ename, d.deptno 
				from emp e full join dept d 
				on e.deptno = d.deptno;
多表连接
注意：连接 n 个表，至少需要 n-1 个连接条件。例如：连接三个表，至少需要两个连
接条件。
数据准备
1．创建位置表
create table if not exists location(loc int,loc_name string)
row format delimited fields terminated by '\t';
2．导入数据
hive (default)> load data local inpath '/opt/module/datas/location.txt' into table 
location;
3．多表连接查询




创建一张新表  
先给出txt文件
路径：cd /home/hive/
[root@sandbox-hdp hive]# vi location.txt;
1700    Beijing
1800    London
1900    Tokyo
~    
：wq

创建表的语句 创建位置表
create table if not exists location(
loc int,
loc_name string
)
row format delimited fields terminated by '\t';

把数据导入
hive> load data local inpath '/home/hive/location.txt' into table location;

查询一些导入的结果
hive> select * from location;

//多表查询开始

hive (default)>SELECT e.ename, d.dname, l.loc_name
				FROM emp e JOIN dept d
				ON d.deptno = e.deptno 
				JOIN location l
				ON d.loc = l.loc;
大多数情况下，Hive 会对每对 JOIN 连接对象启动一个 MapReduce 任务。本例中会首
先启动一个 MapReduce job 对表 e 和表 d 进行连接操作，然后会再启动一个 MapReduce job
将第一个 MapReduce job 的输出和表 l;进行连接操作。
注意：为什么不是表 d 和表 l 先进行连接操作呢？这是因为 Hive 总是按照从左到右的
顺序执行的。
优化：当对 3 个或者更多表进行 join 连接时，如果每个 on 子句都使用相同的连接键的
话，那么只会产生一个 MapReduce job。
6.4.8 笛卡尔积
1．笛卡尔集会在下面条件下产生
（1）省略连接条件
（2）连接条件无效
（3）所有表中的所有行互相连接
2．案例实操
hive (default)> select empno, dname from emp, dept;
6.4.9 连接谓词中不支持 or
hive join 目前不支持在 on 子句中使用谓词 or
hive (default)> select e.empno, e.ename, d.deptno from emp e join dept d on e.deptno
= d.deptno or e.ename=d.ename; 错误的

查看分区表的信息

//关键字：partitions
hive> show partitions stu_partition;

Import数据到指定Hive表中

注意：先用export导出后，再将数据导入

分桶及抽样查询

分桶表数据存储

![[外链图片转存失败(img-XRcA1gwy-1568646957762)(C:\Users\tt\AppData\Roaming\Typora\typora-user-images\1568076320381.png)](https://img-blog.csdnimg.cn/20190916232521888.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L1RUMTU3NTEwOTc1NzY=,size_16,color_FFFFFF,t_70)

named（常量） map（键值队）等都是函数

分桶及抽样查询

分桶表数据存储

分区针对的是数据的存储路径，分桶针对的是数据文件。

**分区（文件夹上）**提供一个隔离数据何优化查询方式。不过，并非所有的数据集都可形成合理的分区，特别是之前所提到过的要确定合适的划分大小这个疑虑。（数据量大）

**分桶（文件上）**是将数据集分解成更容易管理的若干部分的另一个技术。（数据集很大的情况下）

适应杨（sampling）更高效，根据桶列进行哈希函数将数据进行分桶计算。

将一个文件拆成两个。

先创建分桶表，通过直接导入数据文件的方式
（1）数据准备
student.txt
（2）创建分桶表
create table stu_buck(id int, name string)
clustered by(id)
//准备放四个桶中
into 4 buckets
row format delimited fields terminated by '\t';
（3）查看表结构
hive (default)> desc formatted stu_buck;
Num Buckets: 4
（4）导入数据到分桶表中
hive (default)> load data local inpath '/opt/module/datas/student.txt' into table
stu_buck;
//查看是否建成
hive> show tables;

//向表中插入新值
hive> load data local unoath '/opt/data/文件名字' input tableu_buck 例句

map join可以使小表和大表广播。

创建两个桶，可以求模，抽样，可以求奇数偶数的

Hive视图（Views）

试图概述

通过隐藏子查询，连接和函数来简化查询逻辑结构

基于一个表查询（从一个表查数据）

应用场景：将特定的列提供给用户，保护数据隐私，查询语句复杂的场景。

里面不存储数据，只存储快捷方式。如果原始数据修改时，试图就不能用了。

//如何知道查询的是表还是试图？
hive>desc formatted hive_db;

Hive侧视图（lateral View）

多练习（后面会用到）

第二节

正则表达式要写在``里面。

Hive JOIN - 关联查询(JOIN为内链接) 等值 Join

Hive支持通常的SQL JOIN语句，但是只支持等值连接，不支持费等之连接

JOIN用于将两个或多个表中的行组合在一起查询

内连接：INNER JION

外连接：OUTER JOIN

隐式连接：

交叉连接：

虚拟列（Virtual Columns）
两个连续下划线，用于数据验证
INPUT__FILE__NAME：Mapper Task的输入文件名称
BLOCK__OFFSET__INSIDE__FILE：当前全局文件位置

案例实操

合并员工表和部门表
hive (default)> select e.empno, e.ename, d.deptno 
				from emp e join dept d 
				on e.deptno = d.deptno;
内连接
内连接：只有进行连接的两个表中都存在与连接条件相匹配的数据才会被保留下来。
hive (default)> select e.empno, e.ename, d.deptno 
				from emp e join dept d 
				on e.deptno = d.deptno;
左外连接
左外连接：JOIN 操作符左边表中符合 WHERE 子句的所有记录将会被返回。
hive (default)> select e.empno, e.ename, d.deptno 
				from emp e left join dept d 
				on e.deptno = d.deptno;
右外连接
右外连接：JOIN 操作符右边表中符合 WHERE 子句的所有记录将会被返回。
hive (default)> select e.empno, e.ename, d.deptno 
				from emp e right join dept d 
				on e.deptno = d.deptno;
满外连接
满外连接：将会返回所有表中符合 WHERE 语句条件的所有记录。如果任一表的指定字

段没有符合条件的值的话，那么就使用 NULL 值替代。
hive (default)> select e.empno, e.ename, d.deptno 
				from emp e full join dept d 
				on e.deptno = d.deptno;
多表连接
注意：连接 n 个表，至少需要 n-1 个连接条件。例如：连接三个表，至少需要两个连
接条件。
数据准备
1．创建位置表
create table if not exists location(loc int,loc_name string)
row format delimited fields terminated by '\t';
2．导入数据
hive (default)> load data local inpath '/opt/module/datas/location.txt' into table 
location;
3．多表连接查询
hive (default)>SELECT e.ename, d.dname, l.loc_name
				FROM emp e JOIN dept d
				ON d.deptno = e.deptno 
				JOIN location l
				ON d.loc = l.loc;
大多数情况下，Hive 会对每对 JOIN 连接对象启动一个 MapReduce 任务。本例中会首
先启动一个 MapReduce job 对表 e 和表 d 进行连接操作，然后会再启动一个 MapReduce job
将第一个 MapReduce job 的输出和表 l;进行连接操作。
注意：为什么不是表 d 和表 l 先进行连接操作呢？这是因为 Hive 总是按照从左到右的
顺序执行的。
优化：当对 3 个或者更多表进行 join 连接时，如果每个 on 子句都使用相同的连接键的
话，那么只会产生一个 MapReduce job。
6.4.8 笛卡尔积
1．笛卡尔集会在下面条件下产生
（1）省略连接条件
（2）连接条件无效
（3）所有表中的所有行互相连接
2．案例实操
hive (default)> select empno, dname from emp, dept;
6.4.9 连接谓词中不支持 or
hive join 目前不支持在 on 子句中使用谓词 or
hive (default)> select e.empno, e.ename, d.deptno from emp e join dept d on e.deptno
= d.deptno or e.ename=d.ename; 错误的

案例实操

（1）根据员工和部门表中的部门编号相等，查询员工编号，员工名称和部门名称；

//先给表取别名e d  员工编号e.empno  员工姓名e.ename    部门具体名称d.deptno      
hive>select e.empno, e.ename,d.deptno,d.dname 
	//来自于那张表  取别名   用join等值连接   
	>from emp e join dept d
	//字段on  
	>on e.deptno = d.deptno;

insert语句可以将数据插入表/分区。支持多表查询

create table test(name string,age int)

inesrt into table test(name,age) valuses(‘zahngsan’,24)

inesrt into table test(name) valuses(‘wangwe’)

insert into table test(name) valuses(‘zahngsan’),(‘lisi’)

Hive数据插入

使用insert语句将数据插入/导出到文件

支持文件

-- 从同一数据源插入本地文件，hdfs文件，表
from ctas_employee
insert overwrite local directory '/tmp/out1'  select *
insert overwrite directory '/tmp/out1' select *
insert overwrite table employee_internal select *;
-- 以指定格式插入数据
insert overwrite directory '/tmp/out3'
row format delimited fields terminated by ','
select * from ctas_employee;
-- 其他方式从表获取文件
hdfs dfs -getmerge

Hive数据排序 - ORDER BY

ORDER BY (ASC|DESC)类似于标准SQL

只使用一个Reduce执行全局数据排序

速度慢，应提前做好数据过滤

支持使用CASE WHEN 或表达式

支持按位置编号排序

set hive.groupby.orderby.position.alias=true;

select * from offers order by case when offerid = 1 then 1 else 0 end;
select * from offers order by 1;

模拟面试：排序时如何把NULL值排到最后面？

SOET BY 对每个Reduce中的数据进行排序

当Reduce数量设置为1时，等于ORDER BY

排序列必须与出现在SELECT column 列表中

DISTRLBUTE BY类似于标准SQL中的GROUP BY

确保具有匹配列值的行备份渠道相同的Reducer

不会对每个Reducer的输出行排序

通常使用在SORT BY语句之前

SELECT department_id , name, employee_id, evaluation_score
FROM employee_hr 
DISTRIBUTE BY department_id SORT BY evaluation_score DESC;

Hive聚合运算 - 概述

GROUP BY 用于分组

Hive基于内置聚合函数与GROUP BY一起使用

如果没有指定GROUP BY

使用内置聚合函数

Apache Hive函数及性能优化

explode一对多

UDF用户自定义函数

Hive函数分类

输入输出角度分类

标准函数：一行数据中的一列或多列为数据，结果为单一的值

据很函数：多行的零列到多列为输入，结果为单一的值

表生成函数：

concat(name,’-’,24)多个字符串（string类型）连接

select year(‘2019-08-09’)； regexp_replace(’’)

like创建表（由四种方法）

你可能感兴趣的:(Hive数据仓库踏坑（上）)

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说造命者说
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说我叫吴起，生于公元前440年的战国初期，正是群雄并起、天下纷争不断的时候。后人说我是军事家、政治家、改革家，是兵家代表人物。评价我一生历仕鲁、魏、楚三国，通晓兵家、法家、儒家三家思想，在内政军事上都有极高的成就。周安王二十一年（公元前381年），因变法得罪守旧贵族，被人乱箭射死。我出生在卫国一个“家累万金”的富有家庭，从年轻时候起就不甘平凡
10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
如何在 Fork 的 GitHub 项目中保留自己的修改并同步上游更新？github_fork_update iBaoxing github
如何在Fork的GitHub项目中保留自己的修改并同步上游更新？在GitHub上Fork了一个项目后，你可能会对项目进行一些修改，同时原作者也在不断更新。如果想要在保留自己修改的基础上，同步原作者的最新更新，很多人会不知所措。本文将详细讲解如何在不丢失自己改动的情况下，将上游仓库的更新合并到自己的仓库中。问题描述假设你在GitHub上Fork了一个项目，并基于该项目做了一些修改，随后你发现原作者对
30天风格练习-DAY2 黄希夷
Day2（重义）在一个周日/一周的最后一天，我来到位于市中心/市区繁华地带的一家购物中心/商场，中心内人很多/熙熙攘攘。我注意到/看见一个独行/孤身一人的年轻女孩/，留着一头引人注目/长过腰际的头发，上身穿一件暗红色/比正红色更深的衣服/穿在身体上的东西。走下扶梯的时候，她摔倒了/跌向地面，在她正要站起来/让身体离开地面的时候，过长/超过一般人长度的头发被支撑身体/躯干的手掌压/按在下面，她赶紧用
向内而求陈陈_19b4
10月27日，阴。阅读书目:《次第花开》。作者:希阿荣博堪布，是当今藏传佛家宁玛派最伟大的上师法王，如意宝晋美彭措仁波切颇具影响力的弟子之一。多年以来，赴海内外各地弘扬佛法，以正式授课、现场开示、发表文章等多种方法指导佛学弟子修行佛法。代表作《寂静之道》、《生命这出戏》、《透过佛法看世界》自出版以来一直是佛教类书籍中的畅销书。图片发自App金句:1.佛陀说，一切痛苦的根源在于我们长期以来对自身及外
那个抄袭的大张伟猫小努
最近一直在追《即刻电音》这个综艺，除了觉得出场节目的音乐制作人有意思之外，也觉得有两个导师挺有趣的（另外一个就忽略了吧）。孙艺兴在上一篇文章里面已经说过了，那么这篇就说说我们的大老师，大张伟吧。其实在节目刚开始大张伟出来的时候，我以为他是属于导师里面来活跃气氛负责搞笑的，毕竟孙艺兴属于卖萌卖傻卖老实的，尚雯婕一般负责装逼耍狠的，而大张伟一贯以来上综艺的形象基本上都是蹦蹦跳跳带动气氛的。谁知道，两期
第一场雪岁月静好_nx
早晨起来，外面白茫茫的一片，总算是下雪了，这还是今年第一场雪呢！走在路上，踩着雪“咯吱咯吱”的，空气很湿润。树上、草坪上、屋顶上都落了白白的一层，天上还零星漂着几点雪。慢慢走在路上，呼吸着清新的空气，感受着冬天的美好，心情也好多了。
《大清方方案》| 第二话谁佐清欢
和珅究竟说了些什么？竟能令堂堂九五之尊龙颜失色！此处暂且按下不表；单说这位乾隆皇帝，果真不愧是康熙从小带过的，一旦决定了要做的事，便杀伐决断毫不含糊。他当即亲自拟旨，着令和珅为钦差大臣，全权负责处理方方事件，并钦赐尚方宝剑，遇急则三品以下官员可先斩后奏。和珅身负皇上重托，岂敢有半点怠慢，当夜即率领相关人等，马不停蹄杀奔江汉。这一路上，和珅的几位幕僚一直在商讨方方事件的处置方案。有位年轻幕僚建议快刀
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
放下是一段成长的修行小莳玥
人来到这个世界上，只有两件事：生和死。一件事已经做完了，另一件你还急什么呢?是人，都有七情六欲。是心，都有喜怒哀乐，这些再正常不过了。别总抱怨自己活得累，过得辛苦。永远记住：舒坦是留给死人的。苦，才是生活；累，才是工作；变，才是命运；忍，才是历练；容，才是智慧；静，才是修养；舍，才会得到；做，才会拥有。人生，活得太清楚，才是最大的不明白。有些事，看得很清，却说不清；有些人，了解很深，却猜不透；有些
从鸡肉高汤到记忆的魔法再到有效提示的艺术步子哥人工智能
还记得小时候那些天马行空的白日梦吗？也许只要按下键盘上的某个神奇组合，电脑就会发出滴滴的声响，一个隐藏的世界突然在你眼前展开，让你获得超凡的能力，摆脱平凡的生活。这听起来像是玩过太多电子游戏的幻想，但实际上，间隔重复系统给人的感觉惊人地相似。在最佳状态下，这些系统就像魔法一样神奇。本文将以一个看似平凡的鸡肉高汤食谱为例，深入浅出地探讨如何编写有效的间隔重复提示，让你像掌握烹饪技巧一样轻松地掌握记忆
今天我破防了 sin信仰
今天本来是大年初一，新年的第一天，应该是高高兴兴的一天，但是我怎么也高兴不起来。具体原因很简单，原本计划年后去县城找了一份会计的工作，被公公婆婆否定了，我心里立马就不舒服了，但是当时刚好肚子疼，我去了厕所，等我上完厕所，公公由于喝了酒还在那里和婆婆唠叨个没完。然后我就在心情极度压抑的情况下把午饭吃完的碗筷和锅给刷了。边刷碗筷和锅，边在那里难受，感觉自己在这个家里真的是过的憋屈死了，公婆不让我去上班
PHP环境搭建详细教程好看资源平台前端 php
PHP是一个流行的服务器端脚本语言，广泛用于Web开发。为了使PHP能够在本地或服务器上运行，我们需要搭建一个合适的PHP环境。本教程将结合最新资料，介绍在不同操作系统上搭建PHP开发环境的多种方法，包括Windows、macOS和Linux系统的安装步骤，以及本地和Docker环境的配置。1.PHP环境搭建概述PHP环境的搭建主要分为以下几类：集成开发环境：例如XAMPP、WAMP、MAMP，这
2020.11.19 隆非凡
日精进，今日体验：在维修过程中遇到的问题，把源头找到，在进行下一步开始。不要停留在一个点上，合理调整心态，把当下事做好。
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
山东大学小树林支教调研团青青仓木队——翟晓楠山东大学青青仓木队
过了半年，又一次启程，又一次回到支教的初心之地。比起上一次的试探与不安，我更多了一丝稳重与熟练。心境、处境也都随着半个学期的过去而变得不同，半个学期中，身体上的，心理上的，太多的逆境让我变得步履维艰，曲曲折折，弯弯绕绕，我仿佛打不起精神，没有胃口，没有动力。感觉走的不顺畅的时候，支教这个旅程，给了我力量。自告奋勇承担起队长这一职务的我，从组织时的复杂和困难的经历，协调各种问题，从无到有，和校长和队
【夜读】提升生活品质的8个建议茳淮秀水
停止攀比很多人之所以感觉疲惫，部分原因是来自于跟别人攀比。殊不知，攀比得到的满足只是片刻的，过后往往会感到空虚。过分在意别人的评价，丢失的是自己原有的审美，扰乱的是自己最初的节奏。不妨活得洒脱些，自己内心丰盈了，快乐就能更持久。停止自责想改变自己，先从接纳自己开始。越是过分自责，就越难改变现状，因为如果把精力全耗在自责上，就没有精力用来改变了。遇到问题，我们要用正确的心态去面对。与其一味自责，不如
拥有断舍离的心态，过精简生活--《断舍离》读书笔记爱吃丸子的小樱桃
不知不觉间房间里的东西越来越多，虽然摆放整齐，但也时常会觉得空间逼仄，令人心生烦闷。抱着断舍离的态度，我开始阅读《断舍离》这本书，希望从书中能找到一些有效的方法，帮助我实现空间、物品上的断舍离。《断舍离》是日本作家山下英子通过自己的经历、思考和实践总结而成的，整体内涵也从刚开始的私人生活哲学的“断舍离”升华成了“人生实践哲学”，接着又成为每个人都能实行的“改变人生的断舍离”，从“哲学”逐渐升华成“
如果做到轻松在股市赚钱？只要坚持这三个原则。履霜之人
大A股里向来就有七亏二平一赚的说法，能赚钱的都是少数人。否则股市就成了慈善机构，人人都有钱赚，谁还要上班？所以说亏钱是正常的，或者说是应该的。那么那些赚钱的人又是如何做到的呢？普通人能不能找到捷径去分一杯羹呢？方法是有的，但要做到需要你有极高的自律。第一，控制仓位，散户最大的问题是追涨杀跌，只要涨起来，就把钱往股票上砸，然后被套，隔天跌的受不了，又一刀切，全部割肉。来来回回间，遍体鳞伤。所以散户首
凤凰公园吴侬暖语sym
凤凰公园距离我们家880米，大概步行12分钟就到了，这是我们每天饭后散步或者闲暇时的去处。现在夏季徬晚时分广场舞大妈们总是热情非凡，那里的大门口就是一个好地方，每天总有两拨人在那踩着节奏翩翩起舞呢！而且一路上，从我们小区到公园，或者从昆仑西苑沿河到公园，都是饭后锻炼的人们，川流不息，老人小孩，年轻人，…！哪哪都是。最早家乡的公园，所有公园都是要收门票的，那时候也就是休息天会有人花钱去转转，平时一般
GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
MongoDB Oplog 窗口喝醉酒的小白 MongoDB 运维
在MongoDB中，oplog（操作日志）是一个特殊的日志系统，用于记录对数据库的所有写操作。oplog允许副本集成员（通常是从节点）应用主节点上已经执行的操作，从而保持数据的一致性。它是MongoDB副本集实现数据复制的基础。MongoDBOplog窗口oplog窗口是指在MongoDB副本集中，从节点可以用来同步数据的时间范围。这个窗口通常由以下因素决定：Oplog大小：oplog的大小是有限
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
人怎么才能认识自己？阿尚青子自由写作人
人怎么才能认识自己？（原问题）我从不愿意上纲上线地确定偌大的话题，就直接说吧。纵使你能认识世界上的万事万物，你很难做到真实地认识自己。因为即使就这个世界，基本上每个人也很难做到客观、公正、科学地认识。对你好的人就是好吗？一件事情是否能够保持永远原来的样子？借不到钱的男友，女友想离开他就理直气壮？父母对子女有几分慷慨，又有几分是无私？工作的意义究竟是什么？是工作需要你，还是你需要工作呢？诸如此类的问
没有邀请码怎么注册买手妈妈? 氧惠评测
买手妈妈怎么注册小编为大家带来买手妈妈没有邀请码怎么注册。打开买手妈妈APP，点击“马上注册”，输入邀请信息“邀请码”点击下一步，没有邀请码是登录不上的，所以这个必须要填写，那我们没有怎么办？填写成功就可以登录下一步。这里面有手机登录和淘宝登录，手机登录以后也需要用淘宝授权的，所以基本上都是淘宝登录。购物、看电影、点外卖、用氧惠APP！更优惠！氧惠（全网优惠上氧惠）——是与以往完全不同的抖客+淘客
百善孝为先杜友顺
2018年11月29日天气~晴星期四找点空闲找点时间领着孩子常回家看看带上笑容带上祝福陪同爱人常回家看看家，永远是儿女们幸福温暖的港湾，那里有我们日夜思念的父母，有着彼此的牵挂，无论走到哪里，家永远是避风雨的港湾。今天没事，和媳妇回了趟老家，看看父母，回到家，房间里不算凌乱，可是细心的我发现有的地方已经沾满了灰尘，桌子上父亲不离手的烟灰缸也弹满了烟灰。几个马上就要腐烂掉的水果蔫耷的搭拉着脑袋躺在了
如何成为段子手欣雅阅读
我是一个尬聊大师，与朋友聊天经常把话题聊死，留我一个人在群里，望着自己打下的最后一句话无语凝噎。看到风趣幽默的朋友与人聊天，很是艳羡，觉得自己何时才能成为这样的段子手呢？一、段子是什么？“段子”一词在百度百科上的解释：本是相声中的一个艺术术语，指的是相声作品中一节或一段艺术内容。我的理解：段子就是一些搞笑的故事或者笑话。二、为什么要会说段子？不知道大家有没有这样的朋友，本来很无趣的聚会，只要有他参
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 [email protected] * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，

Hive数据仓库踏坑（上）

Hive数据仓库

了解！！！

Hive和数据库比较

北美大数据Hive笔记

主要是解决海量数据的结构化分析

工作中 工作效率+开发效率相互权衡。

Hive元数据管理

启动beeline服务

使用环境

上面的图片有展现工具，Hive的jdbc工具。

下载HUE界面，有图标界面。

Hive数据类型 - 复杂数据类型

ARRAY：存储的数据卫星同数据类型

MAP：具有相同类型的键值队

STRUCT:封装了一组字段（结构体，跟业务相关，可以组成对象，取值的时候c.weight=2 c相当于列的名字）

Hive元数据存储结构

数据库（Database）

数据表（内部表/外部表）

第四章 DDL数据定义语言（库的增删改查以及表的增删改查）

创建数据库，数据库在HDFS上默认存储路径是/user/hive/warrehouse/*.db

创建数据表

创建表语法 CREATE TABLE

上传文件

类型转化

内部表

外部表：Hive并非完全拥有这份数据，删除该表并不会删掉这份数据，不过描述表的元数 据信息会被删掉。

管理表与外部表的相互转换

分区表

二级分区：

把数据直接上传到分区目录上，让分区表和数据产生关系的三种方式

修改表 增加/修改/替换列信息

第五章 DML数据的控制语言（数据的操作语言 ）

特写：导入数据（into与overwrite）

（1）向表中装载数据（Load）

（2）通过查询语句向表中插入数据（Insert）

创建表时通过Location指定加载数据路径

Import数据到指定Hive表中

数据导出

1.Insert导出

（1）将查询的结果导出到本地

（2）将查询的结果导出到HDFS上（将数据导到HDFS）

（3） Hadoop 命令导出到本地

（4）Hive Shell 命令导出

（5）Export 导出到 HDFS 上

清除表中数据(这里指的是管理表)

查询 --（基本查询）

先加载一些数据

三者的区别：count(1) count(*) count(column)列

Limit语句（典型的查询会返回多行数据，LiMIT子句用于限制返回的行数）

Where语句(就是一个过滤条件)

比较运算符（Between/In/Is Null）

Like和RL ike

逻辑运算符（And–Or–Not）与–或--非

分组

Group BY语句

Having语句

(1) where 针对表中的列发挥作用，查询数据；having针对查询结果中的列发挥作用，筛选数据。

等值 Join

Import数据到指定Hive表中

分桶及抽样查询

分桶及抽样查询

分桶表数据存储

分区针对的是数据的存储路径，分桶针对的是数据文件。

适应杨（sampling）更高效，根据桶列进行哈希函数将数据进行分桶计算。

将一个文件拆成两个。

map join可以使小表和大表广播。

Hive视图（Views）

Hive侧视图 （lateral View）

多练习（后面会用到）

第二节

Hive JOIN - 关联查询(JOIN为内链接) 等值 Join

Hive支持通常的SQL JOIN语句，但是只支持等值连接，不支持费等之连接

案例实操

案例实操

Hive数据排序 - ORDER BY

Apache Hive函数及性能优化

Hive函数分类

输入输出角度分类

你可能感兴趣的:(Hive数据仓库踏坑（上）)

工作中工作效率+开发效率相互权衡。

外部表：Hive并非完全拥有这份数据，删除该表并不会删掉这份数据，不过描述表的元数据信息会被删掉。

修改表增加/修改/替换列信息

第五章 DML数据的控制语言（数据的操作语言）

Hive侧视图（lateral View）