慢！有杀气

《MY大数据开发笔记》----hive知识点总结

hive的作用：hive最初的设计目的是为了给哪些精通sql但是不熟悉Hadoop的分析师，用来分析大规模的结构化的数据文件而设计的。

首先最重要的一点：

hive的使用和关系型数据库的使用方式类似（类sql语句），那我们为什么不使用关系型数据库而使用hive？

1.hive能分析超大数据规模的数据。

2.hive用于分析存储在文件中的结构化的数据。而关系型数据库不能。

所以hive最初的设计目的是：给哪些精通sql但是编码不熟练。而要分析的结构化的数据存储于大规模的文件中。在hive出现之前。是用MR来进行统计和分析。但是对这些存储文件中的结构化的数据。MR都类似。分析的统计最终数据也类似于关系型数据库中的手法。所以索性就将这些MR统一封装。成一个HQL语句。在调用HQL语句分析这些数据时，转换成MR。

一：hive提供的服务

输入hive --service help。弹出hive提供的服务列表。在这里主要介绍常用的几个服务。 cli ,hiveserver,hwi,jar

[s201 ~]$ hive --service help
Usage ./hive  --service serviceName 
Service List: 
beeline cleardanglingscratchdir cli hbaseimport hbaseschematool
 help hiveburninclient hiveserver2 hplsql jar lineage llapdump 
llap llapstatus metastore metatool orcfiledump rcfilecat schemaTool version

1.1 hive cli 服务

默认的服务。输入hive直接启动这个服务，进入cli服务的交互式模式。

[s201 ~]$ hive
SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/soft/apache-hive-2.3.4-bin/lib/log4j-slf4j-impl-2.6.2.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/soft/hadoop-2.9.2/share/hadoop/common/lib/slf4j-log4j12-1.7.25.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.apache.logging.slf4j.Log4jLoggerFactory]

Logging initialized using configuration in jar:file:/soft/apache-hive-2.3.4-bin/lib/hive-common-2.3.4.jar!/hive-log4j2.properties Async: true
Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.
hive>

进入cli的交互式模式。里面的命令如下

quit,exit: 退出交互式shell
reset: 重置配置为默认值
set = : 修改特定变量的值(如果变量名拼写错误，不会报错)
set : 输出用户覆盖的hive配置变量
set -v : 输出所有Hadoop和Hive的配置变量
add FILE[S] *, add JAR[S] *, add ARCHIVE[S] * : 添加一个或多个 file, jar, archives到分布式缓存
list FILE[S], list JAR[S], list ARCHIVE[S] : 输出已经添加到分布式缓存的资源。
list FILE[S] *, list JAR[S] *,list ARCHIVE[S] * : 检查给定的资源是否添加到分布式缓存
delete FILE[S] *,delete JAR[S] *,delete ARCHIVE[S] * : 从分布式缓存删除指定的资源
! : 从Hive shell执行一个shell命令
dfs : 从Hive shell执行一个dfs命令
: 执行一个Hive 查询，然后输出结果到标准输出
source FILE : 在CLI里执行一个hive脚本文件
！+ shell 命令，可以执行宿主机的命令如 !ls /；
dfs 命令可访问Hadoop文件系统

可以在非交互模式下使用cli服务。

script.q是按行分隔的hive命令。这是一个脚本文件。
下面的命令不进入交互式模式而可以直接执行hive脚本。

[s201 ~]$ hive -f script.q


执行单条的hive命令
[s201 ~]$ hive -e 'select * from testTable'

hive会将所有输出打印到标准输出。如果只想看到结果不想看到其他输出信息。
[s201 ~]$ hive -e -S 'select * from testTable'

1.2 hiveserver 服务

hive 以提供Thrift服务的服务器形式运行。允许Hive Thrift client，hive jdbc client， hive odbc连接。设置hive_port来设置该服务器的监听端口号。

启动该服务器的方式：

$>hive --service hiveserver2 &

使用hive jdbc client方式连接到hiveserver。

方式一：使用beeline服务，在命令行连接。

$>beeline						//进入beeline命令行(于hive --service beeline)
$beeline>!help										//查看帮助
$beeline>!quit										//退出
$beeline>!connect jdbc:hive://localhost:10000/mydb2//连接到hibve数据
注，这里连接不上。用
!connect jdbc:hive2://localhost:10000 root
再输入mysql的密码就可以连上了。
具体参考hive的安装配置。
metastore数据存在数据库中，
实际数据存在HDFS上。
所以要连上hive，就需要输入mysql的用户和密码。


$beeline>show databases ;
$beeline>use mydb2 ;
$beeline>show tables;								//显式表

方式二：java编码中使用hive jdbc client方式连接到hiveserver

		

使用Hive-jdbc驱动程序采用jdbc方式访问远程数据仓库
----------------------------------------------------
	1.创建java模块
	2.引入maven
	3.添加hive-jdbc依赖
		
		
			4.0.0

			com.it18zhang
			HiveDemo
			1.0-SNAPSHOT

			
				
					org.apache.hive
					hive-jdbc
					2.1.0
				
			
		

	4.App
		package com.it18zhang.hivedemo;

		import java.sql.Connection;
		import java.sql.DriverManager;
		import java.sql.ResultSet;
		import java.sql.Statement;

		/**
		 * 使用jdbc方式连接到hive数据仓库，数据仓库需要开启hiveserver2服务。
		 */
		public class App {
			public static void main(String[] args) throws  Exception {
				Class.forName("org.apache.hive.jdbc.HiveDriver");
				//Connection conn = DriverManager.getConnection("jdbc:hive2://192.168.231.201:10000/mydb2");
				Connection conn = DriverManager.getConnection("jdbc:hive://192.168.231.201:10000/mydb2");//应该是这个
				Statement st = conn.createStatement();
				ResultSet rs = st.executeQuery("select id , name ,age from t");
				while(rs.next()){
					System.out.println(rs.getInt(1) + "," + rs.getString(2)) ;
				}
				rs.close();
				st.close();
				conn.close();
			}
		}

1.3 hwi 服务

HWI是Hive Web Interface的简称，是hive cli的一个web替换方案。熟悉hive cli就够了，操作hwi更是简单。
所以这里就略过。

1.4 hive jar 服务

hive jar 和Hadoop jar一样，是运行类路径中同时包含Hadoop和hive类java应用程序的方式

1.5 hive metastore服务

要介绍metastore服务，必须先介绍metastore。

metastore包含metastore服务和metastore后台数据的存储。

metastore服务默认是和hive服务程序运行在一个jvm中。我们可以配置metastore服务和hive服务分离，运行在不同的进程中。这样做可以提供更好的管理性和安全性。

如上图，metastare的三种不熟方式。

一：内嵌的metastare。数据库采用内嵌的Derby，一次只能为一个metastare打开一个hive会话。如果尝试打开第二个会话则会报错。

二：本地的metastare。数据库采用mysql，mysql运行在本机或者远程机器。可以打开多个会话。但是metastare服务和hive服务仍然在一个进程中。

三：远程的metastare。数据库采用mysql，mysql运行在本机或者远程机器。可以打开多个会话。metastare服务和hive服务仍然在不同的进程中。

具体的配置，略。入门使用内嵌的，一般情况为了方便都使用本地的，为了考虑安全，商用性可用性等一般使用远程的。

二：hive和传统关系型数据库的区别

	Hive	传统数据库
语言	Hql	sql
数据存储	Hdfs	磁盘
执行	MR	Excutor
延迟	高	低（小规模查询）
处理规模	大	小
索引	0.7.0之后开始支持紧凑索引和位图索引	索引，聚集索引和非聚集索引更新，事务，是传统数据库最重要的特征，当然全部支持
更新	不支持Update的delete，支持insert。后面都支持了
事物	0.13.0之后开始支持事务（表级和分区级），默认不打开，需要配置hive-site参数。
模式	读时模式	写时模式
数据类型	除了基础数据类型还支持，数组，映射，结构	基础数据类型
多表插入	支持	不支持
连接	内连接，外链接，半连接，映射连接	支持，因为hql都是基于此来做的
子查询	只能在from字句中，不支持相关的子查询	任何子句中支持相关的或者不相关的

关键字解释：

聚集索引：物理上逻辑上都是连续的索引，一个表中只能有一个

非聚集索引：逻辑上连续，物理上不连续的索引，一个表中可以有多个

紧凑索引：存储每个值得hdfs块号。不是存储文件的内偏移量，因此不会占用太多的空间

位图索引：使用压缩的位集合来高效存储具有某个特殊值的行。这种缩影一般适用于较少曲子可能的列，如性别和国籍。

读时模式：对数据的验证不在加载数据的时候验证，而在查询的时候才验证。所以叫读时模式。

写时模式：表的模式在数据加载入数据库的时候就确定了，如果加载时发现数据不符合，就拒绝加载。数据在写入数据库时，对照模式进行检查。所以叫写实模式。

三：hive的数据类型详解

3.1基本数据类型

类型名称	大小	示例
TINYINT	1字节整数	45Y
SMALLINT	2字节整数	12S
INT	4字节整数	10
BIGINT	8字节整数	244L
FLOAT	4字节单精度浮点数	1.0
DOUBLE	8字节双精度浮点数	1.0
DECIMAL	任意精度带符号小数	DECIMAL(4, 2)范围：-99.99到99.99
BOOLEAN	true/false	TRUE
STRING	字符串，长度不定	“a”, ‘b’
VARCHAR	字符串，长度不定，有上限	“a”, ‘b’
CHAR	字符串，固定长度	“a”, ‘b’
BINARY	存储变长的二进制数据
TIMESTAMP	时间戳，纳秒精度	122327493795
DATE	日期	‘2016-07-03’

说明：
1，关于整数和小数类型，整数默认情况下为INT，如果要声明为其他类型，通过后缀来标识（Y、S、L）。小数默认为DOUBLE类型，DECIMAL小数点左边允许的最大位数为38位，直接写DECIMAL默认等同于DECIMAL(10,0)。同时任意数值类型都可以隐式转换成更宽的数值类型（不丢精度）或者文本类型。
2，关于文本类型，STRING存储变长的文本，对长度没有限制。理论上将STRING可以存储的大小为2GB，但是存储特别大的对象时效率可能受到影响。VARCHAR与STRING类似，但是长度上只允许在1-65355之间，超过最大长度会被截断。CHAR则用固定长度来存储数据，最大255。
3，关于时间和日期类型，Hive提供了一些内置函数用于在TIMESTAMP与Unix时间戳（秒）和字符串之间做转换：

类型转换	结果
cast(date as date)	相同的日期。
cast(timestamp as date)	基于本地时区确定timestamp的年月日作为值返回。
cast(string as date)	如果字符串的格式为’YYYY-MM-DD’, 则对应的年月日返回。如果字符串不是该格式，则返回NULL。
cast(date as timestamp)	基于本地时区，返回日期对应午夜时间。
cast(date as string)	日期被转换为’YYYY-MM-DD’格式的字符串。

3.2复杂数据类型

类型名称	大小	示例
ARRAY	存储同类型数据	ARRAY< data_type>
MAP	key-value,key必须为原始类型，value可以是任意类型	MAP< primitive_type, data_type>
STRUCT	类型可以不同	STRUCT< col_name : data_type [COMMENT col_comment], …>
UNION	在有限取值范围内的一个值	UNIONTYPE< data_type, data_type, …>说明：

关于元素的访问，ARRAY[1]访问第二个元素；
map访问元素格式为map[‘key’]；
STRUCT元素的访问使用点号；
UNION类型声明语法为UNIONTYPE< data_type,data_type,…>，每个UNION类型的值都通过一个整数来表示其类型，这个整数就是索引，从0开始。例如：

CREATE TABLE union_test(u UNIONTYPE,struct>);  
SELECT u FROM union_test;  
{0:1}  
{1:2.0}  
{2:["three","four"]}  
{3:{"a":5,"b":"five"}}  
{2:["six","seven"]}  
{3:{"a":8,"b":"eight"}}  
{0:9}  
{1:10.0}

3.3 案例实操

（1）假设有如下json表示的数据结构

{
    "name": "songsong",
    "friends": ["bingbing" , "lili"] ,           //列表Array,
    "children": {                               //键值Map,
        "xiao song": 18 ,
        "xiaoxiao song": 19
    }
    "address": {                               //结构Struct,
        "street": "hui long guan" ,
        "city": "beijing"
    }
}

注意：这里猛的一看，键值对MAP和地址结构Struce。在结构上似乎没太大不同。

在自己设计的时候。怎么样区分这种结构，什么时候用MAP。什么时候用Struct.

且找共性：键值Map出。child，每个孩子是不一样的。对应的年龄是不一样的。所以用map结构。

而地址。有两个字段。一个street。一个city。每一个地址都是要有这两个属性的。

如果说child那里也是这样。可以使用性别。年龄。但是有多个孩子。就成了数组。而结构体如果构成数组将变复杂了。

似乎map和结构体可以互相转换。但是寻找一个最优的存储格式。还是有点难。最好就是用单个的数据类型解决。而最好不要用多个数据类型解决。

比如。child如果要用结构体来存。也可以。这会构成一个结构体数组，数组成员两个结构体成员。结构体成员有性别和年龄。

这就用到了两个数据结构。而用map一个数据结构就可以解决。

而地址，如果要用map来解决，也可以。会构成一个map数组。数组成员两个map成员。map成员是地区到具体地区，city到具体city的映射、这就太复杂了。所以选择合适的数据结构来存储数据也是一门学问和经验。

注意，这里存的只是一行的数据，地址这用map其实也是可以的，因为每一行是独立的。只不过结构体更符合逻辑

（2）准备数据文件

/opt/module/datas/test.txt

songsong,bingbing_lili,xiao song:18_xiaoxiao song:19,hui long guan_beijing
yangyang,caicai_susu,xiao yang:18_xiaoxiao yang:19,chao yang_beijing

（3）hive上创建表test

create table test(
name string,
friends array,
children map,
address struct
)
row format delimited fields terminated by ','
collection items terminated by '_'
map keys terminated by ':'
lines terminated by '\n';

字段解释：
row format delimited fields terminated by ','  -- 列分隔符
collection items terminated by '_'      --MAP STRUCT 和 ARRAY 的分隔符(数据分割符号)
map keys terminated by ':'                -- MAP中的key与value的分隔符
lines terminated by '\n';                    -- 行分隔符

（4）导入文本数据到测试表

hive (default)> load data local inpath '/opt/module/datas/test.txt’ into table test

（5）访问三种集合列里的数据，以下分别是ARRAY，MAP，STRUCT的访问方式

hive (default)> select friends[1],children['xiao song'],address.city from test where name="songsong";
OK
_c0    _c1    city
lili    18    beijing
Time taken: 1.5 seconds, Fetched: 1 row(s)

hive (default)>hive (default)> select friends,children,address.city from test where name="songsong";
OK
friends                children                                city
["bingbing","lili"]    {"xiao song":18,"xiaoxiao song":19}    beijing
Time taken: 0.07 seconds, Fetched: 1 row(s)

注，hive的文件读取和存储格式不只是text，还有二进制的文件格式，顺序文件，Avro数据文件，以及RCfile文件。

四：hive 表数据的导入

4.1 从本地文件系统导入

#创建表结构
hive> CREATE TABLE t_hive (a int, b int, c int) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';


hive> LOAD DATA LOCAL INPATH '/home/cos/demo/t_hive.txt' OVERWRITE INTO TABLE t_hive ;
Copying data from file:/home/cos/demo/t_hive.txt


#当然，导入了数据后，就可以通过select * from t_hive来查看数据
hive> select * from t_hive;

4.2 从hdfs文件系统导入

创建表t_hive2
hive> CREATE TABLE t_hive2 (a int, b int, c int) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

#从HDFS加载数据
hive> LOAD DATA INPATH '/user/hive/warehouse/t_hive/t_hive.txt' OVERWRITE INTO TABLE t_hive2;


#查看数据
hive> select * from t_hive2;
OK

4.3 从其他hive表导入

hive> INSERT OVERWRITE TABLE t_hive2 SELECT * FROM t_hive ;

overwrite关键字
overwrite关键字的意思是这个表之前的所有数据将会被替换掉。
如果不使用overwrite，
那么该表之前的数据就仍然存在，仅仅是往其中添加新的记录。

上面的语句等同于
FROM t_hive
INSERT OVERWRITE TABLE t_hive2
SELECT *;

4.3.5 多表插入

FORM table2
INSERT OVERWRITE TABLE table_y_c
    SELECT year,CORNT(DISTINCT station)
    GROUP BY year
INSERT OVERWIRTE TABLE records_by_year
    SELECT year COUNT(1)
    GROUP BY year;

多表查询，扫描一个表的数据，插入多个表。
相比多个单独的INSERT语句，效率更高，
因为单独的INSERT语句，会每次都扫描一次表。

4.4 创建表的时候从其他表导入

#删除表
hive> DROP TABLE t_hive;

#创建表并从其他表导入数据
hive> CREATE TABLE t_hive AS SELECT * FROM t_hive2 ;

就是被简称称为CTAS SELECT语句。

4.5 复制表

hive> CREATE TABLE t_hive3 LIKE t_hive;


#仅仅拷贝了表的结构
hive> select * from t_hive3;
OK
Time taken: 0.077 seconds

4.6 从mysql数据库导入

这里用到了另一个Hadoop组件sqoop.
在后面的文章中再介绍

五：hive 表数据的导出

5.1将表数据导出到本地文件系统

hive> INSERT OVERWRITE LOCAL DIRECTORY '/tmp/t_hive' SELECT * FROM t_hive;

...省略中间的打印信息


#查看本地操作系统
hive> ! cat /tmp/t_hive/000000_0;
hive> 1623
611213
41231
17213
71231
11234
11234

5.2 导出到关系型数据库

通过sqoop。

导出到关系型数据库。是因为关系型数据库的查询比较快。

六：hive 表结构的增（创建）删改查

6.1 hive 表结构的增

//准备数据
>vi /home/cos/demo/t_hive.txt
16      2       3
61      12      13
41      2       31
17      21      3
71      2       31
1       12      34
11      2       34

//进入hive
>hive shell
hive>

//创建新表
hive> CREATE TABLE t_hive (a int, b int, c int) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

//导入数据
hive> LOAD DATA LOCAL INPATH '/home/cos/demo/t_hive.txt' OVERWRITE INTO TABLE t_hive ;

6.2 hive 表结构的查

#查看表 
hive> show tables;
t_hive


#正则匹配表名
hive>show tables '*t*';
t_hive

#查看表数据
hive> select * from t_hive;


#查看表结构
hive> desc t_hive;
OK
a       int
b       int
c       int

6.3 hive 表结构的改

#增加一个字段
hive> ALTER TABLE t_hive ADD COLUMNS (new_col String);

hive> desc t_hive;
OK
a       int
b       int
c       int
new_col string


#重命令表名
~ ALTER TABLE t_hive RENAME TO t_hadoop;

hive> show tables;
OK
t_hadoop

6.4 hive 表结构的删

hive> DROP TABLE t_hadoop;

//查看有哪些表的时候已经没有这个表的存在了
hive> show tables;

七：排序

order by

order by 会对输入做全局排序，因此只有一个reducer（多个reducer无法保证全局有序）
只有一个reducer，会导致当输入规模较大时，需要较长的计算时间。
set hive.mapred.mode=nonstrict; (default value / 默认值)
set hive.mapred.mode=strict;
order by 和数据库中的Order by 功能一致，按照某一项 & 几项排序输出。与数据库中 order by 的区别在于在hive.mapred.mode = strict 模式下必须指定 limit 否则执行会报错。
hive> select * from test order by id;
FAILED: Error in semantic analysis: 1:28 In strict mode, if ORDER BY is specified, LIMIT must also be specified. Error encountered near token 'id'
原因：在order by 状态下所有数据会到一台服务器进行reduce操作也即只有一个reduce，如果在数据量大的情况下会出现无法输出结果的情况，如果进行 limit n ，那只有 n * map number 条记录而已。只有一个reduce也可以处理过来。

sort by

sort by不是全局排序，其在数据进入reducer前完成排序.
因此，如果用sort by进行排序，并且设置mapred.reduce.tasks>1，则sort by只保证每个reducer的输出有序，不保证全局有序。
sort by 不受 hive.mapred.mode 是否为strict ,nostrict 的影响sort by 的数据只能保证在同一reduce中的数据可以按指定字段排序。使用sort by 你可以指定执行的reduce 个数（set mapred.reduce.tasks=）,对输出的数据再执行归并排序，即可以得到全部结果。

注意：可以用limit子句大大减少数据量。使用limit n后，传输到reduce端（单机）的数据记录数就减少到n* （map个数）。否则由于数据过大可能出不了结果。

distribute by

按照指定的字段对数据进行划分到不同的输出reduce / 文件中。
insert overwrite local directory '/home/hadoop/out' select * from test order by name distribute by length(name);
此方法会根据name的长度划分到不同的reduce中，最终输出到不同的文件中。
length 是内建函数，也可以指定其他的函数或这使用自定义函数。

Cluster By

cluster by 除了具有 distribute by 的功能外还兼具 sort by 的功能。
但是排序只能是倒序排序，不能指定排序规则为asc 或者desc。

八：hive的连接查询，聚合查询，子查询，视图

8.1 连接查询

//内连接查询，据说hive不支持这种语法的内连接
hive> select a.*,b.* from customers a , orders b where a.id = b.cid ;
//内连接查询
hive>select a.*,b.* from customers a      outer join orders b on a.id = b.cid ;
//左外连接
hive>select a.*,b.* from customers a left outer join orders b on a.id = b.cid ;
//右外连接
hive>select a.*,b.* from customers a right outer join orders b on a.id = b.cid ;
//全外连接
hive>select a.*,b.* from customers a full outer join orders b on a.id = b.cid ;

//半连接 据说hive不支持这种语法
select * from things_table 
where things_table.id IN (select id from sales);
//半连接，所以引入这个语法代替
SELECT * 
FROM things_table LEFT SEMI JOIN sales ON (sales.id = things_table.id);


map连接
如果要使用map连接，需要再其中加入C语言风格的注释，表示这个是一个MAP连接。
SELECT /* + MAPJOIN(things) */ sales.* things.*
FROM sales JOIN things ON (sales.id = things.id);

8.2 聚合查询

# count, avg
hive> SELECT count(*), avg(a) FROM t_hive;
7       31.142857142857142


# count，distinct
hive> SELECT count(DISTINCT b) FROM t_hive;
3


# GROUP BY
hive> SELECT avg(a),b,sum(c) FROM t_hive GROUP BY b,c
16.0    2       3
56.0    2       62
11.0    2       34
61.0    12      13
1.0     12      34
17.0    21      3

# HAVING
hive> SELECT avg(a),b,sum(c) FROM t_hive GROUP BY b,c HAVING sum(c)>30
56.0    2       62
11.0    2       34
1.0     12      34

8.3 子查询

子查询指的是内嵌在另一个SQL语句中的SELECT语句。

hive只允许子查询出现在SELECT语句中的FROM子句。

SELECT station,year
FROM (
    SELECT station,year
    FROM record2
    ) mt
GROUP BY station;

8.4视图

//创建视图
$hive>create view v1 as select a.id aid,a.name ,b.id bid , b.order \
from customers a left outer join default.tt b on a.id = b.cid ;

//查看视图
$hive>show tables ;
$hive>select * from v1 ;

九：hive的分区和桶

9.1 静态分区

Hive分区的概念与传统关系型数据库分区不同。
传统数据库的分区方式：就oracle而言，分区独立存在于段里，里面存储真实的数据，在数据进行插入的时候自动分配分区。Hive的分区方式：由于Hive实际是存储在HDFS上的抽象，Hive的一个分区名对应一个目录名，子分区名就是子目录名，并不是一个实际字段。

（1）单个分区

创建分区

create table par_tab (name string,nation string) \
partitioned by (sex string) \
row format delimited fields terminated by ',';

该分区表的表结构：

hive> desc par_tab;
OK
name                    string                                      
nation                  string                                      
sex                     string                                      
          
# Partition Information          
# col_name                data_type               comment             
          
sex                     string                                      
Time taken: 0.038 seconds, Fetched: 8 row(s)

准备数据

jan,china
mary,america
lilei,china
heyong,china
yiku,japan
emoji,japan

数据插入分区表

load data local inpath '/home/hadoop/files/par_tab.txt' into table par_tab partition (sex='man');

查看表数据

hive> select * from par_tab;
OK
jan    china    man
mary    america    man
lilei    china    man
heyong    china    man
yiku    japan    man
emoji    japan    man
Time taken: 0.076 seconds, Fetched: 6 row(s)

查看表存储在hdfs上的目录结构

[hadoop@hadoop001 files]$ hadoop dfs -lsr /user/hive/warehouse/par_tab

drwxr-xr-x   - hadoop supergroup          0 2017-03-29 08:25 /user/hive/warehouse/par_tab/sex=man
-rwxr-xr-x   1 hadoop supergroup         71 2017-03-29 08:25 /user/hive/warehouse/par_tab/sex=man/par_tab.txt

再准备数据

lily,china
nancy,china
hanmeimei,america

再插入数据

load data local inpath '/home/hadoop/files/par_tab_wm.txt' into table par_tab partition (sex='woman');

再查看表数据

hive> select * from par_tab;
OK
jan    china    man
mary    america    man
lilei    china    man
heyong    china    man
yiku    japan    man
emoji    japan    man
lily    china    woman
nancy    china    woman
hanmeimei    america    woman
Time taken: 0.136 seconds, Fetched: 9 row(s)

再查看表在hdfs上的存储结构

[hadoop@hadoop001 files]$ hadoop dfs -lsr /user/hive/warehouse/par_tab
drwxr-xr-x   - hadoop supergroup          0 2017-03-29 08:25 /user/hive/warehouse/par_tab/sex=man
-rwxr-xr-x   1 hadoop supergroup         71 2017-03-29 08:25 /user/hive/warehouse/par_tab/sex=man/par_tab.txt
drwxr-xr-x   - hadoop supergroup          0 2017-03-29 08:35 /user/hive/warehouse/par_tab/sex=woman
-rwxr-xr-x   1 hadoop supergroup         41 2017-03-29 08:35 /user/hive/warehouse/par_tab/sex=woman/par_tab_wm.txt

查询指定分区的表数据

hive> select * from par_tab where sex='woman';
OK
lily    china    woman
nancy    china    woman
hanmeimei    america    woman
Time taken: 0.515 seconds, Fetched: 3 row(s)

（2）多分区

创建多分区的表

hive> create table par_tab_muilt (name string, nation string) \
partitioned by (sex string,dt string) \
row format delimited fields terminated by ',' ;


hive> load data local inpath '/home/hadoop/files/par_tab.txt' \
into table par_tab_muilt partition (sex='man',dt='2017-03-29');

查看存储在hdfs上的目录结构。与单个分区表的不同的

[hadoop@hadoop001 files]$ hadoop dfs -lsr /user/hive/warehouse/par_tab_muilt
drwxr-xr-x   - hadoop supergroup          0 2017-03-29 08:45 /user/hive/warehouse/par_tab_muilt/sex=man
drwxr-xr-x   - hadoop supergroup          0 2017-03-29 08:45 /user/hive/warehouse/par_tab_muilt/sex=man/dt=2017-03-29
-rwxr-xr-x   1 hadoop supergroup         71 2017-03-29 08:45 /user/hive/warehouse/par_tab_muilt/sex=man/dt=2017-03-29/par_tab.txt

9.2 动态分区

启用动态分区

hive> set hive.exec.dynamic.partition=true;

插入数据(dt是冬天分区)

hive> insert overwrite table par_dnm partition(sex='man',dt)
    > select name, nation, dt from par_tab;

注意，动态分区不允许主分区采用动态列而副分区采用静态列，这样将导致所有的主分区都要创建副分区静态列所定义的分区。

动态分区可以允许所有的分区列都是动态分区列，但是要首先设置一个参数

hive> set hive.exec.dynamic.partition.mode=nostrick;

9.3 桶

十：hive 自定义函数

1.创建类，继承UDF
		package com.it18zhang.hivedemo.udf;

		import org.apache.hadoop.hive.ql.exec.Description;
		import org.apache.hadoop.hive.ql.exec.UDF;

		/**
		 * 自定义hive函数
		 */
		@Description(name = "myadd",
				value = "myadd(int a , int b) ==> return a + b ",
				extended = "Example:\n"
						+ " myadd(1,1) ==> 2 \n"
						+ " myadd(1,2,3) ==> 6;")
		public class AddUDF extends UDF {

			public int evaluate(int a ,int b) {
				return a + b ;
			}

			public int evaluate(int a ,int b , int c) {
				return a + b + c;
			}
		}
	2.打成jar包。
		cmd>cd {classes所在目录}
		cmd>jar cvf HiveDemo.jar -C x/x/x/x/classes/ .
	3.添加jar包到hive的类路径
		//添加jar到类路径
		$>cp /mnt/hgfs/downloads/bigdata/data/HiveDemo.jar /soft/hive/lib
	
	3.重进入hive
		$>....

	4.创建临时函数
		//
		CREATE TEMPORARY FUNCTION myadd AS 'com.it18zhang.hivedemo.udf.AddUDF';

	5.在查询中使用自定义函数
		$hive>select myadd(1,2)  ;
	
	6.定义日期函数
		1)定义类
		public class ToCharUDF extends UDF {
			/**
			 * 取出服务器的当前系统时间 2017/3/21 16:53:55
			 */
			public String evaluate() {
				Date date = new Date();
				SimpleDateFormat sdf = new SimpleDateFormat();
				sdf.applyPattern("yyyy/MM/dd hh:mm:ss");
				return sdf.format(date) ;
			}
			public String evaluate(Date date) {
				SimpleDateFormat sdf = new SimpleDateFormat();
				sdf.applyPattern("yyyy/MM/dd hh:mm:ss");
				return sdf.format(date) ;
			}

			public String evaluate(Date date,String frt) {
				SimpleDateFormat sdf = new SimpleDateFormat();
				sdf.applyPattern(frt);
				return sdf.format(date) ;
			}
		}

		2)导出jar包，通过命令添加到hive的类路径(不需要重进hive)。
			$hive>add jar /mnt/hgfs/downloads/bigdata/data/HiveDemo-1.0-SNAPSHOT.jar
		
		3)注册函数
			$hive>CREATE TEMPORARY FUNCTION to_char AS 'com.it18zhang.hivedemo.udf.ToCharUDF';
			$hive>CREATE TEMPORARY FUNCTION to_date AS 'com.it18zhang.hivedemo.udf.ToDateUDF';

你可能感兴趣的:(MY大数据开发笔记,hive)

MySQL程序之：使用DNS SRV记录连接到服务器 Run Out Of Brain mysql
在域名系统（DNS）中，SRV记录（服务位置记录）是一种资源记录，它使客户端能够指定指示服务、协议和领域的名称。DNS查找该名称会返回一个回复，其中包含该领域中提供所需服务的多个可用服务器的名称。有关DNSSRV的信息，包括记录如何定义所列服务器的首选顺序，请参见RFC2782。MySQL支持使用DNSSRV记录连接服务器。收到DNSSRV查找结果的客户端会根据域名系统管理员分配给每个主机的优先级
二进制/源码编译安装mysql 8.0 雷学习 Linux mysql 数据库
二进制方式：1.下载或上传安装包至设备：2.创建组与用户：[root@openEuler-1~]#groupaddmysql[root@openEuler-1~]#useradd-r-gmysql-s/bin/falsemysql3.解压安装包：tarxfmysql-8.0.36-linux-glibc2.12-x86_64.tar.xz-C/usr/local4.建立软链接：ln-sv/usr/
linux 安装mysql5.6 李逍遙️ linux adb android
下载mysql安装包https://dev.mysql.com/downloads/mysql/5.6.html卸载系统自带的mariadb[root@gpap-prod-3~]#rpm-qa|grepmariadbmariadb-libs-5.5.68-1.el7.x86_64[root@gpap-prod-3~]#rpm-e--nodepsmariadb-libs-5.5.68-1.el7.x
python-mysql-连接池 Xiaohuansong python笔记 python mysql 连接池
利用内部队列编写的简易的支持上下文的连接池，目前只支持多线程内的链接代码如下实现了最大最小连接池的限制，链接回收，dml封装，动态维护链接等操作importMySQLdbimportloggingimportQueuefromthreadingimportThreadfromcontextlibimportcontextmanagerimporttimeclassMysqlTool(object)
Python mysql数据库连接池戴** Python
最近在写一个Python的文本分析,需要大量的读取数据库(千万级别mysql)并进行更新操作,运行着程序发现一个问题,过了一会儿程序就报错说链接已经满了,或者是端口不可重复使用,因此我在网上找到了一个连接池的代码用于解决这个问题,在此处贴出代码本身是有配置文件的,因为我觉得在我的项目中不必要所以就删除了#!/usr/bin/envpython#-*-coding:utf-8-*-importpym
04-初识Docker-Docker架构我以为心都空了微服务 docker 架构容器
04-初识Docker-Docker架构1.镜像和容器：(1)镜像(Image)：Docker将应用程序及其所需的依赖、函数库、环境、配置等文件打包在一起，称为镜像。解释：比如之前讲过的Mysql镜像，它里面肯定就会有各种各样所需要的依赖。这些东西最终落到硬盘就是一个一个的文件。比如说这里有Mysql运行时需要写数据的data目录文件，还有log日志文件，当然还有bin里面的可执行文件，这些就组成
mysql连接池 persist_gd 数据库
先建表createtableusers(idintnotnullauto_increment,namevarchar(50)notnull,primarykey(id))engine=innodbdefaultcharset=utf8;连接池importtimeimportpymysqlimportthreadingfromDBUtils.PooledDBimportPooledDB,Shared
MySQL学习笔记5: MySQL查询语句案例及pymysql模块 Hojas MySQL mysql 学习笔记
MySQL学习笔记5:MySQL查询语句案例及pymysql模块文章目录MySQL学习笔记5:MySQL查询语句案例及pymysql模块一些MySQL语句案例pymysql模块sql注入总结pymysql补充一些MySQL语句案例1、查询所有的课程的名称以及对应的任课老师姓名--SELECT--course.cname,--teacher.tname--FROM--course--INNERJOI
Mysql数据库和Sql语句 Jessica小戴数据库 mysql sql
数据库管理：sql语句：数据库用来增删改查的语句（重要）备份：数据库的数据进行备份主从复制、读写分离、高可用（重要）Mysql数据库和Sql语句一、Mysql数据库1、数据库：组织、存储、管理数据的仓库2、数据库的管理系统（DBMS）：实现对数据有效组织、管理和存取的系统软件3、数据库软件：mysql、oracle（大数据系统一般使用、大企业使用）、sql-server、MariaDB也是mysq
【2025年】全国CTF夺旗赛-从零基础入门到竞赛，看这一篇就稳了！白帽黑客鹏哥 linux 网络安全 web安全密码学 CTF夺旗赛
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包目录一、CTF简介二、CTF竞赛模式三、CTF各大题型简介四、CTF学习路线4.1、初期1、html+css+js（2-3天）2、apache+php（4-5天）3、mysql（2-3天）4、python(2-3天)5、burpsuite（1-2天）4.2、中期1、SQL注入（7-8天）2、文件上传（7-8天）3、其他漏洞（14-15
mybatis-plus: 多租户隔离机制玉成226 【MyBatis-plus】mybatis
文章目录一、TenantLineHandler1、介绍2、包含的方法二、简单实例三、实践1、实现TenantLineHandler接口一、TenantLineHandler1、介绍TenantLineHandler是Mybatis-Plus中用于处理多租户的接口，用于实现多租户数据隔离的具体逻辑。通过实现这个接口，我们可以自定义多租户的处理方式，例如根据不同的租户信息动态拼装SQL条件，实现数据的
Mybatis-plus 实现多租户业务实战 Java技术攻略 mybatis
前言今天来了解下如何使用mybatis-plus实现我们的多租户实战，从多租户概念引入到SpringBoot项目中的实际应用。这块也之前已经在项目中应用，将这部分功能摘取出来进行demo演示。一、多租户概念1.1云服务模式要想了解下多租户的概念，我们需要了解下几种云服务模式，常见的有IAAS、PAAS、SAAS等服务。而我们的多租户是SAAS服务特有的产物。SAAS服务是部署在云端，客户可以同时使
MySQL字段约束条件,外键约束条件,表关系 Yietong309 MySQL数据库 mysql 数据库开发语言
目录字符编码与配置文件统一字符编码存储引擎修改存储引擎的方式自定义选项存储引擎不同存储引擎产生的表文件有几个?MERGEInnoDBArchiveBLACKHOLEblackhole与memory存取数据的特征Blackhole：丢弃写操作，读操作会返回空内容Memory：置于内存的表创建表的完整语法字段类型之整型字段类型之浮点型字段类型之字符类型字段类型之枚举与集合字段类型之日期类型约束条件自增
mysql 用户名命名_MySQL命名、设计及使用规范《MySQL命名、设计及使用规范》 syzyzs mysql 用户名命名
数据库环境dev：开发环境，开发可读写，可修改表结构。开发人员可以修改表结构，可以随意修改其中的数据但是需要保证不影响其他开发同事。qa：测试环境，开发可读写，开发人员可以通过工具修改表结构。sim：模拟环境，开发可读写，发起上线请求时，会先在这个环境上进行预执行，这个环境也可供部署上线演练或压力测试使用。real：生产数据库从库(准实时同步)，只读环境，不允许修改数据，不允许修改表结构，供线上问
基于mybatis-plus实现的多租户架构叔叔很忙 java spring
整体概述多租户技术或称多重租赁技术，简称SaaS，是一种软件架构技术，是实现如何在多用户环境下（多用户一般是面向企业用户）共用相同的系统或程序组件，并且可确保各用户间数据的隔离性。多租户在数据存储上主要存在三种方案，独立数据库、共享数据库，独立Schema、共享数据库，共享Schema，共享数据表。独立数据库即一个租户一个数据库，这种方案的用户数据隔离级别最高，安全性最好，但成本较高。优点：为不同
后端学习1.4： Mybatis-plus配置多租户 Congee_porridge 后端开发学习 mybatis java spring boot 后端
功能要求Mybatis-plus配置多租户。从header中的token获取租户信息；所有userController的数据库操作*不要*配置多租户，所有工作计划相关的数据库操作*需要*配置多租户，达成数据隔离。开发工具：IDEA技术：Springboot+MabtisPlus+Postman1、什么是多租户？多租户技术（多重租赁技术，简称saas），是一种软件架构技术；可以实现同一套程序下用户数
【MyBatis-Plus】实现多租户功能会飞的猪ϵ( 'Θ' )϶ spring cloud微服务 mybatis 数据库 java
一、引言多租户是一种软件架构技术，在多用户的环境下，共有同一套系统，并且要注意数据之间的隔离性。举个实际例子：小编曾经开发过一套H5程序，这套程序应用在不同医院的APP上，当医院患者下载医院APP，并且进入相对应的H5页面，APP则会把用户相关数据传输到小编这里。在传输的时候需要带上医院标识（租户ID），以便小编将数据进行隔离。当不同的租户使用同一套程序，这里就需要考虑一个数据隔离的情况。数据隔离
IDEA+Java+JSP+Mysql+Tomcat实现Web图书管理系统-添加管理员增删改查功能 omofun5541 java intellij-idea mysql
图书名称：图书价格：图书作者：出版公司：添加重置admin_delete.jsp删除图书欢迎您：安全退出admin_detail.jsp图书详情欢迎您：安全退出图书详情返回上一级图书编号图书名称图书价格图书作者图书封皮图书出版社图书列表admin_do_addbook.jsp处理新增图书欢迎您：安全退出admin_do_info.jsp书籍信息”);System.out.println(bookC
深入浅出 SQLSugar：快速掌握高效 .NET ORM 框架 m0_74823595 .net
SQLSugar是一个高效、易用的.NETORM框架，支持多种数据库（如SQLServer、MySQL、PostgreSQL等）。它提供了丰富的功能，包括CRUD操作、事务管理、动态表名、多表联查等，开发者可以通过简单的链式操作实现复杂的数据库逻辑。本文将以完整的示例，详细介绍SQLSugar的安装、配置和功能使用，适用于.NETFramework和.NETCore项目。一、SQLSugar简介1
足球俱乐部管理系统（11293） codercode2022 spring boot spring cloud 后端 hibernate 架构 laravel actionscript
有需要的同学，源代码和配套文档领取，加文章最下方的名片哦一、项目演示项目演示视频二、资料介绍完整源代码（前后端源代码+SQL脚本）配套文档（LW+PPT+开题报告）远程调试控屏包运行三、技术介绍Java语言SSM框架SpringBoot框架Vue框架JSP页面Mysql数据库IDEA/Eclipse开发
【python自动化运维】python第三方运维模块应用 leo__programmer python自动化运维运维 python 自动化
一、pymysql模块——数据库编程1、介绍第三方模块作用:连接MySQL数据库1.1、操作流程创建数据库连接基于连接创建游标cursor数据库读写操作关闭游标关闭数据库连接2、pymysql模块的使用2.1、准备工作准备MySQL数据库安装pymysql模块pipinstallpymysql安装配置MySQL数据库[root@localhost~]#yuminstall-ymariadb-ser
MySQL面试题 2024 金九银十最新 C# 高级资深 DB 八股文云草桑 .net 面试 sql 数据库 mysql sql net c#
最新mysql八股文chatgpt都能回答的问题，就没必要螺丝是往那边扭了。目录一、数据库知识（通用）篇1.说说drop、truncate、delete区别2.说说主键、外键、超键、候选键3.varchar和char的使用场景?4.什么叫视图？游标是什么？5.说说like%和-的区别6.为什么用自增列作为主键？7.说说非关系型数据库和关系型数据库区别，优势比较?8.说说存储过程的优缺点？9.什么是
基于JAVA水果商城设计计算机毕业设计源码+数据库+lw文档+系统+部署柳下网络 java 开发语言 jvm
基于JAVA水果商城设计计算机毕业设计源码+数据库+lw文档+系统+部署基于JAVA水果商城设计计算机毕业设计源码+数据库+lw文档+系统+部署本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：ideaeclipse前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAVA运行环境：Win10、JDK1.8数据库：MySQL5.7/8.0源码地址：https
Mybatis-plus 多租户插件 YaYicho mybatis java
前言本篇主要分析Mybatis-plus多租户插件，然后根据多租户插件在延伸到其他场景案例Mybatis-plus官网对多租户插件已有详细讲解，这里就不在附上使用案例。源码分析MybatisPlus官方是由TenantLineInnerInterceptor这个拦截器进行多租户功能处理，所以，本篇章主要对TenantLineInnerInterceptor这个类的讲解。TenantLineInne
Java开发笔记 zxg45 个人笔记 #Java java spring boot jdk
Java开发笔记1、工具类1.1时间1.2JSON操作2、文件操作3、网络1、工具类1.1时间时间格式化publicstaticfinalDATE_PATTERN="yyyy-MM-ddHH:mm:ssSSS";Stringdate=newSimpleDateFormat(DATE_PATTERN).format(newDate());实体类注解时间格式化publicstaticfinalStri
MySQL 基础篇睫毛进眼睛了！ SQL mysql
文章目录MySQL基础篇1.数据库概述1.1.表、记录、字段1.2.表的关联关系1.2.1.一对一关联（one-to-one）1.2.2.一对多关联（ont-to-many）1.2.3.多对多关联（mant-to-many）2.SQL之SELECT2.1.基本规则2.2.基本语法2.3.运算符2.3.1.算术运算符2.3.2.比较运算符2.3.3.逻辑运算符2.3.4.位运算符2.3.5.运算符优
springboot+mybatis的pageInfo分页的参数含义媤纹琴獣 java
//当前页privateintpageNum;//每页的数量privateintpageSize;//当前页的数量privateintsize;//总页数privateintpages;//第一页privateintfirstPage;//上一页privateintprePage;//下一页privateintnextPage;//总记录数privatelongtotal;//由于startRow
MySql场景面试题：满意度调查分组去除最高最低求平均分码到三十五 mysql高手 mysql spring boot spring cloud 分布式数据分析数据挖掘
❃博主首页：「码到三十五」，同名公众号:「码到三十五」，wx号:「liwu0213」☠博主专栏：♝博主的话：搬的每块砖，皆为峰峦之基；公众号搜索「码到三十五」关注这个爱发技术干货的coder，一起筑基场景描述我们有一个员工满意度调查系统，数据库中有一张表：survey_scores表：存储员工对公司的满意度打分。表结构如下：--调查打分表CREATETABLEsurvey_scores(score
洞见数据未来，StarRocks Summit Asia 2024 即将启幕！人工智能data
在AI时代，我们需要怎样的数据基础软件？数据量和数据类型的需求飞速上涨，我们不仅需要将历史上各种基础设施中的数据进行分析使用，还要关注性能、灵活性、性价比，以及确保单一可信数据源。这一切构成了当前大数据领域的核心难题。今年12月，StarRocksSummitAsia重磅启动！作为年度数据盛会，我们将从用户、平台方、业务领袖和技术极客等不同视角展开交流，携手共建未来的数据解决方案。本届峰会，我们将
小明，谈谈Vue组件动态加载有哪些方式程序员
动态加载组件可以显著提高应用的性能，优化用户体验，尤其是在大型应用中，合理的组件加载策略尤为重要。本文将探讨几种在Vue中实现组件动态加载的具体方案。1.异步组件Vue允许将组件定义为异步组件，从而在需要时动态加载它们。这可以通过使用import()函数来实现，具体示例如下：constAsyncComponent=()=>import('./components/MyComponent.vue')
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟