坦然之

HIVE总结

1.Hive架构设计概念

user interface ：hive cli,hive client,hwi 	
Hive CLI(hive command line interface):Hive命令行交互模式,默认支持 
Hive Client(jdbc/odbc/beeline):Hive jdbc交互模式,外部程序或者服务对接的必选项 
HWI (hive web interface):Hive web交互模式,cli模式的补充 	
HiveServer2:以Thrift为基础实现的跨语言的接口调用,并支持多客户端的并发和认证 	
Driver (SQL Parser Query Optimizer Excution):Hive核心驱动器接口类,衔接UI与内核的解析、优化、执行器的桥梁 	
MetaStore (Mysql,Derby):Hive元数据存储,包括库、表、分区、可嵌入式、本地、远程独立部署

2.Hive运行流程：

(Hive CLI,Hive Client-->HiveServer2,HWI) -->Driver <-->MetaStrore

3.Hive是构建再hadoop上的数据仓库框架,解决了非开发人员使用hadoop的问题,Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。本质是将HQL转换为MapReduce程序(可以看做对MapReduce的封装)

4.Hive非常适合数据仓库中，对时延要求不那么敏感的场景。低时延的使用Hbase

5.Hive主要用于查询,不支持行级别的update和delete

6.传统仓库区别： Orcal 是单机， Hive基于HDFS分布式

7.读时模式：shema on read 为了更好的写入数据,在读的时候进行模式检查

8.写时模式：shema on write 为了更好的查,在写的时候进行模式检查

9.Hive meta data 2中存储方式：内置Derby 有目录缺陷和单会话缺陷 Mysql

10.HQL语句不识别TAB分隔

11.元数据 metadata
原数据 original data
源数据 source data

12.Hive常用命令：

    1.执行Hadoop命令： dfs -ls /user/....
	2.执行linux命令：! ls /user/...
	3.Hive命令行中默认显示库名
		cd ~
		vi .hiverc
		set hive.cli.print.current.db=true; -->显示库名
		set mapred.job.name=hive-cli-01; -->显示job名

13.Hive数据模型：库,表,分区,分桶

14.Hive表分类：

    分类1：内表(托管表,管理表)：删除元数据,真实数据
		   外表(external)：只删除元数据
	分类1使用场景：数据只为hive使用,建立内表
				   数据还可能给hive以外的程序使用,数据本身就是给hive以外的程序建立的使用,hive只是共享使用,使用外表
	分类2：普通表,分区表,分桶表,分区分桶表

15.Hive数据类型基本类型

数值(tinyint,smallint,int,bigint,float,double),string,boolean,timestamp,binary

16.Hive数据类型之复杂类型：array,map,struct

    1.select形式输入：
		select array(1,2,3);
		select map("a",1,"b",2);
		select struct(1,2)
	2.建表字段为复杂类型
		create table table_name (
		info_1 array,
		info_2 map
		info_3 struct
		info_4 struct
		)
		row format delimited
		fields terminated by ','
		collection items terminated by '::'
		map keys terminated by '\003';
	3.insert复杂类型
		insert into emp01 select 'tom',array('english','chinese') from dual;
		insert into userinfo select 'tom',map('type','chinese') from dual;  
		insert into userinfo select 'tom',struct('hebei','[email protected]','male') from dual;  
		(struct类型 不能轻易insert,必须字段名为：col1,col2,col3....)
	4.load复杂类型
		load data inpath '....' into table emp01; 
		load的时候注意原文件的分隔符等因素
	5.访问复杂类型
		select id, name[0], score['all'] , score['语文'], addr.province from demo;

17.Hive文件格式及压缩格式

    1.默认文件格式：textfile     面向行：txt,seq,面向列:rc,orc
	2.压缩格式：可切分:lzo,bz2 不可切分：snappy,gzip
	3.查看hive/hadoop中内置编码,解码
		set io.compression.codes;

18.压缩优缺点：

    优点：减少占用磁盘的空间,减小磁盘或者网络i/o,从而提高吞吐量和i/o性能
	缺点：增加cup开销

19.HQL DDL

    1.输入规范：
		CREATE, DROP, ALTER
		DESC <表名>;（DESCRIBE <表名>; 的简写）
		DESC FORMATTED <表名>;
		SHOW CREATE TABLE <表名>;
	2.修改表结构时，只是修改的结构，数据是不会变的，这里hive与MySQL不同，要注意
	3.根据某表结构创建另外一张表
		CREATE TABLE 表1名 LIKE 表2名
		INSERT INTO 表2名 SELECT *  FROM 表1名;
	4.修改表的名称
		ALTER TABLE 表旧名 RENAME TO 新名;
	5.给表添加字段
		ALTER TABLE 表名 ADD COLUMNS (字段名 字段类型);
	6.修改表的字段
		ALTER TABLE my_tbl_2 REPLACE COLUMNS (name string);
		ALTER TABLE my_tbl_2 REPLACE COLUMNS (id int, name string);
		ALTER TABLE my_tbl_2 REPLACE COLUMNS (id int, age int, salary double);
		ALTER TABLE my_tbl_2 REPLACE COLUMNS (id int, name string, salary double);

        ALTER TABLE my_tbl_2 CHANGE COLUMN id my_id int;
		ALTER TABLE my_tbl_2 CHANGE COLUMN id id int AFTER age;
		ALTER TABLE my_tbl_2 CHANGE COLUMN id id int FIRST;
	7.字段名是乱码的问题：
		因为Hive的元数据MySQL设置是latin。。。。
	8.建表模板(默认参数)：
		create [external] table [if not exists] 表名 (
		字段名 字段类型,
		字段名 字段类型
		)
		comment 表注释
		partitioned by 字段名,字段名
		clustered by 字段名,字段名
		sorted by 字段名,字段名 into 分桶个数 buckets
		row format delimited
		fields terminated by '\001'
		collection items terminated by '\002'
		map keys terminated by '\003'
		lines terminated by '\n'
		stored as textfile
		location hdfs_path;
		
     9.关键词解释
    	 external: 创建内部表还是外部表，此为内外表的唯一区分关键字。
    	 comment col_comment: 给字段添加注释
    	 comment table_comment: 给表本身添加注释
    	 partitioned by: 按哪些字段分区，可以是一个，也可以是多个
    	 clustered by col_name... into num_buckets BUCKETS:按哪几个字段做hash后分桶存储
    	 row format:用于设定行、列、集合的分隔符等设置
    	 stored as : 用于指定存储的文件类型，如 text,rcfile 等
    	 location : 设定该表存储的 hdfs 目录，如果不手动设定，则采用hive默认的存储路径
	10.Hive表的默认配置
		CREATE TABLE demo (
		id INT, 
		name STRING, 
		salary DOUBLE, 
		nick_name ARRAY, 
		score MAP, 
		addr STRUCT 
		) 
		ROW FORMAT DELIMITED 
		FIELDS TERMINATED BY '\001' 
		COLLECTION ITEMS TERMINATED BY '\002' 
		MAP KEYS TERMINATED BY '\003' 
		LINES TERMINATED BY '\n' 
		STORED AS TEXTFILE;

20.HQL DML

   1.插入数据3种方法：
		1.insert values:
			insert into demo (name, id, salary) values ('Lucy', 6, 3.4);
		2.将查询结果插入表中：
			insert  表名
			partition (col1=...,col2=...) + 查询语句
			select * from (
			select 1, 'abc', 5.6 
			union all 
			select 2, 'xyz', 7.8	
			) t;   -->别名t必须有
		3.加载数据
			load data [local] inpath '文件路径' [overwrite] into table 表名 partition (col1=...);
	2.多插入模式：
		from 表名
		insert overwrite table 表1名 partition(col1=11)
		select id,name,cla where id = ...
		insert overwrite table 表2名 partition()
		select * where name = ...		
	3.将表数据写入到hdfs目录中:
		insert overwrite [local] directory "目录路径" 
		row format delimited
		fields terminated by '\t'
		select * from 表名 where ....	
	4.语句规范
		1.INSERT  <表名> <查询语句>
		2.LOAD DATA [LOCAL] INPATH '<绝对路径>' [OVERWRITE] INTO TABLE <表名>;
		3.OVERWRITE是先删除原数据再添加新数据，否则就是直接追加
		4.LOCAL代表从本地文件系统进行复制，不加LOCAL则从HDFS进行移动
		5.绝对路径要用引号引起来，绝对路径可以是单个文件，也可以是一个目录，如果是一个目录，则会读取该目录下所有的文件内容（不递归，建议不要再有子目录）

21.Hive DQL

   1.单表查询：
		1.where :同MySQL差不多
		2.distinct
			select distinct teacher_id from student_score;  -->一般是数据清洗了
			数据量大的话推荐使用group by
		3.group by:
			group by id,name,score,teacher_id;    -->group by后面的字段得写全
		4.limit
			select id,name,score,teacher_id from student limit 1;
		5.统计函数/聚合函数/分组查询count,sum,avg,max,min,group by,having
	2.order by 与 sort by
		1.概念
			order by是全局排序,它会只使用一个reducer；
			sort  by是部分排序,每个reducer的输出均有序,但是全局上不一定有序	
		2.order by
			partition (dt='20181105') 
			insert overwrite table mb1_sort 
			select uid, name, url from mb1 order by uid;
		3.sort by
			insert overwrite table mb1_sort 
			partition (dt='20181104') 
			select uid, name, url from mb1 sort by uid;
		4.Hive中设置reduce个数:
			set mapred.reduce.tasks=3;
	3.distribute by 和 cluster by
		1.distribute by 概念：
			控制mapper的输出在reducer中是如何划分的,解决的问题和分桶一样
			分桶机制是在与建表语句结合使用的
			如果我们只是进行select操作,并将结果输出到一张未分桶的表中时,
			为了实现和分桶一样的效果,就要在select语句中使用distribute by	
		2.必需事项：
			2.1.同时需要设置和分桶个数相匹配的reducer数目
				set mapred.reduce.tasks=3
			2.2.示例：
				insert overwrite table mb1_cluster 
				partition (dt='20181105') 
				select uid, id, name, url 
				from mb1 
				distribute by uid;   -->相同的uid会放到一个桶中
			2.3.之后可以直接sort by
				insert overwrite table mb1_cluster 
				partition (dt='20181104') 
				select uid, id, name, url 
				from mb1 
				distribute by uid 
				sort by id;
			3.cluster by
				等价于 distribute by uid sort by uid
	4.多表查询-union/union all
		union     去重,相对效率低
		union all 不去重
		Hive要求:连接的查询字段数量要相同,对应字段类型也要相同
	5.多表查询-子查询/连接查询	
		1.在select之后
			不支持子查询,改为连接查询
		2.在from之后
			类似与MySQL
		3.在where之后
			类似与MySQL
		4.Hive查询特点
			4.1.Hive会对每一个join操作触发一个MR Job
				(如a join b join c:针对a join b触发一个Job,计算出a join b的结果后，
				再使用这个结果join c,这又会触发一个Job)
			4.2.目前，Hive只支持等值连接。
		5.join查询
			inner join:
			left outer join:左表为主,左表数据全部保留,没有关联上的数据设置为NULL
			right outer join:
			full outer join:么有关联上数据字段全部设置为NULL
	6.注意事项：
		1.对分号敏感：
			rdb sql分号使用：
			select concat(key,concat(';',key)) from table;
			hive 分号使用：
			select concat(key,concat('\;',key)) from table;
		2.NULL值判断：
			is null 或者 is not null

22.分区

   1.分区概念：
		1.Hive在查询时通常是做全表扫描的,而一个好的分区设计可以避免全表扫描
		  并且可以大大减少Hive的扫描数据量
		2.最常见的分区表是按天建立分
		  (当然也有使用时间空间两个维度进行分区的,第一个分区是按天建立的,
		  第二个则按地区建立）
		3.分区不能过多,否则就会大大增加NameNode的压力
		  (Hadoop HDFS更适合存储与处理少量的大文件而不是大量的小文件)
		  这时候一般就会结合使用分桶机制
		4.分区是一种特殊的列,这种列的值不在数据文件中,而是通过目录名称读取的,
		  分区实际上正对应了HDFS中的目录
	2.分区：
		1.表结构：
			create table my_access_history (
			id int,
			name string,
			url string
			) 
			partitioned by (dt string) 
			ROW FORMAT DELIMITED 
			FIELDS TERMINATED BY '\t' ;
		2.load数据：
			vi my_access_history
			2	小明	http://www.qq.com/
			LOAD DATA LOCAL INPATH 'my_access_history' 
			INTO TABLE my_access_history
			PARTITION (dt='20181017');
		3.insert数据：
			INSERT INTO my_access_history 
			PARTITION  (dt='20181019') 
			SELECT * FROM (
			SELECT 2, 'James', 'http://www.google.com/' 
			)t;
		4.查看表有哪些分区：
			show partitions my_access_history;
		5.规范查看分区：
			select * from 表名 where dt=2222 limit 10;
		6.动态分区(默认关闭,使用静态分区)
			set hive.exec.dynamic.partition=true;
			set hive.exec.dynamic.partition.mode=nonstrict;
			有2个分区字段的时候,第一个必须是静态的，第二个是动态的
			INSERT INTO my_access_history 
			PARTITION (dt) 
			select * from (
			SELECT 1, '小红', 'http://www.baidu.com/', '20181020'
			)t;

			INSERT INTO my_access_history 
			PARTITION (dt) 
			select * from (
			SELECT 1, '小红', 'http://www.baidu.com/', '20181021' 
			union all 
			SELECT 3, '小强', 'http://www.google.com/', '20181022'
			)t;

			INSERT OVERWRITE TABLE my_access_history 
			PARTITION (dt) 
			select * from (
			SELECT 1, '小红', 'http://www.baidu.com/', '20181018' 
			union all 
			SELECT 3, '小强', 'http://www.google.com/', '20181018'
			)t;

23.分桶

1.概念：分桶可以使数据均匀分布，提高查询效率
		 (尤其是连接查询map side join),特别适用于抽样查询场景
 2.桶的数量一般对应reducer的数量

3.建表位置：
			create table my_access_history_buckets (
			user_id int, 
			id int,
			name string,
			url string
			) 
			partitioned by (dt string) 
			clustered by (user_id) into 10 buckets 
			ROW FORMAT DELIMITED 
			FIELDS TERMINATED BY '\t' ;
4.设置分桶:	
		set hive.enforce.bucketing=true;
5.正确分桶：
			5.1.使用load方式导入的数据肯定不会自动分桶
			5.2.使用select方式导入的数据也不一定会自动分桶
			5.3.我们应该使用cluster by来保证分桶
				insert overwrite table mb 
				partition(dt=20181105) 
				select uid, id, name, url 
				from mb 
				where dt=20181107 
				cluster by uid;
			5.4.如果我们不使用cluster by，就必须保证select的数据的来源必须是经过真正分桶的，
				 或者像下面这样，数据是来源于一系列计算的最终结果的
				insert overwrite table mb 
				partition(dt=20181103) 
				select * from (
				SELECT 10010, 1, '小红', 'http://www.baidu.com/' 
				union all 
				SELECT 10011, 3, '小强', 'http://www.google.com/' 
				union all 
				SELECT 10012, 2, '小明', 'http://www.sogou.com/' 
				)t;
6.load的正确分桶姿势：
			1.数据准备:
			10000	1	刘十三	http://www.baidu.com/
			10001	2	张三	http://www.le.com/
			10002	3	李四	http://www.google.com/
			10003	4	王五	http://www.ip138.com/
			10004	5	赵六	http://www.qq.com/
			10005	6	小明	http://www.qq.com/
			10006	7	小红	http://www.qq.com/
			10007	8	小强	http://www.qq.com/
			10008	9	小刚	http://www.qq.com/
			10009	10	小小	http://www.qq.com/
			2.进行Load操作到一张新表中：
			LOAD DATA LOCAL INPATH 'my_access_history_buckets' 
			INTO TABLE my_access_history_buckets 
			PARTITION (dt='20181017');
			3.从新表查询插到需求的表中：-->注意最后的cluster by uid
			FROM my_access_history_buckets mahb
			INSERT OVERWRITE TABLE my_access_history_buckets 
			PARTITION(dt=20181016) 
			SELECT user_id, id, name, url WHERE mahb.dt in (20181017, 20181021)
			cluster by uid;

24.常见属性

    1.当需要对HQL进行调优时，除了优化HQL语句本身外，更多的选择是调整相关属性的值
	2.mapred.job.name  -->任务名字
	3.mapreduce.job.queuename  -->当前任务队列名字
	4.mapred.reduce.tasks  -->reduce数量
	5.hive.cli.print.current.db -->当前所属库名
	6.动态分区
		hive.exec.dynamic.partition
		hive.exec.dynamic.partition.mode
	7.分桶
		hive.enforce.bucketing
	8.本地执行
		hive.exec.mode.local.auto -->任务量小,使用本地执行
		修改hive.exec.mode.local.auto为true/false对比，发现设置为true时，
		数据量较少,并未提交到集群而是使用本地执行(Job running in-process(local Hadoop))
	9.Hive触发的MR Job并行运行
		hive.exec.parallel
		修改hive.exec.parallel为true/false对比，发现设置为true时，由于启用了并发，查询要更快

25.Hive系统函数

   1.显示所有系统函数：
		show functions;
	2.查函数的用法：
		desc function 'current_date';
		desc function extended 'current_date';
	3.系统信息类
		如select  current_database();显示当前所处数据库是哪个。
		（可以使用use  <数据库名>切换所在库）
	4.类型转换
		将浮点数转换为整数时,优先考虑使用round()、floor()、ceil()，这种转换比较优雅
		如select  cast('1' as double);将字符串1转换为double的1.0。如果无法完成转换则返回NULL

26.Hive常用系统函数

    1.coalesce()函数
		coalesce(v1,v2,...)将参数列表中第1个不为null的值作为最后的值	
	2.字符类
		如select  length('中国'); Returns the length of str or number of bytes in binary data
		如select  concat(  'a',  'b',  'c',  'd');返回  'abcd'。字符串拼接函数（可变元参数）。
		如select  concat_ws(  '=',  'a',  'b',  'c');返回  'a=b=c'。字符串拼接函数（可变元参数，但是第一个参数必须是拼接间隔符）。但是可以指定拼接间隔符。
		如select  upper('abcd');返回ABCD。将参数中所有小写字母转换为大写。
		如select  lower('ABCD');返回abcd。将参数中所有大写字母转换为小写。
		如select  substring(  '系统信息类',  1,  3  );返回  系统信。第2个参数代表从1开始的第几个字符，第3个参数代表截取字符个数。
		如select  trim('  abc  ');返回 abc。用于删去参数左右的所有空格。
		如select  instr('abcdf','df');返回'df'首次出现的位置  4
	3.日期时间类
		select  current_date();返回当前日期
		select  current_timestamp();返回当前日期时间（单位毫秒）
		select  unix_timestamp();返回当前日期时间对应的时间戳（单位秒）
		select  unix_timestamp('1970-01-01 08:00:01');返回指定日期时间对应的时间戳（单位秒）
		select  unix_timestamp('1970-01-01 08:00:01','yyyy-MM-dd HH:mm');
		select  from_unixtime(1527163397);返回指定时间戳（单位秒）对应的日期时间
		select  from_unixtime(1527163397,'yyyy-MM-dd HH:mm:ss.SSS');
		select  datediff(  '2018-11-09',  current_timestamp()  );返回两个参数对应日期相差的天数，不足一天按0算（用第一个参数减第二个参数）
		select  date_add( current_timestamp(), -2 );返 回指定天数前/后的日期时间（第一个参数是日期时间，第二个参数是天数，向后加是正数，向前减是负数）
		select  date_sub( current_timestamp(), 2 );

    4.与日期时间相关的函数
		date_format、
		to_date、
		day/dayofmonth、
		month、year等，
		请大家使用命令desc function extended '函数名';进行学习
	5.条件判断类
		select  if(  <判断条件>,  <条件为真时的返回值>,  <条件为假时的返回值>  );相当于Java中的三目运算符<判断条件>  ?  <条件为真的返回值>  :  <条件为假的返回值>。
		如select  if(1=1,  2,  3);返回2。
		如select  nvl(<表达式或者字段>,  <表达式或者字段为NULL时的返回值>);通常用于给有可能有NULL的情况下的提供默认值。
		如case when then else end
	6.split()
		将字符串拆分成一个数组
	7.case...when		
		select sname,
		max(case cname when 'Java' then score else 0
		end) Java, max(case cname hen 'MySQL' then score else 0
		end) MySQL from student_score group by sname;
	8.explode()
		将一个集合元素,行转列,打散成一行一行的组成		
	9.lateral view
		形成一张新表
	10.Hive中没有group_concat函数,使用collect_list()不去重collect_set()去重来模拟,使用UDAF实现
		select sname,
		concat_ws(' | ', collect_list(cname)), 
		concat_ws(' | ', collect_list(cast(score as string))) 
		from student_score
		group by sname;
	11.表生成函数
		lateral view 与 explode()，Hive中表生成函数还有其他很多
		select 新表名.* from 原表 lateral view 
		explode(split(原表字段,',')) 新表名 as 新字段

27.Hive自定义函数

1.用户定义函数
		1.概述
			用户定义函数即User Defined Function。
		2.Hive中有3种UDF：
			普通UDF，
			用户定义聚合/聚集函数User Defined Aggregate Function
			用户定义表生成函数User Defined Table-generating Function
		3.UDF：接受一行数据，返回一行数据，大多数函数都属于此类
		4.UDAF：接受多行数据，返回一行数据，
			count()、sum()、avg()、max()、min()
			通常与 group by 组合使用
		5.UDTF：接受一行数据，返回多行数据，
			explode()，Hive只允许UDTF以特定方式使用
			explode()一般要与lateral view 组合使用

2.开发步骤如下
		1.编写Java代码（UDF必须使用Java编写，当然Hive对于非Java程序员也提供了Streaming机制）
		2.打包，如mvn clean package
		3.在Hive中注册此jar包，ADD JAR ;建议此处使用绝对路径，
		  相对路径的话不太方便，因为我们并不能保证每次进入hive命令行的目录位置是固定的。
		  Hive会将此jar包加到classpath中，并上传到分布式缓存以使整个集群所有节点均可使用此jar包
		4.定义临时函数,create temporary function <函数名> as '<自定义UDF类的类全名>';
		  temporary说明此函数只在当前会话有效
		  如果使用频繁可以添加到本地文件系统的~/.hiverc文件中
		  如果你想把自己的函数永久化地加入到Hive中,是需要修改并重新编译打包Hive本身的源代码的
		5.在HiveQL中像使用系统函数那样（select count(*) from mytable）使用UDF即可
		6.可以使用drop temporary function <函数名> 将其删除，也可以不删除

3.编写Java代码时注意
		1.一个用户定义UDF类必须是org.apache.hadoop.hive.ql.exec.UDF类的子类；
		  必须至少实现了一个evaluate()方法
		  (此方法的输入参数与Hive调用函数时的输入参数是对应的，如果实际调用函数时支持多个参数输入，可以将此方法重载)
		2.一个用户定义UDAF类必须是org.apach e.hadoop.hive.ql.exec.UDAF的子类，
		  该子类内部要定义一个或者多个实现了org.apache.hadoop.hive.ql.exec.UDAFEvaluator接口的
		  public static class
		  (另外多个静态类用于像UDF中重载evaluate()方法那样“重载”UDAF)。
		  每个静态类中，必须要重写5个方法
			2.1.方法void  init()。
				初始化。无参无返回值。必须在静态类的构造方法中调用init()
			2.2.方法boolean  iterate(P p1...)
				此方法输入参数与Hive调用函数时的输入参数是对应的。
				每次对一行新数据进行聚合/聚集计算时都会调用此方法，返回值一般都设置为true
			2.3.方法M  terminatePartial()。
				此方法的返回值必须是一个封装了当前聚合计算状态/结果的对象/变量，
				相当于map阶段的输出的中间结果，无输入参数。一般会在静态类中定义一个M类型的实例变量用于跨方法使用
			2.4.方法boolean  merge(M m)
				此方法的输入参数必须与terminatePartial()方法的返回值对应。
				相当于reduce阶段的输入，返回值一般都设置为true
			2.5.方法R  terminate()。
				此方法的返回值就是最终结果，无输入参数
			2.6.注意,上面terminatePartial方法的返回值类型M与terminate方法的返回值类型R可以相同，也可以不同，要看具体情况而定

28.pom依赖


		
			nexus-aliyun
			Nexus aliyun
			http://maven.aliyun.com/nexus/content/groups/public
		
	


	
		junit
		junit
		4.12
		test
	
	
		org.apache.hadoop
		hadoop-client
		2.7.4
		provided
	
	
		org.apache.hive
		hive-cli
		1.2.1
		provided
	



	hive
	
		
			org.apache.maven.plugins
			maven-compiler-plugin
			2.3.2
			
				1.7
				1.7
				UTF-8
			
		
		
			org.apache.maven.plugins
			maven-assembly-plugin
			2.3
			
				
					jar-with-dependencies
				
			
			
				
					make-assembly
					package
					
						assembly

29.Hive数据分析函数

    1.分析函数：
		1.1.ntile			对数据分片并返回当前分片值
		1.2.row_number		用于排序,1,2,3...
		1.3.rank			排序 1,2,2,4...
		1.4.dense_rank		排序 1,2,2,3...   select id,name,score,dense_rank() over(order by score) from xxx;
		1.5.cume_dist		累计计算,小于等于当前值的行数/分组内总行数 数据分布场景
		1.6.percent_rank	累计计算,分组内当前行rank值-1/分组内总行数-1  处理进度
	2.窗口函数
		2.1.lag(col,n,default)
			用于统计窗口内往上第n行值(当该字段为空时,设置为default值)
		2.2.lead-
			用于统计窗口内往下第n行值
			first_value:取分组内排序后,截至到当前行,第一个值
			last_value:取分组内排序后,截至到当前行,最后一个值
	3.增强GroupBy
		3.1.grouping sets		结果集进行union all
		3.2.crouping_id			标识结果集属于哪个分组集合,虚字段
		3.3.cube				所有组合经行聚合
		3.4.rollup				以最左侧维度为主,从该维度经行层级聚合
	4.over()从句
		4.1.与标准聚合函数count,sum,min,max,avg连用 sum(...) over(...)
		4.2.与匹配的分析窗口联用, row_number() over(...)
		4.3.使用partition by 语句,使用一个或者多个原始数据类型的列
		4.4.partition by ... order by... 使用一个或者多个数据类型的分区或者排序列
		4.5.使用窗口规范：
			4.5.1.rows between :窗口子句,物理截取,从行数上控制截取数据的大小
			4.5.2.range between :窗口子句,逻辑截取,从列值上控制窗口的大小
			4.5.3.preceding :子句之往前
			4.5.4.following :子句之往后
			4.5.5.current row:子句之当前行
			4.5.6.unbounded:子句之起点,unbounded preceding 从前面的起点,unbounded following 到后面的终点。
		4.6.order by 子句后没有跟着多大窗口,则默认 range between unbounded preceding and current row

30.Hive执行引擎

1.配置Mr计算引擎
	set hive.execution.engine=mr;
2.配置spark计算引擎
	set hive.execution.engine=spark;
3.配置tez计算引擎
	set hive.execution.engine=tez;
4.MapReduce:是一种离线计算框架,将一个算法抽象成Map和Reduce两个阶段进行处理,
			非常适合数据密集型计算。
5.Spark:Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，
		Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点
		但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS，
		因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。
6.Tez: 是基于Hadoop Yarn之上的DAG（有向无环图，Directed Acyclic Graph）计算框架。
		它把Ｍap/Reduce过程拆分成若干个子过程,同时可以把多个Ｍap/Reduce任务组合成一个较大的DAG任务，
		减少了Ｍap/Reduce之间的文件存储。同时合理组合其子过程，也可以减少任务的运行时间
		Tez可以将多个有依赖的作业转换为一个作业(这样只需写一次HDFS,且中间节点较少)从而大大提升DAG作业的性能

31.Hive特点

可扩展:Hive可以自由的扩展集群的规模，一般情况下不需要重启服务
延展性:Hive支持用户自定义函数udf，用户可以根据自己的需求来实现自己的函数
容错:良好的容错性，节点出现问题SQL仍可完成执行

32.为什么一次写入多次读取

数据存储在HDFS中
写入后不能修改了,只能删除后再写入(为了性能放弃)
互斥锁影响性能(多个I/O同时写,就要互斥锁,而锁会大幅度降低性能)

你可能感兴趣的:(数据库)

wordpress导入mysql数据库文件的方法及注意事项 wodrpress资源分享 wordpress 数据库 mysql wordpress
WordPress是一个流行的开源内容管理系统，通常用于构建网站和博客。它使用MySQL数据库来存储和管理网站数据。在某些情况下，您可能需要将现有的MySQL数据库导入到新的WordPress安装中。本文将介绍如何导入MySQL数据库文件到WordPress以及需要注意的事项。一、备份现有数据库在进行任何数据库导入操作之前，强烈建议您先备份现有的数据库。这样可以确保在导入过程中出现问题时，您不会丢
【go从入门到精通】探秘struct结构体转json为什么需要首字母大写？前网易架构师-高司机 golang从入门到精通 golang json go 结构体首字母大写 golang从入门到精通 go从入门到精通
目录作者简介：问题抛出分析结论作者简介：高科，先后在IBMPlatformComputing从事网格计算，淘米网，网易从事游戏服务器开发，拥有丰富的C++，go等语言开发经验，mysql，mongo，redis等数据库，设计模式和网络库开发经验，对战棋类，回合制，moba类页游，手游有丰富的架构设计和开发经验。并且深耕深度学习和数据集训练，提供商业化的视觉人工智能检测和预警系统（煤矿，工厂，制造业
Linq的理解 It_sharp C#Linq 匿名类型
前面的话这篇文章主要是在工具书中linq的基础上，我做了一些归纳。目录什么是Linq方法语法和查询语法查询表达式的结构标准查询运算符什么是Linq?Linq（link）代表语言集成查询（LanguageIntegratedQuery）Linq是.NET框架的扩展，它允许我们以使用SQL查询数据库的方式来查询数据集合。使用Linq，你可以从数据库、程序对象的集合以及XML文档中查询数据。一个例子st
SQLite？低调不是小众... 架构文摘JGWZ sqlite 数据库学习后端
前几天在一个群里看到一位同学说：“SQLite这么小众的数据库，到底是什么人在用啊？”首先要说的是SQLite可不是小众的数据库，相反，SQLite是世界上装机量最多的数据库，远超MySQL，只不过比较低调而已。低调到我想在官网上找一个好看的用来当插图的图片都找不到，只能截一张官网首页来撑一撑，看起来十分朴素。我最早听说SQLite是刚毕业工作的时候，我们部门做微软内容管理产品的二次开发，其中有一
mysql迁移docker_docker迁入迁出mysql 困困斐 mysql迁移docker
docker迁出mysql数据库测试环境：docker服务器mysql服务器IP192.168.163.19192.168.163.16操作系统CentOS7.8CentOS7.8docker版本Docker18.09.9/数据库版本MySQL8.0.22MySQL8.0.221.查看docker相关情况[root@docker-test/data/mysql/data]$dockerps启动my
docker容器迁移，以mysql容器为例风萧易去情难还 docker docker mysql 容器
在容器化环境中，容器迁移是确保应用程序在不同环境中平滑部署和运行的关键。本文将详细介绍如何将一个正在运行的MySQL容器从一台机器迁移到另一台机器。特别内网安装数据库等软件时，所需依赖和工具下载困难，可以通过镜像迁移方式完成软件安装。一、准备工作在开始迁移之前，我们需要准备以下几项工作：源机器（A机器）：正在运行的MySQL容器。#拉取mysql镜像dockerpullmysql:8.0.25#创
云原生：K8s（Kubernetes）高频典型面试题汇总老舅的火箭爱扫地云原生 kubernetes 容器
1.简述etcd及其特点？答：etcd是CoreOS团队发起的开源项目，是一个管理配置信息和服务发现（servicediscovery）的项目，它的目标是构建一个高可用的分布式键值（key-value）数据库，基于Go语言实现。特点：l简单：支持REST风格的HTTP+JSONAPIl安全：支持HTTPS方式的访问l快速：支持并发1k/s的写操作l可靠：支持分布式结构，基于Raft的一致性算法，R
Docker 中 MySQL 迁移策略（单节点） Java咩 docker mysql 容器
目录一、简介二、操作流程2.1进入mysql容器2.2导出MySQL数据2.3.将导出的文件复制到宿主机2.4创建DockerCompose配置2.5启动新的Docker容器2.6导入数据到新的容器2.7验证数据2.8删除旧的容器（删除操作需慎重）三、推荐配置四、写在后面一、简介本人发现自己Docker中Mysql的时区不对，导致每次连接数据库都需要设置时区，所以考虑进行数据库迁移，重新搭建一个正
数据库核心技术面试题深度剖析：主从同步、二级索引与Change Buffer 后端数据库mysql
在数据库相关岗位的面试中，主从同步、二级索引、ChangeBuffer是高频考察点。本文将从面试题角度拆解这三个技术点，覆盖底层原理、性能优化、设计思想，并结合实际场景与高频追问，助你构建系统性回答框架。一、主从同步：高可用架构的灵魂1.基础问题：主从同步的基本流程是什么？答：核心流程：主库将事务写入Binlog（二进制日志）从库的IO线程拉取Binlog到本地RelayLog从库的SQL线程重放
计算机毕业设计springboot教务管理系统 0k1c1源码+系统+程序+lw文档+部署呦呦网络 spring boot java mysql
计算机毕业设计springboot教务管理系统0k1c1源码+系统+程序+lw文档+部署计算机毕业设计springboot教务管理系统0k1c1源码+系统+程序+lw文档+部署本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：ideaeclipse前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAVA运行环境：Win10、JDK1.8数据库：MySQL5
面试求助：接口测试用例设计主要考虑哪些方面？海姐软件测试 lua 开发语言
一、基础功能验证1.正常场景覆盖关键点：验证接口在合法输入下的正确响应（状态码、数据结构、业务逻辑）。案例：json复制//用户登录接口输入：{"username":"合法用户","password":"正确密码"}预期：200OK+token返回+数据库登录记录更新2.异常场景覆盖关键点：触发错误码（4xx/5xx）的边界条件。测试维度：参数缺失/类型错误（如整型传字符串）非法参数值（如手机号格
SpringBoot实践（三十二）：5分钟搭建springboot单体应用开发框架 A叶子叶 #SpringBoot与微服务 java 开发语言
熟悉语言和开发工具上基础快速使用框架构建应用是个机械工作，5分钟完成开发准备工作，没有冗余动作。目录准备工作开发框架搭建spring初始化常规依赖其他依赖规范化开发目录结构依赖适配代码生成器响应体封装github代码准备工作后端开发需要数据持久化，数据库使用mysql，这也是生产环境大部分的选择，本地开发如果没有mysql可以直接在idea上创建h2数据库，具体创建方式可以参考：使用IDEA创建H
MySQL UPDATE 更新操作详解 wjs2024 开发语言
MySQLUPDATE更新操作详解概述在数据库管理中，UPDATE语句是用于修改表中现有记录的重要工具。本篇文章将详细介绍MySQL中的UPDATE语句，包括其语法、使用场景、注意事项等，旨在帮助数据库管理员和开发者更好地理解和运用这一关键操作。语法结构MySQL的UPDATE语句的基本语法如下：UPDATEtable_nameSETcolumn1=value1,column2=value2,..
建立高质量个人数据库：解锁DeepSeek的关键 CodeJourney. 人工智能算法 python
在人工智能飞速发展的时代，DeepSeek为普通人处理数据、提升工作效率带来了新的可能。然而，很多人在使用过程中存在误区，本文围绕如何正确利用DeepSeek搭建高质量个人数据库展开探讨，强调其对个人成长和发展的重要性，并通过具体实例展示其强大功能。重新理解DeepSeekDeepSeek的普及使普通人能够轻松搭建个人数据库，但不少人在使用时存在错误认知。他们将DeepSeek视为主角，把杂乱无章
postgresql 数据库使用 what_2018 数据库数据库 postgresql oracle
目录索引查看索引创建删除索引修改数据库时区索引查看索引 select*frompg_indexeswheretablename='t_table_data'; 或者select*frompg_statio_all_indexeswhererelname='t_table_data';创建CREATEINDEXix_table_data_timeONt_table_data(id,create_ti
Python 简单后台项目的脚手架程序媛了了 python 开发语言
说明近期写了一个简单的项目，在后台运行获取网上的期货数据并保存到相应的数据库里。由于之前工作很多这种简单的类似调用接口或攫取数据的项目都是用Python来写，因此这次也继续用Python写。但是这次更换了几个包，此份文档简单来说明一下。依赖的包toml：用户解析配置文件，配置文件用的是toml格式。arrow：用于处理日期相关。loguru：用于日志处理。requests：用于http请求响应。p
PHP与数据库连接常见问题及解决办法奥顺互联_老张 php教程 php 数据库
PHP与数据库连接常见问题及解决办法在现代Web开发中，PHP与数据库的连接是不可或缺的一部分。无论是构建动态网站、内容管理系统（CMS）还是电子商务平台，PHP与数据库的交互都是核心功能之一。然而，在实际开发过程中，开发者常常会遇到各种与数据库连接相关的问题。本文将探讨PHP与数据库连接中的常见问题，并提供相应的解决办法。1.数据库连接失败问题描述在PHP中，连接数据库时最常见的错误是无法连接到
SQL语言的安全协议穆骊瑶包罗万象 golang 开发语言后端
SQL语言中的安全协议探讨引言SQL（StructuredQueryLanguage）作为一种标准的数据库查询语言，被广泛应用于关系型数据库的操作。然而，随着信息技术的不断发展和网络攻击手段的日益成熟，SQL的安全性问题逐渐成为人们关注的焦点。SQL注入（SQLInjection）是最常见的攻击方式之一，可以使攻击者对数据库执行未授权的操作。因此，如何保障SQL语言的安全性，制定有效的安全协议，已
MDX语言的设备管理穆骊瑶包罗万象 golang 开发语言后端
设备管理中的MDX语言应用引言设备管理是在各行各业中都至关重要的一环，尤其是在制造业、物流业、以及信息技术等领域。设备的正常运行直接关系到企业的生产效率和经济效益。随着信息技术的不断发展，现代企业越来越依赖数据来优化设备管理。而MDX（MultidimensionalExpressions）语言作为多维数据库查询的标准语言，能够有效支持设备管理中的数据分析和决策支持。本文将深入探讨MDX语言在设备
PL/SQL语言的压力测试穆骊瑶包罗万象 golang 开发语言后端
PL/SQL语言的压力测试引言在现代软件开发中，随着企业信息系统的复杂性和业务需求的不断增加，数据库系统的可靠性和性能变得尤为重要。PL/SQL作为Oracle数据库的存储过程语言，广泛应用于企业级应用开发中。为了确保系统在高负载环境下的稳定性和性能，压力测试（StressTesting）显得尤为重要。本文将深入探讨PL/SQL语言的压力测试，包括其定义、重要性、实施步骤及工具，以及最佳实践等内容
selenium 等待方式不负韶华ღ #selenium selenium python 测试工具
概述在selenium中，等待指的是在执行下一个任务之前需要等待前一个任务完成，在前一个任务没有完成之前，后一个任务会一直处于阻塞状体，有点类似于数据库中的事务。比如，在定位元素之前需要加载完DOM。selenium有三种等待方式：显示等待、隐式等待、流畅等待。方式显示等待WebDriverWait(driver,timeout).until(method,message)显示等待是seleniu
c#中将数据库数据导出到EXCEL中 lujunql 技术 excel 数据库 c#microsoft library string
我分以下几步进行介绍：1，新建一个C#应用程序，在对话框上放置一个按钮，Name=buttonOutput,Text=Output,用这个按钮激发导出程序；2，添加对“MicrosoftExcel9.0ObjectLibrary”的引用，根据自己计算机上安装Office版本的来确定Library的版本；3，在代码中加入引用：usingExcel;usingSystem.Reflection;4，在
python ==module 'datetime' has no attribute 'strptime' NO如果 python python
示例：datetime.datetime.strptime(string,"%Y-%m-%d%H:%M:%S")换成时分秒格式，数据库存储为datetime格式
使用Dapper和FastExcel在.NET中将SQL Server数据导出到Excel Tnp____ .net excel oracle .NET
在许多应用程序中，将数据库中的数据导出到Excel是一项常见的需求。在.NET开发中，使用Dapper和FastExcel库可以方便地实现这一目标。Dapper是一个轻量级的ORM（对象关系映射）工具，可以简化数据库访问。而FastExcel是一个高性能的Excel读写库，可以快速地生成Excel文件。本文将介绍如何使用Dapper和FastExcel库从SQLServer数据库中检索数据，并将其
Redis数据的删除策略 l1050188952 redis 数据库缓存
Redis是一个key-value存储系统。可基于内存亦可持久化的日志型数据库，一般存储高热度数据,所有数据均存放在内存中，通过TTL指令获取目前状态：-1是永久有效的数据-2是已过期/删除或者是未定义的数据。Redis删除的就是已过期的数据，而过期的数据不会真的删除。redis服务器有很多操作需要执行时，CPU的压力会很大，于是redis中的策略是，在内存还够的前提下，先不释放已删除数据的内存空
oracle使用PLSQL导出表数据 web_13233421436 面试学习路线阿里巴巴 oracle 数据库
数据库课上布置了一个作业利用PL/SQL语言，编写一个存储过程实现针对单张表的数据导出功能，要求将给定表的数据转换成SQL语言的Insert语句，并保存在文件中。该过程以要导出的表名和保存SQL语句的文件名为参数。在网上尝试搜索了一下，中文网里没找到合适的参考文章，要么是针对特定表结构，要么是只导出特定数量的列，于是自己完成后写篇记录。首先需要定义一个导出目录，这里定义了“EXPORT_DIR”C
Java实战：Spring Boot application.yml配置文件详解 web_13233421436 面试学习路线阿里巴巴 java spring boot 网络
本文将详细介绍SpringBootapplication.yml配置文件的使用和配置项。我们将探讨application.yml文件的基本概念，以及如何使用它来配置SpringBoot应用程序的各个方面。此外，我们将通过具体的示例来展示如何配置不同的SpringBoot组件，如数据源、数据库、缓存、邮件服务等。本文适合希望深入了解SpringBoot配置文件的开发者阅读。一、引言在SpringBo
Spring-Boot学习笔记戴帽子的小熊猫学习笔记学习笔记 spring boot
这个笔记是在自己学习的过程中根据实际用到的和学到的整理出来的，可能会有缺失，错误等，主要是给激励自己学习，遇到写不下去的情况给自己一个参考，请各位大佬发现问题提出问题时能嘴下留情，也希望多提建议，谢谢。本笔记长期更新（更新日期2024年9月21日）目录第1章.固定格式参考1.1application.yml1.2mapper.xml(详细操作见另一个文件[XML数据库操作笔记]())1.3appl
MongoDB集合（表）自动创建机制 zpjing~.~ mongodb 数据库
开发项目时，要整理上线涉及的表，MongoDB里新创建的表是不用整理发给运维的，因为代码中插入数据时，MongoDB会自动创建哦MongoDB中的集合（表）是在插入数据时自动创建的。当你第一次向一个不存在的集合插入文档时，MongoDB会自动创建该集合。你不需要像在关系型数据库中那样预先定义表结构。例如，执行以下操作时：db.myCollection.insertOne({name:"Alice"
python实现数据库存储过程_Python通过调用mysql存储过程实现更新数据功能示例食色也 python实现数据库存储过程
本文实例讲述了Python通过调用mysql存储过程实现更新数据功能。分享给大家供大家参考，具体如下：一、需求分析由于管理费率配置错误，生成订单的还本付息表和订单表的各种金额，管理费之间的计算都有错误，需要进行数据订正。为此，为了造个轮子，以后省很多功夫，全部用程序去修正，不接入人工。二、带参数mysql存储过程创建1、更新订单付息表(t_order_rapay)dropprocedureifex
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数