LeiKe_

Hive-学习笔记

文章目录

前言（Hive 1.2.1）
1.概念
2.优缺点
3.Hive架构原理
4.运行机制
5.Hive与数据库的比较
6.Hive数据类型
7.DDL数据定义
8.DML数据操作
9.查询
10.函数
11.压缩
12.存储
13.优化
14.练习Demo
总结

前言（Hive 1.2.1）

本文分享本菜鸟的Hive学习笔记
Hive广泛应用于大数据数仓项目，是大数据必学技术之一。
文章涉及的内容比较多，最好参照目录直接跳转。
本菜鸟QQ：599903582
比心心 ~

提示：以下是本篇文章正文内容，下面案例可供参考

1.概念

Hive是基于Hadoop的一个数据仓库工具，可以讲结构化的数据文件映射为一张表，并提供类SQL的查询功能；

本质：将HQL转化成MapReduce程序；

Hive处理的数据存储在HDFS
Hive分析数据底层的默认实现为MapReduce
执行程序运行在Yarn上

2.优缺点

优点：
操作接口采用类SQL语法，提供快速开发的能力；
避免了去写MapReduce，减少开发人员的学习成本；
Hive的延迟比较高，因此Hive常用语数据分析，对实时性要求不高的场合；
Hive优势在于处理大数据，对于小数据处理没有优势，因为Hive的执行延迟比较高
Hive支持用户自定义函数，用户可以根据自己的需求来实现自己的函数

缺点：
Hive的HQL表达能力有限
迭代式算法无法表达
数据挖掘方面不擅长
Hive’的效率比较低
Hive自动生成的MapReduce作业，通常情况下不够智能化
Hive调优比较困难，颗粒较粗；

3.Hive架构原理

1.Client 用户接口
2,Metastore 元数据包含表名、表所述的数据库、等表的属性
3，Hadoop 使用HDFS存储，MapReduce计算
4，驱动器 Driver
解析器
编译器
优化器
执行器

4.运行机制

Hive通过给用户提供的一系列交互接口，接收到用户的指令(SQL)，使用自己的Driver，结合元数据(MetaStore)，将这些指令翻译成MapReduce，提交到Hadoop中执行，最后，将执行返回的结果输出到用户交互接口。

5.Hive与数据库的比较

6.Hive数据类型

基本数据类型：

集合数据类型：

类型转换：
隐式：

任何整数类型都可以隐式地转换为一个范围更广的类型，如TINYINT可以转换成INT，INT可以转换成BIGINT。
所有整数类型、FLOAT和STRING类型都可以隐式地转换成DOUBLE。
TINYINT、SMALLINT、INT都可以转换为FLOAT。（4）BOOLEAN类型不可以转换为任何其它的类型

显式：

可以使用CAST操作显示进行数据类型转换；CAST（'1' AS INT）;

7.DDL数据定义

创建数据库

create database db_hive;
create database if not exist db_hive;
create database db_hive location '/db_hive.db'   指定数据库在HDFS上存放的位置

查询数据库

show databases;    显示数据库
show databases like ‘db_hive*’;     注意此处的通配符使用   '*'

查看数据库详情

desc database db_hive;
desc extended database db_hive;    显示数据库详细信息；

切换数据库

use db_hive;

修改数据库

alter database hive set dbproperties('createtime'='20170830');

删除数据库

 drop database db_hive;
 drop database if not exists db_hive;
 drop database db_hive cascade;    数据库中有数据，（级联）强制删除

创建表

 CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name
[(col_name data_type [COMMENT col_comment], ...)]
[COMMENT table_comment]
[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]
[CLUSTERED BY (col_name, col_name, ...)
[SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS]
[ROW FORMAT row_format]
[STORED AS file_format]
[LOCATION hdfs_path]

解释：
 EXTERNAL  创建外部表
 COMMENT  为表和列添加注释
 PAETITIONED BY  创建分区表
 CLUSTERED BY 创建分桶表
 ROW FORMAT DELIMITED  fields terminated by '\t'    行中的属性  指定分隔符

创建表:

create table if not exists student(
    id int, 
    name string)
row format delimited fields terminated by '\t'
stored as textfile
location '/db_hive.db/student';

根据查询结果创建表

create table if not exists student3 as select id, name from student;

根据已经存在的表结构创建表

 create table if not exists student4 like student;       只是拷贝表结构不拷贝数据

查询表的类型

 desc formatted student2;

外部表:
认为Hive并不是完全拥有这份数据.删除数据时并不会删除这份数据,只会删除表的元数据信息;

内部表又可以称为 管理表

管理表和外部表的相互转换:

  alter table student2 set tblproperties('EXTERNAL'='TRUE');   
  注意:区分大小写
  alter table student3 set tblpeoperties('EXTERNAL'='FALSE');

分区表:
实际上就是对应一个HDFS文件夹;分区就是分目录;

创建分区表:

create table dept_partition(
    deptno int, 
    dname string, 
    loc string
    )
partitioned by (month string)    // 指定分区字段,上传文件的时候需要指定该字段的值
row format delimited fields terminated by '\t';

加载数据到分区表中:

load data local inpath '/opt/module/datas/dept.txt' 
    into table default.dept_partition partition(month='201709');    //指定分区字段的值

查看分区表中的数据:

 select * from dept_partition where month='201709';

增加分区

alter table dept_partition add partition(month='201706') ;
alter table dept_partition add partition(month='201705') partition(month='201704');
    同时创建多个分区时用空格分开

删除分区

alter table dept_partition drop partition (month='201704');
alter table dept_partition drop partition (month='201705'), partition (month='201706');
    同时删除多个分区时用逗号隔开

查看有多少分区

 show partitions dept_partition;

查看分区结构

 desc formatted dept_partition;

创建二级分区表:

 create table dept_partition2(
               deptno int, 
               dname string, 
               loc string
               )
 partitioned by (month string, day string)     //指定二级分区的两个字段
 row format delimited fields terminated by '\t';

加载二级分区:

 load data local inpath '/opt/module/datas/dept.txt' into table
     default.dept_partition2 partition(month='201709', day='13');

查询二级分区:

 select * from dept_partition2 where month='201709' and day='13';

把数据直接上传到分区目录上,让分区表和数据产生关联的三种方式:

上传数据

dfs -mkdir -p  /user/hive/warehouse/dept_partition2/month=201709/day=12;

dfs -put /opt/module/datas/dept.txt /user/hive/warehouse/dept_partition2/month=201709/day=12;

1,执行修复命令才能查询到数据

 msck repair table dept_partition2;

2,上传数据后添加分区

alter table dept_partition2 add partition(month='201709', day='11');

3,创建文件夹后load数据到分区

 load data local inpath '/opt/module/datas/dept.txt' into table dept_partition2 partition(month='201709',day='10');

 注意:这个方法最重要的是元数据中是否有HDFS中的映射;

修改表:
重命名:

  ALTER TABLE table_name RENAME TO new_table_name

添加列:

 alter table dept_partition add columns(deptdesc string);

查询表结构:

 desc dept_partition;

更新列:

alter table dept_partition change column deptdesc desc int;

替换列:

alter table dept_partition replace columns(deptno string, dname string, loc string);

删除表:

 drop table dept_partition;

8.DML数据操作

load：

load  data local inpath '/opt/module/datas/student.txt' into table default.student;

load data:表示加载数据
local:表示从本地加载数据到hive表；否则从HDFS加载数据到hive表
inpath:表示加载数据的路径
overwrite:表示覆盖表中已有数据，否则表示追加
into table:表示加载到哪张表
student:表示具体的表
partition:表示上传到指定分区

insert：

insert into table  student partition(month='201709') values(1,'wangwu');

insert overwrite table student partition(month='201708')
             select id, name from student where month='201709'

import：

import table student2 partition(month='201709') from '/user/hive/warehouse/export/student';

数据导出： Insert、dfs -get、Shell、Export。也可以使用Sqoop工具导出。
Insert导出:

将查询结果导出到本地:
insert overwrite local directory '/opt/module/datas/export/student' select * from student;
 
将查询结果格式化导出到本地:
insert overwrite local directory '/opt/module/datas/export/student1'
           ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' select * from student;

将查询结果导出到HDFS上(没有local)：
insert overwrite directory '/user/atguigu/student2'
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
select * from student;

dfs -get:导出到本地

fs -get /user/hive/warehouse/student/month=201709/000000_0 /opt/module/datas/export/student3.txt;

Shell命令导出：

 bin/hive -e 'select * from default.student;' > /opt/module/datas/export/student4.txt;

Export导出到HDFS：
导出有元数据信息。

 export table default.student to '/user/hive/warehouse/export/student';

清除表中的数据：

truncate table student;

9.查询

全表查询：select * from emp;

特定列查询：select empno, ename from emp;

列起别名：select ename AS name, deptno dn from emp;

算数运算符：A+B、A-B、A*B、A/B、A%B（取余）、A&B（按位与）、A|B（按位或）、A^B（按位异或）、~A（按位取反）

常用函数：count() , max(),min(),sum(),avg();

Limit语句：select * from emp limit 5;

Where语句：select * from emp where sal >1000;

比较运算符：[NOT] Between、In、Is [NOT] Null、[NOT] Rlike
like: _表示一个字符；%表示0或多个字符
Rlike : 跟java的正则表达式

 select * from emp where sal between 500 and 1000;
 select * from emp where comm is null;
 select * from emp where sal IN (1500, 5000);
 select * from emp where sal LIKE '2%';
 select * from emp where sal LIKE '_2%';
 select * from emp where sal RLIKE '[2]';

逻辑运算符： And、Or、Not

 select * from emp where sal>1000 and deptno=30;
 select * from emp where sal>1000 or deptno=30;
 select * from emp where deptno not IN(30, 20);

Group by (having)：

select t.deptno, avg(t.sal) avg_sal from emp t group by t.deptno;
select deptno, avg(sal) avg_sal from emp group by deptno having avg_sal > 2000;

having与where不同点:

where针对表中的列发挥作用，查询数据；having针对查询结果中的列发挥作用，筛选数据。
where后面不能写聚合函数，而having后面可以使用聚合函数。
having只用于group by分组统计语句。

Join:join（内连接）、left join（左外连接）、right join（右外连接）、full join（满外连接）

select e.empno, e.ename, d.deptno from emp e join dept d on e.deptno = d.deptno;

select e.empno, e.ename, d.deptno from emp e left join dept d on e.deptno = d.deptno;

select e.empno, e.ename, d.deptno from emp e right join dept d on e.deptno = d.deptno;

select e.empno, e.ename, d.deptno from emp e full join dept d on e.deptno = d.deptno;

**注意**：连接 **n**个表，至少需要**n-1**个连接条件。例如：连接三个表，至少需要两个连接条件。

笛卡尔积产生场景：

省略连接条件
连接条件无效
所有表中的所有行互相连接

连接谓词中不支持Or，On语句中不能出现Or。

排序：

 Order by（全局排序，一个Reducer）、
 Sort by（每个Reducer内部排序，整体不排序）、
 Distribute by（分区排序，需要结合Sort by使用）、
 Cluster by（当Sort by 和 Distribute by字段一致时，可以替换）。
 
 select * from emp order by sal desc;
 select * from emp sort by empno desc;
 select * from emp distribute by deptno sort by empno desc;
 select * from emp cluster by deptno;

分桶：
分区和分桶的区别：分区针对的存储路径；分桶针对的数据文件

分桶表的创建：

create table stu_buck(id int, name string)
clustered by(id) into 4 buckets     //确定分桶表的个数
row format delimited fields terminated by '\t';

查看分桶表结构：desc formatted stu_buck;

注意：想要实现分桶的效果，需要开启分桶功能，设置MapReduce的线程为**-1**，需要使用MapReduce程序将数据插入到表中才能实现分桶的效果

 set hive.enforce.bucketing=true;
 set mapreduce.job.reduces=-1;
 insert into table stu_buck select id, name from stu;

分桶抽样查询：

 select * from stu_buck tablesample(bucket 1 out of 4 on id);
 select * from stu_buck tablesample(bucket x out of y on id);
 x表示从哪个bucket开始,x的值必须小于等于y的值
 分桶数/y  表示取样数,一般是总bucket的倍数或者因子

空字段赋值：NVL(String l, replace_with)

 select nvl(comm,-1) from emp;

时间类函数：

date_format(): select date_format('2019-06-29','yyyy-MM-dd');  => 2019-06-29
date_add():select date_add('2019-06-29',5); => 2019-07-04
date_sub():select date_sub('2019-06-29',5); => 2019-06-24
datediff():select datediff('2019-06-29','2019-06-24'); => 5

CASE WHEN：

 case sex when '男' then 1 else 0 end

 select
      dept_id,
      sum(case sex when '男' then 1 else 0 end) male_count,
      sum(case sex when '女' then 1 else 0 end) female_count
    from
      emp_sex
    group by
      dept_id;

行转列：
CONCAT(string A/col, string B/col…)：返回输入字符串连接后的结果，支持任意个输入字符串;
CONCAT_WS(separator, str1, str2,...)：它是一个特殊形式的 CONCAT()。第一个参数剩余参数间的分隔符。分隔符可以是与剩余参数一样的字符串。如果分隔符是 NULL，返回值也将为 NULL。这个函数会跳过分隔符参数后的任何 NULL 和空字符串。分隔符将被加到被连接的字符串之间;注意：只能是字符串类型字段之间的拼接
COLLECT_SET(col)：属于聚合函数，函数只接受基本数据类型，它的主要作用是将某字段的值进行去重汇总，产生array类型字段。

列转行：
EXPLODE(col):将hive一列中复杂的array或者map结构拆分成多行；如UDTF为每个输入行生成零个或多个输出行。 Lateral View 首先将UDTF应用于基表的每一行，然后将结果输出行连接到输入行，以形成具有提供的表别名的虚拟表。

 select
    movie,
    category_name
    from
    movie_info lateral view explode(category) table_tmp as category_name;

窗口函数：
用于为行定义一个窗口（这里的窗口是指运算将要操作的行的集合），它对一组值进行操作，不需要使用GROUP BY子句对数据进行分组，能够在同一行中同时返回基础行的列和聚合列。窗口函数与聚合函数计算方式一样，窗口函数也是对行集组进行聚合计算，但是它不像普通聚合函数那样每组只返回一个值，窗口函数可以为每组返回多个值。

OVER():
开窗函数,指定分析函数工作的数据窗口大小,这个数据窗口大小可能会随着行的变化而变化;开窗函数OVER（）指定一组行，开窗函数计算从窗口函数输出的结果集中各行的值。开窗函数不需要使用GROUP BY就可以对数据进行分组，还可以同时返回基础行的列和聚合列。
1.指定分组(partitionby)
2.指定取哪个值(order by)

可以加在over函数里面的:

 CURRENT ROW：当前行；
 n PRECEDING：往前n行数据；
 n FOLLOWING：往后n行数据；
 UNBOUNDED：起点，UNBOUNDED PRECEDING 表示从前面的起点， UNBOUNDED FOLLOWING表示到后面的终点；
 DISTRIBUTE BY + SORT BY
 PARTITION BY + ORDER BY

加在OVER()函数前面的：https://blog.csdn.net/wangpei1949/article/details/81437574

 LAG(col,n)：往前第n行数据；
 LEAD(col,n)：往后第n行数据；
 NTILE(n)：把有序分区中的行分发到指定数据的组中，各个组有编号，编号从1开始，
 对于每一行，NTILE返回此行所属的组的编号。注意：n必须为int类型。

select name,count(*) over ()    //开窗
from business
where substring(orderdate,1,7) = '2017-04'
group by name;
    
select name,orderdate,cost,sum(cost) over(partition by month(orderdate)) from business;

RANK()：排序相同时会重复，总数不变。 1 1 3 4
DENSE_RANK():排序相同时会重复，总数会交闪 1 1 2 3
ROW_NUMBER():根据顺序计算 1 2 3 4

select name,
      subject,
      score,
      rank() over(partition by subject order by score desc) rp,     //指定分组和和排序
      dense_rank() over(partition by subject order by score desc) drp,
      row_number() over(partition by subject order by score desc) rmp
from score;

注意：

SQL 语言大小写不敏感。
SQL 可以写在一行或者多行
关键字不能被缩写也不能分行
各子句一般要分行写。
使用缩进提高语句的可读性。

10.函数

https://blog.csdn.net/u010839779/article/details/105648412?depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-6.control

https://www.cnblogs.com/lrxvx/p/10974341.html

查询系统自带的函数:

show functions;

显示自带的函数的用法:

desc function upper;

详细显示自带函数的用法

desc function extended upper;

自定义函数：
UDF：一进一出
UDAF：多进一出
UDTF：一进多出

步骤：UDF
pom文件

工程依赖:
    <dependencies>
       <dependency>
           <groupId>org.apache.hive</groupId>
           <artifactId>hive-exec</artifactId>
           <version>1.2.1</version>
       </dependency>
</dependencies>

（1）继承org.apache.hadoop.hive.ql.UDF
（2）需要实现evaluate函数；evaluate函数支持重载；
（3）在hive的命令行窗口创建函数
a）添加jar ：add jar linux_jar_path
b）创建function： create [temporary] function [dbname.]function_name AS class_name;
在hive的命令行窗口删除函数：Drop [temporary] function [if exists] [dbname.]function_name;

注意：UDF必须要有返回类型，可以返回null，但是返回类型不能为void；

11.压缩

想要支持Snappy压缩，需要自行编译Hadoop

MR支持的压缩格式：

为了支持多种压缩/解压缩算法，Hadoop引入了编码/解码器

压缩性能的比较：

SNAPPY: On a single core of a Core i7 processor in 64-bit mode, Snappy compresses at about 250 MB/sec or more and decompresses at about 500 MB/sec or more.
根据具体需要选择需要的压缩格式。

压缩参数配置：（mapred-site.xml）

开启Map输出阶段压缩：
1．开启hive中间传输数据压缩功能

hive (default)>set hive.exec.compress.intermediate=true;

2．开启mapreduce中map输出压缩功能

hive (default)>set mapreduce.map.output.compress=true;

3．设置mapreduce中map输出数据的压缩方式

hive (default)>set mapreduce.map.output.compress.codec=org.apache.hadoop.io.compress.SnappyCodec;

4．执行查询语句

hive (default)> select count(ename) name from emp;

开启Reduce输出阶段压缩：
1．开启hive最终输出数据压缩功能

hive (default)>set hive.exec.compress.output=true;

2．开启mapreduce最终输出数据压缩

hive (default)>set mapreduce.output.fileoutputformat.compress=true;

3．设置mapreduce最终数据输出压缩方式

hive (default)> set mapreduce.output.fileoutputformat.compress.codec =
 org.apache.hadoop.io.compress.SnappyCodec;

4．设置mapreduce最终数据输出压缩为块压缩

hive (default)> set mapreduce.output.fileoutputformat.compress.type=BLOCK;

5．测试一下输出结果是否是压缩文件

hive (default)> insert overwrite local directory
 '/opt/module/datas/distribute-result' select * from emp distribute by deptno sort by empno desc;

12.存储

Hive支持的文件存储的格式主要有:TEXTFILE,SEQUENCEFILE,ORC,PARQUET

列式存储和行式存储：
1．行存储的特点
查询满足条件的一整行数据的时候，列存储则需要去每个聚集的字段找到对应的每个列的值，行存储只需要找到其中一个值，其余的值都在相邻地方，所以此时行存储查询的速度更快。

2．列存储的特点
因为每个字段的数据聚集存储，在查询只需要少数几个字段的时候，能大大减少读取的数据量；每个字段的数据类型一定是相同的，列式存储可以针对性的设计更好的设计压缩算法。

TEXTFILE和SEQUENCEFILE的存储格式都是基于行存储的；
ORC和PARQUET是基于列式存储的。

TEXTFILE：
默认格式，数据不做压缩，磁盘开销大，数据解析开销大。可结合Gzip、Bzip2使用，但使用Gzip这种方式，hive不会对数据进行切分，从而无法对数据进行并行操作。

Orc格式：
Orc (Optimized Row Columnar)是Hive 0.11版里引入的新的存储格式。
如图所示可以看到每个Orc文件由1个或多个stripe组成，每个stripe250MB大小，这个Stripe实际相当于RowGroup概念，不过大小由4MB->250MB，这样应该能提升顺序读的吞吐率。每个Stripe里有三部分组成，分别是Index Data，Row Data，Stripe Footer：

Index Data：一个轻量级的index，默认是每隔1W行做一个索引。这里做的索引应该只是记录某行的各字段在Row Data中的offset。
Row Data：存的是具体的数据，先取部分行，然后对这些行按列进行存储。对每个列进行了编码，分成多个Stream来存储。
Stripe Footer：存的是各个Stream的类型，长度等信息。每个文件有一个File Footer，这里面存的是每个Stripe的行数，每个Column的数据类型信息等；每个文件的尾部是一个PostScript，这里面记录了整个文件的压缩类型以及FileFooter的长度信息等。在读取文件时，会seek到文件尾部读PostScript，从里面解析到File Footer长度，再读FileFooter，从里面解析到各个Stripe信息，再读各个Stripe，即从后往前读。

Parquet格式：
Parquet是面向分析型业务的列式存储格式，由Twitter和Cloudera合作开发，2015年5月从Apache的孵化器里毕业成为Apache顶级项目。Parquet文件是以二进制方式存储的，所以是不可以直接读取的，文件中包括该文件的数据和元数据，因此Parquet格式文件是自解析的。通常情况下，在存储Parquet数据的时候会按照Block大小设置行组的大小，由于一般情况下每一个Mapper任务处理数据的最小单位是一个Block，这样可以把每一个行组由一个Mapper任务处理，增大任务执行并行度。Parquet文件的格式如图所示。

上图展示了一个Parquet文件的内容，一个文件中可以存储多个行组，文件的首位都是该文件的Magic Code，用于校验它是否是一个Parquet文件，Footer length记录了文件元数据的大小，通过该值和文件长度可以计算出元数据的偏移量，文件的元数据中包括每一个行组的元数据信息和该文件存储数据的Schema信息。除了文件中每一个行组的元数据，每一页的开始都会存储该页的元数据，在Parquet中，有三种类型的页：数据页、字典页和索引页。数据页用于存储当前行组中该列的值，字典页存储该列值的编码字典，每一个列块中最多包含一个字典页，索引页用来存储当前行组下该列的索引，目前Parquet中还不支持索引页。

13.优化

https://www.cnblogs.com/swordfall/p/11037539.html

Fetch抓取 more(新版本,不走mr) minimal(老版本) none(都会执行mapreduce程序)
本地模式
表的优化:
大表,小表 Join
大表Join小表
MapJoin
Group by
Count(Distinct) 去重统计
避免笛卡尔积
行列过滤
动态分区调整
分桶
分区
MR优化
并行执行
严格模式
JVM重用
推测执行
压缩
执行计划 explain

14.练习Demo

==============================================================

数据位置：https://download.csdn.net/download/LeiKe_/14045737

表结构：

gulivideo_orc
col_name        		data_type       	comment

videoid                 string              视频id                        
uploader                string              上传者                  
age                     int                 年龄                  
category                array<string>       类别                     
length                  int                 大小                    
views                   int                 观看次数                    
rate                    float               评分                
ratings                 int                 流量                    
comments                int                 评论数                    
relatedid               array<string>   	相关视频id

gulivideo_user_orc
字段	备注	字段类型
uploader	上传者用户名	string
videos	上传视频数	int
friends	朋友数量	int

建表语句：

create table gulivideo_orc(
    videoId string,
    uploader string,
    age int,
    category array<string>,
    length int,
    views int,
    rate float,
    ratings int,
    comments int,
    relatedId array<string>)
row format delimited fields terminated by "\t"
collection items terminated by "&"
stored as orc;


create table gulivideo_user_orc(
    uploader string,
    videos int,
    friends int)
row format delimited
fields terminated by "\t"
stored as orc;


create table gulivideo_ori(
    videoId string,
    uploader string,
    age int,
    category array<string>,
    length int,
    views int,
    rate float,
    ratings int,
    comments int,
    relatedId array<string>)
row format delimited
fields terminated by "\t"
collection items terminated by "&"
stored as textfile;


create table gulivideo_user_ori(
    uploader string,
    videos int,
    friends int)
row format delimited
fields terminated by "\t"
stored as textfile;

注意：ORC格式是列式存储的表，不能直接从本地文件导入数据，只有当数据源表也是ORC格式存储时，才可以直接加载，否则报错。

数据导入：

load  data local inpath '/opt/data/guiliVideo/user/2008/0903' into table gulivideo.gulivideo_user_ori;

load  data local inpath '/opt/data/guiliVideo/video/2008/0222' into table gulivideo.gulivideo_ori;

insert into gulivideo.gulivideo_user_orc select * from gulivideo.gulivideo_user_ori;
insert into gulivideo.gulivideo_orc select * from gulivideo.gulivideo_ori;

需求实现sql：

--统计视频观看数Top10
select videoid,views
from gulivideo_orc
order by views desc
limit 10;


--统计视频类别热度Top10
1，查找视频-类别，炸开
select category_name
from gulivideo_orc
lateral view explode(category) temp as category_name;t1

2,根据类别分组计数排序
select category_name,count(*) cnt
from 
(select category_name
from gulivideo_orc
lateral view explode(category) temp as category_name)t1
group by category_name
order by cnt desc
limit 10;


--统计视频观看数Top20所属类别以及类别包含的Top20的视频个数
1,查询Top20的视频
select videoid,category,views
from gulivideo_orc
order by views desc
limit 20;t1

2,炸开类别
select videoid,category_name
from (select videoid,category,views
from gulivideo_orc
order by views desc
limit 20)t1
lateral view explode(category) temp as category_name;t2

3,根据类别分组计数
select category_name,count(*)
from (select videoid,category_name
from (select videoid,category,views
from gulivideo_orc
order by views desc
limit 20)t1
lateral view explode(category) temp as category_name)t2
group by category_name;


--统计视频观看数Top50所关联视频的所属类别排名
1,查询视频观看数Top50
select relatedid,views
from gulivideo_orc
order by views desc
limit 50;t1

2,将关联视频炸裂开
select relatedid_ids
from (select relatedid,views
from gulivideo_orc
order by views desc
limit 50)t1
lateral view explode(relatedid) temp as relatedid_ids;t2

3,将关联视频与原表连接查询类别
select category
from (select relatedid_ids
from (select relatedid,views
from gulivideo_orc
order by views desc
limit 50)t1
lateral view explode(relatedid) temp as relatedid_ids)t2
join gulivideo_orc
on t2.relatedid_ids = gulivideo_orc.videoid;t3

4,将类别炸裂开并排序
select category_name, count(*) cnt
from (
  select 
  t2.relatedIds relatedIds,
  category
from (select relatedIds
from (select views,relatedId
from gulivideo_orc
order by views desc
limit 50)t1
lateral view explode(relatedId) table_tmp as relatedIds)t2
join gulivideo_orc g
on t2.relatedIds = g.videoId)t3
lateral view explode(category) table_tmp as category_name
group by category_name
order by cnt desc;

	
--统计每个类别中视频流量Top10
1,查询每个类别
select videoid,views,category,rank()over(partition by category order by views) rk
from gulivideo_orc;t1

2.取前十
select videoid,views,category
from (select videoid,views,category,rank()over(partition by category order by views) rk
from gulivideo_orc)t1
where rk <= 10;


--统计上传视频最多的用户Top10以及他们上传的全部视频top20
gulivideo_user_orc
col_name        data_type       comment
uploader        string                                      
videos          int                                         
friends         int  

1.获取上传视频数最多的用户Top10
select uploader, videos
from gulivideo_user_orc
order by videos desc
limit 10;t1

2.获取他们上传的全部视频，然后根据views排序
select videoId, uploader, views
from gulivideo_orc t1
join t2
on t1.uploader = t2.uploader
order by views desc
limit 20;

select videoId, t1.uploader, views
from gulivideo_orc t1
join (select uploader, videos
from gulivideo_user_orc
order by videos desc
limit 10)t2
on t1.uploader = t2.uploader
order by views desc
limit 20;


--统计每个类别视频观看数Top10
1.炸开类别
select 
  videoid, 
  category_name,
  rank() over(partition by category_name order by views desc) rk 
from gulivideo_orc
lateral view explode(category) table_tmp as category_name;t1

2.取前十
select category_name, videoid, rk
from t1
where rk <= 10;

select category_name, videoid, rk
from (select 
  videoid, 
  category_name,
  rank() over(partition by category_name order by views desc) rk 
from gulivideo_orc
lateral view explode(category) table_tmp as category_name)t1
where rk <= 10;

总结

本文分享了本菜鸟的Hive’学习笔记，内容还是比较丰富的，最后也是展示了小Demo，可以参考目录进行观看，Hive的学习最最最最基本的就是sql的书写，熟练的掌握sql很有必要。
本菜鸟QQ：599903582
笨鸟先飞，熟能生巧 ~
比心心 ~

你可能感兴趣的:(大数据,数仓,hive,大数据,数据仓库)

数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
大模型训练数据库Common Crawl WindyChanChan 数据集语言模型数据库
CommonCrawl介绍‌‌CommonCrawl是一个非营利组织，致力于通过大规模分布式爬虫系统定期抓取整个Web并将其存储在一个可公开访问的数据库中。CommonCrawl的数据收集和处理过程包括使用Python开源爬虫工具收集全球范围内的网站数据，并将其上传到‌CommonCrawl基金会的数据仓库中。该项目从2008年开始，至今已经积累了大量的原始网页数据、元数据和文本提取数据。这些数据
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
疫情，疫情东山草
2020年，疫情爆发，至今已近三年，反反复复，此起彼伏。不但没被消灭，还自我发展，从德尔塔到奥密克戎，与时俱进的变异着。去年11月，疫情之下，大数据800米范围内，都成为时空伴随者。“你的码儿有没有变颜色”“你绿码还是黄码”成为那段时间的流行语，当然少不了的还有全员核酸。段子手整出来一首歌：我走过你走过的路,这算不算相逢？我吹过你吹过的风，这算不算相拥？800米内我们不曾擦肩而过，你却要我14天相
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
Presto【基础 01】简介+架构+数据源+数据模型 2401_84254343 程序员架构
一个Catalog包含Schema和Connector。例如，配置JMX的Catalog，通过JXMConnector访问JXM信息。当执行一条SQL语句时，可以同时运行在多个Catalog。Presto处理table时，是通过表的完全限定（fully-qualified）名来找到Catalog。例如，一个表的权限定名是hive.test_data.test，则test是表名，test_data是
数据仓库介绍阿龙的代码在报错数据分析数据仓库数据库
数据仓库数据仓库的概念数据仓库的主要特征数据仓库的主流开发语言-sql结构化数据sql语句数据仓库的概念数据仓库（英语：DataWarehouse，简称数仓、DW）,是一个用于存储、分析、报告的数据系统。数据仓库的目的是构建面向分析的集成化数据环境，分析结果为企业提供决策支持（DecisionSupport）。就是数据仓库只分析数据并不产生数据数据仓库的主要特征1、面向主题主题是一个抽象的概念，是
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
【数字化供应链】数字化供应链架构、全景管理、全流程贯通方案数字化建设方案数字化转型数据治理主数据数据仓库供应链数字仓储智慧物流智慧仓储物流园区架构微服务数据挖掘大数据人工智能
原文《数字化供应链架构、全景管理、全流程贯通方案》PPT格式。主要从供应链管理全景、智慧供应链建设总体目标、供应链总体业务流程、供应链总体功能架构、供应链总体技术架构、供应链全流程贯通、供应链全领域管理、供应链数据数据分析、供应链决策中台等进行建设。本文仅对主要内容进行介绍。来源网络公开渠道，旨在交流学习，如有侵权联系速删，更多参考公众号：优享智库基于先进IT技术、大数据能力、物联网应用、区块链平
80 鑫_259b
科普一个谈恋爱的方法。在以前，谈恋爱千难万难，就难在对对方不知底细，不知道对方希望自己是一个怎样的人，要耗费大量的时间去试探、再磨合，往往会因为一些小事一些细节，满盘皆输。在一个信息化的时代，在一个大数据近乎变成了流行语的时代，我们要跟上时代的步伐，通过大数据，去寻找异性最希望自己展现出来的形象是什么，才可以在爱情的道路上少走弯路。那这个大数据怎么操作呢？上街发问卷？问别人的择偶标准？一来会被打死
解锁企业潜能，Vatee万腾平台引领智能新纪元自媒体经济说其他
在数字化转型的浪潮中，企业正站在一个前所未有的十字路口，面对着前所未有的机遇与挑战。解锁企业内在潜能，实现跨越式发展，已成为众多企业的共同追求。而Vatee万腾平台，作为智能科技的先锋，正以其强大的智能赋能能力，引领企业步入一个全新的智能纪元。Vatee万腾平台，是一个集成了人工智能、大数据、云计算等前沿技术的综合性智能服务平台。它不仅仅是一个技术工具，更是企业转型升级的加速器，能够深入企业运营的
释放“AI+”新质生产力，深算院如何“把大数据变小”？ YashanDB YashanDB 国产数据库数据库数据库大数据
近期，南都·湾财社推出《新质·中国造》栏目，深入千行百业，遍访湾区企业，解锁湾区新质生产力，共探高质量发展之道。本期对话深圳计算科学研究院YashanDB首席技术官陈志标，探讨国产数据库如何实现创新突围，抢抓数字经济时代的新机遇。以下是专访内容：如何应对AI时代所面临的算力挑战？南都·湾财社：数据、算力和算法是发展人工智能的三要素，深算院做了怎样的前瞻性布局？陈志标：今年，政府工作报告中首次提及开
数字化智能工厂数字化供应链架构、全景管理、全流程贯通方案数字化建设方案智能制造数字工厂制造业数字化转型工业互联网架构
随着信息技术的飞速发展，数字化转型已成为制造企业提升竞争力的关键途径。数字化智能工厂通过集成先进的物联网(IoT)、大数据、云计算、人工智能(AI)等技术，实现了生产过程的智能化、供应链管理的精准化及决策的科学化。本方案旨在构建一套完善的数字化供应链架构，实现全景管理、全流程贯通、智慧化升级，以数据为驱动，强化技术支撑与安全管理体系，推动企业向智能制造迈进。一、数字化供应链架构1.**集成化平台构
日记——我的歌单静若小猴
又到一年一度大数据汇总的时候了，听歌已经成为很多人生活里的一种乐趣。春夏秋冬，我们都有自己喜欢的歌，歌词歌曲唱出沃尔玛你的心声。还记得大学时候最喜欢听的《春天里》，我有一天单曲回放了30遍，总觉得听着仿佛看到自己声音。还有的歌，初听不知曲中意，再听已经是曲终人，听着歌流泪，听着歌入睡……还记得那些年少的故事吗，总觉得自己才是故事外的人，却不是自己已经入歌。一段时间会喜欢一个人的音乐，一段时间会沉静
Linux dmesg命令：显示开机信息 fafadsj666 linux 数据库数据挖掘机器学习大数据
通过学习《Linux启动管理》一章可以知道，在系统启动过程中，内核还会进行一次系统检测（第一次是BIOS进行加测），但是检测的过程不是没有显示在屏幕上，就是会快速的在屏幕上一闪而过那么，如果开机时来不及查看相关信息，我们是否可以在开机后查看呢？答案是肯定的，使用dmesg命令就可以。无论是系统启动过程中，还是系统运行过程中，只要是内核产生的信息，都会被存储在系统缓冲区中，已经为大家精心准备了大数据
大数据新视界 --大数据大厂之揭秘大数据时代 Excel 魔法：大厂数据分析师进阶秘籍青云交大数据新视界 Excel 数据分析函数公式数据透视表图表功能规划求解数据分析工具库大数据新视界数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：[email protected]）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方