但求大数据开发一职

Hive理论基础

数仓特征：面向主题，集成，非易失的，时变。数据仓库是在数据库已经大量存在的情况下，为了进一步挖掘数据资源、为了决策需要而产生的，不是所谓的“大型数据库”。

数据库与数据仓库的区别（OLTP 与 OLAP 的区别）

　　操作型处理，叫联机事务处理 OLTP（On-Line Transaction Processing，），也可以称面向交易的处理系统，它是针对具体业务在数据库联机的日常操作，通常对少数记录进行查询、修改。用户较为关心操作的响应时间、数据的安全性、完整性和并发支持的用户数等问题。传统的数据库系统作为数据管理的主要手段，主要用于操作型处理。

　　分析型处理，叫联机分析处理 OLAP（On-Line Analytical Processing）一般针对某些主题的历史数据进行分析，支持管理决策。

ETL：抽取 Extra, 转化 Transfer, 装载 Load。

为什么要对数仓分层？

分层：Ods、Dw、Dm、Ads

　　用空间换时间，通过大量的预处理来提升应用系统的用户体验（效率），因此数据仓库会存在大量冗余的数据；不分层的话，如果源业务系统的业务规则发生变化将会影响整个数据清洗过程，工作量巨大。

数仓元数据管理

　　元数据（Meta Date），主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及 ETL 的任务运行状态。可分为技术元数据和业务元数据。

　　元数据不仅定义了数据仓库中数据的模式、来源、抽取和转换规则等，而且是整个数据仓库系统运行的基础，元数据把数据仓库系统中各个松散的组件联系起来，组成了一个有机的整体。

Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类 SQL 查询功能。本质是将 SQL 转换为 MapReduce 程序。利用HDFS 存储数据，利用 MapReduce 查询分析数据。

组件：用户接口，元数据存储mysql / derby，解释、编译、优化、执行器。

与数据库的区别

数据存储位置不同：Hive存储在HDFS中，数据库存储在块设备或本地文件
数据更新：数仓一般不改写数据，数据库增删改查
执行延迟：Hive延迟高, mysql延迟低, 只有大规模数据时Hive并行计算的优点才会体现
数据规模：Hive大规模计算，数据库规模较小

三种配置模式（本地模式、远程模式与mysql是否在远程无关！！！）

内嵌模式：使用的是内嵌的Derby数据库来存储元数据，也不需要额外起Metastore服务。

本地模式：

　　本地模式采用外部数据库来存储元数据，目前支持的数据库有：MySQL、Postgres、Oracle、MS SQL Server.

　　不需要单独起metastore服务，用的是跟hive在同一个进程里的metastore服务。也就是说当你启动一个hive 服务，里面默认会帮我们启动一个metastore服务。hive根据hive.metastore.uris 参数值来判断，如果为空，则为本地模式。

　　缺点：每启动一次hive服务，都内置启动了一个metastore。本地模式下hive的配置主需要指定mysql的相关信息即可。（ConnectionURL）

远程模式：

　　需要单独起metastore服务，然后每个客户端都在配置文件里配置连接到该metastore服务。远程模式的metastore服务和hive运行在不同的进程里。

　　在生产环境中，建议用远程模式来配置Hive Metastore。其他依赖hive的软件都可以通过Metastore访问hive。

　　远程模式下，需要配置hive.metastore.uris 参数来指定metastore服务运行的机器ip和端口，并且需要单独手动启动metastore服务。

数据模型

db（库）：在 hdfs 中表现为 hive.metastore.warehouse.dir 目录下一个文件夹
table（内部表）：在 hdfs 中表现所属 db 目录下一个文件夹，当我们删除一个内部表时，Hive也会删除这个表中数据。内部表不适合和其他工具共享数据。
external table（外部表）：数据存放位置可以在 HDFS 任意指定路径，删除该表并不会删除掉原始数据，删除的是表的元数据
partition（分区）：在 hdfs 中表现为 table 目录下的子目录

DDL操作：

 1 create table t_user_part(id int,name string,country string) 
 2 partitioned by (guojia string) 
 3 row format delimited fields terminated by ',' ;
 4 --注意顺序问题
 5 --分区的字段不能是表当中的字段
 6 
 7 load data local inpath './root/4.txt' 
 8 into table t_user_part partition (guojia='usa');
 9 
10 load data local inpath '/root/5.txt' 
11 into table t_user_part partition (guojia='china');
12  --将数据加载到哪个文件夹中
13  
14  --多级分区
15 create table t_order(id int,pid int,price double) 
16 partitioned by (year string,month string,day string) 
17 row format delimited fields terminated by ',' ; 
18 
19 load data local inpath '/root/5.txt' 
20 into table t_order partition (year='2019',month='09',day='18');
21 
22 load data local inpath '/root/4.txt' 
23 into table t_order partition (year='2019',month='09',day='18');
24 
25 ALTER TABLE t_user_part ADD PARTITION (guojia='riben') 
26 location '/user/hive/warehouse/hadoop32.db/t_user_part/guojia=riben'; 
27 --一次添加一个分区
28 
29 ALTER TABLE order ADD 
30 PARTITION (year='2018', month='09',day="20") 
31 location'/user/hive/warehouse/hadoop32.db/t_order' 
32 PARTITION (year='2019', month='09',day="20") 
33 location'/user/hive/warehouse/hadoop32.db/t_order';  
34  --一次添加多个分区
35  
36 --删除分区
37 ALTER TABLE t_user_part DROP IF EXISTS PARTITION (guojia=riben);
38 
39 --查看分区
40 show partitions table_name;
41 
42 show formatted table_name;

bucket（分桶）：在 hdfs 中表现为同一个表目录下根据 hash 散列之后的多个文件，采用对列值哈希，然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中

DDL操作：

 1 create table stu_buck(Sno string,Sname string,
 2 Sbrithday string, Sex string)
 3 clustered by(Sno) 
 4 into 4 buckets
 5 row format delimited fields terminated by '\t';
 6 --clustered by 根据哪个字段去分桶，这个字段在表中一定存在
 7 --into N buckets 分多少个文件
 8 --如果该分桶字段是string，会根据字符串的hashcode % bucketsNum
 9 --如果该分桶字段是数值类型，数值 % bucketsNum
10 
11 create table student(Sno string,Sname string,
12 Sbrithday string, Sex string) 
13 row format delimited fields terminated by '\t';
14 --insert+select
15 insert overwrite table stu_buck select * from student 
16 cluster by(Sno);
17 --默认不让直接使用分桶表

DML操作

 1 --load加载 推荐方式，最常见  （分桶表是不支持load）
 2 load data local inpath '/root/hivedata/students.txt' 
 3 overwrite into table student;
 4 --加载本地数据到表对应的路径下
 5 --local表明是本地还是hdfs
 6 --overwrite表示覆盖操作（慎用）
 7 
 8 load data inpath '/stu' into table student_ext;
 9 --加载hdfs上的文件到表对应的路径下（追加）
10 
11 --insert + select导入
12 --insert 主要是结合 select 查询语句使用，将查询结果插入到表中
13 insert overwrite table tablename1 
14 [partition (partcol1=val1,partclo2=val2)] 
15 select_statement1 from source_table 
16 
17 --多重插入
18 from source_table 
19 insert overwrite table tablename1 
20 [partition (partcol1=val1,partclo2=val2)] 
21 select_statement1 
22 insert overwrite table tablename2 
23 [partition (partcol1=val1,partclo2=val2)] 
24 select_statement2.. 
25 
26 --动态插入 substr(day,1,7) as month,day分区的虚拟字段 顺序需要对应
27 insert overwrite table d_p_t partition (month,day) 
28 select ip,substr(day,1,7) as month,day 
29 from dynamic_partition_table;
30 
31 --指定分隔符（复杂类型的数据表）
32 --表1(包含array字段类型)
33 --数据： zhangsan    beijing,shanghai,tianjin,hangzhou
34 --       wangwu    shanghai,chengdu,wuhan,haerbin
35 create table complex_array(name string,
36 work_locations array<string>) 
37 row format delimited fields terminated by '\t' 
38 collection items terminated by ',';
39 --collection items array集合分隔符
40 
41 --表2(包含map字段类型)
42 create table t_map(id int,name string,hobby map<string,string>)
43 row format delimited 
44 fields terminated by ','
45 collection items terminated by '-'
46 map keys terminated by ':' ;
47 --map keys map中k-v分隔符
48 --数据：1,zhangsan,唱歌:非常喜欢-跳舞:喜欢-游泳:一般般
49 --      2,lisi,打游戏:非常喜欢-篮球:不喜欢

DQL操作

4个By区别

　　Sort By：分区内有序，只保证每个 reducer 的输出有序，不保证全局有序。

　　Order By：全局排序，只有一个Reducer；

　　Distrbute By：类似MR中Partition，进行分区，结合sort by使用。

　　Cluster By：当Distribute by和Sorts by字段相同时可以使用Cluster by方式。Cluster by除了具有Distribute by的功能外还兼具Sort by的功能。但是排序只能是升序排序，不能指定排序规则为ASC或者DESC。

　　如果 distribute 和 sort 的字段是同一个时，此时，cluster by = distribute by + sort by

Join

　　inner join 内连接，两张表都满足条件的数据

　　left join 左链接，以左表为主表，主表的数据都显示

　　left semi join 显示左表的数据部分（内连接）

参数的配置方式优先级别：依次增强

　　默认的配置（hive-default.xml），自定义的配置（hive-site.xml），shell命令行参数，session的命令行中进行设置

Shell命令行参数（常用） -e "sql" 可以跟上sql的字符串，-f file.sql 可以跟上sql脚本文件

　　　　　　　　　　　　-hiveconf (参数配置，传递参数到脚本文件中)

　　　　　　　　　　　　-hivevar (只能传递参数)

内置函数

　　查看系统自带的函数：show functions;

　　显示自带的函数的用法：

　　　　#不详细 desc function upper;

　　　　#详细 desc function extended upper;

条件判断函数： CASE

语法 : CASE a WHEN b THEN c [WHEN d THEN e]* [ELSE f] END

返回值 : T

说明：如果 a 等于 b ，那么返回 c ；如果 a 等于 d ，那么返回 e ；否则返回 f

举例：hive> Select case 100 when 50 then 'tom' when 100 then 'mary' else 'tim' end from dual;

mary

字符串连接函数：CONCAT

带分隔符字符串连接函数：concat_ws

举例：select concat_ws(',', 'abc', '123')

自定义函数

　　UDF（User-Defined-Function）普通函数一进一出

继承UDF
重载evaluate方法
打成jar包（胖包）上传到服务器 
将jar包添加到 hive 的 classpath 
    hive>add jar /home/hadoop/udf.jar; 
创建临时函数与开发好的java class关联 
    create temporary function tolowercase as 
    'cn.itcast.hive.UDF_Demo'; 
（不加temporary就是创建永久函数，需要使用drop手动删除）
在hql中使用自定义的函数tolowercase ip  
    Select tolowercase(name),age from t_test;

　　UDAF（User-Defined Aggregation Function）聚合函数多进一出

UDAF是输入多个数据行，产生一个数据行
用户自定义的UDAF必须是继承了UDAF，且内部包含多个实现了exec的静态类

　　UDTF（User-Defined Table-Generating Functions）表生成函数一进多出

继承org.apache.hadoop.hive.ql.udf.generic.GenericUDTF,
实现initialize, process, close三个方法。
UDTF首先会调用initialize方法，
    此方法返回UDTF的返回行的信息（返回个数，类型）。
初始化完成后，会调用process方法,真正的处理过程在process函数中，
    在process中，每一次forward()调用产生一行；
    如果产生多列可以将多个列的值放在一个数组中，
    然后将该数组传入到forward()函数。
最后close()方法调用，对需要清理的方法进行清理
把程序打成jar包
添加jar包：add jar /run/jar/udf_test.jar;
创建临时函数：
    CREATE TEMPORARY FUNCTION explode_map 
    AS 'cn.itcast.hive.udtf.ExplodeMap';
销毁临时函数：hive> DROP TEMPORARY FUNCTION add_example;

UDTF有两种使用方法，
    一种直接放到select后面（不可以添加其他字段使用，不可以嵌套调用，
        不可以和group by/cluster by/distribute by/sort by一起使用）
    一种和lateral view一起使用

lateral view（侧视图）与 explode函数

explode可以对数值类型为array，或者为map结构的进行分割处理

　　对array处理：将array每个元素单独作为一行输出

　　对map处理：将map中的元素作为一行输出，key作为一列，value作为一列

一般情况下，直接使用即可，也可以根据需要结合lateral view 使用

lateral view为侧视图，意义是为了配合UDTF来使用，把某一行数据拆分成多行数据。不加lateral view的UDTF只能提取单个字段拆分，并不能塞回原来数据表中。加上lateral view就可以将拆分的单个字段数据与原始表数据关联上。在使用lateral view的时候需要指定视图别名和生成的新列别名。

1 --select 字段1, 字段2, ... 
2 --from tabelA lateral view UDTF(xxx) 视图别名(虚拟表名) as a,b,c
3 --例如
4 select name,subview.* from test_message 
5 lateral view explode(location) subview as lc;

行列转换

1.多行转多列

　　col1 col2 col3

　　a c 1

　　a d 2

　　a e 3

　　b c 4

　　b d 5

　　b e 6

现在要将其转化为：

　　col1 c d e

　　a 1 2 3

　　b 4 5 6

此时需要使用到max(case … when … then … else 0 end)，仅限于转化的字段为数值类型且为正值的情况

1 select col1,
2 max(case col2 when 'c' then col3 else 0 end) as c,
3 max(case col2 when 'd' then col3 else 0 end) as d,
4 max(case col2 when 'e' then col3 else 0 end) as e
5 from row2col
6 group by col1;

2.多行转单列(重要)

　　col1 col2 col3

　　a b 1

　　a b 2

　　a b 3

　　c d 4

　　c d 5

　　c d 6

将其转化为:

　　col1 col2 col3

　　a b 1,2,3

　　c d 4,5,6

此时需要两个内置的函数：

　　a）concat_ws(参数1，参数2)，用于进行字符的拼接

　　　　参数1—指定分隔符

　　　　参数2—拼接的内容

　　b）collect_set(col3)，它的主要作用是将某字段的值进行去重汇总，产生array类型字段，如果不想去重可用collect_list()

 1 select collect_set(col3) from row2col_1；
 2 --将col3的所有数据放到一个集合中（去重）
 3 
 4 select collect_set(col3) from row2col_1 group by col1,col2;
 5 --根据col1,col2进行分组，只有第一列和第二列都相同，认为是同一组
 6 
 7 select col1,col2, collect_set(col3) from row2col_1 
 8 group by col1,col2;
 9 --三列显示，行转列
10 
11 select col1, col2, 
12 concat_ws('，', collect_set(cast(col3 as string))) as col3
13 from row2col_1
14 group by col1, col2;
15 --cast(col3 as string)将第三列变成string类型
16 --因为concat_ws是对于字符串拼接

3.多列转多行

col1 c d e

a 1 2 3

b 4 5 6

现要将其转化为：

col1 col2 col3

a c 1

a d 2

a e 3

b c 4

b d 5

b e 6

这里需要使用union进行拼接。union 可以结合多个select语句返回共同的结果集保证每个select语句返回的数据类型个数是一致的。

1 select col1, 'c' as col2, c as col3 from col2row
2 UNION
3 select col1, 'd' as col2, d as col3 from col2row
4 UNION
5 select col1, 'e' as col2, e as col3 from col2row
6 order by col1, col2;

4.单列转多行（重要）

col1 col2 col3

a b 1,2,3

c d 4,5,6

现要将其转化为：

col1 col2 col3

a c 1

a d 2

a e 3

b c 4

b d 5

b e 6

这里需要使用UDTF（表生成函数）explode()，该函数接受array类型的参数，其作用恰好与collect_set相反，实现将array类型数据行转列。explode配合lateral view实现将某列数据拆分成多行。

1   select col1, col2, lv.col3 as col3
2   from col2row_2 
3   lateral view explode(split(col3, ',')) lv as col3;

reflect函数

　　可以支持在 sql 中调用 java 中的自带函数，秒杀一切 udf 函数

--例1
--使用 java.lang.Math 当中的 Max 求两列当中的最大值 
select reflect("java.lang.Math","max",col1,col2) from test_udf; 

--例2
--准备数据 test_udf2.txt 
java.lang.Math,min,1,2 
java.lang.Math,max,2,3 
--执行查询 
select reflect(class_name,method_name,col1,col2) from test_udf2;

json

什么叫json：原生的js对象

hive处理json数据总体来说有两个方向的路走：

1. 将json以字符串的方式整个导入hive表，然后通过使用UDF函数解析已经导入到hive中的数据，比如使用lateral view json_tuple的方法，获取所需要的列名

get_json_object（string json_string,string path)：第一个参数填写json对象变量，第二个参数使用$表示json变量表示，每次只能返回一个数据项

1 select get_json_object(t.json,'$.id'),
2 get_json_object(t.json,'$.total_number') 
3 from tmp_json_test t;

json_tuple(string json_string,'属性1','属性2')

1 select json_tuple(json,'id','ids','total_number') 
2 from tmp_json_test;

2. 在导入之前将json拆成各个字段，导入Hive表的数据是已经解析过的，这将需要使用地方放的SerDe

 1 --从http:www.congiu.net/hive-json-serde/下载jar包
 2 add jar 
 3 /root/hivedata/json-serde-1.3.7-jar-with-dependencies.jar;
 4 
 5 create table tmp_json_array(id string,
 6 ids array<string>,total_number int) 
 7 row format SERDE 'org.openx.data.jsonserde.JsonSerDe' 
 8 stored as textfile;
 9 load data local inpath '/root/hivedata/json_test.txt' 
10 overwrite into table tmp_json_array;

窗口函数

又叫 OLAP 函数/分析函数，兼具分组和排序功能

窗口函数最重要的关键字是 partition by 和 order by。

具体语法如下：over (partition by xxx order by xxx)

　　- 如果不指定 rows between,默认为从起点到当前行;

　　- 如果不指定 order by，则将分组内所有值累加;

　　- 关键是理解 rows between 含义,也叫做 window 子句：

　　　　- preceding：往前

　　　　- following：往后

　　　　- current row：当前行

　　　　- unbounded：起点

　　　　- unbounded preceding 表示从前面的起点

　　　　- unbounded following：表示到后面的终点

AVG，MIN，MAX，和 SUM 用法一样。

例：

 1 select cookieid,createtime,pv, 
 2 sum(pv) over(partition by cookieid order by createtime) as pv1  
 3 from itcast_t1; 
 4 --pv1: 分组内从起点到当前行的 pv 累积，
 5 --如，11 号的 pv1=10 号的 pv+11 号的 pv, 12 号=10 号+11 号+12 
 6 
 7 select cookieid,createtime,pv, 
 8 sum(pv) over(partition by cookieid) as pv3 
 9 from itcast_t1; 
10 --pv3: 分组内(cookie1)所有的 pv 累加 
11 
12 select cookieid,createtime,pv, 
13 sum(pv) over(partition by cookieid 
14 order by createtime 
15 rows between 3 preceding and 1 following) as pv5 
16 from itcast_t1;
17 --pv5: 分组内当前行+往前 3 行+往后 1 行，
18 --如，14 号=11 号+12 号+13 号+14 号+15 号=5+7+3+2+4=21 
19 
20 select cookieid,createtime,pv, 
21 sum(pv) over(partition by cookieid 
22 order by createtime rows between current row and 
23 unbounded following) as pv6 
24 from itcast_t1; 
25 --pv6: 分组内当前行+往后所有行，
26 --如，13 号=13 号+14 号+15 号+16 号=3+2+4+4=13，
27 --14 号=14 号+15 号+16 号=2+4+4=10

ROW_NUMBER() 从 1 开始，按照顺序，生成分组内记录的序列。 1 2 3 4
RANK() 生成数据项在分组中的排名，排名相等会在名次中留下空位。1 2 2 4
DENSE_RANK()生成数据项在分组中的排名，排名相等在名次中不会留下空位。1 2 2 3

1 SELECT  
2 cookieid, 
3 createtime, 
4 pv, 
5 RANK() OVER(PARTITION BY cookieid ORDER BY pv desc) AS rn1, 
6 DENSE_RANK() OVER(PARTITION BY cookieid ORDER BY pv desc) AS rn2, 
7 ROW_NUMBER() OVER(PARTITION BY cookieid ORDER BY pv DESC) AS rn3  
8 FROM itcast_t2  WHERE cookieid = 'cookie1';

NTILE

有时会有这样的需求:如果数据排序后分为三部分，业务人员只关心其中的一部分，如何将这中间的三分之一数据拿出来呢?NTILE 函数即可以满足。可以看成是：把有序的数据集合平均分配到指定的数量（num）个桶中, 将桶号分配给每一行。如果不能平均分配，则优先分配较小编号的桶，并且各个

桶中能放的行数最多相差 1。然后可以根据桶号，选取前或后 n 分之几的数据。数据会完整展示出来，只是给相应的数据打标签；具体要取几分之几的数据，需要再嵌套一层根据标签取出。

 1 SELECT * FROM
 2 (SELECT  
 3 cookieid, 
 4 createtime, 
 5 pv, 
 6 NTILE(2) OVER(PARTITION BY cookieid ORDER BY createtime) AS rn1, 
 7 NTILE(3) OVER(PARTITION BY cookieid ORDER BY createtime) AS rn2, 
 8 NTILE(4) OVER(ORDER BY createtime) AS rn3 
 9 FROM itcast_t2  ORDER BY cookieid,createtime) temp
10 WHERE cookieid = 'cookie2' AND  rn2 = 2;

Lag（col， n）往前n行

Lead（col， n）往后n行

数据压缩

优缺点

　　优点：减少存储磁盘空间，降低单节点的磁盘 IO。由于压缩后的数据占用的带宽更少，因此可以快数据在 Hadoop 集群流动的速度，减少网络传输带宽。

　　缺点：需要花费额外的时间/CPU 做压缩和解压缩计算

MR哪些过程可以设置压缩？

　　需要分析处理的数据在进入map 前可以压缩，然后解压处理，map 处理完成后的输出可以压缩，这样可以减少网络 I/O(reduce 通常和 map 不在同一节点上)，reduce 拷贝压缩的数据后进行解压，处理完成后可以压缩存储在 hdfs 上，以减少磁盘占用量。

数据存储格式

行式存储

　　优点：相关的数据是保存在一起，比较符合面向对象的思维，因为一行数据就是一条记录，这种存储格式比较方便进行 INSERT/UPDATE 操作

　　缺点：如果查询只涉及某几个列，它会把整行数据都读取出来，不能跳过不必要的列读取。当然数据比较少，一般没啥问题，如果数据量比较大就比较影响性能由于每一行中，列的数据类型不一致，导致不容易获得一个极高的压缩比，也就是空间利用率不高不是所有的列都适合作为索引

列式存储

　　优点：查询时，只有涉及到的列才会被查询，不会把所有列都查询出来，即可以跳过不必要的列查询；高效的压缩率，不仅节省储存空间也节省计算内存和 CPU。任何列可以作为索引；

　　缺点： INSERT/UPDATE 很麻烦或者不方便；不适合扫描小量的数据

Hive 支持的存储数的格式主要有：TEXTFILE（行式存储）、SEQUENCEFILE(行式存储)、ORC（列式存储）、PARQUET（列式存储）。

TEXTFILE，行式存储，但使用这种方式，hive 不会对数据进行切分，从而无法对数据进行并行操作

ORC，列式存储，它并不是一个单纯的列式存储格式，仍然是首先根据行组分割整个表，在每一个行组内进行按列存储

　　优点： ORC 是列式存储，有多种文件压缩方式，并且有着很高的压缩比。文件是可切分（Split）的。因此，在 Hive 中使用 ORC 作为表的文件存储格式，不仅节省 HDFS 存储资源，查询任务的输入数据量减少，使用的 MapTask 也就减少了。 ORC 可以支持复杂的数据结构（比如 Map 等）。ORC 文件也是以二进制方式存储的，所以是不可以直接读取，ORC 文件也是自解析的。

一个 ORC 文件可以分为若干个 Stripe，一个 Stripe可以分为三个部分：

indexData：某些列的索引数据。一个轻量级的 index，默认是每隔 1W 行做一个索引。这里做的索引只是记录某行的各字段在 Row Data 中的 offset
rowData :真正的数据存储。，先取部分行，然后对这些行按列进行存储。对每个列进行了编码，分成多个 Stream 来存储。
StripFooter：存放各个stripe 的元数据信息。每个文件有一个 File Footer，这里面存的是每个 Stripe 的行数，每个 Column的数据类型信息等；每个文件的尾部是一个 PostScript，这里面记录了整个文件的压缩类型以及 FileFooter 的长度信息等。在读取文件时，会 seek 到文件尾部读PostScript，从里面解析到 File Footer 长度，再读 FileFooter，从里面解析到各个Stripe 信息，再读各个 Stripe，即从后往前读。

PARQUET，列式存储，是面向分析型业务的列式存储格式。Parquet 文件是以二进制方式存储的，所以是不可以直接读取的，文件中包括该文件的数据和元数据，因此 Parquet 格式文件是自解析的。通常情况下，在存储Parquet数据的时候会按照Block大小设置行组的大小，由于一般情况下每一个 Mapper 任务处理数据的最小单位是一个 Block，这样可以把每一个行组由一个 Mapper 任务处理，增大任务执行并行度。

存储格式总结

　　ORC存储文件默认采用 ZLIB 压缩。比 snappy 压缩的小。在实际的项目开发当中，hive 表的数据存储格式一般选择：orc 或 parquet。压缩方式一般选择 snappy。

　　存储文件的压缩比总结： ORC > Parquet > textFile

　　存储文件查询速度三种差不多

优化

0. 分区分桶技术，行列过滤

1. Fetch 抓取机制

在 hive-default.xml.template 文件中 hive.fetch.task.conversion 默认是 more，老版本 hive 默认是 minimal，该属性修改为 more 以后，在全局查找、字段查找、limit 查找等都不走 mapreduce。

2. mapreduce 本地模式

mapreduce可以使用本地模拟环境运行，此时就不是分布式执行的程序，但是针对小文件小数据处理特别有效果。用户可以通过设置 hive.exec.mode.local.auto 的值为 true，来让 Hive 在适当的时候自动启动这个优化。

3. join优化

　　1）map join 在 Reduce 阶段完成 join。容易发生数据倾斜。可以用 MapJoin 把小表全部加载到内存在 map 端进行 join，避免 reducer处理。在实际使用中，只要根据业务把握住小表的阈值标准即可，hive 会自动帮我们完成 mapjoin，提高执行的效率。

　　2）大表 join 大表

空key过滤，key对应的数据为异常数据，例如空，可进行过滤

空key转换，key对应的数据有用，必须进行join，通过 hive 的 rand 函数，随记的给每一个为空的 id 赋上一个随机值，这样就不会造成数据倾斜。

　　3）大小表，小大表join 在当下的 hive 版本中，大表 join 小表或者小表 join 大表，就算是关闭 map端 join 的情况下，基本上没有区别了（hive 为了解决数据倾斜的问题，会自动进行过滤）。

4. group by 优化—map 端聚合

很多聚合操作都可以先在 Map 端进行部分聚合，最后在 Reduce 端得出最终结果。

　　1）是否在 Map 端进行聚合，默认为 True set hive.map.aggr = true;

　　2）在 Map 端进行聚合操作的条目数目 set hive.groupby.mapaggr.checkinterval = 100000;

　　3）有数据倾斜的时候进行负载均衡（默认是 false） set hive.groupby.skewindata = true;

5. 数据倾斜问题

　　1）调整mapTask个数

在Map执行前合并小文件，减少Map数：CombineHiveInputFormat具有对小文件进行合并的功能（系统默认的格式）。HiveInputFormat没有对小文件合并功能。

当 input 的文件都很大，任务逻辑复杂，map 执行非常慢的时候，可以考虑增加 Map 数

　　2）调整reduceTask个数，reduce 个数并不是越多越好

　　　　1）过多的启动和初始化 reduce 也会消耗时间和资源；

　　　　2）另外，有多少reduce，就会有多少输出文件，如果生成很多个小文件，那么如果这些小文件作为下一个任务的输入，则也会出现小文件过多的问题；在设置 reduce 个数的时候也需要考虑这两个原则：处理大数据量利用合适的 reduce 数；使单个 reduce 任务处理数据量大小要合适。

6. 了解执行计划—explain

7. 并行执行机制

通过设置参数 hive.exec.parallel 值为true，就可以开启并发执行。

8. 严格模式

通过设置属性 hive.mapred.mode 值为默认是非严格模式 nonstrict 。开启严格模式需要修改 hive.mapred.mode 值为 strict，开启严格模式可以禁止 3 种类型的查询。

　　1）对于分区表，除非 where 语句中含有分区字段过滤条件来限制范围，否

则不允许执行。用户不允许扫描所有分区。

　　2）对于使用了 order by 语句的查询，要求必须使用 limit 语句。因为 order

by 为了执行排序过程会将所有的结果数据分发到同一个 Reducer 中进行处理，

　　3）限制笛卡尔积的查询。

9. jvm 重用机制

JVM 重用可以使得 JVM 实例在同一个 job 中重新使用 N 次，这个功能的缺点是，开启 JVM 重用将一直占用使用到的 task 插槽，以便进行重用，直到任务完成后才能释放。

10. 推测执行机制

推测出“拖后腿”的任务，并为这样的任务启动一个备份任务，让该任务与原始任务同时处理同一份数据，并最终选用最先成功运行完成任务的计算结果作为最终结果。

你可能感兴趣的:(Hive理论基础)

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
坚持“三步走”，推动我国人权事业发展 Ariel_Yogurt
6月16日出版的第12期《求是》杂志将发表中共中央总书记、国家主席、中央军委主席习近平的重要文章《坚定不移走中国人权发展道路，更好推动我国人权事业发展》。尊重和保障人权，是中国共产党人的不懈追求。努力夯实理论基础。推动人权事业发展的第一步是理解人权。作为青年干部，要想在人权事业全民发展的新浪潮中站稳脚步，就应该积极接受人权理论学习，坚持以人民为中心的人权思想，深刻认识党的领导是中国特色社会主义人权
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
【从问题中去学习k8s】k8s中的常见面试题（夯实理论基础）（二十八）向往风的男子 k8s 学习 kubernetes 容器
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》从问题中去学习k8s《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
Presto【基础 01】简介+架构+数据源+数据模型 2401_84254343 程序员架构
一个Catalog包含Schema和Connector。例如，配置JMX的Catalog，通过JXMConnector访问JXM信息。当执行一条SQL语句时，可以同时运行在多个Catalog。Presto处理table时，是通过表的完全限定（fully-qualified）名来找到Catalog。例如，一个表的权限定名是hive.test_data.test，则test是表名，test_data是
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
大数据之flink与hive 星辰_mya 大数据 flink hive
其实吧我不太想写flink，因为线上经验确实不多，这也是我需要补的地方，没有条件创造条件，先来一篇吧flink：高性能低延迟流批一体的分布式计算框架基于事件时间对实时数据精准处理快速响应支持批处理，高效离线分析和数据挖掘数据仓库的引擎丰富数据源/接收器，集成多种数据存储格式和源，比较常见就是咱们今天的主题hive了checkpoint恢复机制，故障恢复快速恢复计算任务分布式弹性扩展，据业务灵活增加
hive血缘关系之输入表与目标表的解析 zxfBdd hive 大数据治理大数据
接了一个新需求：需要做数据仓库的血缘关系。正所谓兵来将挡水来土掩，那咱就动手吧。血缘关系是数据治理的一块，其实有专门的第三方数据治理框架，但考虑到目前的线上环境已经趋于稳定，引入新的框架无疑是劳民伤财，伤筋动骨，所以就想以最小的代价把这个事情给做了。目前我们考虑做的血缘关系呢只是做输入表和输出表，最后会形成一张表与表之间的链路图。这个东西的好处就是有助于仓库人员梳理业务，后面可能还会做字段之间的血
初级练习[3]:Hive SQL子查询应用大数据深度洞察 Hive hive sql hadoop 数据仓库大数据数据库
目录环境准备看如下链接子查询查询所有课程成绩均小于60分的学生的学号、姓名查询没有学全所有课的学生的学号、姓名解释：没有学全所有课，也就是该学生选修的课程数<总的课程数。查询出只选修了三门课程的全部学生的学号和姓名环境准备看如下链接环境准备https://blog.csdn.net/qq_45115959/article/details/142057624?spm=1001.2014.3001.5
Linux下载压缩包：tar.gz、zip、tar.bz2格式全攻略 promise524 Linux linux 运维服务器后端 bash shell
在Linux中，下载各种格式的压缩包（如.tar.gz、.zip、.tar.bz2等）通常使用命令行工具如wget和curl。1.使用wget下载压缩包wget是Linux中最常用的文件下载工具，支持HTTP、HTTPS、FTP等协议，可以直接从命令行下载文件。基本命令：wget[URL]下载.tar.gz文件wgethttps://test.com/archive.tar.gz此命令将从指定的U
Anaconda版本和Python版本对应关系纬领网络 python anaconda3
官网下载地址：https://repo.anaconda.com/archive/下载地址：https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/anaconda3版本基础python版本Anaconda3-2024.06-1Python3.12.4Anaconda3-2024.02-1Python3.11.7Anaconda3-2023.09
六、二叉树（1）小霖同学onism 算法基础 python
六、二叉树（1）理论基础种类存储方式遍历方式定义144.二叉树的前序遍历递归法，后面见迭代145.二叉树的后序遍历，递归94.二叉树的中序遍历,递归定义特点和区别适用场景迭代遍历前序迭代中序迭代后序迭代中序遍历（InorderTraversal）后序遍历（PostorderTraversal）思路上的主要区别统一迭代（标记法）层序遍历理论基础种类满二叉树：节点都是满的，节点个数2^k-1完全二叉树
【从问题中去学习k8s】k8s中的常见面试题（夯实理论基础）（十一）向往风的男子 k8s 学习 kubernetes 容器
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》从问题中去学习k8s《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》
R语言包AMORE安装报错问题以及RStudio与Rtools环境配置卡卡_R-Python R语言数据分析与可视化 r语言开发语言
在使用R语言进行AMORE安装时会遇到报错，这时候需要采用解决办法：'''AMORE包安装，需要离线官网下载安装包：Indexof/src/contrib/Archive/AMORE(r-project.org)https://cran.r-project.org/src/contrib/Archive/AMORE/一、出现的问题最近开始学习R语言，安装了最新版的R4.4.1和RStudio，但安
中级练习[3]：Hive SQL用户行为与商品销售数据分析大数据深度洞察 Hive hive 数据仓库大数据 sql
目录1.用户累计消费金额及VIP等级查询1.1题目需求1.2代码实现2.首次下单后第二天连续下单的用户比率查询2.1题目需求2.2代码实现3.每个商品销售首年的年份、销售数量和销售金额统计3.1题目需求3.2代码实现1.用户累计消费金额及VIP等级查询1.1题目需求从订单信息表(order_info)中统计每个用户截止其每个下单日期的累积消费金额，以及每个用户在其每个下单日期的VIP等级。VIP等
Python基础知识进阶之正则表达式_头歌python正则表达式进阶前端陈萨龙程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
编程常用命令总结 Yellow0523 Linux BigData 大数据
编程命令大全1.软件环境变量的配置JavaScalaSparkHadoopHive2.大数据软件常用命令Spark基本命令Spark-SQL命令Hive命令HDFS命令YARN命令Zookeeper命令kafka命令Hibench命令MySQL命令3.Linux常用命令Git命令conda命令pip命令查看Linux系统的详细信息查看Linux系统架构(X86还是ARM，两种方法都可)端口号命令L
五行相生相克记忆法 xuan_niao
五行生克意识是中华民族传统文化和堪舆文化中的一块瑰宝，是古代先民在社会生活的实践中通过长期的观察和思考而建立起来的一种带有朴素唯物主义和辩证法的哲学思想。五行生克的理论则是堪舆理论中的一个重要组成部分。二十四史中专门有《律历志》、《五行志》记载五行学说，由它而确立的历史观、天道观等一直为后世百家所尊奉和应用。至今，它仍然是中医、武术、气功和一些一传统文化理论基础。所谓五行，就是古人通过与自然界的长
博客园怎么了？ YYH1992
新年好，给大家拜个早年！今年来到安徽过年，无聊中，不知不觉中又来到博客园了（忠实粉丝哦），却发现一件奇怪的事情，请看截图难道博客园被挂马了？抑或其它问题？如果真有问题，还请dudu抓紧时间修正，免得影响我们园子的声誉！我要下线了，出去买回家的车票了，只能年后回家了。。。转载于:https://www.cnblogs.com/HollisYao/archive/2008/02/06/1065351.
机器学习第12章计算学习理论一只小小程序猿机器学习人工智能
目录基础知识PAC学习有限假设空间可分情形不可分情形VC维稳定性基础知识计算学习理论研究的是关于通过"计算"来进行"学习"的理论，即关于机器学习的理论基础，其目的是分析学习任务的困难本质，为学习算法提供理论保证，并根据分析结果指导算法设计。给定样例集D={(x1,y1),(x2,y2),…,(xm,ym)}D=\left\{\left(\boldsymbol{x}_{1},y_{1}\right)
linux下文件的复制、移动与删除搬砖中年人
一、文件复制命令cp命令格式：cp[-adfilprsu]源文件(source)目标文件(destination)cp[option]source1source2source3...directory参数说明：-a:是指archive的意思，也说是指复制所有的目录-d:若源文件为连接文件(linkfile)，则复制连接文件属性而非文件本身-f:强制(force)，若有重复或其它疑问时，不会询问用户
分布式事务之理论基础 xiaogaot
分布式事务的概念理论事务具备以下四个基本特性（ACID）原子性（Atomicity）：一系列操作作被看作一个整体，要么全部成功，要么全部失败一致性（consistency）：如果把所有参与者的数据看成是一个数据集，那么操作前后，数据的总量是不增不减的。也可以理解成数据是满足完整约束的。举例：一个数据集中只有两个参与者A&B，A持有100元，B持有0元，总额100元；A对B转账50元，余额50，B收
2024年最全使用Python求解方程_python解方程(1)，字节面试官迟到 2401_84569545 程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
兼容 Trino Connector，扩展 Apache Doris 数据源接入能力｜Lakehouse 使用手册 vvvae1234 apache
ApacheDoris内置支持包括Hive、Iceberg、Hudi、Paimon、LakeSoul、JDBC在内的多种Catalog，并为其提供原生高性能且稳定的访问能力，以满足与数据湖的集成需求。而随着ApacheDoris用户的增加，新的数据源连接需求也随之增加。因此，从3.0版本开始，ApacheDoris引入了TrinoConnector兼容框架。Trino/Presto作为业界较早应用
SAP HANA makaitai BW sap 数据库工具报表 layer 服务器
原文地址：http://LiuAlex.com/archives/1776也是刚刚开始学习HANA的一些知识，一边看书一遍做笔记，说到底无非是用自己的语言来理解标准帮组文档所讲解的意思，肯定有理解失误的地方，毕竟没有参加过标准培训，即使有培训，从老师那边来的知识也不可能是完整的传授过来，中间多少的知识遗漏是正常的，所以多看看HELP的文档，应该可以原汁原味的理解作者的意思。这张图片是从SAPHAN
Hive SQL查询汇总分析大数据深度洞察 Hive hive sql hadoop 数据仓库数据库大数据
目录SQL查询汇总分析成绩查询查询编号为“02”的课程的总成绩查询参加考试的学生个数分组查询查询各科成绩最高和最低的分查询每门课程有多少学生参加了考试（有考试成绩）查询男生、女生人数分组结果的条件查询平均成绩大于60分的学生的学号和平均成绩查询至少选修四门课程的学生学号查询同姓（假设每个学生姓名的第一个字为姓）的学生名单并统计同姓人数大于2的姓查询每门课程的平均成绩，结果按平均成绩升序排序，平均成
RMAN-08137 rman delete archivelog force jnrjian 数据库 oracle
deleteforcearchiveloguntiltime'trunc(sysdate-4)'backedup1timestodevicetypedisk;SymptomsDatabaseAClonedtoDatabaseBonCloneserver.GoldenGateisConfiguredonSourcedatbaseA.DatabaseBwhichisclonedfromSourcedo
hive表格统计信息不准确 weixin_41956627 hive hive hadoop 数据仓库
问题描述有个hive分区表，orc存储格式，有个分区，查询selectcount(1)fromtablewheredt='yyyyMMdd'结果是0，但查询select*fromtablewheredt='yyyyMMdd'又能查到数据，去hdfs对应目录下查看，也能看到有数据文件解决执行如下sqlANALYZETABLEdb.table1PARTITION(dt='20240908')COMPU
Conda创建环境失败：000和404错误柚柚柚柚柚 conda
一、首先下载Anaconda1.打开网址Indexof/anaconda/archive/|清华大学开源软件镜像站|TsinghuaOpenSourceMirror，滑到最底部，下载Anaconda3-5.3.1-Linux-x86_64.sh。2.使用winscp拖动本地的Anaconda3-5.3.1-Linux-x86_64.sh到服务器的个人工作目录下。二、安装Anaconda软件，创建虚
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb