张小凡vip

hadoop组件---数据仓库(四)---hive常用命令

安装好hive的环境之后我们可以尝试一些常用的命令，常用命令也可以作为平时工作中的速查手册。

进入hive控制台

首先需要知道hive的启动目录在哪，可以使用命令
whereis hive
启动hive shell在hive安装bin目录下使用命令
hive shell
注:如果hive环境已经加入环境变量，那么whereis时会显示/usr/bin/hive，这种情况下在任意目录运行hive shell。
如下图:

运行过程如下:
[zzq@host253 ~]$ whereis hive hive: /usr/bin/hive /etc/hive [zzq@host253 ~]$ hive shell Java HotSpot(TM) 64-Bit Server VM warning: ignoring option MaxPermSize=512M; support was removed in 8.0 Java HotSpot(TM) 64-Bit Server VM warning: Using incremental CMS is deprecated and will likely be removed in a future release Java HotSpot(TM) 64-Bit Server VM warning: ignoring option MaxPermSize=512M; support was removed in 8.0

Logging initialized using configuration in jar:file:/opt/cloudera/parcels/CDH-5.13.0-1.cdh5.13.0.p0.29/jars/hive-common-1.1.0-cdh5.13.0.jar!/hive-log4j.properties
WARNING: Hive CLI is deprecated and migration to Beeline is recommended.
hive> [zzq@host253 ~] cd/usr/bin/hive−bash:cd:/usr/bin/hive:不是目录[zzq@host253 ] cd /usr/bin
[zzq@host253 bin]$ hive shell
Java HotSpot(TM) 64-Bit Server VM warning: ignoring option MaxPermSize=512M; support was removed in 8.0
Java HotSpot(TM) 64-Bit Server VM warning: Using incremental CMS is deprecated and will likely be removed in a future release
Java HotSpot(TM) 64-Bit Server VM warning: ignoring option MaxPermSize=512M; support was removed in 8.0

新建表和导入数据

创建数据

cd /home/zzq vim table_hive.txt
单击键盘i插入内容如下(注意间隔使用Tab键):
1 19 joe
2 25 zzq
3 23 ly
4 26 liu
5 21 yue
6 20 ze
单击键盘Esc，输入:wq回车保存退出。
如下图:

创建新表

使用命令hive shell进入hive控制台如下使用命令创建新表:

CREATE TABLE t_hive (a int, b int, c string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

如下图:

[zzq@host253 ~]$ hive shell Java HotSpot(TM) 64-Bit Server VM warning: ignoring option MaxPermSize=512M; support was removed in 8.0 Java HotSpot(TM) 64-Bit Server VM warning: Using incremental CMS is deprecated and will likely be removed in a future release Java HotSpot(TM) 64-Bit Server VM warning: ignoring option MaxPermSize=512M; support was removed in 8.0

说明:
数据类型需要与我们文本中的数据对应，以及确定好分隔符，如果是制表符作分隔，我们这里使用’\t’作为分隔，使用空格则使用’\s’。

导入数据table_hive.txt到表t_hive

hive支持很多数据来源，包括HDFS中的和HBase中的,详见后面的数据导入小节，我们这里先熟悉从本地路径导入的命令如下:
LOAD DATA LOCAL INPATH '/home/zzq/table_hive.txt' OVERWRITE INTO TABLE t_hive ;

hive> LOAD DATA LOCAL INPATH '/home/zzq/table_hive.txt' OVERWRITE INTO TABLE t_hive ; Loading data to table default.t_hive Table default.t_hive stats: [numFiles=1, numRows=0, totalSize=52, rawDataSize=0] OK Time taken: 1.511 seconds hive> select * from t_hive; OK 1 19 joe 2 25 zzq 3 23 ly 4 26 liu 5 21 yue 6 20 ze Time taken: 0.821 seconds, Fetched: 6 row(s)

可能遇到的情况–导入数据为NULL

有时候导入数据时发现导入的数据为NULL，如图:

hive> CREATE TABLE t_hive (a int, b int, c string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'; OK Time taken: 0.586 seconds hive> LOAD DATA LOCAL INPATH '/home/zzq/table_hive.txt' OVERWRITE INTO TABLE t_hive ; Loading data to table default.t_hive Table default.t_hive stats: [numFiles=1, numRows=0, totalSize=70, rawDataSize=0] OK Time taken: 0.745 seconds hive> select * from t_hive; OK NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL Time taken: 0.082 seconds, Fetched: 6 row(s)

原因是分隔符不对应导致的。
尤其是空格和制表符以及多个空格这种情况需要尤其注意。

解决方式，修正原数据的分隔符情况或者修改创建语句的分隔符与之对应即可。

查看表和数据

查看表

show tables;
结果如下:
hive> show tables; OK t_hive Time taken: 0.434 seconds, Fetched: 1 row(s)

正则匹配表名

show tables 'hive';
结果如下:
hive> show tables 'hive'; OK t_hive Time taken: 0.019 seconds, Fetched: 1 row(s)

查看表数据

select * from t_hive;
结果如下:
hive> select * from t_hive; OK 1 19 joe 2 25 zzq 3 23 ly 4 26 liu 5 21 yue 6 20 ze Time taken: 0.146 seconds, Fetched: 6 row(s)

查看表结构

desc t_hive;
结果如下:
hive> desc t_hive; OK a int b int c string Time taken: 0.072 seconds, Fetched: 3 row(s)

修改表

增加一个字段

ALTER TABLE t_hive ADD COLUMNS (address String); desc t_hive;
结果如下:
hive> ALTER TABLE t_hive ADD COLUMNS (address String); OK Time taken: 0.669 seconds hive> desc t_hive; OK a int b int c string address string Time taken: 0.07 seconds, Fetched: 4 row(s) hive>

重命名表

ALTER TABLE t_hive RENAME TO t_hadoop; show tables;
结果如下:
hive> ALTER TABLE t_hive RENAME TO t_hadoop; OK Time taken: 0.42 seconds hive> show tables; OK t_hadoop Time taken: 0.017 seconds, Fetched: 1 row(s) hive>

删除表

DROP TABLE t_hadoop; show tables;
结果如下:
hive> DROP TABLE t_hadoop; OK Time taken: 1.057 seconds hive> show tables; OK Time taken: 0.019 seconds, Fetched: 0 row(s)

数据导入

首先需要准备数据文件和创建表结构。

创建数据

cd /home/zzq vim table_hive.txt
单击键盘i插入内容如下(注意间隔使用Tab键):
1 19 joe
2 25 zzq
3 23 ly
4 26 liu
5 21 yue
6 20 ze
单击键盘Esc，输入:wq回车保存退出。

创建新表

使用命令hive shell进入hive控制台如下使用命令创建新表:
hive shell CREATE TABLE t_hive (a int, b int, c string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

从操作系统的本地文件系统加载数据LOCAL

使用命令
LOAD DATA LOCAL INPATH '/home/zzq/table_hive.txt' OVERWRITE INTO TABLE t_hive ;
结果如下:
hive> LOAD DATA LOCAL INPATH '/home/zzq/table_hive.txt' OVERWRITE INTO TABLE t_hive ; Loading data to table default.t_hive Table default.t_hive stats: [numFiles=1, numRows=0, totalSize=52, rawDataSize=0] OK Time taken: 1.511 seconds hive> select * from t_hive; OK 1 19 joe 2 25 zzq 3 23 ly 4 26 liu 5 21 yue 6 20 ze Time taken: 0.821 seconds, Fetched: 6 row(s)

从HDFS加载数据

从本地操作系统的文件导入hive时，hive默认会把文件给复制到HDFS文件系统中。有些版本的hive会在控制台输出复制文件在HDFS文件系统中的路径，有些版本的不会，这个时候我们首先需要找到复制文件在HDFS文件系统中的路径。
使用命令
hadoop fs -ls -R / |grep "table_hive.txt"
结果输出如下:
[zzq@host253 ~]$ hadoop fs -ls -R / |grep "table_hive.txt" -rwxrwxrwt 3 zzq hive 52 2018-01-10 15:01 /user/hive/warehouse/t_hadoop/table_hive.txt

知道路径之后我们就可以对HDFS系统中的文件进行加载了。我们先新建一个新表t_hive2如下:
CREATE TABLE t_hive2 (a int, b int, c string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';
使用HDFS加载命令如下:
LOAD DATA INPATH '/user/hive/warehouse/t_hadoop/table_hive.txt' OVERWRITE INTO TABLE t_hive2 ;
结果如下:
[zzq@host253 ~]$ hive shell Java HotSpot(TM) 64-Bit Server VM warning: ignoring option MaxPermSize=512M; support was removed in 8.0 Java HotSpot(TM) 64-Bit Server VM warning: Using incremental CMS is deprecated and will likely be removed in a future release Java HotSpot(TM) 64-Bit Server VM warning: ignoring option MaxPermSize=512M; support was removed in 8.0

Logging initialized using configuration in jar:file:/opt/cloudera/parcels/CDH-5.13.0-1.cdh5.13.0.p0.29/jars/hive-common-1.1.0-cdh5.13.0.jar!/hive-log4j.properties
WARNING: Hive CLI is deprecated and migration to Beeline is recommended.
hive> CREATE TABLE t_hive2 (a int, b int, c string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘\t’;
OK
Time taken: 3.755 seconds
hive> LOAD DATA INPATH ‘/user/hive/warehouse/t_hadoop/table_hive.txt’ OVERWRITE INTO TABLE t_hive2 ;
Loading data to table default.t_hive2
Table default.t_hive2 stats: [numFiles=1, numRows=0, totalSize=52, rawDataSize=0]
OK
Time taken: 1.158 seconds
hive> select * from t_hive2;
OK
1 19 joe
2 25 zzq
3 23 ly
4 26 liu
5 21 yue
6 20 ze
Time taken: 0.968 seconds, Fetched: 6 row(s)

从其他表导入

使用命令
CREATE TABLE t_hive3 (a int, b int, c string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'; INSERT OVERWRITE TABLE t_hive3 SELECT * FROM t_hive2;

输出结果如下：

[zzq@host253 ~]$ hive shell Logging initialized using configuration in jar:file:/opt/cloudera/parcels/CDH-5.13.0-1.cdh5.13.0.p0.29/jars/hive-common-1.1.0-cdh5.13.0.jar!/hive-log4j.properties WARNING: Hive CLI is deprecated and migration to Beeline is recommended. hive> INSERT OVERWRITE TABLE t_hive3 SELECT * FROM t_hive2; Query ID = zzq_20180110173434_396f9297-9e06-48f9-9990-3d8ece36cc91 Total jobs = 3 Launching Job 1 out of 3 Number of reduce tasks is set to 0 since there's no reduce operator Starting Job = job_1511338430452_0013, Tracking URL = http://host250:8088/proxy/application_1511338430452_0013/ Kill Command = /opt/cloudera/parcels/CDH-5.13.0-1.cdh5.13.0.p0.29/lib/hadoop/bin/hadoop job -kill job_1511338430452_0013 Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 0 2018-01-10 17:34:34,749 Stage-1 map = 0%, reduce = 0% 2018-01-10 17:34:45,810 Stage-1 map = 100%, reduce = 0%, Cumulative CPU 4.7 sec MapReduce Total cumulative CPU time: 4 seconds 700 msec Ended Job = job_1511338430452_0013 Stage-4 is selected by condition resolver. Stage-3 is filtered out by condition resolver. Stage-5 is filtered out by condition resolver. Moving data to: hdfs://host250:8020/user/hive/warehouse/t_hive3/.hive-staging_hive_2018-01-10_17-34-11_471_3781048952726372344-1/-ext-10000 Loading data to table default.t_hive3 Table default.t_hive3 stats: [numFiles=1, numRows=6, totalSize=52, rawDataSize=46] MapReduce Jobs Launched: Stage-Stage-1: Map: 1 Cumulative CPU: 4.7 sec HDFS Read: 3626 HDFS Write: 123 SUCCESS Total MapReduce CPU Time Spent: 4 seconds 700 msec OK Time taken: 38.949 seconds hive> select * from t_hive3; OK 1 19 joe 2 25 zzq 3 23 ly 4 26 liu 5 21 yue 6 20 ze Time taken: 0.278 seconds, Fetched: 6 row(s)

可能遇到的问题Permission denied

报错情况如下:
Job Submission failed with exception 'org.apache.hadoop.security.AccessControlException(Permission denied: user=zzq, access=WRITE, inode="/user":hdfs:supergroup:drwxr-xr-x

原因
执行某些hive命令时需要访问hdfs的/user目录。
在当前的用户zzq或者root用户下，没有对/user这个文件夹的权限。
查看发现/user是属于用户hdfs的。
[zzq@host253 ~]$ hadoop fs -ls / Found 3 items drwxr-xr-x - hbase hbase 0 2018-01-02 14:56 /hbase drwxrwxrwt - hdfs supergroup 0 2017-11-21 19:37 /tmp drwxr-xr-x - hdfs supergroup 0 2017-11-29 18:40 /user

解决方案，切换到hdfs用户然后修改/user目录的权限。
如果是root用户，使用命令
su hdfs hdfs dfs -chmod -R 777 /user

如果是普通用户，则需要sudo权限，使用命令
sudo su hdfs hdfs dfs -chmod -R 777 /user
如图

创建表同时从其他表导入数据

我们之前导入数据都需要先新建表格再导入，还有一种方式可以快速复制表的结构进行导入。使用命令：
CREATE TABLE t_hive4 AS SELECT * FROM t_hive3;
输出结果如下:

hive> [zzq@host253 ~]$ hive shell Logging initialized using configuration in jar:file:/opt/cloudera/parcels/CDH-5.13.0-1.cdh5.13.0.p0.29/jars/hive-common-1.1.0-cdh5.13.0.jar!/hive-log4j.properties WARNING: Hive CLI is deprecated and migration to Beeline is recommended. hive> CREATE TABLE t_hive4 AS SELECT * FROM t_hive3; Query ID = zzq_20180110190404_28870cd5-c8a3-46ed-b633-9115a337372f Total jobs = 3 Launching Job 1 out of 3 Number of reduce tasks is set to 0 since there's no reduce operator Starting Job = job_1511338430452_0014, Tracking URL = http://host250:8088/proxy/application_1511338430452_0014/ Kill Command = /opt/cloudera/parcels/CDH-5.13.0-1.cdh5.13.0.p0.29/lib/hadoop/bin/hadoop job -kill job_1511338430452_0014 Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 0 2018-01-10 19:05:01,596 Stage-1 map = 0%, reduce = 0% 2018-01-10 19:05:09,474 Stage-1 map = 100%, reduce = 0%, Cumulative CPU 4.73 sec MapReduce Total cumulative CPU time: 4 seconds 730 msec Ended Job = job_1511338430452_0014 Stage-4 is selected by condition resolver. Stage-3 is filtered out by condition resolver. Stage-5 is filtered out by condition resolver. Moving data to: hdfs://host250:8020/user/hive/warehouse/.hive-staging_hive_2018-01-10_19-04-45_446_8393649634600940355-1/-ext-10001 Moving data to: hdfs://host250:8020/user/hive/warehouse/t_hive4 Table default.t_hive4 stats: [numFiles=1, numRows=6, totalSize=52, rawDataSize=46] MapReduce Jobs Launched: Stage-Stage-1: Map: 1 Cumulative CPU: 4.73 sec HDFS Read: 3382 HDFS Write: 123 SUCCESS Total MapReduce CPU Time Spent: 4 seconds 730 msec OK Time taken: 26.231 seconds hive> select * from t_hive4; OK 1 19 joe 2 25 zzq 3 23 ly 4 26 liu 5 21 yue 6 20 ze Time taken: 0.335 seconds, Fetched: 6 row(s)

仅复制表结构不导数据

使用命令
CREATE TABLE t_hive5 LIKE t_hive4;

从MySQL数据库导入数据

可以考虑使用Sqoop或者kettle等工具进行抽取。

数据导出

在进行导出时我们首先需要了解hive的数据存放方式，hive对数据的存放其实就是以文件的形式存放的，所以导出数据也就对数据目录进行导出备份等操作。

使用命令查看表格的数据目录:
hadoop fs -ls /user/hive/warehouse/
结果如下:
[zzq@host253 ~]$ hadoop fs -ls /user/hive/warehouse/ Found 6 items drwxrwxrwt - zzq hive 0 2018-01-10 16:39 /user/hive/warehouse/t_hive2 drwxrwxrwt - zzq hive 0 2018-01-10 17:34 /user/hive/warehouse/t_hive3 drwxrwxrwt - zzq hive 0 2018-01-10 19:05 /user/hive/warehouse/t_hive4 [zzq@host253 ~]$ hadoop fs -ls /user/hive/warehouse/t_hive2 Found 1 items -rwxrwxrwt 3 zzq hive 52 2018-01-10 15:01 /user/hive/warehouse/t_hive2/table_hive.txt

从HDFS复制到HDFS其他位置

比如我们把表格t_hive2复制到hdfs的根目录下
注意需要hdfs的用户权限
使用命令
sudo su hdfs hadoop fs -cp /user/hive/warehouse/t_hive2 /
查看复制是否成功使用命令
hadoop fs -ls /t_hive2
结果如下:

[zzq@host253 ~]$ sudo su hdfs [sudo] password for zzq: [hdfs@host253 zzq]$ hadoop fs -cp /user/hive/warehouse/t_hive2 / [hdfs@host253 zzq]$ hadoop fs -ls /t_hive2 Found 1 items -rw-r--r-- 3 hdfs supergroup 52 2018-01-10 19:22 /t_hive2/table_hive.txt [hdfs@host253 zzq]$

通过Hive导出到本地文件系统

使用命令
INSERT OVERWRITE LOCAL DIRECTORY '/home/zzq/hive' SELECT * FROM t_hive2;
结果如下:

使用！可以在hive shell中查看本地操作系统目录文件，使用命令如下
! ls /home/zzq/hive; ! cat /home/zzq/hive/000000_0;
结果如下:

hive> ! ls /home/zzq/hive; 000000_0 hive> ! cat /home/zzq/hive/000000_0; 119joe 225zzq 323ly 426liu 521yue 620ze

Hive查询HiveQL

普通查询：列别名，嵌套子查询

查询出年龄大于20的两条记录
使用命令
FROM ( SELECT b,c as c2 FROM t_hive2 ) t SELECT t.b, t.c2 WHERE b>20 LIMIT 2;
结果如下:

连接查询JOIN

对t_hive2和t_hive3进行连接，id相等时进行关联。筛选条件为年龄大于20岁。
使用命令
SELECT t2.a,t2.b,t3.a,t3.b FROM t_hive2 t2 JOIN t_hive3 t3 on t2.a=t3.a WHERE t2.b>20;

结果如下:

聚合查询1：count, avg

查询数据条数以及平均年龄
使用命令
SELECT count(*), avg(b) FROM t_hive2;

结果如下:

聚合查询2：count, distinct

年龄去重后的种类数量
SELECT count(DISTINCT b) FROM t_hive2;

结果如下:

聚合查询3：GROUP BY, HAVING

根据年龄进行分组后求每组的平均年龄和年龄总和
SELECT avg(b),b,sum(b) FROM t_hive2 GROUP BY b;

根据年龄进行分组后求每组的平均年龄和年龄总和，筛选条件每组的平均年龄大于23
SELECT avg(b),b,sum(b) FROM t_hive2 GROUP BY b HAVING avg(b)>23;

Hive视图

创建视图

Hive 0.6版本及以上支持视图（View，详见Hive的RELEASE_NOTES.txt），Hive View具有以下特点：
1）View是逻辑视图，暂不支持物化视图（后续将在1.0.3版本以后支持）；
2）View是只读的，不支持LOAD/INSERT/ALTER。需要改变View定义，可以是用Alter View；
3）View内可能包含ORDER BY/LIMIT语句，假如一个针对View的查询也包含这些语句，则View中的语句优先级高；
4）支持迭代View。
本质上来说View只是为了使用上的方便，从执行效率上来说没有区别，甚至可能因为要多一次对MetaStore元数据的操作效率略有下降（这里只是一种理论上的推测，实际可能看不出太大区别）。

为什么需要使用视图
进行数据仓库分析时，使用hive作为cube的输入，但是有些情况下，hive中的表定义和数据并不能满足分析的需求，例如有些列的值需要进行处理，有些列的类型不满足需求，甚至有时候在创建hive表时为了图方便，hive中的所有列都被定义成了string，因此很多情况下在使用Kylin之前需要对hive上的数据格式进行适当的修剪，但是使用alter table的方式修改hive原始的schema信息未免会对其它依赖hive的组件有所影响（例如可能导致数据导入失败），于是不得不另辟蹊径，而此时使用hive的视图就是一个非常好的方案。

使用命令
CREATE VIEW v_hive AS SELECT b,c FROM t_hive2 where b>23; select * from v_hive;
结果如下:

删除视图

如果视图已经存在，那么再新建时会报错，所以有时候需要删除视图。
使用命令
DROP VIEW IF EXISTS v_hive;
结果如下:

分区表

分区表是数据库的基本概念，但很多时候数据量不大，我们完全用不到分区表。Hive是一种OLAP数据仓库，涉及的数据量是非常大的，所以分区表在这个场景就显得非常重要。

准备数据

使用命令
cd /home/zzq vim table_class1.txt
单击键盘i插入内容如下(注意间隔使用Tab键):
1 19 joe
2 25 zzq
3 23 ly
4 26 liu
5 21 yue
6 20 ze
单击键盘Esc，输入:wq回车保存退出。

cd /home/zzq vim table_class2.txt
单击键盘i插入内容如下(注意间隔使用Tab键):
1 20 jie
2 26 zzy
3 27 liuxin
4 22 wang
5 23 kk
6 22 qq
单击键盘Esc，输入:wq回车保存退出。

创建分区数据表

hive shell; CREATE TABLE t_student (id int, age int, name string) PARTITIONED BY (class INT) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';
可以看到与普通数据表的创建区别就是多了分区的依据PARTITIONED BY (class INT)。我们这里按照班级来分区，一般股票数据可以按天等来分区。
如图:

导入数据

LOAD DATA LOCAL INPATH '/home/zzq/table_class1.txt' OVERWRITE INTO TABLE t_student PARTITION (class=1); LOAD DATA LOCAL INPATH '/home/zzq/table_class2.txt' OVERWRITE INTO TABLE t_student PARTITION (class=2);

查看分区表

SHOW PARTITIONS t_student;

查询数据

select * from t_student where id=1; select * from t_student where id=1 and class=1;

Hive交互式模式

quit,exit:  退出交互式shell
reset: 重置配置为默认值
set = : 修改特定变量的值(如果变量名拼写错误，不会报错)
set :  输出用户覆盖的hive配置变量
set -v : 输出所有Hadoop和Hive的配置变量
add FILE[S] *, add JAR[S] *, add ARCHIVE[S] * : 添加 一个或多个 file, jar, archives到分布式缓存
list FILE[S], list JAR[S], list ARCHIVE[S] : 输出已经添加到分布式缓存的资源。
list FILE[S] *, list JAR[S] *,list ARCHIVE[S] * : 检查给定的资源是否添加到分布式缓存
delete FILE[S] *,delete JAR[S] *,delete ARCHIVE[S] * : 从分布式缓存删除指定的资源
!  :  从Hive shell执行一个shell命令
dfs  :  从Hive shell执行一个dfs命令
string> : 执行一个Hive 查询，然后输出结果到标准输出
source FILE :  在CLI里执行一个hive脚本文件

你可能感兴趣的:(数据仓库)

【数据仓库】数仓分层设计数据仓库数据分析
一、为何分层？随着信息技术的快速发展，传统数据库已经无法存储和处理海量的数据，数据仓库应运而生。官方说明：数据仓库是用于支持企业决策制定和分析，它通过将不同来源的数据整合在一起，为用户提供一致、全面且易于访问的数据视图。可以简单理解为数据仓库就是专门用来存储和分析海量的历史数据，让数据真正地产生价值，为企业赋能。之前看到过一句话说的很不错，数据仓库的第一性原理是什么？就是以通过整合、优化和管理数据
【数据仓库】指标管理数据仓库
一、指标介绍什么是指标？指标就是用来量化事物的一个工具，帮助我们去将一些抽象的事件得出一个轮廓上的描述。例如我们可以从指标上判断一个产品的好坏，用户粘性等等，例如我们通过日活能去判断出我们整个产品的用户量，从而能反应出我们这个产品的一个健康程度。那么数据仓库中，建立指标体系有以下几点核心意义：统一数据口径，消除歧义（各部门对指标定义不统一）支撑业务决策，提升效率（监控业务健康度）优化资源分配，成本
数据湖构建 HaoHao_010 服务器云服务器云计算阿里云
阿里云的数据湖构建（DataLake）是一种用于存储和处理大量不同类型数据的解决方案，通常用于大数据分析和机器学习等应用场景。数据湖与传统的数据仓库不同，它能够存储结构化、半结构化和非结构化数据，支持大规模数据的整合、存储、查询和分析。阿里云提供了一整套工具和服务来帮助企业构建数据湖，以下是数据湖构建的主要步骤和关键服务：1.数据湖概述数据湖是一种统一的数据存储库，能承载来自多个来源的数据，包括：
【数据分析】4 商业数据分析技能模型总结 loyd3 数据分析数据分析数据挖掘
优秀的商业分析师需要具备的能力数据分析能力逻辑思维能力赢得结果能力一、数据分析能力扩展：工具链生态与进阶场景1.数据获取技术升级企业级数据源管理：数据湖架构（AWSS3/阿里云OSS）与数据仓库（Snowflake/Redshift）权限管理API自动化采集（Postman+PythonRequests模块）反爬虫策略突破（IP代理池/Selenium模拟登录）新兴数据源拓展：社交舆情数据（Twi
周边生态 | WAL-G 与 DBeaver 新版增加 Cloudberry 支持数据库
ApacheCloudberry™(Incubating)是Apache软件基金会孵化项目，由Greenplum和PostgreSQL衍生而来，作为领先的开源MPP数据库，可用于建设企业级数据仓库，并适用于大规模分析和AI/ML工作负载。GitHub:https://github.com/apache/cloudberryHi社区小伙伴们！我们很高兴与大家分享两个ApacheCloudberry开
Hive SQL 使用及进阶详解小四的快乐生活 hive sql hadoop
一、Hive简介Hive是建立在Hadoop之上的数据仓库基础架构，它提供了类似于SQL的查询语言HiveSQL（也称为HQL），用于对存储在Hadoop分布式文件系统（HDFS）中的大规模数据进行数据查询和分析。Hive将SQL查询转换为MapReduce、Tez或Spark等分布式计算任务，使得不熟悉Java编程的数据分析人员也能方便地处理大规模数据。二、HiveSQL基础使用（一）环境准备在
使用 Airbyte 数据集成平台加载 Shopify 数据 fgayif python
技术背景介绍Airbyte是一个用于API、数据库及文件到仓库和数据湖的ELT管道的数据集成平台。它拥有最全的ELT连接器目录，为各种数据源提供强大支持。本文将介绍如何通过Airbyte平台的Shopify连接器加载数据。核心原理解析Airbyte的Shopify连接器将Shopify数据的各种对象作为文档加载，并将其存储为元数据。通过这种方式，可以方便地将Shopify的订单等信息整合到数据仓库
最全数仓实践：总线矩阵设计_数仓总线矩阵(2) 2401_84170391 程序员矩阵大数据 spark
所以，总线矩阵和一致性维度、一致性事实共同组成了Kimball的多维体系结构基础。在这种多维体系结构（MD）的数据仓库架构中，主导的思想便是分步建立数据仓库，并由数据集市组合成企业的数据仓库。但是，在建立第一个数据集市前，架构师首先要做的就是设计出在整个企业内具有统一解释的标准化的维度和事实，即一致性维度和一致性事实，而开发团队必须严格的按照这个体系结构来进行数据集市的迭代开发。如果我们在建立数据
数据仓库面试题集锦（附答案和数仓知识体系），面试必过 m0_60635001 2024年程序员学习数据仓库面试 spark
3、如何构建数据仓库？数据仓库模型的选择是灵活的，不局限与某种模型方法；数据仓库数据是灵活的，以实际需求场景为导向；数仓设计要兼顾灵活性、可扩展性、要考虑技术可靠性和实现成本1）调研：业务调研、需求调研、数据调研2）划分主题域：通过业务调研、需求调研、数据调研最终确定主题域3）构建总线矩阵、维度建模总线矩阵：把总线架构列表形成矩阵形式，行表示业务处理过程，即事实，列表示一致性的维度，在交叉点上打上
Hologres 介绍黄毛火烧雪下数据分析
Hologres是阿里云提供的一款实时数据分析平台，它结合了数据仓库（DataWarehouse）和流式计算（StreamProcessing）的优势，专为大规模数据分析和实时数据处理而设计。Hologres基于PostgreSQL构建，提供了高性能的查询处理、强大的数据分析能力，并能够支持海量数据的实时分析。一、Hologres的核心特点和功能：1、基于PostgreSQL构建：Hologres
preview_220624,Day08_DM层建设实战, 啊六六六 Python 大数据数据挖掘数据仓库
DM名称：数据集市层DataMarket功能：基于DWS层日统计宽表，上卷出周、月、年等统计宽表，即粗粒度汇总。解释从理论层面来说，数据集市是一个小型的部门或工作组级别的数据仓库。一些公司早期的数据集市后期可能会演变成为数仓系统。本项目中在数据集市层面主要进行粗粒度汇总，也可以将这些功能下放至DWS层完成。抛弃DM.使用DataGrip在Hive中创建dm层注意，对于建库建表操作，需直接使用Hiv
架构师论文《论湖仓一体架构及其应用》 pccai-vip 架构软考论文
软考论文-系统架构设计师摘要作为某省级商业银行数据中台建设项目技术负责人，我在2020年主导完成了从传统数据仓库向湖仓一体架构的转型。针对日益增长的支付流水、用户行为埋点及信贷审核影像文件等多模态数据处理需求，原有系统存在存储成本激增、实时分析能力不足等问题。新平台需整合12个核心业务系统数据资源，建设支持实时反欺诈、客户画像分析的高性能数据底座。本项目采用Iceberg+Spark架构实现湖仓一
《数据仓库与数据挖掘》自测破坏神在行动数据仓库与数据挖掘数据仓库数据挖掘
试卷一一、选择题（每题2分，共20分）1.数据仓库的主要特征不包括以下哪一项？A.数据量大B.异构数据整合C.事务处理D.支持决策分析2.OLAP的核心功能是：A.事务处理B.多维数据分析C.数据清洗D.数据转换3.以下哪个不是元数据的分类？A.数据源元数据B.数据模型元数据C.数据仓库映射元数据D.数据备份元数据4.数据挖掘中的KDD指的是：A.数据清洗B.知识发现C.知识库设计D.知识库查询5
银行数据类系统建设奔跑的白鸥银行数据应用数据仓库 spark 大数据
数据仓库建设数据仓库的概念数据仓库是大批量数据的存储系统，在如今PB级数据量的大数据时代，传统数据库由于数据量的限制，无法存储如此庞大的数据量，因此对于需求海量数据的机构大都会将数据存储在数据仓库中，用以取数和分析。数据仓库的分层数据仓库一般会从业务源系统取数，存储在ODS层。这一层存储的都是颗粒度最细的明细数据，由于直接从源系统取数，所以这一层的数据大多是缺乏加工处理的脏数据。再上层是主题数据层
【ETL】从理论到实践的数据处理流程及其工具的应用絆人心 etl 数据仓库 python 数据分析数据挖掘数据库
目录引言一、ETL的基础与工作原理二、ETL过程中的工具选择与实际操作（1）提取（Extract）（2）转换（Transform）（3）加载（Load）三、常见的ETL工具四、ETL的未来发展趋势五、总结引言ETL（Extract,Transform,Load）是处理数据、实现数据整合、清洗和迁移的关键技术。在大数据时代，随着企业数据量的快速增长，ETL不仅要满足传统数据仓库的需求，还要应对实时数
24道数据仓库面试八股文（答案、分析和深入提问）整理守护海洋的猫数据仓库面试职场和发展 python
1.简述从ODS层到DW层的ETL，做了哪些工作？回答在数据仓库（DW）中，ODS（OperationalDataStore）层到DW层的ETL（Extract,Transform,Load）过程主要包括以下几个步骤：提取（Extract）：从ODS层提取原始数据，通常是通过ETL工具或自定义脚本进行数据读取。数据提取可以包括各种格式的源，如数据库、文本文件、API等。转换（Transform）：
大数据MaxCompute教程（阿里云离线数仓项目）学习笔记20231127 多刷亿点题⑧ 云原生数据仓库
1数据仓库概念数据仓库定义（DataWarehouse），是为企业所有决策制定过程，提供所有系统数据支持的战略集合。AI：数据仓库是一个大型、集中、主题导向的数据库系统，用于支持企业决策制定、分析和报告的需要。它统一了来自不同数据源的数据，并将其在一个可查询的数据模型中进行了整合和转换，以便于分析和报告。数据仓库还包括数据清洗、抽取、转换和加载（ETL）的过程，以保证数据的准确性、一致性和完整性。
数据技术的进化史：从数据仓库到数据中台再到数据飞轮 Earth explosion spark 大数据分布式
数据技术介绍：1.数据仓库（DataWarehouse）概念与起源：数据仓库是20世纪90年代初期兴起的一种数据管理和分析技术。它的核心思想是将来自不同源系统的数据集成到一个中央存储库中，以便进行高效的数据分析和报告。主要特点：集成性：将分散在不同系统中的数据进行清洗、转换和集成。主题性：数据按照业务主题（如销售、客户、财务等）进行组织。非易失性：数据一旦进入数据仓库，通常不会进行修改。时变性：数
【面试系列】TypeScript高频面试题及详细解答野老杂谈全网最全IT公司面试宝典面试 typescript 编程语言前端
欢迎来到我的博客，很高兴能够在这里和您见面！欢迎订阅相关专栏：⭐️全网最全IT互联网公司面试宝典：收集整理全网各大IT互联网公司技术、项目、HR面试真题.⭐️AIGC时代的创新与未来：详细讲解AIGC的概念、核心技术、应用领域等内容。⭐️全流程数据技术实战指南：全面讲解从数据采集到数据可视化的整个过程，掌握构建现代化数据平台和数据仓库的核心技术和方法。文章目录常见的初级面试题1.什么是TypeSc
在虚拟机上安装MySQL和Hive 酒城译痴无心剑数据库编程世界 hive mysql 数据库
文章目录零、学习目标一、Hive概述（一）Hive的SQL-HQL（二）数据库与数据仓库（三）Hive的适用场景二、下载、安装和配置MySQL（一）下载MySQL组件压缩包（二）将MySQL组件压缩包上传到虚拟机（三）删除系统自带的MariaDB1、查询mariadb2、删除mariadb（四）安装MySQL组件1、安装MySQL公用组件2、安装MySQL库组件3、安装MySQL客户端组件4、安装
Oracle 12c 并发统计信息收集功能：技术解析与实践指南安呀智数据 Oracle 并发统计信息收集 oracle 12c19c21c oracle 数据库
一、功能背景与核心价值在Oracle数据库的早期版本中，统计信息收集（如通过DBMS_STATS包）是串行执行的，即一次仅处理一个表或分区。对于大规模数据库或数据仓库环境，这种串行模式可能导致统计信息收集耗时过长，影响维护窗口效率。Oracle12cR1引入了并发统计信息收集（ConcurrentStatisticsCollection）功能，允许同时处理多个表、分区或子分区的统计信息，显著缩短收
SQLMesh 系列教程7- 详解 seed 模型梦想画家 #python 数据分析工程 sqlmesh 数据工程
SQLMesh是一个强大的数据建模和管道管理工具，允许用户通过SQL语句定义数据模型并进行版本控制。Seed模型是SQLMesh中的一种特殊模型，主要用于初始化和填充基础数据集。它通常包含静态数据，如参考数据和配置数据，旨在为后续的数据分析提供可靠的基础。在本文中，我们介绍了Seed模型的定义及其在实际项目中的应用，展示了如何通过简单的SQL查询创建Seed模型，并将其加载到数据仓库中。通过一个电
【AI大数据】数据中台的数据分析与挖掘：从数据到业务的决策 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
文章目录1.前言2.基本概念术语说明2.1数据模型及其实体关系实体（Entity）属性（Attribute）实体关系（EntityRelationships）2.2数据仓库2.3分析引擎2.4噪声数据2.5数据湖2.6数据总线2.7数据仓库模型3.核心算法原理和具体操作步骤以及数学公式讲解3.1数据挖掘技术概览（1）数据预处理（2）数据探查（3）数据清洗（4）数据转换（5）数据挖掘（6）知识发现（
为AI聊天工具添加一个知识系统之113 详细设计之54 Chance：偶然和适配之2 一水鉴天软件智能智能制造人工语言开发语言人工智能
本文要点要点祖传代码中的”槽“（占位符变量）和它在实操中的三种槽（占据槽，请求槽和填充槽，实时数据库（source）中数据(流入ETL的一个正序流程行列并发靶向整形绑定变量）是如何通过“命名所依的AI行为”、“分类所缘的因果结构”和“求实所据的机器特征”（元数据仓库OLAP的三个行式并行服务进程锚定配形-限定变量）来精确锚定ETL任务绑定中的这个绑定到底是，谁和谁的什么绑定（资源存储库随着ETL的
（一）大数据---Hadoop整体介绍（架构层）----（组件(3) 2401_84166965 程序员大数据 hadoop 架构
复杂性:体现在数据的管理和操作上。如何抽取，转换，加载，连接，关联以把握数据内蕴的有用信息已经变得越来越有挑战性二、大数据技术有哪些（重点）===================================================================================基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计
正式开源：使用Kafka FDW 加载数据到 Apache Cloudberry™ 数据库开源软件
ApacheCloudberry™(Incubating)由GreenplumDatabase核心开发者创建，是一款领先且成熟的开源大规模并行处理（MassivelyParallelProcessing，MPP）数据库。它基于开源版的PivotalGreenplumDatabase®衍生而来，但采用了更新的PostgreSQL内核，并具备更先进的企业级功能。Cloudberry可以作为数据仓库使用
数仓_数据口径 TTXS123456789ABC #XM1离线数仓_金融零售大数据
数仓_数据口径数据口径含义数据口径包含口径收敛数据口径含义在数据仓库（数仓）中，数据口径是指在数据统计和分析过程中，对数据的定义、计算方法、范围和标准等方面的详细规定。它确保了数据的一致性和准确性，避免因统计标准不一致导致的数据误解和混淆。数据口径包含具体来说，数据口径包括以下几个方面：数据定义：明确指标的具体含义。例如，“用户注册数”指的是在某一定时间内通过平台注册的新用户数量。计算方法：规定如
数据仓库和数据湖数据仓库和数据库 qq_25467441 数据仓库数据库
数据仓库和数据湖是两种不同的数据存储解决方案，它们在设计、用途和数据管理方式上有着显著的区别。以下是数据仓库和数据湖的主要区别：1.数据结构：•数据仓库：通常存储结构化数据，这些数据经过清洗、转换和加载（ETL）过程，以确保数据的一致性和准确性。数据仓库中的数据通常是预定义模式的，便于进行快速查询和分析。•数据湖：可以存储结构化、半结构化和非结构化数据。数据湖不需要预定义的模式，数据可以以其原始格
数据仓库、数据湖和数据湖仓阿湯哥数据仓库 spark 大数据
数据仓库、数据湖和数据湖仓是三种常见的数据存储和管理技术，各自有不同的特点和适用场景。以下是它们的详细比较：1.数据仓库（DataWarehouse）定义：用于存储结构化数据，经过清洗、转换和建模，支持复杂的查询和分析。特点：结构化数据：主要处理关系型数据。预定义模式：数据在加载前需要定义模式（Schema-on-Write）。高性能查询：优化用于复杂查询和报表生成。数据治理：提供强大的数据治理和
数据库MySQL 8.0.32安装包网盘资源下载（附教程）听风说雨的人儿数据库 mysql 百度云
如大家所熟悉的，MySQL是一个开源的关系型数据库管理系统（RDBMS）。它使用SQL（结构化查询语言）来管理数据，允许用户定义表、字段、索引和关系，并通过SQL语句来查询、更新和管理数据。MySQL支持多种操作系统，包括Windows、Linux和MacOS等，并且广泛用于各种应用程序中，如Web应用程序、数据仓库和电子商务系统等。MySQL的优势：成本效益与开源特性作为一个开源数据库，MySQ
jQuery 跨域访问的三种方式 No 'Access-Control-Allow-Origin' header is present on the reque qiaolevip 每天进步一点点学习永无止境跨域众观千象
XMLHttpRequest cannot load http://v.xxx.com. No 'Access-Control-Allow-Origin' header is present on the requested resource. Origin 'http://localhost:63342' is therefore not allowed access. test.html:1
mysql 分区查询优化 annan211 java 分区优化 mysql
分区查询优化引入分区可以给查询带来一定的优势，但同时也会引入一些bug. 分区最大的优点就是优化器可以根据分区函数来过滤掉一些分区，通过分区过滤可以让查询扫描更少的数据。所以，对于访问分区表来说，很重要的一点是要在where 条件中带入分区，让优化器过滤掉无需访问的分区。可以通过查看explain执行计划，是否携带 partitions
MYSQL存储过程中使用游标 chicony Mysql存储过程
DELIMITER $$ DROP PROCEDURE IF EXISTS getUserInfo $$ CREATE PROCEDURE getUserInfo(in date_day datetime)-- -- 实例-- 存储过程名为：getUserInfo-- 参数为：date_day日期格式:2008-03-08-- BEGINdecla
mysql 和 sqlite 区别 Array_06 sqlite
转载： http://www.cnblogs.com/ygm900/p/3460663.html mysql 和 sqlite 区别 SQLITE是单机数据库。功能简约，小型化，追求最大磁盘效率 MYSQL是完善的服务器数据库。功能全面，综合化，追求最大并发效率 MYSQL、Sybase、Oracle等这些都是试用于服务器数据量大功能多需要安装，例如网站访问量比较大的。而sq
pinyin4j使用 oloz pinyin4j
首先需要pinyin4j的jar包支持；jar包已上传至附件内方法一:把汉字转换为拼音；例如：编程转换后则为biancheng /** * 将汉字转换为全拼 * @param src 你的需要转换的汉字 * @param isUPPERCASE 是否转换为大写的拼音； true:转换为大写；fal
微博发送私信随意而生微博
在前面文章中说了如和获取登陆时候所需要的cookie，现在只要拿到最后登陆所需要的cookie，然后抓包分析一下微博私信发送界面 http://weibo.com/message/history?uid=****&name=**** 可以发现其发送提交的Post请求和其中的数据，让后用程序模拟发送POST请求中的数据，带着cookie发送到私信的接入口，就可以实现发私信的功能了。
jsp 香水浓 jsp
JSP初始化容器载入JSP文件后，它会在为请求提供任何服务前调用jspInit()方法。如果您需要执行自定义的JSP初始化任务，复写jspInit()方法就行了 JSP执行这一阶段描述了JSP生命周期中一切与请求相关的交互行为，直到被销毁。当JSP网页完成初始化后
在 Windows 上安装 SVN Subversion 服务端 AdyZhang SVN
在 Windows 上安装 SVN Subversion 服务端2009-09-16高宏伟哈尔滨市道里区通达街291号最佳阅读效果请访问原地址：http://blog.donews.com/dukejoe/archive/2009/09/16/1560917.aspx 现在的Subversion已经足够稳定，而且已经进入了它的黄金时段。我们看到大量的项目都在使
android开发中如何使用 alertDialog从listView中删除数据？ aijuans android
我现在使用listView展示了很多的配置信息，我现在想在点击其中一条的时候填出 alertDialog,点击确认后就删除该条数据，（ ArrayAdapter ，ArrayList，listView 全部删除），我知道在下面的onItemLongClick 方法中参数 arg2 是选中的序号，但是我不知道如何继续处理下去 1 2 3
jdk-6u26-linux-x64.bin 安装 baalwolf linux
1.上传安装文件(jdk-6u26-linux-x64.bin) 2.修改权限 [root@localhost ~]# ls -l /usr/local/jdk-6u26-linux-x64.bin 3.执行安装文件 [root@localhost ~]# cd /usr/local [root@localhost local]# ./jdk-6u26-linux-x64.bin&nbs
MongoDB经典面试题集锦 BigBird2012 mongodb
1.什么是NoSQL数据库？NoSQL和RDBMS有什么区别？在哪些情况下使用和不使用NoSQL数据库？ NoSQL是非关系型数据库，NoSQL = Not Only SQL。关系型数据库采用的结构化的数据，NoSQL采用的是键值对的方式存储数据。在处理非结构化/半结构化的大数据时；在水平方向上进行扩展时；随时应对动态增加的数据项时可以优先考虑使用NoSQL数据库。在考虑数据库的成熟
JavaScript异步编程Promise模式的6个特性 bijian1013 JavaScript Promise
Promise是一个非常有价值的构造器，能够帮助你避免使用镶套匿名方法，而使用更具有可读性的方式组装异步代码。这里我们将介绍6个最简单的特性。在我们开始正式介绍之前，我们想看看Javascript Promise的样子： var p = new Promise(function(r
[Zookeeper学习笔记之八]Zookeeper源代码分析之Zookeeper.ZKWatchManager bit1129 zookeeper
ClientWatchManager接口 //接口的唯一方法materialize用于确定那些Watcher需要被通知 //确定Watcher需要三方面的因素1.事件状态 2.事件类型 3.znode的path public interface ClientWatchManager { /** * Return a set of watchers that should
【Scala十五】Scala核心九：隐式转换之二 bit1129 scala
隐式转换存在的必要性，在Java Swing中，按钮点击事件的处理，转换为Scala的的写法如下： val button = new JButton button.addActionListener( new ActionListener { def actionPerformed(event: ActionEvent) {
Android JSON数据的解析与封装小Demo ronin47
转自：http://www.open-open.com/lib/view/open1420529336406.html package com.example.jsondemo; import org.json.JSONArray; import org.json.JSONException; import org.json.JSONObject; impor
[设计]字体创意设计方法谈 brotherlamp UI ui自学 ui视频 ui教程 ui资料
从古至今，文字在我们的生活中是必不可少的事物，我们不能想象没有文字的世界将会是怎样。在平面设计中，UI设计师在文字上所花的心思和功夫最多，因为文字能直观地表达UI设计师所的意念。在文字上的创造设计，直接反映出平面作品的主题。如设计一幅戴尔笔记本电脑的广告海报，假设海报上没有出现“戴尔”两个文字，即使放上所有戴尔笔记本电脑的图片都不能让人们得知这些电脑是什么品牌。只要写上“戴尔笔
单调队列-用一个长度为k的窗在整数数列上移动，求窗里面所包含的数的最大值 bylijinnan java 算法面试题
import java.util.LinkedList; /* 单调队列滑动窗口单调队列是这样的一个队列：队列里面的元素是有序的，是递增或者递减题目：给定一个长度为N的整数数列a(i),i=0,1,...,N-1和窗长度k. 要求：f(i) = max{a(i-k+1),a(i-k+2),..., a(i)},i = 0,1,...,N-1 问题的另一种描述就
struts2处理一个form多个submit chiangfai struts2
web应用中，为完成不同工作，一个jsp的form标签可能有多个submit。如下代码： <s:form action="submit" method="post" namespace="/my"> <s:textfield name="msg" label="叙述：">
shell查找上个月，陷阱及野路子 chenchao051 shell
date -d "-1 month" +%F 以上这段代码，假如在2012/10/31执行，结果并不会出现你预计的9月份，而是会出现八月份，原因是10月份有31天，9月份30天，所以-1 month在10月份看来要减去31天，所以直接到了8月31日这天，这不靠谱。野路子解决：假设当天日期大于15号
mysql导出数据中文乱码问题 daizj mysql 中文乱码导数据
解决mysql导入导出数据乱码问题方法：１、进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+----------------------------------------+ | Variable_name&nbs
SAE部署Smarty出现：Uncaught exception 'SmartyException' with message 'unable to write dcj3sjt126com PHP smarty sae
对于SAE出现的问题：Uncaught exception 'SmartyException' with message 'unable to write file...。官方给出了详细的FAQ：http://sae.sina.com.cn/?m=faqs&catId=11#show_213 解决方案为： 01 $path
《教父》系列台词 dcj3sjt126com
Your love is also your weak point. 你的所爱同时也是你的弱点。 If anything in this life is certain, if history has taught us anything, it is that you can kill anyone. 不顾家的人永远不可能成为一个真正的男人。 &
mongodb安装与使用 dyy_gusi mongo
一.MongoDB安装和启动,widndows和linux基本相同 1.下载数据库, linux:mongodb-linux-x86_64-ubuntu1404-3.0.3.tgz 2.解压文件,并且放置到合适的位置 tar -vxf mongodb-linux-x86_64-ubun
Git排除目录 geeksun git
在Git的版本控制中，可能有些文件是不需要加入控制的，那我们在提交代码时就需要忽略这些文件，下面讲讲应该怎么给Git配置一些忽略规则。有三种方法可以忽略掉这些文件，这三种方法都能达到目的，只不过适用情景不一样。 1. 针对单一工程排除文件这种方式会让这个工程的所有修改者在克隆代码的同时，也能克隆到过滤规则，而不用自己再写一份，这就能保证所有修改者应用的都是同一
Ubuntu 创建开机自启动脚本的方法 hongtoushizi ubuntu
转载自： http://rongjih.blog.163.com/blog/static/33574461201111504843245/ Ubuntu 创建开机自启动脚本的步骤如下： 1) 将你的启动脚本复制到 /etc/init.d目录下以下假设你的脚本文件名为 test。 2) 设置脚本文件的权限 $ sudo chmod 755
第八章流量复制/AB测试/协程 jinnianshilongnian nginx lua coroutine
流量复制在实际开发中经常涉及到项目的升级，而该升级不能简单的上线就完事了，需要验证该升级是否兼容老的上线，因此可能需要并行运行两个项目一段时间进行数据比对和校验，待没问题后再进行上线。这其实就需要进行流量复制，把流量复制到其他服务器上，一种方式是使用如tcpcopy引流；另外我们还可以使用nginx的HttpLuaModule模块中的ngx.location.capture_multi进行并发
电商系统商品表设计 lkl
DROP TABLE IF EXISTS `category`; -- 类目表 /*!40101 SET @saved_cs_client = @@character_set_client */; /*!40101 SET character_set_client = utf8 */; CREATE TABLE `category` ( `id` int(11) NOT NUL
修改phpMyAdmin导入SQL文件的大小限制 pda158 sql mysql
　用phpMyAdmin导入mysql数据库时，我的10M的数据库不能导入，提示mysql数据库最大只能导入2M。　　 phpMyAdmin数据库导入出错：　　You probably tried to upload too large file. Please refer to documentation for ways to workaround this limit.
Tomcat性能调优方案 Sobfist apache jvm tomcat 应用服务器
一、操作系统调优对于操作系统优化来说，是尽可能的增大可使用的内存容量、提高CPU的频率，保证文件系统的读写速率等。经过压力测试验证，在并发连接很多的情况下，CPU的处理能力越强，系统运行速度越快。。【适用场景】任何项目。二、Java虚拟机调优应该选择SUN的JVM，在满足项目需要的前提下，尽量选用版本较高的JVM，一般来说高版本产品在速度和效率上比低版本会有改进。 J
SQLServer学习笔记 vipbooks 数据结构 xml
1、create database school 创建数据库school 2、drop database school 删除数据库school 3、use school 连接到school数据库，使其成为当前数据库 4、create table class(classID int primary key identity not null) 创建一个名为class的表，其有一