斗志昂-杨先生

大数据高级开发工程师——Hive学习笔记（1）

文章目录

Hive基础篇
- 环境准备
- - MySQL安装部署
  - Hive的安装部署
  - - 1. 先决条件
    - 2. 下载安装包
    - 3. 解压
    - 4. 修改配置文件
    - 5. 修改日志配置文件
    - 6. 拷贝mysql驱动包
    - 7. 配置Hive的环境变量
    - 8. 初始化元数据库
    - 9. 验证安装
    - 10. 通过beeline连接代理服务器hiveserver2操作hive
- 数据仓库概念
- - 数据仓库的基本概念
  - 数据仓库的主要特征
  - 数据仓库与数据库区别
  - 数据仓库分层架构
- Hive入门
- - Hive简介
  - Hive与数据库的区别###
  - Hive的优缺点
  - - 1. 优点
    - 2. 缺点
  - Hive架构原理
  - - 1. 用户接口
    - 2. 元数据
    - 3. Hadoop 集群
    - 4. Driver 驱动器
  - Hive的交互方式
  - - 1. Hive交互 Shell
    - 2. Hive JDBC服务
    - 3. Hive命令
  - Hive的数据类型
  - - 1. 基本数据类型
    - 2. 复合数据类型
  - Hive的符合类型使用说明和实践
  - - 1. 参数说明
    - 2. Array类型
    - 3. Map类型
    - 4. Struct类型
  - Hive的DDL操作
  - - 1. 数据库 DDL 操作
    - 2. 表 DDL 操作
    - - 建表语法
      - 字段解释说明
    - 3. 内部表与外部表
    - - 创建内部表
      - 创建外部表
      - 内部表与外部表的互相转换
      - 内部表与外部表的区别
      - 内部表与外部表的使用时机
    - 4. Hive的分区表
    - 5. 综合练习
    - - 需求描述
      - 需求实现
  - 扩展点

Hive基础篇

环境准备

MySQL安装部署

参考安装：Windows+Linux 环境下 MySQL安装教程

Hive的安装部署

hive就是一个构建数据仓库的工具，只需要在一台服务器上安装就可以了，不需要在多台服务器上安装。
这里安装在 node03 节点，使用 hadoop 普通用户操作。

1. 先决条件

安装好对应版本的hadoop集群，并启动hadoop的HDFS以及YARN服务，请参考：大数据高级开发工程师——Hadoop学习笔记（1）
node03上安装了MySQL服务，并启动MySQL的服务。

2. 下载安装包

官网下载地址：https://hive.apache.org/downloads.html
这里使用的是：apache-hive-3.1.2-bin.tar.gz

3. 解压

tar -zxvf apache-hive-3.1.2-bin.tar.gz -C /bigdata/install/

4. 修改配置文件

cd /bigdata/install/
# 重命名
mv apache-hive-3.1.2-bin/ hive-3.1.2
cd hive-3.1.2
vim hive-site.xml

进入编辑模式，添加如下内容：



<configuration>
        <property>
                <name>javax.jdo.option.ConnectionURLname>
                <value>jdbc:mysql://node03:3306/metastore?useSSL=falsevalue>
        property>

        <property>
                <name>javax.jdo.option.ConnectionDriverNamename>
                <value>com.mysql.jdbc.Drivervalue>
        property>
        <property>
                <name>javax.jdo.option.ConnectionUserNamename>
                <value>rootvalue>
        property>
		<property>
                <name>hive.metastore.warehouse.dirname>
                <value>/user/hive/warehousevalue>
        property>
        <property>
                <name>javax.jdo.option.ConnectionPasswordname>
                <value>123456value>
        property>
        <property>
                <name>hive.metastore.schema.verificationname>
                <value>falsevalue>
        property>
        <property>
                <name>hive.metastore.event.db.notification.api.authname>
                <value>falsevalue>
        property>
         <property>
                <name>hive.cli.print.current.dbname>
                <value>truevalue>
        property>
         <property>
                <name>hive.cli.print.headername>
                <value>truevalue>
        property>
        <property>
                <name>hive.server2.thrift.bind.hostname>
                <value>node03value>
        property>
        <property>
                <name>hive.server2.thrift.portname>
                <value>10000value>
        property>
configuration>

5. 修改日志配置文件

mkdir -p /bigdata/install/hive-3.1.2/logs

重命名日志配置文件：

mv hive-log4j2.properties.template hive-log4j2.properties
vim hive-log4j2.properties

6. 拷贝mysql驱动包

上传mysql驱动包，如mysql-connector-java-5.1.38.jar到/bigdata/soft目录中
由于运行hive时，需要向mysql数据库中读写元数据，所以需要将mysql的驱动包上传到hive的lib目录下

cp mysql-connector-java-5.1.38.jar /bigdata/install/hive-3.1.2/lib/
# 解决日志jar包冲突
mv log4j-slf4j-impl-2.10.0.jar log4j-slf4j-impl-2.10.0.jar.bak

7. 配置Hive的环境变量

# 配置Hive环境变量
export HIVE_HOME=/bigdata/install/hive-3.1.2
export PATH=$PATH:$HIVE_HOME/bin
# 刷新
$ source /etc/profile

8. 初始化元数据库

登录mysql，并创建hive元数据

# mysql -uroot -p123456
mysql> create database metastore;
mysql> show databases;
+--------------------+
| Database           |
+--------------------+
| information_schema |
| metastore          |
| mysql              |
| performance_schema |
| sys                |
+--------------------+
5 rows in set (0.00 sec)
mysql> exit
# 初始化元数据库
$ schematool -initSchema -dbType mysql -verbose

9. 验证安装

前提：hadoop 集群已启动、mysql 服务已启动
在node03上任意目录启动hive cli命令行客户端，启动成功之后, 警告信息可以忽略

hive
# 查看数据库
show databases;

10. 通过beeline连接代理服务器hiveserver2操作hive

node01 修改 hadoop 的 core-site.xml 文件，vim /bigdata/install/hadoop-3.1.4/etc/hadoop/core-site.xml，添加如下内容

 <property>
    <name>hadoop.proxyuser.hadoop.hostsname>
    <value>*value>
property>
<property>
    <name>hadoop.proxyuser.hadoop.groupsname>
    <value>*value>
property>

并将 core-site.xml 文件同步到 node02 和 node03

scp core-site.xml node02:$PWD
scp core-site.xml node03:$PWD

在 node03 启动 hiveserver2

# /bigdata/install/hive-3.1.2
$ source /etc/profile		# 否则会报错：Cannot find hadoop installation: $HADOOP_HOME or $HADOOP_PREFIX must be set or hadoop must be in the path
$ bin/hiveserver2   # 启动警告信息可以忽略

新建连接，

bin/beeline --color=true
# 通过jdbc方式连接hiveserver2, 输入用户名和密码
beeline> !connect jdbc:hive2://node03:10000

可能出现的问题：在提交任务的过程中，可能任务会运行失败，会看到由于集群节点虚拟内存不足导致的，解决办法很简单，直接关闭虚拟内存检测就可以了
修改 yarn-site.xml，并将yarn-site.xml文件分发到node02, node03，重启hadoop集群, 重启hiveserver2

<property>
        <name>yarn.nodemanager.vmem-check-enabledname>
        <value>falsevalue>
property>

数据仓库概念

数据仓库的基本概念

数据仓库的英文名称为Data Warehouse，可简写为DW或DWH。
数据仓库的目的是构建面向分析的集成化数据环境，为企业提供决策支持（Decision Support）。它出于分析性报告和决策支持的目的而创建。
数据仓库本身并不“生产”任何数据，同时自身也不需要“消费”任何的数据，数据来源于外部，并且开放给外部应用，这也是为什么叫“仓库”，而不叫“工厂”的原因。

数据仓库的主要特征

数据仓库是面向主题的（Subject-Oriented）、集成的（Integrated）、非易失的（Non-Volatile）和时变的（Time-Variant ）数据集合，用以支持管理决策。

数据仓库与数据库区别

数据库与数据仓库的区别实际讲的是OLTP 与 OLAP 的区别。
操作型处理，叫联机事务处理 OLTP（On-Line Transaction Processing），也可以称面向交易的处理系统，它是针对具体业务在数据库联机的日常操作，通常对少数记录进行查询、修改。用户较为关心操作的响应时间、数据的安全性、完整性和并发支持的用户数等问题。传统的数据库系统作为数据管理的主要手段，主要用于操作型处理OLTP。
分析型处理，叫联机分析处理 OLAP（On-Line Analytical Processing），一般针对某些主题的历史数据进行分析，支持管理决策。
首先要明白，数据仓库的出现，并不是要取代数据库。
数据库是面向事务的设计，数据仓库是面向主题设计的。
数据库一般存储业务数据，数据仓库存储的一般是历史数据。
数据库设计是尽量避免冗余，一般针对某一业务应用进行设计；比如一张简单的User表，记录用户名、密码等简单数据即可，符合业务应用，但是不符合分析；数据仓库在设计是有意引入冗余，依照分析需求，分析维度、分析指标进行设计。
数据库是为捕获数据而设计，数据仓库是为分析数据而设计。
- 以银行业务为例。数据库是事务系统的数据平台，客户在银行做的每笔交易都会写入数据库，被记录下来，这里，可以简单地理解为用数据库记账。数据仓库是分析系统的数据平台，它从事务系统获取数据，并做汇总、加工，为决策者提供决策的依据。比如，某银行某分行一个月发生多少交易，该分行当前存款余额是多少。如果存款又多，消费交易又多，那么该地区就有必要设立ATM了。
- 显然，银行的交易量是巨大的，通常以百万甚至千万次来计算。事务系统是实时的，这就要求时效性，客户存一笔钱需要几十秒是无法忍受的，这就要求数据库只能存储很短一段时间的数据。而分析系统是事后的，它要提供关注时间段内所有的有效数据。这些数据是海量的，汇总计算起来也要慢一些，但是，只要能够提供有效的分析数据就达到目的了。
数据仓库，是在数据库已经大量存在的情况下，为了进一步挖掘数据资源、为了决策需要而产生的，它决不是所谓的“大型数据库”。

数据仓库分层架构

按照数据流入流出的过程，数据仓库架构可分为三层——源数据层、数据仓库层、数据应用层。
数据仓库的数据来源于不同的源数据，并提供多样的数据应用，数据自下而上流入数据仓库后向上层开放应用，而数据仓库只是中间集成化数据管理的一个平台。
源数据层（ODS）：此层数据无任何更改，直接沿用外围系统数据结构和数据，不对外开放；为临时存储层，是接口数据的临时存储区域，为后一步的数据处理做准备。
数据仓库层（DW）：也称为细节层，DW层的数据应该是一致的、准确的、干净的数据，即对源系统数据进行了清洗（去除了杂质）后的数据。
数据应用层（DA或APP）：前端应用直接读取的数据源；根据报表、专题分析需求而计算生成的数据。
数据仓库从各数据源获取数据及在数据仓库内的数据转换和流动都可以认为是ETL（抽取Extra, 转化Transfer, 装载Load）的过程，ETL是数据仓库的流水线，也可以认为是数据仓库的血液，它维系着数据仓库中数据的新陈代谢，而数据仓库日常的管理和维护工作的大部分精力就是保持ETL的正常和稳定。

为什么要对数据仓库分层？

用空间换时间，通过大量的预处理来提升应用系统的用户体验（效率），因此数据仓库会存在大量冗余的数据；
不分层的话，如果源业务系统的业务规则发生变化将会影响整个数据清洗过程，工作量巨大;
通过数据分层管理可以简化数据清洗的过程，因为把原来一步的工作分到了多个步骤去完成，相当于把一个复杂的工作拆成了多个简单的工作，把一个大的黑盒变成了一个白盒，每一层的处理逻辑都相对简单和容易理解，这样我们比较容易保证每一个步骤的正确性，当数据发生错误的时候，往往我们只需要局部调整某个步骤即可。

Hive入门

Hive简介

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。其本质是将SQL转换为MapReduce的任务进行运算，底层由HDFS来提供数据的存储支持，说白了hive可以理解为一个将SQL转换为MapReduce任务的工具，甚至更进一步可以说hive就是一个MapReduce的客户端。

Hive与数据库的区别###

对比项	Hive	RDBMS
查询语句	HQL	SQL
数据存储	HDFS	Raw Device or Local FS
执行器	MapReduce	Executor
数据插入	支持批量导入/单条插入	执行单条或批量导入
数据操作	覆盖追加	行级更新删除
处理数据规模	大	小
执行延迟	高	低
分区	支持	支持
索引	0.8版本之后加入简单索引	支持复杂的索引
扩展性	高(好)	有限(差)
数据加载模式	读时模式(快)	写时模式(慢)
应用场景	海量数据查询	实时查询

Hive 具有 SQL 数据库的外表，但应用场景完全不同；
Hive 只适合用来做海量离线数据统计分析，也就是数据仓库。

Hive的优缺点

1. 优点

操作接口采用类 SQL 语法，提供快速开发的能力（简单、容易上手）；
避免了去写 MapReduce，减少开发人员的学习成本；
支持用户自定义函数，用户可以根据自己的需求来实现自己的函数。

2. 缺点

查询延迟很严重；
- hadoop jar xxxx.jar xxx.class /input /output
- 进行任务的划分，然后进行计算资源的申请；
- map 0% reduce 0%
- map 10% reduce 0%
不支持事务。

Hive架构原理

1. 用户接口

Client：CLI（Hive Shell）
JDBC/ODBC、Java 访问 Hive
WEBUI：浏览器访问 Hive

2. 元数据

元数据包括：表名、表所属的数据库（默认是 default）、表的拥有者、列/分区字段、表的类型（是否是外部表）、表的数据所在目录等
默认存储在自带的derby数据库中，推荐使用MySQL存储Metastore。

3. Hadoop 集群

使用HDFS进行存储，使用MapReduce进行计算。

4. Driver 驱动器

解析器（SQL Parser）：将 SQL 字符串转换成抽象语法树 AST，对 AST 进行语法分析，比如表是否存在、字段是否存在、SQL 语义是否有误；
编译器（Physical Plan）：将 AST 编译生成逻辑执行计划；
优化器（Query Optimizer）：对逻辑执行计划进行优化；
执行器（Execution）：把逻辑执行计划转换成可以运行的物理计划，对于 Hive 来说默认就是 MapReduce 任务。

Hive的交互方式

Hive的交互方式主要有三种
使用Hive之前，先启动hadoop集群，因为hql语句会被编译成MR任务提交到集群运行，hive表数据一般存储在HDFS上；启动 mysql 服务，因为对hive操作过程中，需要访问mysql中存储元数据的库及表。

1. Hive交互 Shell

在任意路径运行 hive 命令

2. Hive JDBC服务

启动hiveserver2服务，前台启动与后台启动方式二选一

# 前台启动
hive --service hiveserver2
# 后台启动
nohup hive --service hiveserver2 &

beeline连接hiveserver2服务，若是前台启动hiveserver2，请再开启一个新会话窗口，然后使用beeline连接hive

$ beeline --color=true
Beeline version 3.1.2 by Apache Hive
beeline> !connect jdbc:hive2://node03:10000

帮助和退出：

0: jdbc:hive2://node03:10000> help
0: jdbc:hive2://node03:10000> !quit
Closing: 0: jdbc:hive2://node03:10000

3. Hive命令

# 使用 –e 参数来直接执行hql语句
hive -e "show databases"
# 使用 –f 参数执行包含hql语句的文件
hive -f hive.sql

Hive的数据类型

1. 基本数据类型

类型名称	描述	举例
boolean	true/false	true
tinyint	1字节的有符号整数	1
smallint	2字节的有符号整数	1
int	4字节的有符号整数	1
bigint	8字节的有符号整数	1
float	4字节单精度浮点数	1.0
double	8字节单精度浮点数	1.0
string	字符串(不设长度)	“abc”
varchar	字符串(1-65535长度，超长截断)	“abc”
timestamp	时间戳	1563157873
date	日期	20190715

2. 复合数据类型

类型名称	描述	举例
array	一组有序的字段，字段类型必须相同 array(元素1, 元素2)	Array (1, 2, 3)
map	一组无序的键值对 map(k1, v1, k2, v2)	Map (‘a’, 1, ‘b’, 2)
struct	一组命名的字段，字段类型可以不同 struct(元素1, 元素2)	Struct (‘a’, 1, 2, 0)

array类型的字段的元素访问方式
- 通过下标获取元素，下标从0开始
- 如获取第一个元素
  - array[0]
map类型字段的元素访问方式
- 通过键获取值
- 如获取a这个key对应的value
  - map[‘a’]
struct类型字段的元素获取方式
- 定义一个字段c的类型为struct{a int, b string}
- 获取a和b的值
  - 使用c.a 和c.b 获取其中的元素值
- 这里可以把这种类型看成是一个对象
示例：创建一张表，包含了array、map、struct类型的字段

create table complex(
         col1 array<int>,
         col2 map<string,int>,
         col3 struct<a:string,b:int,c:double>
)

Hive的符合类型使用说明和实践

1. 参数说明

创建表的时候可以指定每行数据的格式,如果使用的是复合数据类型，还需要指定复合数据类型中的元素分割符

ROW FORMAT DELIMITED 
	[FIELDS TERMINATED BY char [ESCAPED BY char]] 
	[COLLECTION ITEMS TERMINATED BY char]
	[MAP KEYS TERMINATED BY char] 
	[LINES TERMINATED BY char]

其中：

FIELDS TERMINATED BY char 	         	指定每一行记录中字段的分割符
COLLECTION ITEMS TERMINATED BY char  	指定复合类型中多元素的分割符
MAP KEYS TERMINATED BY char         	指定map集合类型中每一个key/value之间的分隔符
LINES TERMINATED BY char            	指定每行记录的换行符，一般有默认 就是\n

2. Array类型

array中的数据为相同类型，例如，假如array A中元素[‘a’,‘b’,‘c’]，则A[1]的值为’b’
假设有以下数据(t_array.txt)：

1 zhangsan beijing,shanghai
2 lisi shanghai,tianjin

则建表语句可以这样写：

create table t_array(
id string,
name string,
locations array<string>
) row format delimited fields terminated by ' ' collection items terminated by ',';

加载数据：

load data local inpath '/bigdata/install/t_array.txt' into table t_array;

查询数据：

select id, name, locations[0], locations[1] from t_array;

3. Map类型

map类型中存储key/value类型的数据，后期可以通过[“指定key名称”]访问
假设有以下数据(t_map.txt)：

1 name:zhangsan#age:30
2 name:lisi#age:40

则建表语句可以这样写：

create table t_map(
id string,
info map<string,string>
) row format delimited fields terminated by ' ' collection items terminated by '#' map keys terminated by ':';

加载数据：

load data local inpath '/bigdata/install/t_map.txt' into table t_map;

查询数据：

select id, info['name'], info['age'] from t_map;

4. Struct类型

可以存储不同类型的数据，例如c的类型为struct{a INT; b INT}，我们可以通过c.a来访问域a。
假设有以下数据(t_struct.txt)，字段空格分隔：

1 zhangsan:30:beijing
2 lisi:40:shanghai

则建表语句可以这样写：

create table t_struct(
id string,
info struct<name:string, age:int, address:String>
) row format delimited fields terminated by ' ' collection items terminated by ':' ;

加载数据：

load data local inpath '/bigdata/install/t_struct.txt' into table t_struct;

查询数据：

select id,info.name,info.age,info.address from t_struct;

Hive的DDL操作

1. 数据库 DDL 操作

-- 创建数据库
create database db_hive;
# 或者
create database if not exists db_hive;

-- 显示所有数据库
show databases;

-- 查询数据库
show databases like 'db_hive*';

-- 查看数据库详情
desc database db_hive;

-- 显示数据库详细信息
desc database extended db_hive;

-- 切换数据库
use db_hive;

-- 删除数据库
drop database db_hive;
# 或者 如果删除的数据库不存在，最好采用if exists 判断数据库是否存在
drop database if exists db_hive;
# 或者 如果数据库中有表存在，这里需要使用cascade强制删除数据库
drop database if exists db_hive cascade;

2. 表 DDL 操作

建表语法

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name 
[(col_name data_type [COMMENT col_comment], ...)] 
[COMMENT table_comment] 
[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] 分区
[CLUSTERED BY (col_name, col_name, ...) 分桶
[SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS] 
[ROW FORMAT row_format]  row format delimited fields terminated by “分隔符”
[STORED AS file_format] 
[LOCATION hdfs_path]

官网地址：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL

字段解释说明

CREATE TABLE 创建一个指定名字的表
EXTERNAL 创建一个外部表，在建表的同时指定一个指向实际数据的路径（LOCATION），指定表的数据保存在哪里
COMMENT 为表和列添加注释
PARTITIONED BY 创建分区表
CLUSTERED BY 创建分桶表
SORTED BY 按照字段排序（一般不常用）
ROW FORMAT 指定每一行中字段的分隔符（row format delimited fields terminated by ‘\t’）
STORED AS 指定存储文件类型
- 常用的存储文件类型：SEQUENCEFILE（二进制序列文件）、TEXTFILE（文本）、ORCFILE（列式存储格式文件）
- 如果文件数据是纯文本，可以使用STORED AS TEXTFILE。如果数据需要压缩，使用 STORED AS SEQUENCEFILE
LOCATION 指定表在HDFS上的存储位置。

3. 内部表与外部表

创建内部表

-- 使用标准的建表语句直接建表
use myhive;
create table stu(id int, name string);
insert into stu(id,name) values(1,"zhangsan");  -- 实际一定不会用 insert into 语句
select * from  stu;

-- 查询建表法：通过 AS 查询语句完成建表，将子查询的结果存入新表里
create table if not exists myhive.stu1 as select id, name from stu;
# 查看表中有数据
select * from stu1;

-- like建表法：根据已经存在的表结构创建表
create table if not exists myhive.stu2 like stu;
# 查看表中有数据
select * from stu2;

-- 查询表的类型
desc formatted myhive.stu;

-- hql示例：创建内部表并指定字段之间的分隔符，指定文件的存储格式，以及数据存放的位置
create table if not exists myhive.stu3(id int, name string)
row format delimited fields terminated by '\t' 
stored as textfile 
location '/user/hive/mytable/stu3';  -- 手动指定了表存储的位置, 如果没有指定, 会存储到默认位置, 在hive-site.xml --> /user/hive/warehouse/myhive.db/stu3

创建外部表

外部表因为是指定其他的hdfs路径的数据加载到表当中来，所以hive表会认为自己不完全独占这份数据，所以删除hive表的时候，数据仍然存放在hdfs当中，不会删掉

create external table myhive.teacher (t_id string, t_name string) 
row format delimited fields terminated by '\t';

创建外部表的时候需要加上external 关键字
location字段可以指定，也可以不指定
- 指定就是数据存放的具体目录
- 不指定就是使用默认目录 /user/hive/warehousedes
向外部表当中加载数据：
- 我们前面已经看到过通过insert的方式向内部表当中插入数据，外部表也可以通过insert的方式进行插入数据，只不过insert的方式，我们一般都不推荐
- 实际工作当中我们都是使用 load 的方式来加载数据到内部表或者外部表
load数据可以从本地文件系统加载或者也可以从hdfs上面的数据进行加载
- 从本地文件系统加载数据到teacher表当中去，将我们附件当汇总的数据资料都上传到 node03 服务器的 /bigadata/install/hivedatas 路径下面去
然后在hive客户端下执行以下操作

load data local inpath '/bigdata/install/hivedatas/teacher.csv' into table myhive.teacher;

从hdfs上面加载文件到teacher表里面去(将teacher.csv文件上传到hdfs的/bigdata/hdfsload/hivedatas路径下)

cd /bigdata/install/hivedatas
hdfs dfs -mkdir -p /bigdata/hdfsload/hivedatas
hdfs dfs -put teacher.csv /bigdata/hdfsload/hivedatas
# 在hive的客户端当中执行
load data inpath '/bigdata/hdfsload/hivedatas' overwrite into table myhive.teacher;

内部表与外部表的互相转换

# 将stu内部表改为外部表
alter table stu set tblproperties('EXTERNAL'='TRUE');
# 把teacher外部表改为内部表
alter table teacher set tblproperties('EXTERNAL'='FALSE');

内部表与外部表的区别

建表语法的区别：外部表在创建的时候需要加上external关键字
删除表之后的区别
- 内部表删除后，表的元数据和真实数据都被删除了；
- 外部表删除后，仅仅只是把该表的元数据删除了，真实数据还在，后期还是可以恢复出来。

内部表与外部表的使用时机

内部表由于删除表的时候会同步删除HDFS的数据文件，所以确定如果一个表仅仅是你独占使用，其他人不使用的时候就可以创建内部表，如果一个表的文件数据，其他人也要使用，那么就创建外部表。
一般外部表都是用在数据仓库的ODS层，内部表都是用在数据仓库的DW层。

4. Hive的分区表

如果hive当中所有的数据都存入到一个文件夹下面，那么在使用MR计算程序的时候，读取一整个目录下面的所有文件来进行计算，就会变得特别慢，因为数据量太大了。
实际工作当中一般都是计算前一天的数据，所以我们只需要将前一天的数据挑出来放到一个文件夹下面即可，专门去计算前一天的数据。
这样就可以使用hive当中的分区表，通过分文件夹的形式，将每一天的数据都分成为一个文件夹，然后我们计算数据的时候，通过指定前一天的文件夹即可只计算前一天的数据。
在大数据中，最常用的一种思想就是分治，我们可以把大的文件切割划分成一个个的小的文件，这样每次操作一个小的文件就会很容易了，同样的道理，在hive当中也是支持这种思想的，就是我们可以把大的数据，按照每天，或者每小时进行切分成一个个的小的文件，这样去操作小的文件就会容易得多了。

在文件系统上建立文件夹，把表的数据放在不同文件夹下面，加快查询速度。

-- 创建分区表语法
create table score(s_id string, c_id string, s_score int) partitioned by (month string) row format delimited fields terminated by '\t';

-- 创建一个表带多个分区
create table score2 (s_id string,c_id string, s_score int) partitioned by (year string, month string, day string) row format delimited fields terminated by '\t';

-- 加载数据到分区表当中去
load data local inpath '/bigdata/install/hivedatas/score.csv' into table score partition (month='201806');

-- 加载数据到多分区表当中去
load data local inpath '/bigdata/install/hivedatas/score.csv' into table score2 partition(year='2018', month='06', day='01');

-- 查看分区
show  partitions  score;

-- 添加一个分区
alter table score add partition(month='201805');

-- 同时添加多个分区
alter table score add partition(month='201804') partition(month = '201803');
# 添加分区之后就可以在hdfs文件系统当中看到表下面多了一个文件夹

-- 删除分区
alter table score drop partition(month = '201806');

5. 综合练习

需求描述

现在有一个文件score.csv文件，里面有三个字段，分别是s_id string, c_id string, s_score int
字段都是使用 \t进行分割
存放在集群的这个目录下/scoredatas/day=20180607，这个文件每天都会生成，存放到对应的日期文件夹下面去
文件别人也需要公用，不能移动
请创建hive对应的表，并将数据加载到表中，进行数据统计分析，且删除表之后，数据不能删除

需求实现

数据准备：node03执行以下命令，将数据上传到hdfs上面去，将我们的score.csv上传到node03服务器的/bigdata/install/hivedatas目录下，然后将score.csv文件上传到HDFS的/scoredatas/day=20180607目录上

hdfs dfs -mkdir -p /scoredatas/day=20180607

create external table score4(s_id string, c_id string, s_score int) partitioned by (day string) row format delimited fields terminated by '\t' location '/scoredatas';

进行表的修复，说白了就是建立我们表与我们数据文件之间的一个关系映射()

msck repair table score4;

修复成功之后即可看到数据已经全部加载到表当中去了

扩展点

hive cli命令窗口查看本地文件系统：与操作本地文件系统类似，这里需要使用 ! (感叹号)，并且最后需要加上 ;(分号)
例如：

!ls /home

hive cli命令窗口查看HDFS文件系统，与查看HDFS文件系统类似

dfs -ls /user;

hive的底层执行引擎有3种：
- mapreduce(默认)
- tez（支持DAG作业的计算框架）mr1–>mr2 -->mr3
- spark（基于内存的分布式计算框架）

你可能感兴趣的:(大数据,big,data,hadoop,hive,mysql,数据仓库)

架构师必知必会系列：数据架构与数据管理 AI天才研究院 AI大模型企业级应用开发实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术1.背景介绍数据架构与数据管理介绍数据架构是指用来定义企业数据的逻辑结构、物理存储结构和数据的流转过程。它由数据中心和IT平台、数据库、文件系统、网络、安全、计算资源等构成。其目的是为了满足业务需求、提升组织效率和降低成本。数据架构包括数据字典、元数据、数据模型、数据流、数据仓库、数据管道、数据服务等。在应用中，将数据按照其自身特性进行划分、分类、归档、清洗和加工，才能
Python读取nc文件的几种方式请一直在路上 python
在Python中，有多种方式可以读取NetCDF(.nc)文件。常见的方法包括使用以下库：1.netCDF4这是最常用的库之一，提供了直接读取、写入和处理NetCDF文件的功能。它支持版本3和版本4的NetCDF文件格式。安装：pipinstallnetCDF4用法：importnetCDF4asnc#打开文件dataset=nc.Dataset('example.nc')#查看文件的维度prin
10.PE导出表蓝屏达人 PE文件结构 windows
一：定位导出表PIMAGE_NT_HEADERS->OptionalHeader->DataDirectory[0]typedefstruct_IMAGE_DATA_DIRECTORY{DWORDVirtualAddress;//导出表的RVADWORDSize;//导出表大小（没用）}IMAGE_DATA_DIRECTORY,*PIMAGE_DATA_DIRECTORY;该结构的VirtualA
机器学习knnlearn1 XW-ABAP 机器学习机器学习人工智能
importmatplotlib.pyplotaspltimportnumpyasnpimportoperator#定义一个函数用于创建数据集defcreateDataSet():#定义特征矩阵，每个元素是一个二维坐标点，代表不同策略数据点的坐标group=np.array([[20,3],[15,5],[18,1],[5,17],[2,15],[3,20]])#定义每个数据点对应的标签，用于区分
docker gitlab 无法访问及502错误破解中小学～软硬件Ai（植入数学与物理） java技术
1、dockergitlab创建dockerrun-d--namegitlab\--restartalways\-p8443:443\-p83:80\-p8822:22\-v/gitlab/config:/etc/gitlab\-v/gitlab/logs:/var/log/gitlab\-vgitlab/data:/var/opt/gitlab\gitlab/gitlab-ce:13.3.7-c
基于 MySQL 和 Spring Boot 的在线论坛管理系统设计与实现城南|阿洋-计算机从小白到大神 mysql spring boot 数据库
markdownCopy✌全网粉丝20W+,csdn特邀作者、博客专家、CSDN[新星计划]导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、pyhton、机器学习技术领域和毕业项目实战✌哈喽兄弟们，好久不见哦～最近整理了一下之前写过的一些小项目/毕业设计。发现还是有很多存货的，想一想既然放在电脑里面也吃灰，那么还不如分享出去，没准还可以帮助到
.net 4.0环境异步方法实现，异步委托和回调异常处理蔚蓝星空-大强异步多线程 c#asp.net
.net4.0环境异步方法实现，异步委托和回调异常处理无返回值的异步方法通过委托实现staticvoidMain(string[]args){//异步执行写入数据任务，不阻塞主线程任务SetDataAsync(1);Console.WriteLine("主线程后续任务...");Console.ReadKey();}publicstaticvoidSetDataAsync(intnum){//这里
Matlab绘制台风路径--数据来源：中国气象局热带气旋资料中心 e决 matlab
%读取台风数据fid=fopen('CH2009BST.txt','r');data=textscan(fid,'%s','Delimiter','\n');fclose(fid);data=data{1};%提取台风Morakot数据typhoon_data=[];is_dora=false;fori=1:length(data)line=data{i};%检查是否是Morakot台风的起始行i
SQL自学：怎么创建视图 m0_74823471 面试学习路线阿里巴巴 sql 数据库
在SQL中，视图是一种虚拟表，它是基于一个或多个表的查询结果集。视图并不实际存储数据，而是在每次查询时动态生成结果。一、创建视图的语法（以MySQL为例）CREATEVIEWview_nameASSELECTcolumn1,column2,...FROMtable_nameWHEREcondition;view_name：是要创建的视图的名称。column1,column2,...：要在视图中显示
conda篇----在已有conda环境的基础上升级python包心惠天意 conda python jvm
conda篇----在已有conda环境的基础上升级python包原先的python版本第一步：condaupdate--all(py11)[xxx@aivrs01xxx]$condaupdate--allCollectingpackagemetadata(current_repodata.json):doneSolvingenvironment:done==>WARNING:Anewervers
【Linux 下的 bash 无法正常解析, Windows 的 CRLF 换行符问题导致的】待磨的钝刨 linux bash windows
文章目录报错原因：解决办法：方法一：用`dos2unix`修复方法二：手动转换换行符方法三：VSCode或其他编辑器手动改总结这个错误很常见，原因是你的wait_for_gpu.sh脚本文件格式不对，具体来说是Windows的CRLF换行符问题导致的，Linux下的bash无法正常解析。hadoop@hadoop:~/anaconda3$bashwait_for_gpu.sh:invalidopt
COMP 315: Cloud Computing for E-Commerce W_X_99515681 开发语言
Assignment1:JavascriptCOMP315:CloudComputingforE-CommerceFebruary20251IntroductionAcommontaskwhenbackendprogrammingisdatacleaning,whichistheprocessoftakinganinitialdatasetthatmaycontainerroneousorinco
pythontype函数使用_Python astype(np.float)函数使用方法解析 weixin_39870238 pythontype函数使用
Pythonastype(np.float)函数使用方法解析我的数据库如图结构我取了其中的nameagenr，做成array，只要所取数据存在str型，那么取出的数据，全部转化为str型，也就是array阵列的元素全是str，不管数据库定义的是不是int型。那么问题来了，取出的数据代入公式进行计算的时候，就会类型不符，这是就用到astype(np.float)代码如下importpymysqlim
如何安全删除MySQL字段？从原理到实战的保姆级指南！小丁学Java 产品资质管理系统安全 mysql 数据库
从MyISAM到InnoDB：解锁MySQL在线删除字段的终极指南真实案例：一次失败的DDL操作引发的思考场景复现：某业务表invite_codes需要删除invitor字段，执行以下命令时触发报错：ALTERTABLEinvite_codesDROPCOLUMNinvitor,ALGORITHM=INPLACE;--报错信息：ALGORITHM=INPLACEisnotsupportedfort
Spring Data JPA 的分页魔法：Pageable vs PageRequest，谁才是真正的“分页王”？✨ 小丁学Java Spring Data JPA 数据库
SpringDataJPA的分页魔法：PageablevsPageRequest，谁才是真正的“分页王”？嘿，各位技术探险家！今天我们要解锁SpringDataJPA的分页秘籍，聊聊Pageable和PageRequest这对“分页双人组”的爱恨情仇！从它们的关系到使用场景，再到一个让我抓狂的参数陷阱，这篇博客带你从迷雾走向光明，还有流程图助阵，快跟我一起跳进这个技术冒险吧！第一幕：分页的“魔法钥
mysql与mariadb版本对应_MySQL与MariaDB及各种版本杂谈 weixin_39616416
MySQL1.MySQLCommunityServer社区版本，开源免费，但不提供官方技术支持。(我们通常使用的MySQL版本)2.MySQLEnterpriseEdition企业版本，需付费，可以试用30天。3.MySQLCluster集群版，开源免费。可将几个MySQLServer封装成一个Server。4.MySQLClusterCGE高级集群版，需付费。5.MySQLWorkbench(G
MariaDB 和 MySQL 版本关联 java我跟你拼了数据库笔记 mariadb mysql 数据库数据库篇版本关联
MariaDB和MySQL是两个常用的关系型数据库管理系统（RDBMS），它们在很多方面非常相似，因为MariaDB是MySQL的一个分支。MariaDB和MySQL之间的版本关联可以通过以下几个方面来理解：1.历史背景MySQL:MySQL是一个开源的数据库管理系统，由MySQLAB开发，后来被SunMicrosystems收购，再之后被Oracle收购。MariaDB:MariaDB是MySQ
因为mysql 8新的认证插件导致主从复制的IO线程失败库海无涯 mysql
1、错误信息Last_IO_Error:errorconnectingtomaster'[email protected]:3306'-retry-time:60retries:1message:Authenticationplugin'caching_sha2_password'reportederror:Authenticationrequiressecureconnection.2、
MySQL HA的全新篇章：Semisynchronous Replication迁移至InnoDB Cluster的实用指南库海无涯 MySQL mysql
1、概述临时接了一个搭建InnoDBCluster的活儿，客户给我说是有数据的，我当时想这不是非常简单吗？干活儿的时候，才发现并没有这么简单，接手的时候发现是SemisynchronousReplication的环境，然后把从库切换成InnoDBCluster的primary。2、环境复现2.1、从库5.140信息采集mysql>showreplicastatus\G***************
SpringBoot集成Flink-CDC，实现对数据库数据的监听 rkmhr_sef 面试学习路线阿里巴巴 spring boot flink 数据库
一、什么是CDC？CDC是ChangeDataCapture（变更数据获取）的简称。核心思想是，监测并捕获数据库的变动（包括数据或数据表的插入、更新以及删除等），将这些变更按发生的顺序完整记录下来，写入到消息中间件中以供其他服务进行订阅及消费。二、Flink-CDC是什么？CDCConnectorsforApacheFlink是一组用于ApacheFlink的源连接器，使用变更数据捕获(CDC)从
大数据技术实战---项目中遇到的问题及项目经验一个“不专业”的阿凡大数据
问题导读：1、项目中遇到过哪些问题？2、Kafka消息数据积压，Kafka消费能力不足怎么处理？3、Sqoop数据导出一致性问题？4、整体项目框架如何设计？项目中遇到过哪些问题7.1Hadoop宕机（1）如果MR造成系统宕机。此时要控制Yarn同时运行的任务数，和每个任务申请的最大内存。调整参数：yarn.scheduler.maximum-allocation-mb（单个任务可申请的最多物理内存
docker 内容器访问另一个容器中的服务 docker容器网络
docker中有两个容器，分别名为mq和hyperf，想在hyperf中访问mq可以使用下面的方法1.创建网络dockernetworkcreatemynetwork2.将使用到的容器(如业务容器，mysql，redis，mq等容器)都加入到网络中dockernetworkconnectmynetworkhyperfdockernetworkconnectmynetworkmqdockernetw
docker避免容器中的内容被挂载的空目录覆盖(比如nginx的html目录) dockervolume
我有一个镜像jb:1.0，镜像中/jb下有一些内容需要挂载到宿主机来dockervolumecreatejb_volumedockerrun--namejb-v/home/dcw/data:/data--mountsource=jb,target=/jb-itdjb:1.0如果想修改宿主机中的内容可以通过下面命令找到挂载的内容在宿主机的位置dockerinspectjbimage.png
【赵渝强老师】达梦数据库的数据库对象数据库信创
达梦数据库中包含各种数据库对象，主要分为两大类型：基本数据库对象和复杂数据库对象。下面分别进行介绍。视频讲解如下：https://www.bilibili.com/video/BV1HwffYXEu5/?aid=113888909595...一、基本数据库对象常见的基本数据库对象有：表、索引、视图、序列、同义词等。之所以叫做基本数据库对象是因为这些对象直接使用一条DDL（DataDefinitio
使用Docker部署MySQL8.0.29 九思x docker
第一步：拉取镜像dockerpullmysql:8.0.29作用：从DockerHub拉取MySQL8.0.29官方镜像。第二步：启动容器dockerrun--nameshare_mysql\--restart=always\-vmysql-data:/var/lib/mysql\-p3306:3306\-eMYSQL_ROOT_PASSWORD=root\-dmysql:8.0.29参数说明：-
宝塔安装mayfly-go mayans005 数据库
mayfly-go:web版linux(终端文件脚本进程)、数据库(mysqlpgsql)、redis(单机哨兵集群)、mongo统一管理操作平台。1、终端执行命令下载程序包wgethttps://gitee.com/objs/mayfly-go/releases/download/v1.3.0/mayfly-go-linux-amd64.zip2、在宝塔新建一个MySQL数据库，将下载程序包中的
Indy TIDHttp与TIdMultiPartFormDataStream “"Range check error"解决阆遤 Delphi &Com integer 报表 session 工具 file
这两天在用indyhttp做一个数据上传式工具，在使用TIdMultiPartFormDataStream时，老是了现“Rangecheckerror“错误，一开始以为是自己代码中有漏洞，经２个小时调试，排除自身代码问题并DEBUG跟踪INDY源代码后，发现TIdMultiPartFormDataStream.IdRead中：CopyTIdBytes(FInternalBuffer,0,VBuff
开源项目推荐：Mayfly-go 周风队
开源项目推荐：Mayfly-gomayfly-goweb版linux(终端文件脚本进程)、数据库(mysqlpgsql高斯达梦)、redis(单机哨兵集群)、mongo统一管理操作平台。项目地址:https://gitcode.com/gh_mirrors/ma/mayfly-goMayfly-go是一个基于浏览器的统一管理操作平台，它支持多种数据库和系统管理功能。该项目主要使用Go语言和前端框架
推荐项目：Mayfly-Go - 高性能的时间序列数据库齐游菊Rosemary
推荐项目：Mayfly-Go-高性能的时间序列数据库mayfly-goweb版linux(终端文件脚本进程)、数据库(mysqlpgsql高斯达梦)、redis(单机哨兵集群)、mongo统一管理操作平台。项目地址:https://gitcode.com/gh_mirrors/ma/mayfly-go项目简介是一款由Dromara团队开发的高性能、轻量级时间序列数据库（TimeSeriesData
Mayfly-Go 开源项目教程方蕾嫒Falcon
Mayfly-Go开源项目教程mayfly-goweb版linux(终端文件脚本进程)、数据库(mysqlpgsql高斯达梦)、redis(单机哨兵集群)、mongo统一管理操作平台。项目地址:https://gitcode.com/gh_mirrors/ma/mayfly-go项目介绍Mayfly-Go是一个基于Go语言开发的开源项目，旨在提供一个轻量级、高性能的微服务框架。该项目由Dromar
jQuery 跨域访问的三种方式 No 'Access-Control-Allow-Origin' header is present on the reque qiaolevip 每天进步一点点学习永无止境跨域众观千象
XMLHttpRequest cannot load http://v.xxx.com. No 'Access-Control-Allow-Origin' header is present on the requested resource. Origin 'http://localhost:63342' is therefore not allowed access. test.html:1
mysql 分区查询优化 annan211 java 分区优化 mysql
分区查询优化引入分区可以给查询带来一定的优势，但同时也会引入一些bug. 分区最大的优点就是优化器可以根据分区函数来过滤掉一些分区，通过分区过滤可以让查询扫描更少的数据。所以，对于访问分区表来说，很重要的一点是要在where 条件中带入分区，让优化器过滤掉无需访问的分区。可以通过查看explain执行计划，是否携带 partitions
MYSQL存储过程中使用游标 chicony Mysql存储过程
DELIMITER $$ DROP PROCEDURE IF EXISTS getUserInfo $$ CREATE PROCEDURE getUserInfo(in date_day datetime)-- -- 实例-- 存储过程名为：getUserInfo-- 参数为：date_day日期格式:2008-03-08-- BEGINdecla
mysql 和 sqlite 区别 Array_06 sqlite
转载： http://www.cnblogs.com/ygm900/p/3460663.html mysql 和 sqlite 区别 SQLITE是单机数据库。功能简约，小型化，追求最大磁盘效率 MYSQL是完善的服务器数据库。功能全面，综合化，追求最大并发效率 MYSQL、Sybase、Oracle等这些都是试用于服务器数据量大功能多需要安装，例如网站访问量比较大的。而sq
pinyin4j使用 oloz pinyin4j
首先需要pinyin4j的jar包支持；jar包已上传至附件内方法一:把汉字转换为拼音；例如：编程转换后则为biancheng /** * 将汉字转换为全拼 * @param src 你的需要转换的汉字 * @param isUPPERCASE 是否转换为大写的拼音； true:转换为大写；fal
微博发送私信随意而生微博
在前面文章中说了如和获取登陆时候所需要的cookie，现在只要拿到最后登陆所需要的cookie，然后抓包分析一下微博私信发送界面 http://weibo.com/message/history?uid=****&name=**** 可以发现其发送提交的Post请求和其中的数据，让后用程序模拟发送POST请求中的数据，带着cookie发送到私信的接入口，就可以实现发私信的功能了。
jsp 香水浓 jsp
JSP初始化容器载入JSP文件后，它会在为请求提供任何服务前调用jspInit()方法。如果您需要执行自定义的JSP初始化任务，复写jspInit()方法就行了 JSP执行这一阶段描述了JSP生命周期中一切与请求相关的交互行为，直到被销毁。当JSP网页完成初始化后
在 Windows 上安装 SVN Subversion 服务端 AdyZhang SVN
在 Windows 上安装 SVN Subversion 服务端2009-09-16高宏伟哈尔滨市道里区通达街291号最佳阅读效果请访问原地址：http://blog.donews.com/dukejoe/archive/2009/09/16/1560917.aspx 现在的Subversion已经足够稳定，而且已经进入了它的黄金时段。我们看到大量的项目都在使
android开发中如何使用 alertDialog从listView中删除数据？ aijuans android
我现在使用listView展示了很多的配置信息，我现在想在点击其中一条的时候填出 alertDialog,点击确认后就删除该条数据，（ ArrayAdapter ，ArrayList，listView 全部删除），我知道在下面的onItemLongClick 方法中参数 arg2 是选中的序号，但是我不知道如何继续处理下去 1 2 3
jdk-6u26-linux-x64.bin 安装 baalwolf linux
1.上传安装文件(jdk-6u26-linux-x64.bin) 2.修改权限 [root@localhost ~]# ls -l /usr/local/jdk-6u26-linux-x64.bin 3.执行安装文件 [root@localhost ~]# cd /usr/local [root@localhost local]# ./jdk-6u26-linux-x64.bin&nbs
MongoDB经典面试题集锦 BigBird2012 mongodb
1.什么是NoSQL数据库？NoSQL和RDBMS有什么区别？在哪些情况下使用和不使用NoSQL数据库？ NoSQL是非关系型数据库，NoSQL = Not Only SQL。关系型数据库采用的结构化的数据，NoSQL采用的是键值对的方式存储数据。在处理非结构化/半结构化的大数据时；在水平方向上进行扩展时；随时应对动态增加的数据项时可以优先考虑使用NoSQL数据库。在考虑数据库的成熟
JavaScript异步编程Promise模式的6个特性 bijian1013 JavaScript Promise
Promise是一个非常有价值的构造器，能够帮助你避免使用镶套匿名方法，而使用更具有可读性的方式组装异步代码。这里我们将介绍6个最简单的特性。在我们开始正式介绍之前，我们想看看Javascript Promise的样子： var p = new Promise(function(r
[Zookeeper学习笔记之八]Zookeeper源代码分析之Zookeeper.ZKWatchManager bit1129 zookeeper
ClientWatchManager接口 //接口的唯一方法materialize用于确定那些Watcher需要被通知 //确定Watcher需要三方面的因素1.事件状态 2.事件类型 3.znode的path public interface ClientWatchManager { /** * Return a set of watchers that should
【Scala十五】Scala核心九：隐式转换之二 bit1129 scala
隐式转换存在的必要性，在Java Swing中，按钮点击事件的处理，转换为Scala的的写法如下： val button = new JButton button.addActionListener( new ActionListener { def actionPerformed(event: ActionEvent) {
Android JSON数据的解析与封装小Demo ronin47
转自：http://www.open-open.com/lib/view/open1420529336406.html package com.example.jsondemo; import org.json.JSONArray; import org.json.JSONException; import org.json.JSONObject; impor
[设计]字体创意设计方法谈 brotherlamp UI ui自学 ui视频 ui教程 ui资料
从古至今，文字在我们的生活中是必不可少的事物，我们不能想象没有文字的世界将会是怎样。在平面设计中，UI设计师在文字上所花的心思和功夫最多，因为文字能直观地表达UI设计师所的意念。在文字上的创造设计，直接反映出平面作品的主题。如设计一幅戴尔笔记本电脑的广告海报，假设海报上没有出现“戴尔”两个文字，即使放上所有戴尔笔记本电脑的图片都不能让人们得知这些电脑是什么品牌。只要写上“戴尔笔
单调队列-用一个长度为k的窗在整数数列上移动，求窗里面所包含的数的最大值 bylijinnan java 算法面试题
import java.util.LinkedList; /* 单调队列滑动窗口单调队列是这样的一个队列：队列里面的元素是有序的，是递增或者递减题目：给定一个长度为N的整数数列a(i),i=0,1,...,N-1和窗长度k. 要求：f(i) = max{a(i-k+1),a(i-k+2),..., a(i)},i = 0,1,...,N-1 问题的另一种描述就
struts2处理一个form多个submit chiangfai struts2
web应用中，为完成不同工作，一个jsp的form标签可能有多个submit。如下代码： <s:form action="submit" method="post" namespace="/my"> <s:textfield name="msg" label="叙述：">
shell查找上个月，陷阱及野路子 chenchao051 shell
date -d "-1 month" +%F 以上这段代码，假如在2012/10/31执行，结果并不会出现你预计的9月份，而是会出现八月份，原因是10月份有31天，9月份30天，所以-1 month在10月份看来要减去31天，所以直接到了8月31日这天，这不靠谱。野路子解决：假设当天日期大于15号
mysql导出数据中文乱码问题 daizj mysql 中文乱码导数据
解决mysql导入导出数据乱码问题方法：１、进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+----------------------------------------+ | Variable_name&nbs
SAE部署Smarty出现：Uncaught exception 'SmartyException' with message 'unable to write dcj3sjt126com PHP smarty sae
对于SAE出现的问题：Uncaught exception 'SmartyException' with message 'unable to write file...。官方给出了详细的FAQ：http://sae.sina.com.cn/?m=faqs&catId=11#show_213 解决方案为： 01 $path
《教父》系列台词 dcj3sjt126com
Your love is also your weak point. 你的所爱同时也是你的弱点。 If anything in this life is certain, if history has taught us anything, it is that you can kill anyone. 不顾家的人永远不可能成为一个真正的男人。 &
mongodb安装与使用 dyy_gusi mongo
一.MongoDB安装和启动,widndows和linux基本相同 1.下载数据库, linux:mongodb-linux-x86_64-ubuntu1404-3.0.3.tgz 2.解压文件,并且放置到合适的位置 tar -vxf mongodb-linux-x86_64-ubun
Git排除目录 geeksun git
在Git的版本控制中，可能有些文件是不需要加入控制的，那我们在提交代码时就需要忽略这些文件，下面讲讲应该怎么给Git配置一些忽略规则。有三种方法可以忽略掉这些文件，这三种方法都能达到目的，只不过适用情景不一样。 1. 针对单一工程排除文件这种方式会让这个工程的所有修改者在克隆代码的同时，也能克隆到过滤规则，而不用自己再写一份，这就能保证所有修改者应用的都是同一
Ubuntu 创建开机自启动脚本的方法 hongtoushizi ubuntu
转载自： http://rongjih.blog.163.com/blog/static/33574461201111504843245/ Ubuntu 创建开机自启动脚本的步骤如下： 1) 将你的启动脚本复制到 /etc/init.d目录下以下假设你的脚本文件名为 test。 2) 设置脚本文件的权限 $ sudo chmod 755
第八章流量复制/AB测试/协程 jinnianshilongnian nginx lua coroutine
流量复制在实际开发中经常涉及到项目的升级，而该升级不能简单的上线就完事了，需要验证该升级是否兼容老的上线，因此可能需要并行运行两个项目一段时间进行数据比对和校验，待没问题后再进行上线。这其实就需要进行流量复制，把流量复制到其他服务器上，一种方式是使用如tcpcopy引流；另外我们还可以使用nginx的HttpLuaModule模块中的ngx.location.capture_multi进行并发
电商系统商品表设计 lkl
DROP TABLE IF EXISTS `category`; -- 类目表 /*!40101 SET @saved_cs_client = @@character_set_client */; /*!40101 SET character_set_client = utf8 */; CREATE TABLE `category` ( `id` int(11) NOT NUL
修改phpMyAdmin导入SQL文件的大小限制 pda158 sql mysql
　用phpMyAdmin导入mysql数据库时，我的10M的数据库不能导入，提示mysql数据库最大只能导入2M。　　 phpMyAdmin数据库导入出错：　　You probably tried to upload too large file. Please refer to documentation for ways to workaround this limit.
Tomcat性能调优方案 Sobfist apache jvm tomcat 应用服务器
一、操作系统调优对于操作系统优化来说，是尽可能的增大可使用的内存容量、提高CPU的频率，保证文件系统的读写速率等。经过压力测试验证，在并发连接很多的情况下，CPU的处理能力越强，系统运行速度越快。。【适用场景】任何项目。二、Java虚拟机调优应该选择SUN的JVM，在满足项目需要的前提下，尽量选用版本较高的JVM，一般来说高版本产品在速度和效率上比低版本会有改进。 J
SQLServer学习笔记 vipbooks 数据结构 xml
1、create database school 创建数据库school 2、drop database school 删除数据库school 3、use school 连接到school数据库，使其成为当前数据库 4、create table class(classID int primary key identity not null) 创建一个名为class的表，其有一