1.视图
①概念
视图里存放的是一组SQL语句,通过执行这组SQL语句可以得到相应的结果。视图并不是直接存放结果,而是存放
了SQL语句,当用到时,就会执行。是一个懒加载的。
②特点
不支持物化视图
只能查询,不能做加载数据操作 load data into
视图的创建,只是保存一份元数据,查询视图时才执行对应的子查询
视图定义中若包含了ORDER BY/LIMIT语句,当查询视图时也进行ORDER BY/LIMIT语句操作,视图当中定义的优先级更高
视图支持迭代视图
一旦创建成功,无法修改
③创建视图
CREATE VIEW IF NOT EXISTS view1 AS SELECT * FROM logtbl order by age;
创建视图的时候不会启动MR任务,但是在查询视图的时候会启动MR任务
show tables 可以查看已经创建的视图
drop view view1 删除视图
2.索引
①原理
这个索引就类似于目录。我们可以把所有的文件加上一个索引,这样在查询的时候就可以先根据索引确定查找的
数据在哪一个分区,然后只遍历这一局部的数据就可以得到最终的结果。提高了查询的效率。
②创建
创建索引之前,需要先创建一个索引库,用于存放索引。
create index t2_index on table psnbucket_partition(age) //表示对psnbucket_partition表的age字段创建索引
as 'org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler' with deferred rebuild //用到了一个提供给我们的一个创建索引的类
in table t2_index_table; //创建的索引放到这个表中
索引库只是保存一些元数据,比如 对哪个字段创建索引,对哪个表创建索引等。
创建索引
alter index t2_index on psnbucket_partition rebuild; //真正的创建索引信息并且存储到索引库中,
若数据库有新增数据,也可以使用以上语句重建索引。
③查询索引
show index on psnbucket_partition;
④删除索引
drop index t2_index on psnbucket_partition;
删除索引的同时 索引库也会被删除
3.数据读取规则
如果想把一些不规整的数据存入到hive表中,如tomcat的运行日志。需要用到正则表达式。读取数据的时候
按照正则表达式将其切割,并赋给对应的表中的字段。
例如:要将以下的数据存入hive表中
192.168.57.4 - - [29/Feb/2016:18:14:35 +0800] "GET /bg-upper.png HTTP/1.1" 304 -
192.168.57.4 - - [29/Feb/2016:18:14:35 +0800] "GET /bg-nav.png HTTP/1.1" 304 -
192.168.57.4 - - [29/Feb/2016:18:14:35 +0800] "GET /asf-logo.png HTTP/1.1" 304 -
192.168.57.4 - - [29/Feb/2016:18:14:35 +0800] "GET /bg-button.png HTTP/1.1" 304 -
192.168.57.4 - - [29/Feb/2016:18:14:35 +0800] "GET /bg-middle.png HTTP/1.1" 304 -
192.168.57.4 - - [29/Feb/2016:18:14:36 +0800] "GET / HTTP/1.1" 200 11217
创建的表的语句为
CREATE TABLE logtbl (
host STRING,
identity STRING,
t_user STRING,
time STRING,
request STRING,
referer STRING,
agent STRING)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.RegexSerDe'
WITH SERDEPROPERTIES (
"input.regex" = "([^ ]*) ([^ ]*) ([^ ]*) \\[(.*)\\] \"(.*)\" (-|[0-9]*) (-|[0-9]*)"
)
STORED AS TEXTFILE;
在往表中插入数据的时候,并不会检查。只是在读的时候根据正则表达式来读,如果读不懂,说明这条数据
就是脏数据。所以结论就是读时检查,不是写时检查。
4.连接hive工具的方式
①beeline
之前使用hive就是通过hive脚本,这种方式不够安全。所以就有了beeline,类似于jdbc。beeline需要先与
hive提供的thriftserver服务连接(使用hiveserver2命令启动这个服务),thriftserver服务里配置了用户名和密码,只有输入正确的用户名和
密码才能连接上这个服务。
beeline默认方式是不需要密码的,所以我们要通过配置信息来设置用户名和密码。在hive-site.xml文件
中增加
hive.server2.authentication
CUSTOM
hive.jdbc_passwd.auth.zhangsan //用户名
123456789 // 密码
hive.server2.custom.authentication.class
com.hoe.hive.authoriz.UserPasswdAuth //我们自己写的类,用于验证用户名和密码是否正确
将写好的类打成一个jar包,放到hive的lib目录下。
第一种链接方式:./beeline -u jdbc:hive2://node01:10000/test -n zhangsan -p123456789
第二种链接方式:
./beeline
!connect jdbc:hive2://node01:10000/test
输入用户名
输入密码
自己写的类的代码
public class UserPasswdAuth implements PasswdAuthenticationProvider {
Logger logger = LoggerFactory.getLogger(UserPasswdAuth.class);
private static final String USER_PASSWD_AUTH_PREFIX = "hive.jdbc_passwd.auth.%s";
private Configuration conf = null;
@Override
public void Authenticate(String userName, String passwd) throws AuthenticationException {
logger.info("user: " + userName + " try login.");
String passwdConf = getConf().get(String.format(USER_PASSWD_AUTH_PREFIX, userName));
if (passwdConf == null) {
String message = "没有发现密码 " + userName;
logger.info(message);
throw new AuthenticationException(message);
}
if (!passwd.equals(passwdConf)) {
String message = "用户名密码不匹配 " + userName;
throw new AuthenticationException(message);
}
}
public Configuration getConf() {
if (conf == null) {
this.conf = new Configuration(new HiveConf());
}
return conf;
}
public void setConf(Configuration conf) {
this.conf = conf;
}
}
②JDBC
JDBC也是通过thriftserver服务连接hive工具的,配置信息和beeline的一样。
public class ConnectHive {
public static String driverName = "org.apache.hive.jdbc.HiveDriver";
public static void main(String[] args) {
try {
Class.forName(driverName);
} catch (ClassNotFoundException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
String url = "jdbc:hive2://node01:10000"; //node01代表的是IP
String userName = "zhangsan";
String passwd = "123456789";
Connection conn = null;
try {
conn = DriverManager.getConnection(url, userName, passwd);
Statement statement = conn.createStatement();
String sql = "select * from test.logtbl limit 10";
ResultSet resultSet = statement.executeQuery(sql);
while (resultSet.next()) {
System.out.println(resultSet.getString(1) + "-" + resultSet.getString(2));
}
} catch (SQLException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}