hive操作

1.视图
  ①概念

视图里存放的是一组SQL语句,通过执行这组SQL语句可以得到相应的结果。视图并不是直接存放结果,而是存放
了SQL语句,当用到时,就会执行。是一个懒加载的。

  ②特点

   不支持物化视图
   只能查询,不能做加载数据操作  load data into
   视图的创建,只是保存一份元数据,查询视图时才执行对应的子查询
   视图定义中若包含了ORDER BY/LIMIT语句,当查询视图时也进行ORDER BY/LIMIT语句操作,视图当中定义的优先级更高
   视图支持迭代视图
   一旦创建成功,无法修改

  ③创建视图

   CREATE VIEW  IF NOT EXISTS  view1 AS SELECT * FROM logtbl order by age;
   创建视图的时候不会启动MR任务,但是在查询视图的时候会启动MR任务
   show tables    可以查看已经创建的视图
   drop view view1  删除视图

2.索引
  ①原理

这个索引就类似于目录。我们可以把所有的文件加上一个索引,这样在查询的时候就可以先根据索引确定查找的
数据在哪一个分区,然后只遍历这一局部的数据就可以得到最终的结果。提高了查询的效率。

  ②创建

创建索引之前,需要先创建一个索引库,用于存放索引。
create index t2_index on table psnbucket_partition(age)  //表示对psnbucket_partition表的age字段创建索引
as 'org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler' with deferred rebuild //用到了一个提供给我们的一个创建索引的类
in table t2_index_table; //创建的索引放到这个表中
索引库只是保存一些元数据,比如 对哪个字段创建索引,对哪个表创建索引等。
创建索引
alter index t2_index on psnbucket_partition rebuild; //真正的创建索引信息并且存储到索引库中,
若数据库有新增数据,也可以使用以上语句重建索引。

  ③查询索引

show index on psnbucket_partition;

  ④删除索引

drop index t2_index on psnbucket_partition; 
删除索引的同时  索引库也会被删除

3.数据读取规则

如果想把一些不规整的数据存入到hive表中,如tomcat的运行日志。需要用到正则表达式。读取数据的时候
按照正则表达式将其切割,并赋给对应的表中的字段。
例如:要将以下的数据存入hive表中
192.168.57.4 - - [29/Feb/2016:18:14:35 +0800] "GET /bg-upper.png HTTP/1.1" 304 -
192.168.57.4 - - [29/Feb/2016:18:14:35 +0800] "GET /bg-nav.png HTTP/1.1" 304 -
192.168.57.4 - - [29/Feb/2016:18:14:35 +0800] "GET /asf-logo.png HTTP/1.1" 304 -
192.168.57.4 - - [29/Feb/2016:18:14:35 +0800] "GET /bg-button.png HTTP/1.1" 304 -
192.168.57.4 - - [29/Feb/2016:18:14:35 +0800] "GET /bg-middle.png HTTP/1.1" 304 -
192.168.57.4 - - [29/Feb/2016:18:14:36 +0800] "GET / HTTP/1.1" 200 11217
创建的表的语句为
CREATE TABLE logtbl (
    host STRING,
    identity STRING,
    t_user STRING,
    time STRING,
    request STRING,
    referer STRING,
    agent STRING)
  ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.RegexSerDe'
  WITH SERDEPROPERTIES (
    "input.regex" = "([^ ]*) ([^ ]*) ([^ ]*) \\[(.*)\\] \"(.*)\" (-|[0-9]*) (-|[0-9]*)"
  )
  STORED AS TEXTFILE;
  在往表中插入数据的时候,并不会检查。只是在读的时候根据正则表达式来读,如果读不懂,说明这条数据
  就是脏数据。所以结论就是读时检查,不是写时检查。

4.连接hive工具的方式
  ①beeline

之前使用hive就是通过hive脚本,这种方式不够安全。所以就有了beeline,类似于jdbc。beeline需要先与
hive提供的thriftserver服务连接(使用hiveserver2命令启动这个服务),thriftserver服务里配置了用户名和密码,只有输入正确的用户名和
密码才能连接上这个服务。
beeline默认方式是不需要密码的,所以我们要通过配置信息来设置用户名和密码。在hive-site.xml文件
中增加
	
                hive.server2.authentication
                CUSTOM
        
        
                hive.jdbc_passwd.auth.zhangsan  //用户名
                123456789 // 密码
        
        
                hive.server2.custom.authentication.class
                com.hoe.hive.authoriz.UserPasswdAuth //我们自己写的类,用于验证用户名和密码是否正确
        
将写好的类打成一个jar包,放到hive的lib目录下。
第一种链接方式:./beeline -u jdbc:hive2://node01:10000/test -n zhangsan -p123456789
第二种链接方式:
./beeline
!connect jdbc:hive2://node01:10000/test
输入用户名
输入密码

    自己写的类的代码

public class UserPasswdAuth implements PasswdAuthenticationProvider {
	Logger logger = LoggerFactory.getLogger(UserPasswdAuth.class);

	private static final String USER_PASSWD_AUTH_PREFIX = "hive.jdbc_passwd.auth.%s";

	private Configuration conf = null;

	@Override
	public void Authenticate(String userName, String passwd) throws AuthenticationException {
		logger.info("user: " + userName + " try login.");
		String passwdConf = getConf().get(String.format(USER_PASSWD_AUTH_PREFIX, userName));
		if (passwdConf == null) {
			String message = "没有发现密码 " + userName;
			logger.info(message);
			throw new AuthenticationException(message);
		}
		if (!passwd.equals(passwdConf)) {
			String message = "用户名密码不匹配 " + userName;
			throw new AuthenticationException(message);
		}
	}

	public Configuration getConf() {
		if (conf == null) {
			this.conf = new Configuration(new HiveConf());
		}
		return conf;
	}

	public void setConf(Configuration conf) {
		this.conf = conf;
	}
}

  ②JDBC
    JDBC也是通过thriftserver服务连接hive工具的,配置信息和beeline的一样。

public class ConnectHive {

	public static String driverName = "org.apache.hive.jdbc.HiveDriver";

	public static void main(String[] args) {

		try {
			Class.forName(driverName);
		} catch (ClassNotFoundException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}

		String url = "jdbc:hive2://node01:10000"; //node01代表的是IP
		String userName = "zhangsan";
		String passwd = "123456789";
		Connection conn = null;
		try {
			conn = DriverManager.getConnection(url, userName, passwd);
			Statement statement = conn.createStatement();
			String sql = "select * from test.logtbl limit 10";
			ResultSet resultSet = statement.executeQuery(sql);
			while (resultSet.next()) {
				System.out.println(resultSet.getString(1) + "-" + resultSet.getString(2));
			}
		} catch (SQLException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}

	}
}

你可能感兴趣的:(hive操作)