大数据入门视频课程之hive讲解

  大数据入门视频课程,学习大数据技术似乎成了很多人的追求,毕竟就业前景和就业薪资摆在我们面前。而我们需要知道的是学习大数据技术,首先要学习Hadoop,而Hadoop技术中的数据仓库hive又是重中之重,所以今天小编除了分享大数据入门视频课程之外,还整理了一些关于hive的技术知识。

  

大数据入门视频课程之hive讲解_第1张图片

  hadoop就是大数据时代里的核心技术,但是hadoop和mapreduce操作专业性太强,所以facebook在这些的基础上开发了hive框架,毕竟世界上会sql的人比会java的人多的多,hive是可以说是学习hadoop相关技术的一个突破口,哪些自立于投身hadoop技术开发的童鞋们,可以先从hive开始哦。

  关系数据库里,表的加载模式是在数据加载时候强制确定的(表的加载模式是指数据库存储数据的文件格式),如果加载数据时候发现加载的数据不符合模式,关系数据库则会拒绝加载数据,这个就叫“写时模式”,写时模式会在数据加载时候对数据模式进行检查校验的操作。Hive在加载数据时候和关系数据库不同,hive在加载数据时候不会对数据进行检查,也不会更改被加载的数据文件,而检查数据格式的操作是在查询操作时候执行,这种模式叫“读时模式”。在实际应用中,写时模式在加载数据时候会对列进行索引,对数据进行压缩,因此加载数据的速度很慢,但是当数据加载好了,我们去查询数据的时候,速度很快。但是当我们的数据是非结构化,存储模式也是未知时候,关系数据操作这种场景就麻烦多了,这时候hive就会发挥它的优势。

  关系数据库一个重要的特点是可以对某一行或某些行的数据进行更新、删除操作,hive不支持对某个具体行的操作,hive对数据的操作只支持覆盖原数据和追加数据。Hive也不支持事务和索引。更新、事务和索引都是关系数据库的特征,这些hive都不支持,也不打算支持,原因是hive的设计是海量数据进行处理,全数据的扫描时常态,针对某些具体数据进行操作的效率是很差的,对于更新操作,hive是通 过查询将原表的数据进行转化末了存储在新表里,这和传统数据库的更新操作有很大不同。

  Hive也可以在hadoop做实时查询上做一份自己的贡献,那就是和hbase集成,hbase可以进行快速查询,但是hbase不支持类SQL的语句,那么此时hive可以给hbase提供sql语法解析的外壳,可以用类sql语句操作hbase数据库。

  今天小编的大数据入门视频教程课程和技术就先分享到这,更多精彩内容,欢迎关注小编!

你可能感兴趣的:(大数据入门视频课程之hive讲解)