spark-sql读取hive挂载alluxio

Alluxio是一个基于内存的分布式文件系统,它是架构在底层分布式文件系统和上层分布式计算框架之间的一个中间件,主要职责是以文件形式在内存或其它存储设施中提供数据的存取服务。

Alluxio的前身为Tachyon
在大数据领域,最底层的是分布式文件系统,如Amazon S3、Apache HDFS等,而较高层的应用则是一些分布式计算框架,如Spark、MapReduce、Flink等,这些分布式框架,往往都是直接从分布式文件系统中读写数据,效率比较低,性能消耗比较大。而如果我们将其架构与底层分布式文件系统与上层分布式计算框架之间,以文件的形式在内存中对外提供读写访问服务的话,那么Alluxio可以为那些大数据应用提供一个数量级的加速,而且它只要提供通用的数据访问接口,就能很方便的切换底层分布式文件系统。
与其他诸如HDFS、HBase、Spark等大数据相关框架一致,Alluxio也是一个主从结构的系统。它的主节点为Master,负责管理全局的文件系统元数据,比如文件系统树等,而从节点为Worker,负责管理本节点数据存储服务。另外,Alluxio还有一个组件为Client,为用户提供统一的文件存取服务接口。
当应用程序需要访问Alluxio时,通过客户端先与主节点Master通讯,获取对应文件的元数据,然后再和对应Worker节点通讯,进行实际的文件存取操作。所有的Worker会周期性地发送心跳给Master,维护文件系统元数据信息和确保自己被Master感知扔在集群中正常提供服务,而Master不会主动发起与其他组件的通信,它只是以回复请求的方式与其他组件进行通信。这与HDFS、HBase等分布式系统设计模式是一致的。
alluxio提供了其和hadoop的MapReduce、spark、hive、flink(一个流处理框架)的集成方法。
由于在项目中用到了hive去创建数据仓库,有部分业务处理的是用户历史行为记录,较为多的是做一些关联查询,统计分析,单纯的用spark-sql去读取hive表,计算响应时间很难满足我们的需求,开始考虑对数据进行类似预热的方法,开始考虑使用alluxio,将hive的wirehouse一部分放到alluxio内存文件系统中,以求实现数据加速。
下面简单介绍配置:
一、各个插件的安装版本号:
alluxio-1.4.0-hadoop2.6-bin.tar.gz;hadoop-2.6.5.tar.gz;spark-1.6.3-bin-hadoop2.6.tgz;apache-hive-1.2.2-bin.tar.gz;可以去各个官网下载相应的版本;如果使用spark2.x,在读取的时候,会出现各种jar包不兼容的问题,所以此处采用spark1.6.x不再出现此问题
1、Hadoop部分:
sudo nano ~/hadoop/etc/hadoop/core-site.xml

<configuration>
<property>
<name>fs.defaultFSname>
<value>hdfs://master:9000value>
property>
<property>
<name>hadoop.tmp.dirname>
<value>/home/master/hadoop/tempvalue>
property>
<property>
<name>fs.alluxio.implname>
<value>alluxio.hadoop.FileSystemvalue>
property>
<property>
<name>fs.AbstractFileSystem.alluxio.implname>
<value>alluxio.hadoop.AlluxioFileSystemvalue>
property>
<property>
<name>alluxio.user.file.writetype.defaultname>
<value>CACHE_THROUGHvalue>
property>
configuration>

sudo nano ~/hadoop/etc/hadoop/hadoop-env.sh

export HADOOP_CLASSPATH=/home/master/alluxio/core/client/target/alluxio-core-client-1.4.0-jar-with-dependencies.jar:${HADOOP_CLASSPATH}

2、hive部分
sudo nano ~/hive/conf/hive-site.xml

<property>
<name>fs.defaultFSname>
<value>alluxio://master:19998value>
property>
<property>
<name>alluxio.user.file.writetype.defaultname>
<value>CACHE_THROUGHvalue>
property>

3、spark部分:
sudo ~/spark/conf/spark-default.conf

spark.executor.extraClassPath /home/master/alluxio-core-client-1.4.0-jar-with-dependencies.jar
spark.driver.extraClassPath /home/master/alluxio-core-client-1.4.0-jar-with-dependencies.jar

sudo nano ~/spark/conf/core-site.xml

<configuration>
<property>
<name>fs.alluxio.implname>
<value>alluxio.hadoop.FileSystemvalue>
<description>The Alluxio FileSystem (Hadoop 1.x and 2.x)description>
property>
<property>
<name>fs.alluxio-ft.implname>
<value>alluxio.hadoop.FaultTolerantFileSystemvalue>
<description>The Alluxio FileSystem (Hadoop 1.x and 2.x) with fault tolerant supportdescription>
property>
<property>
<name>fs.AbstractFileSystem.alluxio.implname>
<value>alluxio.hadoop.AlluxioFileSystemvalue>
<description>The Alluxio AbstractFileSystem (Hadoop 2.x)description>
property>
configuration>

./bin/alluxio fs mkdir /tmp
./bin/alluxio fs mkdir /user/hive/warehouse
./bin/alluxio fs chmod 775 /tmp
./bin/alluxio fs chmod 775 /user/hive/warehouse

关于权限这一块我真的很想吐槽。不知道我安装的版本有问题呢,还是我的各个安装目录的用户组有问题,这个问题困扰了我很久。一直出现权限的问题。如果权限不够你可以修改为777。
把hive配置文件hive-site.xml拷贝到spark/conf目录下面
现在就可以使用spark-sql thrift server去读取hive表了。虽然thriftserver也有时候可能显得比较鸡肋,但是在比较常规的使用中还是可以得

至此你可以去创建hive表了,创建完,导入数据后,可以去alluxio的web页面去查看数据是否存在了

localhost:19999

关于hadoop的配置,记得把alluxio的依赖包放到hadoop/share/common/lib对应的目录下面。

你可能感兴趣的:(spark-sql,spark及问题解决,大数据)