SparkSQL操纵Hive(一):系统准备

本文记录了SparkSQL操纵Hive的入门过程,包含了Ubuntu系统准备、环境部署和实例运行三个部分。这一部分为Ubuntu系统准备,主要包含了Ubuntu虚拟机的安装和ssh的安装。

安装Ubuntu 16.04 LTS虚拟机

详细安装过程见《VMware 12 安装Ubuntu 16.04 (图文教程)》。此处是手动安装Ubuntu,而没有采用Vmware的简易安装方法。采样简易安装时,发现启动ssh时会失败,检查日志发现出现如下错误。

Upstart: Failed to connect to socket /com/ubuntu/upstart
Failed to start OpenBSD Secure Shell server

一些博文,比如《坑爹的 socket /com/ubuntu/upstart: 拒绝连接》提到了这个问题出现的原因。但是在换成手动安装后,则没有再出现这个问题(但具体是不是简易安装导致的,也未清楚)。
安装完成后,如果出现Ubuntu窗口很小,且无法调整,可以参考《虚拟机调整窗口大小》的解决方案。

网络配置

为虚拟机配置静态IP。
点击菜单栏的虚拟机->设置。在网络适配器那里,选择网络连接的方式为自定义VMnet8(NAT模式)。
SparkSQL操纵Hive(一):系统准备_第1张图片
点击菜单栏的编辑->虚拟网络编辑器,选中VMnet8。可以看到子网地址为192.168.19.0。
SparkSQL操纵Hive(一):系统准备_第2张图片
点击同页面下方的NAT设置。可以看到网关。此处为192.168.19.2。
SparkSQL操纵Hive(一):系统准备_第3张图片
点击虚拟网络编辑器页面的DHCP设置,可以看到起始和结束地址。因此,在为虚拟机配置静态ip时,要保证ip在此范围内。
SparkSQL操纵Hive(一):系统准备_第4张图片
在知道这些信息后,可以开始配置网络。如下所示,虚拟机IP设为192.168.19.131,子网掩码为255.255.255.0,网关为192.168.19.2。具体配置按上述的具体情况来。
SparkSQL操纵Hive(一):系统准备_第5张图片

修改apt的资源列表+安装ssh

具体过程见《Ubuntu 16.04远程登录服务器–ssh的安装和配置》。除此之外,文章《Ubuntu14.04和16.04官方默认更新源sources.list和第三方源推荐(干货!)》提供一些第三方源的选择,比如清华Ubuntu软件源。
安装ssh后设置免密钥登陆。过程如下所示:
1.输入如下命令。然后依次回车。

ssh-keygen -t rsa

2.将rsa的公钥存入authorized_keys中。

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

3.尝试ssh master登录本机。
如果登陆时尝试多次依然需要密码,可以进行如下尝试:
1) 重启sshd,sudo service sshd restart
2)赋予权限,sudo chmod 700 ~/.sshsudo chmod 600 .ssh/authorized_keys
3)查看日志寻找具体问题,ssh -vvv master
注意,在 ssh7 以后不支持 dsa 加密方式。所以在生成密钥时不能再选择dsa,否则会导致免密钥设置失败,查看日志会发现如下提示。

Skipping ssh-dss key /home/hostname/.ssh/id_dsa - not in PubkeyAcceptedKeyTypes

你可能感兴趣的:(Spark,bigdata,hive)