Google Cloud + Hive 讲解

这篇博客主要讲解如何在Google Cloud上使用Hive.

这篇博客使用的数据是movies_few.csv.
部分截图如下:
Google Cloud + Hive 讲解_第1张图片
步骤一:创建Google Cloud Project:
首先进入Google Cloud Console的界面:
在这里插入图片描述
点击"New Project"
在这里插入图片描述
进入到这个界面,必须有Billing account, 不然是不能使用Google Cloud的
Google Cloud + Hive 讲解_第2张图片
步骤二:创建Google Cloud Storage bucket来存储要使用的数据
进入Storage -> Browser
Google Cloud + Hive 讲解_第3张图片
创建一个storage bucket:
在这里插入图片描述
Google Cloud + Hive 讲解_第4张图片
Google Cloud + Hive 讲解_第5张图片
Google Cloud + Hive 讲解_第6张图片
步骤三:创建好bucket之后,就创建一个folder来存储要做实验的数据:
Google Cloud + Hive 讲解_第7张图片
Google Cloud + Hive 讲解_第8张图片
步骤四:上传需要做实验的数据到创建好的folder:
有两种办法上传:

  • 跟下面的截图一样做法
  • 可以直接把文件拖拽进来
    Google Cloud + Hive 讲解_第9张图片
    步骤五: 创建一个Dataproc Cluster
    必须得将Cloud Dataproc API enabled了,不然是用不了的
    Google Cloud + Hive 讲解_第10张图片
    Google Cloud + Hive 讲解_第11张图片
    Google Cloud + Hive 讲解_第12张图片

Google Cloud + Hive 讲解_第13张图片
Google Cloud + Hive 讲解_第14张图片
Google Cloud + Hive 讲解_第15张图片
Google Cloud + Hive 讲解_第16张图片
步骤六:点击SSH进入master node:
Google Cloud + Hive 讲解_第17张图片
Google Cloud + Hive 讲解_第18张图片
Google Cloud + Hive 讲解_第19张图片
步骤七:可以查看dataset in cloud storage

# 命令
gsutil ls gs://hive-test-example/example-data

在这里插入图片描述
步骤八:使用jdbc hive 来运行Beeline shell

# 命令
beeline -u jdbc:hive2://localhost:10000/default -n
       [myusername@clustername-m] -d
       org.apache.hive.jdbc.HiveDriver

在这里插入图片描述
这时就可以使用HIVE 命令来做练习了

步骤九:创建一个table

Google Cloud + Hive 讲解_第20张图片
这样就代表成功了
Note:

  • CREATE TABLE命令中的EXTERNAL子句将把源数据文件留在云文件存储(CFS)中。使用这种方法,原始数据将保持在原来的位置(在本例中是gs: bucket),但是可以操作新创建的表。
  • 另一方面,你可以使用CREATE TABLE,不带EXTERNAL子句,将数据从CFS (gs:在这种情况下)以表的形式移动到HIVE文件系统中。一旦数据被移动到HIVE表中,文件就会从常规CFS中删除。

步骤十:数table里一共有多少行:
Google Cloud + Hive 讲解_第21张图片
步骤十一:从table里选择10行:
Google Cloud + Hive 讲解_第22张图片

步骤十二:退出HIVE terminal
在这里插入图片描述

步骤十三: 删除cluster, cloud storage bucket:
在这里插入图片描述
在这里插入图片描述
Google Cloud + Hive 讲解_第23张图片
如果觉得不错,就点赞或者关注或者留言~~
谢谢~ ~

你可能感兴趣的:(谷歌云,谷歌云,Hive)