Hadoop、hive、spark、spark-sql基本操作

本教程适用于已经安装好hadoop,spark集群,需要利用的集群做简单的sql数据分析的用户。

终端显示快捷 ctrl+alt+t

# 启动hadoop后,查看Hadoop的网站
http://localhost:50070/dfshealth.html

#查看磁盘容量
df -l
#截图软件安装
sudo apt-get install shutter1

# 任务管理器
gnome-system-monitor
Hadoop、hive、spark、spark-sql基本操作_第1张图片
image.png

1.启动hadoop集群

start-all.sh

2. hdfs 操作

# hdfs 文件列表
hdfs dfs -ls /      
hdfs dfs -ls /dbtac/test
hdfs 列表

2.1. 将本地文件传到hdfs

#上传命令结构
hdfs dfs -put  本地文件路径   hdfs上传文件路径

hdfs dfs -put /home/hadoop/test20.csv  /dbtac/test/
Hadoop、hive、spark、spark-sql基本操作_第2张图片
hdfs上传数据
Hadoop、hive、spark、spark-sql基本操作_第3张图片
image.png
Hadoop、hive、spark、spark-sql基本操作_第4张图片
上传数据master资源管理器

3、hive操作

cd  /usr/local/hive
3.# 启动hive
./bin/hive
Hadoop、hive、spark、spark-sql基本操作_第5张图片
启动hive
Hadoop、hive、spark、spark-sql基本操作_第6张图片
hive操作
Hadoop、hive、spark、spark-sql基本操作_第7张图片
image.png
Hadoop、hive、spark、spark-sql基本操作_第8张图片
hive执行操作
Hadoop、hive、spark、spark-sql基本操作_第9张图片
hive执行操作master的资源管理器
Hadoop、hive、spark、spark-sql基本操作_第10张图片
image.png

4、spark操作

4.1 启动spark

start-master.sh
start-slaves.sh

4.2 master上的操作

Hadoop、hive、spark、spark-sql基本操作_第11张图片
image.png
Hadoop、hive、spark、spark-sql基本操作_第12张图片
在slave2上查看spark是否启动ssh slave2
#进入Scala语言交互式界面
spark-shell
Hadoop、hive、spark、spark-sql基本操作_第13张图片
image.png

hdfs上文件不存的报错情况

Hadoop、hive、spark、spark-sql基本操作_第14张图片
image.png
Hadoop、hive、spark、spark-sql基本操作_第15张图片
scala语言操作

进入spark-sql

spark-sql
Hadoop、hive、spark、spark-sql基本操作_第16张图片
image.png
Hadoop、hive、spark、spark-sql基本操作_第17张图片
image.png
Hadoop、hive、spark、spark-sql基本操作_第18张图片
image.png

spark交互式界面启动方式

#单机启动
spark-shell 

#集群启动
spark-shell --master spark://master:7077

#集群启动
spark-shell --master spark://master:7077   --master yarn

#集群启动spark-sql
spark-sql --master spark://master:7077  --driver-cores 8  --driver-java-options "-Dspark.driver.port=4050"  --conf spark.sql.warehouse.dir = hdfs://master:9000/user/hive/warehouse   --master yarn

输入scala代码

val textfile = sc.textFile("/dbtac/test/*.csv")
val textfile = sc.textFile("/user/hive/warehouse/dbtac.db/trajectory")
textfile.count()
text.first()
Hadoop、hive、spark、spark-sql基本操作_第19张图片
image.png

spark关闭命令

stop-master.sh
stop-slaves.sh

hadoop关闭

stop-hdfs.sh
stop-yarn.sh

你可能感兴趣的:(Hadoop、hive、spark、spark-sql基本操作)