前段时间,做公司bot平台的日志处理,跟着大佬老王同志一起学spark。学了这么久,总算有些技巧分享给大家。网上的入门教程真的很多很多,所以我没写系统写过一门技术的教程,因为我想如果写仅仅会是知识的搬运工和和泥工吧。我只是想分享一些自己使用的小技巧、一些难搜索到的冷知识。熟读https://spark.apache.org/
mac安装spark
这里介绍了两种安装方法、三种使用方式,
python
对的,一般使用pyspark进行编程,其实只要用pip工具安装就可以了。
$ pip3 install pyspark
system
使用homebrew安装,
$ brew install apache-spark
目录在/usr/local/Cellar/apache-spark
,建议大家不要使用子目录的bin文件夹,而是/usr/local/Cellar/apache-spark/2.4.0/libexec
里面的,因为好多工具都在sbin目录里面,而且warehouse(存储metadata)会默认生成在你操作的目录里。所以每次操作建议先到这个目录,可以保证数据的一致性,别问我怎么知道的 = - = # 、哼:
$ cd /usr/local/Cellar/apache-spark/2.4.0/libexec
pyspark使用
首先,可以使用pycharm构建一个简单的项目,
{"name": "goddy", "age": 23}
{"name": "wcm", "age": 31}
然后编写一个简单的spark程序,
from pyspark.sql import SparkSession
from pyspark.sql.types import *
spark = SparkSession \
.builder \
.appName("goddy-test") \
.getOrCreate()
schema = StructType([
StructField("name", StringType()),
StructField("age", IntegerType())
])
# 这里路径也可以是./in,但是如果要放到系统的pyspark执行,那要指定绝对路径
data = spark.read.schema(schema).json('/Users/goddy/Desktop/test-python/test-spark/jianshu/in')
data.printSchema()
data.show()
然后点击pycharm的运行键就可以了、!
当然,这个文件也可以在系统的pyspark运行。
$ cd /usr/local/Cellar/apache-spark/2.4.0/libexec
$ ./bin/spark-submit /Users/goddy/Desktop/test-python/test-spark/jianshu/app.py
或者,我们可以启动spark服务,提交任务给它。
首先,启动spark服务
# 打开我们使用的目录, 这样就会在此目录生成spark-warehouse
$ cd /usr/local/Cellar/apache-spark/2.4.0/libexec
# 启动master节点
$ ./sbin/start-master.sh
此时,用浏览器打开 http://localhost:8080/ ,我们就可以看到spark的管理界面了,从中取到spark master的地址。
# 同样的目录下,启动slave节点,即工作节点
$ ./sbin/start-slave.sh spark://adsl-99-12-209-139.dsl.hstntx.sbcglobal.net:7077
这时再看一眼管理界面,多了一个工作节点。
这时再提交任务到指定master
# 提交任务,注意这里
$ ./bin/spark-submit --master spark://adsl-99-12-209-139.dsl.hstntx.sbcglobal.net:7077 /Users/goddy/Desktop/test-python/test-spark/jianshu/app.py
# 如果是分布式的,最终将类似这样,这里我们就用上面的啦。
$ ./bin/spark-submit --master yarn --deploy-mode cluster --driver-memory 520M --executor-memory 520M --executor-cores 1 --num-executors 1 /Users/goddy/Desktop/test-python/test-spark/jianshu/app.py
执行时可以观察下管理界面。
spark thrift server的使用
- https://spark.apache.org/docs/latest/sql-distributed-sql-engine.html#running-the-thrift-jdbcodbc-server
- https://mapr.com/docs/61/Spark/SparkSQLThriftServer.html
使用spark时,要么写spark sql,要么把数据变为Structured dataframe再通过各种如pandas包来处理就好了。当然只用spark sql处理就非常简单了,但是spark sql需要提交spark任务来看到一些结果,如果能类似mysql有cli(command line interface)就好了、! 这时,我就发现了spark thrift server这个神器。
spark thrift server是分布式查询引擎,使spark sql拥有了JDBC和cli两种交互方式。详细见官网:https://spark.apache.org/docs/latest/sql-distributed-sql-engine.html#running-the-thrift-jdbcodbc-server
# 启动服务,执行过就不用执行啦。如果忘记有没有启动,可以看下8080端口,或者终端执行jps命令查看运行的java程序
$ cd /usr/local/Cellar/apache-spark/2.4.0/libexec
$ ./sbin/start-master.sh
$ ./sbin/start-slave.sh spark://adsl-99-12-209-139.dsl.hstntx.sbcglobal.net:7077
# 启动spark thrift server服务,注意添加资源限制,不然会占用所有资源
$ ./sbin/start-thriftserver.sh --master spark://adsl-99-12-209-139.dsl.hstntx.sbcglobal.net:7077 --hiveconf spark.cores.max=1 --hiveconf spark.executor.memory=520M
启动后可以看到它其实作为一个spark job存在的,
localhost:4040
,发现spark job页面多了一个介个
下面来连接spark thrift server
# 根据官网来的,别问我为啥、!
$ ./bin/spark-beeline
$ !connect jdbc:hive2://localhost:10000
# 用户名和密码直接回车就好
连接成功如下:
然后就是跟hive的table一样的操作方式了、!
实际处理场景中,我们会将hdfs或者s3的数据作为external table,然后使用java连接jdbc接口即jdbc:hive2://localhost:10000
,然后使用sql来获取数据。同时也可以通过spark sql来对表做操作。注意,external table是要维护它的partition的。