前段时间，做公司bot平台的日志处理，跟着大佬老王同志一起学spark。学了这么久，总算有些技巧分享给大家。网上的入门教程真的很多很多，所以我没写系统写过一门技术的教程，因为我想如果写仅仅会是知识的搬运工和和泥工吧。我只是想分享一些自己使用的小技巧、一些难搜索到的冷知识。熟读https://spark.apache.org/

mac安装spark

这里介绍了两种安装方法、三种使用方式，

python

对的，一般使用pyspark进行编程，其实只要用pip工具安装就可以了。

$ pip3 install pyspark

system

使用homebrew安装，

$ brew install apache-spark

目录在/usr/local/Cellar/apache-spark，建议大家不要使用子目录的bin文件夹，而是/usr/local/Cellar/apache-spark/2.4.0/libexec里面的，因为好多工具都在sbin目录里面，而且warehouse(存储metadata)会默认生成在你操作的目录里。所以每次操作建议先到这个目录，可以保证数据的一致性，别问我怎么知道的 = - = # 、哼：

$ cd /usr/local/Cellar/apache-spark/2.4.0/libexec

pyspark使用

首先，可以使用pycharm构建一个简单的项目，

准备好文件，

{"name": "goddy", "age": 23}
{"name": "wcm", "age": 31}

然后编写一个简单的spark程序，

from pyspark.sql import SparkSession
from pyspark.sql.types import *

spark = SparkSession \
        .builder \
        .appName("goddy-test") \
        .getOrCreate()

schema = StructType([
    StructField("name", StringType()),
    StructField("age", IntegerType())
])

# 这里路径也可以是./in，但是如果要放到系统的pyspark执行，那要指定绝对路径
data = spark.read.schema(schema).json('/Users/goddy/Desktop/test-python/test-spark/jianshu/in')

data.printSchema()
data.show()

然后点击pycharm的运行键就可以了、！

当然，这个文件也可以在系统的pyspark运行。

$ cd /usr/local/Cellar/apache-spark/2.4.0/libexec
$ ./bin/spark-submit /Users/goddy/Desktop/test-python/test-spark/jianshu/app.py

或者，我们可以启动spark服务，提交任务给它。

首先，启动spark服务

# 打开我们使用的目录, 这样就会在此目录生成spark-warehouse
$ cd /usr/local/Cellar/apache-spark/2.4.0/libexec

# 启动master节点
$ ./sbin/start-master.sh

此时，用浏览器打开 http://localhost:8080/ ，我们就可以看到spark的管理界面了，从中取到spark master的地址。

# 同样的目录下，启动slave节点，即工作节点
$ ./sbin/start-slave.sh spark://adsl-99-12-209-139.dsl.hstntx.sbcglobal.net:7077

这时再看一眼管理界面，多了一个工作节点。

这时再提交任务到指定master

# 提交任务，注意这里
$ ./bin/spark-submit --master spark://adsl-99-12-209-139.dsl.hstntx.sbcglobal.net:7077 /Users/goddy/Desktop/test-python/test-spark/jianshu/app.py 

# 如果是分布式的，最终将类似这样，这里我们就用上面的啦。
$ ./bin/spark-submit --master yarn --deploy-mode cluster --driver-memory 520M --executor-memory 520M --executor-cores 1 --num-executors 1 /Users/goddy/Desktop/test-python/test-spark/jianshu/app.py

执行时可以观察下管理界面。

spark thrift server的使用

https://spark.apache.org/docs/latest/sql-distributed-sql-engine.html#running-the-thrift-jdbcodbc-server
https://mapr.com/docs/61/Spark/SparkSQLThriftServer.html

使用spark时，要么写spark sql，要么把数据变为Structured dataframe再通过各种如pandas包来处理就好了。当然只用spark sql处理就非常简单了，但是spark sql需要提交spark任务来看到一些结果，如果能类似mysql有cli(command line interface)就好了、！这时，我就发现了spark thrift server这个神器。
spark thrift server是分布式查询引擎，使spark sql拥有了JDBC和cli两种交互方式。详细见官网：https://spark.apache.org/docs/latest/sql-distributed-sql-engine.html#running-the-thrift-jdbcodbc-server

# 启动服务，执行过就不用执行啦。如果忘记有没有启动，可以看下8080端口，或者终端执行jps命令查看运行的java程序
$ cd /usr/local/Cellar/apache-spark/2.4.0/libexec
$ ./sbin/start-master.sh
$ ./sbin/start-slave.sh spark://adsl-99-12-209-139.dsl.hstntx.sbcglobal.net:7077

# 启动spark thrift server服务，注意添加资源限制，不然会占用所有资源
$ ./sbin/start-thriftserver.sh --master spark://adsl-99-12-209-139.dsl.hstntx.sbcglobal.net:7077 --hiveconf spark.cores.max=1 --hiveconf spark.executor.memory=520M

启动后可以看到它其实作为一个spark job存在的，

我们可以打开localhost:4040，发现spark job页面多了一个介个

下面来连接spark thrift server

# 根据官网来的，别问我为啥、！
$ ./bin/spark-beeline 
$ !connect jdbc:hive2://localhost:10000

# 用户名和密码直接回车就好

连接成功如下：

然后就是跟hive的table一样的操作方式了、！

实际处理场景中，我们会将hdfs或者s3的数据作为external table，然后使用java连接jdbc接口即jdbc:hive2://localhost:10000，然后使用sql来获取数据。同时也可以通过spark sql来对表做操作。注意，external table是要维护它的partition的。

mac使用pyspark & spark thrift server的使用