Spark1.0.0 的一些小经验

1:关于读取本地文件
使用spark-shell连接Spark集群,然后在运行应用程序中读取本地文件时,会经常碰上文件不存在的错误。
主要原因是由于:
spark-shell作为应用程序,是将提交作业给spark集群,然后spark集群分配到具体的worker来处理,worker在处理作业的时候会读取本地文件。这时候冲突就发生了,运行spark-shell的机器可能和运行worker的机器不是同一台,而文件是放在运行spark-shell的机器上,运行worker的机器上没有,就出现了上面的错误。
解决方法:
将文件复制到所有节点相同的目录上,或者将文件复制到worker相同的目录上(这个有点难度,要先看日志来判断, spark-shell 的一些小经验 - mmicky - mmicky 的博客)。

2:关于Core数量的设置
缺省的情况下,spark-shell会使用spark集群中的所有剩余的Core,但可以通过设置 -c 参数来指定使用的Core数量。这样就可以将多个spark-shell连接到spark集群上了。

你可能感兴趣的:(spark,经验)