2018-11-28 大数据学习

今天完成

1. 将spark部署到yarn上,之前对spark在yarn上的部署有点误解,原来误以为需要将spark部署到各个节点上,其实不然,只需要在主节点部署一份spark,然后修改好配置文件主要是指示spark到哪里可以找到yarn(即配置HADOOP_CONF_DIR参数到spark-env.sh里,或者export这个参数到环境变量里,然后spark就知道在这个目录里能找到yarn的链接路径了),然后在主节点使用spark-submit提交任务到yarn,yarn就会分配container给spark的executor运行,资源的分配由yarn来完成

2. 部署的过程中出现了很多小问题,其中一个问题是提交的任务总是失败,究其原因是集群中机器的配置太低了,内存不足,升级一下配置就好了。另一个问题就是挖矿木马的问题,挖矿木马会感染yarn集群,这个一个着实烦人的问题,测试需要开放8088端口,但是一旦开放了又马上会感染木马,看来只能在yarn中部署kerberos认证了,具体怎么部署还需要研究。没有了8088端口,yarn的web ui就访问不了,任务失败又查看不了日志,只能配置yarn集群的日志聚集功能,将其他container上的日志聚集到hdfs上,然后运行yarn的logs命令查看日志了,但是这里还有一些问题,有时候有些日志查看不了,这个还需要微调一下,之后有时间再深究了,因为现在首先要做的是把环境搭好,写一些spark app练练手,然后就要马上转去看storm,之后就去稍微了解下flink和了解下比较通用的大数据架构了,我指的是像lambda architecture之类的架构。

将要做

1. 写点复杂点的spark app,部署到yarn上跑 +

2. 继续了解storm,起码别人问到的时候能解析出它的强项和弱项,和使用运行的原理来解释为什么强,为什么弱

3. 学一学scala,因为flink和spark都是用scala写的,不然有问题会看不懂源代码的

你可能感兴趣的:(2018-11-28 大数据学习)