spark集群零散知识

  1. 关于安装
    可直接copy节点上的hadoop包,和spark包,到目的机器,就可以执行。
    但里面的python,java 路径需要在spark里面指定。

  2. 关于运行
    1)clinet 模式,本地运行测试,driver/excut都在本地,日志也是在本地。
    2)cluster 模式,driver在集群的master上面 ,查看日志的方式:yarn logs -applicationId

  3. 关于内存
    1)driver 一个driver, 多个excute. 即master, excute节点。
    2) driver ,一般是最终结果要拉回driver. 一般的create ,insert 这种的话,不需要dirver拉回数据,所以内存也不需要太大。

  4. 关于重要配置文件
    1)spark里面一般查看conf文件,spark-defaluts.sh spark-en.sh ,可以配置driver内存,excute个数
    2)hadoop,/usr/local/service/hadoop/etc/hadoop 目录下, core-site.xml, hdfs-site.xml, yarn-site.xml 。 这里面可以看master ip

  5. 关于hdfs与yarn
    1)hdfs是文件存储系统,我们这边用的是cos(腾讯云的),cos对外是路径,可以写文件,和读取文件。
    2)如果需要把东西copy到hdfs,则先进入hdfs系统:hdfs dfs -ls (要有hadoop user)
    访问hadoop集群文件: hdsf://HDFS80043/**** , 如:hdfs://HDFS80043/spark-python/pyspark_env.zip
    3)yarn 是资源管理器

  6. hadoop与spark计算区别
    1)hadoop 的map过程写磁盘
    2)spark 内存计算, DAG。

你可能感兴趣的:(spark)