summermoonlight

spark 部署

Spark Local环境部署

下载地址

https://dlcdn.apache.org/spark/spark-3.2.0/spark-3.2.0-bin-hadoop3.2.tgz

条件

PYTHON 推荐3.8
JDK 1.8

Anaconda On Linux 安装

本次课程的Python环境需要安装到Linux(虚拟机)和Windows(本机)上

参见最下方, 附: Anaconda On Linux 安装

解压

解压下载的Spark安装包

tar -zxvf spark-3.2.0-bin-hadoop3.2.tgz -C /export/server/

环境变量

配置Spark由如下5个环境变量需要设置

SPARK_HOME: 表示Spark安装路径在哪里
PYSPARK_PYTHON: 表示Spark想运行Python程序, 那么去哪里找python执行器
JAVA_HOME: 告知Spark Java在哪里
HADOOP_CONF_DIR: 告知Spark Hadoop的配置文件在哪里
HADOOP_HOME: 告知Spark Hadoop安装在哪里

这5个环境变量都需要配置在: /etc/profile中

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kUMzEhhE-1679285533703)(https://pybd.yuque.com/api/filetransfer/images?url=https%3A%2F%2Fimage-set.oss-cn-zhangjiakou.aliyuncs.com%2Fimg-out%2F2021%2F09%2F08%2F20210908113758.png&sign=f8e5567e81c1b2c53b185d5b92deaaf1c0aed10141ccbb306d5d5f2cca37094e#from=url&id=L732v&margin=%5Bobject%20Object%5D&originHeight=476&originWidth=1248&originalType=binary&ratio=1&status=done&style=none)]

PYSPARK_PYTHON和 JAVA_HOME 需要同样配置在: /root/.bashrc中

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hnQ7KFh0-1679285533704)(https://pybd.yuque.com/api/filetransfer/images?url=https%3A%2F%2Fimage-set.oss-cn-zhangjiakou.aliyuncs.com%2Fimg-out%2F2021%2F09%2F08%2F20210908113857.png&sign=579c959d0f5219e564d04439b5f4b025838305b36f7c0cebed7fbeb0c26e9422#from=url&id=IAEoX&margin=%5Bobject%20Object%5D&originHeight=56&originWidth=1124&originalType=binary&ratio=1&status=done&style=none)]

上传Spark安装包

资料中提供了: spark-3.2.0-bin-hadoop3.2.tgz

上传这个文件到Linux服务器中

将其解压, 课程中将其解压(安装)到: /export/server内.

tar -zxvf spark-3.2.0-bin-hadoop3.2.tgz -C /export/server/

由于spark目录名称很长, 给其一个软链接:

ln -s /export/server/spark-3.2.0-bin-hadoop3.2 /export/server/spark

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-g150399p-1679285533705)(https://pybd.yuque.com/api/filetransfer/images?url=https%3A%2F%2Fimage-set.oss-cn-zhangjiakou.aliyuncs.com%2Fimg-out%2F2021%2F09%2F08%2F20210908114221.png&sign=b8a1d0142e7c6954bf184f4d550edb1c31952122d3f000d010602fb0ec361f4c#from=url&id=wlN2r&margin=%5Bobject%20Object%5D&originHeight=342&originWidth=1046&originalType=binary&ratio=1&status=done&style=none)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Jsn47eF0-1679285533706)(https://pybd.yuque.com/api/filetransfer/images?url=https%3A%2F%2Fimage-set.oss-cn-zhangjiakou.aliyuncs.com%2Fimg-out%2F2021%2F09%2F08%2F20210908114508.png&sign=e4cc72b979e68e5947d8b49becb00f3b1b27ed47c9b234f6f0b8aff5e142d17d#from=url&id=U8FDC&margin=%5Bobject%20Object%5D&originHeight=457&originWidth=1113&originalType=binary&ratio=1&status=done&style=none)]

测试

bin/pyspark

bin/pyspark 程序, 可以提供一个 交互式的 Python解释器环境, 在这里面可以写普通python代码, 以及spark代码

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3aHrcf4o-1679285533707)(https://pybd.yuque.com/api/filetransfer/images?url=https%3A%2F%2Fimage-set.oss-cn-zhangjiakou.aliyuncs.com%2Fimg-out%2F2021%2F09%2F08%2F20210908114547.png&sign=6751b93b4de12d40dfaa10e1471d2be2bd1a87c163a2fbefb2ef9c3722aff966#from=url&id=S8pd5&margin=%5Bobject%20Object%5D&originHeight=586&originWidth=1403&originalType=binary&ratio=1&status=done&style=none)]

如图:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MTZRgG9l-1679285533709)(https://pybd.yuque.com/api/filetransfer/images?url=https%3A%2F%2Fimage-set.oss-cn-zhangjiakou.aliyuncs.com%2Fimg-out%2F2021%2F09%2F08%2F20210908114715.png&sign=5bda42b3ece8477fa034919b3e03b43cac1b67c70464bb36c70123426dca3391#from=url&id=WEXdN&margin=%5Bobject%20Object%5D&originHeight=87&originWidth=1006&originalType=binary&ratio=1&status=done&style=none)]

在这个环境内, 可以运行spark代码

图中的: parallelize 和 map 都是spark提供的API

sc.parallelize([1,2,3,4,5]).map(lambda x: x + 1).collect()

WEB UI (4040)

Spark程序在运行的时候, 会绑定到机器的4040端口上.

如果4040端口被占用, 会顺延到4041 … 4042…
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WAWdn3IG-1679285533711)(https://pybd.yuque.com/api/filetransfer/images?url=https%3A%2F%2Fimage-set.oss-cn-zhangjiakou.aliyuncs.com%2Fimg-out%2F2021%2F09%2F08%2F20210908115158.png&sign=8effd3fa6e7a3fcf74fa9fe4700307b83d6707510b98e84a2567e0272ded7433#from=url&id=Vk8If&margin=%5Bobject%20Object%5D&originHeight=243&originWidth=1449&originalType=binary&ratio=1&status=done&style=none)]

4040端口是一个WEBUI端口, 可以在浏览器内打开:

输入:服务器ip:4040 即可打开:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vLiwtzrs-1679285533712)(https://pybd.yuque.com/api/filetransfer/images?url=https%3A%2F%2Fimage-set.oss-cn-zhangjiakou.aliyuncs.com%2Fimg-out%2F2021%2F09%2F08%2F20210908115234.png&sign=7469a808b4198ddb8045e8f73c52bab9693cb426510c2cb13ac556224df2bb94#from=url&id=DMMFd&margin=%5Bobject%20Object%5D&originHeight=696&originWidth=857&originalType=binary&ratio=1&status=done&style=none)]

打开监控页面后, 可以发现在程序内仅有一个Driver

因为我们是Local模式, Driver即管理又干活.

同时, 输入jps

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-w8XmyzLG-1679285533713)(https://pybd.yuque.com/api/filetransfer/images?url=https%3A%2F%2Fimage-set.oss-cn-zhangjiakou.aliyuncs.com%2Fimg-out%2F2021%2F09%2F08%2F20210908115310.png&sign=4820d28ae60a4023e8f144f465bf5e5a8fdc039b914dd412fd4ba98d70e269db#from=url&id=aX2AO&margin=%5Bobject%20Object%5D&originHeight=296&originWidth=684&originalType=binary&ratio=1&status=done&style=none)]

可以看到local模式下的唯一进程存在

这个进程即是master也是worker

bin/spark-shell - 了解

同样是一个解释器环境, 和bin/pyspark不同的是, 这个解释器环境运行的不是python代码, 而是scala程序代码

scala> sc.parallelize(Array(1,2,3,4,5)).map(x=> x + 1).collect()
res0: Array[Int] = Array(2, 3, 4, 5, 6)

这个仅作为了解即可, 因为这个是用于scala语言的解释器环境

bin/spark-submit (PI)

作用: 提交指定的Spark代码到Spark环境中运行

使用方法:

# 语法
bin/spark-submit [可选的一些选项] jar包或者python代码的路径 [代码的参数]

# 示例
bin/spark-submit /export/server/spark/examples/src/main/python/pi.py 10
# 此案例 运行Spark官方所提供的示例代码 来计算圆周率值.  后面的10 是主函数接受的参数, 数字越高, 计算圆周率越准确.

对比

功能	bin/spark-submit	bin/pyspark	bin/spark-shell
功能	提交java\scala\python代码到spark中运行	提供一个`python`
解释器环境用来以python代码执行spark程序	提供一个`scala`
解释器环境用来以scala代码执行spark程序
特点	提交代码用	解释器环境写一行执行一行	解释器环境写一行执行一行
使用场景	正式场合, 正式提交spark程序运行	测试\学习\写一行执行一行\用来验证代码等	测试\学习\写一行执行一行\用来验证代码等

Local模式将是我们7天Spark课程的主力使用模式

Spark StandAlone环境部署

新角色历史服务器

历史服务器不是Spark环境的必要组件, 是可选的.

回忆: 在YARN中有一个历史服务器, 功能: 将YARN运行的程序的历史日志记录下来, 通过历史服务器方便用户查看程序运行的历史信息.

Spark的历史服务器, 功能: 将Spark运行的程序的历史日志记录下来, 通过历史服务器方便用户查看程序运行的历史信息.

搭建集群环境, 我们一般推荐将历史服务器也配置上, 方面以后查看历史记录

集群规划

课程中使用三台Linux虚拟机来组成集群环境, 非别是:

node1\ node2\ node3

node1运行: Spark的Master进程和 1个Worker进程

node2运行: spark的1个worker进程

node3运行: spark的1个worker进程

整个集群提供: 1个master进程和 3个worker进程

安装

在所有机器安装Python(Anaconda)

参考附1内容, 如何在Linux上安装anaconda

同时不要忘记都创建pyspark虚拟环境以及安装虚拟环境所需要的包pyspark jieba pyhive

在所有机器配置环境变量

参考 Local模式下环境变量的配置内容

确保3台都配置

配置配置文件

进入到spark的配置文件目录中, cd $SPARK_HOME/conf

配置workers文件

# 改名, 去掉后面的.template后缀
mv workers.template workers

# 编辑worker文件
vim workers
# 将里面的localhost删除, 追加
node1
node2
node3
到workers文件内

# 功能: 这个文件就是指示了  当前SparkStandAlone环境下, 有哪些worker

配置spark-env.sh文件

# 1. 改名
mv spark-env.sh.template spark-env.sh

# 2. 编辑spark-env.sh, 在底部追加如下内容

## 设置JAVA安装目录
JAVA_HOME=/export/server/jdk

## HADOOP软件配置文件目录，读取HDFS上文件和运行YARN集群
HADOOP_CONF_DIR=/export/server/hadoop/etc/hadoop
YARN_CONF_DIR=/export/server/hadoop/etc/hadoop

## 指定spark老大Master的IP和提交任务的通信端口
# 告知Spark的master运行在哪个机器上
export SPARK_MASTER_HOST=node1
# 告知sparkmaster的通讯端口
export SPARK_MASTER_PORT=7077
# 告知spark master的 webui端口
SPARK_MASTER_WEBUI_PORT=8080

# worker cpu可用核数
SPARK_WORKER_CORES=1
# worker可用内存
SPARK_WORKER_MEMORY=1g
# worker的工作通讯地址
SPARK_WORKER_PORT=7078
# worker的 webui地址
SPARK_WORKER_WEBUI_PORT=8081

## 设置历史服务器
# 配置的意思是  将spark程序运行的历史日志 存到hdfs的/sparklog文件夹中
SPARK_HISTORY_OPTS="-Dspark.history.fs.logDirectory=hdfs://node1:8020/sparklog/ -Dspark.history.fs.cleaner.enabled=true"

注意, 上面的配置的路径要根据你自己机器实际的路径来写

在HDFS上创建程序运行历史记录存放的文件夹:

hadoop fs -mkdir /sparklog
hadoop fs -chmod 777 /sparklog

配置spark-defaults.conf文件

# 1. 改名
mv spark-defaults.conf.template spark-defaults.conf

# 2. 修改内容, 追加如下内容
# 开启spark的日期记录功能
spark.eventLog.enabled 	true
# 设置spark日志记录的路径
spark.eventLog.dir	 hdfs://node1:8020/sparklog/ 
# 设置spark日志是否启动压缩
spark.eventLog.compress 	true

配置log4j.properties 文件 [可选配置]

# 1. 改名
mv log4j.properties.template log4j.properties

# 2. 修改内容 参考下图

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dNVUbTUW-1679285533715)(https://pybd.yuque.com/api/filetransfer/images?url=https%3A%2F%2Fimage-set.oss-cn-zhangjiakou.aliyuncs.com%2Fimg-out%2F2021%2F09%2F08%2F20210908151736.png&sign=9baf2cdc4826e60d35e84d1c175de20def3c2f65ecfdba1c01a1ecfa9d8084ab#from=url&id=WzrZH&margin=%5Bobject%20Object%5D&originHeight=753&originWidth=1889&originalType=binary&ratio=1&status=done&style=none)]

这个文件的修改不是必须的, 为什么修改为WARN. 因为Spark是个话痨

会疯狂输出日志, 设置级别为WARN 只输出警告和错误日志, 不要输出一堆废话.

将Spark安装文件夹分发到其它的服务器上

scp -r spark-3.1.2-bin-hadoop3.2 node2:/export/server/
scp -r spark-3.1.2-bin-hadoop3.2 node3:/export/server/

不要忘记, 在node2和node3上给spark安装目录增加软链接

ln -s /export/server/spark-3.1.2-bin-hadoop3.2 /export/server/spark

检查

检查每台机器的:

JAVA_HOME

SPARK_HOME

PYSPARK_PYTHON

等等环境变量是否正常指向正确的目录

启动历史服务器

sbin/start-history-server.sh

启动Spark的Master和Worker进程

# 启动全部master和worker
sbin/start-all.sh

# 或者可以一个个启动:
# 启动当前机器的master
sbin/start-master.sh
# 启动当前机器的worker
sbin/start-worker.sh

# 停止全部
sbin/stop-all.sh

# 停止当前机器的master
sbin/stop-master.sh

# 停止当前机器的worker
sbin/stop-worker.sh

查看Master的WEB UI

默认端口master我们设置到了8080

如果端口被占用, 会顺延到8081 …;8082… 8083… 直到申请到端口为止

可以在日志中查看, 具体顺延到哪个端口上:

Service 'MasterUI' could not bind on port 8080. Attempting port 8081.

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-AuMaScEs-1679285533717)(https://pybd.yuque.com/api/filetransfer/images?url=https%3A%2F%2Fimage-set.oss-cn-zhangjiakou.aliyuncs.com%2Fimg-out%2F2021%2F09%2F08%2F20210908154429.png&sign=0b1a6dd223bf6797523bc22637c1c8a115159f94ba56a111da7bb2d64c824418#from=url&id=K3JFo&margin=%5Bobject%20Object%5D&originHeight=831&originWidth=1903&originalType=binary&ratio=1&status=done&style=none)]

连接到StandAlone集群

bin/pyspark

执行:

bin/pyspark --master spark://node1:7077
# 通过--master选项来连接到 StandAlone集群
# 如果不写--master选项, 默认是local模式运行

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6bokfoVr-1679285533719)(https://pybd.yuque.com/api/filetransfer/images?url=https%3A%2F%2Fimage-set.oss-cn-zhangjiakou.aliyuncs.com%2Fimg-out%2F2021%2F09%2F08%2F20210908154652.png&sign=d22ba394d315a9b4921ac0892d30ecd2516ab354222f1c6b812b63126d3ba64e#from=url&id=aMI2X&margin=%5Bobject%20Object%5D&originHeight=497&originWidth=1644&originalType=binary&ratio=1&status=done&style=none)]

bin/spark-shell

bin/spark-shell --master spark://node1:7077
# 同样适用--master来连接到集群使用

// 测试代码
sc.parallelize(Array(1,2,3,4,5)).map(x=> x + 1).collect()

bin/spark-submit (PI)

bin/spark-submit --master spark://node1:7077 /export/server/spark/examples/src/main/python/pi.py 100
# 同样使用--master来指定将任务提交到集群运行

查看历史服务器WEB UI

历史服务器的默认端口是: 18080

我们启动在node1上, 可以在浏览器打开:

node1:18080来进入到历史服务器的WEB UI上.
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-agXBxeWA-1679285533719)(https://pybd.yuque.com/api/filetransfer/images?url=https%3A%2F%2Fimage-set.oss-cn-zhangjiakou.aliyuncs.com%2Fimg-out%2F2021%2F09%2F08%2F20210908160451.png&sign=24bd99909213440824bcb26ac36fa691aeff18418e941b24f8beaf028ecf547d#from=url&id=niLUK&margin=%5Bobject%20Object%5D&originHeight=616&originWidth=1881&originalType=binary&ratio=1&status=done&style=none)]

Spark StandAlone HA 环境搭建

步骤

前提: 确保Zookeeper 和 HDFS 均已经启动

先在spark-env.sh中, 删除: SPARK_MASTER_HOST=node1

原因: 配置文件中固定master是谁, 那么就无法用到zk的动态切换master功能了.

在spark-env.sh中, 增加:

SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=node1:2181,node2:2181,node3:2181 -Dspark.deploy.zookeeper.dir=/spark-ha"
# spark.deploy.recoveryMode 指定HA模式 基于Zookeeper实现
# 指定Zookeeper的连接地址
# 指定在Zookeeper中注册临时节点的路径

将spark-env.sh 分发到每一台服务器上

scp spark-env.sh node2:/export/server/spark/conf/
scp spark-env.sh node3:/export/server/spark/conf/

停止当前StandAlone集群

sbin/stop-all.sh

启动集群:

# 在node1上 启动一个master 和全部worker
sbin/start-all.sh

# 注意, 下面命令在node2上执行
sbin/start-master.sh
# 在node2上启动一个备用的master进程

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-meCYa0JL-1679285533720)(https://pybd.yuque.com/api/filetransfer/images?url=https%3A%2F%2Fimage-set.oss-cn-zhangjiakou.aliyuncs.com%2Fimg-out%2F2021%2F09%2F08%2F20210908162145.png&sign=c91a0734a2253c8d5502c116be7c8ae516af6bd9bed835bb25698d6cd4852203#from=url&id=CK971&margin=%5Bobject%20Object%5D&originHeight=366&originWidth=888&originalType=binary&ratio=1&status=done&style=none)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-eXn0nJ7C-1679285533721)(https://pybd.yuque.com/api/filetransfer/images?url=https%3A%2F%2Fimage-set.oss-cn-zhangjiakou.aliyuncs.com%2Fimg-out%2F2021%2F09%2F08%2F20210908162112.png&sign=7bad1d23f0bbc110082c84a1432f50ac211f3114c786eb01df7d4691e83fad21#from=url&id=BTOB5&margin=%5Bobject%20Object%5D&originHeight=440&originWidth=858&originalType=binary&ratio=1&status=done&style=none)]

master主备切换

提交一个spark任务到当前alivemaster上:

bin/spark-submit --master spark://node1:7077 /export/server/spark/examples/src/main/python/pi.py 1000

在提交成功后, 将alivemaster直接kill掉

不会影响程序运行:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uxLRjTkE-1679285533721)(https://pybd.yuque.com/api/filetransfer/images?url=https%3A%2F%2Fimage-set.oss-cn-zhangjiakou.aliyuncs.com%2Fimg-out%2F2021%2F09%2F08%2F20210908162555.png&sign=6c267116ad788645fdc2af413af7ac1c6e22ae0d655afe3dd4fda1117f6d5253#from=url&id=AAdNb&margin=%5Bobject%20Object%5D&originHeight=314&originWidth=1889&originalType=binary&ratio=1&status=done&style=none)]
当新的master接收集群后, 程序继续运行, 正常得到结果.

结论 HA模式下, 主备切换不会影响到正在运行的程序.

最大的影响是会让它中断大约30秒左右.

Spark On YARN 环境搭建

部署

确保:

HADOOP_CONF_DIR
YARN_CONF_DIR

在spark-env.sh 以及环境变量配置文件中即可

连接到YARN中

bin/pyspark

bin/pyspark --master yarn --deploy-mode client|cluster
# --deploy-mode 选项是指定部署模式, 默认是 客户端模式
# client就是客户端模式
# cluster就是集群模式
# --deploy-mode 仅可以用在YARN模式下

注意: 交互式环境 pyspark 和 spark-shell 无法运行 cluster模式

bin/spark-shell

bin/spark-shell --master yarn --deploy-mode client|cluster

注意: 交互式环境 pyspark 和 spark-shell 无法运行 cluster模式

bin/spark-submit (PI)

bin/spark-submit --master yarn --deploy-mode client|cluster /xxx/xxx/xxx.py 参数

spark-submit 和 spark-shell 和 pyspark的相关参数

参见: 附2

附1 Anaconda On Linux 安装 (单台服务器)

安装

上传安装包:

上传: 资料中提供的Anaconda3-2021.05-Linux-x86_64.sh文件到Linux服务器上

安装:

sh ./Anaconda3-2021.05-Linux-x86_64.sh
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4AND8ICN-1679285533722)(https://pybd.yuque.com/api/filetransfer/images?url=https%3A%2F%2Fimage-set.oss-cn-zhangjiakou.aliyuncs.com%2Fimg-out%2F2021%2F09%2F08%2F20210908111453.png&sign=5dccc0db81fe59d7b0ebbb93eeae3ace0f71fecaf674ba104dca6da708bbded1#from=url&id=sxALL&margin=%5Bobject%20Object%5D&originHeight=235&originWidth=779&originalType=binary&ratio=1&status=done&style=none)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-J600r8kw-1679285533723)(https://pybd.yuque.com/api/filetransfer/images?url=https%3A%2F%2Fimage-set.oss-cn-zhangjiakou.aliyuncs.com%2Fimg-out%2F2021%2F09%2F08%2F20210908111604.png&sign=1a71b7a5eba7dbcc0c0a97a6b925fc3b99f4ca0ef850e2651846390807671247#from=url&id=l6Gen&margin=%5Bobject%20Object%5D&originHeight=469&originWidth=1388&originalType=binary&ratio=1&status=done&style=none)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lmLBnQpP-1679285533724)(https://pybd.yuque.com/api/filetransfer/images?url=https%3A%2F%2Fimage-set.oss-cn-zhangjiakou.aliyuncs.com%2Fimg-out%2F2021%2F09%2F08%2F20210908111618.png&sign=6260ba1bdd46edbd6b7be986e3251f217413df4cd355ffd67627dbb92ede0723#from=url&id=x4kli&margin=%5Bobject%20Object%5D&originHeight=96&originWidth=729&originalType=binary&ratio=1&status=done&style=none)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7Qw0aael-1679285533725)(https://pybd.yuque.com/api/filetransfer/images?url=https%3A%2F%2Fimage-set.oss-cn-zhangjiakou.aliyuncs.com%2Fimg-out%2F2021%2F09%2F08%2F20210908111658.png&sign=f8e99538c446eced143a4a758eb9b6cb56c5f4d6cc8107311ee1092aff9a5fa0#from=url&id=w9LHq&margin=%5Bobject%20Object%5D&originHeight=459&originWidth=1128&originalType=binary&ratio=1&status=done&style=none)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BLaiWzEy-1679285533726)(https://pybd.yuque.com/api/filetransfer/images?url=https%3A%2F%2Fimage-set.oss-cn-zhangjiakou.aliyuncs.com%2Fimg-out%2F2021%2F09%2F08%2F20210908111910.png&sign=2a56dbadf6a6b999c4507d9c8aa6fda69fcd3c112d9ce83d6412244a09849c4e#from=url&id=ENG5U&margin=%5Bobject%20Object%5D&originHeight=196&originWidth=977&originalType=binary&ratio=1&status=done&style=none)]
输入yes后就安装完成了.

安装完成后, 退出SecureCRT 重新进来:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-eIFoxz1m-1679285533727)(https://pybd.yuque.com/api/filetransfer/images?url=https%3A%2F%2Fimage-set.oss-cn-zhangjiakou.aliyuncs.com%2Fimg-out%2F2021%2F09%2F08%2F20210908111941.png&sign=1a5e6ba7018718a2d5f754264da96c4dec8fd4d209218cabebfcd5b569b1696b#from=url&id=BgIy7&margin=%5Bobject%20Object%5D&originHeight=97&originWidth=545&originalType=binary&ratio=1&status=done&style=none)]

看到这个Base开头表明安装好了.

base是默认的虚拟环境.

国内源

如果你安装好后, 没有出现base, 可以打开:/root/.bashrc这个文件, 追加如下内容:

channels:
  - defaults
show_channel_urls: true
default_channels:
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/msys2
custom_channels:
  conda-forge: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  msys2: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  bioconda: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  menpo: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  pytorch: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  simpleitk: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud

附2 spark-submit和pyspark相关参数

客户端工具我们可以用的有:

bin/pyspark: pyspark解释器spark环境
bin/spark-shell: scala解释器spark环境
bin/spark-submit: 提交jar包或Python文件执行的工具
bin/spark-sql: sparksql客户端工具

这4个客户端工具的参数基本通用.

以spark-submit 为例:

bin/spark-submit --master spark://node1:7077 xxx.py

Usage: spark-submit [options] <app jar | python file | R file> [app arguments]
Usage: spark-submit --kill [submission ID] --master [spark://...]
Usage: spark-submit --status [submission ID] --master [spark://...]
Usage: spark-submit run-example [options] example-class [example args]

Options:
  --master MASTER_URL         spark://host:port, mesos://host:port, yarn,
                              k8s://https://host:port, or local (Default: local[*]).
  --deploy-mode DEPLOY_MODE   部署模式 client 或者 cluster 默认是client
  --class CLASS_NAME          运行java或者scala class(for Java / Scala apps).
  --name NAME                 程序的名字
  --jars JARS                 Comma-separated list of jars to include on the driver
                              and executor classpaths.
  --packages                  Comma-separated list of maven coordinates of jars to include
                              on the driver and executor classpaths. Will search the local
                              maven repo, then maven central and any additional remote
                              repositories given by --repositories. The format for the
                              coordinates should be groupId:artifactId:version.
  --exclude-packages          Comma-separated list of groupId:artifactId, to exclude while
                              resolving the dependencies provided in --packages to avoid
                              dependency conflicts.
  --repositories              Comma-separated list of additional remote repositories to
                              search for the maven coordinates given with --packages.
  --py-files PY_FILES         指定Python程序依赖的其它python文件
  --files FILES               Comma-separated list of files to be placed in the working
                              directory of each executor. File paths of these files
                              in executors can be accessed via SparkFiles.get(fileName).
  --archives ARCHIVES         Comma-separated list of archives to be extracted into the
                              working directory of each executor.

  --conf, -c PROP=VALUE       手动指定配置
  --properties-file FILE      Path to a file from which to load extra properties. If not
                              specified, this will look for conf/spark-defaults.conf.

  --driver-memory MEM         Driver的可用内存(Default: 1024M).
  --driver-java-options       Driver的一些Java选项
  --driver-library-path       Extra library path entries to pass to the driver.
  --driver-class-path         Extra class path entries to pass to the driver. Note that
                              jars added with --jars are automatically included in the
                              classpath.

  --executor-memory MEM       Executor的内存 (Default: 1G).

  --proxy-user NAME           User to impersonate when submitting the application.
                              This argument does not work with --principal / --keytab.

  --help, -h                  显示帮助文件
  --verbose, -v               Print additional debug output.
  --version,                  打印版本

 Cluster deploy mode only(集群模式专属):
  --driver-cores NUM          Driver可用的的CPU核数(Default: 1).

 Spark standalone or Mesos with cluster deploy mode only:
  --supervise                 如果给定, 可以尝试重启Driver

 Spark standalone, Mesos or K8s with cluster deploy mode only:
  --kill SUBMISSION_ID        指定程序ID kill
  --status SUBMISSION_ID      指定程序ID 查看运行状态

 Spark standalone, Mesos and Kubernetes only:
  --total-executor-cores NUM  整个任务可以给Executor多少个CPU核心用

 Spark standalone, YARN and Kubernetes only:
  --executor-cores NUM        单个Executor能使用多少CPU核心

 Spark on YARN and Kubernetes only(YARN模式下):
  --num-executors NUM         Executor应该开启几个
  --principal PRINCIPAL       Principal to be used to login to KDC.
  --keytab KEYTAB             The full path to the file that contains the keytab for the
                              principal specified above.

 Spark on YARN only:
  --queue QUEUE_NAME          指定运行的YARN队列(Default: "default").

附3 Windows系统配置Anaconda

安装

打开资料中提供的:Anaconda3-2021.05-Windows-x86_64.exe文件,或者去官网下载:https://www.anaconda.com/products/individual#Downloads

打开后,一直点击Next下一步即可:
![image.png](https://img-blog.csdnimg.cn/img_convert/49917ae5b1d65ba04c8d3b18e998ab3e.png#clientId=u8fb108bc-acfc-4&from=paste&height=390&id=uc4673aa7&margin=[object Object]&name=image.png&originHeight=581&originWidth=747&originalType=binary&ratio=1&size=76352&status=done&style=none&taskId=u9c41750d-4da4-429e-935e-6bf211cfaa1&width=501)
![image.png](https://img-blog.csdnimg.cn/img_convert/ba33b14035766780e8915a699ec669e1.png#clientId=u8fb108bc-acfc-4&from=paste&height=389&id=u142555d0&margin=[object Object]&name=image.png&originHeight=581&originWidth=747&originalType=binary&ratio=1&size=111001&status=done&style=none&taskId=u4cb4bc13-d190-48f0-9282-49fbe53a9b7&width=500)
如果想要修改安装路径, 可以修改
![image.png](https://img-blog.csdnimg.cn/img_convert/95f5ef1aaf45b342ed348f867ecb872c.png#clientId=u8fb108bc-acfc-4&from=paste&height=342&id=u15bf9b4d&margin=[object Object]&name=image.png&originHeight=342&originWidth=675&originalType=binary&ratio=1&size=124888&status=done&style=none&taskId=ue36de514-a44b-44f8-8c4c-8f23471feaa&width=675)
不必勾选
![image.png](https://img-blog.csdnimg.cn/img_convert/3b2cc4bc5e1a2f73cc87c383569704b9.png#clientId=u8fb108bc-acfc-4&from=paste&height=581&id=uaf22e31f&margin=[object Object]&name=image.png&originHeight=581&originWidth=747&originalType=binary&ratio=1&size=127902&status=done&style=none&taskId=ua506d623-2193-43c5-96ed-932da85f134&width=747)
最终点击Finish完成安装

打开开始菜单, 搜索Anaconda
![image.png](https://img-blog.csdnimg.cn/img_convert/041d39f7e1c240885183f9d21aede74d.png#clientId=u8fb108bc-acfc-4&from=paste&height=688&id=u6199808c&margin=[object Object]&name=image.png&originHeight=688&originWidth=542&originalType=binary&ratio=1&size=71371&status=done&style=none&taskId=u6d8631b1-1148-4250-90ef-2c7ab3ca453&width=542)
出现如图的程序, 安装成功.

打开 Anaconda Prompt程序:
![image.png](https://img-blog.csdnimg.cn/img_convert/8701a5f89cdc62c2779f96bf53ab893a.png#clientId=u8fb108bc-acfc-4&from=paste&height=142&id=u1f1ff36e&margin=[object Object]&name=image.png&originHeight=142&originWidth=1468&originalType=binary&ratio=1&size=13875&status=done&style=none&taskId=u138f0c1f-c18f-442f-9878-fb3a6d6fae8&width=1468)
出现base说明安装正确.

配置国内源

Anaconda默认源服务器在国外, 网速比较慢, 配置国内源加速网络下载.

打开上图中的 Anaconda Prompt程序:
执行:
conda config --set show_channel_urls yes

然后用记事本打开:
C:\Users\用户名\.condarc文件, 将如下内容替换进文件内,保存即可:

channels:
  - defaults
show_channel_urls: true
default_channels:
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/msys2
custom_channels:
  conda-forge: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  msys2: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  bioconda: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  menpo: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  pytorch: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  simpleitk: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud

创建虚拟环境

# 创建虚拟环境 pyspark, 基于Python 3.8
conda create -n pyspark python=3.8

# 切换到虚拟环境内
conda activate pyspark

# 在虚拟环境内安装包
pip install pyhive pyspark jieba -i https://pypi.tuna.tsinghua.edu.cn/simple

你可能感兴趣的:(spark,linux,大数据)

非常实用的linux操作系统一键巡检脚本我科绝伦（Huanhuan Zhou） linux linux chrome 运维
[root@localhost~]#chmod+xsystem_check.sh[root@localhost~]#./system_check.sh[root@localhost~]#cat/root/check_log/check-20250227.txt脚本内容：#!/bin/bash#@Author:zhh#beseemCentOS6.XCentOS7.X#date:20250224#检查
【linux自动化实践】linux shell 脚本替换某文本忙碌的菠萝 linux自动化实践 linux 自动化运维
在Linuxshell脚本中，可以使用sed命令来替换文本。以下是一个基本的例子，它将在文件example.txt中查找文本old_text并将其替换为new_textsed-i's/old_text/new_text/g'example.txt解释：sed:是streameditor的缩写，用于处理文本数据。-i:表示直接修改文件内容。s:表示替换操作。old_text:要被替换的文本。new_
Qt5.6在Linux中无法切换中文输入法问题解决糯米藕片经验分享 qt linux 开发语言
注意Qt5.6.1要编译1.0.6版本源码chmod777赋权复制两个地方so重启QtCreatorsudocplibfcitxplatforminputcontextplugin.so/home/shen/Qt5.6.1/Tools/QtCreator/lib/Qt/plugins/platforminputcontextssudocplibfcitxplatforminputcontextpl
Llama.cpp 服务器安装指南（使用 Docker，GPU 专用）田猿笔记 AI 高级应用 llama 服务器 docker llama.cpp
前置条件在开始之前，请确保你的系统满足以下要求：操作系统：Ubuntu20.04/22.04（或支持Docker的Linux系统）。硬件：NVIDIAGPU（例如RTX4090）。内存：16GB+系统内存，GPU需12GB+显存（RTX4090有24GB）。存储：15GB+可用空间（用于源码、镜像和模型文件）。网络：需要互联网连接以下载源码和依赖。软件：已安装并运行Docker。已安装NVIDIA
Spark技术系列（一）：初识Apache Spark——大数据处理的统一分析引擎数据大包哥 #Spark 大数据
Spark技术系列（一）：初识ApacheSpark——大数据处理的统一分析引擎1.背景与核心价值1.1大数据时代的技术演进MapReduce的局限性：磁盘迭代计算、中间结果落盘导致的性能瓶颈Spark诞生背景：UCBerkeleyAMPLab实验室为解决复杂迭代计算需求研发（2010年开源）技术定位：基于内存的通用分布式计算框架（支持批处理、流计算、机器学习、图计算等）1.2Spark内置模块S
驱动开发系列39 - Linux Graphics 3D 绘制流程（二）- 设置渲染管线黑不溜秋的 GPU驱动专栏驱动开发
一：概述Intel的Iris驱动是Mesa中的Gallium驱动，主要用于IntelGen8+GPU（Broadwell及更新架构）。它负责与i915内核DRM驱动交互，并通过Vulkan（ANV）、OpenGL（IrisGallium）、或OpenCL（Clover）来提供3D加速。在Iris驱动中，GPUPipeline设置涉及多个部分，包括编译和上传着色器、设置渲染目标、绑定缓冲区、配置固定
Linux驱动开发: USB驱动开发 DS小龙哥 Linux系统编程与驱动开发 linux USB驱动嵌入式
一、USB简介1.1什么是USB?USB是连接计算机系统与外部设备的一种串口总线标准，也是一种输入输出接口的技术规范，被广泛地应用于个人电脑和移动设备等信息通讯产品，USB就是简写，中文叫通用串行总线。最早出现在1995年，伴随着奔腾机发展而来。自微软在Windows98中加入对USB接口的支持后，USB接口才推广开来，USB设备也日渐增多，如数码相机、摄像头、扫描仪、游戏杆、打印机、键盘、鼠标等
关闭linux系统端口占用,关闭linux系统端口的两种方法爱吃面的喵关闭linux系统端口占用
1、通过杀掉进程的方法来关闭端口每个端口都有一个守护进程，kill掉这个守护进程就可以了每个端口都是一个进程占用着，第一步、用下面命令netstat-anp|grep端口找出占用这个端口的进程，第二步、用下面命令kill-9PID杀掉就行了2、通过开启关闭服务的方法来开启/关闭端口因为每个端口都有对应的服务，因此要关闭端口只要关闭相应的服务就可以了。linux中开机自动启动的服务一般都存放在两个地
Linux 查看端口占用命令酒酿小圆子～ linux 运维服务器
文章目录1、lsof-i:端口号2、netstat命令2.1netstat-tunlp命令2.2netstat-anp命令1、lsof-i:端口号用于查看某一端口的占用情况，比如查看5000端口使用情况：sudolsof-i:5000注意：这里最好使用sudo开启管理员权限，未开启管理员权限时，可能会检测不到相关进程。（并非所有进程都能被检测到，所有非本用户的进程信息将不会显示，如果想看到所有信息
Linux Device Driver 3rd 上 xiaozi63 linux 内核驱动程序
第一章设备驱动程序的简介处于上层应用与底层硬件设备的软件层区分机制和策略是Linux最好的思想之一，机制指的是需要提供什么功能，策略指的是如何使用这个功能！通常不同的环境需要不同的方式来使用硬件，则驱动应当尽可能地不实现策略．驱动程序设计需要考虑一下几个方面的因素：提供给用户尽量多的选项编写驱动程序所占用的时间，驱动程序的操作耗时需要尽量缩减．尽量保持程序简单内核概览：进程管理:负责创建和销毁进程
最通用的跨平台引擎：ShiVa 3D引擎 pizi0475 图形图像其它文章图形引擎游戏引擎引擎跨平台脚本服务器 ssl soap
ShiVa3D引擎是最通用的跨平台引擎，可以在Web浏览器运行并且也支持Windows，Mac，Linux，Wii，iPhone，iPad，Android，WebOS和AirplaySDK。该引擎支持SSL–securized插件扩展，很像PhysX引擎，FMOD声音库，ARToolkit和ScaleformHUD引擎。ClassicGeometry经典的图形处理支持多边形网，其中包括：-静态网格
Linux系统如何排查端口占用程序猿000001号 linux 运维服务器
如何在Linux系统中排查端口占用在Linux系统中，当您遇到网络服务无法启动或响应异常的情况时，可能是因为某个特定的端口已经被其他进程占用。这时，您需要进行端口占用情况的排查来解决问题。本文将介绍几种常用的命令行工具和方法，帮助您快速定位并解决端口占用的问题。1.使用netstat命令netstat是一个网络统计工具，它可以显示网络连接、路由表、接口统计等信息。要检查端口占用情况，可以使用以下命
Linux查看端口占用情况的几种方式 liu_caihong linux 服务器网络
Linux查看端口占用情况的几种方式概述测试环境为Centos7.9，本文简单给出了几种检测端口的例子。一、查看本机端口占用1、netstat#安装netstatyum-yinstallnet-tools#检测端口占用netstat-npl|grep"端口"[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FFUW0j6I-1655191692938)(C:%5CUse
Linux上用C++和GCC开发程序实现不同PostgreSQL实例下单个数据库的多个Schema之间的稳定高效的数据迁移 weixin_30777913 c++数据库 postgresql
设计一个在Linux上运行的GCCC++程序，同时连接两个不同的PostgreSQL实例，两个实例中分别有一个数据库的多个Schema的表结构完全相同，复制一个实例中一个数据库的多个Schema里的所有表的数据到另一个实例中一个数据库的多个Schema里，使用以下快速高效的方法，加入异常处理，支持每隔固定时间重试一定次数，每张表的复制运行状态和记录条数，开始结束时间戳，运行时间，以及每个批次的运行
【spug】使用勤不了一点 CI/CD python django ci/cd 运维 devops
目录简介下载与安装初始化配置启动与日志版本更新登录与使用工作台主机管理批量执行配置中心应用发布系统管理监控与告警使用问题简介手动部署|Spugwalle的升级版本轻量级无Agent主机管理主机批量执行主机在线终端文件在线上传下载应用发布部署在线任务计划配置中心监控报警如果有测试错误请指出。下载与安装测试环境：Python3.7.8CentOSLinuxrelease7.4.1708(Core)sp
nginx 在线预览与强制下载勤不了一点 nginx nginx 运维
环境如下：nginxversion:nginx/1.14.1nginxversion:nginx/1.16.1Chrome：102.0.5005.63（正式版本）（64位）CentOSLinuxrelease7.5.1804(Core)将任意类型文件设置成在线预览或者直接下载以.log和.txt文件为例，nginx默认配置下.txt是可以在线打开，而.log会有弹窗，也就是下载。使用是nginx，
linux 查看进程启动方式勤不了一点系统 linux 运维服务器
目录如果是systemd管理的服务怎么快速找到对应的服务器呢什么是CGroup查找进程对应的systemd服务方法一：查看/proc//cgroup文件方法二：使用ps命令结合--cgroup选项方法三：systemd-cgls关于system.slice与user.slice方法四：查看文件查找非system服务进程步骤1-判断是否是system服务进程步骤2-判断服务所在目录，查找启动脚本步骤
nginx 安装（下载解压就行，免安装）当归1024 nginx nginx 运维
nginx是一个高性能的HTTP和反向代理web服务器，同时也提供了IMAP/POP3/SMTP服务。nginx由C语言编写，内存占用少，性能稳定，并发能力强，功能丰富；可以在大多数UnixLinuxOS上编译运行，并有Windows移植版。1、nginx下载地址：nginx:download2、windows安装及启动nginx是绿色免安装的，解压后可以直接启动双击nginx.exe即可启动服务
Linux查看磁盘命令df-h详解小毛驴850 linux 服务器运维
df-h是一个常用的Linux命令，用于查看文件系统的磁盘使用情况并以易于阅读的方式显示。以下是df-h命令的详细解释：-h：以人类可读的格式显示磁盘空间大小。例如，使用GB、MB、KB等单位代替字节。执行df-h命令后，将会显示如下输出：FilesystemSizeUsedAvailUse%Mountedon/dev/sda120G10G10G50%/tmpfs2.0G02.0G0%/dev/s
No module named ‘typing‘ 问题解决 qq_40375355 Linx linux python
ImportError:Nomodulenamed‘typing’问题解决1.问题描述Linux环境升级pip到最新后，运行pip命令出现"Nomodulenamed‘typing’"错误2.问题原因Linux默认环境是2.7，pip==21已经不在支持python2.7，所以出现该问题3.解决方案网上通用python-mpipuninstallpip执行该命令，如果报错以下内容：'pip'isa
OpenCV开源机器视觉软件视觉人机器视觉杂说 opencv 开源人工智能
OpenCV（OpenSourceComputerVisionLibrary）是一个开源的计算机视觉和机器学习软件库，广泛应用于实时图像处理、视频分析、物体检测、人脸识别等领域。它由英特尔实验室于1999年发起，现已成为计算机视觉领域最流行的工具之一，支持多种编程语言（如C++、Python、Java）和操作系统（Windows、Linux、macOS、Android、iOS）。核心功能图像处理基
《AI 大模型 ChatGPT 的传奇》武昌库里写JAVA 面试题汇总与解析课程设计 spring boot vue.js 算法数据结构
《AI大模型ChatGPT的传奇》——段方某世界100强企业大数据/AI总设计师教授北京大学博士后助理：1三6三二四61四五41AI大模型的概念和特点1.1什么是”大模型、多模态“？1.2大模型带来了什么？1.3大模型为什么能产生质变？1.4算法层面的跃升1.4.1RNN到transformor1.4.2扩散模型diffusion1.4.3跨模态的CLIP框架1.5AIGC的耀眼成果1.5.1AI
Kali Linux信息收集工具全集 weixin_30359021
001：0trace、tcptraceroute、traceroute描述：进行路径枚举时，传统基于ICMP协议的探测工具经常会受到屏蔽，造成探测结果不够全面的问题。与此相对基于TCP协议的探测，则成功率会有所提高，同时基于已经建立的合法TCP会话的探测则更具优势，甚至可以探测到目标内网。虽然没有银弹，但结合多种技术手段，则可以收集更加完整的目标信息，为后续渗透测试做准备。002：Acccheck
向量数据库milvus部署一方有点方 milvus
官方文档MilvusvectordatabasedocumentationRunMilvusinDocker(Linux)|MilvusDocumentationMilvusvectordatabasedocumentation按部署比较简单，这里说一下遇到的问题一：DockerCompose方式部署1、镜像无法拉取,(docker.io被禁)只能获取以下镜像，image:quay.io/core
Kali Linux信息收集工具 dechen6073
http://www.freebuf.com/column/150118.html可能大部分渗透测试者都想成为网络空间的007，而我个人的目标却是成为Q先生！看过007系列电影的朋友，应该都还记得那个戏份不多但一直都在的Q先生（由于年级太长目前已经退休）。他为007发明了众多神奇的武器，并且总能在关键时刻挽救大英雄于危难之间。但是与Q先生相比我很惭愧。因为到目前为止我还没有发明出什么可以与他相比的
RK3568平台开发系列讲解（内核篇）Linux 内核启动流程内核笔记 RK3568 linux
更多内容可以加入Linux系统知识库套餐（教程＋视频＋答疑）返回专栏总目录文章目录一、Linux内核启动流程导图二、自解压阶段三、内核运行入口四、汇编阶段五、C函数阶段六、启动内核现场七、执行第一个应用init程序沉淀、分享、成长，让自己和他人都能有所收获！一、Linux内核启动流程导图自解压：Bootlo
linux内核代码-注释详解：inet_create 薇儿安蓝 linux 网络
/*linux-5.10.x\net\ipv4\af_inet.c*主要作用是分配和初始化一个新的网络套接字，并将其添加到系统的网络套接字表中。总结：套接字创建：首先会调用sock_create()函数创建一个新的套接字实例，该函数返回一个指向structsocket结构体的指针，表示创建的套接字套接字类型和协议设置：根据指定的协议类型，函数会设置套接字的类型和协议族。常见的协议族包括IPv4（A
Linux 内核 net_proto_family 星空探索 Linux Kernel 网络实现 Linux Kernel
staticconststructnet_proto_familyinet_family_ops={.family=PF_INET,.create=inet_create,.owner=THIS_MODULE,};(void)sock_register(&inet_family_ops);/***sock_register-addasocketprotocolhandler*@ops:descri
慢慢欣赏linux 网络协议栈二 net_device以及初始化注册 (4.19版本) 天麓网络 linux device driver linux内核 linux 网络协议网络
代码流程staticint__initnet_dev_init(void){BUG_ON(!dev_boot_phase);dev_proc_init();=>int__initdev_proc_init(void){intret=register_pernet_subsys(&dev_proc_ops);==>staticstructpernet_operations__net_initdata
（一文搞定）使用sd卡，往野火EBF6UL/LL-pro板子，移植官方uboot、kernel以及构建rootfs 又摆有菜嵌入式硬件 arm开发 linux
0、事先声明1、我的pc是Linux操作系统，接下来的操作也都是在linux系统上的。不是windows操作系统。（如若你是win系统，可安装虚拟机，解决这个问题。此帖不讨论如何在win上安装虚拟机）。2、只在win下面使用了串口软件mobaxterm。（此操作，事先请先安装usb转串口ch340驱动）1、EBF6UL/LL-pro简介这是野火的开发版，芯片使用的nxp的imx6ull。其他不在介
HQL之投影查询归来朝歌 HQL Hibernate 查询语句投影查询
在HQL查询中，常常面临这样一个场景，对于多表查询，是要将一个表的对象查出来还是要只需要每个表中的几个字段，最后放在一起显示？针对上面的场景，如果需要将一个对象查出来： HQL语句写“from 对象”即可 Session session = HibernateUtil.openSession();
Spring整合redis bylijinnan redis
pom.xml <dependencies>  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redi
org.hibernate.NonUniqueResultException: query did not return a unique result: 2 0624chenhong Hibernate
参考：http://blog.csdn.net/qingfeilee/article/details/7052736 org.hibernate.NonUniqueResultException: query did not return a unique result: 2 在项目中出现了org.hiber
android动画效果不懂事的小屁孩 android动画
前几天弄alertdialog和popupwindow的时候，用到了android的动画效果，今天专门研究了一下关于android的动画效果，列出来，方便以后使用。 Android 平台提供了两类动画。一类是Tween动画，就是对场景里的对象不断的进行图像变化来产生动画效果（旋转、平移、放缩和渐变）。第二类就是 Frame动画，即顺序的播放事先做好的图像，与gif图片原理类似。
js delete 删除机理以及它的内存泄露问题的解决方案换个号韩国红果果 JavaScript
delete删除属性时只是解除了属性与对象的绑定，故当属性值为一个对象时，删除时会造成内存泄露（其实还未删除）举例： var person={name:{firstname:'bob'}} var p=person.name delete person.name p.firstname -->'bob' // 依然可以访问p.firstname，存在内存泄露
Oracle将零干预分析加入网络即服务计划蓝儿唯美 oracle
由Oracle通信技术部门主导的演示项目并没有在本月较早前法国南斯举行的行业集团TM论坛大会中获得嘉奖。但是，Oracle通信官员解雇致力于打造一个支持零干预分配和编制功能的网络即服务（NaaS）平台，帮助企业以更灵活和更适合云的方式实现通信服务提供商（CSP）的连接产品。这个Oracle主导的项目属于TM Forum Live!活动上展示的Catalyst计划的19个项目之一。Catalyst计
spring学习——springmvc（二） a-john springMVC
Spring MVC提供了非常方便的文件上传功能。 1，配置Spring支持文件上传： DispatcherServlet本身并不知道如何处理multipart的表单数据，需要一个multipart解析器把POST请求的multipart数据中抽取出来，这样DispatcherServlet就能将其传递给我们的控制器了。为了在Spring中注册multipart解析器，需要声明一个实现了Mul
POJ-2828-Buy Tickets aijuans ACM_POJ
POJ-2828-Buy Tickets http://poj.org/problem?id=2828 线段树，逆序插入 #include<iostream>#include<cstdio>#include<cstring>#include<cstdlib>using namespace std;#define N 200010struct
Java Ant build.xml详解 asia007 build.xml
1,什么是antant是构建工具2,什么是构建概念到处可查到，形象来说，你要把代码从某个地方拿来，编译，再拷贝到某个地方去等等操作，当然不仅与此，但是主要用来干这个3,ant的好处跨平台 --因为ant是使用java实现的，所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多，可能你用了很久，你仍然不知道它能有
android按钮监听器的四种技术百合不是茶 android xml配置监听器实现接口
android开发中经常会用到各种各样的监听器,android监听器的写法与java又有不同的地方; 1,activity中使用内部类实现接口 ,创建内部类实例使用add方法与java类似创建监听器的实例 myLis lis = new myLis(); 使用add方法给按钮添加监听器
软件架构师不等同于资深程序员 bijian1013 程序员架构师架构设计
本文的作者Armel Nene是ETAPIX Global公司的首席架构师，他居住在伦敦，他参与过的开源项目包括 Apache Lucene,，Apache Nutch， Liferay 和 Pentaho等。如今很多的公司
TeamForge Wiki Syntax & CollabNet User Information Center sunjing TeamForge How do Attachement Anchor Wiki Syntax
the CollabNet user information center http://help.collab.net/ How do I create a new Wiki page? A CollabNet TeamForge project can have any number of Wiki pages. All Wiki pages are linked, and
【Redis四】Redis数据类型 bit1129 redis
概述 Redis是一个高性能的数据结构服务器，称之为数据结构服务器的原因是，它提供了丰富的数据类型以满足不同的应用场景，本文对Redis的数据类型以及对这些类型可能的操作进行总结。 Redis常用的数据类型包括string、set、list、hash以及sorted set.Redis本身是K/V系统，这里的数据类型指的是value的类型，而不是key的类型，key的类型只有一种即string
SSH2整合-附源码白糖_ eclipse spring tomcat Hibernate Google
今天用eclipse终于整合出了struts2+hibernate+spring框架。我创建的是tomcat项目，需要有tomcat插件。导入项目以后，鼠标右键选择属性，然后再找到“tomcat”项，勾选一下“Is a tomcat project”即可。具体方法见源码里的jsp图片，sql也在源码里。补充1：项目中部分jar包不是最新版的，可能导
[转]开源项目代码的学习方法 braveCS 学习方法
转自： http://blog.sina.com.cn/s/blog_693458530100lk5m.html http://www.cnblogs.com/west-link/archive/2011/06/07/2074466.html 1）阅读features。以此来搞清楚该项目有哪些特性2）思考。想想如果自己来做有这些features的项目该如何构架3）下载并安装d
编程之美-子数组的最大和（二维） bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; import java.util.Random; public class MaxSubArraySum2 { /** * 编程之美子数组之和的最大值（二维） */ private static final int ROW = 5; private stat
读书笔记-3 chengxuyuancsdn jquery笔记 resultMap配置 ibatis一对多配置
1、resultMap配置 2、ibatis一对多配置 3、jquery笔记 1、resultMap配置当<select resultMap="topic_data"> <resultMap id="topic_data">必须一一对应。 (1)<resultMap class="tblTopic&q
[物理与天文]物理学新进展 comsci
如果我们必须获得某种地球上没有的矿石,才能够进行某些能量输出装置的设计和建造,而要获得这种矿石,又必须首先进行深空探测,而要进行深空探测,又必须获得这种能量输出装置,这个矛盾的循环,会导致地球联盟在与宇宙文明建立关系的时候,陷入困境怎么办呢?
Oracle 11g新特性:Automatic Diagnostic Repository daizj oracle ADR
Oracle Database 11g的FDI（Fault Diagnosability Infrastructure）是自动化诊断方面的又一增强。 FDI的一个关键组件是自动诊断库（Automatic Diagnostic Repository-ADR）。在oracle 11g中，alert文件的信息是以xml的文件格式存在的，另外提供了普通文本格式的alert文件。这两份log文
简单排序:选择排序 dieslrae 选择排序
public void selectSort(int[] array){ int select; for(int i=0;i<array.length;i++){ select = i; for(int k=i+1;k<array.leng
C语言学习六指针的经典程序，互换两个数字 dcj3sjt126com c
示例程序，swap_1和swap_2都是错误的，推理从1开始推到2，2没完成，推到3就完成了 # include <stdio.h> void swap_1(int, int); void swap_2(int *, int *); void swap_3(int *, int *); int main(void) { int a = 3; int b =
php 5.4中php-fpm 的重启、终止操作命令 dcj3sjt126com PHP
php 5.4中php-fpm 的重启、终止操作命令: 查看php运行目录命令：which php/usr/bin/php 查看php-fpm进程数：ps aux | grep -c php-fpm 查看运行内存/usr/bin/php -i|grep mem 重启php-fpm/etc/init.d/php-fpm restart 在phpinfo()输出内容可以看到php
线程同步工具类 shuizhaosi888 同步工具类
同步工具类包括信号量（Semaphore）、栅栏（barrier）、闭锁（CountDownLatch）闭锁（CountDownLatch） public class RunMain { public long timeTasks(int nThreads, final Runnable task) throws InterruptedException { fin
bleeding edge是什么意思 haojinghua DI
不止一次，看到很多讲技术的文章里面出现过这个词语。今天终于弄懂了——通过朋友给的浏览软件，上了wiki。我再一次感到，没有辞典能像WiKi一样，给出这样体贴人心、一清二楚的解释了。为了表达我对WiKi的喜爱，只好在此一一中英对照，给大家上次课。 In computer science, bleeding edge is a term that
c中实现utf8和gbk的互转 jimmee c iconv utf8&gbk编码
#include <iconv.h> #include <stdlib.h> #include <stdio.h> #include <unistd.h> #include <fcntl.h> #include <string.h> #include <sys/stat.h> int code_c
大型分布式网站架构设计与实践 lilin530 应用服务器搜索引擎
1.大型网站软件系统的特点？ a.高并发，大流量。 b.高可用。 c.海量数据。 d.用户分布广泛，网络情况复杂。 e.安全环境恶劣。 f.需求快速变更，发布频繁。 g.渐进式发展。 2.大型网站架构演化发展历程？ a.初始阶段的网站架构。应用程序，数据库，文件等所有的资源都在一台服务器上。 b.应用服务器和数据服务器分离。 c.使用缓存改善网站性能。 d.使用应用
在代码中获取Android theme中的attr属性值 OliveExcel android theme
Android的Theme是由各种attr组合而成, 每个attr对应了这个属性的一个引用, 这个引用又可以是各种东西. 在某些情况下, 我们需要获取非自定义的主题下某个属性的内容 (比如拿到系统默认的配色colorAccent), 操作方式举例一则: int defaultColor = 0xFF000000; int[] attrsArray = { andorid.r.
基于Zookeeper的分布式共享锁 roadrunners zookeeper 分布式共享锁
首先，说说我们的场景，订单服务是做成集群的，当两个以上结点同时收到一个相同订单的创建指令，这时并发就产生了，系统就会重复创建订单。等等......场景。这时，分布式共享锁就闪亮登场了。共享锁在同一个进程中是很容易实现的，但在跨进程或者在不同Server之间就不好实现了。Zookeeper就很容易实现。具体的实现原理官网和其它网站也有翻译，这里就不在赘述了。官
两个容易被忽略的MySQL知识 tomcat_oracle mysql
1、varchar(5)可以存储多少个汉字，多少个字母数字？　　相信有好多人应该跟我一样，对这个已经很熟悉了，根据经验我们能很快的做出决定，比如说用varchar(200)去存储url等等，但是，即使你用了很多次也很熟悉了，也有可能对上面的问题做出错误的回答。　　这个问题我查了好多资料，有的人说是可以存储5个字符，2.5个汉字（每个汉字占用两个字节的话），有的人说这个要区分版本，5.0
zoj 3827 Information Entropy(水题) 阿尔萨斯 format
题目链接：zoj 3827 Information Entropy 题目大意：三种底，计算和。解题思路：调用库函数就可以直接算了，不过要注意Pi = 0的时候，不过它题目里居然也讲了。。。limp→0+plogb(p)=0，因为p是logp的高阶。 #include <cstdio> #include <cstring> #include <cmath&

spark 部署

Spark Local环境部署

下载地址

条件

Anaconda On Linux 安装

解压

环境变量

上传Spark安装包

测试

bin/pyspark

WEB UI (4040)

bin/spark-shell - 了解

bin/spark-submit (PI)

Spark StandAlone环境部署

新角色 历史服务器

集群规划

安装

在所有机器安装Python(Anaconda)

在所有机器配置环境变量

配置配置文件

将Spark安装文件夹 分发到其它的服务器上

检查

启动历史服务器

启动Spark的Master和Worker进程

查看Master的WEB UI

连接到StandAlone集群

bin/pyspark

bin/spark-shell

bin/spark-submit (PI)

查看历史服务器WEB UI

Spark StandAlone HA 环境搭建

步骤

master主备切换

Spark On YARN 环境搭建

部署

连接到YARN中

bin/pyspark

bin/spark-shell

bin/spark-submit (PI)

spark-submit 和 spark-shell 和 pyspark的相关参数

附1 Anaconda On Linux 安装 (单台服务器)

安装

国内源

附2 spark-submit和pyspark相关参数

附3 Windows系统配置Anaconda

安装

配置国内源

创建虚拟环境

你可能感兴趣的:(spark,linux,大数据)

新角色历史服务器

将Spark安装文件夹分发到其它的服务器上