MelodyYN

Spark集群的三种模式

文章目录

1、Spark的由来
- 1.1 Hadoop的发展
- 1.2 MapReduce与Spark对比
2、Spark内置模块
3、Spark运行模式
- 3.1 Standalone模式部署
- - 配置历史服务器
  - 配置高可用
  - 运行模式
- 3.2 Yarn模式安装部署
- - 配置历史服务器
  - 运行模式
4、WordCount案例

1、Spark的由来

定义：Hadoop主要解决，海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。

1.1 Hadoop的发展

Hadoop1.x存在的问题：
- NameNode不能高可用
- MR框架中资源调度和任务调度耦合
- MR基于磁盘计算，效率低
Hadoop2.x对应的解决了以上几个问题
- NameNode高可用
- 将资源调度和任务调度解耦
- 计算框架可插拔

Spark框架诞生早于Yarn，所以Spark自己设计了一套资源调度框架。

1.2 MapReduce与Spark对比

MR不适合迭代计算

Spark支持迭代计算和图形计算：因为Spark中间结果不落盘。但是Shuffle也得落盘。

2、Spark内置模块

Spark Core：实现了Spark的基本功能，包含任务调度、内存管理、错误恢复、与存储系统交互等模块。

Spark SQL：是Spark用来操作结构化数据的程序包。通过Spark SQL，我们可以使用 SQL或者Apache Hive版本的HQL来查询数据。Spark SQL支持多种数据源，比如Hive表、Parquet以及JSON等。

Spark Streaming：是Spark提供的对实时数据进行流式计算的组件。提供了用来操作数据流的API，并且与Spark Core中的 RDD API高度对应。

Spark MLlib：提供常见的机器学习功能的程序库。包括分类、回归、聚类、协同过滤等，还提供了模型评估、数据导入等额外的支持功能。

Spark GraphX：主要用于图形并行计算和图挖掘系统的组件。

集群管理器：Spark设计为可以高效地在一个计算节点到数千个计算节点之间伸缩计算。为了实现这样的要求，同时获得最大灵活性，Spark支持在各种集群管理器（Cluster Manager）上运行，包括Hadoop YARN、Apache Mesos，以及Spark自带的一个简易调度器，叫作独立调度器。

3、Spark运行模式

Local模式：本地调试
Standalone模式：Spark自带的任务调度模式
Yarn模式：使用Yarn进行资源调度和任务调度

3.1 Standalone模式部署

集群规划

	hadoop102	hadoop103	hadoop104
Spark	Master、Worker	Worker	Worker

具体步骤：

解压安装包至指定目录

tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module/
mv spark-3.0.0-bin-hadoop3.2/ spark-standalone

修改配置文件

slaves

hadoop102
hadoop103
hadoop104

spark-env.sh

SPARK_MASTER_HOST=hadoop102
SPARK_MASTER_PORT=7077

分发spark-standalone
```
xsync spark-standalone/
```
在hadoop102上启动集群
```
sbin/start-all.sh
```
jps查看启动情况

测试

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://hadoop102:7077 \
./examples/jars/spark-examples_2.12-3.0.0.jar \
10

参数含义

参数	解释	可选值举例
–class	Spark程序中包含主函数的类
–master	Spark程序运行的模式	本地模式：local[*]、spark://hadoop102:7077、Yarn
–executor-memory 1G	指定每个executor可用内存为1G	符合集群内存配置即可，具体情况具体分析。
–total-executor-cores 2	指定所有executor使用的cpu核数为2个
application-jar	打包好的应用jar，包含依赖。这个URL在集群中全局可见。比如hdfs:// 共享存储系统，如果是file:// path，那么所有的节点的path都包含同样的jar
application-arguments	传给main()方法的参数

配置历史服务器

修改配置文件

spark-defaults.conf
```
spark.eventLog.enabled          true
spark.eventLog.dir              hdfs://hadoop102:8020/directory
```
spark-env.sh
```
export SPARK_HISTORY_OPTS="
-Dspark.history.ui.port=18080 
-Dspark.history.fs.logDirectory=hdfs://hadoop102:8020/directory 
-Dspark.history.retainedApplications=30"
```
# 参数1含义：WEBUI访问的端口号为18080

# 参数2含义：指定历史服务器日志存储路径（读）

# 参数3含义：指定保存Application历史记录的个数，如果超过这个值，旧的应用程序信息将被删除，这个是内存中的应用数，而不是页面上显示的应用数。
重新分发修改的配置文件
```
xsync spark-defaults.conf spark-env.sh
```

重启spark及其历史服务器

sbin/stop-history-server.sh
sbin/stop-all.sh

sbin/start-all.sh
sbin/start-history-server.sh

查看Spark历史服务器hadoop102:18080

配置高可用

停止集群
启动ZooKeeper

修改配置文件

spark-env.sh

#注释掉如下内容：
#SPARK_MASTER_HOST=hadoop102
#SPARK_MASTER_PORT=7077

#添加上如下内容。配置由Zookeeper管理Master，在Zookeeper节点中自动创建/spark目录，用于管理：
export SPARK_DAEMON_JAVA_OPTS="
-Dspark.deploy.recoveryMode=ZOOKEEPER 
-Dspark.deploy.zookeeper.url=hadoop102,hadoop103,hadoop104 
-Dspark.deploy.zookeeper.dir=/spark"

#添加如下代码
#Zookeeper3.5的AdminServer默认端口是8080，和Spark的WebUI冲突
export SPARK_MASTER_WEBUI_PORT=8989

重新分发修改后的文件
```
xsync spark-env.sh
```

重启集群

sbin/start-all.sh
sbin/start-history-server.sh

在hadoop103上启动master
```
sbin/start-master.sh
```
通过hadoop103:8989访问测试
通过jps查看进程状态
kill掉hadoop102的master进程测试

Spark HA集群访问
bin/spark-shell \
--master spark://hadoop102:7077,hadoop103:7077 \
--executor-memory 2g \
--total-executor-cores 2
参数：–master spark://hadoop102:7077指定要连接的集群的master

注：一旦配置了高可用以后，master后面要连接多个master

运行模式

根据Driver程序的运行位置分为如下两种模式

standalone-client(默认模式)

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://hadoop102:7077,hadoop103:7077 \
--executor-memory 2G \
--total-executor-cores 2 \
--deploy-mode client \
./examples/jars/spark-examples_2.12-3.0.0.jar \
10

standalone-cluster

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://hadoop102:7077,hadoop103:7077 \
--executor-memory 2G \
--total-executor-cores 2 \
--deploy-mode cluster \
./examples/jars/spark-examples_2.12-3.0.0.jar \
10

客户端模式的计算结果将打印在本地，集群模式只能在web页面中找到

3.2 Yarn模式安装部署

解压安装包到指定位置

tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module/
mv spark-3.0.0-bin-hadoop3.2/ spark-yarn

修改配置文件

修改hadoop中的yarn-site.xml，分发并重启hadoop集群



     yarn.nodemanager.pmem-check-enabled
     false




     yarn.nodemanager.vmem-check-enabled
     false

spark-env.sh

# 修改/opt/module/spark-yarn/conf/spark-env.sh，添加YARN_CONF_DIR配置，保证后续运行任务的路径都变成集群路径
YARN_CONF_DIR=/opt/module/hadoop-3.1.3/etc/hadoop

启动spark集群并测试

sbin/start-history-server.sh
sbin/start-all.sh

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
./examples/jars/spark-examples_2.12-3.0.0.jar \
10

配置历史服务器

修改配置文件

spark-defaults.conf

#写
spark.eventLog.enabled          true
spark.eventLog.dir              hdfs://hadoop102:8020/directory

#读
spark.yarn.historyServer.address=hadoop102:18080
spark.history.ui.port=18080

spark-env.sh

export SPARK_HISTORY_OPTS="
-Dspark.history.ui.port=18080 
-Dspark.history.fs.logDirectory=hdfs://hadoop102:8020/directory 
-Dspark.history.retainedApplications=30"

# 参数1含义：WEBUI访问的端口号为18080

# 参数2含义：指定历史服务器日志存储路径（读）

# 参数3含义：指定保存Application历史记录的个数，如果超过这个值，旧的应用程序信息将被删除，这个是内存中的应用数，而不是页面上显示的应用数。

重新分发修改的配置文件
```
xsync spark-defaults.conf spark-env.sh
```

重启spark及其历史服务器

sbin/stop-history-server.sh
sbin/stop-all.sh

sbin/start-all.sh
sbin/start-history-server.sh

提交任务到Yarn

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
./examples/jars/spark-examples_2.12-3.0.0.jar \
10

Web页面查看日志：http://hadoop103:8088/cluster，点击history进入hadoop102:18080

运行模式

Spark有yarn-client和yarn-cluster两种模式，主要区别在于：Driver程序的运行节点。

yarn-client：Driver程序运行在客户端，适用于交互、调试，希望立即看到app的输出。

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode client \
./examples/jars/spark-examples_2.12-3.0.0.jar \
10

yarn-cluster：Driver程序运行在由ResourceManager启动的APPMaster，适用于生产环境。

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode cluster \
./examples/jars/spark-examples_2.12-3.0.0.jar \
10

如果在yarn日志端无法查看到具体的日志，则在yarn-site.xml中添加如下配置并启动Yarn历史服务器

4、WordCount案例

Maven依赖和scala打包插件

<dependencies>
    <dependency>
        <groupId>org.apache.sparkgroupId>
        <artifactId>spark-core_2.12artifactId>
        <version>3.0.0version>
    dependency>
dependencies>

<build>
	<finalName>WordCountfinalName>
    <plugins>
        <plugin>
            <groupId>net.alchim31.mavengroupId>
            <artifactId>scala-maven-pluginartifactId>
            <version>3.4.6version>
            <executions>
                <execution>
                   <goals>
                      <goal>compilegoal>
                      <goal>testCompilegoal>
                   goals>
                execution>
             executions>
        plugin>
        
        
        <plugin>
    <groupId>org.apache.maven.pluginsgroupId>
    <artifactId>maven-assembly-pluginartifactId>
    <version>3.0.0version>
    <configuration>
        <descriptorRefs>
            <descriptorRef>jar-with-dependenciesdescriptorRef>
        descriptorRefs>
    configuration>
    <executions>
        <execution>
            <id>make-assemblyid>
            <phase>packagephase>
            <goals>
                <goal>singlegoal>
            goals>
        execution>
    executions>
plugin>
    plugins>
build>

代码

package com.atguigu.spark

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object WordCount {

    def main(args: Array[String]): Unit = {

        //1.创建SparkConf并设置App名称
        val conf = new SparkConf().setAppName("WC").setMaster("local[*]")

        //2.创建SparkContext，该对象是提交Spark App的入口
        val sc = new SparkContext(conf)

        //3.读取指定位置文件:hello atguigu atguigu
        val lineRdd: RDD[String] = sc.textFile("input")

        //4.读取的一行一行的数据分解成一个一个的单词（扁平化）(hello)(atguigu)(atguigu)
        val wordRdd: RDD[String] = lineRdd.flatMap(line => line.split(" "))

        //5. 将数据转换结构：(hello,1)(atguigu,1)(atguigu,1)
        val wordToOneRdd: RDD[(String, Int)] = wordRdd.map(word => (word, 1))

        //6.将转换结构后的数据进行聚合处理 atguigu:1、1 =》1+1  (atguigu,2)
        val wordToSumRdd: RDD[(String, Int)] = wordToOneRdd.reduceByKey((v1, v2) => v1 + v2)

        //7.将统计结果采集到控制台打印
        val wordToCountArray: Array[(String, Int)] = wordToSumRdd.collect()
        wordToCountArray.foreach(println)

        //一行搞定
        //sc.textFile(args(0)).flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _).saveAsTextFile(args(1))

        //8.关闭连接
        sc.stop()
    }
}

log4j.properties

log4j.rootCategory=ERROR, console
log4j.appender.console=org.apache.log4j.ConsoleAppender
log4j.appender.console.target=System.err
log4j.appender.console.layout=org.apache.log4j.PatternLayout
log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n

# Set the default spark-shell log level to ERROR. When running the spark-shell, the
# log level for this class is used to overwrite the root logger's log level, so that
# the user can have different defaults for the shell and regular Spark apps.
log4j.logger.org.apache.spark.repl.Main=ERROR

# Settings to quiet third party logs that are too verbose
log4j.logger.org.spark_project.jetty=ERROR
log4j.logger.org.spark_project.jetty.util.component.AbstractLifeCycle=ERROR
log4j.logger.org.apache.spark.repl.SparkIMain$exprTyper=ERROR
log4j.logger.org.apache.spark.repl.SparkILoop$SparkILoopInterpreter=ERROR
log4j.logger.org.apache.parquet=ERROR
log4j.logger.parquet=ERROR

# SPARK-9183: Settings to avoid annoying messages when looking up nonexistent UDFs in SparkSQL with Hive support
log4j.logger.org.apache.hadoop.hive.metastore.RetryingHMSHandler=FATAL
log4j.logger.org.apache.hadoop.hive.ql.exec.FunctionRegistry=ERROR

Node.js常用知识 UnityGxGameLab+ node.js javascript 前端
Nodejs总结Node.js基础知识，便于定期回顾1、fs文件写入1、require(‘fs’)2、fs.writeFile()3、fs.appendFile()4、fs.createwriteStream（）//流式写入ws.write()文件读取1、fs.readFile(‘’,(err,data)=>{})constfs=require('fs')fs.readFile("D:/Node/
matlab批量导入excel表格数据,matlab导入excel表格数据-如何用matlab读取多个excel表格数据，将每个表格数...... Aconitine
如何用matlab读取多个excel表格数据，将每个表格数...一xlsread()函数，比import简单的多，具体语句：A=xlsread('yourfilename.xls')望高手支招！不一定要拷贝到data文件中啊，你使用xlsread时指定excel绝对路径就可以了嘛二如果只是几个很大的矩阵数据，你直接在MATLAB中定义矩阵，再复制粘贴得了定义矩阵就先定义个空的呗比如一维：a=zer
mysql current_MySQL服务器的优化方法_MySQL - current weixin_39940182 mysql current
...tail=nullthis.append=(data)=>{letnode=newNode(data),currentif(head===null){head=nodetail=node}else{current=headwhile(current.next){current=current.next}current.next=nodetail=node}length++returntrue
postgresql 查看数据库,表,索引,表空间以及大小神域梦醒
客户要求用pgsql，所在服务器装了一下pgsql，我出了一个pgsql的分类，看这篇文章前，把这个分类下的文章都可以看一下，这是我熟悉pgsql的一套流程。以前搞过一次pgsql，很早了。1,查看数据库查看复制打印?playboy=>\l//\加上字母l,相当于mysql的，mysql>showdatabases;ListofdatabasesName|Owner|Encoding-------
VSCode数据库插件 svygh123 vscode vscode 数据库 ide
VisualStudioCode(VSCode)是一个非常流行的源代码编辑器，它通过丰富的插件生态系统提供了大量的功能扩展。对于数据库操作，VSCode提供了几种插件，其中“DatabaseClient”系列插件是比较受欢迎的选择之一，它包括了对多种数据库的支持，例如PostgreSQL,MySQL,SQLite,MSSQL,Oracle等。DatabaseClientJDBC插件“Databas
Mac M1 Comfyui 使用MMAudio遇到的问题解决？福葫芦 macos
问题1:AssertionError:TorchnotcompiledwithCUDAenabled？解决办法：修改代码以CPU运行第一步：找到/ComfyUI/custom_nodes/ComfyUI-MMAudio/mmaudio/ext/autoencoder/vae.py文件中的下面这两行代码self.data_mean=nn.Buffer(torch.tensor(DATA_MEAN_1
postgres数据库sql语句吭哧瘪肚的万能工 sql 数据库 postgres
对表操作创建表CREATETABLEtest(idintNOTNULL,namevarchar(10),PRIMARYKEY(id));增加字段ALTERtabletestADDid1bigintNOTNULL,ADDNAME1VARCHAR(20)；删除字段ALTERtabletestdropid,dropNAME修改字段名ALTERtabletestrenameNAME1toName修改字段类
Sybase数据库数据导入导出命令杨青松 sybase sql 数据库 database
--导入命令LoadTableBase_Inspection--表名([time],TableName,CityID,CityName,DataCount,CellDataCount,InspectionTime'\x0d\x0a')--字段名--'\x0d\x0a'windows下换行符USINGCLIENTFILE'H:\\outfile\\0602\\MR_Sc2Nc_CellSum_Day
Redis GUI：一款现代化的Redis数据库图形界面管理工具丁凡红
RedisGUI：一款现代化的Redis数据库图形界面管理工具redis-guiModerngraphicaluserinterfacetopeekintoredisdatabase项目地址:https://gitcode.com/gh_mirrors/re/redis-guiRedisGUI是一个开源项目，它提供了一个现代化的图形用户界面来管理和查看Redis数据库。该项目主要使用Vue.js和
探索数据库管理新纪元：Visual Studio Code Database Client gitblog_00881
探索数据库管理新纪元：VisualStudioCodeDatabaseClientvscode-database-clientDatabaseClientForVisualStudioCode项目地址:https://gitcode.com/gh_mirrors/vs/vscode-database-client在今天的数字化时代，数据库管理和优化是每个开发者和系统管理员不可或缺的技能。现在，借助
数据字典是什么 Code.exe 数据库
理论阐述数据字典是指对数据的数据项、数据结构、数据流、数据存储、处理逻辑等进行定义和描述，其目的是对数据流图中的各个元素作出详细的说明。数据字典是描述数据的信息集合，是对系统中使用的所有数据元素的定义的集合。数据字典（Datadictionary）是一种用户可以访问的记录数据库和应用程序元数据的目录。数据字典的内容非常丰富，包括数据库中所有模式对象的信息，如视图、簇、及索引等；还涉及空间分配和当前
如何将.sql文件导入数据库 chengliang666 MySQL 工具方法数据库 sql mysql 导入sql
1.进入本地数据库打开命令提示符行输入以下命令进入本地数据库mysql-uroot-p2.创建数据库新建一个新数据库用来导入.sql数据CREATEDATABASE数据库名;//创建数据库showdatabases;//显示目前有的数据库3.导入.sql文件在导入.sql文件之前，设置一下编码模式，防止出现中文乱码的情况（第一次导入就出现了中文乱码，所以中添加一步防止出现乱码情况）。use数据库名
转： C#操作SQL Server数据库 chaojifeifeima
C#操作SQLServer数据库2008-07-1811:17:18分类：在c#程序开发中经常需要和SQLServer数据库打交道，下面我们就了解一下c#操作SQLServer数据库的方法：1.概述首先是为我们的程序添加必要的引用以及一些数据成员。因为我们的程序涉及到数据库的访问操作，所以必须要运用到数据提供者（DataProvider）的对象。在.Net框架下，我们主要运用的数据提供者分为两类，
FlinkSQL将时间戳转为日期 MARSERERER sql
FLOOR(TO_TIMESTAMP(FROM_UNIXTIME(CAST(`table_time`ASBIGINT)/1000,'yyyy-MM-ddHH:mm:ss'))TOminute),
Databricks 开源 LLM，训练只需三个小时唐城 AI-毕业设计全套 spring log4j postgresql 数据库 java
大数据分析公司DatabricksInc近日也加入了生成式AI领域的竞争之中，发布了一个名为Dolly的开源大型语言模型，将模型命名为Dolly是为了向第一只克隆羊多莉致敬。像ChatGPT和Bard这样的生成式AI，它们使用的数据通常来自于在成千上万不同网站，使用的数据量十分惊人，而且想要使用这些数据训练AI还需要数以千计的强大GPU在背后提供支持。Databricks希望通过开源Dolly及其
R语言|1.2 R语言的工作空间管理 wqqqqqq_ R语言 r语言开发语言
#R语言|1.2R语言的工作空间管理工作空间是R的工作环境。退出R时，如果选择保存工作空间，R将会在工作空间所在文件夹中创建两个文件，“.Rhistory”，其中保存R中输入的任何命令，另一个为".Rdata"是将工作空间中的所有对象都保存在其中。工作目录(workingdirectory)，用来读取文件和保存结果的一个文件夹。我们可以使用函数getwd()查看当前的工作目录，也可以使用函数set
Ubuntu下Hadoop的安装与使用 ly201552y hadoop学习 hadoop
1、创建hadoop用户打开终端sudouseradd-mhadoop-s/bin/bashsudopasswdhadoop//为hadoop设置密码sudoadduserhadoopsudo//为hadoop用户增加管理员权限2、更新apt并安装vimsudoapt-getupdate3、安装SSH、配置SSH无密码登陆集群、单节点模式都需要用到SSH登陆，Ubuntu默认已安装了SSHclie
【数据仓库】hadoop web UI 增加账号密码认证花菜回锅肉大数据数据仓库数据仓库 hadoop
升级了hadoop版本到3.3.6,未配置任何鉴权，默认端口98708088开放到了公网，结果没几天就被挖矿攻击了。通过开放的端口提交了很多非法任务到yarn上，并成功在服务器执行了恶意脚本。这次是真实真切的感受了，网络环境的险恶，以前仅仅是别人的案例来提高自己的安全意识，这次完完全全是自己的真实案例，让自己对网络完全有的更深切的认知。在研究了hadoop官方提供的安全方案后，发现是懵的，要么配置
Hadoop3.2.1安装-单机模式和伪分布式模式花菜回锅肉大数据 hadoop hdfs 大数据 linux
Hadoop入门篇概述Hadoop是使用Java编写的，是为了解决大数据场景下的两大问题，分布式存储和分布式处理而诞生的，包含很多组件、套件。需要运行在Linux系统下。主要包括HDFS和MapReduce两个组件。下载安装下载下载地址https://archive.apache.org/dist/hadoop/common/选择合适自己的tar.gz版本下载,该文档选择V3.2.1。Hadoop
Spark3.1.2单机安装部署花菜回锅肉大数据 spark 大数据 hadoop
spark3.1.2单机安装部署概述Spark是一个性能优异的集群计算框架，广泛应用于大数据领域。类似Hadoop，但对Hadoop做了优化，计算任务的中间结果可以存储在内存中，不需要每次都写入HDFS，更适用于需要迭代运算的算法场景中。Spark专注于数据的处理分析，而数据的存储还是要借助于Hadoop分布式文件系统HDFS等来实现。大数据问题场景包含以下三种：复杂的批量数据处理基于历史数据的交
自定义数据集使用pytorch框架实现逻辑回归并保存模型，然后保存模型后再加载模型进行预测 Z211613347 机器学习深度学习人工智能
importtorchimporttorch.nnasnnimporttorch.optimasoptimfromtorch.utils.dataimportDataset,DataLoaderimporttorchvision.transformsastransformsimportpandasaspdimportnumpyasnpclassCustomDataset(Dataset):def_
Python的第三方库pandas y_bccl27 Python python
1.pandas的介绍pandas是Python的一个数据分析包，最初由AQRCapitalManagement于2008年4月开发，并于2009年底开源出来，目前由专注于Python数据包开发的PyData开发团队继续开发和维护，属于PyData项目的一部分。pandas最初被作为金融数据分析工具而开发出来，因此pandas为时间序列分析提供了很好的支持。pandas的名称来自于面板数据（pan
数据预处理泰坦尼克号_了解泰坦尼克号数据集的数据预处理张_伟_杰机器学习 python 人工智能大数据
数据预处理泰坦尼克号什么是数据预处理？(WhatisDataPre-Processing?)Weknowfrommylastblogthatdatapreprocessingisadataminingtechniquethatinvolvestransformingrawdataintoanunderstandableformat.Real-worlddataisoftenincomplete,i
【Matlab笔记_13】matlab如何删除某一行数据科熊小猪 Matlab matlab 笔记开发语言
1.使用矩阵（Matrix）：如果数据是一个矩阵，可以使用索引来删除某一行。假设有一个名为data的矩阵，并且要删除第rowIndex行，可以使用以下代码：data(rowIndex,:)=[];2.使用表格（Table）：如果数据是一个表格，可以使用removevars函数来删除指定的行。假设有一个名为dataTable的表格，要删除第rowIndex行，可以使用以下代码：dataTable(r
python导入自定义py文件 hutaotaotao python基础和进阶 python 开发语言
目录1.导入当前目录下的py文件2.导入当前目录下某个文件夹里的py文件3.导入上级目录下某个文件夹里的py文件1.导入当前目录下的py文件比如写了一个tool_func.py，里面放了一些工具函数，将其放在主函数代码main.py的同级目录下#file:tool_func.pydefget_second_max_value(data:list):iflen(data)==0:returnNone
Python后端flask框架接收zip压缩包方法 Thomas_Cai Python技术工程技术开发语言 python Flask
一、用base64编码发送，以及接收importbase64importioimportzipfilefromflaskimportrequest,jsonifydefunzip_and_find_png(zip_data):#使用BytesIO在内存中处理zip数据withzipfile.ZipFile(io.BytesIO(zip_data),'r')aszip_ref:extracted_p
python中keras_Python深度学习——keras（一） weixin_39534321 python中keras
神经网络的核心组件是层(layer)，它是一种数据处理模块，可以看成是一个数据过滤器。进去一些数据，出来的数据变得更加有用(吃进去的是草，挤出来的是奶)。大多数深度学习，都是将若干个简单的层给链接起来，实现渐进式的数据过滤，也就是数据蒸馏(过滤到一定程度就等同于蒸馏)首先来看一个数字识别的案例(1)读取训练集和测试集fromkeras.datasetsimportmnist#加载keras中的mn
Flink Standalone集群模式安装部署全攻略自节码 java 面试开发语言 flink 大数据
FlinkStandalone集群模式安装部署全攻略一、引言Flink作为一款强大的分布式流处理和批处理框架，在大数据领域有着广泛的应用。本文将详细介绍FlinkStandalone集群模式的安装部署过程，帮助大家快速搭建起开发测试环境。二、安装前准备首先，确保已经安装好了Hadoop环境（因为后续配置中涉及到与Hadoop的集成）。三、安装步骤（一）环境准备退出conda的base环境（如果存在
Oracle笔记白嫖勇者数据库 mysql
创建(删除)一个新的数据库(数据库实例)左下角开始菜单：绿色图标DatabaseConfigurationAssistantApplicationsystem系统账户sys本地账户一般不用密码（除非自己设置）本地最高权限创建(删除)监听程序(没有监听程序数据库不能接受客户端请求)左下角开始菜单：蓝色NetConfigurationAssistantSQL*Plus数据库管理工具1启动：(1)开始菜
字符编码发展史3 — GB2312/Big5/GBK/GB18030 c++
2.2.第二个阶段本地化2.2.3.多字节编码2.2.3.1.GB23122.2.3.2.Big52.2.3.3.GB130002.2.3.4.GBK2.2.3.5.GB180302.2.3.6.总结上一篇《字符编码发展史2—ISO-8859-N》我们讲解了ANSI编码中的ISO-8859-N。本篇我们将继续讲解字符编码的第二个发展阶段中的GB2312/Big5/GBK/GB18030。2.2.第
java解析APK 3213213333332132 java apk linux 解析APK
解析apk有两种方法 1、结合安卓提供apktool工具，用java执行cmd解析命令获取apk信息 2、利用相关jar包里的集成方法解析apk 这里只给出第二种方法，因为第一种方法在linux服务器下会出现不在控制范围之内的结果。 public class ApkUtil { /** * 日志对象 */ private static Logger
nginx自定义ip访问N种方法 ronin47 nginx 禁止ip访问
　　　因业务需要，禁止一部分内网访问接口，　由于前端架了F5，直接用deny或allow是不行的，这是因为直接获取的前端Ｆ５的地址。　　　所以开始思考有哪些主案可以实现这样的需求，目前可实施的是三种：　　　一：把ip段放在redis里，写一段lua 二：利用geo传递变量，写一段
mysql timestamp类型字段的CURRENT_TIMESTAMP与ON UPDATE CURRENT_TIMESTAMP属性 dcj3sjt126com mysql
timestamp有两个属性，分别是CURRENT_TIMESTAMP 和ON UPDATE CURRENT_TIMESTAMP两种，使用情况分别如下： 1. CURRENT_TIMESTAMP 当要向数据库执行insert操作时，如果有个timestamp字段属性设为 CURRENT_TIMESTAMP，则无论这
struts2+spring+hibernate分页显示 171815164 Hibernate
分页显示一直是web开发中一大烦琐的难题，传统的网页设计只在一个JSP或者ASP页面中书写所有关于数据库操作的代码，那样做分页可能简单一点，但当把网站分层开发后，分页就比较困难了，下面是我做Spring+Hibernate+Struts2项目时设计的分页代码，与大家分享交流。　　1、DAO层接口的设计，在MemberDao接口中定义了如下两个方法： public in
构建自己的Wrapper应用 g21121 rap
我们已经了解Wrapper的目录结构，下面可是正式利用Wrapper来包装我们自己的应用，这里假设Wrapper的安装目录为:/usr/local/wrapper。首先，创建项目应用 &nb
[简单]工作记录_多线程相关 53873039oycg 多线程
最近遇到多线程的问题,原来使用异步请求多个接口(n*3次请求) 方案一使用多线程一次返回数据,最开始是使用5个线程,一个线程顺序请求3个接口,超时终止返回缺点测试发现必须3个接
调试jdk中的源码，查看jdk局部变量程序员是怎么炼成的 jdk 源码
转自：http://www.douban.com/note/211369821/ 学习jdk源码时使用-- 学习java最好的办法就是看jdk源代码，面对浩瀚的jdk（光源码就有40M多，比一个大型网站的源码都多）从何入手呢，要是能单步调试跟进到jdk源码里并且能查看其中的局部变量最好了。可惜的是sun提供的jdk并不能查看运行中的局部变量
Oracle RAC Failover 详解 aijuans oracle
Oracle RAC 同时具备HA(High Availiablity) 和LB(LoadBalance). 而其高可用性的基础就是Failover(故障转移). 它指集群中任何一个节点的故障都不会影响用户的使用，连接到故障节点的用户会被自动转移到健康节点，从用户感受而言，是感觉不到这种切换。 Oracle 10g RAC 的Failover 可以分为3种： 1. Client-Si
form表单提交数据编码方式及tomcat的接受编码方式 antonyup_2006 JavaScript tomcat 浏览器互联网 servlet
原帖地址：http://www.iteye.com/topic/266705 form有2中方法把数据提交给服务器，get和post,分别说下吧。（一）get提交 1.首先说下客户端（浏览器）的form表单用get方法是如何将数据编码后提交给服务器端的吧。对于get方法来说，都是把数据串联在请求的url后面作为参数，如：http://localhost:
JS初学者必知的基础百合不是茶 js函数 js入门基础
JavaScript是网页的交互语言,实现网页的各种效果, JavaScript 是世界上最流行的脚本语言。 JavaScript 是属于 web 的语言，它适用于 PC、笔记本电脑、平板电脑和移动电话。 JavaScript 被设计为向 HTML 页面增加交互性。许多 HTML 开发者都不是程序员，但是 JavaScript 却拥有非常简单的语法。几乎每个人都有能力将小的
iBatis的分页分析与详解 bijian1013 java ibatis
分页是操作数据库型系统常遇到的问题。分页实现方法很多，但效率的差异就很大了。iBatis是通过什么方式来实现这个分页的了。查看它的实现部分，发现返回的PaginatedList实际上是个接口，实现这个接口的是PaginatedDataList类的对象，查看PaginatedDataList类发现，每次翻页的时候最
精通Oracle10编程SQL(15)使用对象类型 bijian1013 oracle 数据库 plsql
/* *使用对象类型 */ --建立和使用简单对象类型 --对象类型包括对象类型规范和对象类型体两部分。 --建立和使用不包含任何方法的对象类型 CREATE OR REPLACE TYPE person_typ1 as OBJECT( name varchar2(10),gender varchar2(4),birthdate date ); drop type p
【Linux命令二】文本处理命令awk bit1129 linux命令
awk是Linux用来进行文本处理的命令，在日常工作中，广泛应用于日志分析。awk是一门解释型编程语言，包含变量，数组，循环控制结构，条件控制结构等。它的语法采用类C语言的语法。 awk命令用来做什么？ 1.awk适用于具有一定结构的文本行，对其中的列进行提取信息 2.awk可以把当前正在处理的文本行提交给Linux的其它命令处理，然后把直接结构返回给awk 3.awk实际工
JAVA(ssh2框架)+Flex实现权限控制方案分析白糖_ java
目前项目使用的是Struts2+Hibernate+Spring的架构模式，目前已经有一套针对SSH2的权限系统，运行良好。但是项目有了新需求：在目前系统的基础上使用Flex逐步取代JSP，在取代JSP过程中可能存在Flex与JSP并存的情况，所以权限系统需要进行修改。【SSH2权限系统的实现机制】权限控制分为页面和后台两块：不同类型用户的帐号分配的访问权限是不同的，用户使
angular.forEach boyitech AngularJS AngularJS API angular.forEach
angular.forEach 描述: 循环对obj对象的每个元素调用iterator, obj对象可以是一个Object或一个Array. Iterator函数调用方法: iterator(value, key, obj), 其中obj是被迭代对象，key是obj的property key或者是数组的index，value就是相应的值啦. (此函数不能够迭代继承的属性.)
java-谷歌面试题-给定一个排序数组，如何构造一个二叉排序树 bylijinnan 二叉排序树
import java.util.LinkedList; public class CreateBSTfromSortedArray { /** * 题目:给定一个排序数组，如何构造一个二叉排序树 * 递归 */ public static void main(String[] args) { int[] data = { 1, 2, 3, 4,
action执行2次 Chen.H JavaScript jsp XHTML css Webwork
xwork 写道 <action name="userTypeAction" class="com.ekangcount.website.system.view.action.UserTypeAction"> <result name="ssss" type="dispatcher">
[时空与能量]逆转时空需要消耗大量能源 comsci 能源
无论如何,人类始终都想摆脱时间和空间的限制....但是受到质量与能量关系的限制,我们人类在目前和今后很长一段时间内,都无法获得大量廉价的能源来进行时空跨越..... 在进行时空穿梭的实验中,消耗超大规模的能源是必然
oracle的正则表达式(regular expression)详细介绍 daizj oracle 正则表达式
正则表达式是很多编程语言中都有的。可惜oracle8i、oracle9i中一直迟迟不肯加入，好在oracle10g中终于增加了期盼已久的正则表达式功能。你可以在oracle10g中使用正则表达式肆意地匹配你想匹配的任何字符串了。正则表达式中常用到的元数据(metacharacter)如下： ^ 匹配字符串的开头位置。 $ 匹配支付传的结尾位置。 *
报表工具与报表性能的关系 datamachine 报表工具 birt 报表性能润乾报表
在选择报表工具时，性能一直是用户关心的指标，但是，报表工具的性能和整个报表系统的性能有多大关系呢？要回答这个问题，首先要分析一下报表的处理过程包含哪些环节，哪些环节容易出现性能瓶颈，如何优化这些环节。一、报表处理的一般过程分析 1、用户选择报表输入参数后，报表引擎会根据报表模板和输入参数来解析报表，并将数据计算和读取请求以SQL的方式发送给数据库。 2、
初一上学期难记忆单词背诵第一课 dcj3sjt126com word english
what 什么 your 你 name 名字 my 我的 am 是 one 一 two 二 three 三 four 四 five 五 class 班级，课 six 六 seven 七 eight 八 nince 九 ten 十 zero 零 how 怎样 old 老的 eleven 十一 twelve 十二 thirteen
我学过和准备学的各种技术 dcj3sjt126com 技术
语言VB https://msdn.microsoft.com/zh-cn/library/2x7h1hfk.aspxJava http://docs.oracle.com/javase/8/C# https://msdn.microsoft.com/library/vstudioPHP http://php.net/manual/en/Html
struts2中token防止重复提交表单蕃薯耀重复提交表单 struts2中token
struts2中token防止重复提交表单 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月12日 11:52:32 星期日 ht
线性查找二维数组 hao3100590 二维数组
1.算法描述有序（行有序，列有序，且每行从左至右递增，列从上至下递增）二维数组查找，要求复杂度O(n) 2.使用到的相关知识：结构体定义和使用，二维数组传递（http://blog.csdn.net/yzhhmhm/article/details/2045816） 3.使用数组名传递这个的不便之处很明显，一旦确定就是不能设置列值 //使
spring security 3中推荐使用BCrypt算法加密密码 jackyrong Spring Security
spring security 3中推荐使用BCrypt算法加密密码了，以前使用的是md5， Md5PasswordEncoder 和 ShaPasswordEncoder，现在不推荐了，推荐用bcrpt Bcrpt中的salt可以是随机的，比如： int i = 0; while (i < 10) { String password = "1234
学习编程并不难,做到以下几点即可! lampcy java html 编程语言
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
架构师之mysql----------------用group+inner join,left join ,right join 查重复数据（替代in) nannan408 right join
1.前言。如题。 2.代码 (1)单表查重复数据,根据a分组 SELECT m.a,m.b, INNER JOIN （select a,b,COUNT(*) AS rank FROM test.`A` A GROUP BY a HAVING rank>1 )k ON m.a=k.a （2）多表查询，使用改为le
jQuery选择器小结 VS 节点查找（附css的一些东西） Everyday都不同 jquery css name选择器追加元素查找节点
最近做前端页面，频繁用到一些jQuery的选择器，所以特意来总结一下：测试页面： <html> <head> <script src="jquery-1.7.2.min.js"></script> <script> /*$(function() { $(documen
关于EXT tntxia ext
ExtJS是一个很不错的Ajax框架，可以用来开发带有华丽外观的富客户端应用，使得我们的b/s应用更加具有活力及生命力。ExtJS是一个用 javascript编写，与后台技术无关的前端ajax框架。因此，可以把ExtJS用在.Net、Java、Php等各种开发语言开发的应用中。 ExtJs最开始基于YUI技术，由开发人员Jack
一个MIT计算机博士对数学的思考 xjnine Math
在过去的一年中，我一直在数学的海洋中游荡，research进展不多，对于数学世界的阅历算是有了一些长进。为什么要深入数学的世界？作为计算机的学生，我没有任何企图要成为一个数学家。我学习数学的目的，是要想爬上巨人的肩膀，希望站在更高的高度，能把我自己研究的东西看得更深广一些。说起来，我在刚来这个学校的时候，并没有预料到我将会有一个深入数学的旅程。我的导师最初希望我去做的题目，是对appe

Spark集群的三种模式

文章目录

1、Spark的由来

1.1 Hadoop的发展

1.2 MapReduce与Spark对比

2、Spark内置模块

3、Spark运行模式

3.1 Standalone模式部署

配置历史服务器

配置高可用

运行模式

3.2 Yarn模式安装部署

配置历史服务器

运行模式

4、WordCount案例

你可能感兴趣的:(#,Spark,spark,hadoop,big,data)