Key-Key

大数据开发之Spark（入门）

第 1 章：Spark概述

1.1 什么是spark

回顾：hadoop主要解决，海量数据的存储和海量数据的分析计算。
spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。

1.2 hadoop与spark历史

hadoop的yarn框架比spark框架诞生的晚，所以spark自己也涉及了一套资源调度框架。
区别：
1、mr是基于磁盘的，spark是基于内存
2、mr的task是进程
3、spark的task是线程，在executor进程里执行的是线程
4、mr在container里执行（留有接口方便插入），spark在worker里执行（自己用，没有接口）
5、mr适合做一次计算，spark适合做迭代计算

1.3 hadoop与spark框架对比

1、hadoop mr框架
从数据源获取数据，经过分析计算，将结果输出到指定位置，核心是一次计算，不适合迭代计算。

2、spark框架
spark框架计算比mr快的原因是：中间结果不落盘。注意spark的shuffle也是落盘的。

1.4 spark内置模块

spark core：实现了spark的基本功能，包括任务调度、内存管理、错误恢复、与存储系统交互等模块。spark core中还包含了对弹性分布式数据集（resilient distributed dataset，简称rdd）的api定义。
spark sql：是spark用来操作结构化数据的程序包。通过spark sql，我们可以使用sql或者apache hive版本的hql来查询数据。spark sql支持多种数据源，比如hive表、parquet以及json等。
spark mllib：提供常见的机器学习功能的程序库。包括分类、回归、聚类、协同过滤等，还提供了模型评估、数据导入等额外的支持功能。
spark graphx：主要用于图形并行计算和图挖掘系统的组件。
集群管理器：spark设计为可以高效地在一个计算节点到数千个计算节点之间伸缩计算。为了实现这样的要求，同时获得最大灵活性，spark支持在各种集群管理器（cluster manager）上运行，包括hadoop yarn、apache mesos，以及spark自带的一个简易调度器，叫做独立调度器。

1.5 spark特点

1、快：与hadoop的mapreduce相比，spark基于内存的运算要快上100倍以上，基于硬盘的运算也要快10倍以上。spark实现了高效的dag执行引擎，口头语通过基于内存来高效处理数据流。计算的中间结果是存在于内存中的。
2、易用：spark支持java、python和scala的api，还支持超过80种高级算法，使用户可以快速构建不同的应用。而且spark支持交互式的python和scala的shell，可以非常方便地在这些shell种使用spark集群来验证解决问题的方法。
3、通用：spark提供了统一的解决方案。spark可以用于，交互式查询（spark sql）、实时流处理（spark streaming）、机器学习（spark mllib）和图计算（graphx）。这些不同类型的处理1都可以在同一个应用种无缝使用。减少了开发和维护的人力成本和部署平台的物力成本。
4、兼容性：spark可以非常方便地与其它地开源产品进行融合。比如：spark可以使用hadoop的yarn和apache mesos作为它的资源管理和调度器，并且可以处理所有hadoop支持的数据，包括hdfs、hbase等。这对于已经部署hadoop集群的用户特别重要，因为不需要做任何数据迁移就可以使用spark的强大处理能力。

第 2 章：spark运行模式

部署spark集群大体上分为两种模式：单机模式与集群模式
大多数分布式框架都支持单机模式，方便开发者调试框架的运行环境。但是在生产环境种，并不会使用单机模式。因此，后续直接按照集群模式部署spark集群。
下面详细列举了spark目前支持的部署模式。
1、local模式：在本地部署spark服务
2、standalone模式：spark自带的任务调度模式。（国内常用）
3、yarn模式：spark使用hadoop的yarn组件进行资源和任务调度。（国内最常用）
4、mesos模式：spark使用mesos平台进行资源与任务的调度。（国内很少用）

2.2 local模式

local模式就是运行在一台计算机上的模式，通常就是用于在本机上练手和测试

2.2.1 安装使用

1）上传并解压spark安装包

[atguigu@hadoop102 sorfware]$ tar -zxvf spark-3.1.3-bin-hadoop3.2.tgz -C /opt/module/
[atguigu@hadoop102 module]$ mv spark-3.1.3-bin-hadoop3.2 spark-local

2）官方求pi案例

[atguigu@hadoop102 spark-local]$ bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master local[2] \
./examples/jars/spark-examples_2.12-3.1.3.jar \
10

可以查看spark-submit所用参数

[atguigu@hadoop102 spark-local]$ bin/spark-submit

–class：表示要执行程序的主类
–master local[2]“
（1）local：没有指定线程数，则所有计算都运行在一个线程当中，没有任何并行计算。
（2）local[k]：指定使用k个core来运行计算，比如local[2]就是运行2个core来执行

20/09/20 09:30:53 INFO TaskSetManager:
20/09/15 10:15:00 INFO Executor: Running task 1.0 in stage 0.0 (TID 1)
20/09/15 10:15:00 INFO Executor: Running task 0.0 in stage 0.0 (TID 0)

（3）local[*]：默认模式。自动帮你按照cpu最多核来设置线程数。比如cpu有8核，spark帮你自动设置8个线程。

20/09/20 09:30:53 INFO TaskSetManager:
20/09/15 10:15:58 INFO Executor: Running task 1.0 in stage 0.0 (TID 1)
20/09/15 10:15:58 INFO Executor: Running task 0.0 in stage 0.0 (TID 0)
20/09/15 10:15:58 INFO Executor: Running task 2.0 in stage 0.0 (TID 2)
20/09/15 10:15:58 INFO Executor: Running task 4.0 in stage 0.0 (TID 4)
20/09/15 10:15:58 INFO Executor: Running task 3.0 in stage 0.0 (TID 3)
20/09/15 10:15:58 INFO Executor: Running task 5.0 in stage 0.0 (TID 5)
20/09/15 10:15:59 INFO Executor: Running task 7.0 in stage 0.0 (TID 7)
20/09/15 10:15:59 INFO Executor: Running task 6.0 in stage 0.0 (TID 6)

3）结果展示
该算法是利用蒙特-卡罗算法求pi

2.2.2 官方wordcount案例

1、需求：读取多个输入文件，统计每个单词出现的总次数。
2、需求分析

3、代码实现
1）准备文件

[atguigu@hadoop102 spark-local]$ mkdir input

在Input下创建2个文件1.txt和2.txt，并输入一下内容

hello atguigu
hello spark

2）启动spark-shell

[atguigu@hadoop102 spark-local]$ bin/spark-shell

20/07/02 10:17:11 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
Spark context Web UI available at http://hadoop102:4040
Spark context available as 'sc' (master = local[*], app id = local-1593656236294).
Spark session available as 'spark'.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 3.1.3
      /_/
         
Using Scala version 2.12.10 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_212)
Type in expressions to have them evaluated.
Type :help for more information.

scala>

注意：sc是sparkcore程序的入口；spark是sparksql程序入口；master=local[*]表示本地模式运行。
3）再开启一个hadoop102远程连接窗口，发现了一个sparksubmit进程

[atguigu@hadoop102 spark-local]$ jps
3627 SparkSubmit
4047 Jps

运行任务方式说明：spark-submit，是将jar上传到集群，执行spark任务；spark-shell，相当于命令行工具，本身也是一个application。
4）登录hadoop102:4040，查看程序运行情况

说明：本地模式下，默认的调度器为fifo。
5）运行workcount程序

scala>sc.textFile("/opt/module/spark-local/input").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

res0: Array[(String, Int)] = Array((hello,4), (atguigu,2), (spark,2))

注意：只有collect开始执行时，才会加载数据
可登录hadoop102:4040查看程序运行结果

2.3 standalone模式

standalone模式是spark自带的资源调度引擎，构建一个由master+worker构成的spark集群，spark运行在集群种。
这个要和hadoop中的standalone区别开来。这里的standalone是指只用spark来搭建一个集群，不需要借助hadoop的yarn和mesos等其它框架。

2.3.1 master和worker集群资源管理

master：spark特有资源调度系统的leader。掌管着整个集群的资源信息，类似于yarn框架中的resourcemanager。
worker：spark特有资源调度系统的slave，有多个。每个slave掌管着所在节点的资源信息，类似于yarn框架中的nodemanager。

master和worker是spark的守护进程、集群资源管理者，即spark在特定模式（standalone）下正常运行必须要有的后台常驻进程。

2.3.2 driber和executor任务的管理者

driver和executor是临时程序，当有具体任务提交到spark集群才会开启的程序。standalone模式是spark自带的资源调度引擎，构建一个由master+worker构成spark集群，spark运行在集群中。
这个要和hadoop中的standalone区别开来。这里的standalone是指只用spark来搭建一个集群，不需要借助hadoop的yarn和mesos等其它框架。

2.3.2 安装使用

1、集群规划

2、再解压一份spark安装包，并修改解压后的文件夹名称为spark-standalone

[atguigu@hadoop102 sorfware]$ tar -zxvf spark-3.1.3-bin-hadoop3.2.tgz -C /opt/module/
[atguigu@hadoop102 module]$ mv spark-3.1.3-bin-hadoop3.2 spark-standalone

3、进入spark的配置文件/opt/module/spark-standalone/conf

[atguigu@hadoop102 spark-standalone]$ cd conf

4、修改slave文件，添加work节点

atguigu@hadoop102 conf]$ mv slaves.template slaves
[atguigu@hadoop102 conf]$ vim slaves
hadoop102
hadoop103
hadoop104

5、修改spark-env.sh文件，添加master节点

[atguigu@hadoop102 conf]$ mv spark-env.sh.template spark-env.sh
[atguigu@hadoop102 conf]$ vim spark-env.sh

SPARK_MASTER_HOST=hadoop102
SPARK_MASTER_PORT=7077

6、分发spark-standalone包

[atguigu@hadoop102 module]$ xsync spark-standalone/

7、启动spark集群

[atguigu@hadoop102 module]$ xsync spark-standalone/

查看三台服务器运行进程（xcall.sh是以前数仓项目里面讲的脚本）

[atguigu@hadoop102 spark-standalone]$ xcall.sh jps
================atguigu@hadoop102================
3238 Worker
3163 Master
================atguigu@hadoop103================
2908 Worker
================atguigu@hadoop104================
2978 Worker

注意：如果遇见”Java_home not set“异常，可以在sbin目录下的spark-config.sh文件中加入如下配置

export JAVA_HOME=XXXX

8、网页查看：hadoop102:8080
9、官方求pi案例

[atguigu@hadoop102 spark-standalone]$ bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://hadoop102:7077 \
./examples/jars/spark-examples_2.12-3.1.3.jar \
10

参数：–master spark://hadoop102:7077指定要连接的集群的master。
10、页面查看http://hadoop102:8080/，发现执行本次任务，默认采用三台服务器节点的总核数24核，每个节点内存1024M.
8080：master的webui
4040：application的webui的端口号

2.3.3 参数说明

1、配置executor可用内存为2G，使用cpu核数为2个

[atguigu@hadoop102 spark-standalone]$ bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://hadoop102:7077 \
--executor-memory 2G \
--total-executor-cores 2 \
./examples/jars/spark-examples_2.12-3.1.3.jar \
10

2、页面查看http://hadoop102:8080/

3、基本语法

bin/spark-submit \
--class 
--master  \
... # other options
<application-jar> \
[application-arguments]

4、参数说明

2.3.4 配置历史服务

由于spark-shell停止掉后，hadoop102:4040页面就看不到历史任务的运行情况，所以开发时都配置历史服务器记录任务运行情况
1、修改spark-default.conf.template名称

[atguigu@hadoop102 conf]$ mv spark-defaults.conf.template spark-defaults.conf

2、修改spark-default.conf文件，配置日志存储路径

[atguigu@hadoop102 conf]$ vim spark-defaults.conf
spark.eventLog.enabled          true
spark.eventLog.dir              hdfs://hadoop102:8020/directory

注意：需要启动hdaoop集群，hdfs上的目录需要提前存在

[atguigu@hadoop102 hadoop-3.1.3]$ sbin/start-dfs.sh
[atguigu@hadoop102 hadoop-3.1.3]$ hadoop fs -mkdir /directory

3、修改spark-env.sh文件，添加如下配置

[atguigu@hadoop102 conf]$ vim spark-env.sh

export SPARK_HISTORY_OPTS="
-Dspark.history.ui.port=18080 
-Dspark.history.fs.logDirectory=hdfs://hadoop102:8020/directory 
-Dspark.history.retainedApplications=30"

1）参数1含义：webui访问的端口号为18080
2）参数2含义：指定历史服务器日志存储路径（读）
3）参数3含义：指定保存application历史记录的个数，如果超过这个值，旧的应用程序信息将被删除，这个是内存中的应用数，而不是页面上的显示的应用数
4、分发配置文件

[atguigu@hadoop102 conf]$ xsync spark-defaults.conf spark-env.sh

5、启动历史服务

[atguigu@hadoop102 spark-standalone]$ 
sbin/start-history-server.sh

6、再次执行任务

[atguigu@hadoop102 spark-standalone]$ bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://hadoop102:7077 \
--executor-memory 1G \
--total-executor-cores 2 \
./examples/jars/spark-examples_2.12-3.1.3.jar \
10

7、查看spark历史服务地址：hadoop102:18080

2.3.5 配置高可用（HA）

1、高可用原理

2、配置高可用
1）停止集群

[atguigu@hadoop102 spark-standalone]$ sbin/stop-all.sh

2）zookeeper正常安装并启动（基于以前讲的数仓项目脚本）

[atguigu@hadoop102 zookeeper-3.4.10]$ zk.sh start

3）修改spark-env.sh文件添加如下配置

[atguigu@hadoop102 conf]$ vim spark-env.sh

#注释掉如下内容：
#SPARK_MASTER_HOST=hadoop102
#SPARK_MASTER_PORT=7077

#添加上如下内容。配置由Zookeeper管理Master，在Zookeeper节点中自动创建/spark目录，用于管理：
export SPARK_DAEMON_JAVA_OPTS="
-Dspark.deploy.recoveryMode=ZOOKEEPER 
-Dspark.deploy.zookeeper.url=hadoop102,hadoop103,hadoop104 
-Dspark.deploy.zookeeper.dir=/spark"

#添加如下代码
#Zookeeper3.5的AdminServer默认端口是8080，和Spark的WebUI冲突
export SPARK_MASTER_WEBUI_PORT=8989

4）分发配置文件

[atguigu@hadoop102 conf]$ xsync spark-env.sh

5）在hadoop102上启动全部节点

[atguigu@hadoop102 spark-standalone]$ sbin/start-all.sh

6）在hadoop103上单独启动master节点

[atguigu@hadoop103 spark-standalone]$ sbin/start-master.sh

7）在启动一个hadoop102窗口，将/opt/module/spark-local/input数据上传到hadoop集群的/input目录

[atguigu@hadoop102 spark-standalone]$ hadoop fs -put /opt/module/spark-local/input/ /input

8）spark ha集群访问

[atguigu@hadoop102 spark-standalone]$
bin/spark-shell \
--master spark://hadoop102:7077,hadoop103:7077 \
--executor-memory 2g \
--total-executor-cores 2

参数：–master spark://hadoop102:7077指定要连接的集群的master
注：一旦配置了高可用以后，master后面要连接多个master
9）执行wordcount程序

scala>sc.textFile("hdfs://hadoop102:8020/input").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

res0: Array[(String, Int)] = Array((hello,4), (atguigu,2), (spark,2))

3、高可用性测试

1）查看hadoop102的master进程

[atguigu@hadoop102 ~]$ jps
5506 Worker
5394 Master
5731 SparkSubmit
4869 QuorumPeerMain
5991 Jps
5831 CoarseGrainedExecutorBackend

2）kill掉hadoop102的master进程，页面中观察http://hadoop103:8080/的状态是否切换为active

[atguigu@hadoop102 ~]$ kill -9 5394

3）再启动hadoop102的master进程

[atguigu@hadoop102 spark-standalone]$ sbin/start-master.sh

2.3.5 运行流程

spark由standalone-client核standalone-cluster两种模式，主要区别在于：driver程序的运行节点。
1、客户端模式

[atguigu@hadoop102 spark-standalone]$ bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://hadoop102:7077,hadoop103:7077 \
--executor-memory 2G \
--total-executor-cores 2 \
--deploy-mode client \
./examples/jars/spark-examples_2.12-3.1.3.jar \
10

–deploy-mode client，表示driver程序运行再本地客户端，默认模式。
standalone client运行流程

2、集群模式

[atguigu@hadoop102 spark-standalone]$ bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://hadoop102:7077,hadoop103:7077 \
--executor-memory 2G \
--total-executor-cores 2 \
--deploy-mode cluster \
./examples/jars/spark-examples_2.12-3.1.3.jar \
10

–deploy-mode cluster，表示driver程序运行在集群
standalone cluster运行流程

1）查看http://hadoop102:8989/页面，点击completed drivers里面的worker

2）跳转到spark worker页面，点击finished drivers中logs下面的stdout

3）最终打印结果如下

注意：在测试standalone模式，cluster运行流程的时候，阿里云用户访问不到worker，因为worker是从master内部跳转的，这是正常的，实际工作中我们不可能通过客户端访问的，这些恶端口都对外都会禁用，需要的时候会通过授权到master访问worker

2.4 yarn模式（重点）

spark客户端直接连接yarn，不需要额外构建spark集群

2.4.1 安装使用

1、停止standalone模式下的spark集群

[atguigu@hadoop102 spark-standalone]$ sbin/stop-all.sh
[atguigu@hadoop102 spark-standalone]$ zk.sh stop
[atguigu@hadoop103 spark-standalone]$ sbin/stop-master.sh

2、为了防止和standalone模式冲突，再单独解压一份spark

[atguigu@hadoop102 software]$ tar -zxvf spark-3.1.3-bin-hadoop3.2.tgz -C /opt/module/

3、进入到/opt/module目录，修改spark-~名称为spark-yarn

[atguigu@hadoop102 module]$ mv spark-3.1.3-bin-hadoop3.2/ spark-yarn

4、修改hadoop配置文件/opt/module/~/yarn-site.xml，添加如下内容
因为测试环境虚拟机内存较少，防止执行过程进行倍意外杀死，做如下处理

[atguigu@hadoop102 hadoop]$ vim yarn-site.xml
<!--是否启动一个线程检查每个任务正使用的物理内存量，如果任务超出分配值，则直接将其杀掉，默认是true -->
<property>
     <name>yarn.nodemanager.pmem-check-enabled</name>
     <value>false</value>
</property>

<!--是否启动一个线程检查每个任务正使用的虚拟内存量，如果任务超出分配值，则直接将其杀掉，默认是true -->
<property>
     <name>yarn.nodemanager.vmem-check-enabled</name>
     <value>false</value>
</property>

5、分发配置文件

[atguigu@hadoop102 conf]$ xsync /opt/module/hadoop-3.1.3/etc/hadoop/yarn-site.xml

6、修改/opt/~/spark-env.sh，添加yarn_conf_dir配置，保证后续运行任务的路径都编程集群路径

[atguigu@hadoop102 conf]$ mv spark-env.sh.template spark-env.sh
[atguigu@hadoop102 conf]$ vim spark-env.sh

YARN_CONF_DIR=/opt/module/hadoop-3.1.3/etc/hadoop

7、启动hdfs以及yarn集群

[atguigu@hadoop102 hadoop-3.1.3]$ sbin/start-dfs.sh
[atguigu@hadoop103 hadoop-3.1.3]$ sbin/start-yarn.sh

8、执行一个程序

[atguigu@hadoop102 spark-yarn]$ bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
./examples/jars/spark-examples_2.12-3.1.3.jar \
10

参数：–master yarn，表示yarn方式运行；–deploy-mode，表示客户端方式运行程序
9、查看hadoop103:8088页面，点击history，查看历史页面

2.4.2 配置历史服务

由于是重新解压的spark压缩文件，所以需要针对yarn模式，再次配置一下历史服务器。
1、修改spark-default.conf.template名称

2、修改spark-default.conf文件，配置日志存储路径（写）

3、修改spark-env.sh文件，添加如下配置

参数1含义：webui访问的端口号为18080
参数2含义：指定历史服务器日志存储路径（读）
参数3含义：指定保存application历史记录的个数，如果超过这个值，旧的应用程序信息将被删除，这个是内存中的应用数，而不是页面上显示的应用数

2.4.3 配置查看历史日志

为了能从yarn上关联到spark历史服务器，需要配置spark历史服务器关联路径
目的：点击yarn（8088）上spark任务的history按钮，进入的是spark历史服务器（18080），而不再是yarn历史服务器（19888）
1、修改配置文件/opt/module/~/spark-defaults.conf
添加如下内容：

spark.yarn.historyserver.address=hadoop102:18080
spark.history.ui.port=18080

2、重启spark历史服务

[atguigu@hadoop102 spark-yarn]$ sbin/stop-history-server.sh 

[atguigu@hadoop102 spark-yarn]$ sbin/start-history-server.sh

3、提交任务到yarn执行

[atguigu@hadoop102 spark-yarn]$ bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
./examples/jars/spark-examples_2.12-3.1.3.jar \
10

4、web页面查看日志：http://hadoop103:8088/cluster

点击”history“跳转到http://hadoop102:18080/

2.4.4 运行流程

spark由yarn-client和yarn-cluster两种模式，主要区别在于：driver程序的运行节点
yarn-client：driver程序运行在客户端，适用于交互、调试，希望立即看到app的输出
yarn-cluster：driver程序运行在由resourcemanager启动的appmaster，适用于生产环境
1、客户端模式（默认）

[atguigu@hadoop102 spark-yarn]$ bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode client \
./examples/jars/spark-examples_2.12-3.1.3.jar \
10

yarnclient运行模式介绍

2、集群模式

[atguigu@hadoop102 spark-yarn]$ bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode cluster \
./examples/jars/spark-examples_2.12-3.1.3.jar \
10

（1）查看http://hadoop103:8088/cluster页面，点击history按钮，跳转到历史详情页面

（2）http://hadoop102:18080点击executors->点击driver的stdout

注意：如果在yarn日志端无法查看到具体的日志，则在yarn-site.xml中添加如下配置并启动yarn历史服务器

<property>
    <name>yarn.log.server.url</name>
    <value>http://hadoop102:19888/jobhistory/logs
</property>

注意：hadoop历史服务器也要启动 mr-jobhistory-daemon.sh start historyserver
yarncluster模式

2.6 几种模式对比

2.7 端口号总结

1、spark查看当前spark-shell运行任务情况端口号：4040
2、spark master内部通信服务端口号：7077（类似于yarn的8032（rm和nm的内部通信）端口）
3、spark standalone模式master web端口号：8080（类似于hadoop yarn任务运行情况查看端口号：8088）（yarn模式）8989
4、spark历史服务器端口号：18080（类似于hadoop历史服务器端口号：19888）

第 3 章：workcount案例实操

spark shell仅在测试和验证我们的程序时使用的较多，在生产环境中，通常会在idea中编制程序，然后打包jar包，然后提交到集群，最常用的是创建一个maven项目，利用maven来管理jar包的依赖。

3.1 部署环境

1、创建一个maven项目wordcount
2、在项目wordcount上点击右键，add framework support -> 勾选scala
3、在main下创建scala文件夹，并右键mark directory as sources root -> 在scala下创建包com.atguigu.spark
4、输入文件夹准备

5、导入项目依赖
下方的的是scala语言打包插件，只要使用scala语法打包运行到linux上面，必须要有

<dependencies>
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-core_2.12</artifactId>
        <version>3.1.3</version>
    </dependency>
</dependencies>

<build>
	<finalName>WordCount</finalName>
    <plugins>
        <plugin>
            <groupId>net.alchim31.maven</groupId>
            <artifactId>scala-maven-plugin</artifactId>
            <version>3.4.6</version>
            <executions>
                <execution>
                   <goals>
                      <goal>compile</goal>
                      <goal>testCompile</goal>
                   </goals>
                </execution>
             </executions>
        </plugin>
    </plugins>
</build>

3.2 本地调试

本地spark程序调试需要使用local提交模式，即将本机当作运行环境，master和worker都为本机。运行时直接加断点调试即可。如下：
1、代码实现

package com.atguigu.spark

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object WordCount {

    def main(args: Array[String]): Unit = {

        //1.创建SparkConf并设置App名称
        val conf = new SparkConf().setAppName("WC").setMaster("local[*]")

        //2.创建SparkContext，该对象是提交Spark App的入口
        val sc = new SparkContext(conf)

        //3.读取指定位置文件:hello atguigu atguigu
        val lineRdd: RDD[String] = sc.textFile("input")

        //4.读取的一行一行的数据分解成一个一个的单词（扁平化）(hello)(atguigu)(atguigu)
        val wordRdd: RDD[String] = lineRdd.flatMap(_.split(" "))

        //5. 将数据转换结构：(hello,1)(atguigu,1)(atguigu,1)
        val wordToOneRdd: RDD[(String, Int)] = wordRdd.map((_, 1))

        //6.将转换结构后的数据进行聚合处理 atguigu:1、1 =》1+1  (atguigu,2)
        val wordToSumRdd: RDD[(String, Int)] = wordToOneRdd.reduceByKey(_+_)

        //7.将统计结果采集到控制台打印
        wordToSumRdd.collect().foreach(println)

        //8.关闭连接
        sc.stop()
    }
}

2、调试流程

spark程序运行过程中会打印大量的执行日志，为了能够更好的查看程序的执行结果，可以在项目的resources目录中创建log4j.properties文件，并添加日志配置文件：

log4j.rootCategory=ERROR, console
log4j.appender.console=org.apache.log4j.ConsoleAppender
log4j.appender.console.target=System.err
log4j.appender.console.layout=org.apache.log4j.PatternLayout
log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n

# Set the default spark-shell log level to ERROR. When running the spark-shell, the
# log level for this class is used to overwrite the root logger's log level, so that
# the user can have different defaults for the shell and regular Spark apps.
log4j.logger.org.apache.spark.repl.Main=ERROR

# Settings to quiet third party logs that are too verbose
log4j.logger.org.spark_project.jetty=ERROR
log4j.logger.org.spark_project.jetty.util.component.AbstractLifeCycle=ERROR
log4j.logger.org.apache.spark.repl.SparkIMain$exprTyper=ERROR
log4j.logger.org.apache.spark.repl.SparkILoop$SparkILoopInterpreter=ERROR
log4j.logger.org.apache.parquet=ERROR
log4j.logger.parquet=ERROR

# SPARK-9183: Settings to avoid annoying messages when looking up nonexistent UDFs in SparkSQL with Hive support
log4j.logger.org.apache.hadoop.hive.metastore.RetryingHMSHandler=FATAL
log4j.logger.org.apache.hadoop.hive.ql.exec.FunctionRegistry=ERROR

3、集群运行

3.3 集群运行

1、修改代码，修改运行模式，将输出的方法修改为落盘，同时设置可以自定义的传入传出路径

package com.atguigu.spark

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object WordCount {
  def main(args: Array[String]): Unit = {
    // 创建配置对象 添加配置参数
    val conf: SparkConf = new SparkConf()
      .setAppName("wc")
      // 如果是yarn模式  写yarn
      // 如果是本地模式一定要写local
    .setMaster("yarn")

    // 初始化sc
    val sc = new SparkContext(conf)

    // 编写wordCount计算流程
    // 把读入和写出的路径  做成动态的参数  可以由用户手动填写
    // 写成main方法参数
    val lineRDD: RDD[String] = sc.textFile(args(0))

    // 切分
    val wordRDD: RDD[String] = lineRDD.flatMap(_.split(" "))

    // 转换
    val tupleOneRDD: RDD[(String, Int)] = wordRDD.map((_, 1))

    // 聚合
    val wordCountRDD: RDD[(String, Int)] = tupleOneRDD.reduceByKey(_ + _)

    // 触发计算  一定要使用行动算子
    // 将结果保存到文件中
    // 不能重复写入同一个路径
    wordCountRDD.saveAsTextFile(args(1))
  }
}

2、打包到集群测试
1）点击package打包，然后，查看打包完后的jar包

2）将wordcount.jar上传到/opt/module/spark-yarn目录
3）在hdfs上创建，存储输入文件的路径/input

[atguigu@hadoop102 spark-yarn]$ hadoop fs -mkdir /input

4）上传输入文件到/input路径

[atguigu@hadoop102 spark-yarn]$ hadoop fs -put /opt/module/spark-local/input/1.txt /input

5）执行任务

[atguigu@hadoop102 spark-yarn]$ bin/spark-submit \
--class com.atguigu.spark.WordCount \
--master yarn \
./WordCount.jar \
hdfs://hadoop102:8020/input \
hdfs://hadoop102:8020/output

注意：input和output都是hdfs上的集群路径
6）查看运行结果

[atguigu@hadoop102 spark-yarn]$ hadoop fs -cat /output/*

3.4 关联源码

1、按住ctrl键，点击rdd

2、提示下载或者绑定源码

3、解压资料包中spark-3.1.3.tgz到非中文路径。例如解压到：e:\02_software
4、点击attach source…按钮，选择源码路径e:\02_software\spark-3.1.3

3.5 异常处理

如果本机操作系统是windows，如果在程序中使用了hadoop相关的东西，比如写入文件到hdfs，则会遇到如下异常：

出现这个问题的原因，并不是程序的错误，而是用到了hadoop相关的服务，解决办法
1、配置hadoop_home环境变量
2、在idea中配置 run configuration，添加hadoop_home变量

你可能感兴趣的:(大数据,spark,分布式)

Redis 分布式锁实现与实践佑瞻数据库与知识图谱 redis 分布式数据库
在分布式系统架构中，多个独立进程对共享资源的并发访问控制是常见需求，分布式锁作为解决这一问题的关键技术，在缓存更新、任务调度、库存管理等场景中发挥着重要作用。本文将从基础原理出发，详细阐述基于Redis的分布式锁实现方案，包括单实例模式与Redlock算法，并探讨其在实际应用中的关键考量。分布式锁核心概念分布式锁是一种跨进程、跨机器的同步机制，用于保证多个分布式节点对共享资源的互斥访问。一个可靠的
oracle pg 文件级迁移,从Oracle迁移到AntDB(二)-- ora2pg-对象和数据的导出导入
使用Ora2pg和psqlcopy方式进行数据迁移author:yafeishitags:AntDB,ora2pg,oracleAntDB:github_url,基于postgresql的高性能分布式数据库使用Ora2pg和psqlcopy方式进行数据迁移准备工作使用本文档的前提本文档指导如何使用ora2pg进行oracle到ADB的数据迁移，但是在参照本文档操作之前，有以下条件必须满足：-ADB
Spring 生态创新应用：微服务架构设计与前沿技术融合实践七夜zippoe #Java spring 微服务 java
在数字化转型的深水区，企业级应用正面临从“单体架构”向“分布式智能架构”的根本性跃迁。Spring生态以其二十年技术沉淀形成的生态壁垒，已成为支撑这场变革的核心基础设施。从2002年RodJohnson发布《ExpertOne-on-OneJ2EEDesignandDevelopment》奠定的理论基础，到如今覆盖从开发到运维全链路的技术矩阵，Spring始终以“简化开发”为初心，构建出适配不同业
HarmonyOS 入门到精通：为什么状态管理是鸿蒙开发的核心？逻极 harmonyos 鸿蒙笔记 harmonyos 华为鸿蒙入门到精通状态管理状态模式 arkts
在现代应用开发中，状态管理是构建响应式应用的基石。对于鸿蒙这种面向全场景的分布式操作系统，状态管理机制显得尤为重要。它不仅是实现复杂交互逻辑的关键，还直接关系到应用的性能、可维护性和用户体验。什么是状态管理？状态是指UI组件所依赖的、会随时间变化的数据。状态管理则是对这些变化数据的有效组织和控制，包括：状态的创建与初始化：在应用启动或组件加载时，为状态变量分配初始值，确保组件能够正确渲染初始界面。
4.服务注册发现：微服务的神经系统
在微服务架构中，服务之间不再是固定连接，而是高度动态、短暂存在的。如何让每个服务准确找到彼此，是分布式系统治理的核心问题之一。服务注册发现机制，正如神经系统之于人体，承担着连接、协调、感知变化的关键角色。本文将围绕Netflix开源的服务注册发现组件Eureka展开，深入剖析其原理，并以SpringCloud实战为导向，帮助你掌握服务治理的第一步。一、为什么需要服务注册发现？在单体架构中，服务调用
2.Spring Cloud生态全景解析：核心组件、能力边界与定位碎风影 SpringCloud深度解析 spring cloud spring 后端
导语：SpringCloud并非单一框架，而是基于SpringBoot构建的分布式系统工具集。它通过标准化封装，将服务发现、配置管理、熔断限流等复杂基础设施转化为开箱即用的组件，让开发者聚焦业务逻辑。本文将系统解析其核心组成、与SpringBoot的共生关系，并客观审视其能力边界，助您构建清晰的微服务技术选型地图。一、核心基石：SpringBoot与SpringCloud的共生关系关键结论：Spr
clickhouse分布式表插入数据不用带ON CLUSTER 时时刻刻看着自己的心 clickhouse 分布式
向分布式表插入数据时，通常不需要使用ONCLUSTER，因为分布式表的写入操作会自动将数据分发到底层表（bm_online_user_count_part）的对应节点。但对于DDL（数据定义语句，例如ALTERTABLE）操作，在分布式环境中修改底层表时，建议使用ONCLUSTER，以确保所有相关节点上的表结构和数据同步。区分DDL和DMLDML（数据操作语句，例如INSERT）向分布式表插入数据
k8s深度讲解----宏观架构与集群之脑 - API Server 和 etcd weixin_42587823 云原生 kubernetes 架构 etcd
宏观架构与集群之脑-APIServer和etcd宏观架构：数据中心的操作系统在开始之前，让我们先建立一个高层视角。你可以将Kubernetes想象成一个管理整个数据中心的分布式操作系统。在这个操作系统中：控制平面(ControlPlane)就是它的“内核”，负责管理和决策。工作节点(WorkerNodes)就是它的“CPU和内存”，是真正运行应用程序的地方。我们常用的kubectl就是与这个“内核
Kafka浅学文文Tao kafka java 分布式
Kafka应用场景？异步解耦流量消锋Kafka消息队列特点？Kafka吞吐量高：因为他存储数据时，磁盘顺序存储，磁盘的顺序存储速度很快。Kafka持久化消息：这些消息日志可以被重复读取和永久保留可以运行时动态扩展伸缩：Kafka是分布式系统：它以集群的方式运行，早期依赖Zookeeper对于Kafka的作用是什么？Zookeeper是分布式协调服务。Zookeeper作用：用于在Kafka集群中不
vivo Pulsar 万亿级消息处理实践（3）-KoP指标异常修复
作者：vivo互联网大数据团队-ChenJianbo本文是《vivoPulsar万亿级消息处理实践》系列文章第3篇。Pulsar是Apache基金会的开源分布式流处理平台和消息中间件，它实现了Kafka的协议，可以让使用KafkaAPI的应用直接迁移至Pulsar，这使得Pulsar在Kafka生态系统中更加容易被接受和使用。KoP提供了从Kafka到Pulsar的无缝转换，用户可以使用Kafka
Hive 事务表(ACID)问题梳理
文章目录问题描述分析原因什么是事务表概念事务表和普通内部表的区别相关配置事务表的适用场景注意事项设计原理与实现文件管理格式参考博客问题描述工作中需要使用pyspark读取Hive中的数据，但是发现可以获取metastore，外部表的数据可以读取，内部表数据有些表报错信息是：AnalysisException:org.apache.hadoop.hive.ql.metadata.HiveExcept
广州曼顿2P数字微断：保护电力设备的安全守护者 mdkk678 安全
在现代社会，电力设备的安全运行对各行各业至关重要。然而，电力系统中存在各种电压波动、过载和短路等问题，可能对设备造成损害。为了保护电力设备免受这些问题的影响，广州曼顿推出了2P数字微断器。本文将介绍这一创新产品的特点和优势，以及它对电力设备的保护作用。广州曼顿科技有限公司专注用户侧智慧数字电气产品研制，以及智慧电能服务大数据云平台建设。基于人工智能技术，大幅提升人触电时的生命安全保障，以及电气火灾
探秘阿里云消息队列：解锁分布式系统的异步通信奥秘云资源服务商阿里云云计算中间件
阿里云消息队列：分布式架构的基石在当今数字化快速发展的时代，分布式系统已成为企业构建高可用、高性能应用的关键架构。而消息队列，作为分布式系统中的重要组件，犹如基石一般，支撑着整个架构的稳定运行。它能够有效地解决分布式系统中的异步通信、解耦、削峰填谷等问题，为系统的可靠性和扩展性提供了强大的保障。阿里云作为云计算领域的领军者，其推出的阿里云消息队列凭借着卓越的性能、高可靠性以及丰富的功能，成为了众多
Python爬虫在社交平台数据挖掘中的应用：深入探索用户互动程序员威哥 python 爬虫数据挖掘
引言社交媒体已经成为全球用户互动的主要平台，每天都有大量的信息生成，用户之间的互动行为如点赞、评论、分享、转发等构成了宝贵的数据资源。如何利用这些互动数据为商业决策、用户行为分析以及产品优化提供支持，已经成为数据科学与大数据分析领域的一个重要课题。Python作为一款强大的编程语言，凭借其丰富的爬虫库和数据分析工具，已经成为挖掘社交平台数据的重要工具。在本文中，我们将通过Python爬虫技术，深入
突破性能瓶颈，几个高性能Python网络框架，高效实现网络应用
引言随着互联网和大数据时代的到来，高性能网络应用的需求日益增加。Python作为一种流行的编程语言，在高性能网络编程领域也具有广泛的应用。本文将深入探讨基于Python的几种高性能网络框架，分析它们各自的优势和适用场景，帮助开发者选择最适合自己需求的网络框架这里插播一条粉丝福利，如果你正在学习Python或者有计划学习Python，想要突破自我，对未来十分迷茫的，可以点击这里获取最新的Python
Python 爬虫实战：如何搭建高效的分布式爬虫架构，突破数据抓取极限程序员威哥 python 爬虫分布式
随着互联网数据量的飞速增长，单一爬虫在抓取大量数据时的效率和稳定性往往无法满足需求。在这种情况下，分布式爬虫架构应运而生。分布式爬虫通过多节点并行工作，可以大大提高数据抓取的速度，同时减少单点故障的风险。本文将深入探讨如何使用Python构建一个高效的分布式爬虫架构，从架构设计到技术实现，帮助你突破数据抓取的极限。一、什么是分布式爬虫？分布式爬虫系统将爬虫任务拆分为多个子任务，分布到不同的服务器或
AI人工智能与机器学习的大数据融合应用 AI智能探索者人工智能机器学习大数据 ai
AI人工智能与机器学习的大数据融合应用关键词：AI人工智能、机器学习、大数据、融合应用、数据挖掘摘要：本文深入探讨了AI人工智能与机器学习在大数据融合应用方面的相关内容。首先介绍了研究的背景、目的、预期读者和文档结构，对核心术语进行了清晰定义。接着阐述了AI、机器学习和大数据的核心概念及相互联系，给出了形象的文本示意图和Mermaid流程图。详细讲解了核心算法原理，并通过Python源代码进行说明
百度地图迁徙大数据深度解析与实战指南
百度地图迁徙大数据深度解析与实战指南在数字化时代，人口流动数据已成为洞察社会经济活动的关键指标。百度地图依托海量位置数据和AI算法打造的"迁徙大数据"平台，为城市规划、交通管理、商业选址等领域提供了重要决策支持。本文将系统性解析百度地图迁徙大数据的查看方法、核心功能及实战应用场景，帮助读者快速掌握这一数据驱动的决策工具。一、迁徙大数据的核心价值迁徙大数据通过聚合手机用户的定位信息，构建全国范围的人
1-Kafka介绍及常见应用场景 sql2008help kafka 分布式
Kafka介绍ApacheKafka是一个开源的分布式流处理平台，最初由LinkedIn开发，后捐赠给Apache软件基金会。它被设计用于高吞吐量、低延迟、可水平扩展地处理实时数据流。官网地址是：https://kafka.apache.org/以下是Kafka的核心介绍：核心概念消息系统(MessagingSystem)Kafka充当生产者和消费者之间的消息中间件，解耦系统，确保可靠的数据传递。
Python爬虫实战：利用Selenium与反反爬技术高效爬取天眼查企业信息 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy selenium
摘要本文将详细介绍如何使用Python爬虫技术获取天眼查的企业信息数据。我们将从爬虫基础开始，逐步深入到高级反反爬技术，最终构建一个能够稳定获取天眼查数据的爬虫系统。文章包含完整的代码实现、技术原理分析以及实际应用场景，帮助读者全面掌握企业信息爬取的核心技术。关键词：Python爬虫、天眼查、Selenium、反反爬技术、企业信息采集、数据挖掘一、引言在当今大数据时代，企业信息数据对于市场分析、商
智慧城市大脑解决方案
智慧城市大脑背景与意义智慧城市大脑作为城市管理的创新模式，通过集成大数据、人工智能等技术，实现了对城市运行的全面感知与智能决策。它不仅提升了城市管理效率，还为市民带来了更加便捷、安全的生活体验。智慧城市大脑建设历程某城市作为智慧城市大脑的创新策源地，自2016年起便与阿里巴巴集团深度合作，投入巨资自主研发城市数据大脑“交通小脑”平台。该平台成功接入了大量视频和数据，实现了对道路和时间资源的再分配，
智慧城市大脑：城市治理的新引擎 Fulima_cloud 智慧城市人工智能
在科技日新月异的今天，智慧城市的概念已经深入人心。而智慧城市大脑，作为智慧城市的中枢神经系统，运用大数据、云计算、物联网、人工智能等先进技术，构建的城市级智能化管理体系，正逐步成为提升城市治理能力、优化城市服务、推动城市可持续发展的重要力量。智慧城市大脑是什么，简而言之，是运用大数据、云计算、物联网、人工智能等先进技术，构建的城市级智能化管理体系。它如同城市的“智慧中枢”，通过对城市全域运行数据的
基于 Java 的电商业务秒杀商品高并发、数据一致性、系统性能等多个方面设计方案一杯冰美式_丶 java 开发语言
1.需求分析高并发：大量用户同时抢购，系统需要支持高并发请求。库存一致性：避免超卖（库存减为负数）或数据不一致。高性能：响应时间要短，用户体验要好。公平性：先到先得，避免作弊。2.技术选型缓存：使用Redis缓存商品库存和秒杀结果，减少数据库压力。消息队列：使用RabbitMQ或Kafka异步处理订单，削峰填谷。数据库：MySQL存储订单和商品信息，使用事务保证数据一致性。分布式锁：使用Redis
告别重复订单！分布式ID生成核心方案全揭秘山海上的风分布式 java
《告别重复订单！分布式ID生成核心方案全揭秘》你可能用过UUID，却饱受索引性能折磨；你尝试过数据库自增ID，却在分库分表时束手无策；你研究过雪花算法，却被时钟回拨问题困扰……分布式订单ID生成究竟有没有完美方案？本文将为你一一拆解，并给出企业级最优解！一、为什么订单ID如此关键？（示意图：分布式订单系统）需求维度技术指标灾难案例全局唯一零冲突概率重复订单导致财务对账崩溃高性能10万+TPS秒杀活
Java微服务框架技术选型全景报告 chanalbert 技术选型 java java 微服务框架技术选型
一、核心框架深度解析1.1Spring生态体系组件关键特性适用场景SpringBoot-约定优于配置+自动装配（Starter）-内嵌Tomcat/Jetty容器-Actuator监控端点企业级单体应用/传统系统迁移SpringCloud-微服务全家桶（Eureka/Zuul/Config）-强事务管理（SpringTX）-生态兼容性最佳复杂分布式系统WebFlux-响应式编程模型（Reactor
Zookeeper的典型应用场景?
大家好，我是锋哥。今天分享关于【Zookeeper的典型应用场景?】面试题。希望对大家有帮助；Zookeeper的典型应用场景?超硬核AI学习资料，现在永久免费了！Zookeeper是一个开源的分布式协调服务，它被广泛应用于需要分布式系统协调的场景。以下是Zookeeper的一些典型应用场景：1.分布式锁在分布式系统中，多个节点可能需要对共享资源进行访问，这时就需要确保访问的排他性。Zookeep
NCCL 核心集体通信操作深度解析：从原理到优化实践清风 001 AI大模型底层建设 gpu算力 ai
目录引言：NCCL——分布式训练的通信引擎一、NCCL基础：GPU通信的“加速器”1.1NCCL与MPI的协同1.2集体通信的价值二、NCCL核心操作深度解析2.1AllGather：全局数据聚合2.1.1定义与目标2.1.2算法原理2.1.3性能影响因素2.1.4测试方法（nccl-tests）2.2AllReduce：梯度聚合的核心2.2.1定义与目标2.2.2算法原理2.2.3性能影响因素2
Scrapy与分布式开发(2.3)：lxml+xpath基本指令和提取方法详解九月镇灵将打造高效爬虫系统 scrapy 分布式 xpath lxml
lxml+xpath基本指令和提取方法详解一、XPath简介XPath，全称为XMLPathLanguage，是一种在XML文档中查找信息的语言。它允许用户通过简单的路径表达式在XML文档中进行导航。XPath不仅适用于XML，还常用于处理HTML文档。二、基本指令和提取方法选择节点使用XPath，你可以轻松地选择XML文档中的节点。*选择根节点：/*选择子节点：/parent/child*选择所
Docker安装部署MySQL+Canal+Kafka+Camus+HIVE数据实时同步是小南啊_- Java java centos docker kafka hadoop
因为公司业务需求要将mysql的数据实时同步到hive中，在网上找到一套可用的方案，即MySQL+Canal+Kafka+Camus+HIVE的数据流通方式，因为是首次搭建，所以暂时使用伪分布式的搭建方案。一、安装docker安装docker的教程网上一搜一大把,请参考：centos下docker安装教程二、docker安装MySQL安装教程网上也有很多，请参考:docker安装MySQL1.开启
HBase总结
HBase1.HBase核心概念HBase的作用HBase主要用于存储和管理超大规模的结构化或半结构化数据（如PB级），特点包括：高扩展性：通过分布式架构横向扩展，支持数千台服务器高吞吐量：适合实时随机读写（如用户行为日志、实时分析）强一致性：保证同一行数据的原子性操作灵活的数据模型：支持动态列和稀疏存储典型应用场景：互联网公司的用户行为日志存储（如点击流数据）社交媒体的实时消息存储物联网设备时序
java的(PO,VO,TO,BO,DAO,POJO) Cb123456 VO TO BO POJO DAO
转: http://www.cnblogs.com/yxnchinahlj/archive/2012/02/24/2366110.html ------------------------------------------------------------------- O/R Mapping 是 Object Relational Mapping（对象关系映
spring ioc原理（看完后大家可以自己写一个spring） aijuans spring
最近，买了本Spring入门书：spring In Action 。大致浏览了下感觉还不错。就是入门了点。Manning的书还是不错的，我虽然不像哪些只看Manning书的人那样专注于Manning,但怀着崇敬的心情和激情通览了一遍。又一次接受了IOC 、DI、AOP等Spring核心概念。先就IOC和DI谈一点我的看法。IO
MyEclipse 2014中Customize Persperctive设置无效的解决方法 Kai_Ge MyEclipse2014
高高兴兴下载个MyEclipse2014，发现工具条上多了个手机开发的按钮，心生不爽就想弄掉他！结果发现Customize Persperctive失效！！有说更新下就好了，可是国内Myeclipse访问不了，何谈更新... so~这里提供了更新后的一下jar包，给大家使用！ 1、将9个jar复制到myeclipse安装目录\plugins中 2、删除和这9个jar同包名但是版本号较
SpringMvc上传 120153216 springMVC
@RequestMapping(value = WebUrlConstant.UPLOADFILE) @ResponseBody public Map<String, Object> uploadFile(HttpServletRequest request,HttpServletResponse httpresponse) { try { //
Javascript----HTML DOM 事件何必如此 JavaScript html Web
HTML DOM 事件允许Javascript在HTML文档元素中注册不同事件处理程序。事件通常与函数结合使用，函数不会在事件发生前被执行！注：DOM：指明使用的 DOM 属性级别。 1.鼠标事件属性
动态绑定和删除onclick事件 357029540 JavaScript jquery
因为对JQUERY和JS的动态绑定事件的不熟悉，今天花了好久的时间才把动态绑定和删除onclick事件搞定!现在分享下我的过程。在我的查询页面，我将我的onclick事件绑定到了tr标签上同时传入当前行(this值)参数，这样可以在点击行上的任意地方时可以选中checkbox，但是在我的某一列上也有一个onclick事件是用于下载附件的，当
HttpClient|HttpClient请求详解 7454103 apache 应用服务器网络协议网络应用 Security
HttpClient 是 Apache Jakarta Common 下的子项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。本文首先介绍 HTTPClient，然后根据作者实际工作经验给出了一些常见问题的解决方法。HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了，越来越多的 Java 应用程序需
递归逐层统计树形结构数据 darkranger 数据结构
将集合递归获取树形结构: /** * * 递归获取数据 * @param alist:所有分类 * @param subjname:对应统计的项目名称 * @param pk:对应项目主键 * @param reportList: 最后统计的结果集 * @param count:项目级别 */ public void getReportVO(Arr
访问WEB-INF下使用frameset标签页面出错的原因 aijuans struts2
<frameset rows="61,*,24" cols="*" framespacing="0" frameborder="no" border="0">
MAVEN常用命令 avords
Maven库： http://repo2.maven.org/maven2/ Maven依赖查询： http://mvnrepository.com/ Maven常用命令： 1. 创建Maven的普通java项目： mvn archetype:create -DgroupId=packageName
PHP如果自带一个小型的web服务器就好了 houxinyou apache 应用服务器 Web PHP 脚本
最近单位用PHP做网站，感觉PHP挺好的，不过有一些地方不太习惯，比如，环境搭建。PHP本身就是一个网站后台脚本，但用PHP做程序时还要下载apache，配置起来也不太很方便，虽然有好多配置好的apache+php+mysq的环境，但用起来总是心里不太舒服，因为我要的只是一个开发环境，如果是真实的运行环境，下个apahe也无所谓，但只是一个开发环境，总有一种杀鸡用牛刀的感觉。如果php自己的程序中
NoSQL数据库之Redis数据库管理(list类型) bijian1013 redis 数据库 NoSQL
3.list类型及操作 List是一个链表结构，主要功能是push、pop、获取一个范围的所有值等等，操作key理解为链表的名字。Redis的list类型其实就是一个每个子元素都是string类型的双向链表。我们可以通过push、pop操作从链表的头部或者尾部添加删除元素，这样list既可以作为栈，又可以作为队列。 &nbs
谁在用Hadoop？ bingyingao hadoop 数据挖掘公司应用场景
Hadoop技术的应用已经十分广泛了，而我是最近才开始对它有所了解，它在大数据领域的出色表现也让我产生了兴趣。浏览了他的官网，其中有一个页面专门介绍目前世界上有哪些公司在用Hadoop，这些公司涵盖各行各业，不乏一些大公司如alibaba,ebay,amazon,google,facebook,adobe等，主要用于日志分析、数据挖掘、机器学习、构建索引、业务报表等场景,这更加激发了学习它的热情。
【Spark七十六】Spark计算结果存到MySQL bit1129 mysql
package spark.examples.db import java.sql.{PreparedStatement, Connection, DriverManager} import com.mysql.jdbc.Driver import org.apache.spark.{SparkContext, SparkConf} object SparkMySQLInteg
Scala: JVM上的函数编程 bookjovi scala erlang haskell
说Scala是JVM上的函数编程一点也不为过，Scala把面向对象和函数型编程这两种主流编程范式结合了起来，对于熟悉各种编程范式的人而言Scala并没有带来太多革新的编程思想，scala主要的有点在于Java庞大的package优势，这样也就弥补了JVM平台上函数型编程的缺失，MS家.net上已经有了F#，JVM怎么能不跟上呢？对本人而言
jar打成exe bro_feng java jar exe
今天要把jar包打成exe，jsmooth和exe4j都用了。遇见几个问题。记录一下。两个软件都很好使，网上都有图片教程，都挺不错。首先肯定是要用自己的jre的，不然不能通用，其次别忘了把需要的lib放到classPath中。困扰我很久的一个问题是，我自己打包成功后，在一个同事的没有装jdk的电脑上运行，就是不行，报错jvm.dll为无效的windows映像，如截图最后发现
读《研磨设计模式》-代码笔记-策略模式-Strategy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 策略模式定义了一系列的算法，并将每一个算法封装起来，而且使它们还可以相互替换。策略模式让算法独立于使用它的客户而独立变化简单理解： 1、将不同的策略提炼出一个共同接口。这是容易的，因为不同的策略，只是算法不同，需要传递的参数
cmd命令值cvfM命令 chenyu19891124 cmd
cmd命令还真是强大啊。今天发现jar -cvfM aa.rar @aaalist 就这行命令可以根据aaalist取出相应的文件例如：在d：\workspace\prpall\test.java 有这样一个文件，现在想要将这个文件打成一个包。运行如下命令即可比如在d：\wor
OpenJWeb(1.8) Java Web应用快速开发平台 comsci java 框架 Web 项目管理企业应用
OpenJWeb(1.8) Java Web应用快速开发平台的作者是我们技术联盟的成员，他最近推出了新版本的快速应用开发平台 OpenJWeb(1.8)，我帮他做做宣传 OpenJWeb快速开发平台以快速开发为核心，整合先进的java 开源框架，本着自主开发+应用集成相结合的原则，旨在为政府、企事业单位、软件公司等平台用户提供一个架构透
Python 报错：IndentationError: unexpected indent daizj python tab 空格缩进
IndentationError: unexpected indent 是缩进的问题，也有可能是tab和空格混用啦 Python开发者有意让违反了缩进规则的程序不能通过编译，以此来强制程序员养成良好的编程习惯。并且在Python语言里，缩进而非花括号或者某种关键字，被用于表示语句块的开始和退出。增加缩进表示语句块的开
HttpClient 超时设置 dongwei_6688 httpclient
HttpClient中的超时设置包含两个部分： 1. 建立连接超时，是指在httpclient客户端和服务器端建立连接过程中允许的最大等待时间 2. 读取数据超时，是指在建立连接后，等待读取服务器端的响应数据时允许的最大等待时间在HttpClient 4.x中如下设置： HttpClient httpclient = new DefaultHttpC
小鱼与波浪 dcj3sjt126com
一条小鱼游出水面看蓝天，偶然间遇到了波浪。　　小鱼便与波浪在海面上游戏，随着波浪上下起伏、汹涌前进。　　小鱼在波浪里兴奋得大叫：“你每天都过着这么刺激的生活吗？简直太棒了。”　　波浪说：“岂只每天过这样的生活，几乎每一刻都这么刺激！还有更刺激的，要有潮汐变化，或者狂风暴雨，那才是兴奋得心脏都会跳出来。”　　小鱼说：“真希望我也能变成一个波浪，每天随着风雨、潮汐流动，不知道有多么好！”　　很快，小鱼
Error Code: 1175 You are using safe update mode and you tried to update a table dcj3sjt126com mysql
快速高效用：SET SQL_SAFE_UPDATES = 0；下面的就不要看了！今日用MySQL Workbench进行数据库的管理更新时，执行一个更新的语句碰到以下错误提示： Error Code: 1175 You are using safe update mode and you tried to update a table without a WHERE that
枚举类型详细介绍及方法定义 gaomysion enum javaee
转发 http://developer.51cto.com/art/201107/275031.htm 枚举其实就是一种类型，跟int, char 这种差不多，就是定义变量时限制输入的，你只能够赋enum里面规定的值。建议大家可以看看，这两篇文章，《java枚举类型入门》和《C++的中的结构体和枚举》，供大家参考。枚举类型是JDK5.0的新特征。Sun引进了一个全新的关键字enum
Merge Sorted Array hcx2013 array
Given two sorted integer arrays nums1 and nums2, merge nums2 into nums1 as one sorted array. Note:You may assume that nums1 has enough space (size that is
Expression Language 3.0新特性 jinnianshilongnian el 3.0
Expression Language 3.0表达式语言规范最终版从2013-4-29发布到现在已经非常久的时间了；目前如Tomcat 8、Jetty 9、GlasshFish 4已经支持EL 3.0。新特性包括：如字符串拼接操作符、赋值、分号操作符、对象方法调用、Lambda表达式、静态字段/方法调用、构造器调用、Java8集合操作。目前Glassfish 4/Jetty实现最好，对大多数新特性
超越算法来看待个性化推荐 liyonghui160com 超越算法来看待个性化推荐
一提到个性化推荐，大家一般会想到协同过滤、文本相似等推荐算法，或是更高阶的模型推荐算法，百度的张栋说过，推荐40%取决于UI、30%取决于数据、20%取决于背景知识，虽然本人不是很认同这种比例，但推荐系统中，推荐算法起的作用起的作用是非常有限的。就像任何
写给Javascript初学者的小小建议 pda158 JavaScript
　　一般初学JavaScript的时候最头痛的就是浏览器兼容问题。在Firefox下面好好的代码放到IE就不能显示了，又或者是在IE能正常显示的代码在firefox又报错了。　　如果你正初学JavaScript并有着一样的处境的话建议你：初学JavaScript的时候无视DOM和BOM的兼容性，将更多的时间花在了解语言本身（ECMAScript）。只在特定浏览器编写代码（Chrome/Fi
Java 枚举 ShihLei java enum 枚举
注：文章内容大量借鉴使用网上的资料，可惜没有记录参考地址，只能再传对作者说声抱歉并表示感谢！一基础 1）语法枚举类型只能有私有构造器（这样做可以保证客户代码没有办法新建一个enum的实例）枚举实例必须最先定义 2）特性 &nb
Java SE 6 HotSpot虚拟机的垃圾回收机制 uuhorse java HotSpot GC 垃圾回收 VM
官方资料，关于Java SE 6 HotSpot虚拟机的garbage Collection，非常全，英文。 http://www.oracle.com/technetwork/java/javase/gc-tuning-6-140523.html Java SE 6 HotSpot[tm] Virtual Machine Garbage Collection Tuning &