準提童子

Spark学习笔记

本文章根据《Spark 快速大数据分析/ Learning Spark: Lightning-fast Data Anakysis》一书整理。这篇文章的主要目标和特点：简要、重点、完成后可用于开发

1、Spark是什么

Spark是一个用来实现快速而通用的集群计算的平台。其一个主要的特点就是能够在内存中进行计算，因此速度更快。原先需要多种不同的分布式平台的场景，包括批处理、迭代算法、交互式查询、流处理，Spark通过在一个统一的框架下支持这些不同的计算，实现有效的整合，减轻了原先对各种平台分别管理的负担。

Spark提供了基于Python,Java,Scala,SQL的简单易用的API，以及内建的丰富的程序库，其还可以与其他大数据工具密切配合使用，如Spark可以运行在Hadoop集群上。

Spark是一个大一统的软件栈，包含多个组件

Spark Core ：实现Spark的基本功能：任务调度、内存管理、错误恢复、与存储系统交互等。Core 还包含了对弹性分布式数据集RDD(resilient distributed dataset)的API定义。

RDD表示分布在多个计算机节点上可以并行操作的元素集合，是Spark的主要编程抽象。

spark SQL：操作结构化数据的程序包。通过 Spark SQL，可以使用SQL或者HQL来查询数据，Spark SQL支持多种数据源，如Hive表、Parquet、以及JSON等，其还支持将SQL与传统的RDD编程的数据操作方式相结合。

Spark Streaming：对实时数据进行流失计算的组件。流数据的定义：只能以事先规定好的顺序被读取一次的数据的一个序列，特点是以非常高的速率到来的输入数据。

MLib：提供常见的机器学习ML功能的程序库，提供了很多机器学习算法，包括分类，回归、聚类、协同过滤等。

GraphX：用来操作图（数学用语，比如朋友关系图）的程序库，可以进行并行的图计算，提供一些常用的图算法。

Spark设计为可以高效的在一个计算节点到数千个计算节点之间伸缩计算，Spark支持在各种集权管理器cluster manager上运行，包括Hadoop YARN，Apache Mesos，以及Spark自带的简易调度器——独立调度器。

Spark的存储层次：Spark不仅可以将任何Hadoop分布式文件系统上的文件读取为分布式数据集，也可以支持其他支持Hadoop接口的系统，如Hive，HBase，Spark支持任何实现了Hadoop接口的存储系统。

2、Spark开发环境搭建

使用spark，可以通过shell，也可以通过搭建开发环境，因个人开发需要，主要面向java搭建Spark开发环境。暂时略过。

开发Spark程序实际上就是通过调用Spark的API，实现Java程序与Spark环境之间的交互：

Java驱动程序将需要计算的数据通过parallelize方法，将数据传给Spark环境，转换为RDD；

驱动程序通过调用各种算子Api，实现Spark环境对数据的计算；

最后，Spark环境将计算结果返回给Java驱动程序；

搭建Spark环境后，先创建Spark的环境对象SparkContext，需要传入两个参数：

集群URL：告诉Spark如何连接到集群上，使用"local"可以使spark运行在单机单线程上而无需连接到集群。

应用名

	SparkConf sparkConf = new SparkConf().setMaster("local").setAppName("My App");
	JavaSparkContext sc = new JavaSparkContext(sparkConf);

3、RDD编程

弹性分布式数据集RDD(Resilient Distributed Dataset)是Spark对数据的核心抽象，在Spark中，对数据的操作不外乎创建RDD，转化已有的RDD，调用RDD操作进行求值。

Spark中的RDD是一个不可变的分布式对象集合，每个RDD都被分为多个区，这些分区运行在集群中的不同节点上。

创建RDD，可以读取外部数据集，也可以使用驱动器程序的对象集合。

RDD支持两种类型的操作：转化操作transformation和行动操作action。转化操作会由一个RDD生成一个新的RDD。

转化操作和行动操作的区别就在于Spark的计算RDD的方式不同，Spark对RDD是采用惰性计算的方式。只有第一次执行行动操作的时候，才会真正计算。

默认情况下，RDD会在每次对它们进行行动操作的时候重新计算，如果想多个行动操作中重用一个RDD，可使用RDD.persist()让Spark把这个RDD缓存下来。

在实际操作中，经常使用persist()把数据的一部分读取到内存中，并反复查询这部分数据，这样可以避免低效。

		SparkConf sparkConf = new SparkConf().setMaster("local").setAppName("My App");
		JavaSparkContext sc = new JavaSparkContext(sparkConf);
		
		//创建RDD，读取外部文件
		String path = "D://line_event.txt";
		JavaRDD input = sc.textFile(path);
		//持久化RDD
		input.persist(new StorageLevel());
		
		System.out.println(input.count());//6357
		
		//转化操作,filter过滤
		JavaRDD input_filter = input.filter(new Function(){
			@Override
			public Boolean call(String arg0) throws Exception {
				return arg0.contains("\"4\"");
			}
		});
		System.out.println(input_filter.count());//237
		
		//行动操作
		String first = input_filter.first();
		System.out.println(first);

1. 创建RDD

两种方式：读取外部数据集、在驱动程序中对一个集合进行并行化。

创建RDD最简单的方式就是把程序中一个已有的集合传给SparkContext的parallelize()方法，但需要注意，除开发原型和测试时，这种方式用的并不多，因为需要把真个数据集放在一台机器内存中。

		JavaRDD input_par = sc.parallelize(Arrays.asList("pandas","spark","yuchen"));
		System.out.println(input_par.count());//3

更常用的方式是从外部存储中读取数据，前边已经讲了读取外部文本文件，后续会涉及更多。

2.RDD操作

RDD支持两种操作：转化操作和行动操作，转化操作返回的是RDD，行动操作是返回的其他数据类型。

转化操作

返回新的RDD，转化操作是惰性求值的，只有行动操作用到这些RDD时才会被计算。另外，转化操作后，旧的RDD还可以继续使用。

目前接触到的转化操作有：

map 返回一个新的分布式数据集，将数据源的每一个元素传递给函数 func 映射组成。

filter 返回一个新的数据集，从数据源中选中一些元素通过函数 func 返回 true。

union 取两个RDD的合集。

		JavaRDD union = input_filter.union(input_par);
		System.out.println(union.count());//240

Spark会使用谱系图来记录这些不同的RDD之间的依赖关系。

虽然转化操作是惰性求值的，可以使用一次行动操作来强制执行转化操作。

行动操作

行动操作会把最终求得的结果返回到驱动程序中，或者写入到外部存储系统。目前接触的行动操作有：

count 计算总数

first 取出第一个元素

take 获取指定数量的元素

collect 获取整个RDD中的数据，除非内存放的下才可以使用，因此collect不能用在大规模数据集上

		JavaRDD union = input_par.union(input_filter);
		System.out.println(union.count());//240
		
		List list = union.take(4);
		System.out.println(list);

输出结果 [pandas, spark, yuchen, (107060,([107060]...))]

另外，可以使用saveAsTextFile和saveAsSwquenceFile等方法，将RDD以各种自带的格式保存起来。

向Spark传递函数

Spark中的大部分转化操作和一部分行动操作，都需要依赖用户传递的函数来进行计算。Java中，函数需要是实现了function包中的任意函数接口的对象，根据不同的返回类型，定义了一些不同的接口：

Function    R  call(T)   接收一个输入值，并返回一个输出值，用于类似map()和filter()方法
Function2   R  call(T1, T2)  接收两个输入值并返回一个输出值，用于类似于aggregate()和fold()等操作
FlatMapFunction  Iterable  call(T)  接收一个输入值并返回任意个输出，用于类似flatMap()

可以通过匿名内部类，也可以使用具名类的方式

不过，顶级具名类在组织大型程序时显得比较清晰，另一个好处就是，可以给构造函数添加参数

		// 匿名类
		JavaRDD input_filter = input.filter(new Function(){
			@Override
			public Boolean call(String arg0) throws Exception {
				return arg0.contains("\"4\"");
			}
		});
		System.out.println(input_filter.count());//237
		
		
		//具名类
		class Contains implements Function{
			String filterStr;
			public Contains(String str){
				filterStr = str;
			}
			@Override
			public Boolean call(String arg0) throws Exception {
				return arg0.contains(filterStr);
			}
		}
		
		JavaRDD filters = input.filter(new Contains("\"9\""));
		System.out.println(filters.count());//637

在Java 8 中，也可以使用lambda表达式进行函数传递

RDD str = lines.filter(s -> s.contains("error"));

常见的转化操作和行动操作

先讲受任意数据类型的RDD支持的转化操作和行动操作

转化操作

针对各个元素的转化操作

两个最常用的的转化操作是map()和filter()，函数应用于RDD中的每个元素，例如使用map，我们可以把URL集合中的每个url对应的主机名提取出来。

		//map
		JavaRDD nums = sc.parallelize(Arrays.asList(1,3,4));
		JavaRDD nums_2 = nums.map(new Function(){
			@Override
			public Integer call(Integer x) {
				return x*x;
			}
		});
		System.out.println(nums_2.collect());//[1, 9, 16]

flatMap()对每个元素生成多个元素，注意看map()与flatMap()的区别：

		//注意flatMap与map的区别
		//flatMap 根据空格拆分
		JavaRDD str = sc.parallelize(Arrays.asList("hello yuchen","hi","nice to meet you"));
		JavaRDD str_split = str.flatMap(new FlatMapFunction() {
			
			//注意使用FlatMapFunction时，call返回的是Iterator类型
			@Override
			public Iterator call(String arg0) throws Exception {
				return Arrays.asList(arg0.split(" ")).iterator();
			}

		});
		System.out.println(str_split.collect());//[hello, yuchen, hi, nice, to, meet, you]
		
		//map 根据空格拆分
		JavaRDD> str_map = str.map(new Function>(){
			@Override
			public List call(String arg0) throws Exception {
				
				return Arrays.asList(arg0.split("\\s+"));
			}
		});
		System.out.println(str_map.collect());//[[hello, yuchen], [hi], [nice, to, meet, you]]

flatMap相当于将返回的迭代器”拍扁“

伪集合操作

RDD支持很多集合操作，比如合并，相交等，下边讲四种操作。

distinct()方法生成只包含不同元素的新RDD，不过distinct()开销很大，因为它需要将所有数据通过网络进行混洗shuffle。

union() 返回一个包含两个RDD中所有元素的RDD，如果输入的RDD有重复的数据，union也会包含这些重复的数据

intersection() 只返回两个RDD都有的元素，该方法会去掉所有重复元素，因为要混洗数据，所以效率比较低

cartesian() 返回所有可能的(a，b)对

		JavaRDD nums = sc.parallelize(Arrays.asList(1,3,3,4));
		//distinct
		JavaRDD nums_dis = nums.distinct();
		System.out.println(nums_dis.collect());//[4, 1, 3]
		
		//sample
		JavaRDD nums_sam = nums.sample(false, 0.5);
		System.out.println(nums_sam.collect());//[3, 4]不确定，随机取值
		
		JavaRDD nums2 = sc.parallelize(Arrays.asList(1,4, 6, 8));
		//union
		JavaRDD nums_union = nums.union(nums2);
		System.out.println(nums_union.collect());//[1, 3, 3, 4, 1, 4, 6, 8]
		
		//intersection
		JavaRDD num_inter = nums.intersection(nums2);
		System.out.println(num_inter.collect());//[4, 1]
		
		//subtract
		JavaRDD num_sub = nums.subtract(nums2);
		System.out.println(num_sub.collect());//[3, 3]
		
		//cartesian笛卡尔积
		JavaPairRDD num_carte = nums.cartesian(nums2);
		System.out.println(num_carte.collect());
		//[(1,1), (1,4), (1,6), (1,8), (3,1), (3,4), (3,6), (3,8), (3,1), (3,4), (3,6), (3,8), (4,1), (4,4), (4,6), (4,8)]

行动操作

行动操作一般都是针对于单个RDD的，先学习三种行动操作：reduce, fold , aggregate

reduce:针对RDD的所有元素进行迭代操作，例如累加求和、累乘求积

fold：功能与reduce类似，也是对RDD的元素进行迭代操作，但必须提供一个初始值，用于计算中。

通过代码看reduce与fold的区别，注：不明白为什么fold操作的初始值在迭代操作的开始和结束都要计算一次

		JavaRDD nums_1 = jsc.parallelize(Arrays.asList(1,3,5,6));
		//reduce
		Integer sum =nums_1.reduce(new Function2() {
			@Override
			public Integer call(Integer arg0, Integer arg1) throws Exception {
				return arg0+arg1;
			}
		});
		/**
		 * 1: 1+3;
		 * 2: 4+5;
		 * 3: 9+6;
		 * 结果15
		 */
		System.out.println(sum);
		JavaRDD nums_2 = jsc.parallelize(Arrays.asList(1,5,7,9));
		//fold 与reduce操作类似，可以提供一个计算中使用到的初始值，初始值可以不使用，等同于reduce
		Integer sum2 = nums_2.fold(10, new Function2() {
			@Override
			public Integer call(Integer arg0, Integer arg1) throws Exception {
				return arg0+arg1;
			}
		});
		/**
		 * fold的计算过程：
		 * 1: 10+1;
		 * 2: 11+5;
		 * 3: 16+7;
		 * 4: 23+9;
		 * 5: 10+32
		 * 结果42
		 */
		System.out.println(sum2);

fold和reduce操作的返回值类型必须和RDD中元素的类型相同，如果需要得到不同类型返回结果的操作，就需要使用aggregate

与fold类似，aggregate也需要提供返回类型的初始值，“考虑到每个节点是在本地进行累加的，最终还需要带二个函数将累加器两两合并”，对于这句话不是很理解，难道是指的在集群环境下？

fold可以看做是aggregate的简化：

		JavaRDD nums_2 = jsc.parallelize(Arrays.asList(1,5,7,9));

		Function2 add = new Function2() {
			@Override
			public Double call(Double arg0, Integer arg1) throws Exception {
				return arg0+arg1;
			}
		};
		Function2 combin = new Function2() {
			@Override
			public Double call(Double arg0, Double arg1) throws Exception {
				return arg0+arg1;
			}
		};
		double res = nums_2.aggregate(10.0, add, combin);
		System.out.println(res);

示例，通过aggregate计算平均值：

		JavaRDD nums_2 = jsc.parallelize(Arrays.asList(1,5,7,9));
		
		class AvgCount implements Serializable{
			public int total;
			public int num;
			public AvgCount(int total,int num){
				this.total = total;
				this.num = num;
			}
			public double avg(){
				return total/(double)num;
			}
		}
		
		AvgCount initial = new AvgCount(0, 0);
		Function2 addAndCount = 
				new Function2() {
					@Override
					public AvgCount call(AvgCount arg0, Integer arg1)
							throws Exception {
						arg0.total+=arg1;
						arg0.num++;
						return arg0;
					}
				};
		Function2 combine=
				new Function2(){
					@Override
					public AvgCount call(AvgCount arg0, AvgCount arg1)
							throws Exception {
						arg0.total+=arg1.total;
						arg0.num+=arg1.num;
						return arg0;
					}
		};
		AvgCount result = nums_2.aggregate(initial, addAndCount, combine);
		/**
		 * 1. initial 在addAndCount中与 RDD的元素进行计算，返回初始值类型的结果res1
		 *    所以Function2 addAndCount;
		 * 2. initial 与在addAndCount中返回的结果res1进行计算，返回初始值类型的结果res2
		 *    所以Function2 combine;
		 *    可以看出aggregate的返回结果可以与RDD元素的类型不同
		 */
		System.out.println(result.avg());

还有其他行动操作，会以普通集合或者值的形式将RDD的部分或全部数据返回到驱动程序中：collect，take，top

take(n) 尝试以只访问尽量少的分区的原则，获取数据到驱动程序中，排序顺序与期望会存在差异

top()可以使用默认或者自己定义比较函数的方式返回排序的数据

		JavaRDD nums_1 = jsc.parallelize(Arrays.asList(2,1,3,5,6,4,10,1,-2));
		//take
		List list_take = nums_1.take(3);
		System.out.println(list_take);//[2, 1, 3]集群下，原则是尝试只访问尽量少的分区
		//top 默认
		List list_top_def = nums_1.top(3);
		System.out.println(list_top_def);//[10, 6, 5]默认是按照降序
		//top 指定比较函数
		class SortASC implements Comparator , Serializable{//java.util.Comparator
			@Override
			public int compare(Integer o1, Integer o2) {
				return o1 list_top_asc = nums_1.top(3, new SortASC());
		System.out.println(list_top_asc);//[-2, 1, 1]

有时候会使用一些行动操作，对RDD中的每个元素进行操作，单=但不把任何结果返回到驱动程序中，例如以JSON形式向网络服务器上发送数据，或者把数据存储到数据库中。可以使用foreach()行动操作来对RDD中的每个元素进行操作，而不需要把RDD发回本地。（集群的优势，不需要把所有数据集合到一台机子上，再进行存储操作）

		//foreach
		nums_1.foreach(new VoidFunction() {
			@Override
			public void call(Integer arg0) throws Exception {
				System.out.println(arg0);
			}
		});

也可以使用count返回RDD元素的个数，countByValue()返回每个元素对应的个数计数，返回为Map

		System.out.println(nums_1.count());
		System.out.println(nums_1.countByValue());//返回Map 值：计数
		//{5=1, 10=1, 1=2, 6=1, 2=1, 3=1, 4=1, -2=1}
		jsc.stop();

Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
【华为OD机试真题2023B卷 JAVA&JS】We Are A Team 若博豆 java 算法华为 javascript
华为OD2023（B卷）机试题库全覆盖，刷题指南点这里WeAreATeam时间限制：1秒|内存限制：32768K|语言限制：不限题目描述：总共有n个人在机房，每个人有一个标号（1<=标号<=n），他们分成了多个团队，需要你根据收到的m条消息判定指定的两个人是否在一个团队中，具体的：1、消息构成为：abc，整数a、b分别代
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
Java 重写(Override)与重载(Overload) 叨唧唧的
Java重写(Override)与重载(Overload)重写(Override)重写是子类对父类的允许访问的方法的实现过程进行重新编写,返回值和形参都不能改变。即外壳不变，核心重写！重写的好处在于子类可以根据需要，定义特定于自己的行为。也就是说子类能够根据需要实现父类的方法。重写方法不能抛出新的检查异常或者比被重写方法申明更加宽泛的异常。例如：父类的一个方法申明了一个检查异常IOExceptio
简单了解 JVM 记得开心一点啊 jvm
目录♫什么是JVM♫JVM的运行流程♫JVM运行时数据区♪虚拟机栈♪本地方法栈♪堆♪程序计数器♪方法区/元数据区♫类加载的过程♫双亲委派模型♫垃圾回收机制♫什么是JVMJVM是JavaVirtualMachine的简称，意为Java虚拟机。虚拟机是指通过软件模拟的具有完整硬件功能的、运行在一个完全隔离的环境中的完整计算机系统（如：JVM、VMwave、VirtualBox）。JVM和其他两个虚拟机
1分钟解决 -bash: mvn: command not found，在Centos 7中安装Maven Energet!c 开发语言
1分钟解决-bash:mvn:commandnotfound，在Centos7中安装Maven检查Java环境1下载Maven2解压Maven3配置环境变量4验证安装5常见问题与注意事项6总结检查Java环境Maven依赖Java环境，请确保系统已经安装了Java并配置了环境变量。可以通过以下命令检查：java-version如果未安装，请先安装Java。1下载Maven从官网下载：前往Apach
Java企业面试题3 马龙强_ java
1.break和continue的作用(智*图)break：用于完全退出一个循环（如for,while）或一个switch语句。当在循环体内遇到break语句时，程序会立即跳出当前循环体，继续执行循环之后的代码。continue：用于跳过当前循环体中剩余的部分，并开始下一次循环。如果是在for循环中使用continue，则会直接进行条件判断以决定是否执行下一轮循环。2.if分支语句和switch分
JVM、JRE和 JDK：理解Java开发的三大核心组件 Y雨何时停T Java java
Java是一门跨平台的编程语言，它的成功离不开背后强大的运行环境与开发工具的支持。在Java的生态中，JVM（Java虚拟机）、JRE（Java运行时环境）和JDK（Java开发工具包）是三个至关重要的核心组件。本文将探讨JVM、JDK和JRE的区别，帮助你更好地理解Java的运行机制。1.JVM：Java虚拟机（JavaVirtualMachine）什么是JVM？JVM，即Java虚拟机，是Ja
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
白骑士的Java教学基础篇 2.5 控制流语句白骑士所长 Java 教学 java 开发语言
欢迎继续学习Java编程的基础篇！在前面的章节中，我们了解了Java的变量、数据类型和运算符。接下来，我们将探讨Java中的控制流语句。控制流语句用于控制程序的执行顺序，使我们能够根据特定条件执行不同的代码块，或重复执行某段代码。这是编写复杂程序的基础。通过学习这一节内容，你将掌握如何使用条件语句和循环语句来编写更加灵活和高效的代码。条件语句条件语句用于根据条件的真假来执行不同的代码块。if语句‘
python语法——三目运算符 HappyRocking python python 三目运算符
在java中，有三目运算符，如：intc=(a>b)?a:b表示c取两者中的较大值。但是在python，不能直接这样使用，估计是因为冒号在python有分行的关键作用。那么在python中，如何实现类似功能呢？可以使用ifelse语句，也是一行可以完成，格式为：aifbelsec表示如果b为True，则表达式等于a，否则等于c。如：c=(aif(a>b)elseb)同样是完成了取最大值的功能。
ArrayList 源码解析程序猿进阶 Java基础 ArrayList List java 面试性能优化架构设计 idea
ArrayList是Java集合框架中的一个动态数组实现，提供了可变大小的数组功能。它继承自AbstractList并实现了List接口，是顺序容器，即元素存放的数据与放进去的顺序相同，允许放入null元素，底层通过数组实现。除该类未实现同步外，其余跟Vector大致相同。每个ArrayList都有一个容量capacity，表示底层数组的实际大小，容器内存储元素的个数不能多于当前容量。当向容器中添
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
python怎么将png转为tif_png转tif weixin_39977276
发国外的文章要求图片是tif，cmyk色彩空间的。大小尺寸还有要求。比如网上大神多，找到了一段代码，感谢！https://www.jianshu.com/p/ec2af4311f56https://github.com/KevinZc007/image2Tifimportjava.awt.image.BufferedImage;importjava.io.File;importjava.io.Fi
JavaScript 中，深拷贝（Deep Copy）和浅拷贝（Shallow Copy）跳房子的前端前端面试 javascript 开发语言 ecmascript
在JavaScript中，深拷贝（DeepCopy）和浅拷贝（ShallowCopy）是用于复制对象或数组的两种不同方法。了解它们的区别和应用场景对于避免潜在的bugs和高效地处理数据非常重要。以下是对深拷贝和浅拷贝的详细解释，包括它们的概念、用途、优缺点以及实现方式。1.浅拷贝（ShallowCopy）概念定义：浅拷贝是指创建一个新的对象或数组，其中包含了原对象或数组的基本数据类型的值和对引用数
JAVA·一个简单的登录窗口 MortalTom java 开发语言学习
文章目录概要整体架构流程技术名词解释技术细节资源概要JavaSwing是Java基础类库的一部分，主要用于开发图形用户界面（GUI）程序整体架构流程新建项目，导入sql.jar包（链接放在了文末），编译项目并运行技术名词解释一、特点丰富的组件提供了多种可视化组件，如按钮（JButton）、文本框（JTextField）、标签（JLabel）、下拉列表（JComboBox）等，可以满足不同的界面设计
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
JAVA学习笔记之23种设计模式学习 victorfreedom Java技术设计模式 android java 常用设计模式
博主最近买了《设计模式》这本书来学习，无奈这本书是以C++语言为基础进行说明，整个学习流程下来效率不是很高，虽然有的设计模式通俗易懂，但感觉还是没有充分的掌握了所有的设计模式。于是博主百度了一番，发现有大神写过了这方面的问题，于是博主迅速拿来学习。一、设计模式的分类总体来说设计模式分为三大类：创建型模式，共五种：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式，共七种：适配器
JavaScript `Map` 和 `WeakMap`详细解释跳房子的前端 JavaScript 原生方法 javascript 前端开发语言
在JavaScript中，Map和WeakMap都是用于存储键值对的数据结构，但它们有一些关键的不同之处。MapMap是一种可以存储任意类型的键值对的集合。它保持了键值对的插入顺序，并且可以通过键快速查找对应的值。Map提供了一些非常有用的方法和属性来操作这些数据对：set(key,value):将一个键值对添加到Map中。如果键已经存在，则更新其对应的值。get(key):获取指定键的值。如果键
切换淘宝最新npm镜像源是 hai40587 npm 前端 node.js
切换淘宝最新npm镜像源是一个相对简单的过程，但首先需要明确当前淘宝npm镜像源的状态和最新的镜像地址。由于网络环境和服务更新，镜像源的具体地址可能会发生变化，因此，我将基于当前可获取的信息，提供一个通用的切换步骤，并附上最新的镜像地址（截至回答时）。一、了解npm镜像源npm（NodePackageManager）是JavaScript的包管理器，用于安装、更新和管理项目依赖。由于npm官方仓库
【Java】已解决：java.util.concurrent.CompletionException 屿小夏 java 开发语言
文章目录一、分析问题背景出现问题的场景代码片段二、可能出错的原因三、错误代码示例四、正确代码示例五、注意事项已解决：java.util.concurrent.CompletionException一、分析问题背景在Java并发编程中，java.util.concurrent.CompletionException是一种常见的运行时异常，通常在使用CompletableFuture进行异步计算时出现
设计模式之建造者模式(通俗易懂--代码辅助理解【Java版】） ok!ko 设计模式设计模式建造者模式 java
文章目录设计模式概述1、建造者模式2、建造者模式使用场景3、优点4、缺点5、主要角色6、代码示例：1）实现要求2）UML图3)实现步骤：1）创建一个表示食物条目和食物包装的接口2）创建实现Packing接口的实体类3）创建实现Item接口的抽象类，该类提供了默认的功能4）创建扩展了Burger和ColdDrink的实体类5）创建一个Meal类，带有上面定义的Item对象6）创建一个MealBuil
ViewController添加button按钮解析。（翻译）张亚雄 c
<div class="it610-blog-content-contain" style="font-size: 14px"></div>// ViewController.m // Reservation software // // Created by 张亚雄 on 15/6/2.
mongoDB 简单的增删改查开窍的石头 mongodb
在上一篇文章中我们已经讲了mongodb怎么安装和数据库/表的创建。在这里我们讲mongoDB的数据库操作在mongo中对于不存在的表当你用db.表名他会自动统计下边用到的user是表明，db代表的是数据库添加(insert):
log4j配置 0624chenhong log4j
1) 新建java项目 2) 导入jar包，项目右击，properties—java build path—libraries—Add External jar，加入log4j.jar包。 3) 新建一个类com.hand.Log4jTest package com.hand; import org.apache.log4j.Logger; public class
多点触摸(图片缩放为例) 不懂事的小屁孩多点触摸
多点触摸的事件跟单点是大同小异的，上个图片缩放的代码，供大家参考一下 import android.app.Activity; import android.os.Bundle; import android.view.MotionEvent; import android.view.View; import android.view.View.OnTouchListener
有关浏览器窗口宽度高度几个值的解析换个号韩国红果果 JavaScript html
1 元素的 offsetWidth 包括border padding content 整体的宽度。 clientWidth 只包括内容区 padding 不包括border。 clientLeft = offsetWidth -clientWidth 即这个元素border的值 offsetLeft 若无已定位的包裹元素
数据库产品巡礼：IBM DB2概览蓝儿唯美 db2
IBM DB2是一个支持了NoSQL功能的关系数据库管理系统，其包含了对XML，图像存储和Java脚本对象表示（JSON）的支持。DB2可被各种类型的企业使用，它提供了一个数据平台，同时支持事务和分析操作，通过提供持续的数据流来保持事务工作流和分析操作的高效性。 DB2支持的操作系统 DB2可应用于以下三个主要的平台: 工作站，DB2可在Linus、Unix、Windo
java笔记5 a-john java
控制执行流程： 1，true和false 利用条件表达式的真或假来决定执行路径。例：（a==b）。它利用条件操作符“==”来判断a值是否等于b值，返回true或false。java不允许我们将一个数字作为布尔值使用，虽然这在C和C++里是允许的。如果想在布尔测试中使用一个非布尔值，那么首先必须用一个条件表达式将其转化成布尔值，例如if(a!=0)。 2，if-els
Web开发常用手册汇总 aijuans PHP
一门技术，如果没有好的参考手册指导,很难普及大众。这其实就是为什么很多技术，非常好，却得不到普遍运用的原因。正如我们学习一门技术，过程大概是这个样子： ①我们日常工作中，遇到了问题，困难。寻找解决方案，即寻找新的技术； ②为什么要学习这门技术？这门技术是不是很好的解决了我们遇到的难题，困惑。这个问题，非常重要，我们不是为了学习技术而学习技术，而是为了更好的处理我们遇到的问题，才需要学习新的
今天帮助人解决的一个sql问题 asialee sql
今天有个人问了一个问题，如下： type AD value A
意图对象传递数据百合不是茶 android 意图Intent Bundle对象数据的传递
学习意图将数据传递给目标活动; 初学者需要好好研究的 1,将下面的代码添加到main.xml中 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http:/
oracle查询锁表解锁语句 bijian1013 oracle object session kill
一.查询锁定的表如下语句，都可以查询锁定的表语句一： select a.sid, a.serial#, p.spid, c.object_name, b.session_id, b.oracle_username, b.os_user_name from v$process p, v$s
mac osx 10.10 下安装 mysql 5.6 二进制文件［tar.gz］征客丶 mysql osx
场景：在 mac osx 10.10 下安装 mysql 5.6 的二进制文件。环境：mac osx 10.10、mysql 5.6 的二进制文件步骤：[所有目录请从根“/”目录开始取，以免层级弄错导致找不到目录] 1、下载 mysql 5.6 的二进制文件，下载目录下面称之为 mysql5.6SourceDir；下载地址：http://dev.mysql.com/downl
分布式系统与框架 bit1129 分布式
RPC框架 Dubbo 什么是Dubbo Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含: 远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。集群容错: 提供基于接
那些令人蛋痛的专业术语白糖_ spring Web SSO IOC
spring 【控制反转(IOC)/依赖注入(DI)】：由容器控制程序之间的关系，而非传统实现中，由程序代码直接操控。这也就是所谓“控制反转”的概念所在：控制权由应用代码中转到了外部容器，控制权的转移，是所谓反转。简单的说：对象的创建又容器(比如spring容器)来执行，程序里不直接new对象。 Web 【单点登录(SSO)】：SSO的定义是在多个应用系统中，用户
《给大忙人看的java8》摘抄 braveCS java8
函数式接口：只包含一个抽象方法的接口 lambda表达式：是一段可以传递的代码你最好将一个lambda表达式想象成一个函数，而不是一个对象，并记住它可以被转换为一个函数式接口。事实上，函数式接口的转换是你在Java中使用lambda表达式能做的唯一一件事。方法引用：又是要传递给其他代码的操作已经有实现的方法了，这时可以使
编程之美-计算字符串的相似度 bylijinnan java 算法编程之美
public class StringDistance { /** * 编程之美计算字符串的相似度 * 我们定义一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为： * 1.修改一个字符（如把“a”替换为“b”）; * 2.增加一个字符（如把“abdd”变为“aebdd”）; * 3.删除一个字符（如把“travelling”变为“trav
上传、下载压缩图片 chengxuyuancsdn 下载
/** * * @param uploadImage --本地路径(tomacat路径) * @param serverDir --服务器路径 * @param imageType --文件或图片类型 * 此方法可以上传文件或图片.txt,.jpg,.gif等 */ public void upload(String uploadImage,Str
bellman-ford(贝尔曼-福特)算法 comsci 算法 F#
Bellman-Ford算法(根据发明者 Richard Bellman 和 Lester Ford 命名)是求解单源最短路径问题的一种算法。单源点的最短路径问题是指：给定一个加权有向图G和源点s，对于图G中的任意一点v，求从s到v的最短路径。有时候这种算法也被称为 Moore-Bellman-Ford 算法，因为 Edward F. Moore zu 也为这个算法的发展做出了贡献。与迪科
oracle ASM中ASM_POWER_LIMIT参数 daizj ASM oracle ASM_POWER_LIMIT 磁盘平衡
ASM_POWER_LIMIT 该初始化参数用于指定ASM例程平衡磁盘所用的最大权值，其数值范围为0~11，默认值为1。该初始化参数是动态参数，可以使用ALTER SESSION或ALTER SYSTEM命令进行修改。示例如下： SQL>ALTER SESSION SET Asm_power_limit=2;
高级排序:快速排序 dieslrae 快速排序
public void quickSort(int[] array){ this.quickSort(array, 0, array.length - 1); } public void quickSort(int[] array,int left,int right){ if(right - left <= 0
C语言学习六指针_何谓变量的地址一个指针变量到底占几个字节 dcj3sjt126com C语言
# include <stdio.h> int main(void) { /* 1、一个变量的地址只用第一个字节表示 2、虽然他只使用了第一个字节表示，但是他本身指针变量类型就可以确定出他指向的指针变量占几个字节了 3、他都只存了第一个字节地址，为什么只需要存一个字节的地址，却占了4个字节，虽然只有一个字节，但是这些字节比较多，所以编号就比较大，
phpize使用方法 dcj3sjt126com PHP
phpize是用来扩展php扩展模块的，通过phpize可以建立php的外挂模块,下面介绍一个它的使用方法,需要的朋友可以参考下安装（fastcgi模式）的时候，常常有这样一句命令：代码如下: /usr/local/webserver/php/bin/phpize 一、phpize是干嘛的？ phpize是什么？ phpize是用来扩展php扩展模块的，通过phpi
Java虚拟机学习 - 对象引用强度 shuizhaosi888 JAVA虚拟机
本文原文链接：http://blog.csdn.net/java2000_wl/article/details/8090276 转载请注明出处！无论是通过计数算法判断对象的引用数量，还是通过根搜索算法判断对象引用链是否可达，判定对象是否存活都与“引用”相关。引用主要分为：强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Wea
.NET Framework 3.5 Service Pack 1（完整软件包）下载地址 happyqing .net 下载 framework
Microsoft .NET Framework 3.5 Service Pack 1（完整软件包） http://www.microsoft.com/zh-cn/download/details.aspx?id=25150 Microsoft .NET Framework 3.5 Service Pack 1 是一个累积更新，包含很多基于 .NET Framewo
JAVA定时器的使用 jingjing0907 java timer 线程定时器
1、在应用开发中，经常需要一些周期性的操作，比如每5分钟执行某一操作等。对于这样的操作最方便、高效的实现方式就是使用java.util.Timer工具类。 privatejava.util.Timer timer; timer = newTimer(true); timer.schedule( newjava.util.TimerTask() { public void run()
Webbench 流浪鱼 webbench
首页下载地址 http://home.tiscali.cz/~cz210552/webbench.html Webbench是知名的网站压力测试工具，它是由Lionbridge公司（http://www.lionbridge.com）开发。 Webbench能测试处在相同硬件上，不同服务的性能以及不同硬件上同一个服务的运行状况。webbench的标准测试可以向我们展示服务器的两项内容：每秒钟相
第11章动画效果（中） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
windows下制作bat启动脚本. sanyecao2314 java cmd 脚本 bat
java -classpath C:\dwjj\commons-dbcp.jar;C:\dwjj\commons-pool.jar;C:\dwjj\log4j-1.2.16.jar;C:\dwjj\poi-3.9-20121203.jar;C:\dwjj\sqljdbc4.jar;C:\dwjj\voucherimp.jar com.citsamex.core.startup.MainStart
Java进行RSA加解密的例子 tomcat_oracle java
加密是保证数据安全的手段之一。加密是将纯文本数据转换为难以理解的密文；解密是将密文转换回纯文本。　　数据的加解密属于密码学的范畴。通常，加密和解密都需要使用一些秘密信息，这些秘密信息叫做密钥，将纯文本转为密文或者转回的时候都要用到这些密钥。　　对称加密指的是发送者和接收者共用同一个密钥的加解密方法。　　非对称加密(又称公钥加密)指的是需要一个私有密钥一个公开密钥，两个不同的密钥的
Android_ViewStub 阿尔萨斯 ViewStub
public final class ViewStub extends View java.lang.Object android.view.View android.view.ViewStub 类摘要： ViewStub 是一个隐藏的，不占用内存空间的视图对象，它可以在运行时延迟加载布局资源文件。当 ViewSt

Spark学习笔记

1、Spark是什么

2、Spark开发环境搭建

3、RDD编程

1. 创建RDD

2.RDD操作

转化操作

行动操作

向Spark传递函数

常见的转化操作和行动操作

转化操作

针对各个元素的转化操作

伪集合操作

行动操作

你可能感兴趣的:(Java,Web后台)