Mr_哲

spark优化指南

目录

一、代码优化

1. 基本原则

2. 算子优化

2.1 reduceByKey/aggregateByKey替代groupByKey

2.2 mapPartitions(foreachPartitions)替代map(foreach)

2.3 使用filter之后进行coalesce操作

2.4 repartitionAndSortWithinPartitions替代repartition与sort类操作

二、资源配置

1. 预估内存和cpu

2. 参数设置

2.1 executor-memory

2.2 num-executors

2.3 executor-cores

2.4 driver-memory

2.5 spark.default.parallelism

2.6 spark.storage.memoryFraction

2.7 spark.shuffle.memoryFraction

spark作为基于内存、分布式计算框架，具有运算速度快特性。然而，在用spark处理海量数据实际业务中，并不是那么简单的。如果没有对Spark任务进行合理的调优，Spark任务的执行速度会很慢。本文介绍几种常用的调优手段。

一、代码优化

在spark代码开发中，我们应遵循一些基本spark开发原则，并注意算子优化。

1. 基本原则

spark使用dag对rdd的关系进行建模，描述了rdd的依赖关系，这种关系也被称之为lineage。在spark作业中，有以下几个基本原则：

对于同一份数据源，只应该创建一个rdd；
在对不同的数据执行算子操作时还要尽可能地复用一个rdd；
对多次action的rdd进行持久化；
尽量避免使用shuffle类算子，如groupBy、reduceByKey、distinct和join等；
采用kryo序列化；
数据结构优化；
broadcast使用；

rdd dag采用lazy，当有action触发才会执行。rdd多次action会导致计算复用性差，可以对rdd持久化内存（或磁盘，一般选用内存cache）。

Spark默认使用的是Java的序列化机制，但是Spark同时支持使用Kryo序列化库，Kryo序列化类库的性能比Java序列化类库的性能要高很多。

conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")

# 注册要序列化的自定义类型

conf.registerKryoClasses(Array(classOf[MyClass1], classOf[MyClass2]))

尽量使用字符串替代对象，使用原始类型（比如Int、Long）替代字符串，使用数组替代集合类型（如HashMap、LinkedList）。

算子在用到外部变量，应使用broadcast广播变量，会保证每个Executor的内存中，只驻留一份变量副本。减少变量在网络中传输的性能开销，以及在各个节点的Executor中占用过多内存导致的频繁GC。

val list1 = ...

val list1Broadcast = sc.broadcast(list1)

rdd1.map(list1Broadcast...)

2. 算子优化

2.1 reduceByKey/aggregateByKey替代groupByKey

reduceByKey和aggregateByKey算子都会在shuffle输出数据前，使用用户自定义的函数对每个节点本地的相同key进行预聚合（combine）。而groupByKey算子是不会进行预聚合的，全量的数据会在集群的各个节点之间分发和传输，磁盘IO以及网络传输开销较大，性能相对来说比较差。

2.2 mapPartitions(foreachPartitions)替代map(foreach)

一次函数调用处理一个partition的所有数据，而不是一次函数调用处理一条数据。例如，将RDD中所有数据写MySQL，那么如果是普通的foreach算子，就会一条数据一条数据地写，每次函数调用可能就会创建一个数据库连接，此时就势必会频繁地创建和销毁数据库连接，性能是非常低下；但是如果用foreachPartitions算子一次性处理一个partition的数据，那么对于每个partition，只要创建一个数据库连接即可，然后执行批量插入操作，此时性能是比较高的。

2.3 使用filter之后进行coalesce操作

通常对一个rdd执行filter算子过滤掉rdd中较多数据后（比如30%以上的数据），建议使用coalesce算子，手动减少rdd的partition数量，将rdd中的数据压缩到更少的partition中去。因为filter之后，RDD的每个partition中都会有很多数据被过滤掉，此时如果照常进行后续的计算，其实每个task处理的partition中的数据量并不是很多，有一点资源浪费，而且此时处理的task越多，可能速度反而越慢。

2.4 repartitionAndSortWithinPartitions替代repartition与sort类操作

如果需要在repartition重分区之后，还要进行排序，建议直接使用repartitionAndSortWithinPartitions算子。因为该算子可以一边进行重分区的shuffle操作，一边进行排序。shuffle与sort两个操作同时进行，比先shuffle再sort来说，性能可能是要高的。

二、资源配置

在提交spark任务时，我们需要对任务参数进行配置。

1. 预估内存和cpu

对于公司集群，不太可能有很多闲置的资源供我们随意挥霍。如何合理预估自己提交任务需要的内存和资源，是必须考虑的。一般处理数据源首先transform成rdd，而rdd：内存=spark.storage.memoryFraction（固定值，默认为0.6）。因此，可以根据数据源大小决定job内存下限。对于hdfs文件，可以用hadoop命令查询其文件大小：

hdfs dfs -du -s -h data/

21.1 G 21.1 G .

假设查询数据大小为N，那么所需内存下限=N/spark.storage.memoryFraction。比如21.1G数据至少需要35.2G内存，至于内存的上限受限于计算过程复杂度，需要自己逐渐往上加内存，一般公司集群queue也会限定内存上限。比如在用ml处理特征，索引编码和分箱会耗费大量内存（20-30倍下限才能运行，个人测试过）。

cpu配置相对轻松点，一般集群core相对多的。只需要满足cpu cores=num-executors * executor-cores<=queue限定cores。

2. 参数设置

在初步确定spark运行任务所需内存和cores之后，接下来就需要精细到driver和executors中。

2.1 executor-memory

该参数用于设置每个Executor进程的内存。Executor内存的大小，很多时候直接决定了Spark任务的性能，而且跟常见的JVM OOM异常，也有直接的关联。一般设置4G-8G。对于数据量大，但处理流程不复杂业务可适当设置小点，如4G；但对于处理流程复杂业务（spark ml特征工程索引、分箱等操作），主要可设置大些，如8-10G。

2.2 num-executors

该参数用于设置spark任务总共要用多少个executor进程来执行，一般和executor-memory、executor-cores配合使用，原则上遵循executor-memory * num-executors * executor-cores=job需要内存，比如总内存设定40G，executor-memory=4G，executor-cores=2，则num-executors=5。

2.3 executor-cores

该参数用于设置每个Executor进程的CPU core数量。这个参数决定了每个Executor进程并行执行task线程的能力。因为每个CPU core同一时间只能执行一个task线程，因此每个Executor进程的CPU core数量越多，越能够快速地执行完分配给自己的所有task线程。一般设置为2-4个，和executor-memory、num-executors配合使用，同上。

2.4 driver-memory

该参数用于设置Driver进程的内存。一般设置1-2G即可，但需要注意当对rdd（dataframe）拉取到driver处理，必须确保driver有足够的内存，否则容易出现OOM内存溢出。如rdd大小8G，采用saveAsTextFile持久化hdfs，driver-memory>=13.4G(8/0.6)。

2.5 spark.default.parallelism

该参数用于设置每个stage的默认task数量。如果不设置该参数，spark就会根据hdfs的block数量来设置task数量。需要注意的是，如果executor cores>=task数量，那么spark实际任务以task数量为准，多余executor将被浪费。一般设置该参数为num-executors * executor-cores的2-3倍较为合适。比如executors total cores=10，那么spark.default.parallelism应设置为20-30。

2.6 spark.storage.memoryFraction

该参数用于设置RDD持久化数据在Executor内存中能占的比例，默认是0.6。也就是说，默认Executor 60%的内存，可以用来保存持久化的RDD数据。

当有较多的RDD持久化操作，该参数的值可以适当提高一些，保证持久化的数据能够容纳在内存中。避免内存不够缓存所有的数据，导致数据只能写入磁盘中，降低了性能。但是如果Spark任务中的shuffle类操作比较多，而持久化操作比较少，那么这个参数的值适当降低一些比较合适。此外，如果发现任务由于频繁的gc导致运行缓慢（通过spark web ui可以观察到任务的gc耗时），意味着task执行用户代码的内存不够用，那么同样建议调低这个参数的值。

2.7 spark.shuffle.memoryFraction

该参数用于设置shuffle过程中一个task拉取到上个stage的task的输出后，进行聚合操作时能够使用的Executor内存的比例，默认是0.2。在shuffle操作时，如果发现使用的内存超出了这个20%的限制，那么多余的数据就会溢写到磁盘文件中去，此时就会极大地降低性能。

当shuffle操作较多时，建议降低持久化操作的内存占比，提高shuffle操作的内存占比比例，避免shuffle过程中数据过多时内存不够用，必须溢写到磁盘上，降低了性能。此外，如果发现任务由于频繁的gc导致运行缓慢，意味着task执行用户代码的内存不够用，那么同样建议调低这个参数的值。

参考资料

https://blog.csdn.net/lingbo229/article/details/80729068

https://blog.csdn.net/lingbo229/article/details/80729034

你可能感兴趣的:(spark,spark,优化,shuffle,rdd)

关联规则算法：揭秘数据中的隐藏关系，从理论到实战秋声studio 机器学习算法详解关联规则算法数据挖掘 Apriori算法 FP-Growth算法大数据优化数据预处理增量式更新
引言在当今数据驱动的时代，如何从海量数据中挖掘出有价值的信息成为了各行各业的核心挑战。关联规则算法作为数据挖掘领域的重要工具，能够帮助我们发现数据中隐藏的关联关系，从而为决策提供支持。无论是电商平台的商品推荐，还是医疗领域的疾病诊断，关联规则算法都展现出了强大的应用潜力。本文将从基础概念出发，逐步深入探讨关联规则算法的核心原理、经典算法及其优化策略。无论你是数据挖掘的初学者，还是希望进一步了解关联
灵犀X2：人形机器人的新篇章 Anima.AI 机器人
简介灵犀X2是智元机器人推出的最新款人形机器人，很可能是其前代产品灵犀X1的升级版本。灵犀X1作为一款开源的模块化机器人，其机械设计和软件代码完全公开，全球开发者都可以参与优化和创新。这款机器人身高130厘米，体重33公斤，具备34到44个自由度（DegreesofFreedom,DoF，即关节活动范围），能够执行轻型任务，如端茶送水、整理房间等。灵犀X2在继承这些特性的基础上，可能进一步提升了动
Webpack打包构建流程码上跑步 webpack 前端 node.js
webpack的打包构建流程为什么需要打包？在前端有非常多的资源，如css、js、vue、vue、图片、字体等。有些资源需要加工处理1.ts->jsts-loader2.css->css-loader+style-loader3.图片->file-loader+url-loader4.html->html-webpack-plugin需要对产物进行优化optimization（webpack优化配
Flutter中使用NetworkImage加载网络图片缓存问题学习实践云水-禅心 flutter 缓存
Flutter中默认的NetworkImage会有缓存机制，如果图片的url不变化，但是url的图片已经发生变化，NetworkImage不会下载新的图片deepseek是这么解决问题的，但是在鸿蒙上禁用缓存无效在Flutter中，NetworkImage默认会使用缓存机制来优化性能。如果你想禁用缓存，可以通过以下几种方式实现：1.使用NetworkImage的headers参数你可以通过设置he
【春招笔试真题】饿了么2025.03.07-开发岗真题春秋招笔试突围最新互联网春秋招试题合集 java 算法网络
饿了么2025.03.07-开发岗题目1️⃣：统计01串中0和1的个数，通过计算可能的交换方式确定不同字符串数量2️⃣：使用模板匹配技术识别验证码图片中的"#"符号分布模式3️⃣：构建字典树（Trie）优化异或查询，实现高效的数字黑板游戏整体难度这套题目整体难度适中，由简到难逐步递进：第一题是基础的计数问题，需要理解交换操作的特性第二题是模式识别问题，需要实现模板匹配第三题是高级数据结构应用，需要
Spring IOC 容器核心功能解析与优化架构我不是少爷. Java基础 spring 架构 java
一、IOC容器创建Bean的四种方式1.1普通创建方式使用场景：直接通过类默认构造器创建对象实现步骤：代码说明：id：Bean的唯一标识符class：指定类的全限定名Spring会调用默认无参构造器实例化对象1.2工厂模式创建使用场景：需要工厂类处理复杂初始化逻辑时实现步骤：//工厂类publicclassBookFactory{publicBookcreateBook(){returnnewBo
如何通过深度学习优化操作系统中的故障诊断与恢复机制金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 深度学习人工智能
如何通过深度学习优化操作系统中的故障诊断与恢复机制（副标题：智能监控、自适应诊断与自动恢复——操作系统故障自愈的新方向）摘要随着现代操作系统在多核、高并发和分布式环境中的广泛应用，系统故障及其恢复问题日益成为影响系统稳定性和业务连续性的关键挑战。传统的故障诊断方法依赖于预设规则和人工干预，难以应对复杂多变的故障场景。本文提出了一种基于深度学习的故障诊断与恢复机制，通过对大量历史日志、监控数据和故障
三种优化算法旅者时光算法算法 python 开发语言
本文将总结遗传算法、粒子群算法、模拟退火三种优化算法的核心思路，并使用python完整实现。实际上，越来越多的优秀算法已经被封装为一个易用的接口。很多时候，一行代码就能实现我们的需求。但了解这些算法的基本逻辑，能够使用最基本的代码实现它。无论对于提升我们的编程能力还是解决问题的能力，都会大有裨益。甚至，改变我们思考问题的方式。1、遗传算法遗传算法，顾名思义，就是借鉴了生物通过遗传变异来逐渐适应环境
程序员必看！DeepSeek隐藏用法大揭秘：从代码优化到多模态开发，这些技巧让你少熬三夜班后端
最近在程序员圈子里，有个同事老张的故事特别火。他原本每周要花20小时写接口文档，自从用上DeepSeek的代码补全功能，现在喝着咖啡看AI自动生成Swagger注释——这让我想起刚入行时，为了调通一个正则表达式熬夜到凌晨三点的自己。今天咱们不聊那些官方说明书，就说点真正能让键盘冒火星的实战技巧。藏在代码补全里的"作弊码"很多人以为DeepSeek就是个加强版搜索引擎，其实它对代码的理解远超想象。比
HarmonyNext实战：基于ArkTS的跨平台3D图形渲染应用开发 harmonyos-next
HarmonyNext实战：基于ArkTS的跨平台3D图形渲染应用开发引言在HarmonyNext生态系统中，3D图形渲染是一个技术含量高且应用广泛的领域。本文将深入探讨如何使用ArkTS构建一个高性能的跨平台3D图形渲染应用，涵盖从场景构建、模型加载、光照处理到渲染优化的完整开发流程。我们将通过一个实际的案例——实现一个3D场景编辑器，来展示ArkTS在HarmonyNext平台上的强大能力。环
主存储器、SRAM 与 DRAM 的工作原理及相关技术海大超级无敌暴龙战士计算机组成原理学习方法
主存储器、SRAM与DRAM的工作原理及相关技术本文介绍了三种内容：SRAM与DRAM的工作方式DRAM的刷新机制与地址引脚复用技术DRAM行列（Row/Column）优化原则及行缓冲器容量的计算1.主存储器中SRAM与DRAM的工作方式1.1SRAM的工作方式基本原理：SRAM（静态随机存储器）利用由晶体管构成的锁存电路（通常为6T结构）来存储每一比特。只要电源保持，SRAM单元可以无限期地保存
HarmonyNext实战：基于ArkTS的分布式数据同步应用开发 harmonyos-next
HarmonyNext实战：基于ArkTS的分布式数据同步应用开发引言在HarmonyNext生态系统中，分布式数据同步是一个核心特性，它允许设备之间无缝共享和同步数据。本文将深入探讨如何利用ArkTS语言开发一个高性能的分布式数据同步应用，涵盖从基础数据存储到跨设备同步的完整流程。我们将通过一个实战案例，详细讲解如何实现一个支持多设备数据同步的任务管理应用，并确保其性能优化。1.环境准备与项目初
成功案例丨开发时间从1小时缩短到3分钟：如何利用历史数据训练AI模型，预测设计性能？ Altair澳汰尔 PhysicsAI 仿真 AI 机器学习 HyperWorks 数据分析
案例简介PhysicsAI™助力HEROMOTOCORP实现设计效率提升99%印度领先的跨国摩托车和踏板车制造商HeroMotoCorpLtd.（以下简称Hero）致力于通过将人工智能（AI）和机器学习技术融入有限元分析（FEA）流程，以加速产品开发周期。在其首个AI驱动项目——摩托车把手设计优化中，Hero采用了PhysicsAI™几何深度学习解决方案，利用历史数据训练AI模型并预测设计性能。A
scala针对复杂数据源导入与分隔符乱码处理 Tometor scala javascript 后端 java 数据结构
复杂的数据源，和奇怪的数据格式是生产中经常遇到的难题，本文将探讨如何解析分隔符混乱的数据，和如何导入各种数据源文件一、非标准分隔符处理当数据源的分隔符混乱或不统一时（如,、|、\t混合使用），可采用以下方法：1.1动态检测分隔符//示例：自动检测前100行的常用分隔符valsampleLines=spark.read.text("data.csv").limit(100).collect()val
Raspberry Pi图形组件深入解析与应用示例嵌入式Jerry Linux 服务器 linux 运维 python android
一、概述RaspberryPi的图形组件集中在Yocto项目的meta-raspberrypi层中的recipes-graphics目录下。此目录不仅定义了树莓派硬件优化的图形库和驱动，也提供了丰富的配置示例和具体实现方案，涵盖了从基础绘图、3D渲染到视频加速及窗口管理系统。二、目录结构与核心作用1.图形库优化cairo文件：cairo_%.bbappend作用：针对树莓派平台特定优化的2D图形矢
Redis 主从复制机制深度解析与实践指南月落星还在 redis redis 数据库缓存
Redis的主从复制（Replication）是构建高可用、高性能分布式缓存和数据库系统的核心机制。通过主从复制，数据可以从一个主节点（Master）自动同步到多个从节点（Slave），实现读写分离、负载均衡和故障恢复。本文将深入探讨主从复制的原理、配置方法、常见问题及优化策略。一、主从复制的核心概念1.1什么是主从复制？主从复制是一种数据同步机制，允许从节点实时复制主节点的数据。主节点负责处理写
MySQL进阶—— 视图（详解） 1加1等于 MySQL sql mysql
本文全面介绍Mysql视图相关的核心知识。包括介绍视图定义，基于查询结果的虚拟表，有简化查询、保障安全、解耦逻辑等作用。讲解创建、修改、删除视图的操作，以及及视图可更新条件、安全性控制及性能优化方法。本文目录一、视图的定义与作用定义作用二、视图的创建与管理创建视图修改视图方式1：覆盖原有视图方式2：ALTERVIEW删除视图三、视图两种算法MERGE（默认）TEMPTABLE四、视图的可更新性可更
基于llama_cpp 调用本地模型（llama）实现基本推理月光技术杂谈大模型初探 llama llama.cpp python LLM 集成显卡本地模型 AI
零基础实践本地推理模型基本应用：基于llama_cpp的本地模型调用。本文先安装llama_cpppython库，再编写程序，利用其调用llama-2-7b-chat.Q4_K_M.ggu模型。背景llama_cpp是一个基于C++的高性能库（llama.cpp）的Python绑定，支持在CPU或GPU上高效运行LLaMA及其衍生模型（如LLaMA2），并通过量化技术（如GGUF格式）优化内存使用
高级java每日一道面试题-2025年2月20日-数据库篇-大表如何优化 ? java我跟你拼了 java每日一道面试题数据库 java 大表优化索引分页
如果有遗漏,评论区告诉我进行补充面试官:大表如何优化?我回答:在Java高级面试中讨论大表优化问题时，理解并能详细阐述各种优化策略和技术实现是至关重要的。以下是结合提供的信息进行综合后的详细解析：大表优化的背景当数据库中的单表记录数变得非常庞大时，数据库操作（CRUD）的性能会显著下降，这不仅影响应用的响应速度，还可能导致系统资源耗尽，影响业务的稳定性。因此，对大表进行有效的优化是提升数据库性能的
太翌氏文化产业: AGI架构部署太翌修仙笔录 deepseek 第三代人工智能 agi 架构人工智能
在之前RGOA-重力算法等基础上，分析春秋历日盘排盘驱动行为的ai模式，是否达到AGI标准春秋历日盘排盘驱动行为的AI模式与AGI标准的对比分析一、RGOA-重力算法与春秋历日盘排盘的核心逻辑RGOA算法原理RGOA（GravitationalSearchAlgorithm）是一种基于物理引力定律的优化算法，通过模拟粒子在引力场中的运动来寻找最优解。其核心公式为：Fij=GmimjRij2+ϵ和a
如何更新已经发布的 NPM 组件库校长2008 npm vue node.js
要更新已经发布的NPM组件库，可以按照以下步骤操作：更新版本号：每次发布新的版本，都需要更新package.json中的version字段。NPM使用语义化版本规则，即格式为major.minor.patch，例如1.0.1。版本号的更新规则为：major：主版本变更，通常是重大更新或不兼容变更。minor：次版本更新，一般是新增功能，并且向后兼容。patch：补丁版本更新，通常是小的修复和优化。
动态规划双剑合璧：C++与Python征服洛谷三大经典DP问题三流搬砖艺术家动态规划 c++python
动态规划核心思想状态定义→转移方程→边界处理→时空优化本文精选洛谷动态规划题单中三大经典问题，通过C++与Python双语言对比实现，彻底掌握DP精髓！题目一：P1048采药（01背包模板）题目描述在限定时间T内采集草药，每株草药有采集时间time[i]和价值value[i]，求最大总价值。解题思路状态定义：dp[j]表示时间j能获得的最大价值转移方程：dp[j]=max(dp[j],dp[j-t
DeepSeek + Cline：编程如何加速引擎 meisongqing 人工智能
DeepSeek与Cline的结合为编程工作流提供了显著的加速能力，这种组合通过AI辅助规划、代码生成与优化、实时调试等功能，大幅提升开发效率。以下是具体实现方式及技术要点：一、智能规划与代码生成问题分析与规划（Plan模式）DeepSeek-R1模型擅长处理复杂逻辑推理，开发者可在Cline的Plan模式下用自然语言描述需求（如“用Python实现数据清洗并计算平均值”）。DeepSeek会根据
UI自动化页面性能分析与实践 lee_shaoyang POM python web 软件测试
1.背景基于我们的POM平台的UI测试已经基本完成，平台构建主要是对页面进行常规操作，对于页面的加载性能的获取还很缺失，所以为了之后对页面进行分析和优化，我们需要在进行页面操作的同时，获取到页面的加载情况2.方案1（WebPerformanceAPI）WebPerformanceAPI允许网页访问某些函数来测量网页和Web应用程序的性能2.1performance.timing是一个Perform
【大模型开发】深入解析 DeepSpeed：原理、核心技术与示例代码云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习大模型开发大模型微调 deepseek deepspeed python 人工智能 pytorch
深入解析DeepSpeed：原理、核心技术与示例代码DeepSpeed是由微软开源的高性能深度学习训练优化引擎，专注于帮助研究人员和工程团队在分布式环境中高效地训练超大规模模型。其核心目标是提供高吞吐、低内存占用、低成本的分布式训练方案，让数千亿甚至万亿级参数模型的训练成为可能。本文将从DeepSpeed的核心原理、关键组件、代码示例及实现过程详解等方面做详细阐述，帮助读者更好地理解并使用Deep
人脸识别，dlib优化，Dlib/OpenCV交叉编译 yiyayiya557 linux 嵌入式
参考文章：GitRepo镜像使用帮助https://mirrors.tuna.tsinghua.edu.cn/help/git-repo/交叉编译Dlib+OpenCV交叉编译移植到ARM64-v8平台（编译不通过，不可用）https://blog.csdn.net/kaychangeek/article/details/80365320Qt移植到ARM64-v8平台(NXPi.MX8M)笔记（未
Infor CloudSuite软件二次开发：InforCloudSuite移动应用开发 kkchenjj 工业软件二次开发全集架构工业软件 ERP 开发语言
InforCloudSuite软件二次开发：InforCloudSuite移动应用开发InforCloudSuite简介InforCloudSuite平台概述InforCloudSuite是一个集成的企业资源规划(ERP)解决方案，专为特定行业设计，提供了一系列的云应用，旨在优化业务流程，提升运营效率。该平台涵盖了供应链管理、财务、人力资源、客户关系管理等多个领域，通过其先进的功能和模块，企业可以
Flink实时流处理入门与实践随风九天 spring java Flink 实时流
一、引言1.1实时流处理的重要性在当今数据驱动的时代，实时数据处理变得越来越重要。企业需要从不断产生的大量数据中快速提取有价值的信息，以支持决策制定和业务优化。实时流处理技术能够实时处理数据流，提供即时的洞察和响应，从而提高业务效率和竞争力。1.2Flink简介ApacheFlink是一个开源的分布式流处理框架，支持批处理和流处理。Flink提供了高吞吐量、低延迟和精确一次（exactly-onc
信号处理应用：电力系统中的信号处理_（10）.电力系统信号处理中的现代滤波器设计 kkchenkx 信号处理技术仿真模拟信号处理大数据
电力系统信号处理中的现代滤波器设计1.引言在电力系统中，信号处理技术被广泛应用于监测、保护、控制和优化等多个方面。现代滤波器设计是信号处理技术中的重要组成部分，它能够有效地去除噪声、提取有用信号、提高信号质量，从而确保电力系统的稳定运行和高效性能。本节将介绍现代滤波器设计的基本概念、分类、设计方法及其在电力系统中的应用。2.滤波器的基本概念滤波器是一种信号处理设备，用于从输入信号中提取或抑制特定频
前端的架构 so_cruel
一、组件化和模式设计层面1、JS中的继承和扩展在实际的操作中，不需要自己去写太多的这种继承，主要用库，像jquary中的extend。2,、组件化：一般常用的组件有两个，requirejs和sea.js二、做前端架构前需要想什么1、除了技术基础外，应当了解需求，然后进行模块的边界划分；2、如何设计友好接口；3、自动化的发布和快速迭代；4、如何降低维护成本。三、优化和扩展四、自动化最后再提一句，学好
java责任链模式 3213213333332132 java 责任链模式村民告县长
责任链模式，通常就是一个请求从最低级开始往上层层的请求，当在某一层满足条件时，请求将被处理，当请求到最高层仍未满足时，则请求不会被处理。就是一个请求在这个链条的责任范围内，会被相应的处理，如果超出链条的责任范围外，请求不会被相应的处理。下面代码模拟这样的效果：创建一个政府抽象类,方便所有的具体政府部门继承它。 package 责任链模式; /** *
linux、mysql、nginx、tomcat 性能参数优化 ronin47
一、linux 系统内核参数 /etc/sysctl.conf文件常用参数 net.core.netdev_max_backlog = 32768 #允许送到队列的数据包的最大数目 net.core.rmem_max = 8388608 #SOCKET读缓存区大小 net.core.wmem_max = 8388608 #SOCKET写缓存区大
php命令行界面 dcj3sjt126com PHP cli
常用选项 php -v php -i PHP安装的有关信息 php -h 访问帮助文件 php -m 列出编译到当前PHP安装的所有模块执行一段代码 php -r 'echo "hello, world!";' php -r 'echo "Hello, World!\n";' php -r '$ts = filemtime("
Filter&Session 171815164 session
Filter HttpServletRequest requ = (HttpServletRequest) req; HttpSession session = requ.getSession(); if (session.getAttribute("admin") == null) { PrintWriter out = res.ge
连接池与Spring,Hibernate结合 g21121 Hibernate
前几篇关于Java连接池的介绍都是基于Java应用的，而我们常用的场景是与Spring和ORM框架结合，下面就利用实例学习一下这方面的配置。 1.下载相关内容： &nb
[简单]mybatis判断数字类型 53873039oycg mybatis
昨天同事反馈mybatis保存不了int类型的属性,一直报错，错误信息如下: Caused by: java.lang.NumberFormatException: For input string: "null" at sun.mis
项目启动时或者启动后ava.lang.OutOfMemoryError: PermGen space 程序员是怎么炼成的 eclipse jvm tomcat catalina.sh eclipse.ini
在启动比较大的项目时，因为存在大量的jsp页面，所以在编译的时候会生成很多的.class文件，.class文件是都会被加载到jvm的方法区中，如果要加载的class文件很多，就会出现方法区溢出异常 java.lang.OutOfMemoryError: PermGen space. 解决办法是点击eclipse里的tomcat，在
我的crm小结 aijuans crm
各种原因吧，crm今天才完了。主要是接触了几个新技术： Struts2、poi、ibatis这几个都是以前的项目中用过的。 Jsf、tapestry是这次新接触的，都是界面层的框架，用起来也不难。思路和struts不太一样，传说比较简单方便。不过个人感觉还是struts用着顺手啊，当然springmvc也很顺手，不知道是因为习惯还是什么。jsf和tapestry应用的时候需要知道他们的标签、主
spring里配置使用hibernate的二级缓存几步 antonyup_2006 java spring Hibernate xml cache
．在spring的配置文件中 applicationContent.xml，hibernate部分加入 xml 代码 <prop key="hibernate.cache.provider_class">org.hibernate.cache.EhCacheProvider</prop> <prop key="hi
JAVA基础面试题百合不是茶抽象实现接口 String类接口继承抽象类继承实体类自定义异常
/* * 栈（stack）：主要保存基本类型（或者叫内置类型）（char、byte、short、 *int、long、 float、double、boolean）和对象的引用，数据可以共享，速度仅次于 * 寄存器（register），快于堆。堆（heap）：用于存储对象。 */ &
让sqlmap文件 "继承" 起来 bijian1013 java ibatis sqlmap
多个项目中使用ibatis , 和数据库表对应的 sqlmap文件（增删改查等基本语句)，dao, pojo 都是由工具自动生成的, 现在将这些自动生成的文件放在一个单独的工程中，其它项目工程中通过jar包来引用，并通过"继承"为基础的sqlmap文件，dao,pojo 添加新的方法来满足项
精通Oracle10编程SQL(13)开发触发器 bijian1013 oracle 数据库 plsql
/* *开发触发器 */ --得到日期是周几 select to_char(sysdate+4,'DY','nls_date_language=AMERICAN') from dual; select to_char(sysdate,'DY','nls_date_language=AMERICAN') from dual; --建立BEFORE语句触发器 CREATE O
【EhCache三】EhCache查询 bit1129 ehcache
本文介绍EhCache查询缓存中数据，EhCache提供了类似Hibernate的查询API，可以按照给定的条件进行查询。要对EhCache进行查询，需要在ehcache.xml中设定要查询的属性数据准备 @Before public void setUp() { //加载EhCache配置文件 Inpu
CXF框架入门实例白糖_ spring Web 框架 webservice servlet
CXF是apache旗下的开源框架，由Celtix + XFire这两门经典的框架合成，是一套非常流行的web service框架。它提供了JAX-WS的全面支持，并且可以根据实际项目的需要，采用代码优先（Code First）或者 WSDL 优先（WSDL First）来轻松地实现 Web Services 的发布和使用，同时它能与spring进行完美结合。在apache cxf官网提供
angular.equals boyitech AngularJS AngularJS API AnguarJS 中文API angular.equals
angular.equals 描述: 比较两个值或者两个对象是不是相等。还支持值的类型，正则表达式和数组的比较。两个值或对象被认为是相等的前提条件是以下的情况至少能满足一项：两个值或者对象能通过=== （恒等）的比较两个值或者对象是同样类型，并且他们的属性都能通过angular
java-腾讯暑期实习生-输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A[0]*A[1]*...*A[i-1]*A[i+1] bylijinnan java
这道题的具体思路请参看何海涛的微博：http://weibo.com/zhedahht import java.math.BigInteger; import java.util.Arrays; public class CreateBFromATencent { /** * 题目：输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A
FastDFS 的安装和配置修订版 Chen.H linux fastDFS 分布式文件系统
FastDFS Home:http://code.google.com/p/fastdfs/ 1. 安装 http://code.google.com/p/fastdfs/wiki/Setup http://hi.baidu.com/leolance/blog/item/3c273327978ae55f93580703.html 安装libevent (对libevent的版本要求为1.4.
[强人工智能]拓扑扫描与自适应构造器 comsci 人工智能
当我们面对一个有限拓扑网络的时候,在对已知的拓扑结构进行分析之后,发现在连通点之后,还存在若干个子网络,且这些网络的结构是未知的,数据库中并未存在这些网络的拓扑结构数据....这个时候,我们该怎么办呢? 那么,现在我们必须设计新的模块和代码包来处理上面的问题
oracle merge into的用法 daizj oracle sql merget into
Oracle中merge into的使用 http://blog.csdn.net/yuzhic/article/details/1896878 http://blog.csdn.net/macle2010/article/details/5980965 该命令使用一条语句从一个或者多个数据源中完成对表的更新和插入数据. ORACLE 9i 中，使用此命令必须同时指定UPDATE 和INSE
不适合使用Hadoop的场景 datamachine hadoop
转自：http://dev.yesky.com/296/35381296.shtml。　　Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。当人们提到“大数据”或是“数据分析”等相关问题的时候，会听到脱口而出的回答：Hadoop! 实际上Hadoop被设计和建造出来，是用来解决一系列特定问题的。对某些问题来说，Hadoop至多算是一个不好的选择，对另一些问题来说，选择Ha
YII findAll的用法 dcj3sjt126com yii
看文档比较糊涂，其实挺简单的： $predictions=Prediction::model()->findAll("uid=:uid",array(":uid"=>10)); 第一个参数是选择条件：”uid=10″。其中:uid是一个占位符，在后面的array(“:uid”=>10)对齐进行了赋值；更完善的查询需要
vim 常用 NERDTree 快捷键 dcj3sjt126com vim
下面给大家整理了一些vim NERDTree的常用快捷键了，这里几乎包括了所有的快捷键了，希望文章对各位会带来帮助。切换工作台和目录 ctrl + w + h 光标 focus 左侧树形目录ctrl + w + l 光标 focus 右侧文件显示窗口ctrl + w + w 光标自动在左右侧窗口切换ctrl + w + r 移动当前窗口的布局位置 o 在已有窗口中打开文件、目录或书签，并跳
Java把目录下的文件打印出来蕃薯耀列出目录下的文件文件夹下面的文件目录下的文件
Java把目录下的文件打印出来 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 11:02:
linux远程桌面----VNCServer与rdesktop hanqunfeng Desktop
windows远程桌面到linux，需要在linux上安装vncserver，并开启vnc服务，同时需要在windows下使用vnc-viewer访问Linux。vncserver同时支持linux远程桌面到linux。 linux远程桌面到windows，需要在linux上安装rdesktop，同时开启windows的远程桌面访问。下面分别介绍，以windo
guava中的join和split功能 jackyrong java
guava库中，包含了很好的join和split的功能，例子如下： 1）将LIST转换为使用字符串连接的字符串 List<String> names = Lists.newArrayList("John", "Jane", "Adam", "Tom");
Web开发技术十年发展历程 lampcy android Web 浏览器 html5
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
架构师之mima-----------------mina的非NIO控制IOBuffer(说得比较好) nannan408 buffer
1.前言。如题。 2.代码。 IoService IoService是一个接口，有两种实现：IoAcceptor和IoConnector；其中IoAcceptor是针对Server端的实现，IoConnector是针对Client端的实现；IoService的职责包括： 1、监听器管理 2、IoHandler 3、IoSession
ORA-00054:resource busy and acquire with NOWAIT specified Everyday都不同 oracle session Lock
[Oracle] 今天对一个数据量很大的表进行操作时，出现如题所示的异常。此时表明数据库的事务处于“忙”的状态，而且被lock了，所以必须先关闭占用的session。 step1，查看被lock的session： select t2.username, t2.sid, t2.serial#, t2.logon_time from v$locked_obj
javascript学习笔记 tntxia JavaScript
javascript里面有6种基本类型的值:number、string、boolean、object、function和undefined。number：就是数字值，包括整数、小数、NaN、正负无穷。string:字符串类型、单双引号引起来的内容。boolean:true、false object:表示所有的javascript对象，不用多说function:我们熟悉的方法，也就是
Java enum的用法详解 xieke90 enum 枚举
Java中枚举实现的分析：示例： public static enum SEVERITY{ INFO,WARN,ERROR } enum很像特殊的class，实际上enum声明定义的类型就是一个类。而这些类都是类库中Enum类的子类 (java.l

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他