村头陶员外

Spark性能优化 -- > Joins (SQL and Core)

博客内容将首发在微信公众号"跟我一起读论文啦啦"，上面会定期分享机器学习、深度学习、数据挖掘、自然语言处理等高质量论文，欢迎关注！

本博文将总结和讨论下spark core和spark sql 中join的优化操作。

简介

Join操作是spark中比较重要和常用的操作，无论是Spark Core还是Spark SQL都支持一些基础的join操作。但是join操作需要特殊的性能考虑（因为该操作要求RDD根据其key值，将相同key值的RDD拉取到同一个分区中），因为他们需要较大的网络传输，甚至会创建出超过系统处理能力的Dataset；在core Spark中，考虑操作的顺序可能更为重要，因为DAG优化器与SQL优化器不同，不能重新排序或向下推过滤操作。对于提高spark运行性能，考虑如何优化join操作就显得尤为重要。

core spark join

RDD Join

一般来说，Join操作是昂贵的，因为该操作要求RDD根据其key值，拉取相同key值的RDD处在同一个分区中，这样便可以在各个就对其进行连接操作。

如果RDD没有已知的partitioners，则需要对它们进行shuffle操作，使其相同键的数据位于相同的分区中，如下图所示。
如果它们具有相同的partitioners，则可以将数据放在同一个分区中，以避免网络传输，如下图所示。
不管partitioners 是否相同，如果一个（或两个）RDD有一个已知的partitioners，那么只会产生一个窄依赖，如下图所示。与大多数键/值操作一样，join的成本随着key的数量和其到达正确分区所需的移动距离成正比。

join中的key值问题

如果其中一个或两个RDD中存在重复的key值时，进行join操作，数据的大小可能会急剧扩展，从而导致性能问题，下面提几个经验建议：

当两个RDD都存在重复的key值时，最好先进行distinct或combineByKey操作，或者使用cogroup 处理重复key值问题，在执行join操作时可以防止二次的shuffle。
如果两个RDD中都不存在key时，则可能会意外丢失数据。使用外部连接（left，right）outer join时会更安全，这样就可以保证将所有数据保存在左边或右边的RDD中，然后连接之后再过滤数据。

在join之前检查RDD中的key值，在此之前先过滤掉一些特殊的key值，例如空值。

 注：join操作是spark里常用到的比较耗费性能的操作，有必要在join操作之前对数据集进行预处理。

举例：scoreRDD (Panda id, score) ，addressRDD (Panda id, address)，现在想找到每个Panda id下面的address和bestScore，可用join操作达到目标。

方法一：

def joinScoresWithAddress1( scoreRDD : RDD[(Long, Double)], 
addressRDD : RDD[(Long, String )]) : RDD[(Long, (Double, String))]= { 
    val joinedRDD = scoreRDD.join(addressRDD) 
    joinedRDD.reduceByKey( (x, y) => if(x._1 > y._1) x else y )
}

方法二：

def joinScoresWithAddress2(scoreRDD : RDD[(Long, Double)], addressRDD: RDD[(Long, String)]) : 
RDD[(Long, (Double, String))]= {
    val bestScoreData = scoreRDD.reduceByKey((x, y) => if(x > y) x else y) 
    bestScoreData.join(addressRDD)
}

显然方法二更优，方法二在join之前就过滤掉了一些不必要的数据。

加速join过程的几种方法

为了join 数据，Spark需要将要join的数据（即基于每个key的数据）放入到同一个分区上。Spark中join的默认实现是 shuffled hash join。shuffled hash join 通过使用与第一个相同的默认partitioners 对第二个数据集进行分区，确保每个分区上的数据包含相同的key，从而使来自两个数据集的具有相同hash value的键位于同一分区中。虽然这种方法是有效的，但是它通常可能需要进行一次shuffle操作，代价比较昂贵。有以下两点可以用来避免shuffle过程：

需要join的两个RDD具有相同的partitioners
需要join的其中一个RDD很小，可以直接将其存入到内存中，使用broadcast hash join。

通过分配已知的partitioners来加速join过程

在对两个RDD进行join操作之前，可以对第二个RDD添加与第一个RDD相同的partitioners，使其两个RDD使用同一个partitioners，缓解join操作时的shuffle。

def joinScoresWithAddress3(scoreRDD: RDD[(Long, Double)], addressRDD: RDD[(Long, String)]) : RDD[(Long, (Double, String))]=
{  
	// If addressRDD has a known partitioner we should use that, 
    // otherwise it has a default hash parttioner, which we can reconstruct by 
    // getting the number of partitions. 
    val addressDataPartitioner = addressRDD.partitioner match { 
        case (Some(p)) => p 
        case (None) => new HashPartitioner(addressRDD.partitions.length)
 	}
	// 通过使用addressRDD的Partitioner作为reduceByKey步骤的参数
    val bestScoreData = scoreRDD.reduceByKey(addressDataPartitioner, (x, y) => if(x > y) x else y) 
    bestScoreData.join(addressRDD)
}

如上这种操作可以有效避免join操作中的shuffle过程。

注：在repartitioning后最好对RDD进行持久化

使用 broadcast hash join 加速join过程

broadcast hash join 会将较小的RDD复制副本到每个工作节点上，然后再和较大RDD的每个分区数据做map-side combine。如果较小的RDD可以存入到内存中，那么broadcast hash join效果更好。在Spark SQL中，可以配置spark.sql.autoBroadcastJoinThreshold （若dataset大小低于该阈值就会自动进行broadcast）和spark.sql.broadcastTimeout，使得spark sql足够聪明的配置broadcast hash join，例如将较小的RDD加载到内存。

Spark Core 中没有实现broadcast hash join，需要自己实现，可以通过将较小RDD collect到驱动器，作为一个map，然后对其进行广播操作，然后再使用mapPartition。

def manualBroadCastHashJoin[K : Ordering : ClassTag, V1 : ClassTag, V2 : ClassTag](bigRDD : RDD[(K, V1)], smallRDD : RDD[(K, V2)])= 
{ 
    // 将较小的RDD进行collect，并进行广播操作
    val smallRDDLocal: Map[K, V2] = smallRDD.collectAsMap() 
    bigRDD.sparkContext.broadcast(smallRDDLocal)
    // 对较大RDD的每个分区进行map操作
    bigRDD.mapPartitions(iter => 
    {
        iter.flatMap{
            case (k,v1 ) => smallRDDLocal.get(k) match 
            { 
                case None => Seq.empty[(K, (V1, V2))] 
                case Some(v2) => Seq((k, (v1, v2)))
            } 
        } 
    },
     //preservesPartitioning表示是否保留父RDD的partitioner分区信息。
     preservesPartitioning = true) 
}
//end:coreBroadCast[]}

手动的进行Partial broadcast hash join

不是所有的较小RDD都能存入到内存中进行broadcast hash join，这时如果较大的RDD中，存在某些key值占比较大，特别是当某个key值占比太大，大到单个分区已经无法处理，而你又仅仅想对这些占比较大key值进行join，这时你可以对较小的RDD按照这些key值进行过滤，这时就可以对较小的RDD进行broadcast hash join得到Partial result。甚至可以对较大RDD剩下的key记录再次进行上述操作，将得到所有Partial result进行union，即可得到整个join结果。

上述这种方法虽然复杂，但可以有效的处理高度倾斜的数据。

Spark SQL Join

相对于spark core，spark sql可以利用其特有的优化器做一些繁重的工作，使得join操作更有效率，但同时你会失去部分控制权，例如不能控制分区细节，不能像core spark 那样手动的避免shuffle过程。

注：基表不能被广播，比如left outer join时，只能广播右表。

DataFrame Joins

spark join type

inner
left_outer
right_outer
full_outer
left_semi

上述的join type太简单了，这里就不举例说明了，需要注意的是，这样的join和pandas 中的DataFrame的join不一样之处在于，这里的join结果会同时出现df1和df2的key列，即在join结果中key列会出现两次。

DataFrame Broadcast hash joins

配置spark.sql.autoBroadcastJoinThreshold （若dataset大小低于该阈值就会自动进行broadcast）和spark.sql.broadcastTimeout参数

import org.apache.spark.sql.functions.broadcast

val smallDF: DataFrame = ???
val largeDF: DataFrame = ???

largeDF.join(broadcast(smallDF), Seq("foo"))
// or broadcast hint (Spark >= 2.2):

largeDF.join(smallDF.hint("broadcast"), Seq("foo"))

总结

本文主要总结了如下几种join中的优化操作

在join之前过滤掉特殊和不必要的key
在join之前，尽量将存在重复key的数据集通过各种操作转成distinct key的数据集
在join之前，将参与join操作的两个RDD使用同一个partitioners，对应key的分区上存储着相应的将要连接的数据。
broadcast hash join（只适用于存在小的数据集）
Partial manual broadcast hash join（只适用于存在小的数据集，对于解决数据倾斜，非常有效）

参考

High Performance Spark

你可能感兴趣的:(spark性能优化)

嵌入式系统LCD显示模块编程实践
本文还有配套的精品资源，点击获取简介：本文档提供了一个具有800x480分辨率的3.5英寸液晶显示模块LW350AC9001的驱动程序代码，以及嵌入式系统中使用C/C++语言进行硬件编程的实践指南。该模块的2mm厚度使其适用于空间受限的便携式设备。内容包括驱动程序源代码、硬件控制接口使用方法，以及如何在嵌入式系统中进行图形处理、电源管理与性能优化。1.嵌入式系统原理1.1嵌入式系统概念嵌入式系统是
前端 NPM 包的依赖可视化分析工具推荐前端视界前端艺匠馆前端 npm arcgis ai
前端NPM包的依赖可视化分析工具推荐关键词：NPM、依赖管理、可视化分析、前端工程、包管理、依赖冲突、性能优化摘要：本文将深入探讨前端开发中NPM包依赖可视化分析的重要性，介绍5款主流工具的使用方法和特点，并通过实际案例展示如何利用这些工具优化项目依赖结构、解决版本冲突问题以及提升构建性能。文章将帮助开发者更好地理解和掌控项目依赖关系，提高开发效率和项目可维护性。背景介绍目的和范围本文旨在为前端开
《C++性能优化指南》 linux版代码及原理解读第一章 v俊逸 C++性能优化指南性能优化 C++性能优化性能优化
概述：目录概述：性能优化的必要性：C++代码优化策略总结用好的编译器并用好编译器使用更好的算法使用更好的库减少内存分配和复制移除计算使用更好的数据结构提高并发性优化内存管理性能优化的必要性：按照当今的CPU运行速度来说，执行一条指令所需要的时间是10的-9次方的时间单位，如此快速的执行速度是否就没有性能优化的必要了呢？其实不然，性能优化与CPU的执行速度并无非常大的关系，试想一下，一段代码，如果用
《C++性能优化指南》 linux版代码及原理解读第四章 v俊逸 C++性能优化指南性能优化 C++性能优化指南性能优化
目录概述为什么字符串很麻烦字符串是动态分配的字符串赋值背后的操作如何面对字符串会进行大量复制写时复制COW（copyonwrite）尝试优化字符串避免临时字符串通过预留存储空间减少内存分配通过传递引用减少实参复制使用迭代器操作减少循环中的比较操作减少返回值的复制还没有结束，使用字符数组代替字符串再次优化字符串尝试其他的算法叠加以前的优化方式使用其他的编译器使用其他字符串的库功能丰富的字符串库使用s
C++ 性能优化指南三月微风 c++性能优化开发语言
C++性能优化指南（针对GCC编译器，面向高级工程师面试）代码优化面试常问点：如何避免不必要的对象拷贝？为什么要用引用或std::move？虚函数调用有什么性能开销？原理解释：传递对象时按值会拷贝整个对象，特别是大对象会频繁分配/释放内存，影响性能；应尽量改用引用或指针传递。C++11引入移动语义（move），允许“窃取”临时对象的资源，避免深拷贝。虚函数调用需要先通过对象的虚函数表指针（vptr
iOS应用性能优化指南
在移动应用开发领域，iOS应用性能优化一直是开发者关注的焦点。优化应用性能不仅能够提升用户体验，还能增强应用的竞争力。本文将从多个方面详细阐述iOS应用性能优化指南，帮助开发者打造更高效、更流畅的应用。优化内存管理内存泄漏的预防与检测内存泄漏是导致应用性能下降的常见问题。开发者应遵循ARC（自动引用计数）原则，合理管理对象的引用关系。同时，可以使用Xcode的Instruments工具检测内存泄漏
资深开发者挖掘创作潜能指南
太棒了！码龄超过4年的开发者们，你们早已不是编程新手，而是积累了宝贵经验、踩过无数坑、解决过复杂问题的宝藏创作者！是时候将这些无形的资产转化为有影响力的内容，点亮他人也成就自己了。挖掘创作潜能、展现写作才华，可以从以下几个维度入手：一、重新认识你的“创作金矿”-找到你的独特价值深度复盘你的技术旅程：“踩坑”与“填坑”史：哪些Bug让你彻夜难眠？哪些架构设计让你拍案叫绝或后悔不已？哪些性能优化带来了
操作系统级TCP性能优化：高并发场景下的内核参数调优实践 Edingbrugh.南空运维 tcp/ip 性能优化网络协议
在高并发网络场景中，操作系统内核的TCP/IP协议栈配置对系统性能起着决定性作用。本文聚焦操作系统层面，深入解析内核参数调优策略，帮助读者构建稳定高效的网络通信架构。一、连接管理参数优化：从三次握手到队列控制1.1监听队列与半连接管理1.1.1net.core.somaxconn-监听套接字队列上限作用：定义listen()系统调用的积压连接队列最大值，控制未接受连接的排队长度。默认值：128（L
如何从性能菜鸟变性能大咖之------jvm 内存颜挺锐 jvm 性能测试压力测试性能优化
理解JVM（Java虚拟机）内存的性能优化，需要从JVM内存模型、垃圾回收机制、以及如何通过参数调优来提高应用程序的性能等方面入手。以下是对JVM内存性能优化的详细解读：一、JVM内存模型JVM内存模型主要包括以下几个区域：堆内存（Heap）：堆内存是JVM管理的最大一块内存空间，用于存放对象实例和数组。堆内存分为年轻代（YoungGeneration）和老年代（OldGeneration）。年轻
【译】2018 前端性能优化清单 —— 第一部分 qq_36320160 前端前端
原文地址：Front-EndPerformanceChecklist2018-Part1原文作者：VitalyFriedman译文出自：掘金翻译计划本文永久链接：https://github.com/xitu/gold-miner/blob/master/TODO/front-end-performance-checklist-2018-1.md译者：tvChan校对者：mysterytonyry
从卡顿到丝滑：uni-app房产App性能优化实践儿歌八万首 uniapp uni-app 性能优化
1.性能优化概述在移动互联网时代，用户对应用性能的要求越来越高。据统计，如果一个应用的启动时间超过3秒，将有53%的用户选择放弃使用。对于房产行业的移动应用来说，性能优化更是至关重要，因为它直接影响到用户的看房体验和决策效率。房产应用的独特挑战房产应用相比其他类型的应用，面临着更多的性能挑战：数据量大：房源、客户、跟进记录等海量数据需要高效处理和展示图片密集：房源图片、户型图、实景照片等大量高清图
【Python办公】Excel透视转数据图表(饼状图\柱状图\折线图-可拓展) 小庄-Python办公 Python办公自动化 python excel 开发语言 Excel透视 Excel透视工具 python数据分析数据分析
目录专栏导读前言项目概述技术栈选择核心依赖库核心架构设计类结构设计数据流设计界面设计实现布局结构动态界面更新核心功能实现1.透视表计算2.数据排序功能3.数据可视化4.数据统计功能错误处理和用户体验输入验证异常处理项目亮点和创新点1.灵活的多列组合2.智能数据类型处理3.一体化的数据处理流程4.用户友好的界面设计使用场景扩展建议功能扩展性能优化总结完整代码结尾专栏导读欢迎来到Python办公自动化
UnrealEngine5游戏引擎实践（C++) KENYCHEN奉孝 C++服务器 c++游戏引擎
目录目录目录UnrealEngine是什么？UnrealEngine5简介核心技术特性应用场景扩展兼容性与生态系统UnrealEngine安装下载EpicGamesLauncher启动UnrealEngine选择安装版本和路径选择组件开始安装验证安装配置项目模板（可选）更新和插件管理UE游戏引擎动作捕捉与动画系统程序化生成与AI技术物理与破坏系统音频与本地化技术性能优化导入静态网格体材质实例创建与
前端开发常见问题
技术文章大纲性能优化问题页面加载速度慢的常见原因及解决方案渲染阻塞资源的处理方法图片与媒体文件优化策略懒加载与代码分割的实现方式浏览器兼容性问题不同浏览器对CSS特性的支持差异JavaScriptAPI的兼容性处理方案Polyfill的使用场景与实现方法自动化测试工具在兼容性测试中的应用响应式设计挑战移动端与桌面端布局适配问题媒体查询的最佳实践方案视口单位与相对单位的正确使用高DPI屏幕的图像处理
YOLOv11 技术详解：架构优化与性能提升代码老y YOLO 架构目标跟踪
YOLOv11是目标检测领域中一个备受瞩目的新版本，它在保持实时性的同时，显著提升了检测的准确性和效率。本文将深入探讨YOLOv11的架构改进、性能优化以及它在不同应用场景中的表现。一、架构改进（一）C3K2块YOLOv11引入了C3K2块，这是对之前版本中CSP（CrossStagePartial）块的增强。C3K2块使用不同的核大小（例如3x3或5x5）和通道分离策略来优化更复杂特征的提取。这
OpenCV图片操作100例：从入门到精通指南（3）总有刁民想爱朕ha opencv 人工智能计算机视觉
高效学习路径：1️⃣分阶段学习：入门：1-20例（基础操作）进阶：21-50例（图像处理）高级：51-100例（计算机视觉）2️⃣项目驱动学习：证件照背景替换（1-15例）停车场车位检测（30-45例）视频运动追踪（70-85例）3️⃣性能优化技巧：#使用UMat加速图像处理umat_img=cv2.UMat(img)processed=cv2.GaussianBlur(umat_img,(5,5
【网络】Linux 内核优化实战 - net.ipv4.tcp_fin_timeout Linux性能优化原理和实战网络 linux tcp/ip
目录1.TCP连接关闭过程与FIN_WAIT_2状态2.参数作用3.参数取值与影响4.使用场景与建议5.相关参数6.如何配置该参数临时生效（重启后失效）：永久生效（需重启或重载配置）：7.性能优化建议8.监控与故障排查net.ipv4.tcp_fin_timeout是Linux内核中的一个TCP参数，用于控制TCP连接在FIN_WAIT_2状态下的超时时间。以下是对该参数的详细解析：1.TCP连接
【网络】Linux 内核优化实战 - net.ipv4.tcp_max_orphans 锅锅来了 Linux性能优化原理和实战网络 linux tcp/ip
目录1.什么是“孤立TCP连接”？2.参数作用3.参数取值与含义4.使用场景与建议5.相关参数6.如何配置该参数临时生效（重启后失效）：永久生效（需重启或重载配置）：7.性能优化建议8.监控与故障排查net.ipv4.tcp_max_orphans是Linux内核中的一个TCP参数，用于控制系统中孤立（orphaned）TCP连接的最大数量。以下是对该参数的详细解析：1.什么是“孤立TCP连接”？
Maven 构建性能优化深度剖析：原理、策略与实践越重天 Java Maven实战 maven 性能优化 java
博主简介：CSDN博客专家，历代文学网（PC端可以访问：https://literature.sinhy.com/#/?__c=1000，移动端可微信小程序搜索“历代文学”）总架构师，15年工作经验，精通Java编程，高并发设计，Springboot和微服务，熟悉Linux，ESXI虚拟化以及云原生Docker和K8s，热衷于探索科技的边界，并将理论知识转化为实际应用。保持对新技术的好奇心，乐于分
【常见滤波器】PCL 模型滤波器
PCL模型滤波器-几何模型驱动的点云处理技术目录模型滤波器核心概念⚙️PCL模型滤波器架构基础模型滤波器实践高级模型滤波技术模型拟合精度优化️工业应用案例调试与可视化⚡️性能优化策略模型滤波器核心概念模型滤波的本质模型滤波器通过拟合几何模型并评估点云与模型的贴合度，实现对点云的过滤和处理。不同于基础的空间滤波器，模型滤波器能够识别并利用点云的底层几何结构信息。在阈值内超出阈值输入点云模型识别与拟合
Java 与 MySQL 性能优化：MySQL连接池参数优化与性能提升程序员岳彬 Java 与 MySQL 性能优化 mysql 数据库性能优化服务器后端 java
文章目录引言一、连接池的基本概念与作用二、关键连接参数详解2.1max_connections2.2wait_timeout2.3interactive_timeout2.4connect_timeout2.5thread_cache_size三、连接池参数不合理导致的性能问题3.1连接耗尽3.2响应变慢3.3连接失效3.4资源浪费四、连接池参数优化方法与策略4.1max_connections的
MySQL之查询性能优化(二) coffee_babe MySQL mysql 性能优化数据库查询优化 java
查询性能优化慢查询基础:优化数据访问查询性能低下最基本的原因是访问的数据太多。某些查询可能不可避免地需要筛选大量数据，但这并不场景。大部分性能低下的查询都可以通过减少访问的数据量的方式进行优化。对于低效的查询，我们发现通过下面两个步骤来分析总是很有效:1.确认应用程序是否在检索大量超过需要的数据。这通常意味着访问了太多的行，但有时候也可能是访问了太多的列2.确认MySQL服务器是否在分析大量超过需
HarmonyOS 中状态管理 V2和 V1 的区别
鸿蒙ArkUI框架中的ComponentV2与V1在状态管理、组件开发模式、性能优化等方面存在显著差异。以下是两者的核心区别及技术解析：一、状态管理机制V1的局限性V1的@Observed装饰器只能观察对象的第一层属性变化，需配合@ObjectLink手动拆解嵌套对象。例如：@ObservedclassAddress{city:string}@ObservedclassUser{address:A
Redis 性能优化实战：管道、事务、缓存与连接管理全解析佑瞻数据库与知识图谱缓存 redis 性能优化
在日常开发中，我们常常会遇到Redis操作的性能瓶颈：频繁的命令交互导致网络开销激增，并发更新时的数据一致性难以保证，海量数据遍历引发的阻塞问题……其实，Redis早已为这些场景准备了“利器”。今天我们就深入探讨Redis的管道、事务、扫描迭代、客户端缓存以及连接管理技巧，用实战代码带你玩转性能优化。一、管道（Pipelines）：批量执行命令，减少网络往返当我们需要连续执行多个Redis命令时，
MyBatis动态SQL进阶：复杂查询与性能优化实战
引言在复杂业务场景中，SQL查询往往需要动态拼接条件、复用代码片段，并支持批量操作。MyBatis的动态SQL功能提供了强大的解决方案，本文将深入解析条件分支、片段复用、批量操作优化等核心技巧，助你写出高效、可维护的SQL映射。一、条件分支：choose/when/otherwise标签1.1场景说明假设需要实现一个商品查询接口，支持以下条件组合：按名称模糊查询按价格区间查询按状态精确查询若无条件
异步技术：Web 性能优化的核心引擎 weixin_47233946 编程前端性能优化
异步技术：Web性能优化的核心引擎引言：当「等待」成为性能瓶颈当用户访问一个传统同步加载的新闻门户网站时，主线程在解析到时突然停止渲染，页面停留在白屏状态长达2秒——这正是GoogleLighthouse性能检测中常见的"BlockingTime"警告。这种阻塞式加载方式正是现代Web性能优化需要解决的痛点。一、异步的本质与技术演进1.1从同步到异步的范式转换同步加载如同单行道依次通行的汽车，每个
前端领域的前端设计模式技巧分享前端视界前端艺匠馆前端设计模式状态模式 ai
前端领域的前端设计模式技巧分享关键词：前端设计模式、组件化开发、状态管理、性能优化、代码复用、可维护性、响应式设计摘要：本文深入探讨前端开发中的设计模式应用技巧，从基础概念到高级实践，全面解析如何通过设计模式提升前端代码质量。文章将详细介绍常见的前端设计模式如观察者模式、单例模式、工厂模式等，并结合React、Vue等现代框架展示实际应用场景。同时，我们还将探讨设计模式在状态管理、性能优化和组件复
Transformer推理性能优化技术很重要的一个就是K V cache，能否通俗分析，可以结合代码? javastart aigc 大模型人工智能 transformer AIGC 性能优化
原文：Transformer推理性能优化技术很重要的一个就是KVcache，能否通俗分析，可以结合代码?-知乎为什么要研究KVcache？设输入序列的长度为s，输出序列的长度为n，模型深度为l，维度为h,以FP16来保存KVcache，那么KVcache的峰值显存占用大小为b(s+n)h∗l∗2∗2=4blh(s+n)。这里第一个2表示K/Vcache，第二个2表示FP16占2个bytes。以GP
Python（29）Python生成器函数深度解析：asyncio事件循环的底层实现与异步编程实战一个天蝎座白勺程序猿 python 开发语言
目录引言一、生成器与异步编程的渊源1.1技术背景与发展1.2关键结合点：协程概念1.3实际应用演进1.4底层实现原理1.5生成器的基础特性代码1.6协程的进化之路代码二、asyncio事件循环深度解析2.1事件循环架构2.2生成器调度流程三、高级特性实现3.1生成器双向通信3.2异常处理机制四、性能优化实战4.1内存管理对比4.2执行时间优化技巧五、实践建议5.1代码组织规范5.2调试技巧六、总结
构建高效的jQuery地理选择器组件 Kiki-2189
本文还有配套的精品资源，点击获取简介：本项目展示了如何利用jQuery构建一个在网页中常用的二级和三级城市选择器。这种选择器对于地理位置选择场景尤为重要，例如在线购物和预订服务。组件通过动态DOM操作、JSON数据结构、事件绑定、异步数据加载、插件化、样式美化、响应式设计、性能优化和无障碍访问等技术点，提供了一个高效、易用和适应性强的用户体验。同时，还需注意代码的兼容性、错误处理和全面的测试。1.
web前段跨域nginx代理配置刘正强 nginx cms Web
nginx代理配置可参考server部分 server { listen 80; server_name localhost;
spring学习笔记 caoyong spring
一、概述 a>、核心技术 : IOC与AOP b>、开发为什么需要面向接口而不是实现接口降低一个组件与整个系统的藕合程度，当该组件不满足系统需求时，可以很容易的将该组件从系统中替换掉，而不会对整个系统产生大的影响 c>、面向接口编口编程的难点在于如何对接口进行初始化,(使用工厂设计模式)
Eclipse打开workspace提示工作空间不可用 0624chenhong eclipse
做项目的时候，难免会用到整个团队的代码，或者上一任同事创建的workspace， 1.电脑切换账号后，Eclipse打开时，会提示Eclipse对应的目录锁定，无法访问，根据提示，找到对应目录，G:\eclipse\configuration\org.eclipse.osgi\.manager，其中文件.fileTableLock提示被锁定。解决办法，删掉.fileTableLock文件，重
Javascript 面向对面写法的必要性？一炮送你回车库 JavaScript
现在Javascript面向对象的方式来写页面很流行，什么纯javascript的mvc框架都出来了：ember 这是javascript层的mvc框架哦,不是j2ee的mvc框架我想说的是，javascript本来就不是一门面向对象的语言，用它写出来的面向对象的程序，本身就有些别扭，很多人提到js的面向对象首先提的是：复用性。那么我请问你写的js里有多少是可以复用的，用fu
js array对象的迭代方法换个号韩国红果果 array
1.forEach 该方法接受一个函数作为参数，对数组中的每个元素使用该函数 return 语句失效 function square(num) { print(num, num * num); } var nums = [1,2,3,4,5,6,7,8,9,10]; nums.forEach(square); 2.every 该方法接受一个返回值为布尔类型
对Hibernate缓存机制的理解归来朝歌 session 一级缓存对象持久化
在hibernate中session一级缓存机制中，有这么一种情况：问题描述：我需要new一个对象，对它的几个字段赋值，但是有一些属性并没有进行赋值，然后调用 session.save()方法，在提交事务后，会出现这样的情况： 1：在数据库中有默认属性的字段的值为空 2：既然是持久化对象，为什么在最后对象拿不到默认属性的值？通过调试后解决方案如下：对于问题一，如你在数据库里设置了
WebService调用错误合集 darkranger webservice
Java.Lang.NoClassDefFoundError: Org/Apache/Commons/Discovery/Tools/DiscoverSingleton 调用接口出错，一个简单的WebService import org.apache.axis.client.Call;import org.apache.axis.client.Service; 首先必不可
JSP和Servlet的中文乱码处理 aijuans Java Web
JSP和Servlet的中文乱码处理前几天学习了JSP和Servlet中有关中文乱码的一些问题，写成了博客，今天进行更新一下。应该是可以解决日常的乱码问题了。现在作以下总结希望对需要的人有所帮助。我也是刚学，所以有不足之处希望谅解。一、表单提交时出现乱码：在进行表单提交的时候，经常提交一些中文，自然就避免不了出现中文乱码的情况，对于表单来说有两种提交方式：get和post提交方式。所以
面试经典六问 atongyeye 工作面试
题记：因为我不善沟通，所以在面试中经常碰壁，看了网上太多面试宝典，基本上不太靠谱。只好自己总结，并试着根据最近工作情况完成个人答案。以备不时之需。以下是人事了解应聘者情况的最典型的六个问题： 1 简单自我介绍关于这个问题，主要为了弄清两件事，一是了解应聘者的背景，二是应聘者将这些背景信息组织成合适语言的能力。我的回答：(针对技术面试回答，如果是人事面试，可以就掌
contentResolver.query()参数详解百合不是茶 android query()详解
收藏csdn的博客,介绍的比较详细,新手值得一看 1.获取联系人姓名一个简单的例子，这个函数获取设备上所有的联系人ID和联系人NAME。 [java] view plain copy public void fetchAllContacts() {
ora-00054:resource busy and acquire with nowait specified解决方法 bijian1013 oracle 数据库 kill nowait
当某个数据库用户在数据库中插入、更新、删除一个表的数据，或者增加一个表的主键时或者表的索引时，常常会出现ora-00054:resource busy and acquire with nowait specified这样的错误。主要是因为有事务正在执行（或者事务已经被锁），所有导致执行不成功。 1.下面的语句
web 开发乱码征客丶 spring Web
以下前端都是 utf-8 字符集编码一、后台接收 1.1、 get 请求乱码 get 请求中，请求参数在请求头中；乱码解决方法： a、通过在web 服务器中配置编码格式：tomcat 中，在 Connector 中添加URIEncoding="UTF-8"； 1.2、post 请求乱码 post 请求中，请求参数分两部份， 1.2.1、url？参数，
【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式 bit1129 spark
Spark SQL数据源和表的Schema case class apply schema parquet json JSON数据源准备源数据 {"name":"Jack", "age": 12, "addr":{"city":"beijing&
JVM学习之:调优总结 -Xms -Xmx -Xmn -Xss BlueSkator -Xss -Xmn -Xms -Xmx
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx355
jqGrid 各种参数详解(转帖) BreakingBad jqGrid
jqGrid 各种参数详解分类：源代码分享个人随笔请勿参考解决开发问题 2012-05-09 20:29 84282人阅读评论(22) 收藏举报 jquery 服务器 parameters function ajax string
读《研磨设计模式》-代码笔记-代理模式-Proxy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.lang.reflect.InvocationHandler; import java.lang.reflect.Method; import java.lang.reflect.Proxy; /* * 下面
应用升级iOS8中遇到的一些问题 chenhbc ios8 升级iOS8
1、很奇怪的问题，登录界面，有一个判断，如果不存在某个值，则跳转到设置界面，ios8之前的系统都可以正常跳转，iOS8中代码已经执行到下一个界面了，但界面并没有跳转过去，而且这个值如果设置过的话，也是可以正常跳转过去的，这个问题纠结了两天多，之前的判断我是在 -(void)viewWillAppear:(BOOL)animated 中写的，最终的解决办法是把判断写在 -(void
工作流与自组织的关系？ comsci 设计模式工作
目前的工作流系统中的节点及其相互之间的连接是事先根据管理的实际需要而绘制好的，这种固定的模式在实际的运用中会受到很多限制，特别是节点之间的依存关系是固定的，节点的处理不考虑到流程整体的运行情况，细节和整体间的关系是脱节的，那么我们提出一个新的观点，一个流程是否可以通过节点的自组织运动来自动生成呢？这种流程有什么实际意义呢？这里有篇论文，摘要是：“针对网格中的服务
Oracle11.2新特性之INSERT提示IGNORE_ROW_ON_DUPKEY_INDEX daizj oracle
insert提示IGNORE_ROW_ON_DUPKEY_INDEX 转自：http://space.itpub.net/18922393/viewspace-752123 在 insert into tablea ...select * from tableb中，如果存在唯一约束，会导致整个insert操作失败。使用IGNORE_ROW_ON_DUPKEY_INDEX提示，会忽略唯一
二叉树:堆 dieslrae 二叉树
这里说的堆其实是一个完全二叉树,每个节点都不小于自己的子节点,不要跟jvm的堆搞混了.由于是完全二叉树,可以用数组来构建.用数组构建树的规则很简单: 一个节点的父节点下标为: (当前下标 - 1)/2 一个节点的左节点下标为: 当前下标 * 2 + 1 &
C语言学习八结构体 dcj3sjt126com c
为什么需要结构体，看代码 # include <stdio.h> struct Student //定义一个学生类型，里面有age, score, sex, 然后可以定义这个类型的变量 { int age; float score; char sex; } int main(void) { struct Student st = {80, 66.6,
centos安装golang dcj3sjt126com centos
#在国内镜像下载二进制包 wget -c http://www.golangtc.com/static/go/go1.4.1.linux-amd64.tar.gz tar -C /usr/local -xzf go1.4.1.linux-amd64.tar.gz #把golang的bin目录加入全局环境变量 cat >>/etc/profile<
10.性能优化-监控-MySQL慢查询 frank1234 性能优化 MySQL慢查询
1.记录慢查询配置 show variables where variable_name like 'slow%' ; --查看默认日志路径查询结果：--不用的机器可能不同 slow_query_log_file=/var/lib/mysql/centos-slow.log 修改mysqld配置文件：/usr /my.cnf[一般在/etc/my.cnf，本机在/user/my.cn
Java父类取得子类类名 happyqing java this 父类子类类名
在继承关系中，不管父类还是子类，这些类里面的this都代表了最终new出来的那个类的实例对象，所以在父类中你可以用this获取到子类的信息！ package com.urthinker.module.test; import org.junit.Test; abstract class BaseDao<T> { public void
Spring3.2新注解@ControllerAdvice jinnianshilongnian @Controller
@ControllerAdvice，是spring3.2提供的新注解，从名字上可以看出大体意思是控制器增强。让我们先看看@ControllerAdvice的实现： @Target(ElementType.TYPE) @Retention(RetentionPolicy.RUNTIME) @Documented @Component public @interface Co
Java spring mvc多数据源配置 liuxihope spring
转自：http://www.itpub.net/thread-1906608-1-1.html 1、首先配置两个数据库 <bean id="dataSourceA" class="org.apache.commons.dbcp.BasicDataSource" destroy-method="close&quo
第12章 Ajax（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BW / Universe Mappings blueoxygen BO
BW Element OLAP Universe Element Cube Dimension Class Charateristic A class with dimension and detail objects (Detail objects for key and desription) Hi
Java开发熟手该当心的11个错误 tomcat_oracle java 多线程工作单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
推行国产操作系统的优劣 yananay windows linux 国产操作系统
最近刮起了一股风，就是去“国外货”。从应用程序开始，到基础的系统，数据库，现在已经刮到操作系统了。原因就是“棱镜计划”，使我们终于认识到了国外货的危害，开始重视起了信息安全。操作系统是计算机的灵魂。既然是灵魂，为了信息安全，那我们就自然要使用和推行国货。可是，一味地推行，是否就一定正确呢？先说说信息安全。其实从很早以来大家就在讨论信息安全。很多年以前，就据传某世界级的网络设备制造商生产的交

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他