solihawk

分布式系列之分布式分析计算引擎Spark解析

Spark作为一种通用的大数据分析引擎，集成了批处理、流式查询以及交互式查询于一体，其技术体系相当复杂，本文简要介绍了Spark中的基本架构和基本概念RDD和执行流程，以及Spark on YARN两种模式。

1、Spark基本介绍

Apache Spark是一种通用可扩展的大数据分析引擎，集批处理、实时流处理、交互式查询与流计算于一体，避免了多种运算场景下需要部署不同集群带来的资源浪费。另外，Spark是基于内存的计算，相较于MapReduce或者Hive，处理效率上要提升数倍。

1.1 Spark核心组件

Spark是一种通用的大数据分析引擎，包含了大数据领城常见的各种计算框架：使用Spark Core用于离线计算；Spark SQL用于交互式查询；基于Spark Streaming实现实时流式计算；Spark MILlib用于机器学习；Spark GraphX用于图计算。

1）Spark Core

包含Spark的基本功能，包含任务调度，内存管理，容错机制等，为其他组件提供底层的服务。在内部定义了RDDs(弹性分布式数据集)，提供了很多APIs来创建和操作这些RDDs。

2）Spark SQL

支持像其它数据库一样，使用SQL的方式处理结构化的数据源，包括Hive、HBase、MySQL、JSON等。Spark SQL提供了两种抽象的数据集合：DataFrame和Datasets

DataFrame是spark Sql对结构化数据的抽象，可以简单的理解为spark中的表
DataSet是数据的分布式集合

3）Spark Streaming

基于Spark Core实现了可扩展、高吞吐和容错的实时流处理，支持的数据源有Kafka、Flume、HDFS和TCP socket等，处理后的结果存储到HDFS或数据库中。Spark Streaming是将流式计算分解成一系列短小的批处理作业，每个批处理作业处理一段数据，每一段数据转换成Spark中的RDD进行转换操作。

4）MLib

MLIB是Spark对常用的机器学习算法的实现库，包括分类、回归、聚类、协同过滤、降维等算法，同时支持流水线的学习模式，即多个算法使用不同的参数以流水线的形式编排运行，得到算法的结果。

5）Graphx

Spark提供的关于图和图并行计算的API，集ETL、试探性分析和迭代式图计算于一体。

1.2 Spark基本架构

Spark整体架构如图所示，包括ClusterManager、Worker、Driver和executor等。

1）Cluster Manager

集群管理器，它存在于Master进程中，主要用来对应用程序申请的资源进行管理和调度，根据其部署模式的不同，可以分为local，standalone，yarn，mesos等模式。

2）worker

Spark的工作节点，用于执行任务的提交，主要工作职责有以下：

worker节点通过注册机向cluster manager汇报自身的cpu，内存等信息。
worker节点在spark master作用下创建并启用executor，executor是真正的计算单元。
spark master将任务Task分配给worker节点上的executor并执行运用。
worker节点同步资源信息和executor状态信息给cluster manager。

在yarn 模式下运行worker节点一般指的是NodeManager节点，standalone模式下运行一般指的是slave节点。

3）executor

Executor是真正执行计算任务的组件，它是application运行在worker上的一个进程。这个进程负责Task的运行，它能够将数据保存在内存或磁盘存储中，也能够将结果数据返回给Driver。Executor宿主在worker节点上，每个Worker上存在一个或多个Executor进程，每个executor持有一个线程池，每个线程可以执行一个task。根据Executor上CPU-core的数量，其每个时间可以并行多个跟core一样数量的task，其中task任务即为具体执行的Spark程序的任务。

4）Application

Application是Spark API编程的应用程序，它包括实现Driver功能的代码和在程序中各个executor上要执行的代码，一个application由多个job组成。其中应用程序的入口为用户所定义的main方法。

5）Driver

Driver的功能是创建SparkContext，负责执行用户写的Application的main函数进程，创建SparkContext的目的是为了准备Spark应用程序的运行环境。Application通过Driver和Cluster Manager及executor进行通讯，当Executor部分运行完毕后，Driver同时负责将SparkContext关闭。Driver可以运行在application节点上，也可以由application提交给Cluster Manager，再由Cluster Manager安排worker节点运行。Driver节点也负责提交Job，并将Job转化为Task，在各个Executor进程间协调Task的调度。

6）sparkContext
sparkContext是整个spark应用程序最关键的一个对象，是Spark所有功能的主要入口点。核心作用是初始化spark应用程序所需要的组件，同时还负责向master程序进行注册等。

用户程序从最开始提交到最终的计算执行，需要经历以下几个阶段：

用户程序创建SparkContext时，新创建的SparkContext实例会连接到ClusterManager。ClusterManager根据用户提交时设置的CPU和内存信息为本次的提交分配计算资源，启动Executor进程
Driver会根据用户程序划分为不同的执行阶段，每个执行阶段由一组完全相同的Task组成，这些Task分别作用于待处理数据的不同分区。SparkContext根据RDD的依赖关系构建DAG图，DAG图提交给DAGScheduler解析成Stage，然后把一个个TaskSet提交给底层调度器TaskScheduler处理。在阶段划分完成和Task创建后，Driver会向Executor发送Task
Executor在接收到Task后，会下载Task运行时候的依赖，在准备好Task的执行环境后，开始执行Task并将Task的运行状态汇报给Driver
Driver会根据收到的Task状态来处理不同的状态更新。Task分为两种：一种是shuffle map task，实现数据的重新洗牌，洗牌的结果保存到Executor所在节点的文件系统中；另外一种是result Task，负责生成结果数据。
Driver会不断的调用Task，重复2~4的过程，将Task发送到Executor执行，在所有的Task都正常执行或超过执行次数的限制仍然没有执行成功时停止。

2、Spark基本概念

2.1 RDD弹性分布式数据集

RDD是弹性分布式数据集，是Spark中数据处理的最基本抽象，可以被并行操作的元素集合。RDD在本质上是一个只读的分区记录集合，每个RDD可分成多个分区，每个分区就是一个数据集片段，并且一个RDD的不同分区可以被保存到集群中不同的节点上，从而可以在集群的不同节点上进行并行计算。

RDD提供了一种高端受限的共享内存模型，即RDD是只读的记录分区的集合，不能直接修改，只能基于稳定的物理存储中的数据集创建RDD，或者通过在其他RDD上执行确定的转换操作（如map，join和group by）而创建得到新的RDD。Spark中可以通过一系列的算子对RDD进行操作，主要分为Transformation和Action两种操作。

Transformation(转换)：是对已有的RDD进行换行生成新的RDD，对于转换过程采用惰性计算机制，不会立即计算出结果。常用的方法有map，filter，flatmap等。
Action(执行)：对已有对RDD对数据执行计算产生结果，并将结果返回Driver或者写入到外部存储中。常用到方法有reduce，collect，saveAsTextFile等。

RDD具有自动容错、位置感知性调度和可伸缩性的特点，每个RDD主要有以下属性：

分片Partition：数据集的基本组成单位，对于RDD来说，每个分片都会被一个计算任务处理，并决定并行计算的粒度。用户可以在创建RDD时指定分片的个数，默认为分配的CPU core数目
计算每个分区的函数：Spark中RDD的计算是以分片为单位的，每个RDD都会实现compute函数，compute函数会对迭代器进行汇总，不需要保存每次的计算结果
RDD之间的依赖关系：RDD每次转换都会生成新的RDD，所以RDD之间会形成类似流水线一样的前后依赖关系。在部分分区数据丢失时，Spark可以通过这个依赖关系重新计算丢失的分区数据，而不需要对RDD的所有分区进行重新计算
RDD的分片函数Partitioner：Spark中实现两种类型的分片函数，基于哈希函数HashPartitioner和基于分区函数RangePartitioner。Partitioner函数决定了RDD本身的分片数量，也决定了RDD Shuffle输出时的分片数量
存储每个分片的优先位置的列表：对于HDFS文件，这个列表保存了每个partition所在块的位置。Spark在进行任务调度的时候，会尽可能的将计算任务分配到其所要处理的数据块的存储位置。

2.2 DAG有向无环图

Spark会根据用户提交的逻辑中的RDD操作生成RDD之间的依赖关系，同时这个计算链生成了逻辑上的DAG。在Spark中DAG主要分为DAGScheduler和TaskScheduler：

DAGScheduler是面向stage的高层级的调度器，DAG Scheduler把DAG拆分为多个Task，每组Task都是一个stage，解析时是以shuffle为边界进行反向构建的，每当遇见一个shuffle，spark就会产生一个新的stage，接着以TaskSet的形式提交给底层的调度器（task scheduler），每个stage封装成一个TaskSet。DAG Scheduler需要记录RDD被存入磁盘物化等动作，同时会需要Task寻找最优等调度逻辑，以及监控因shuffle跨节点输出导致的失败。
TaskScheduler负责每一个具体任务的执行，包括任务集的调度管理、状态结果跟踪、物理资源调度管理、任务执行和获取结果。TaskScheduler维护所有TaskSet，当Executor向Driver发生心跳时，TaskScheduler会根据资源剩余情况分配相应的Task。

3、Spark运行模式及运行流程

3.1 Spark的运行模式

Spark的运行模式主要有以下几种：

运行模式	运行类型	说明
local	本地模式	常用于本地开发测试，分为local单线程和local-cluster多线程模式
standalone	集群模式	独立模式，在spark自己的资源调度管理框架上运行，该框架采用master/salve结构
yarn	集群模式	在yarn资源管理器框架上运行，由yarn负责资源管理，spark负责任务调度和计算
mesos	集群模式	在mesos资源管理器框架上运行，由mesos负责资源管理，spark负责任务调度和计算
k8s	集群模式	在k8s上运行

3.2 Spark程序在YARN上执行流程

Spark on YARN分为两种模式yarn-client模式和yarn-cluster模式，一般采用的是yarn-cluster模式。yarn-cluster和yarn-client的区别在于yarn appMaster，yarn-cluster中ApplicationMaster不仅负责申请资源，并负责监控Task的运行状况，因此可以关掉client；yarn-client中ApplicationMaster仅负责申请资源，由client中的driver来监控调度Task的运行，因此不能关掉client。

3.2.1 YARN-client模式

ResourceManager接到请求后在集群中选择一个NodeManager分配Container资源为AppMaster作准备
在Container中启动ApplicationMaster进程；driver进程运行在client中，并初始化sparkContext；
sparkContext初始化完后与ApplicationMaster通讯，通过ApplicationMaster向ResourceManager申请Container，ApplicationMaster通知NodeManager在获得的Container中启动excutor进程；
1.sparkContext分配Task给excutor，excutor发送运行状态给driver。

3.2.2 YARN-cluster模式

client 向yarn提交应用程序，包含ApplicationMaster程序、启动ApplicationMaster的命令、需要在Executor中运行的程序等。
ApplicationMaster程序启动ApplicationMaster的命令、需要在Executor中运行的程序等。
ApplicationMaster向ResourceManager注册申请Container资源，这样用户可以直接通过ResourceManage查看应用程序的运行状态。
ApplicationMaster申请到资源（也就是Container）后，便与对应的NodeManager通信，启动excutor进程。
Task向ApplicationMaster汇报运行的状态和进度，以让ApplicationMaster随时掌握各个任务的运行状态，从而可以在任务失败时重新启动任务。
应用程序运行完成后，ApplicationMaster向ResourceManager申请注销并关闭自己。

4、总结

Spark技术体系相当复杂，本文简要介绍了Spark中的基本架构和基本概念RDD和执行流程，以及Spark on YARN两种模式。Spark有关的开发在之前的大数据系列中有所涉及，这里不再赘述。

参考资料：

《Spark技术内部：深入解析Spark内核架构设计与技术原理》，张安站著
https://spark.apache.org/docs/latest/index.html
https://blog.csdn.net/weixin_45366499/article/details/110010589
https://blog.csdn.net/zxc123e/article/details/79912343
https://blog.csdn.net/crazybean_lwb/article/details/106316513

转载请注明原文地址：https://blog.csdn.net/solihawk/article/details/126165093
文章会同步在公众号“牧羊人的方向”更新，感兴趣的可以关注公众号，谢谢！

python捕获异常青云游子 python
try:name="aaa"id="aaa"exceptExceptionase:print("任务报错")print(str(e))print(str(traceback.print_exc()))spark.sql("""insertintotabledim.aaaselect'1','666','{name}','{id}',null,null,null,null,current_times
Spark任务提交流程尘世壹俗人大数据Spark技术大数据
当包含在applicationmaster中的spark-driver启动后，会与资源调度平台交互获取其他执行器资源，并通过反向注册通知对应的node节点启动执行容器。此外，还会根据程序的执行规划生成两个非常重要的东西，一个是根据spark任务执行计划生成n个ADG有向无环图，另一个是根据有向无环图生成对应的taskset，也可以统称为stage，ADG和taskset由于宽窄依赖以及程序的复杂度
spark读取、写入Clickhouse以及遇到的问题 Alex_81D 大数据基础大数据从入门到精通 clickhouse spark
最近需要处理Clickhouse里面的数据，经过上网查找总结一下spark读写Clickhouse的工具类已经遇到的问题点。具体Clickhouse的讲解本篇不做讲解，后面专门讲解这个。一、clickhouse代码操作话不多说直接看代码1.引入依赖：ru.yandex.clickhouseclickhouse-jdbc0.2.40.2.4这个版本用的比较多一点2.spark对象创建valspark
安装 Erlang：一步步教你安装和配置 Erlang 环境 AzProcessgroup erlang c#开发语言
Erlang是一种功能强大的编程语言和运行时环境，特别适用于构建高可靠性、并发性和分布式性能的应用程序。在本文中，我将为您提供安装和配置Erlang环境的详细步骤。步骤1：下载Erlang安装包首先，让我们从Erlang官方网站下载适用于您的操作系统的最新版本的Erlang安装包。您可以在https://www.erlang.org/downloads找到可用的安装包。选择与您的操作系统和体系结构
《鸿蒙Next旅游应用：人工智能赋能个性化与智能导览新体验》人工智能深度学习
随着鸿蒙Next的推出，旅游应用迎来了全新的发展机遇，借助人工智能技术能为用户带来更出色的个性化推荐和智能导览服务。鸿蒙Next与人工智能融合优势鸿蒙Next拥有强大的分布式能力和原生智能体验。其能打破设备界限，实现多设备协同，让用户在手机、平板、智能手表等设备上无缝使用旅游应用。同时，依托华为强大的AI技术和自研的“盘古”大模型，为旅游应用提供了强大的智能支持。个性化推荐实现方式用户数据收集与分
基于单片机的分布式智能输液系统设计 01单片机设计单片机单片机嵌入式硬件
**单片机设计介绍，基于单片机的分布式智能输液系统设计文章目录一概要二、功能设计设计思路三、软件设计原理图五、程序六、文章目录一概要基于单片机的分布式智能输液系统设计概要如下：一、系统概述基于单片机的分布式智能输液系统是一种集成化、智能化的医疗设备，旨在实现对多个输液过程的实时监测、控制和管理。该系统通过单片机作为核心控制单元，结合传感器技术、无线通信技术和人机交互界面，实现输液数据的采集、处
《软硬协同优化，解锁鸿蒙系统AI应用性能新高度》深度学习人工智能
在当今数字化时代，鸿蒙系统与人工智能的融合正逐渐成为科技领域的热门话题。如何通过软件和硬件协同优化，进一步提升鸿蒙系统中AI应用的整体性能，成为了开发者和技术爱好者们关注的焦点。鸿蒙系统与AI应用的融合现状鸿蒙系统以其独特的微内核架构和分布式特性，为AI应用提供了良好的运行环境。目前，鸿蒙系统中的AI应用已经涵盖了语音助手、图像识别、智能推荐等多个领域，为用户带来了更加智能、便捷的体验。然而，随着
《解锁鸿蒙系统AI能力，开启智能应用开发新时代》人工智能深度学习
在当今科技飞速发展的时代，鸿蒙系统以其独特的分布式架构和强大的AI能力，为开发者们带来了前所未有的机遇。本文将深入探讨开发者如何利用鸿蒙系统的AI能力开发更智能的应用，开启智能应用开发的新时代。鸿蒙系统构筑了15+系统级的AI能力，并开放了14+AI控件，覆盖图像、语音、智能推荐等领域。这意味着开发者无需从头搭建复杂的AI模型和算法，只需通过低至“一行代码”调用系统级原生AI能力，如文本识别、视觉
云原生周刊：Docker 的替代方案云计算
开源项目推荐DitoDito是一个用Go语言编写的高级Layer7反向代理服务器，提供灵活的中间件支持、后端连接的自定义证书处理、动态配置重载，以及与Redis的分布式缓存和速率限制功能。其主要特性包括高效处理HTTP和HTTPS请求、支持WebSocket代理、动态配置热重载、分布式速率限制和缓存、以及自定义TLS证书管理等。Dito的设计注重灵活性和可扩展性，允许用户根据自身需求进行定制，满足
如何设计一款分布式数据库借雨醉东风热点追踪分布式
关注我，持续分享逻辑思维&管理思维&面试题；可提供大厂面试辅导、及定制化求职/在职/管理/架构辅导；推荐专栏《10天学会使用asp.net编程AI大模型》，目前已完成所有内容。一顿烧烤不到的费用，让人能紧跟时代的浪潮。从普通网站，到公众号、小程序，再到AI大模型网站。干货满满。学成后可接项目赚外快，绝对划算。不仅学会如何编程，还将学会如何将AI技术应用到实际问题中，为您的职业生涯增添一笔宝贵的财富
高防是什么，DDos是什么不正经随记 ddos
一、高防是什么“高防”通常是指“高防御”，在网络安全领域，它通常指的是高防御能力的服务器或网络服务。这些服务主要用于防御各种网络攻击，尤其是DDoS（分布式拒绝服务）攻击。高防服务器高防服务器是指具备高防御能力的服务器，能够抵御大规模的DDoS攻击。这些服务器通常位于具备高带宽和高防御能力的数据中心，可以有效地过滤恶意流量，确保正常的业务运行。高防IP高防IP是一种特殊的IP地址，具有高防御能力，
如何确保热点产品查询延迟控制在10ms以内?思维导图代码示例（java 架构) 用心去追梦 java 架构开发语言
为了确保热点产品查询的延迟控制在10ms以内，可以采取一系列优化措施和技术手段。以下是一个思维导图的结构和一个简化的Java架构代码示例，用于展示如何实现这一目标。思维导图结构低延迟查询数据预加载热点数据预测提前加载到内存缓存使用高性能缓存内存级缓存（如Caffeine）分布式缓存（如Redis）缓存一致性管理弱一致性模型缓存更新策略（写后失效、读时更新等）并发处理多线程/异步编程线程池管理数据库
全区全服游戏框架 lao geng 游戏服务器游戏
游戏服务器架构概述分布式架构基础：全区全服游戏框架通常采用分布式架构，以应对大量玩家同时在线的情况。这种架构包括多个服务器节点，如登录服务器、游戏逻辑服务器、数据库服务器等。登录服务器负责处理玩家的登录和验证流程，游戏逻辑服务器承载游戏的主要玩法和规则运算，数据库服务器存储玩家数据、游戏配置等关键信息。这些服务器之间通过高效的网络通信协议相互协作。分层架构理念：在游戏服务器内部，分层架构有助于组织
推荐文章：libpopcnt——高效位计数的神器胡蓓怡
推荐文章：libpopcnt——高效位计数的神器libpopcntFastC/C++bitpopulationcountlibrary项目地址:https://gitcode.com/gh_mirrors/li/libpopcnt在数字处理和大数据分析的世界里，每毫秒的性能提升都是宝贵的。今天，我们要向大家隆重介绍一个名为libpopcnt的开源库，它专为快速计算数组中“1”比特的数量而生，是优化
DDOS和CC是什么德迅云安全-小潘服务器 ddos 网络
最近接到很多客户的来访，说自己的业务遭受了大量不明来历的DDOS和CC攻击，来咨询我们解决的方案，为此我们也是专门为客户定制了解决方案，保障了客户业务在面对攻击时可以安全运转。接下来我为大家讲讲这些攻击的原理和带来的影响。DDOS也叫分布式拒绝服务（DistributedDenialofService）简称为DDOS，就是将多台计算机联合起来作为攻击平台，通过远程连接利用恶意程序，对一个或多个目标
什么是数据仓库？狮歌~资深攻城狮数据仓库
什么是数据仓库？数据仓库（DataWarehouse，简称DW）是一种面向分析和决策的数据存储系统，它将企业中分散的、异构的数据按照一定的主题和模型进行集成和存储，为数据分析、报表生成以及商业智能（BI）提供支持。数据仓库是大数据体系的重要组成部分，主要用于对大量历史数据的存储、处理和分析。简单来说，数据仓库是一个为数据分析和业务决策服务的系统，通过整合来自不同来源的数据，形成面向主题的、可查询的
redis缓存穿透、雪崩与击穿 Flying_Fish_Xuan 缓存 redis spring
Redis缓存穿透、雪崩与击穿详解（附Java代码示例）在现代高并发分布式系统中，缓存作为提高系统性能和响应速度的重要组件，其稳定性和可靠性至关重要。然而，在实际应用中，缓存常常面临三大问题：缓存穿透、缓存雪崩与缓存击穿。这些问题若处理不当，可能导致系统性能急剧下降，甚至引发服务不可用。本文将深入探讨这三种缓存问题的定义、原因、影响及解决方案，并通过Java代码示例展示如何在实际项目中应对这些挑战
分布式系统架构4：容错设计模式卷福同学分布式架构设计模式分布式
这是小卷对分布式系统架构学习的第4篇文章，虽然知道大家都不喜欢看纯技术文章，写了也没多少阅读量，但是为了个人要成长，小卷最近每天都会更新分布式的文章1.概念容错策略，指的是“面对故障，我们该做些什么”；而容错设计模式，指的是“要实现某种容错策略，我们该如何去做”。上一篇已经讲了7种容错策略，为了实现各种策略，开发总结了一些容错设计模式，包括微服务常见的：断路器模式、舱壁隔离模式、超时重试模式。2.
【昇思25天学习打卡营打卡指南-第一天】基本介绍与快速入门 JeffDingAI MindSpore 学习
昇思MindSpore介绍昇思MindSpore是一个全场景深度学习框架，旨在实现易开发、高效执行、全场景统一部署三大目标。其中，易开发表现为API友好、调试难度低；高效执行包括计算效率、数据预处理效率和分布式训练效率；全场景则指框架同时支持云、边缘以及端侧场景。昇思MindSpore总体架构如下图所示：ModelZoo（模型库）：ModelZoo提供可用的深度学习算法网络，也欢迎更多开发者贡献新
如何实现集群部署 DaXiongJoker 持续部署 nginx java
集群部署是指将多个计算节点（通常是服务器）组合在一起，形成一个协同工作的系统，以提供更高的性能、可用性和可靠性。集群部署广泛应用于各种场景，如Web服务、数据库、大数据处理等。以下是关于集群部署的详细解释：1.基本概念集群（Cluster）:一组相互连接的计算机，它们协同工作以提供单一的计算资源。节点（Node）:集群中的每个计算机或服务器，负责执行特定的任务。2.主要目的高性能:通过并行处理任务
MongoDB深度解析与实践案例我的运维人生 mongodb 数据库运维开发技术共享
MongoDB深度解析与实践案例在当今大数据与云计算盛行的时代，NoSQL数据库以其灵活的数据模型、水平扩展能力和高性能，成为处理海量数据的重要工具之一。MongoDB，作为NoSQL数据库的杰出代表，凭借其面向文档的存储结构、强大的查询语言以及丰富的生态系统，赢得了众多开发者和企业的青睐。本文将深入探讨MongoDB的核心特性、架构设计原则，并通过一个实际案例展示其在实际项目中的应用。一、Mon
MongoDB深度解析与实践案例我的运维人生 mongodb 数据库运维开发技术共享
MongoDB深度解析与实践案例在当今大数据与云计算蓬勃发展的时代，NoSQL数据库以其灵活的数据模型、水平扩展能力和高性能，成为处理海量数据的重要工具。其中，MongoDB作为NoSQL数据库的佼佼者，凭借其面向文档的存储方式、强大的查询语言以及丰富的生态系统，在各类应用场景中大放异彩。本文将深入探讨MongoDB的核心特性、架构设计原则，并通过实际代码案例展示其在数据处理中的应用。一、Mong
分布式数据库：技术深度解析与应用实践我的运维人生分布式数据库运维开发技术共享
分布式数据库：技术深度解析与应用实践随着数据量的爆炸性增长和用户访问量的不断增加，传统的单机数据库系统逐渐暴露出在高可用性、高并发性和高扩展性方面的不足。分布式数据库作为一种将数据存储于多台服务器上的数据库系统，通过分布式技术保障系统的一致性和可用性，成为当今数据管理领域的重要方向。本文将深入探讨分布式数据库的基本概念、关键技术、典型架构及其应用场景，并结合代码实例和实际应用案例，为开发者和研究者
Java 内存锁的实现方式、性能比较及使用场景分析 nbsaas-boot java 开发语言
在多线程编程中，内存锁是控制多个线程对共享资源访问的关键机制。Java提供了多种内存锁的实现方式，常见的有synchronized、ReentrantLock、StampedLock和ReadWriteLock等。为了更好地解决分布式系统中的并发问题，我们可以将这些锁实现方式封装成一个基础的服务，并根据需要在不同的场景下使用它们。本文将讨论Java内存锁的实现方式、性能比较及其适用场景，同时介绍如
2024年最新Python：Page Object设计模式_python page object，BTAJ大厂最新面试题汇集 m0_60707708 程序员 python 设计模式开发语言
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
【AI系统】混合并行 ZOMI酱人工智能
混合并行混合并行（HybridParallel）是一种用于分布式计算的高级策略，它结合了数据并行和模型并行的优势，以更高效地利用计算资源，解决深度学习中的大模型训练问题。混合并行不仅能提高计算效率，还能在有限的硬件资源下处理更大的模型和数据集。在深度学习中，数据并行和模型并行各自有其适用的场景和局限性。数据并行适用于训练样本较多而模型较小的情况，通过将数据集分割成多个子集并在不同的设备上同时训练来
PolarDB for MySQL 三大核心之一POLARFS 今天扒开它--- 嘛是火星人 Austindatabases mysql 数据库
开头还是介绍一下群，如果感兴趣PolarDB,MongoDB,MySQL,PostgreSQL,Redis,OceanBase,SqlServer等有问题，有需求都可以加群群内有各大数据库行业大咖，可以解决你的问题。加群请联系liuaustin3，（共2600人左右1+2+3+4+5+6+7+8）(123456群均已爆满，新人进7群，8群，准备9群)PoalrDB这块，目前国内的博客在用户这个序列
Linux内核性能调优：让系统飞起来的秘籍
在当今数字化时代，Linux系统凭借其强大的稳定性、开放性和灵活性，广泛应用于服务器、云计算、大数据等诸多领域。然而，随着业务量的不断增长和应用场景的日益复杂，Linux内核的性能面临着巨大挑战。哪怕是微小的性能瓶颈，都可能像滚雪球一样，在高负载运行时被无限放大，进而引发一系列严重问题。想象一下，一个电商网站在购物高峰期，由于Linux内核性能不佳，导致服务器响应迟缓。用户点击商品详情，页面却迟迟
web3.0元宇宙区块链概念原理详细飞机号Mrsfu223 web3 区块链去中心化 python
数字科技的飞速发展，Web3.0和元宇宙概念逐渐走入公众视野，区块链技术是支撑这一新兴领域发展的核心。这里将深入探讨Web3.0元宇宙中区块链的基本原理及其应用，以揭示其背后的技术逻辑和未来潜力。区块链是一种分布式数据库技术，其核心特性是去中心化、不可篡改和全透明。在Web3.0的架构下，区块链不仅仅承载着交易信息，更支撑着身份认证、数据存储和智能合约等多方面的应用。在元宇宙中区块链技术的应用极为
AI Agent：一场智能革命的开始 TechubNews 人工智能
在当今科技日新月异的时代，AI（人工智能）技术正以前所未有的速度改变着我们的生活和工作方式。其中，AIAgent作为AI领域的一个新兴分支，正逐渐展现出其巨大的潜力和价值。本文将深入探讨AIAgent的发展现状、核心优势以及未来的发展方向，带您领略这一前沿技术的无限魅力。一、AIAgent的发展现状：技术突破与广泛应用近年来，随着大数据、云计算和机器学习等技术的飞速发展，AIAgent的技术水平得
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出