SunnyZ-L

Spark 核心原理

文章目录

1. Spark核心原理
2. 消息通信原理
- 2.1. Spark运行时消息通信
- 2.2. 作业执行原理
- - 2.2.1. 总述
  - 2.2.2. 提交Job
  - 2.2.3. 划分stage
  - 2.2.4. 提交stage
  - 2.2.5. 提交task
  - 2.2.6. 执行task
  - 2.2.7. 获取执行结果
3. 监控管理
- 3.1. UI监控

1. Spark核心原理

Application（应用程序）：即Spark应用，指的是一个可运行的Spark程序。该程序包含main()函数。同时，应用程序包含了一些配置参数，如需要占用的CPU个数，Executor内存大小等。
Driver（驱动程序）：Spark中的Driver，指实际在运行上述Application的main()函数并且创建SparkContext，其中创建SparkContext的目的是为了准备Spark应用程序的运行环境。在Spark中由SparkContext负责与Cluster Manager通信，进行资源申请，任务的分配和监控等。当Executor部分运行完毕后，Driver负责将SparkContext关闭。通常用SparkContext代表Driver。
Cluster Manager（集群资源管理器）：提供了资源的分配和管理，在不同的运行模式下，担任的角色有所不同。
- Standalone：Spark原生的资源管理器，由Master负责资源的管理。
  Master：Spark Standalone运行模式下的主节点，负责管理和分配集群资源来运行Spark Application。
- YARN：由YARN中的ResourceManager负责资源的管理。
- Mesos：由Mesos中的Mesos Master负责资源的管理。
Worker（工作节点）：表示集群中任何可以运行Application代码的节点，类似于YAEN中的NodeManager节点。
- 在Standalone模式中指的就是通过slave文件配置的Worker节点，
- 在Spark On Yarn模式中指的就是NodeManager节点。
Executor（执行进程）：是Spark计算资源的一个单位，Spark先以Executor为单位占用集群资源，然后可以将具体的计算任务分配给Executor执行。Executor在物理机上是一个JVM进程，可以运行多个线程（计算任务）。
Application运行在worker节点上的一个进程，该进程负责运行Task，并负责将数据存在内存或磁盘上，每个Application都有各自独立的一批Executor。
- 在Spark On Yarn和Standalone模式下，其进程名为CoarseGrainedExecutorBackend，类似于Hadoop MapReduce中的YarnChild。
- 一个CoarseGrainedExecutorBackend进程有且仅有一个executor对象，他负责将Task包装成TaskRunner，并从线程池中抽取出一个空闲线程运行Task。
- 每个CoarseGrainedExecutorBackend能并行运行Task的数量就取决于分配给发他的CPU的个数。

2. 消息通信原理

2.1. Spark运行时消息通信

用户启动应用程序时，SparkContext会向Master发送应用注册消息，由Master给该应用程序分配Executor，Executor启动后Executor会向SparkContext发送注册成功消息。

当SparkContext的RDD触发action操作后，将创建RDD的DAG，通过DAGScheduler进行划分Stage，并将Stage转换为TaskSet；
接着由TaskScheduler向注册的Executor发送执行消息，Executor接收到任务消息后启动并运行；
最后当所有任务运行时，由Driver处理结果并回收资源。

第一阶段

执行应用程序需要启动SparkContext，在SparkContext启动过程中会先实例化SchedulerBackend对象，SchedulerBackend负责应用程序运行期间与底层资源调度系统交互。
在Standalone模式中实际创建的是SparkDeploySchedulerBackend对象，SparkDeploySchedulerBackend继承至CoarseGraninedSchedulerBackend。
该对象的启动中会继承父类的DriverEndPoint和创建AppClient.ClientEndPoint的两个终端点。在ClientEndPoint的中创建注册线程池，在该线程池中启动注册线程并向Master发送RegisterApplication注册应用程序的消息。

当Master接收到SparkContext注册应用程序的消息后，记录应用程序信息并把应用程序加入到等待运行的应用程序列表中，注册完毕后发送成功消息RegisteredApplication给ClientEndPoint，同时调用startExecutorOnWorkers方法分配资源运行应用程序。在执行前需要获取运行应用程序的Worker，然后发送LaunchExecutor消息给Worker，通过Worker启动Executor。

ClientEndPoint接收到master发送的RegisteredApplication消息，需要把注册标识registered置为true，Master注册线程获取状态变化后，完成注册Application进程。

第二阶段
当worker收到master发送过来的LaunchExecutor消息，先实例化ExecutorRunner对象，在ExecutorRunner启动中会创建进程生成器ProcessBuilder，然后由该生成器创建CoarseGrainedExecutorBackend对象，该对象是Executor运行的容器。最后worker发送ExecutorStateChanged消息给master。Master接收到worker发送的ExecutorStateChanged消息，根据ExecutorState向Driver发送ExecutorUpdataed消息。

上述在CoarseGrainedExecutorBackend启动方法onStart中，会发送注册Executor消息RegisterExecutor给DriverEndPoint，DriverEndPoint先判断Exector是否已注册，如果已经存在，则发送注册失败RegisteredExecutorFailed消息，否则DriverEndPoint会记录该Executor信息并发送注册成功RegisteredExecutor消息，当CoarseGrainedExecutorBackend接收到Executor注册成功的RegisterExecutor消息时，在CoarseGrainedExecutorBackend容器中实例化Executor对象。启动完毕后，会定时向Driver发送心跳信息，等待接收从DriverEndPoint发送执行任务的消息。

在makeOffers方法中分配运行任务资源，最后发送LaunchTask消息执行任务。CoarseGrainedExecutorBackend的Executor启动后，接收从DriverEndPoint发送LaunchTask执行任务消息，任务执行是在Executor的lanuchTask方法实现的。在执行任务会创建TaskRunner进程，由该进程进行任务的处理。在TaskRunner执行任务完成时，会向DriverEndPoint发送状态变更StatusUpdate消息，当DriverEndPoint接收到该消息时，调用TaskSchedulerImpl的statusUpdata方法，根据任务任务执行的不同的结果进行处理，处理完毕后再给该Executor分配执行任务。

2.2. 作业执行原理

1.6.x及之前	2.0.0及之后
LocalBackend	LocalSchedulerBackend
CoarseGrainedSchedulerBackend	CoarseGrainedSchedulerBackend
MesosSchedulerBackend	MesosFineGrainedSchedulerBackend，在`2.1.0`将该类移至spark-mesos模块
SparkDeploySchedulerBackend	StandaloneSchedulerBackend
YarnSchedulerBackend	YarnSchedulerBackend，在`2.0.0`将该类移至spark-yarn模块
CoarseMesosSchedulerBackend	MesosCoarseGrainedSchedulerBackend，在`2.1.0`将该类移至spark-mesos模块

2.2.1. 总述

Spark应用程序进行各种转换操作，通过active操作触发作业运行。提交之后根据RDD之间的依赖关系构建DAG图，DAG图提交给DAGScheduler进行解析。
DAGScheduler是面向Stage的任务调度器，把DAG根据RDD的依赖是否为宽依赖拆分成相互依赖的stage。每一个stage包括一个或多个task，这些任务形成任务集，并提交给底层调度器TaskScheduler进行调度运行。另外DAGScheduler记录哪些RDD被存入磁盘等物化操作，同时要寻求任务的最优化调度；DAGScheduler监控运行Stage过程，如果某个Stage运行失败，则需要重新提交该Stage。
每个TaskScheduler只为一个SparkContext实例服务，TaskScheduler接收来自DAGScheduler提交过来的stage，然后把Stage以Task的形式一个个分发到Worker节点的Executor中去运行任务。如果某个任务运行失败，TaskScheduler要负责重试，另外，如果TaskScheduler发下某个任务一直未运行完，就可能启动同样的任务运行同一个任务，哪个任务先运行完就用哪个任务的结果。
worker中的Executor收到TaskScheduler发送过来的任务后，以多线程的方式运行，每一个线程负责一个任务。任务运行结束后要返回给TaskScheduler，不同类型的任务，返回的方式也不同。ShuffleMapStage返回的是一个MapStatus对象，而不是结果本身；ResultStage根据结果大小的不同，返回的方式又可以分为两类。

应用程序运行过程是：在SparkContext启动时，调用TaskScheduler.start方法启动TaskScheduler调用器；然后，当DAGScheduler调度阶段和任务拆分完毕时，调用TaskScheduler.submitTask方法提交任务，SchedulerBackend接到执行任务时，通过reviveOffers方法分配运行资源并企启动运行节点的Executor；最后，由TaskScheduler接收任务运行状态，如果任务运行完成，则继续分配。

2.2.2. 提交Job

Job的真正提交是从action操作开始的，action操作会在内部隐性调用org.apache.spark.SparkContext#runJob方法。用户不用显示的去提交作业。
因此作业提交实际是通过org.apache.spark.SparkContext#runJob方法进行的。可以通过操作中是否包含runJob方法来判断该操作是否为action操作。

SparkContext的runJob方法经过几次调用后，进入了DAGScheduler的runJob方法，在runJob方法里，调用submitJob方法来继续提交作业，这里会发生阻塞，直到返回作业完成或者失败的结果，最后调用DAGScheduler的handleJobSubmitted方法来提交作业，在该方法中将进行划分stage。

2.2.3. 划分stage

spark stage的划分是由DAGScheduler实现的，DAGScheduler会从最后一个RDD出发使用广度优先遍历整个依赖数，从而划分stage，stage划分依据是以操作是否为宽依赖进行的，即当某个RDD的操作是shuffle时，以该shuffle操作为界限划分前后两个调度阶段。
代码实现是在org.apache.spark.scheduler.DAGScheduler#handleJobSubmitted方法中根据最后一个RDD生成ResultStage（作业中最后的stage）开始的。

调度划分阶段是spark作业执行的重要部分：

1.在SparkContext中提交运行时，会调用DAGScheduler#handleJobSubmitted方法进行处理，在该方法中会先找到最后一个RDD（即rddG），并调用getParentStage方法。

2.在getParentStages方法判断rddG的依赖树中是否存在shuffle操作，join为shuffle操作，则获取进进行该操作的rddB和rddF。

3.使用getAncestorShuffleDependencies方法从rddB向前遍历，发现该依赖分支上没有其他的宽依赖，调动newOrUsedShuffleStage方法生成调用阶段ShuffleMapStage0

4.使用getAncestorShuffleDependencies方法从rddF向前遍历，寻找该依赖分支存在宽依赖操作groupBy，以此为界划分rddD和rddE为ShuffleMapStage1，rddE和rddF为ShuffleMapStage2

5.最后生成rddG的ResultStage3。在划分调度阶段中，共划分4个stage

2.2.4. 提交stage

在DAGScheduler的handleJobSubmitted方法中，生成finalStage的同时建立起所有stage的依赖关系，然后通过finalStage生成一个作业实例，在该作业实例中按照顺序提交stage进行执行，在执行过程中通过监听总线获取作业、阶段执行情况。

1.在handleJobSubmitted方法中获取最后一个stage（ResultStage3），通过submitStage方法提交运行该stage。

2.在submitStage中，先创建作业实例，然后判断该stage是否存在父stage，有与ResultStage3有两个父Stage ShuffleMapStage0和ShuffleMapStage2，所以并不能立即提交父调度阶段运行，把ResultStage3加入到等待执行stage列表waitingStages中。

……

2.2.5. 提交task

当stage提交运行后，在DAGScheduler的submitMissingTasks方法中，会根据stage partition个数拆分对应数量的任务，这些任务组成一个任务集提交到TaskScheduler进行分处理。对于ResultStage（作业中最后的stage）生成ResultTask，对于ShuffleMapStages生成ShuffleMap Task。对于每一个任务集包含了对应stage的所有任务，这些任务处理逻辑完全相同，不同的是对应处理的数据，而这些数据是其对应的partition。

当TaskScheduler接收到发送过来的任务集时，在submitTasks方法中（在TaskSchedulerImpl类中进行实现）构建一个TaskSetManager的实例，用于管理这个任务集的生命周期，而该TaskSetManager会放入系统的调度池中，根据系统设置的调度算法进行调度。

在TaskSchedulerImpl的resourceOffers方法中进行非常重要的步骤-资源分配，在分配的过程中会根据调度策略对TaskSetManager进行排序，然后依次对这些TaskSetManager按照就近原则分配资源，按照顺序为PROCESS_LOCAL、NODE_LOCAL、NO_PREF、RACK_LOCAL和ANY。

分配好资源的任务提交到CoarseGrainedExecutorBackend，然后通过其内部的Executor来执行任务。

2.2.6. 执行task

当CoarseGrainedExecutorBackend接收到LaunchTask消息时，会调用Executor的launchTask方法进行处理。在Executor的launchTask方法中，初始化一个TaskRunner来封装任务，它用于管理任务运行的细节，再把TaskRunner对象放入到ThreadPool(线程池)中去执行。

在TaskRunner的run方法里，首先会对发送过来的Task本身以及它所依赖的jar等文件反序列化，然后对反序列化的任务调用Task的runTask方法。由于Task本身是一个抽象类，具体的runTask方法是由他的两个子类ShuffleMapTask和ResultTask来实现的。

对于ShuffleMapTask而言，他的计算结果会写到BlockManager之中，最终返回给DAGScheduler的是一个MapStatus对象。该对象中管理了ShuffleMapTask的运算结果存储到BlockManager里的相关存储信息，而不是自己算结果本身，这些存储信息将会成为下一阶段的任务需要获得的输入数据时的依据。

对于ResultTask的runTask而言，它最终返回的是func函数的计算结果。

2.2.7. 获取执行结果

……

3. 监控管理

3.1. UI监控

UI监控分为实时UI监控和历史UI监控两种方式，默认情况下启用实时UI监控，历史UI监控需要手动启用。
实时UI监控分为Master UI监控和应用程序UI监控：

Master UI监控默认使用8080端口，Spark standalone模式下的Master监控，在Master启动过程中启用；
应用程序UI监控默认使用4040端口，应用程序UI监控在SparkContext启用。

如果端口占用，会逐渐递增直至可用。

应用程序UI监控，一般包括作业，调度阶段，存储，运行环境，Executor和SQL等信息，如果启动了JDBC服务，则还会有JDBC/ODBC Server信息，在Spark Streaming中会增加Streaming监控信息。在Spark1.4版本中，UI监控增加了数据可视化功能，增加了事件时间轴，执行DAG和Spark Streaming统计3个视图。

你可能感兴趣的:(Spark,spark,big,data,大数据)

postgreSQL数据库常用语法东木月关系型数据库：MySQL PostgreSQL postgresql 数据库 database
postgreSQL常用语法1、CRUD增删改查创建用户角色createuserldcwithpassword'ldc-';创建数据库createDATABASEschool_infoENCODING='utf-8'--指定字符集TABLESPACE=
K8S之POD调度〰振振 ༽ K8S kubernetes docker 容器
K8S-Pod调度1、Deployment/RC:全自动调度简述Deployment或RC的主要功能就是自动部署一个容器应用的多份副本，及持续监控副本的数量并维持该值。创建Deploymentkubectlcreate-fnginx-deployment.yaml#nginx-deployment.yamlapiVersion:apps/v1kind:Deploymentmetadata:name
创建Datas 一一代码 python
核心数据结构创建DataFrame```pythonimportpandasaspd#从字典创建DataFramedata={'Name':['Alice','Bob','Charlie'],'Age':[25,30,35],'City':['NewYork','LosAngeles','Chicago']}df=pd.DataFrame(data)print(df)```输出：```NameAg
android sqlite 数据库简单封装示例（java） mmsx android 作业源码分享 java 数据库 android
sqlite数据库简单封装示例，使用记事本数据库表进行示例。首先继承SQLiteOpenHelper使用sql语句进行创建一张表。publicclassnoteDBHelperextendsSQLiteOpenHelper{publicnoteDBHelper(Contextcontext,Stringname,SQLiteDatabase.CursorFactoryfactory,intvers
同步MySQL数据至Elasticsearch：go-mysql-elasticsearch实战指南吴镇业
同步MySQL数据至Elasticsearch：go-mysql-elasticsearch实战指南go-mysql-elasticsearchSyncMySQLdataintoelasticsearch项目地址:https://gitcode.com/gh_mirrors/go/go-mysql-elasticsearch项目介绍go-mysql-elasticsearch是一个服务，能够自动将
流数据（Streaming Data）处理人间无人事 javascript
在看代码之前，我们应当首先知道流数据与webSocket之间的区别（两者不能同一而论），因为存在区别所以在读取数据时使用相对较大的差距下面我将概述我对两者区别的一个总结（若有不对，请斧正）流数据（StreamingData）和WebSocket是两种不同的技术，但它们在实时数据传输方面有一些相似之处。以下是它们的区别和相同点：相同点1.实时性-两者都支持实时数据传输，适合需要低延迟的场景，如聊天应
Pytorch中的torch.utils.data.Dataset 类小白的高手之路深度学习（DL）Pytorch实战深度学习 python pytorch
1、使用方法fromtorch.utils.dataimportDataset2、torch.utils.data.Dataset类的定义classDataset(Generic[_T_co]):r"""Anabstractclassrepresentinga:class:`Dataset`.Alldatasetsthatrepresentamapfromkeystodatasamplesshou
Flink相关面试题努力的搬砖人. 面试 java 后端 flink
以下是150道ApacheFlink面试题及其详细回答，涵盖了Flink的基础知识、核心架构、API使用、性能调优等多个方面，每道题目都尽量详细且简单易懂：Flink基础概念类1.什么是ApacheFlink？ApacheFlink是一个开源的流处理和批处理框架，能够实现快速、可靠、可扩展的大数据处理。它既可以处理无界的数据流，也可以处理有界的数据批，提供了低延迟和高吞吐量的实时数据处理能力。Fl
基于Azure云平台构建实时数据仓库 weixin_30777913 云计算 azure 开发语言 spark python
设计Azure云架构方案实现AzureDeltaLake和AzureDatabricks，结合电商网站的流数据，构建实时数据仓库，支持T+0报表（如电商订单分析），具以及具体实现的详细步骤和关键PySpark代码。一、架构设计[电商网站]→[AzureEventHubs]→[AzureDatabricksStreaming]↓[AzureDeltaLake]←→[DatabricksSQLAnal
回归任务训练--MNIST全连接神经网络（Mnist_NN）豆芽819 深度学习框架PyTorch pytorch 深度学习人工智能机器学习回归
importtorchimportnumpyasnpimportloggingfromtorch.utils.dataimportTensorDataset,DataLoaderfromtorch.utils.dataimportDataLoader#配置日志logging.basicConfig(level=logging.INFO,format='%(asctime)s-%(levelname
Neo4j GDS-02-graph-data-science 插件库安装实战笔记老马啸西风 neo4j neo4j 笔记数据库图数据结构算法
neo4japoc系列Neo4jAPOC-01-图数据库apoc插件介绍Neo4jAPOC-01-图数据库apoc插件安装neo4jonwindows10Neo4jAPOC-03-图数据库apoc实战使用使用Neo4jAPOC-04-图数据库apoc实战使用使用apoc.path.spanningTree最小生成树Neo4jAPOC-05-图数据库apoc实战使用使用labelFilterNeo4
Neo4j GDS-02-graph-data-science 简单聊一聊图数据科学插件库老马啸西风 neo4j neo4j 数据库算法图数据库开源
neo4japoc系列Neo4jAPOC-01-图数据库apoc插件介绍Neo4jAPOC-01-图数据库apoc插件安装neo4jonwindows10Neo4jAPOC-03-图数据库apoc实战使用使用Neo4jAPOC-04-图数据库apoc实战使用使用apoc.path.spanningTree最小生成树Neo4jAPOC-05-图数据库apoc实战使用使用labelFilter详细介绍
2017安全之势：云、大数据、IoT、人工智能 weixin_34392906 人工智能大数据嵌入式
“新技术让信息系统变成了孙悟空，开始无所不能，但安全仍是它的‘紧箍咒’！怎样解开这个‘紧箍咒’？各路安全厂商各显其能，但似乎路漫漫兮离目标还很遥远。”三未信安董事长张岳公在ZD至顶网《百位意见领袖寄语2017》中说出了这样一句话，我觉着很有道理。安全是一个永恒的话题，如果说它与新的信息技术相生相克也不过分。即便如此，我们更要尽可能的减少安全带来的束缚。2017已经到来，不妨来看看至顶网与业界大咖总
MySQL数据库基本命令 Java从零开始数据库 mysql
1.CMD链接数据库：mysql-uroot-p2.打开全部数据库：showdatabases;3.切换数据库:use（school库）；4.显示数据库中所有表的信息：describe（student表）；5.查看数据库中所有的表：showtables；6.创建一个数据库：createdatabase（westos库）；7.SHOWCREATEDATABASEgoods：查看创建goods数据库的
【Q&A】装饰模式在Qt中有哪些运用？浅慕Antonio Q&A qt 数据库服务器
在Qt框架中，装饰模式（DecoratorPattern）主要通过继承或组合的方式实现，常见于IO设备扩展和图形渲染增强场景。以下是Qt原生实现的装饰模式典型案例：一、QIODevice装饰体系（继承方式）场景为基础IO设备（如文件、缓冲区）添加数据格式解析、缓冲优化等功能。类图（Mermaid）«abstract»QIODevice+readData()+writeData()QFileQBuf
python实现接口自动化一只小H呀の python 自动化开发语言
代码实现自动化相关理论代码编写脚本和工具实现脚本区别是啥?代码：优点：代码灵活方便缺点：学习成本高工具：优点：易上手缺点：灵活度低，有局限性。总结：功能脚本：工具自动化脚本：代码代码接口自动化怎么做的？第一步：python+request+unittest;具体描述？第二步：封装、调用、数据驱动、日志、报告;详细举例:第三步：api\scripts\data\log\report\until…脚本
直方图梯度提升：大数据时代的极速决策引擎万事可爱^ 大数据机器学习深度学习直方图梯度提升 GBDT 算法
一、为什么需要直方图梯度提升？在Kaggle竞赛的冠军解决方案中，超过70%的获奖方案都使用了梯度提升算法。但当数据量突破百万级时，传统梯度提升树（GBDT）面临三大致命瓶颈：训练耗时剧增：每个特征的分割点计算都需要全量数据排序内存消耗爆炸：存储排序后的特征值需要额外空间处理效率低下：无法有效利用现代CPU的多核特性而梯度提升决策树（GBDT）作为集成学习的代表算法，通过迭代构建决策树实现预测能力
Python文件与格式化：编程世界的“读写之道“（技术深挖版）被窝妄想家 python进阶指南 python 数据库开发语言
一、文件操作：Python的"读写之眼"1.1文件基础哲学在计算机世界中，文件就像一本本等待翻阅的典籍。Python的open()函数如同手持放大镜，让我们能精确控制阅读和书写：#经典打开模式组合withopen("data.txt","r+",encoding="utf-8")asf:#r+模式：可读可写，文件指针初始位置在开头content=f.read(10)#读取前10个字节f.seek(
MySQL时间转换可儿·四系桜 #MySQL mysql 数据库
1.bigint类型的时间戳1.1将bigint转为datetimeFROM_UNIXTIME(时间戳/1000)1.2将bigint转为date方式一：DATE(FROM_UNIXTIME(时间戳/1000))方式二：字符串隐式转换FROM_UNIXTIME(时间戳/1000,'%Y-%m-%d')1.3将bigint转为指定格式的varcharFROM_UNIXTIME(时间戳/1000,'%
数据结构双向链表的创建与初始化拉梅洛. 数据结构链表
#include#include#include//定义节点类型typedefintdata_t;typedefstructnode{data_tdata;//以整型数据为例structnode*prev;//指向structnode点的指针structnode*next;//指向structnode点的指针}node_t;intdlist_create(node_t**,data_t);//函数
VUE-Element-UI：select-tree johnrui FrontEnd vue.js
一、概述本文主要是在Element-UI+VUE框架下，利用el-select、el-tree组件实现了下拉框多选、回显的效果，如下图：二、实例代码1.HTML代码2.JS代码varvm=newVue({el:'#app',data:{mineStatus:"",mineStatusValue:[],remarksItemCheckedList:[],//回显数据["A","B"]remarksI
Springboot List集合的校验方式 johnrui spring boot list 后端
pom.xml引入org.hibernate.validatorhibernate-validator6.2.0.Finalorg.springframework.bootspring-boot-starter-validation校验实体类注解@Data@NoArgsConstructor@AllArgsConstructor@JsonIgnoreProperties(ignoreUnknown
从原理到实践：Go 语言内存优化策略深度解析叶间清风1998 服务器 linux 网络
目录一、引言二、Go语言内存管理基础原理2.1栈与堆内存分配2.2垃圾回收机制剖析三、内存优化策略与实践3.1合理使用指针传递3.2避免不必要的内存分配3.3优化切片与映射的使用3.4控制变量作用域3.5减少闭包导致的变量逃逸四、内存优化工具与性能分析4.1pprof工具的使用4.2其他性能分析辅助手段五、不同场景下的内存优化案例分析5.1高并发Web服务场景5.2大数据处理与分析场景六、总结与展
在R中读入h5ad文件，并转换为seurat对象拜托啦！狮子 r语言前端 javascript
太可恶了要么就报错要么就卡住！！！！/(ㄒoㄒ)/~~library(Seurat)library(SeuratDisk)pbmc10kmono=paste0(path,'/pbmc10k/use_data/rna_mono.h5ad')1.Round1##方法1：通过h5Seurat中转#library(SeuratDisk)#Convert(pbmc10kmono,dest="h5seurat
Python连接StarRocks全流程实践: SQL文件调用与Pandas混合优化 ToreanonyTang python sql pandas 数据库开发语言
文章目录一环境准备与连接方法1.安装核心依赖库2.连接字符串配置3.多模式连接验证二SQL文件调用与动态执行1.外部SQL文件结构设计2.Python动态加载执行三Pandas混合使用技巧1.查询结果直接转DataFrame2.批量数据写入优化四深度性能优化策略1.StarRocks服务端优化2.Python客户端优化3.混合计算策略五完整业务场景示例1:用户转化漏斗业务场景实现代码公用表表达式(
Linux系统中安装各种常用中间件 Vic2334 运维 linux 中间件运维
Linux安装docker安装docker定制软件源yuminstall-yyum-utilsdevice-mapper-persistent-datalvm2yum-config-manager--add-repohttp://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo安装最新版dockeryumlistdocker-ce--
如何在数据库中存储小数：FLOAT、DECIMAL还是BIGINT？ NightSkyWanderer 数据库 Go 后端 mysql 数据库
前言这里还是用前面的例子:在线机票订票系统的数据表设计。此时已经完成了大部分字段的设计，可能如下:CREATETABLEflights(flight_idINTAUTO_INCREMENTPRIMARYKEY,flight_numberVARCHAR(10),departure_airport_codeVARCHAR(3),arrival_airport_codeVARCHAR(3));考虑到还需
Flutter异步编程详解 2401_84121663 程序员 flutter
//耗时操作的方法:bigComputeFuturebigCompute(intinitalNumber)async{inttotal=initalNumber;for(vari=0;i<1000000000;i++){total+=i;}returntotal;}//点击按钮调用的方法:calculatorvoidcalculator()async{intresult=awaitbigCompu
分布式中间件：Redisson 入门和分布式锁顾北辰20 分布式中间件分布式中间件 redisson
分布式中间件：Redisson入门和分布式锁在分布式系统的开发中，处理并发问题是一个常见且具有挑战性的任务。为了确保数据的一致性和完整性，我们常常需要使用分布式锁。Redisson作为一个强大的分布式Java驻内存数据网格（In-MemoryDataGrid）中间件，为我们提供了简单且高效的分布式锁解决方案。本文将带你入门Redisson，并介绍如何使用它实现分布式锁。1.引入Redisson依赖
uniapp 微信小程序手机号快速验证组件解密 encryptedData 获取手机号睡不着的可乐 uni-app 微信小程序
uniapp微信小程序手机号快速验证组件解密encryptedData获取手机号手机号快速验证组件该能力旨在帮助开发者向用户发起手机号申请，并且必须经过用户同意后，开发者才可获得由平台验证后的手机号，进而为用户提供相应服务。以下是旧版本组件使用指南，注意使用旧版本组件时，需先调用wx.login接口。建议开发者使用新版本组件，以增强小程序安全性。详情新版组件使用指南。因为需要用户主动触发才能发起手
java解析APK 3213213333332132 java apk linux 解析APK
解析apk有两种方法 1、结合安卓提供apktool工具，用java执行cmd解析命令获取apk信息 2、利用相关jar包里的集成方法解析apk 这里只给出第二种方法，因为第一种方法在linux服务器下会出现不在控制范围之内的结果。 public class ApkUtil { /** * 日志对象 */ private static Logger
nginx自定义ip访问N种方法 ronin47 nginx 禁止ip访问
　　　因业务需要，禁止一部分内网访问接口，　由于前端架了F5，直接用deny或allow是不行的，这是因为直接获取的前端Ｆ５的地址。　　　所以开始思考有哪些主案可以实现这样的需求，目前可实施的是三种：　　　一：把ip段放在redis里，写一段lua 二：利用geo传递变量，写一段
mysql timestamp类型字段的CURRENT_TIMESTAMP与ON UPDATE CURRENT_TIMESTAMP属性 dcj3sjt126com mysql
timestamp有两个属性，分别是CURRENT_TIMESTAMP 和ON UPDATE CURRENT_TIMESTAMP两种，使用情况分别如下： 1. CURRENT_TIMESTAMP 当要向数据库执行insert操作时，如果有个timestamp字段属性设为 CURRENT_TIMESTAMP，则无论这
struts2+spring+hibernate分页显示 171815164 Hibernate
分页显示一直是web开发中一大烦琐的难题，传统的网页设计只在一个JSP或者ASP页面中书写所有关于数据库操作的代码，那样做分页可能简单一点，但当把网站分层开发后，分页就比较困难了，下面是我做Spring+Hibernate+Struts2项目时设计的分页代码，与大家分享交流。　　1、DAO层接口的设计，在MemberDao接口中定义了如下两个方法： public in
构建自己的Wrapper应用 g21121 rap
我们已经了解Wrapper的目录结构，下面可是正式利用Wrapper来包装我们自己的应用，这里假设Wrapper的安装目录为:/usr/local/wrapper。首先，创建项目应用 &nb
[简单]工作记录_多线程相关 53873039oycg 多线程
最近遇到多线程的问题,原来使用异步请求多个接口(n*3次请求) 方案一使用多线程一次返回数据,最开始是使用5个线程,一个线程顺序请求3个接口,超时终止返回缺点测试发现必须3个接
调试jdk中的源码，查看jdk局部变量程序员是怎么炼成的 jdk 源码
转自：http://www.douban.com/note/211369821/ 学习jdk源码时使用-- 学习java最好的办法就是看jdk源代码，面对浩瀚的jdk（光源码就有40M多，比一个大型网站的源码都多）从何入手呢，要是能单步调试跟进到jdk源码里并且能查看其中的局部变量最好了。可惜的是sun提供的jdk并不能查看运行中的局部变量
Oracle RAC Failover 详解 aijuans oracle
Oracle RAC 同时具备HA(High Availiablity) 和LB(LoadBalance). 而其高可用性的基础就是Failover(故障转移). 它指集群中任何一个节点的故障都不会影响用户的使用，连接到故障节点的用户会被自动转移到健康节点，从用户感受而言，是感觉不到这种切换。 Oracle 10g RAC 的Failover 可以分为3种： 1. Client-Si
form表单提交数据编码方式及tomcat的接受编码方式 antonyup_2006 JavaScript tomcat 浏览器互联网 servlet
原帖地址：http://www.iteye.com/topic/266705 form有2中方法把数据提交给服务器，get和post,分别说下吧。（一）get提交 1.首先说下客户端（浏览器）的form表单用get方法是如何将数据编码后提交给服务器端的吧。对于get方法来说，都是把数据串联在请求的url后面作为参数，如：http://localhost:
JS初学者必知的基础百合不是茶 js函数 js入门基础
JavaScript是网页的交互语言,实现网页的各种效果, JavaScript 是世界上最流行的脚本语言。 JavaScript 是属于 web 的语言，它适用于 PC、笔记本电脑、平板电脑和移动电话。 JavaScript 被设计为向 HTML 页面增加交互性。许多 HTML 开发者都不是程序员，但是 JavaScript 却拥有非常简单的语法。几乎每个人都有能力将小的
iBatis的分页分析与详解 bijian1013 java ibatis
分页是操作数据库型系统常遇到的问题。分页实现方法很多，但效率的差异就很大了。iBatis是通过什么方式来实现这个分页的了。查看它的实现部分，发现返回的PaginatedList实际上是个接口，实现这个接口的是PaginatedDataList类的对象，查看PaginatedDataList类发现，每次翻页的时候最
精通Oracle10编程SQL(15)使用对象类型 bijian1013 oracle 数据库 plsql
/* *使用对象类型 */ --建立和使用简单对象类型 --对象类型包括对象类型规范和对象类型体两部分。 --建立和使用不包含任何方法的对象类型 CREATE OR REPLACE TYPE person_typ1 as OBJECT( name varchar2(10),gender varchar2(4),birthdate date ); drop type p
【Linux命令二】文本处理命令awk bit1129 linux命令
awk是Linux用来进行文本处理的命令，在日常工作中，广泛应用于日志分析。awk是一门解释型编程语言，包含变量，数组，循环控制结构，条件控制结构等。它的语法采用类C语言的语法。 awk命令用来做什么？ 1.awk适用于具有一定结构的文本行，对其中的列进行提取信息 2.awk可以把当前正在处理的文本行提交给Linux的其它命令处理，然后把直接结构返回给awk 3.awk实际工
JAVA(ssh2框架)+Flex实现权限控制方案分析白糖_ java
目前项目使用的是Struts2+Hibernate+Spring的架构模式，目前已经有一套针对SSH2的权限系统，运行良好。但是项目有了新需求：在目前系统的基础上使用Flex逐步取代JSP，在取代JSP过程中可能存在Flex与JSP并存的情况，所以权限系统需要进行修改。【SSH2权限系统的实现机制】权限控制分为页面和后台两块：不同类型用户的帐号分配的访问权限是不同的，用户使
angular.forEach boyitech AngularJS AngularJS API angular.forEach
angular.forEach 描述: 循环对obj对象的每个元素调用iterator, obj对象可以是一个Object或一个Array. Iterator函数调用方法: iterator(value, key, obj), 其中obj是被迭代对象，key是obj的property key或者是数组的index，value就是相应的值啦. (此函数不能够迭代继承的属性.)
java-谷歌面试题-给定一个排序数组，如何构造一个二叉排序树 bylijinnan 二叉排序树
import java.util.LinkedList; public class CreateBSTfromSortedArray { /** * 题目:给定一个排序数组，如何构造一个二叉排序树 * 递归 */ public static void main(String[] args) { int[] data = { 1, 2, 3, 4,
action执行2次 Chen.H JavaScript jsp XHTML css Webwork
xwork 写道 <action name="userTypeAction" class="com.ekangcount.website.system.view.action.UserTypeAction"> <result name="ssss" type="dispatcher">
[时空与能量]逆转时空需要消耗大量能源 comsci 能源
无论如何,人类始终都想摆脱时间和空间的限制....但是受到质量与能量关系的限制,我们人类在目前和今后很长一段时间内,都无法获得大量廉价的能源来进行时空跨越..... 在进行时空穿梭的实验中,消耗超大规模的能源是必然
oracle的正则表达式(regular expression)详细介绍 daizj oracle 正则表达式
正则表达式是很多编程语言中都有的。可惜oracle8i、oracle9i中一直迟迟不肯加入，好在oracle10g中终于增加了期盼已久的正则表达式功能。你可以在oracle10g中使用正则表达式肆意地匹配你想匹配的任何字符串了。正则表达式中常用到的元数据(metacharacter)如下： ^ 匹配字符串的开头位置。 $ 匹配支付传的结尾位置。 *
报表工具与报表性能的关系 datamachine 报表工具 birt 报表性能润乾报表
在选择报表工具时，性能一直是用户关心的指标，但是，报表工具的性能和整个报表系统的性能有多大关系呢？要回答这个问题，首先要分析一下报表的处理过程包含哪些环节，哪些环节容易出现性能瓶颈，如何优化这些环节。一、报表处理的一般过程分析 1、用户选择报表输入参数后，报表引擎会根据报表模板和输入参数来解析报表，并将数据计算和读取请求以SQL的方式发送给数据库。 2、
初一上学期难记忆单词背诵第一课 dcj3sjt126com word english
what 什么 your 你 name 名字 my 我的 am 是 one 一 two 二 three 三 four 四 five 五 class 班级，课 six 六 seven 七 eight 八 nince 九 ten 十 zero 零 how 怎样 old 老的 eleven 十一 twelve 十二 thirteen
我学过和准备学的各种技术 dcj3sjt126com 技术
语言VB https://msdn.microsoft.com/zh-cn/library/2x7h1hfk.aspxJava http://docs.oracle.com/javase/8/C# https://msdn.microsoft.com/library/vstudioPHP http://php.net/manual/en/Html
struts2中token防止重复提交表单蕃薯耀重复提交表单 struts2中token
struts2中token防止重复提交表单 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月12日 11:52:32 星期日 ht
线性查找二维数组 hao3100590 二维数组
1.算法描述有序（行有序，列有序，且每行从左至右递增，列从上至下递增）二维数组查找，要求复杂度O(n) 2.使用到的相关知识：结构体定义和使用，二维数组传递（http://blog.csdn.net/yzhhmhm/article/details/2045816） 3.使用数组名传递这个的不便之处很明显，一旦确定就是不能设置列值 //使
spring security 3中推荐使用BCrypt算法加密密码 jackyrong Spring Security
spring security 3中推荐使用BCrypt算法加密密码了，以前使用的是md5， Md5PasswordEncoder 和 ShaPasswordEncoder，现在不推荐了，推荐用bcrpt Bcrpt中的salt可以是随机的，比如： int i = 0; while (i < 10) { String password = "1234
学习编程并不难,做到以下几点即可! lampcy java html 编程语言
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
架构师之mysql----------------用group+inner join,left join ,right join 查重复数据（替代in) nannan408 right join
1.前言。如题。 2.代码 (1)单表查重复数据,根据a分组 SELECT m.a,m.b, INNER JOIN （select a,b,COUNT(*) AS rank FROM test.`A` A GROUP BY a HAVING rank>1 )k ON m.a=k.a （2）多表查询，使用改为le
jQuery选择器小结 VS 节点查找（附css的一些东西） Everyday都不同 jquery css name选择器追加元素查找节点
最近做前端页面，频繁用到一些jQuery的选择器，所以特意来总结一下：测试页面： <html> <head> <script src="jquery-1.7.2.min.js"></script> <script> /*$(function() { $(documen
关于EXT tntxia ext
ExtJS是一个很不错的Ajax框架，可以用来开发带有华丽外观的富客户端应用，使得我们的b/s应用更加具有活力及生命力。ExtJS是一个用 javascript编写，与后台技术无关的前端ajax框架。因此，可以把ExtJS用在.Net、Java、Php等各种开发语言开发的应用中。 ExtJs最开始基于YUI技术，由开发人员Jack
一个MIT计算机博士对数学的思考 xjnine Math
在过去的一年中，我一直在数学的海洋中游荡，research进展不多，对于数学世界的阅历算是有了一些长进。为什么要深入数学的世界？作为计算机的学生，我没有任何企图要成为一个数学家。我学习数学的目的，是要想爬上巨人的肩膀，希望站在更高的高度，能把我自己研究的东西看得更深广一些。说起来，我在刚来这个学校的时候，并没有预料到我将会有一个深入数学的旅程。我的导师最初希望我去做的题目，是对appe