fir_dameng

executor行为相关Spark sql参数源码分析

0、前言

参数名和默认值
spark.default.parallelism=Default number of partitions in RDDs
spark.executor.cores=1 in YARN mode 一般默认值
spark.files.maxPartitionBytes=134217728(128M)
spark.files.openCostInBytes=4194304 (4 MiB)
spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version=1 不同版本算法task提交数据

【重点】在spark sql中有对应参数为：

spark.sql.files.maxPartitionBytes=134217728(128M)  本次重点源码分析
spark.sql.files.openCostInBytes=4194304  (4 MiB) 本次重点源码分析
spark.default.parallelism = math.max(totalCoreCount.get(), 2)

对应源码位置如下：

org.apache.spark.scheduler.cluster.CoarseGrainedSchedulerBackend#defaultParallelism

org.apache.spark.sql.internal.SQLConf#FILES_MAX_PARTITION_BYTES

org.apache.spark.sql.internal.SQLConf#FILES_OPEN_COST_IN_BYTES

1、环境准备

create database bicoredata;

CREATE TABLE bicoredata.dwd_start_log_dm(
`device_id` string,
`area` string,
`uid` string,
`app_v` string,
`event_type` string,
`os_type` string,
`channel` string,
`language` string,
`brand` string,
`entry` string,
`action` string,
`error_code` string
)
comment 'dwd用户启动日志信息'
partitioned by (`dt` string)
stored as orc
tblproperties("orc.compress"="ZLIB")
location '/bicoredata/dwd_start_log_dm';


-- 解析ods日志到dwd表

insert overwrite table bicoredata.dwd_start_log_dm
partition(dt='20220721')
select get_json_object(line, '$.attr.device_id'),
get_json_object(line, '$.attr.area'),
get_json_object(line, '$.attr.uid'),
get_json_object(line, '$.attr.app_v'),
get_json_object(line, '$.attr.event_type'),
get_json_object(line, '$.attr.os_type'),
get_json_object(line, '$.attr.channel'),
get_json_object(line, '$.attr.language'),
get_json_object(line, '$.attr.brand'),
get_json_object(line, '$.app_active.json.entry'),
get_json_object(line, '$.app_active.json.action'),
get_json_object(line, '$.app_active.json.error_code')
from 
(
select split(str, ' ')[7] as  line
from biods.ods_start_log
where dt='20220721'
)t

2、代码准备

package org.example.sparksql

import org.apache.spark.SparkConf
import org.apache.spark.sql.SparkSession

object SparkSqlHive {
  def main(args: Array[String]): Unit = {
    System.setProperty("HADOOP_USER_NAME", "root")
    // 动态分配参数必须 在 yarn环境下才能生效，client/cluster
    val ss = SparkSession.builder().master("yarn").appName("the test of SparkSession")
      .config("spark.deploy.mode","cluster")
      .config("yarn.resourcemanager.hostname", "hadoop2")
      // 注意只有设置为true,才是文件读取算子，否则是表读取算子。
     .config("spark.sql.hive.convertMetastoreOrc", "true")
      .config("spark.sql.files.maxPartitionBytes","34008864")  //注意不是spark.files.maxPartitionBytes
      .config("spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version","2")
      .config("spark.dynamicAllocation.enabled","true")
      .config("spark.shuffle.service.enabled","true")
      .config("spark.driver.host","192.168.150.1")
      .enableHiveSupport().getOrCreate()

    ss.sql("DROP TABLE IF EXISTS temp.temp_ods_start_log");
    val df = ss.sql("insert overwrite table bicoredata.dwd_start_log_dm " +
                    "partition(dt='20210721') " +
                    "select get_json_object(line, '$.attr.device_id')," +
                    "get_json_object(line, '$.attr.area')," +
                    "get_json_object(line, '$.attr.uid')," +
                    "get_json_object(line, '$.attr.app_v')," +
                    "get_json_object(line, '$.attr.event_type')," +
                    "get_json_object(line, '$.attr.os_type')," +
                    "get_json_object(line, '$.attr.channel')," +
                    "get_json_object(line, '$.attr.language')," +
                    "get_json_object(line, '$.attr.brand')," +
                    "get_json_object(line, '$.app_active.json.entry')," +
                    "get_json_object(line, '$.app_active.json.action')," +
                    "get_json_object(line, '$.app_active.json.error_code') " +
                    "from " +
                    "(" +
                      "select split(str, ' ')[7] as  line " +
                      "from biods.ods_start_log " +
                      "where dt='20210721'" +
                    ")t")
    Thread.sleep(1000000)
    ss.stop()
  }
}

输入：
hdfs中该日期分区存有2个文件，大小分别为245M和94M

输出：
最终结果分区中，有6个文件。

可见缩小spark.sql.files.maxPartitionBytes值，增大了读取task数量。

3 、源码分析

3.1 、物理执行计划如下

Execute InsertIntoHadoopFsRelationCommand hdfs://hadoop1:9000/bicoredata/dwd_start_log_dm, Map(dt -> 20210721), false, [dt#55], ORC, Map(orc.compress -> ZLIB, serialization.format -> 1, partitionOverwriteMode -> dynamic), Overwrite, CatalogTable(
Database: bicoredata
Table: dwd_start_log_dm
Owner: root
Created Time: Sun Dec 11 17:47:33 CST 2022
Last Access: UNKNOWN
Created By: Spark 2.2 or prior
Type: MANAGED
Provider: hive
Comment: dwd????????
Table Properties: [orc.compress=ZLIB, transient_lastDdlTime=1670752053]
Location: hdfs://hadoop1:9000/bicoredata/dwd_start_log_dm
Serde Library: org.apache.hadoop.hive.ql.io.orc.OrcSerde
InputFormat: org.apache.hadoop.hive.ql.io.orc.OrcInputFormat
OutputFormat: org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat
Storage Properties: [serialization.format=1]
Partition Provider: Catalog
Partition Columns: [`dt`]
Schema: root
 |-- device_id: string (nullable = true)
 |-- area: string (nullable = true)
 |-- uid: string (nullable = true)
 |-- app_v: string (nullable = true)
 |-- event_type: string (nullable = true)
 |-- os_type: string (nullable = true)
 |-- channel: string (nullable = true)
 |-- language: string (nullable = true)
 |-- brand: string (nullable = true)
 |-- entry: string (nullable = true)
 |-- action: string (nullable = true)
 |-- error_code: string (nullable = true)
 |-- dt: string (nullable = true)
), org.apache.spark.sql.execution.datasources.CatalogFileIndex@df5f9368, [device_id, area, uid, app_v, event_type, os_type, channel, language, brand, entry, action, error_code, dt]
+- Project [ansi_cast(get_json_object(split(str#1,  , -1)[7], $.attr.device_id) as string) AS device_id#43, ansi_cast(get_json_object(split(str#1,  , -1)[7], $.attr.area) as string) AS area#44, ansi_cast(get_json_object(split(str#1,  , -1)[7], $.attr.uid) as string) AS uid#45, ansi_cast(get_json_object(split(str#1,  , -1)[7], $.attr.app_v) as string) AS app_v#46, ansi_cast(get_json_object(split(str#1,  , -1)[7], $.attr.event_type) as string) AS event_type#47, ansi_cast(get_json_object(split(str#1,  , -1)[7], $.attr.os_type) as string) AS os_type#48, ansi_cast(get_json_object(split(str#1,  , -1)[7], $.attr.channel) as string) AS channel#49, ansi_cast(get_json_object(split(str#1,  , -1)[7], $.attr.language) as string) AS language#50, ansi_cast(get_json_object(split(str#1,  , -1)[7], $.attr.brand) as string) AS brand#51, ansi_cast(get_json_object(split(str#1,  , -1)[7], $.app_active.json.entry) as string) AS entry#52, ansi_cast(get_json_object(split(str#1,  , -1)[7], $.app_active.json.action) as string) AS action#53, ansi_cast(get_json_object(split(str#1,  , -1)[7], $.app_active.json.error_code) as string) AS error_code#54, 20210721 AS dt#55]
   +- *(1) ColumnarToRow
      +- FileScan orc biods.ods_start_log[str#1,dt#2] Batched: true, DataFilters: [], Format: ORC, Location: InMemoryFileIndex[hdfs://hadoop1:9000/bi/ods/ods_start_log/dt=20210721], PartitionFilters: [isnotnull(dt#2), (dt#2 = 20210721)], PushedFilters: [], ReadSchema: struct

如上所示，本质上分三部分：
（1）读取表
FileScan orc biods.ods_start_log
（2）转换
Project [ansi_cast(get_json_object(split(str#1, , -1)[7]
（3）写入目标表
Execute InsertIntoHadoopFsRelationCommand

3.2 、FileScan和InsertIntoHadoopFsRelationCommand 算子

从InsertIntoHadoopFsRelationCommand 开始源码分析如下：

org.apache.spark.sql.execution.datasources.InsertIntoHadoopFsRelationCommand#run

org.apache.spark.sql.execution.datasources.FileFormatWriter$#write

org.apache.spark.sql.execution.FileSourceScanExec#inputRDD

FileSourceScanExec#createNonBucketedReadRDD

org.apache.spark.sql.execution.FileSourceScanExec#createNonBucketedReadRDD
首次出现3个相关参数

private def createNonBucketedReadRDD(
    readFile: (PartitionedFile) => Iterator[InternalRow],
    selectedPartitions: Array[PartitionDirectory],
    fsRelation: HadoopFsRelation): RDD[InternalRow] = {
    // 对应spark.sql.files.openCostInBytes 参数 
  val openCostInBytes = fsRelation.sparkSession.sessionState.conf.filesOpenCostInBytes
   // 基于3个参数计算出来
  val maxSplitBytes =
    FilePartition.maxSplitBytes(fsRelation.sparkSession, selectedPartitions)
  logInfo(s"Planning scan with bin packing, max size: $maxSplitBytes bytes, " +
    s"open cost is considered as scanning $openCostInBytes bytes.")

    // 逻辑分割orc文件，返回分区的文件对象PartitionedFile
  val splitFiles = selectedPartitions.flatMap { partition =>
    partition.files.flatMap { file =>
      // getPath() is very expensive so we only want to call it once in this block:
      val filePath = file.getPath
       // orc文件是可以分割的，对应org.apache.spark.sql.hive.orc.OrcFileFormat#isSplitable函数，返回true
      val isSplitable = relation.fileFormat.isSplitable(
        relation.sparkSession, relation.options, filePath)
      PartitionedFileUtil.splitFiles(
        sparkSession = relation.sparkSession,
        file = file,
        filePath = filePath,
        isSplitable = isSplitable,
        maxSplitBytes = maxSplitBytes,
        partitionValues = partition.values
      )
    }
  }.sortBy(_.length)(implicitly[Ordering[Long]].reverse)

    // 基于分区文件对象,最大分割尺寸,返回文件分区FilePartition对象（逻辑层面）
  val partitions =
    FilePartition.getFilePartitions(relation.sparkSession, splitFiles, maxSplitBytes)

    // 返回rdd
  new FileScanRDD(fsRelation.sparkSession, readFile, partitions)
}

FilePartition和PartitionedFile区别

（1）FilePartition对象：会被单个任务读取的PartitionedFile集合
对应源码在 org.apache.spark.sql.execution.datasources.FilePartition
--》特点是，一个FilePartition对应1个task

（2）PartitionedFile对象：用于读取的单个文件的部分，包含文件路径，开始偏移量，读取长度偏移量
-->特点是，一个PartitionedFile对应1个文件的部分，有对应的开始偏移量和读取偏移量

FilePartition#maxSplitBytes

org.apache.spark.sql.execution.datasources.FilePartition#maxSplitBytes
综合以上3个关键参数，计算出最大分割大小。

def maxSplitBytes(
    sparkSession: SparkSession,
    selectedPartitions: Seq[PartitionDirectory]): Long = {
    // 对应 spark.sql.files.maxPartitionBytes 参数，默认128M
  val defaultMaxSplitBytes = sparkSession.sessionState.conf.filesMaxPartitionBytes
    // 对应spark.sql.files.openCostInBytes 参数 ,默认4M
  val openCostInBytes = sparkSession.sessionState.conf.filesOpenCostInBytes
    // 对应 spark.default.parallelism参数，默认应该会取到2（yarn cluster集群默认环境下测试结果）
  val defaultParallelism = sparkSession.sparkContext.defaultParallelism
  val totalBytes = selectedPartitions.flatMap(_.files.map(_.getLen + openCostInBytes)).sum
  val bytesPerCore = totalBytes / defaultParallelism

  Math.min(defaultMaxSplitBytes, Math.max(openCostInBytes, bytesPerCore))
}

org.apache.spark.scheduler.cluster.CoarseGrainedSchedulerBackend#defaultParallelism

override def defaultParallelism(): Int = {
  conf.getInt("spark.default.parallelism", math.max(totalCoreCount.get(), 2))
}

PartitionedFileUtil#splitFiles

org.apache.spark.sql.execution.PartitionedFileUtil#splitFiles

def splitFiles(
    sparkSession: SparkSession,
    file: FileStatus,
    filePath: Path,
    isSplitable: Boolean,
    maxSplitBytes: Long,
    partitionValues: InternalRow): Seq[PartitionedFile] = {
  if (isSplitable) {
    (0L until file.getLen by maxSplitBytes).map { offset =>
      val remaining = file.getLen - offset
      val size = if (remaining > maxSplitBytes) maxSplitBytes else remaining
      val hosts = getBlockHosts(getBlockLocations(file), offset, size)
        // 基于偏移量，size构造分区file对象
      PartitionedFile(partitionValues, filePath.toUri.toString, offset, size, hosts)
    }
  } else {
    Seq(getPartitionedFile(file, filePath, partitionValues))
  }
}

逻辑分割结果，11个文件，降序排列：

FilePartition#getFilePartitions

org.apache.spark.sql.execution.datasources.FilePartition#getFilePartitions

def getFilePartitions(
    sparkSession: SparkSession,
    partitionedFiles: Seq[PartitionedFile],
    maxSplitBytes: Long): Seq[FilePartition] = {
  val partitions = new ArrayBuffer[FilePartition]
  val currentFiles = new ArrayBuffer[PartitionedFile]
  var currentSize = 0L

  /** Close the current partition and move to the next. */
  def closePartition(): Unit = {
    if (currentFiles.nonEmpty) {
      // 将PartitionedFile文件数组封装成1个FilePartition对象
      val newPartition = FilePartition(partitions.size, currentFiles.toArray)
      partitions += newPartition
    }
    currentFiles.clear()
    currentSize = 0
  }

  val openCostInBytes = sparkSession.sessionState.conf.filesOpenCostInBytes
  // Assign files to partitions using "Next Fit Decreasing"
  partitionedFiles.foreach { file =>
    if (currentSize + file.length > maxSplitBytes) {
      closePartition()
    }
    // Add the given file to the current partition.
    currentSize += file.length + openCostInBytes
    currentFiles += file
  }
    // 处理最后1个分区文件
  closePartition()
  partitions
}

总体调用流程

InsertIntoHadoopFsRelationCommand为物理逻辑计划的最后1个算子，其run方法，包含写入数据和更新元数据过程；其中写入数据又包含生成FileScanRDD(11个分区)和提交job过程。

stage0的初始rdd，即为FileScanRDD。

由于FileScanRDD包含11个FilePartition,所以最终生成11个task

4、疑问

4.1、预期11 个task 大小均匀分布 32M左右，但为什么实际存在一些task空跑，其他task输入大小为62M多？

经了解发现，以hdfs://hadoop1:9000/bi/ods/ods_start_log/dt=20210721/000000_1orc文件为例，其由4个stripe组成，大小刚好为62.5M,62.5M,62.5M,58.6M，且不可分割，这就与task中大小和数量不谋而合。

orc原理参考： https://www.jianshu.com/p/0ba4f5c3f113

查看orc文件的stripe个数等信息

hive --orcfiledump hdfs://hadoop1:9000/bi/ods/ods_start_log/dt=20210721/000001_0 | less

结果如下

4.2、测试sql中不涉及join,group by等shuffle操作，为什么会溢出到内存，甚至磁盘？

下面是exectuor中，spark task运行的线程dump中，可以发现有堆内存溢出的操作。

猜测：可能有shuffle或者排序，因为如果是纯map task任务，如果excutor内存不足，会直接报oom错误。

org.apache.spark.sql.execution.SortExec#doExecute

//task执行过程中，会到这一步。
protected override def doExecute(): RDD[InternalRow] = {
    val peakMemory = longMetric("peakMemory")
    val spillSize = longMetric("spillSize")
    val sortTime = longMetric("sortTime")

    child.execute().mapPartitionsInternal { iter =>
      val sorter = createSorter()

      val metrics = TaskContext.get().taskMetrics()
      // Remember spill data size of this task before execute this operator so that we can
      // figure out how many bytes we spilled for this operator.
      val spillSizeBefore = metrics.memoryBytesSpilled
        // 说明sort过程会 溢出数据到内存
      val sortedIterator = sorter.sort(iter.asInstanceOf[Iterator[UnsafeRow]])
      sortTime += NANOSECONDS.toMillis(sorter.getSortTimeNanos)
      peakMemory += sorter.getPeakMemoryUsage
      spillSize += metrics.memoryBytesSpilled - spillSizeBefore
      metrics.incPeakExecutionMemory(sorter.getPeakMemoryUsage)

      sortedIterator
    }

sortExec工作原理 : https://zhuanlan.zhihu.com/p/582664919
当没有足够的内存来存储指针阵列列表或分配的内存页，或者UnsafeInMemorySorter的行数大于或等于溢出阈值numElementsForSpillThreshold时，内存中的数据将被分割到磁盘。

为什么会有sortExec算子？

在 InsertIntoHadoopFsRelationCommand 命令，提交job之前。

org/apache/spark/sql/execution/datasources/FileFormatWriter.scala:170

// 查看requiredChildOrderings针对排序有特殊需求的添加SortExec节点
val rdd = if (orderingMatched) {
  empty2NullPlan.execute()
} else {
  // SPARK-21165: the `requiredOrdering` is based on the attributes from analyzed plan, and
  // the physical plan may have different attribute ids due to optimizer removing some
  // aliases. Here we bind the expression ahead to avoid potential attribute ids mismatch.
  val orderingExpr = bindReferences(
    requiredOrdering.map(SortOrder(_, Ascending)), outputSpec.outputColumns)
    // 这里绑定上了sortexec 算子，返回的是rdd，并非已经开始计算了
  SortExec(
    orderingExpr,
    global = false,
    child = empty2NullPlan).execute()
}

val rddWithNonEmptyPartitions = if (rdd.partitions.length == 0) {
        sparkSession.sparkContext.parallelize(Array.empty[InternalRow], 1)
      } else {
        rdd
      }

      val jobIdInstant = new Date().getTime
      val ret = new Array[WriteTaskResult](rddWithNonEmptyPartitions.partitions.length)
// 然后这里才提交了job
      sparkSession.sparkContext.runJob(
        rddWithNonEmptyPartitions,
        (taskContext: TaskContext, iter: Iterator[InternalRow]) => {
          executeTask(
            description = description,
            jobIdInstant = jobIdInstant,
            sparkStageId = taskContext.stageId(),
            sparkPartitionId = taskContext.partitionId(),
            sparkAttemptNumber = taskContext.taskAttemptId().toInt & Integer.MAX_VALUE,
            committer,
            iterator = iter)
        },
        rddWithNonEmptyPartitions.partitions.indices,
        (index, res: WriteTaskResult) => {
          committer.onTaskCommit(res.commitMsg)
          ret(index) = res
        })

参考：https://developer.aliyun.com/article/679260

4.3、resulttask

不涉及shuffle的sql 最终生成的只有resultTask, 当然也只有resultstage。

org.apache.spark.rdd.RDDCheckpointData$

executetask即传入 rdd上执行的func

org.apache.spark.scheduler.ResultTask#runTask

org.apache.spark.sql.execution.datasources.FileFormatWriter#executeTask

里面包含提交task的过程

参考：https://blog.csdn.net/weixin_42588332/article/details/122440644#:~:text=%E5%AF%B9%E4%BA%8E%20Aggregate%20%E6%93%8D%E4%BD%9C%EF%BC%8CSpark%20UI%20%E4%B9%9F%E8%AE%B0%E5%BD%95%E7%9D%80%E7%A3%81%E7%9B%98%E6%BA%A2%E5%87%BA%E4%B8%8E%E5%B3%B0%E5%80%BC%E6%B6%88%E8%80%97%EF%BC%8C%E5%8D%B3%20Spill%20size%20%E5%92%8C,%E7%9A%84%E5%B3%B0%E5%80%BC%E6%B6%88%E8%80%97%EF%BC%8C%E8%AF%81%E6%98%8E%E5%BD%93%E5%89%8D%203GB%20%E7%9A%84%20Executor%20Memory%20%E8%AE%BE%E7%BD%AE%EF%BC%8C%E5%AF%B9%E4%BA%8E%20Aggregate%20%E8%AE%A1%E7%AE%97%E6%9D%A5%E8%AF%B4%E6%98%AF%E7%BB%B0%E7%BB%B0%E6%9C%89%E4%BD%99%E7%9A%84%E3%80%82

https://zhuanlan.zhihu.com/p/431015932

https://blog.csdn.net/chongqueluo2709/article/details/101006130

Spark从入门到熟悉（篇二）
本文介绍Spark的RDD编程，并进行实战演练，加强对编程的理解，实现快速入手知识脉络包含如下8部分内容：创建RDD常用Action操作常用Transformation操作针对PairRDD的常用操作缓存操作共享变量分区操作编程实战创建RDD实现方式有如下两种方式实现：textFile加载本地或者集群文件系统中的数据用parallelize方法将Driver中的数据结构并行化成RDD示例"""te
微信小店分销系统深度解析：功能、架构与开发实践！ vx:hedian166 微信架构小程序
一、微信小店分销系统概述微信小店分销系统是基于微信生态构建的一套完整电商解决方案，它允许商家在微信内快速搭建自己的分销网络。与传统的电商平台不同，微信分销系统充分利用了微信的社交属性，通过多级分销模式实现商品的快速传播和销售。核心特点：社交裂变属性：利用微信好友关系链实现商品传播轻量化运营：无需复杂配置即可快速上线闭环交易：从浏览到支付全流程在微信内完成数据分析：提供完整的用户行为和交易数据追踪二
react控制打印机打印_React实现浏览器打印指定内容 weixin_39637179 react控制打印机打印
近期着手项目任务的打印功能，在此作个记录，本文介绍基于React的一种调用浏览器打印页面指定内容的方法。整体思路：通过构建一个隐藏的元素(该元素包裹需打印的内容)，当打印行为触发时，将页面其他的一些不需要打印的元素隐藏，然后将需打印的元素追加到body中，打印完成后，再恢复初始状态即可。浏览器打印的本质还是将web页面中的元素打印出来而已。1.构建待打印元素在页面中构建一个display为none
TryHackMe-进攻性渗透测试-09_Internal Sugobet apache 服务器网络安全 web安全 jenkins
Internal工作范围客户要求工程师对提供的虚拟环境进行外部、Web应用程序和内部评估。客户要求提供有关评估的最少信息，希望从恶意行为者的眼睛进行参与（黑盒渗透测试）。客户端要求您保护两个标志（未提供位置）作为利用证明：user.txtroot.txt此外，客户还提供了以下范围津贴：确保修改主机文件以反映内部文件.thm此参与中允许使用任何工具或技术找到并记下发现的所有漏洞将发现的标志提交到仪表
Kafka生态整合深度解析：构建现代化数据架构的核心枢纽
Kafka生态整合深度解析：构建现代化数据架构的核心枢纽导语：在当今数据驱动的时代，ApacheKafka已经成为企业级数据架构的核心组件。本文将深入探讨Kafka与主流技术栈的整合方案，帮助架构师和开发者构建高效、可扩展的现代化数据处理平台。文章目录Kafka生态整合深度解析：构建现代化数据架构的核心枢纽一、Kafka与流处理引擎的深度集成1.1Kafka+ApacheSpark：批流一体化处理
家用充电桩远程监控安全管理系统解决方案蓝蜂物联网物联网远程监控边缘计算物联网
家用充电桩远程监控安全管理系统解决方案在当今电动汽车日益普及的背景下，家用充电桩的安全管理成为了广大车主关注的重点问题。为了实现对充电桩的高效、精准、远程监控，一套完善的家用充电桩远程监控安全管理系统解决方案应运而生。本方案旨在通过先进的物联网技术、云计算、大数据分析以及人工智能等科技手段，构建一个集实时监测、异常预警、故障诊断、数据统计、远程控制于一体的智能化平台，确保充电桩的安全运行及用户充电
TypeScript编译选项
一、前言在开发TypeScript项目时，一个非常关键的文件就是tsconfig.json。它不仅定义了项目的根目录、模块解析方式，还控制着TypeScript编译器的行为。本文将带你全面了解：✅tsconfig.json的作用✅常用编译选项（compilerOptions）详解✅不同环境下的配置建议（开发/生产）✅配置继承与共享设置✅实际开发中的常见问题与解决方法并通过完整的代码示例帮助你掌握如
深入理解观察者模式及其JavaScript实现布兰妮甜 javascript 观察者模式网络
Hi，我是布兰妮甜！观察者模式（ObserverPattern）是一种行为设计模式，它定义了对象之间的一对多依赖关系，当一个对象的状态发生改变时，所有依赖于它的对象都会得到通知并自动更新。这种模式在事件处理系统、数据绑定和发布-订阅系统中广泛应用。文章目录一、观察者模式的核心概念二、观察者模式的优点三、JavaScript实现观察者模式1.基本实现2.更实用的例子-天气预报系统3.使用函数作为观察
JOIN顺序优化：小表驱动大表的执行原则数据狐（DataFox） 2025年爬虫实战项目 sql 性能优化数据库
在数据库查询优化中，特别是在使用SQL语句进行数据查询时，遵循“小表驱动大表”的原则是一种常见且有效的策略。这个原则的核心思想是首先处理小表，然后再与大表进行连接操作，这样可以显著提高查询的效率。下面详细解释这一原则及其背后的原因：为什么“小表驱动大表”有效？减少数据扫描量：当数据库系统执行JOIN操作时，如果先处理小表，那么只需要扫描小表中的每一行与大表中的行进行匹配。这样可以大幅度减少需要扫描
C++中的面向对象编程克斯维尔的明天_ c++开发语言
C++OOP面向对象编程，顾名思义，在编程中使用对象。面向对象编程旨在在编程中实现现实世界的实体，如继承、隐藏、多态性等。OOP的主要目标是将数据和对它们进行作的函数绑定在一起，以便代码的其他部分除了该函数之外，其他任何部分都无法访问这些数据。概述Class类C++中面向对象编程的构建块是Class。它是一种用户定义的数据类型，充当蓝图，表示一组共享一些常见属性和行为的对象。这些属性存储为数据成员
[精选] 2025最新MySQL和PostgreSQL区别、迁移、安全、适用场景全解析猫头虎数据库技术专区 #MySQL专栏 #PostgreSQL专栏 mysql postgresql 安全运维云原生数据库容器
[精选]2025最新MySQL和PostgreSQL区别、迁移、安全、适用场景全解析在当前的数据库技术领域，MySQL和PostgreSQL作为两大主流数据库，拥有各自独特的优势和应用场景。随着技术的不断演进，特别是2025年的最新动态和趋势，两者在功能、迁移、性能、安全性等方面都有了一定的变化和优化。因此，本文将通过详细的对比和分析，帮助初学者更好地理解这两种数据库，帮助你做出选择，或者顺利进行
explicit
在C++中，explicit是一个非常重要的关键字，主要用在类的构造函数前面，用来控制类对象的隐式转换行为。下面我会用通俗易懂的方式详细说明它的作用、常见的用法，以及为什么要使用它。一、基本概念：什么是explicit？没有explicit的构造函数，在某些情况下，编译器会允许隐式转换，让某个类型的对象自动转换为另一种类型，或者用一个参数的构造函数把值“自动”变成对象。**加上explicit**
为什么YashanDB数据库是大数据处理的理想选择？数据库
在当今大数据时代，如何高效管理和处理海量数据成为了许多企业的首要挑战。针对这一问题，选择合适的数据库系统至关重要。尤其是在大数据场景中，诸如数据存储、数据访问效率和并发控制等技术要求提高，给数据库的选择带来了更高的标准。YashanDB作为一款高性能数据库，以其独特的架构设计与一系列优秀的功能，成为大数据处理的理想选择。高度可扩展的部署架构YashanDB支持多种部署形态，包括单机部署、分布式集群
企业如何构建基于YashanDB的数据分析系统数据库
随着大数据时代的到来，企业面临的一个核心技术问题是如何有效、快速地进行数据分析以指导决策。一个重要的性能瓶颈在于数据库的查询速度和存储结构的设计。尤其在处理海量数据时，如何在保证数据查询性能的同时确保数据的准确性和完整性，这问题显得尤为重要。YashanDB作为一个高性能的数据库系统，通过其独特的体系架构和强大的数据存储及访问机制，为企业构建高效的数据分析系统提供了可靠的技术支持。YashanDB
AI+大数据：社交网络分析在金融风控中的完整流程 AI智能应用 AI大模型应用入门实战与进阶人工智能大数据 ai
AI+大数据：社交网络分析在金融风控中的完整流程关键词：AI、大数据、社交网络分析、金融风控、完整流程摘要：本文详细讲述了在金融风控领域运用AI和大数据进行社交网络分析的完整流程。通过通俗易懂的语言，从背景知识入手，解释核心概念，阐述算法原理，分享项目实战经验，探讨实际应用场景，推荐相关工具资源，展望未来发展趋势与挑战，旨在让读者全面了解这一复杂技术在金融风控中的应用。背景介绍目的和范围我们的目的
EventBridge精准之道：CloudTrail事件 vs. 服务原生事件，我该如何选？运维开发王义杰 aws 系统运维 aws 运维
当我们深入使用AWSEventBridge时，常常会发现一个有趣的现象：对于同一个操作（比如启动一个EC2实例），EventBridge中似乎会出现两种事件。一种来自CloudTrail，记录了API调用的行为；另一种则直接来自EC2服务本身，描述了实例状态的变化。这引出了一个至关重要的问题：在创建EventBridge规则时，我应该监听哪一种？它们有什么区别？{"source":[{"prefi
主动防御的原理和架构 hao_wujing 安全
大家读完觉得有帮助记得关注和点赞！！！主动防御（ActiveDefense）是一种**通过动态欺骗、攻击反制、环境感知等手段，主动扰乱攻击者认知、消耗其资源并实现威胁狩猎的防御范式**。其核心在于从“被动防护”转向“攻防博弈”，利用攻击者的行为特征实施精准反制。以下是基于2025年技术演进的原理与架构深度解析：---###⚙️一、主动防御的三大核心原理####**1.攻击者认知干扰（Decepti
odbc连接失败，SQLSTATE=IM003，由于系统错误193：指定的驱动无法加载 odbcjt32.dll
问题说明前几天有用户反馈在他电脑上运行我们开发的程序报错，错误信息为“odbc连接失败，SQLSTATE=IM003，由于系统错误193：指定的驱动无法加载odbcjt32.dll”。通过电话联系用户，询问用户是在做什么操作时出现的错误，最终分析发现出错的时机是程序连接本地access数据库的时候。用户电脑是64位的Win7系统，我们的系统是C#编写的x86格式的可执行程序。处理过程通过在
MySQL server version for the right syntax to use near '' KENYCHEN奉孝
1.配置不对，一直提示''com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException:YouhaveanerrorinyourSQLsyntax;checkthemanualthatcorrespondstoyourMySQLserverversionfortherightsyntaxtousenear''atline1atsun.refle
CCF GESP C++编程六级认证真题 2025年3月
C++六级2025年03月题号123456789101112131415答案DBABBBBAAAAABCA一、单选题第1题在面向对象编程中，类是一种重要的概念。下面关于类的描述中，不正确的是（）。A.类是一个抽象的概念，用于描述具有相同属性和行为的对象集合。B.类可以包含属性和方法，属性用于描述对象的状态，方法用于描述对象的行为。C.类可以被实例化，生成具体的对象。D.类一旦定义后，其属性和方法不
Spring AI ETL Pipeline使用指南超级小忍 SpringAI spring 人工智能
前言（Introduction）版本声明：本文基于SpringAI1.0.0版本编写。由于SpringAI目前仍处于活跃开发阶段，API和组件可能在后续版本中发生变化，请注意及时关注官方文档更新以保持兼容性。在当今大数据和人工智能快速发展的背景下，ETL（Extract,Transform,Load）系统已经不再只是简单的数据搬运工。ETL是数据仓库和数据分析流程中的核心环节，它负责将分散的数据从
MapReduce分布式计算框架：从原理到实战 AI妈妈手把手 mapreduce 前端大数据分布式计算 python 人工智能
大家好！今天我们来聊聊大数据处理领域的一个重要框架——MapReduce。作为Google提出的经典分布式计算模型，MapReduce极大地简化了海量数据的处理流程。无论你是大数据新手还是有一定经验的开发者，这篇文章都会让你对MapReduce有更深入的理解。我们还会通过实际代码示例来展示它的强大功能！一、MapReduce是什么？想象你有一个装满10亿本书的图书馆，现在需要统计所有书中"大数据"
大数据面试题之Hive(1) 小的~~ 大数据大数据 hive hadoop
说下为什么要使用Hive?Hive的优缺点?Hive的作用是什么?说下Hive是什么?跟数据仓库区别?Hive架构Hive内部表和外部表的区别?为什么内部表的删除，就会将数据全部删除，而外部表只删除表结构?为什么用外部表更好?Hive建表语句?创建表时使用什么分隔符?Hive删除语句外部表删除的是什么?Hive数据倾斜以及解决方案Hive如果不用参数调优，在map和reduce端应该做什么Hive
MyBatis架构原理解析：核心对象与执行流程深度剖析
一、开篇：理解MyBatis的核心价值在当今Java持久层框架生态中，MyBatis凭借其灵活的SQL控制能力和简洁的ORM实现成为企业级应用的首选。与JPA的全自动ORM不同，MyBatis采用半自动化映射理念，在保持SQL灵活性的同时，通过智能映射减少70%的JDBC样板代码。开发者直接编写SQLMyBatis核心引擎自动参数绑定结果集映射事务管理JDBC本文将深入剖析MyBatis的架构核心
28.行为型模式分析对比智想天开设计模式详解设计模式
原文地址:行为型模式分析对比更多内容请关注：智想天开1.行为型设计模式概述行为型设计模式关注对象之间的通信与职责分配，旨在优化对象之间的交互和协作。通过定义清晰的职责和交互方式，行为型模式提高了系统的灵活性、可扩展性和可维护性。关键特点：对象交互：优化对象之间的通信方式，减少耦合。职责分配：明确对象的职责，遵循单一职责原则。灵活性：允许动态地改变对象的行为和职责。复用性：通过模式的应用，提升代码的
27.访问者模式
原文地址:访问者模式更多内容请关注：智想天开1.访问者模式简介访问者模式（VisitorPattern）是一种行为型设计模式，它允许在不改变元素类的前提下，向元素添加新的操作。通过将操作封装到访问者对象中，访问者模式实现了操作与数据结构的分离，使得可以在不修改元素类的情况下，新增操作。关键点：操作封装：将不同的操作封装到独立的访问者类中。分离数据结构与操作：访问者模式将数据结构（元素类）与对其执行
用Python爬虫抓取网页中的视频文件：从数据获取到处理与保存的完整教程 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 selenium
一、引言随着在线视频平台的快速发展，视频成为了互联网中最重要的媒介之一。无论是用于娱乐、教育还是技术学习，视频内容都极大地改变了我们的信息获取方式。对于开发者、数据分析师或者研究者而言，获取和分析视频文件的数据不仅可以帮助他们深入理解某些平台的运营模式，也有助于建立自定义的多媒体内容库。爬虫技术是自动化抓取网页数据的一种工具。它通过模拟浏览器行为，抓取目标网页的内容。对于视频文件的抓取，尤其是那些
DBG+TDE双剑合璧：打造从字段到存储的数据库全栈加密防御体系安当加密数据库网络
一、当数据泄露进入“立体攻击”时代：单一防护已失效某企业遭遇连环攻击：1️⃣攻击面1：黑客利用API漏洞越权访问数据库→窃取明文用户信息2️⃣攻击面2：窃取数据库备份文件→离线破解表数据传统方案短板：仅字段加密：无法防御存储层窃取（如.ibd文件被拷贝）仅TDE加密：无法阻止越权SQL直接读取明文✅安当破局之道：DBG（应用层网关）+TDE（存储层加密）=全链路数据“装甲”二、深度图解DBG+TD
【网络编程】EPOLL 事件触发机制的服务器啟明起鸣网络服务器运维
文章目录业务拆解EPOLL机制介绍EPOLL的核心变量和函数EPOLL程序流程图C代码实现准备工作服务器代码代码运行效果总结推荐一个零声教育学习教程，个人觉得老师讲得不错，分享给大家：[Linux，Nginx，ZeroMQ，MySQL，Redis，fastdfs，MongoDB，ZK，流媒体，CDN，P2P，K8S，Docker，TCP/IP，协程，DPDK等技术内容，点击立即学习:https:/
【SQL知识】SQL注入中-- +和#的区别 KPX SQL知识 web安全漏洞挖掘 sql 数据库
目录1.基本概念对比2.实际SQL注入示例（1）原始SQL语句（2）使用--+注释（3）使用#注释3.关键区别图示4.如何选择？5.总结1.基本概念对比特性--+（或--）#（或%23）注释类型SQL标准注释MySQL特有注释是否需要空格需要（+代替空格）不需要URL编码--%20（空格编码）%23适用数据库MySQL、Oracle、SQLServer、PostgreSQL主要MySQL浏览器处理
jQuery 跨域访问的三种方式 No 'Access-Control-Allow-Origin' header is present on the reque qiaolevip 每天进步一点点学习永无止境跨域众观千象
XMLHttpRequest cannot load http://v.xxx.com. No 'Access-Control-Allow-Origin' header is present on the requested resource. Origin 'http://localhost:63342' is therefore not allowed access. test.html:1
mysql 分区查询优化 annan211 java 分区优化 mysql
分区查询优化引入分区可以给查询带来一定的优势，但同时也会引入一些bug. 分区最大的优点就是优化器可以根据分区函数来过滤掉一些分区，通过分区过滤可以让查询扫描更少的数据。所以，对于访问分区表来说，很重要的一点是要在where 条件中带入分区，让优化器过滤掉无需访问的分区。可以通过查看explain执行计划，是否携带 partitions
MYSQL存储过程中使用游标 chicony Mysql存储过程
DELIMITER $$ DROP PROCEDURE IF EXISTS getUserInfo $$ CREATE PROCEDURE getUserInfo(in date_day datetime)-- -- 实例-- 存储过程名为：getUserInfo-- 参数为：date_day日期格式:2008-03-08-- BEGINdecla
mysql 和 sqlite 区别 Array_06 sqlite
转载： http://www.cnblogs.com/ygm900/p/3460663.html mysql 和 sqlite 区别 SQLITE是单机数据库。功能简约，小型化，追求最大磁盘效率 MYSQL是完善的服务器数据库。功能全面，综合化，追求最大并发效率 MYSQL、Sybase、Oracle等这些都是试用于服务器数据量大功能多需要安装，例如网站访问量比较大的。而sq
pinyin4j使用 oloz pinyin4j
首先需要pinyin4j的jar包支持；jar包已上传至附件内方法一:把汉字转换为拼音；例如：编程转换后则为biancheng /** * 将汉字转换为全拼 * @param src 你的需要转换的汉字 * @param isUPPERCASE 是否转换为大写的拼音； true:转换为大写；fal
微博发送私信随意而生微博
在前面文章中说了如和获取登陆时候所需要的cookie，现在只要拿到最后登陆所需要的cookie，然后抓包分析一下微博私信发送界面 http://weibo.com/message/history?uid=****&name=**** 可以发现其发送提交的Post请求和其中的数据，让后用程序模拟发送POST请求中的数据，带着cookie发送到私信的接入口，就可以实现发私信的功能了。
jsp 香水浓 jsp
JSP初始化容器载入JSP文件后，它会在为请求提供任何服务前调用jspInit()方法。如果您需要执行自定义的JSP初始化任务，复写jspInit()方法就行了 JSP执行这一阶段描述了JSP生命周期中一切与请求相关的交互行为，直到被销毁。当JSP网页完成初始化后
在 Windows 上安装 SVN Subversion 服务端 AdyZhang SVN
在 Windows 上安装 SVN Subversion 服务端2009-09-16高宏伟哈尔滨市道里区通达街291号最佳阅读效果请访问原地址：http://blog.donews.com/dukejoe/archive/2009/09/16/1560917.aspx 现在的Subversion已经足够稳定，而且已经进入了它的黄金时段。我们看到大量的项目都在使
android开发中如何使用 alertDialog从listView中删除数据？ aijuans android
我现在使用listView展示了很多的配置信息，我现在想在点击其中一条的时候填出 alertDialog,点击确认后就删除该条数据，（ ArrayAdapter ，ArrayList，listView 全部删除），我知道在下面的onItemLongClick 方法中参数 arg2 是选中的序号，但是我不知道如何继续处理下去 1 2 3
jdk-6u26-linux-x64.bin 安装 baalwolf linux
1.上传安装文件(jdk-6u26-linux-x64.bin) 2.修改权限 [root@localhost ~]# ls -l /usr/local/jdk-6u26-linux-x64.bin 3.执行安装文件 [root@localhost ~]# cd /usr/local [root@localhost local]# ./jdk-6u26-linux-x64.bin&nbs
MongoDB经典面试题集锦 BigBird2012 mongodb
1.什么是NoSQL数据库？NoSQL和RDBMS有什么区别？在哪些情况下使用和不使用NoSQL数据库？ NoSQL是非关系型数据库，NoSQL = Not Only SQL。关系型数据库采用的结构化的数据，NoSQL采用的是键值对的方式存储数据。在处理非结构化/半结构化的大数据时；在水平方向上进行扩展时；随时应对动态增加的数据项时可以优先考虑使用NoSQL数据库。在考虑数据库的成熟
JavaScript异步编程Promise模式的6个特性 bijian1013 JavaScript Promise
Promise是一个非常有价值的构造器，能够帮助你避免使用镶套匿名方法，而使用更具有可读性的方式组装异步代码。这里我们将介绍6个最简单的特性。在我们开始正式介绍之前，我们想看看Javascript Promise的样子： var p = new Promise(function(r
[Zookeeper学习笔记之八]Zookeeper源代码分析之Zookeeper.ZKWatchManager bit1129 zookeeper
ClientWatchManager接口 //接口的唯一方法materialize用于确定那些Watcher需要被通知 //确定Watcher需要三方面的因素1.事件状态 2.事件类型 3.znode的path public interface ClientWatchManager { /** * Return a set of watchers that should
【Scala十五】Scala核心九：隐式转换之二 bit1129 scala
隐式转换存在的必要性，在Java Swing中，按钮点击事件的处理，转换为Scala的的写法如下： val button = new JButton button.addActionListener( new ActionListener { def actionPerformed(event: ActionEvent) {
Android JSON数据的解析与封装小Demo ronin47
转自：http://www.open-open.com/lib/view/open1420529336406.html package com.example.jsondemo; import org.json.JSONArray; import org.json.JSONException; import org.json.JSONObject; impor
[设计]字体创意设计方法谈 brotherlamp UI ui自学 ui视频 ui教程 ui资料
从古至今，文字在我们的生活中是必不可少的事物，我们不能想象没有文字的世界将会是怎样。在平面设计中，UI设计师在文字上所花的心思和功夫最多，因为文字能直观地表达UI设计师所的意念。在文字上的创造设计，直接反映出平面作品的主题。如设计一幅戴尔笔记本电脑的广告海报，假设海报上没有出现“戴尔”两个文字，即使放上所有戴尔笔记本电脑的图片都不能让人们得知这些电脑是什么品牌。只要写上“戴尔笔
单调队列-用一个长度为k的窗在整数数列上移动，求窗里面所包含的数的最大值 bylijinnan java 算法面试题
import java.util.LinkedList; /* 单调队列滑动窗口单调队列是这样的一个队列：队列里面的元素是有序的，是递增或者递减题目：给定一个长度为N的整数数列a(i),i=0,1,...,N-1和窗长度k. 要求：f(i) = max{a(i-k+1),a(i-k+2),..., a(i)},i = 0,1,...,N-1 问题的另一种描述就
struts2处理一个form多个submit chiangfai struts2
web应用中，为完成不同工作，一个jsp的form标签可能有多个submit。如下代码： <s:form action="submit" method="post" namespace="/my"> <s:textfield name="msg" label="叙述：">
shell查找上个月，陷阱及野路子 chenchao051 shell
date -d "-1 month" +%F 以上这段代码，假如在2012/10/31执行，结果并不会出现你预计的9月份，而是会出现八月份，原因是10月份有31天，9月份30天，所以-1 month在10月份看来要减去31天，所以直接到了8月31日这天，这不靠谱。野路子解决：假设当天日期大于15号
mysql导出数据中文乱码问题 daizj mysql 中文乱码导数据
解决mysql导入导出数据乱码问题方法：１、进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+----------------------------------------+ | Variable_name&nbs
SAE部署Smarty出现：Uncaught exception 'SmartyException' with message 'unable to write dcj3sjt126com PHP smarty sae
对于SAE出现的问题：Uncaught exception 'SmartyException' with message 'unable to write file...。官方给出了详细的FAQ：http://sae.sina.com.cn/?m=faqs&catId=11#show_213 解决方案为： 01 $path
《教父》系列台词 dcj3sjt126com
Your love is also your weak point. 你的所爱同时也是你的弱点。 If anything in this life is certain, if history has taught us anything, it is that you can kill anyone. 不顾家的人永远不可能成为一个真正的男人。 &
mongodb安装与使用 dyy_gusi mongo
一.MongoDB安装和启动,widndows和linux基本相同 1.下载数据库, linux:mongodb-linux-x86_64-ubuntu1404-3.0.3.tgz 2.解压文件,并且放置到合适的位置 tar -vxf mongodb-linux-x86_64-ubun
Git排除目录 geeksun git
在Git的版本控制中，可能有些文件是不需要加入控制的，那我们在提交代码时就需要忽略这些文件，下面讲讲应该怎么给Git配置一些忽略规则。有三种方法可以忽略掉这些文件，这三种方法都能达到目的，只不过适用情景不一样。 1. 针对单一工程排除文件这种方式会让这个工程的所有修改者在克隆代码的同时，也能克隆到过滤规则，而不用自己再写一份，这就能保证所有修改者应用的都是同一
Ubuntu 创建开机自启动脚本的方法 hongtoushizi ubuntu
转载自： http://rongjih.blog.163.com/blog/static/33574461201111504843245/ Ubuntu 创建开机自启动脚本的步骤如下： 1) 将你的启动脚本复制到 /etc/init.d目录下以下假设你的脚本文件名为 test。 2) 设置脚本文件的权限 $ sudo chmod 755
第八章流量复制/AB测试/协程 jinnianshilongnian nginx lua coroutine
流量复制在实际开发中经常涉及到项目的升级，而该升级不能简单的上线就完事了，需要验证该升级是否兼容老的上线，因此可能需要并行运行两个项目一段时间进行数据比对和校验，待没问题后再进行上线。这其实就需要进行流量复制，把流量复制到其他服务器上，一种方式是使用如tcpcopy引流；另外我们还可以使用nginx的HttpLuaModule模块中的ngx.location.capture_multi进行并发
电商系统商品表设计 lkl
DROP TABLE IF EXISTS `category`; -- 类目表 /*!40101 SET @saved_cs_client = @@character_set_client */; /*!40101 SET character_set_client = utf8 */; CREATE TABLE `category` ( `id` int(11) NOT NUL
修改phpMyAdmin导入SQL文件的大小限制 pda158 sql mysql
　用phpMyAdmin导入mysql数据库时，我的10M的数据库不能导入，提示mysql数据库最大只能导入2M。　　 phpMyAdmin数据库导入出错：　　You probably tried to upload too large file. Please refer to documentation for ways to workaround this limit.
Tomcat性能调优方案 Sobfist apache jvm tomcat 应用服务器
一、操作系统调优对于操作系统优化来说，是尽可能的增大可使用的内存容量、提高CPU的频率，保证文件系统的读写速率等。经过压力测试验证，在并发连接很多的情况下，CPU的处理能力越强，系统运行速度越快。。【适用场景】任何项目。二、Java虚拟机调优应该选择SUN的JVM，在满足项目需要的前提下，尽量选用版本较高的JVM，一般来说高版本产品在速度和效率上比低版本会有改进。 J
SQLServer学习笔记 vipbooks 数据结构 xml
1、create database school 创建数据库school 2、drop database school 删除数据库school 3、use school 连接到school数据库，使其成为当前数据库 4、create table class(classID int primary key identity not null) 创建一个名为class的表，其有一