野男孩

Spark SQL操作之-函数汇总篇-下

Spark SQL操作之-自定义函数篇-下

环境说明
自定义函数分类

用户自定义函数(UDF)
用户自定义聚合函数(UDAF)

环境说明

1. JDK 1.8
2. Spark 2.1

自定义函数分类

不同的业务需要不同的处理函数，所以spark也支持用户自定义函数来做专用的处理。这里的自定义函数分两大类：用户已定义函数(UDF)和用户自定义聚合函数(UDAF)。

用户自定义函数(UDF)

用户自定义函数比较简单，写起来就是个普通的scala函数，只不过在spark中使用的时候需要单独注册一下。
直接看例子吧。

scala> val df=Range(0,10).toSeq.toDF("id")
df: org.apache.spark.sql.DataFrame = [id: int]

scala> df.show
+---+
| id|
+---+
|  0|
|  1|
|  2|
|  3|
|  4|
|  5|
|  6|
|  7|
|  8|
|  9|
+---+

##定义一个函数，对给定的整数列都加100
scala> def add100(value:Int):Int = { value + 100 }
add100: (value: Int)Int

##注册成自定义sql函数
scala> spark.udf.register("add100", add100(_:Int))
res1: org.apache.spark.sql.expressions.UserDefinedFunction = UserDefinedFunction(,IntegerType,Some(List(IntegerType)))

##调用上面写的自定义函数add100(value:Int)
scala> df.selectExpr("id", "add100(id) as new_id").show
+---+------+
| id|new_id|
+---+------+
|  0|   100|
|  1|   101|
|  2|   102|
|  3|   103|
|  4|   104|
|  5|   105|
|  6|   106|
|  7|   107|
|  8|   108|
|  9|   109|
+---+------+

要注意的是，用spark.udf.register注册的函数，不能用作dataset的函数使用。需要用udf类重新注册一下。

##直接用的话，会类型不匹配的。
scala> df.select(add100($"id")).show
:28: error: type mismatch;
 found   : org.apache.spark.sql.ColumnName
 required: Int
       df.select(add100($"id")).show

##正确用法，用udf注册
scala> val add100_func=udf(add100 _)
add100_func: org.apache.spark.sql.expressions.UserDefinedFunction = UserDefinedFunction(,IntegerType,Some(List(IntegerType)))

现在相当于有了一个add100_func的函数，类型是UserDefinedFunction
scala> df.select($"id", add100_func($"id").as("new_id")).show
+---+------+
| id|new_id|
+---+------+
|  0|   100|
|  1|   101|
|  2|   102|
|  3|   103|
|  4|   104|
|  5|   105|
|  6|   106|
|  7|   107|
|  8|   108|
|  9|   109|
| 10|   110|
| 11|   111|
| 12|   112|
| 13|   113|
+---+------+

好了，UDF就说到这，挺简单的。下面的UDAF比较起来，复杂多了。

用户自定义聚合函数(UDAF)

和UDF比起来，就多了一个A：聚合，Aggregation。其实聚合函数很常见，平时写SQL，求和啊，求均值啊这些都是。但是，自己写UDAF，比起写UDF可是麻烦多了。想想也是，一般的UDF，就是处理一行数据中的一列或多列，做个变换后返回。而UDAF是针对多行数据来处理的，最后只输出一行结果，操作本来就复杂些。

要实现一个UDAF功能，有两种方式：一种是从UserDefinedAggregateFunction类继承，一种是从Aggregator类继承。这两种方式基本上类似，前者是非类型安全的，但是比较灵活，不需要传入整行数据，只要传需要做聚合的列就可以了。后者是强类型，api看起来友好一些，但是，对于列很多的情况，比较麻烦。我个人比较倾向于使用UserDefinedAggregateFunction类的继承实现。

从UserDefinedAggregateFunction类继承，需要实现8个成员方法。

成员方法	释义
inputSchema: StructType	函数的输入参数的类型定义
dataType: DataType	函数的返回值类型定义
bufferSchema: StructType	内部缓存，记录临时变量等
deterministic: Boolean	这是一个确定性的指示。就是说，是否给定输入后，每次运行的结果都一致。通常都是true
initialize(buffer: MutableAggregationBuffer): Unit	初始化函数。典型的功能就是变量清零之类的
update(buffer: MutableAggregationBuffer, input: Row): Unit	更新函数。在同一个partition内的数据一行一行的被调用到该函数做更新处理
merge(buffer1: MutableAggregationBuffer, buffer2: Row): Unit	合并函数。各个partition更新完所有数据后，通过merge函数合并
evaluate(buffer: Row): Any	最终的求值函数，输出为dataType类型

基本上就是按照上述的过程来实现功能。定义输入输出，定义中间缓存的数据结构，定义初始化，更新，合并，最后求值。
来看一个实现整型求和函数的代码示例：

import java.util.ArrayList

import org.apache.spark.sql.expressions._
import org.apache.spark.sql.types._
import org.apache.spark.sql._

import org.apache.spark.TaskContext

class UDAF_Sum extends UserDefinedAggregateFunction {

  //1.定义输入数据的类型
  override def inputSchema = StructType(Array(
    StructField("input", LongType)
  ))

  //2.定义中间数据的类型
  override def bufferSchema = StructType(Array(
    //temp_sum很明显是保存部分和
    StructField("temp_sum", LongType),
    //ele_array这里是用来记录当前处理了哪些元素，用来帮助观察整个计算过程。
    StructField("ele_array", DataTypes.createArrayType(DataTypes.LongType))
  ))

  //3.定义返回结果的类型
  override def dataType: DataType = LongType

  //4.输出的确定性指示，一般都是true
  override def deterministic = true

  //5.定义初始化函数，就是些初始值的处理。
  override def initialize(buffer: MutableAggregationBuffer): Unit = {
    //初始化，因为是求和的，所以和的初值显然为0
    buffer(0) = 0L
    //记录当前已处理的所有输入的数
    buffer(1) = new ArrayList[Long]()
  }

  //6.定义update函数，对于一个partition来说，里面的每条数据都会经过update
  override def update(buffer: MutableAggregationBuffer, input: Row): Unit = {
    val par_id = TaskContext.getPartitionId()
    println(s"------partition $par_id update begin------")
    println(s"partition $par_id update input: $input")

    buffer(0) = buffer.getLong(0) + input.getLong(0)
    val tmpList =  new ArrayList(buffer.getList[Long](1))
    tmpList.add(input.getLong(0))
    buffer(1) = tmpList
    
    println(s"partition $par_id update output: buffer = $buffer")
    println(s"-----partition $par_id update end-----------")
  }

  //7.定义merge函数，处理所有partition的全局聚合
  override def merge(buffer1: MutableAggregationBuffer, buffer2: Row): Unit = {
    //每个分区计算的结果进行相加
    val par_id = TaskContext.getPartitionId()
    println(s"------partition $par_id merge begin------")
    println(s"partition $par_id merge input: buffer1 = $buffer1")
    println(s"partition $par_id merge input: buffer2 = $buffer2")
    
    buffer1(0) = buffer1.getLong(0) + buffer2.getLong(0)
    val tmpList = new ArrayList(buffer1.getList[Long](1))
    tmpList.addAll( buffer2.getList[Long](1))
    buffer1(1) = tmpList
    
    println(s"partition $par_id merge output: buffer1 = $buffer1")
    println(s"-----partition $par_id merge end-----------")
  }

  //8.定义evaluate函数，返回最终的结果
  override def evaluate(buffer: Row): Any = {
    println("evaluate: " + buffer)
    buffer.getLong(0)
  }
}

在spark shell里面，可以用:paste命令把整段代码一次性复制进去，我们来运行一下看看结果：

[root@ecs-930c spark-2.1.0-bin-hadoop2.7]# bin/spark-shell --master local[2]
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
19/07/21 16:55:47 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
19/07/21 16:55:51 WARN ObjectStore: Failed to get database global_temp, returning NoSuchObjectException
Spark context Web UI available at http://192.168.1.153:4040
Spark context available as 'sc' (master = local[2], app id = local-1563699348275).
Spark session available as 'spark'.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 2.1.0
      /_/
         
Using Scala version 2.11.8 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_201)
Type in expressions to have them evaluated.
Type :help for more information.

scala> :paste
// Entering paste mode (ctrl-D to finish)

///////////////////////////////////////////////
  上面的代码直接粘贴，就不重复了，粘贴后按Ctrl-D结束
///////////////////////////////////////////////

// Exiting paste mode, now interpreting.

import java.util.ArrayList
import org.apache.spark.sql.expressions._
import org.apache.spark.sql.types._
import org.apache.spark.sql._
import org.apache.spark.TaskContext
defined class UDAF_Sum

//实例化一个函数对象出来
scala> val udaf_sum = new UDAF_Sum
udaf_sum: UDAF_Sum = UDAF_Sum@2caa9666

//生成测试数据的dataset，数字0到10，字段名"id"
scala> val df=Range(0,10).toSeq.toDF("id")
df: org.apache.spark.sql.DataFrame = [id: int]

//这里我把每个数字在哪个partition打印出来了。
//这里能看到是2个partition，partition 0里面包含了0,1,2,3,4，partition 1里面包含了5,6,7,8,9
scala> df.foreachPartition(par => par.foreach(x=>println("partition "+TaskContext.getPartitionId.toString+":"+x)))
partition 0:[0]
partition 1:[5]
partition 0:[1]
partition 1:[6]
partition 0:[2]
partition 1:[7]
partition 0:[3]
partition 1:[8]
partition 0:[4]
partition 1:[9]

//现在来调用我们创建的UDAF函数，注册的名字是udaf_sum，传入的列是id
scala> df.select(udaf_sum($"id")).show
------partition 0 update begin------
------partition 1 update begin------
partition 0 update input: [0]
partition 1 update input: [5]
partition 1 update output: buffer = [5,WrappedArray(5)]
partition 0 update output: buffer = [0,WrappedArray(0)]
-----partition 1 update end-----------
-----partition 0 update end-----------
------partition 1 update begin------
------partition 0 update begin------
partition 1 update input: [6]
partition 0 update input: [1]
partition 1 update output: buffer = [11,WrappedArray(5, 6)]
-----partition 1 update end-----------
------partition 1 update begin------
partition 1 update input: [7]
partition 0 update output: buffer = [1,WrappedArray(0, 1)]
-----partition 0 update end-----------
partition 1 update output: buffer = [18,WrappedArray(5, 6, 7)]
-----partition 1 update end-----------
------partition 0 update begin------
------partition 1 update begin------
partition 0 update input: [2]
partition 1 update input: [8]
partition 0 update output: buffer = [3,WrappedArray(0, 1, 2)]
partition 1 update output: buffer = [26,WrappedArray(5, 6, 7, 8)]
-----partition 0 update end-----------
-----partition 1 update end-----------
------partition 0 update begin------
partition 0 update input: [3]
------partition 1 update begin------
partition 1 update input: [9]
partition 0 update output: buffer = [6,WrappedArray(0, 1, 2, 3)]
-----partition 0 update end-----------
partition 1 update output: buffer = [35,WrappedArray(5, 6, 7, 8, 9)]      <-----到这里为止，partition 1更新完成，总共5条记录
------partition 0 update begin------
-----partition 1 update end-----------
partition 0 update input: [4]
partition 0 update output: buffer = [10,WrappedArray(0, 1, 2, 3, 4)]      <-----到这里为止，partition 0更新完成，总共也是5条记录
-----partition 0 update end-----------
------partition 0 merge begin------                                       <------这里开始进入merge阶段
partition 0 merge input: buffer1 = [0,WrappedArray()]
partition 0 merge input: buffer2 = [10,WrappedArray(0, 1, 2, 3, 4)]
partition 0 merge output: buffer1 = [10,WrappedArray(0, 1, 2, 3, 4)]
-----partition 0 merge end-----------
------partition 0 merge begin------
partition 0 merge input: buffer1 = [10,WrappedArray(0, 1, 2, 3, 4)]
partition 0 merge input: buffer2 = [35,WrappedArray(5, 6, 7, 8, 9)]
partition 0 merge output: buffer1 = [45,WrappedArray(0, 1, 2, 3, 4, 5, 6, 7, 8, 9)]    <------ merge完成，总和是45，总共10个元素
-----partition 0 merge end-----------
evaluate: [45,WrappedArray(0, 1, 2, 3, 4, 5, 6, 7, 8, 9)]
+------------+
|udaf_sum(id)|
+------------+
|          45|
+------------+

配个图看清楚一点：

嗯，这个小系列拖拖拉拉的，总算是完结啦~ 你还想知道啥？给我留言吧

喜欢这些内容的话，可以关注下公众号哈~

ZooKeeper学习专栏（三）：ACL权限控制与Zab协议核心原理
文章目录前言一、ACL访问控制列表二、原子广播协议（Zab协议）总结前言在分布式系统中，安全访问控制和一致性保证是两大核心需求。本文将深入探讨Zookeeper的ACL权限控制机制和Zab协议的核心原理，帮助读者理解Zookeeper如何保障数据安全性和系统一致性。一、ACL访问控制列表ACL(AccessControlLists)是Zookeeper保护ZNode数据安全的关键机制，它定义了哪些
计算机毕业设计Python+uniapp校园兼职系统小程序(小程序+源码+LW) Python毕设源码程序高学长 python 课程设计 uni-app
计算机毕业设计Python+uniapp校园兼职系统小程序(小程序+源码+LW)该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程项目运行环境配置：Pychram社区版+python3.7.7+Mysql5.7+uni+HBuilderX+listpip+Navicat11+Django+nodejs。项目技术：django+python+UNI等等组成，B/S模式+pychram管理
Python-Django毕业设计养老院老人日常生活管理系统（程序+Lw) Python计算机毕设程序源码_ python django 课程设计
该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程项目运行环境配置：Pychram社区版+python3.7.7+Mysql5.7+HBuilderX+listpip+Navicat11+Django+nodejs。项目技术：django+python+Vue等等组成，B/S模式+pychram管理等等。环境需要1.运行环境：最好是python3.7.7，我们在这个版本上开发的。其他版
绝佳组合 SpringBoot + Lua + Redis = 王炸！
Java精选面试题（微信小程序）：5000+道面试题和选择题，真实面经，简历模版，包含Java基础、并发、JVM、线程、MQ系列、Redis、Spring系列、Elasticsearch、Docker、K8s、Flink、Spark、架构设计、大厂真题等，在线随时刷题！前言曾经有一位魔术师，他擅长将SpringBoot和Redis这两个强大的工具结合成一种令人惊叹的组合。他的魔法武器是Redis的
mysql 清除事物_mysql事物处理
mysql事物主要用于处理操作量大，复杂度高的数据。比如说，在人员管理系统中，你删除一个人员，你既要删除人员的基本资料，也要删除和该人员相关的信息，如信箱，文章等。这样，这些数据库操作语句就构成一个事物。注意一下几点：在MySQL中只有使用了Innodb数据库引擎的数据库或表才支持事务。事物处理可以用来维护数据库的完整性，保证成批的sql语句要么全部执行，要么全部不执行。事物用来管理insert，
智慧水库信息化系统建设产品需求文档V2.0 小赖同学啊 test Technology Precious 物联网
智慧水库信息化系统建设产品需求文档1.引言1.1文档目的本文档旨在明确智慧水库信息化系统的建设需求，为系统设计、开发和实施提供全面依据，确保系统功能满足水库管理业务需求，提升水库管理的智能化水平和决策效率。1.2背景介绍传统水库管理面临数据采集不及时、分析手段有限、决策依赖经验等问题，难以应对复杂多变的水文情势和日益增长的管理需求。随着物联网、大数据、人工智能等技术的发展，智慧水库建设成为必然趋势
MySQL(149)如何进行数据清洗？辞暮尔尔-烟火年年 MySQL mysql python 数据库
数据清洗在数据处理和分析过程中至关重要，确保数据质量和一致性。以下是一个详细的指南，展示如何使用Java进行数据清洗，包括处理缺失值、重复值、异常值、数据类型转换以及标准化等步骤。一、准备工作确保安装有Java开发环境（JDK）和Maven或Gradle等依赖管理工具。我们将使用ApacheCommonsCSV库来处理CSV文件，并使用Java标准库进行数据清洗操作。二、加载数据首先，我们加载数据
MySQL(147)如何进行跨平台迁移？辞暮尔尔-烟火年年 mysql adb 数据库
跨平台迁移涉及将数据库从一个操作系统或平台迁移到另一个，例如从Windows迁移到Linux，或从不同架构的硬件之间进行迁移。这个过程比同平台迁移更加复杂，需要特别注意数据库的兼容性、数据编码、文件路径等问题。以下是一步一步的指导，详细介绍如何进行跨平台数据库迁移。一、准备工作1.确认源与目标平台源平台：当前运行数据库的操作系统和硬件平台。目标平台：新的操作系统和硬件平台。2.安装数据库软件在目标
MySQL(141)如何处理重复数据问题？辞暮尔尔-烟火年年 MySQL mysql 数据库
处理重复数据问题是数据管理中的一个常见挑战。重复数据会影响数据库的性能、占用资源，并且可能导致数据分析结果的偏差。以下是处理重复数据问题的详细步骤以及结合代码的示例。一、识别重复数据首先，需要识别数据库中的重复数据。可以使用SQL查询来查找重复的数据。示例：假设我们有一个名为employees的表，其中包含以下字段：id、name和email。CREATETABLEemployees(idINTP
（详细！！）2024最新Neo4j详细使用指南熊猫发电机：miniqq207 neo4j neo4j
Neo4j详细使用指南一、介绍Neo4j是什么Neo4j是一个高性能的,NOSQL图形数据库，它将结构化数据存储在网络上而不是表中。它是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎，但是它将结构化数据存储在网络(从数学角度叫做图)上而不是表中。Neo4j也可以被看作是一个高性能的图引擎，该引擎具有成熟数据库的所有特性。程序员工作在一个面向对象的、灵活的网络结构下而不是严格、静态
9.20其二道左无人
做一家服务公司，为下面的公司提供一些事务性的管理、财务管理、风险管理的服务，粘住一个大圈子的HR，通过下面的公司做掉项目，为HR提供一个稳定的资源变现的渠道；做一家科技公司，提供线上的平台运营，大数据采集，以及基于这个基础上的卖货、信贷等服务做一家连锁企业，每一家门店都是独立的企业，提供招聘、引流以及终端服务所以外部通过众筹绑定大批量的HR，就会有稳定的订单，通过服务公司提供服务，通过终端门店保证
mysql事物详解
前言：事物是什么？作为一个java程序员，也许我们仅仅只是停留在会使用的程度上，会通过在类上或者方法上使用@Transactional注解的方式来使用事物，但是背后的原理，为什么使用这个注解就能使事物生效可能并不是很清楚。下面本文详细一一介绍事物是什么，事物的特性，怎么使用等等。1.事物是什么所谓事物，在我的理解中就是一系列操作的一个集合，一旦其中一个操作失败，那么整个操作集合必须全部失败，回滚到
只靠可视化大屏，做不了数字化，数据总监总结3点，你做到了几个大数据的那些事
企业数字化是很多企业热衷的话题。本文的数字化指各行业头的头部企业的端到端数字化解决方案，常见部署于华为专有云、阿里私有云、亚马逊云，项目金额一般百万起步，上不封顶。很多企业投人、投钱数字化，都希望有个酷炫的数据大脑，政府、合作伙伴来参观时，用酷炫的数据大脑让来宾们啧啧称赞。热闹散去后，企业内部的各部门，天天围着数据挖宝，大数据快告诉我，下个月能卖多少，哪几个渠道卖得不好，哪条生产线有问题，哪些货压
基于 MySQL 8.0.40 MGR 与 ProxySQL 的高可用集群部署实践 derek2026 部署实践 mysql 数据库
构建高可用MySQL8.0.40集群：MGR+ProxySQL实战指南一、部署架构图流量路径：应用→ProxySQL（DNS解析ProxySQLIP）→MySQLMGR集群二、环境准备1.系统要求**操作系统:**CentOS7.x服务器配置3台节点（建议最小配置：4核CPU/8GB内存/100GB磁盘）网络互通（关闭防火墙或开放端口：3306,33081,6032,6033节点规划节点1:192
sql优化之延迟关联 ycllycll mysql sql 数据库
具体看这个文章，写得非常不错：mysql优化：覆盖索引（延迟关联）-一枝花算不算浪漫-博客园看完后思考：1.业务相关的表规范上都要设置递增的主键字段，便于后续优化2.很多时候sql查询的性能瓶颈基本都在io上而不是cpu，所以才会这么优化，尽量在sql的where条件后都走主键，不要让sql走回表操作3.博客中改造的sql比较适合大表跟小表的关联情形
hive底层原理 sql执行过程_Hive原理总结（完整版）
目录课程大纲(HIVE增强)31.Hive基本概念41.1Hive简介41.1.1什么是Hive41.1.2为什么使用Hive41.1.3Hive的特点41.2Hive架构51.2.1架构图51.2.2基本组成51.2.3各组件的基本功能51.3Hive与Hadoop的关系61.4Hive与传统数据库对比61.5Hive的数据存储62.Hive基本操作72.1DDL操作72.1.1创建表72.1.
Transformers基础组件—Datasets 小蒋的学习笔记 python 人工智能机器学习
目录datasets基本使用加载在线数据集加载数据集合集中的某一项任务按照数据集划分进行加载查看数据集数据集划分数据选取与过滤数据映射保存与加载加载本地数据集直接加载文件作为数据集加载文件夹内全部文件作为数据集通过预先加载的其他格式转换加载数据集通过自定义加载脚本加载数据集DatasetwithDataCollatordatasets基本使用fromdatasetsimport*加载在线数据集da
《MyBatis的运行原理》
一.MyBatis是什么？MyBatis是⼀个开源、轻量级的数据持久化框架，是JDBC和Hibernate的替代⽅案，MyBatis内部封装了JDBC，简化了加载驱动、创建连接、创建statement等繁杂的过程，开发者只需要关注SQL语句本身。二.MyBatis执行流程1.MyBatis与JDBC想要学习了解MyBatis，我们首先需要从JDBC入手并立足于JDBC，才能深入的理解MyBatis
hive的sql优化思路-明白底层运行逻辑 ycllycll hive sql hadoop
一、首先要明白底层map、shuffle、reduce的顺序之中服务器hdfs数据文件在内存与存储之中是怎么演变的，因为hive的性能瓶颈基本在内存，具体参考以下他人优秀文章：1.HiveSQL底层执行过程详细剖析2.HiveJOIN性能调优二是要明白hive对应的sql它底层的mapreduce的过程中sql字段的执行顺序，来理解map的key、value会填充什么值，才能深刻理解怎么一步一步的
【舰艇控制】基于matlab具有不确定性和扰动的水面舰艇的自适应有限时间平滑非线性滑模跟踪控制【含Matlab源码 13748期】复现含文献海神之光 Matlab路径规划（进阶版）matlab
欢迎来到海神之光博客之家✅博主简介：热爱科研的Matlab仿真开发者，修心和技术同步精进；个人主页：海神之光代码获取方式：海神之光Matlab王者学习之路—代码获取方式Matlab毕设：Matlab毕设系列–说明期刊发表：发表北大核心，SCI不是梦！！⛳️座右铭：行百里者，半于九十。更多Matlab路径规划仿真内容点击①Matlab路径规划（进阶版）②付费专栏Matlab路径规划（初级版）⛳️关注
springboot-mybatis-MySQL-集成张_皮皮 springboot mybatis maven springboot mybatis idea
这也是我第一次搭建springboot-mybatis的项目环境，记录一下。我是用IntelliJIDEA，你可以创建maven项目，也可以直接创建spring项目，最终的项目结构如下，这里说明下，resources下面的mappers里面是存放mybatis的SQL映射文件，static下面存放前端静态资源文件，如js,css等，template下存放前端模板文件，本项目使用的freemarke
算法竞赛备考冲刺必刷题（C++） | 洛谷 P1024 一元三次方程求解热爱编程的通信人 c++算法开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：
框架技术SpringBoot ---SpringBoot集成Mybatis 码农C风 JAVAweb java spring java-ee 数据库
SpringBoot框架内容管理ORM操作MySQLSpringBoot集成Mybaits步骤第一种方式：@Mapper注解第二种方式：@MapperScandao和xml文件分开---yml中配置事务txSpringBoot使用事务业务方法加入@Transactional；同时主启动类加上@TransactionManagerSpringBoot框架整合持久层框架，Mybatis前面已经分享了S
Python Django 数据库索引优化 Python编程之道 python django 数据库 ai
PythonDjango数据库索引优化关键词：DjangoORM、数据库索引、查询优化、性能调优、PostgreSQL、MySQL、执行计划摘要：本文深入探讨Django框架中的数据库索引优化策略。我们将从数据库索引的基本原理出发，详细分析DjangoORM如何生成SQL查询，以及如何通过合理的索引设计提升查询性能。文章包含索引类型选择、复合索引优化、Django模型字段索引配置、查询集优化技巧等
你多久没有认真读一本书了我是巴卡
我九岁博览群书，二十岁达到顶峰。我现在都是看社会人文类的书，例如《知音》《故事会》……往前推三百年，往后推三百年，总共六百年没有人超过我。——凤姐引用凤姐的话，没有嘲讽的意思。现在的人，包括我自己，除了刷手机，恐怕连杂志都很少读了，更别说认真读一本书了。1、大数据下，人越读越窄，越读越傻前段时间，埃航波音737MAX8出事，就在网上跟着读了几篇报道。随后的一段时间，基本打开APP都是关于波音和73
注意力才是我们最值钱的东西心守平凡_王慧超
4月10日晚，罗永浩携手国民神车哈弗品牌完成了第二场带货直播。此次直播共售出11357张2777元的优惠券，预估销售额15.65亿元，创造了汽车直播带货的新纪录。流量时代真的已经来临了，随着互联网的高速发展，越来越多的网络用户增加，我们不得不承认，我们已经进入了一个网络时代，进入了一个流量大数据时代。我们所有想获得的东西都可以通过网络获取，资料、信息、购物，网络正在改变人们的生活方式，正在成为人们
ZooKeeper学习专栏（一）：分布式协调的核心基石快乐肚皮 Zookeeper 分布式 zookeeper 学习
文章目录前言一、ZooKeeper是什么？二、为什么需要分布式协调服务？三、核心数据模型：ZNode3.1树形命名空间：分布式世界的文件系统3.2ZNode类型3.3ZNode数据结构：数据+元数据的完美融合Stat核心字段解析3.4ZNode操作3.5ZNode设计哲学3.6实战代码总结前言在分布式系统蓬勃发展的时代，我们享受着高并发、高可用的服务，却鲜少思考背后的协调艺术。当数百个服务节点部署
机器学习专栏（62）：手把手实现工业级ResNet-34及调优全攻略
目录一、ResNet革命性突破解析1.1残差学习核心思想1.2ResNet-34结构详解二、工业级Keras实现详解2.1数据预处理流水线2.2完整模型实现三、模型训练调优策略3.1学习率动态调整3.2混合精度训练四、性能优化技巧4.1分布式训练配置4.2TensorRT推理加速五、实战应用案例5.1医疗影像分类5.2工业质检系统六、模型可视化分析6.1特征热力图6.2参数量分析七、常见问题解决方
Atlas 读写分离子牙
1.AtlasAtlas是由Qihoo360,Web平台部基础架构团队开发维护的一个基于MySQL协议的数据中间层项目。它是在mysql-proxy0.8.2版本的基础上，对其进行了优化，增加了一些新的功能特性。360内部使用Atlas运行的mysql业务，每天承载的读写请求数达几十亿条。下载地址https://github.com/Qihoo360/Atlas/releases注意：1、Atla
六、深度剖析 Hadoop 分布式文件系统（HDFS）的数据存储机制与读写流程
深度剖析Hadoop分布式文件系统（HDFS）的数据存储机制与读写流程在当今大数据领域当中，Hadoop分布式文件系统（HDFS）作为极为关键的核心组件之一，为海量规模的数据的存储以及处理构筑起了坚实无比的根基。本文将会对HDFS的数据存储机制以及读写流程展开全面且深入的探究，通过将原理与实际的实例紧密结合的方式，助力广大读者更加全面地理解HDFS的工作原理以及其具体的应用场景。一、HDFS概述H
ViewController添加button按钮解析。（翻译）张亚雄 c
<div class="it610-blog-content-contain" style="font-size: 14px"></div>// ViewController.m // Reservation software // // Created by 张亚雄 on 15/6/2.
mongoDB 简单的增删改查开窍的石头 mongodb
在上一篇文章中我们已经讲了mongodb怎么安装和数据库/表的创建。在这里我们讲mongoDB的数据库操作在mongo中对于不存在的表当你用db.表名他会自动统计下边用到的user是表明，db代表的是数据库添加(insert):
log4j配置 0624chenhong log4j
1) 新建java项目 2) 导入jar包，项目右击，properties—java build path—libraries—Add External jar，加入log4j.jar包。 3) 新建一个类com.hand.Log4jTest package com.hand; import org.apache.log4j.Logger; public class
多点触摸(图片缩放为例) 不懂事的小屁孩多点触摸
多点触摸的事件跟单点是大同小异的，上个图片缩放的代码，供大家参考一下 import android.app.Activity; import android.os.Bundle; import android.view.MotionEvent; import android.view.View; import android.view.View.OnTouchListener
有关浏览器窗口宽度高度几个值的解析换个号韩国红果果 JavaScript html
1 元素的 offsetWidth 包括border padding content 整体的宽度。 clientWidth 只包括内容区 padding 不包括border。 clientLeft = offsetWidth -clientWidth 即这个元素border的值 offsetLeft 若无已定位的包裹元素
数据库产品巡礼：IBM DB2概览蓝儿唯美 db2
IBM DB2是一个支持了NoSQL功能的关系数据库管理系统，其包含了对XML，图像存储和Java脚本对象表示（JSON）的支持。DB2可被各种类型的企业使用，它提供了一个数据平台，同时支持事务和分析操作，通过提供持续的数据流来保持事务工作流和分析操作的高效性。 DB2支持的操作系统 DB2可应用于以下三个主要的平台: 工作站，DB2可在Linus、Unix、Windo
java笔记5 a-john java
控制执行流程： 1，true和false 利用条件表达式的真或假来决定执行路径。例：（a==b）。它利用条件操作符“==”来判断a值是否等于b值，返回true或false。java不允许我们将一个数字作为布尔值使用，虽然这在C和C++里是允许的。如果想在布尔测试中使用一个非布尔值，那么首先必须用一个条件表达式将其转化成布尔值，例如if(a!=0)。 2，if-els
Web开发常用手册汇总 aijuans PHP
一门技术，如果没有好的参考手册指导,很难普及大众。这其实就是为什么很多技术，非常好，却得不到普遍运用的原因。正如我们学习一门技术，过程大概是这个样子： ①我们日常工作中，遇到了问题，困难。寻找解决方案，即寻找新的技术； ②为什么要学习这门技术？这门技术是不是很好的解决了我们遇到的难题，困惑。这个问题，非常重要，我们不是为了学习技术而学习技术，而是为了更好的处理我们遇到的问题，才需要学习新的
今天帮助人解决的一个sql问题 asialee sql
今天有个人问了一个问题，如下： type AD value A
意图对象传递数据百合不是茶 android 意图Intent Bundle对象数据的传递
学习意图将数据传递给目标活动; 初学者需要好好研究的 1,将下面的代码添加到main.xml中 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http:/
oracle查询锁表解锁语句 bijian1013 oracle object session kill
一.查询锁定的表如下语句，都可以查询锁定的表语句一： select a.sid, a.serial#, p.spid, c.object_name, b.session_id, b.oracle_username, b.os_user_name from v$process p, v$s
mac osx 10.10 下安装 mysql 5.6 二进制文件［tar.gz］征客丶 mysql osx
场景：在 mac osx 10.10 下安装 mysql 5.6 的二进制文件。环境：mac osx 10.10、mysql 5.6 的二进制文件步骤：[所有目录请从根“/”目录开始取，以免层级弄错导致找不到目录] 1、下载 mysql 5.6 的二进制文件，下载目录下面称之为 mysql5.6SourceDir；下载地址：http://dev.mysql.com/downl
分布式系统与框架 bit1129 分布式
RPC框架 Dubbo 什么是Dubbo Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含: 远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。集群容错: 提供基于接
那些令人蛋痛的专业术语白糖_ spring Web SSO IOC
spring 【控制反转(IOC)/依赖注入(DI)】：由容器控制程序之间的关系，而非传统实现中，由程序代码直接操控。这也就是所谓“控制反转”的概念所在：控制权由应用代码中转到了外部容器，控制权的转移，是所谓反转。简单的说：对象的创建又容器(比如spring容器)来执行，程序里不直接new对象。 Web 【单点登录(SSO)】：SSO的定义是在多个应用系统中，用户
《给大忙人看的java8》摘抄 braveCS java8
函数式接口：只包含一个抽象方法的接口 lambda表达式：是一段可以传递的代码你最好将一个lambda表达式想象成一个函数，而不是一个对象，并记住它可以被转换为一个函数式接口。事实上，函数式接口的转换是你在Java中使用lambda表达式能做的唯一一件事。方法引用：又是要传递给其他代码的操作已经有实现的方法了，这时可以使
编程之美-计算字符串的相似度 bylijinnan java 算法编程之美
public class StringDistance { /** * 编程之美计算字符串的相似度 * 我们定义一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为： * 1.修改一个字符（如把“a”替换为“b”）; * 2.增加一个字符（如把“abdd”变为“aebdd”）; * 3.删除一个字符（如把“travelling”变为“trav
上传、下载压缩图片 chengxuyuancsdn 下载
/** * * @param uploadImage --本地路径(tomacat路径) * @param serverDir --服务器路径 * @param imageType --文件或图片类型 * 此方法可以上传文件或图片.txt,.jpg,.gif等 */ public void upload(String uploadImage,Str
bellman-ford(贝尔曼-福特)算法 comsci 算法 F#
Bellman-Ford算法(根据发明者 Richard Bellman 和 Lester Ford 命名)是求解单源最短路径问题的一种算法。单源点的最短路径问题是指：给定一个加权有向图G和源点s，对于图G中的任意一点v，求从s到v的最短路径。有时候这种算法也被称为 Moore-Bellman-Ford 算法，因为 Edward F. Moore zu 也为这个算法的发展做出了贡献。与迪科
oracle ASM中ASM_POWER_LIMIT参数 daizj ASM oracle ASM_POWER_LIMIT 磁盘平衡
ASM_POWER_LIMIT 该初始化参数用于指定ASM例程平衡磁盘所用的最大权值，其数值范围为0~11，默认值为1。该初始化参数是动态参数，可以使用ALTER SESSION或ALTER SYSTEM命令进行修改。示例如下： SQL>ALTER SESSION SET Asm_power_limit=2;
高级排序:快速排序 dieslrae 快速排序
public void quickSort(int[] array){ this.quickSort(array, 0, array.length - 1); } public void quickSort(int[] array,int left,int right){ if(right - left <= 0
C语言学习六指针_何谓变量的地址一个指针变量到底占几个字节 dcj3sjt126com C语言
# include <stdio.h> int main(void) { /* 1、一个变量的地址只用第一个字节表示 2、虽然他只使用了第一个字节表示，但是他本身指针变量类型就可以确定出他指向的指针变量占几个字节了 3、他都只存了第一个字节地址，为什么只需要存一个字节的地址，却占了4个字节，虽然只有一个字节，但是这些字节比较多，所以编号就比较大，
phpize使用方法 dcj3sjt126com PHP
phpize是用来扩展php扩展模块的，通过phpize可以建立php的外挂模块,下面介绍一个它的使用方法,需要的朋友可以参考下安装（fastcgi模式）的时候，常常有这样一句命令：代码如下: /usr/local/webserver/php/bin/phpize 一、phpize是干嘛的？ phpize是什么？ phpize是用来扩展php扩展模块的，通过phpi
Java虚拟机学习 - 对象引用强度 shuizhaosi888 JAVA虚拟机
本文原文链接：http://blog.csdn.net/java2000_wl/article/details/8090276 转载请注明出处！无论是通过计数算法判断对象的引用数量，还是通过根搜索算法判断对象引用链是否可达，判定对象是否存活都与“引用”相关。引用主要分为：强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Wea
.NET Framework 3.5 Service Pack 1（完整软件包）下载地址 happyqing .net 下载 framework
Microsoft .NET Framework 3.5 Service Pack 1（完整软件包） http://www.microsoft.com/zh-cn/download/details.aspx?id=25150 Microsoft .NET Framework 3.5 Service Pack 1 是一个累积更新，包含很多基于 .NET Framewo
JAVA定时器的使用 jingjing0907 java timer 线程定时器
1、在应用开发中，经常需要一些周期性的操作，比如每5分钟执行某一操作等。对于这样的操作最方便、高效的实现方式就是使用java.util.Timer工具类。 privatejava.util.Timer timer; timer = newTimer(true); timer.schedule( newjava.util.TimerTask() { public void run()
Webbench 流浪鱼 webbench
首页下载地址 http://home.tiscali.cz/~cz210552/webbench.html Webbench是知名的网站压力测试工具，它是由Lionbridge公司（http://www.lionbridge.com）开发。 Webbench能测试处在相同硬件上，不同服务的性能以及不同硬件上同一个服务的运行状况。webbench的标准测试可以向我们展示服务器的两项内容：每秒钟相
第11章动画效果（中） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
windows下制作bat启动脚本. sanyecao2314 java cmd 脚本 bat
java -classpath C:\dwjj\commons-dbcp.jar;C:\dwjj\commons-pool.jar;C:\dwjj\log4j-1.2.16.jar;C:\dwjj\poi-3.9-20121203.jar;C:\dwjj\sqljdbc4.jar;C:\dwjj\voucherimp.jar com.citsamex.core.startup.MainStart
Java进行RSA加解密的例子 tomcat_oracle java
加密是保证数据安全的手段之一。加密是将纯文本数据转换为难以理解的密文；解密是将密文转换回纯文本。　　数据的加解密属于密码学的范畴。通常，加密和解密都需要使用一些秘密信息，这些秘密信息叫做密钥，将纯文本转为密文或者转回的时候都要用到这些密钥。　　对称加密指的是发送者和接收者共用同一个密钥的加解密方法。　　非对称加密(又称公钥加密)指的是需要一个私有密钥一个公开密钥，两个不同的密钥的
Android_ViewStub 阿尔萨斯 ViewStub
public final class ViewStub extends View java.lang.Object android.view.View android.view.ViewStub 类摘要： ViewStub 是一个隐藏的，不占用内存空间的视图对象，它可以在运行时延迟加载布局资源文件。当 ViewSt