Sisi525693

Spark SQL函数定义

窗口函数

SQL函数分类

Spark原生自定义UDF函数

Pandas的UDF函数

Apache Arrow框架基本介绍

基于Arrow完成Pandas DataFrame和Spark DataFrame互转

基于Pandas完成UDF函数

自定义UDF函数

自定义UDAF函数

窗口函数

分析函数 over(partition by xxx order by xxx [asc|desc] [rows between xxx and xxx])

分析函数可以大致分成如下3类：
1- 第一类: 聚合函数 sum() count() avg() max() min()
2- 第二类: row_number() rank() dense_rank() ntile()
3- 第三类: first_value() last_value() lead() lag()

在Spark SQL中使用窗口函数案例：

需求是找出每个cookie中pv排在前3位的数据，也就是分组取TOPN问题

from pyspark import SparkConf, SparkContext
import os
from pyspark.sql import SparkSession
import pyspark.sql.functions as F
from pyspark.sql import Window as win

# 绑定指定的Python解释器
os.environ['SPARK_HOME'] = '/export/server/spark'
os.environ['PYSPARK_PYTHON'] = '/root/anaconda3/bin/python3'
os.environ['PYSPARK_DRIVER_PYTHON'] = '/root/anaconda3/bin/python3'

if __name__ == '__main__':
    # 1- 创建SparkSession对象
    spark = SparkSession.builder\
        .config('spark.sql.shuffle.partitions',1)\
        .appName('sparksql_win_function')\
        .master('local[*]')\
        .getOrCreate()

    # 2- 数据输入
    init_df = spark.read.csv(
        path='file:///export/data/gz16_pyspark/02_spark_sql/data/cookie.txt',
        schema='cookie string,datestr string,pv int',
        sep=',',
        encoding='UTF-8'
    )

    init_df.createTempView('win_data')
    init_df.show()
    init_df.printSchema()

    # 3- 数据处理
    # SQL
    spark.sql("""
        select 
            cookie,datestr,pv
        from (
            select
                cookie,datestr,pv,
                row_number() over (partition by cookie order by pv desc) as rn
            from win_data
        ) tmp where rn<=3
    """).show()

    # DSL
    """
        select：注意点，结果中需要看到哪几个字段，就要明确写出来
    """
    init_df.select(
        "cookie","datestr","pv",
        F.row_number().over(win.partitionBy('cookie').orderBy(F.desc('pv'))).alias('rn')
    ).where('rn<=3').select("cookie","datestr","pv").show()


    # 4- 数据输出
    # 5- 释放资源
    spark.stop()

SQL函数分类

SQL函数，主要分为以下三大类：

UDF函数：用户自定义函数
- 特点：一对一，输入一个得到一个
- 例如：split() substr()
UDAF函数：用户自定义聚合函数
- 特点：多对一，输入多个得到一个
- 例如：sum() avg() count() min()
UDTF函数：用户自定义表数据生成函数
- 特点：一对多，输入一个得到多个
- 例如：explode()

在SQL中提供的所有的内置函数，都是属于以上三类中某一类函数

思考：有这么多的内置函数，为啥还需要自定义函数呢?

为了扩充函数功能。在实际使用中，并不能保证所有的操作函数都已经提前的内置好了。很多基于业务处理的功能，其实并没有提供对应的函数，提供的函数更多是以公共功能函数。此时需要进行自定义，来扩充新的功能函数

1- SparkSQL原生的时候，Python只能开发UDF函数
2- SparkSQL借助其他第三方组件，Python可以开发UDF、UDAF函数

在Spark SQL中，针对Python语言，对于自定义函数，原生支持的并不是特别好。目前原生仅支持自定义UDF函数，而无法自定义UDAF函数和UDTF函数。

在1.6版本后，Java 和scala语言支持自定义UDAF函数，但Python并不支持。

Spark SQL原生存在的问题：大量的序列化和反序列

虽然Python支持自定义UDF函数，但是其效率并不是特别的高效。因为在使用的时候，传递一行处理一行，返回一行的方式。这样会带来非常大的序列化的开销的问题，导致原生UDF函数效率不好

早期解决方案: 基于Java/Scala来编写自定义UDF函数，然后基于python调用即可

目前主要的解决方案: 引入Arrow框架，可以基于内存来完成数据传输工作，可以大大的降低了序列化的开销，提供传输的效率，解决原生的问题。同时还可以基于pandas的自定义函数，利用pandas的函数优势完成各种处理操作

Spark原生自定义UDF函数

自定义函数流程：

第一步: 在PySpark中创建一个Python的函数，在这个函数中书写自定义的功能逻辑代码即可

第二步: 将Python函数注册到Spark SQL中
   注册方式一: udf对象 = sparkSession.udf.register(参数1,参数2,参数3)
       参数1: 【UDF函数名称】，此名称用于后续在SQL中使用，可以任意取值，但是要符合名称的规范
       参数2: 【自定义的Python函数】，表示将哪个Python的函数注册为Spark SQL的函数
       参数3: 【UDF函数的返回值类型】。用于表示当前这个Python的函数返回的类型
       udf对象: 返回值对象，是一个UDF对象，可以在DSL中使用

       说明: 如果通过方式一来注册函数, 【可以用在SQL和DSL】

   注册方式二: udf对象 = F.udf(参数1,参数2)
       参数1: Python函数的名称，表示将那个Python的函数注册为Spark SQL的函数
       参数2: 返回值的类型。用于表示当前这个Python的函数返回的类型
       udf对象: 返回值对象，是一个UDF对象，可以在DSL中使用

       说明: 如果通过方式二来注册函数，【仅能用在DSL中】

   注册方式三: 语法糖写法 @F.udf(returnType=返回值类型) 放置到对应Python的函数上面
       说明: 实际是方式二的扩展。如果通过方式三来注册函数，【仅能用在DSL中】


第三步: 在Spark SQL的 DSL/ SQL 中进行使用即可

# 自定义一个函数，完成对数据统一添加一个后缀名的操作
from pyspark import SparkConf, SparkContext
import os
from pyspark.sql import SparkSession
import pyspark.sql.functions as F
# 绑定指定的Python解释器
from pyspark.sql.types import StringType

os.environ['SPARK_HOME'] = '/export/server/spark'
os.environ['PYSPARK_PYTHON'] = '/root/anaconda3/bin/python3'
os.environ['PYSPARK_DRIVER_PYTHON'] = '/root/anaconda3/bin/python3'

if __name__ == '__main__':
    print("请自定义一个函数，完成对数据统一添加一个后缀名的操作_itheima")

    # 1- 创建SparkSession对象
    spark = SparkSession.builder\
        .config("spark.sql.shuffle.partitions",1)\
        .appName('sparksql_udf_basetype')\
        .master('local[*]')\
        .getOrCreate()

    # 2- 数据输入
    init_df = spark.createDataFrame(
        data=[(1,'张三','广州'),(2,'李四','深圳')],
        schema='id int,name string,address string'
    )
    init_df.printSchema()
    init_df.show()
    init_df.createTempView('tmp')

    # 3- 数据处理
    # 3.1- 创建自定义的Python函数
    def add_suffix(address):
        return address + "_itheima"

    # 3.2- 将Python函数注册到Spark SQL
    # 注册方式一
    dsl_add_suffix = spark.udf.register('sql_add_suffix',add_suffix,StringType())

    # 3.3- 在SQL/DSL中调用
    # SQL
    spark.sql("""
        select
            id,name,address,
            sql_add_suffix(address) as new_address
        from tmp
    """).show()

    # DSL
    init_df.select(
        "id",
        "name",
        "address",
        dsl_add_suffix("address").alias("new_address")
    ).show()

    print("-"*30)
    # 在错误的地方调用了错误的函数。spark.udf.register参数1取的函数名只能在SQL中使用，不能在DSL中用。
    # spark.sql("""
    #     select
    #         id,name,address,
    #         dsl_add_suffix(address) as new_address
    #     from tmp
    # """).show()

    # 注册方式二：UDF返回值类型传值方式一
    dsl2_add_suffix = F.udf(add_suffix,StringType())

    # DSL
    init_df.select(
        "id",
        "name",
        "address",
        dsl2_add_suffix("address").alias("new_address")
    ).show()

    # 注册方式二：UDF返回值类型传值方式二
    dsl3_add_suffix = F.udf(add_suffix, 'string')

    # DSL
    init_df.select(
        "id",
        "name",
        "address",
        dsl3_add_suffix("address").alias("new_address")
    ).show()

    # 注册方式三：语法糖/装饰器
    @F.udf(returnType=StringType())
    def add_suffix_candy(address):
        return address + "_itheima"

    # DSL
    init_df.select(
        "id",
        "name",
        "address",
        add_suffix_candy("address").alias("new_address")
    ).show()

    # 4- 数据输出
    # 5- 释放资源
    spark.stop()

Pandas的UDF函数

Apache Arrow框架基本介绍

Apache Arrow是Apache旗下的一款顶级的项目。是一个跨平台的在内存中以列式存储的数据层，它的设计目标就是作为一个跨平台的数据层，来加快大数据分析项目的运行效率

Pandas 与 Spark SQL 进行交互的时候，建立在Apache Arrow上，带来低开销高性能的UDF函数

Arrow并不会自动使用，在某些情况下，需要配置以及在代码中需要进行小的更改才可以使用

如何安装? 三个节点建议都安装

检查服务器上是否有安装pyspark
pip list | grep pyspark 或者 conda list | grep pyspark

如果服务器已经安装了pyspark的库，那么仅需要执行以下内容，即可安装。例如在 node1安装
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pyspark[sql]

如果服务器中python环境中没有安装pyspark，建议执行以下操作，即可安装。例如在 node2 和 node3安装
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pyarrow==10.0.0

如何使用呢? 默认不会自动启动的, 一般建议手动配置

sparkSession.conf.set('spark.sql.execution.arrow.pyspark.enabled',True)

基于Arrow完成Pandas DataFrame和Spark DataFrame互转

使用场景：

1- Spark的DataFrame -> Pandas的DataFrame：当大数据处理到后期的时候，可能数据量会越来越少，这样可以考虑使用单机版的Pandas来做后续数据的分析

2- Pandas的DataFrame -> Spark的DataFrame：当数据量达到单机无法高效处理的时候，或者需要和其他大数据框架集成的时候，可以转成Spark中的DataFrame

总结：
Pandas的DataFrame -> Spark的DataFrame: spark.createDataFrame(data=pandas_df)
Spark的DataFrame -> Pandas的DataFrame: init_df.toPandas()

from pyspark import SparkConf, SparkContext
import os
from pyspark.sql import SparkSession

# 绑定指定的Python解释器
os.environ['SPARK_HOME'] = '/export/server/spark'
os.environ['PYSPARK_PYTHON'] = '/root/anaconda3/bin/python3'
os.environ['PYSPARK_DRIVER_PYTHON'] = '/root/anaconda3/bin/python3'

if __name__ == '__main__':
    print("基于Arrow完成Pandas DataFrame和Spark DataFrame互转")

    # 1- 创建SparkSession对象
    spark = SparkSession.builder\
        .appName('dataframe')\
        .master('local[*]')\
        .getOrCreate()

    # 手动开启Arrow框架
    spark.conf.set('spark.sql.execution.arrow.pyspark.enabled', True)

    # 2- 数据输入
    init_df = spark.createDataFrame(
        data=[(1, '张三', '广州'), (2, '李四', '深圳')],
        schema='id int,name string,address string'
    )

    # 3- 数据处理
    # sparksql dataframe -> pandas dataframe
    pd_df = init_df.toPandas()
    print(type(pd_df),pd_df)

    new_pd_df = pd_df[pd_df['id']==2]

    # pandas dataframe -> sparksql dataframe
    spark_df = spark.createDataFrame(data=new_pd_df)
    spark_df.show()
    spark_df.printSchema()

    # 4- 数据输出
    # 5- 释放资源
    spark.stop()

基于Pandas完成UDF函数

基于Pandas的UDF函数来转换为Spark SQL的UDF函数进行使用。底层是基于Arrow框架来完成数据传输，允许向量化（可以充分利用计算机CPU性能）操作。

Pandas的UDF函数其实本质上就是Python的函数，只不过函数的传入数据类型为Pandas的类型

基于Pandas的UDF可以使用自定义UDF函数和自定义UDAF函数

自定义函数流程：

第一步: 在PySpark中创建一个Python的函数，在这个函数中书写自定义的功能逻辑代码即可

第二步: 将Python函数包装成Spark SQL的函数
   注册方式一: udf对象 = spark.udf.register(参数1, 参数2)
       参数1: UDF函数名称。此名称用于后续在SQL中使用，可以任意取值，但是要符合名称的规范
       参数2: Python函数的名称。表示将哪个Python的函数注册为Spark SQL的函数
       使用: udf对象只能在DSL中使用。参数1指定的名称只能在SQL中使用
       注意: 如果编写的是UDAF函数，那么注册方式一需要配合注册方式三，一起使用

   注册方式二: udf对象 = F.pandas_udf(参数1, 参数2)
       参数1: 自定义的Python函数。表示将哪个Python的函数注册为Spark SQL的函数
       参数2: UDF函数的返回值类型。用于表示当前这个Python的函数返回的类型对应到Spark SQL的数据类型
       udf对象: 返回值对象，是一个UDF对象。仅能用在DSL中使用

   注册方式三: 语法糖写法 @F.pandas_udf(returnType=返回值Spark SQL的数据类型) 放置到对应Python的函数上面
       说明: 实际是方式一的扩展。仅能用在DSL中使用


第三步: 在Spark SQL的 DSL/ SQL 中进行使用即可

自定义UDF函数

自定义Python函数的要求：SeriesToSeries

表示：第一步中创建自定义Python函数的时候，输入参数的类型和返回值类型必须都是Pandas中的Series类型

需求：完成a列和b列的求和计算操作

from pyspark import SparkConf, SparkContext
import os
from pyspark.sql import SparkSession
import pandas as pd
import pyspark.sql.functions as F

# 绑定指定的Python解释器
from pyspark.sql.types import IntegerType

os.environ['SPARK_HOME'] = '/export/server/spark'
os.environ['PYSPARK_PYTHON'] = '/root/anaconda3/bin/python3'
os.environ['PYSPARK_DRIVER_PYTHON'] = '/root/anaconda3/bin/python3'

if __name__ == '__main__':
    # 1- 创建SparkSession对象
    spark = SparkSession.builder\
        .appName('pandas_udf')\
        .master('local[*]')\
        .getOrCreate()

    # 手动开启Arrow框架
    spark.conf.set('spark.sql.execution.arrow.pyspark.enabled', True)

    # 2- 数据输入
    init_df = spark.createDataFrame(
        data=[(1,2),(2,3),(3,4)],
        schema='num1 int,num2 int'
    )

    init_df.createTempView('tmp')

    # 3- 数据处理
    # 3.1- 自定义Python函数
    """
        1- num1:pd.Series用来限定输入的参数类型是Pandas中的Series对象
        2-  -> pd.Series用来限定返回值类型是Pandas中的Series对象
    """
    def my_sum(num1:pd.Series, num2:pd.Series) -> pd.Series:
        return num1+num2

    # 3.2- 注册进SparkSQL。注册方式一
    dsl_my_sum = spark.udf.register('sql_my_sum',my_sum)

    # 3.3- 使用
    # SQL
    spark.sql("""
        select
            num1,num2,
            sql_my_sum(num1,num2) as result
        from tmp
    """).show()

    # DSL
    init_df.select(
        "num1",
        "num2",
        dsl_my_sum("num1", "num2").alias("result")
    ).show()


    # 注册方式二
    dsl2_my_sum = F.pandas_udf(my_sum,IntegerType())

    # DSL
    init_df.select(
        "num1",
        "num2",
        dsl2_my_sum("num1", "num2").alias("result")
    ).show()

    # 注册方式三
    @F.pandas_udf(IntegerType())
    def my_sum_candy(num1:pd.Series, num2:pd.Series) -> pd.Series:
        return num1+num2

    # DSL
    init_df.select(
        "num1",
        "num2",
        my_sum_candy("num1", "num2").alias("result")
    ).show()

    # 4- 数据输出
    # 5- 释放资源
    spark.stop()

自定义UDAF函数

自定义Python函数的要求：Series To 标量

表示：自定义函数的输入数据类型是Pandas中的Series对象，返回值数据类型是标量数据类型。也就是Python中的数据类型，例如：int、float、bool、list....

需求：对某一列数据计算平均值的操作

from pyspark import SparkConf, SparkContext
import os
from pyspark.sql import SparkSession
import pandas as pd
import pyspark.sql.functions as F

# 绑定指定的Python解释器
from pyspark.sql.types import IntegerType, FloatType

os.environ['SPARK_HOME'] = '/export/server/spark'
os.environ['PYSPARK_PYTHON'] = '/root/anaconda3/bin/python3'
os.environ['PYSPARK_DRIVER_PYTHON'] = '/root/anaconda3/bin/python3'

if __name__ == '__main__':
    # 1- 创建SparkSession对象
    spark = SparkSession.builder\
        .appName('pandas_udaf')\
        .master('local[*]')\
        .getOrCreate()

    # 手动开启Arrow框架
    spark.conf.set('spark.sql.execution.arrow.pyspark.enabled', True)

    # 2- 数据输入
    init_df = spark.createDataFrame(
        data=[(1,2),(2,3),(3,3)],
        schema='num1 int,num2 int'
    )

    init_df.createTempView('tmp')

    # 3- 数据处理
    # 3.1- 自定义Python函数
    """
        UDAF对自定义Python函数的要求：输入数据的类型必须是Pandas中的Series对象，返回值类型必须是Python中的标量数据类型
    """
    @F.pandas_udf(returnType=FloatType())
    def my_avg(num2_col:pd.Series) -> float:
        print(type(num2_col))
        print(num2_col)
        # 计算平均值
        return num2_col.mean()

    # 3.2- 注册进SparkSQL。注册方式一
    dsl_my_avg = spark.udf.register('sql_my_avg',my_avg)

    # 3.3- 使用
    # SQL
    spark.sql("""
        select
            sql_my_avg(num2) as result
        from tmp
    """).show()

    # DSL
    init_df.select(dsl_my_avg("num2").alias("result")).show()

    # 4- 数据输出
    # 5- 释放资源
    spark.stop()

图扑软件智慧云展厅，开启数字化展馆新模式智慧园区可视化 5g 人工智能大数据安全云计算
随着疫情的影响以及新兴技术的不断发展，展会的发展形式也逐渐从线下转向线上。通过“云”上启动、云端互动、双线共频的形式开展。通过应用大数据、人工智能、沉浸式交互等多重技术手段，构建数据共享、信息互通、精准匹配的高精度“云展厅”，突破时空壁垒限制。图扑软件运用HT强大的渲染功能，数字孪生“云展位”，1:1复现实际展厅内部独特的结构造型和建筑特色。也可以第一人称视角漫游，模拟用户在展厅内的参观场景，在保
TDengine 3.3.5.0 新功能 —— 查看库文件占用空间、压缩率 TDengine （老段） TDengine 产品设计数据库时序数据库物联网 tdengine 涛思数据 iot
1.背景TDengine之前版本一直没有通过SQL命令查看数据库占用的磁盘空间大小，从3.3.5.0开始，增加了这个方便且实用的小功能，这里详细介绍下。2.SQL基本语法selectexprfrominformation_schema.ins_disk_usage[wherecondtion]行为说明：查看各个vgroup的各个组件磁盘占用情况，并且可以通过查询语句计算压缩率等。示例：taos>s
TDengine 技术参数配置大全 TDengine （老段） TDengine 产品设计 tdengine 涛思数据大数据数据库物联网时序数据库
1.背景TDengine的taos.cfg中配置项及使用SQL命令alter修改的系统变量之间的关系如何，哪些是持久存储项，哪些设置是临时项，这章将详细说明。本文是技术参考资料，请收藏。2.定义1.全局配置参数全局配置参数：作用于集群内所有dnode且在集群内必须保持一致的变量，也称为全局变量、系统变量或全局参数。例如:timezone/charset/countAlwaysReturnValue
【Python常用模块】_Pandas模块3-DataFrame对象失心疯_2023 Python常用模块数据分析 pandas 数据挖掘 python 数据统计数据处理
课程推荐我的个人主页：失心疯的个人主页入门教程推荐：Python零基础入门教程合集虚拟环境搭建：Python项目虚拟环境(超详细讲解)PyQt5系列教程：PythonGUI(PyQt5)教程合集Oracle数据库教程：Oracle数据库教程合集MySQL数据库教程：MySQL数据库教程合集优质资源下载：资源下载合集
使用 C 语言操作 MySQL 实现图片写入与读取（Charon） mysql 数据库
在实际项目中，常常需要将图片或文件以二进制方式存储至数据库中，并能正确读取还原为文件。本文以C语言配合MySQLCAPI为例，完整演示如何实现将一张JPG图片写入数据库并再读出生成新图片文件的过程。项目背景我们使用如下表结构：--创建用户信息表CREATETABLETBL_USER(U_IDINTPRIMARYKEYAUTO_INCREMENT,--用户编号，整型，主键，自动递增，系统自动分配唯一
Cursor MySQL MCP 完整操作配置指南 z日火开发分享 mcp cursor mysql
概述本指南帮助您在Windows环境下配置Cursor编辑器的MySQLMCP服务器，实现通过AI助手对数据库进行完整的增删改查操作。功能特性：✅自然语言数据库查询✅智能数据插入和更新✅安全的数据删除操作✅自动数据分析和报告生成快速配置1.环境检查#检查必要组件node--version#Node.js>=16mysql--version#MySQL5.7+cursor--version#Curs
mybatis批量插入数据时，如果是sql server库只返回一条自增主键小小不吃香菜 mybatis sqlserver java
有个功能需要做个批量插入，表是自增主键，本来是很简单的事情，结果一测试发现一个神奇的事情，由于数据库是sqlserver的，插入一条时，id可以正常返回，多条时，就出现了标题的问题，只返回一个id，使用的是mybatis自带的jar包，甚至如何使用人家还加了备注在里面，很清晰，是这样的:然后我就按照上面描述的，自己加了一个自定义的Mapper，把主键名称改成我自己的，然后发现依然只能获取到一条，后
10招提升SQL性能的实战技巧快乐才是自己的 sql mysql sql mysql oracle database hadoop 大数据
SQL语句常见性能优化方案在数据库应用中，SQL性能优化是核心技术要点。以下是经过验证的优化策略，按关键维度分类：一、索引优化精准索引覆盖对高频查询的WHERE、JOIN、ORDERBY字段建立索引复合索引遵循最左前缀原则：索引(a,b,c)仅支持WHEREa=?或WHEREa=?ANDb=?示例：将SELECT*FROMordersWHEREstatus='shipped'改为CREATEIND
java毕业设计房产中介系统mybatis+源码+调试部署+系统+数据库+lw 兮兮科技 java mybatis 开发语言
java毕业设计房产中介系统mybatis+源码+调试部署+系统+数据库+lwjava毕业设计房产中介系统mybatis+源码+调试部署+系统+数据库+lw本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：ideaeclipse前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAVA运行环境：Win10、JDK1.8数据库：MySQL5.7/8.0源码地址
vue大数据量列表渲染性能优化：虚拟滚动原理 Java小卷 Vue3开源组件实战 vue3 自定义Tree 虚拟滚动
前面咱完成了自定义JuanTree组件各种功能的实现。在数据量很大的情况下，我们讲了两种实现方式来提高渲染性能：前端分页和节点数据懒加载。前端分页小节：Vue3扁平化Tree组件的前端分页实现节点数据懒加载小节：ElementTreePlus版功能演示：数据懒加载关于扁平化结构Tree和嵌套结构Tree组件的渲染嵌套结构的Tree组件是一种递归渲染，性能上比起列表结构的v-for渲染比较一般。对于
redis的scan使用详解，结合spring使用详解黑皮爱学习 redis自学笔记 redis spring 数据库
Redis的SCAN命令是一种非阻塞的迭代器，用于逐步遍历数据库中的键，特别适合处理大数据库。下面详细介绍其使用方法及在Spring框架中的集成方式。SCAN命令基础SCAN命令的基本语法：SCANcursor[MATCHpattern][COUNTcount]cursor：迭代游标，初始为0，每次迭代返回新的游标值。MATCHpattern：可选，用于过滤键的模式（如user:*）。COUNTc
MongoDB框架零基础入门码农研究僧 Python 100天精通全栈 mongodb nosql 数据库
目录前言1.安装配置2.关启配置3.基本概念4.基本操作4.1创建集合4.2删除集合4.3插入文档4.4更新文档4.5删除文档4.6查询文档前言先科普讲解一下NoSQL（notonlysql）本身NoSQL非关系型数据库就具备了ACID（原子性、一致性、持久性、隔离性）数据持久化一般还是要使用关系型数据库，内存的数据库使用检索MongoDB是C++编写，一个基于分布式文件存储的开源数据库系统。将其
量化交易编程-持仓天数,SQL学习-ACCESS子查询的技巧专注VB编程开发20年 sql 学习 java ACCESS 数据库
在股票投资中，停牌期间通常不算交易日3。同花顺手机APP中的收益分析持仓天数一般是按照交易日来计算的。具体而言，它会从买入股票的日期开始，到卖出股票的日期为止，只统计证券交易所正常开放交易的日子，周末和法定节假日以及股票停牌日都不会计算在内3。例如，若你持有某股票2年，其中停牌2年，实际交易日只有20天，那么同花顺计算的持仓天数就是20天，而不会算出几百个交易日。其实持仓天数关我屁事是吧?我只考虑
PostgreSQL（十七）Autovacuum工具忧愁的锅盖儿 PG从入门到放弃 postgresql 数据库
目录一、简述Autovacuum1、什么是Autovacuum2、记录Autovacuum操作的设定二、Autovacuum的操作内容&时间1、Autovacuum的操作内容2、Autovacuum的操作时间三、调整Autovacuum1、Autovacuum相关参数：2、调整表Autovacuumsetting的设置三、autovacuum_max_workers1、概述2、Autovacuum
PostgreSQL 容器化分布式技术方案 TechVision大咖圈 postgresql 分布式数据库分布式数据库
目录引言：为什么选择容器化PostgreSQLPostgreSQL容器化基础分布式架构设计高可用实现方案读写分离架构动态扩缩容策略生产环境实践总结与展望引言：为什么选择容器化PostgreSQL在数字化转型的浪潮中，数据库作为企业的"心脏"，其稳定性和扩展性直接影响着业务的成败。PostgreSQL作为世界上最先进的开源关系型数据库，配合容器化技术，就像是给数据库插上了翅膀——既保持了数据的可靠性
2.jdbc之工具类，SQL注入攻击和JDBC事务 hutc_Alan sql java 数据库
4.JDBC工具类抽取工具类1）编写配置文件在src目录下创建config.properties配置文件driverClass=com.mysql.cj.jdbc.Driverurl=jdbc:mysql://192.168.1.224:3306/db14username=rootpassword=1234562）编写jdbc工具类utils文件下（JDBCUtils.java）packagejd
mysql之jdbc连接数据库和sql注入的问题
一，概述可能是自己的记忆力太差了，经常忘记一些很重要的知识点，记得个大概，等要用的时候就去找，结果还找不到。干脆，记博客里，怎么都找的到。这篇博客主要就是关于Jdbc(javadatabaseconnectivity)和MySql的，记录如何连接数据库及插入数据等等。二，工具及准备工作MyEclipse10,mysql驱动jar包（我用的是这个版本mysql-connector-java-5.0.
JDBC工具类小布不吃竹数据库 java
目录引言一、JDBC连接数据库步骤1.加载驱动2.获取连接（URL用户名密码）3.编写sql4.获取执行sql的stmt的对象5.执行sql拿到结果集6.遍历结果集7.关闭资源（先开的后关后开的先关）二、JDBC工具类版本一：基础JDBC工具类(JdbcUtils)版本二：配置化JDBC工具类(JdbcUtils2)版本三：连接池JDBC工具类(JdbcUtils3)测试总结引言JDBC(Java
Mysql中是text,jdbcType对应类型及jdbcType与javaType对应关系天宇_任 mybatis java
如果Mysql中是text,则jdbcType对应LONGVARCHAR,javatype对应String
MySQL索引分类有哪些？ java1234_小锋 mysql mysql
大家好，我是锋哥。今天分享关于【MySQL索引分类有哪些？】面试题。希望对大家有帮助；MySQL索引分类有哪些？超硬核AI学习资料，现在永久免费了！MySQL中的索引可以根据不同的分类标准分为以下几种类型：1.根据存储方式分类聚集索引（ClusteredIndex）：表中的数据行会按照索引顺序存储，即数据的物理顺序和索引顺序一致。每个表最多只能有一个聚集索引。在InnoDB存储引擎中，主键就是聚集
MySQL的行级锁锁的到底是什么? java1234_小锋 mysql mysql
大家好，我是锋哥。今天分享关于【MySQL的行级锁锁的到底是什么?】面试题。希望对大家有帮助；MySQL的行级锁锁的到底是什么?超硬核AI学习资料，现在永久免费了！MySQL的行级锁是指在数据库中对单个数据行进行加锁的锁定机制，它是一种较为精细的锁定方式。它锁定的是表中的某一行数据，而不是整个表或页面。行级锁能够在多并发操作下提高性能，减少锁的竞争。行级锁主要包括以下几种情况：共享锁(S锁)：也叫
MySQL 开发规范和使用约束小凯 ོ mysql android 数据库
作者：小凯沉淀、分享、成长，让自己和他人都能有所收获！本文的宗旨在于通过简单干净实践的方式教会读者，如何更好地使用MySQL数据库。这包括；库表创建规范、字段的创建规范、索引的创建规范以及SQL使用的相关规范，通过这些内容的讲解，让读者更好使用MySQL数据库，创建出符合规范的表和字段以及建出合适的索引。如果你还想学习更深入的MySQL知识，建议可以阅读下官网的参考手册，这比任何一个资料都要有权威
Go语言数据库编程：GORM 的基本使用程序员爱钓鱼 golang 数据库开发语言
GORM是Go语言最流行的ORM框架，封装了database/sql，支持自动迁移、关联关系、事务等功能，开发体验接近于高层语言的ORM。一、安装与初始化1.安装GORM及数据库驱动go get -u gorm.io/gormgo get -u gorm.io/driver/mysql# PostgreSQL 用户：# go get -u gorm.io/driver/postgres2.建立数据
数据库技术演进史：从穿孔卡片到云原生小李独爱秋计算机那些事儿~数据库云原生 mysql
一、数据库的定义与核心地位数据库（Database）是“长期存储在计算机内、有组织的、可共享的统一管理数据集合”，与芯片、操作系统并称IT系统三大核心。其核心价值在于：结构化存储：通过数据模型组织信息，解决文件系统冗余问题；高效访问：支持并发查询与事务处理；安全共享：权限控制保障数据安全。分类维度全景图：分类维度类型代表产品数据模型关系型(SQL)MySQL,Oracle,PostgreSQL非关
Spring Boot 中@Value注解：看似便捷，实则暗藏玄机？爆炸糖果 spring boot 后端 java
一、引言在SpringBoot的开发旅程中，我们常常会与各种配置文件打交道，而@Value注解就像是一位贴心的小助手，为我们从配置文件中获取值提供了极大的便利。假设我们正在开发一个简单的用户管理系统，在application.yml文件中配置了数据库连接信息：spring:datasource:url:jdbc:mysql://localhost:3306/user_dbusername:root
【代码审计】通过类型转换绕过校验，实现任意账户密码重置秋说网络安全代码审计
未经许可，不得转载。文章目录背景漏洞描述风险分析1.code字段默认值为02.empty(0)判断失效3.利用MySQL类型转换绕过empty限制复现验证修复建议背景在Web系统开发中，密码找回功能往往涉及用户邮箱与随机验证码的匹配校验。如果验证逻辑存在疏漏，可能会引发严重的安全问题，如任意账户密码重置等高危漏洞。本文将分析一个典型的逻辑漏洞案例，并结合MySQL的类型转换行为深入探讨其产生原因。
聊聊 SQL 注入那些事儿白露与泡影 sql 数据库
相信大家对于学校们糟糕的网络环境和运维手段都早有体会，在此就不多做吐槽了。今天我们来聊一聊SQL注入相关的内容。何谓SQL注入？SQL注入是一种非常常见的数据库攻击手段，SQL注入漏洞也是网络世界中最普遍的漏洞之一。大家也许都听过某某学长通过攻击学校数据库修改自己成绩的事情，这些学长们一般用的就是SQL注入方法。SQL注入其实就是恶意用户通过在表单中填写包含SQL关键字的数据来使数据库执行非常规代
[特殊字符] 解释器模式：自定义语言的解析专家，让复杂语法变简单！真实的菜 java 解释器模式 python 开发语言
解释器模式：自定义语言的解析专家，让复杂语法变简单！文章目录解释器模式：自定义语言的解析专家，让复杂语法变简单！一、为什么需要解释器模式️二、解释器模式的结构2.1UML类图2.2代码实现三、解释器模式的实际应用3.1正则表达式引擎：解释器模式的典型应用3.2SQL解析器：解释器模式的实际应用四、解释器模式在Java标准库中的应用4.1Java的正则表达式4.2Java的格式化4.3Java的表达
数据与ChatBI
ChatBI的核心是让用户用自然语言（如“帮我看看这周的销售额走势”）直接获取数据分析结果，无需懂SQL或技术细节。整个过程就像AI“听懂”你的话、理解需求、生成查询、验证执行、并可视化展示结果。首先，ChatBI的系统架构图展示了整个流程的关键步骤。它从用户输入开始，经过多个AI模块处理，最终输出交互式报表。现在来一步步解析ChatBI的工作流程。1.语音/文字输入——解放双手的起点这是什么？一
【StarRocks系列】事务漫步者TZ StarRocks 数据库 StarRocks 事务
目录SQL事务StreamLoad事务接口一、接口原理二、使用流程三、关键注意事项四、接口优势回滚是全局性的参考文档SQL事务从v3.5.0开始，StarRocks支持SQL事务，用于在将数据导入到多个表时，确保更新操作的原子性。目前，StarRocks的SQL事务仅支持INSERT和SELECT语句。update语句不支持事务SQL事务|StarRocksStreamLoad事务接口为了支持和A
windows下源码安装golang 616050468 golang安装 golang环境 windows
系统： 64位win7，开发环境：sublime text 2， go版本： 1.4.1 1. 安装前准备(gcc, gdb, git) golang在64位系
redis批量删除带空格的key bylijinnan redis
redis批量删除的通常做法： redis-cli keys "blacklist*" | xargs redis-cli del 上面的命令在key的前后没有空格时是可以的，但有空格就不行了： $redis-cli keys "blacklist*" 1) "blacklist:12: [email protected]
oracle正则表达式的用法 0624chenhong oracle 正则表达式
方括号表达示方括号表达式描述 [[:alnum:]] 字母和数字混合的字符 [[:alpha:]] 字母字符 [[:cntrl:]] 控制字符 [[:digit:]] 数字字符 [[:graph:]] 图像字符 [[:lower:]] 小写字母字符 [[:print:]] 打印字符 [[:punct：]] 标点符号字符 [[:space:]]
2048源码(核心算法有，缺少几个anctionbar，以后补上) 不懂事的小屁孩 2048
2048游戏基本上有四部分组成， 1：主activity，包含游戏块的16个方格，上面统计分数的模块 2：底下的gridview，监听上下左右的滑动，进行事件处理， 3：每一个卡片，里面的内容很简单，只有一个text，记录显示的数字 4：Actionbar，是游戏用重新开始，设置等功能(这个在底下可以下载的代码里面还没有实现) 写代码的流程 1：设计游戏的布局，基本是两块，上面是分
jquery内部链式调用机理换个号韩国红果果 JavaScript jquery
只需要在调用该对象合适(比如下列的setStyles)的方法后让该方法返回该对象（通过this 因为一旦一个函数称为一个对象方法的话那么在这个方法内部this（结合下面的setStyles）指向这个对象） function create(type){ var element=document.createElement(type); //this=element;
你订酒店时的每一次点击背后都是NoSQL和云计算蓝儿唯美 NoSQL
全球最大的在线旅游公司Expedia旗下的酒店预订公司，它运营着89个网站，跨越68个国家，三年前开始实验公有云，以求让客户在预订网站上查询假期酒店时得到更快的信息获取体验。云端本身是用于驱动网站的部分小功能的，如搜索框的自动推荐功能，还能保证处理Hotels.com服务的季节性需求高峰整体储能。 Hotels.com的首席技术官Thierry Bedos上个月在伦敦参加“2015 Clou
java笔记1 a-john java
1，面向对象程序设计（Object-oriented Propramming，OOP）：java就是一种面向对象程序设计。 2，对象：我们将问题空间中的元素及其在解空间中的表示称为“对象”。简单来说，对象是某个类型的实例。比如狗是一个类型，哈士奇可以是狗的一个实例，也就是对象。 3，面向对象程序设计方式的特性： 3.1 万物皆为对象。
C语言 sizeof和strlen之间的那些事 C/C++软件开发求职面试题必备考点（一） aijuans C/C++求职面试必备考点
找工作在即，以后决定每天至少写一个知识点，主要是记录，逼迫自己动手、总结加深印象。当然如果能有一言半语让他人收益，后学幸运之至也。如有错误，还希望大家帮忙指出来。感激不尽。后学保证每个写出来的结果都是自己在电脑上亲自跑过的，咱人笨，以前学的也半吊子。很多时候只能靠运行出来的结果再反过来
程序员写代码时就不要管需求了吗？ asia007 程序员不能一味跟需求走
编程也有2年了，刚开始不懂的什么都跟需求走，需求是怎样就用代码实现就行，也不管这个需求是否合理，是否为较好的用户体验。当然刚开始编程都会这样，但是如果有了2年以上的工作经验的程序员只知道一味写代码，而不在写的过程中思考一下这个需求是否合理，那么，我想这个程序员就只能一辈写敲敲代码了。我的技术不是很好，但是就不代
Activity的四种启动模式百合不是茶 android 栈模式启动 Activity的标准模式启动栈顶模式启动单例模式启动
android界面的操作就是很多个activity之间的切换,启动模式决定启动的activity的生命周期 ; 启动模式xml中配置 <activity android:name=".MainActivity" android:launchMode="standard&quo
Spring中@Autowired标签与@Resource标签的区别 bijian1013 java spring @Resource @Autowired @Qualifier
Spring不但支持自己定义的@Autowired注解，还支持由JSR-250规范定义的几个注解，如：@Resource、 @PostConstruct及@PreDestroy。 1. @Autowired @Autowired是Spring 提供的，需导入 Package:org.springframewo
Changes Between SOAP 1.1 and SOAP 1.2 sunjing Changes Enable SOAP 1.1 SOAP 1.2
JAX-WS SOAP Version 1.2 Part 0: Primer (Second Edition) SOAP Version 1.2 Part 1: Messaging Framework (Second Edition) SOAP Version 1.2 Part 2: Adjuncts (Second Edition) Which style of WSDL
【Hadoop二】Hadoop常用命令 bit1129 hadoop
以Hadoop运行Hadoop自带的wordcount为例， hadoop脚本位于/home/hadoop/hadoop-2.5.2/bin/hadoop，需要说明的是，这些命令的使用必须在Hadoop已经运行的情况下才能执行 Hadoop HDFS相关命令 hadoop fs -ls 列出HDFS文件系统的第一级文件和第一级
java异常处理（初级）白糖_ java DAO spring 虚拟机 Ajax
从学习到现在从事java开发一年多了，个人觉得对java只了解皮毛，很多东西都是用到再去慢慢学习，编程真的是一项艺术，要完成一段好的代码，需要懂得很多。最近项目经理让我负责一个组件开发，框架都由自己搭建，最让我头疼的是异常处理，我看了一些网上的源码，发现他们对异常的处理不是很重视，研究了很久都没有找到很好的解决方案。后来有幸看到一个200W美元的项目部分源码，通过他们对异常处理的解决方案，我终
记录整理-工作问题 braveCS 工作
1）那位同学还是CSV文件默认Excel打开看不到全部结果。以为是没写进去。同学甲说文件应该不分大小。后来log一下原来是有写进去。只是Excel有行数限制。那位同学进步好快啊。 2）今天同学说写文件的时候提示jvm的内存溢出。我马上反应说那就改一下jvm的内存大小。同学说改用分批处理了。果然想问题还是有局限性。改jvm内存大小只能暂时地解决问题，以后要是写更大的文件还是得改内存。想问题要长远啊
org.apache.tools.zip实现文件的压缩和解压，支持中文 bylijinnan apache
刚开始用java.util.Zip，发现不支持中文（网上有修改的方法，但比较麻烦）后改用org.apache.tools.zip org.apache.tools.zip的使用网上有更简单的例子下面的程序根据实际需求，实现了压缩指定目录下指定文件的方法 import java.io.BufferedReader; import java.io.BufferedWrit
读书笔记-4 chengxuyuancsdn 读书笔记
1、JSTL 核心标签库标签 2、避免SQL注入 3、字符串逆转方法 4、字符串比较compareTo 5、字符串替换replace 6、分拆字符串 1、JSTL 核心标签库标签共有13个，学习资料：http://www.cnblogs.com/lihuiyy/archive/2012/02/24/2366806.html 功能上分为4类： (1)表达式控制标签：out
[物理与电子]半导体教材的一个小问题 comsci 问题
各种模拟电子和数字电子教材中都有这个词汇-空穴书中对这个词汇的解释是; 当电子脱离共价键的束缚成为自由电子之后,共价键中就留下一个空位,这个空位叫做空穴我现在回过头翻大学时候的教材,觉得这个
Flashback Database --闪回数据库 daizj oracle 闪回数据库
Flashback 技术是以Undo segment中的内容为基础的，因此受限于UNDO_RETENTON参数。要使用flashback 的特性，必须启用自动撤销管理表空间。在Oracle 10g中， Flash back家族分为以下成员： Flashback Database， Flashback Drop，Flashback Query(分Flashback Query,Flashbac
简单排序:插入排序 dieslrae 插入排序
public void insertSort(int[] array){ int temp; for(int i=1;i<array.length;i++){ temp = array[i]; for(int k=i-1;k>=0;k--)
C语言学习六指针小示例、一维数组名含义，定义一个函数输出数组的内容 dcj3sjt126com c
# include <stdio.h> int main(void) { int * p; //等价于 int *p 也等价于 int* p; int i = 5; char ch = 'A'; //p = 5; //error //p = &ch; //error //p = ch; //error p = &i; //
centos下php redis扩展的安装配置3种方法 dcj3sjt126com redis
方法一 1.下载php redis扩展包代码如下复制代码 #wget http://redis.googlecode.com/files/redis-2.4.4.tar.gz 2 tar -zxvf 解压压缩包，cd /扩展包（进入扩展包然后运行phpize 一下是我环境中phpize的目录，/usr/local/php/bin/phpize (一定要
线程池(Executors) shuizhaosi888 线程池
在java类库中，任务执行的主要抽象不是Thread，而是Executor，将任务的提交过程和执行过程解耦 public interface Executor { void execute(Runnable command); } public class RunMain implements Executor{ @Override pub
openstack 快速安装笔记 haoningabc openstack
前提是要配置好yum源版本icehouse，操作系统redhat6.5 最简化安装，不要cinder和swift 三个节点 172 control节点keystone glance horizon 173 compute节点nova 173 network节点neutron control /etc/sysctl.conf net.ipv4.ip_forward =
从c面向对象的实现理解c++的对象（二） jimmee C++面向对象虚函数
1. 类就可以看作一个struct，类的方法，可以理解为通过函数指针的方式实现的，类对象分配内存时，只分配成员变量的，函数指针并不需要分配额外的内存保存地址。 2. c++中类的构造函数，就是进行内存分配(malloc)，调用构造函数 3. c++中类的析构函数，就时回收内存(free) 4. c++是基于栈和全局数据分配内存的，如果是一个方法内创建的对象，就直接在栈上分配内存了。专门在
如何让那个一个div可以拖动 lingfeng520240 html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml
第10章高级事件（中） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
计算两个经纬度之间的距离 roadrunners 计算纬度 LBS 经度距离
要解决这个问题的时候，到网上查了很多方案，最后计算出来的都与百度计算出来的有出入。下面这个公式计算出来的距离和百度计算出来的距离是一致的。 /** * * @param longitudeA * 经度A点 * @param latitudeA * 纬度A点 * @param longitudeB *
最具争议的10个Java话题 tomcat_oracle java
1、Java8已经到来。什么！？ Java8 支持lambda。哇哦，RIP Scala！　　随着Java8 的发布，出现很多关于新发布的Java8是否有潜力干掉Scala的争论，最终的结论是远远没有那么简单。Java8可能已经在Scala的lambda的包围中突围，但Java并非是函数式编程王位的真正觊觎者。　　2、Java 9 即将到来　　 Oracle早在8月份就发布
zoj 3826 Hierarchical Notation(模拟) 阿尔萨斯 rar
题目链接：zoj 3826 Hierarchical Notation 题目大意：给定一些结构体，结构体有value值和key值，Q次询问，输出每个key值对应的value值。解题思路：思路很简单，写个类词法的递归函数，每次将key值映射成一个hash值，用map映射每个key的value起始终止位置，预处理完了查询就很简单了。这题是最后10分钟出的，因为没有考虑value为{}的情

Spark SQL函数定义

窗口函数

SQL函数分类

Spark原生自定义UDF函数

Pandas的UDF函数

Apache Arrow框架基本介绍

基于Arrow完成Pandas DataFrame和Spark DataFrame互转

基于Pandas完成UDF函数

自定义UDF函数

自定义UDAF函数

你可能感兴趣的:(spark,sql,大数据)