独憩

PySpark（四）PySpark SQL、Catalyst优化器、Spark SQL的执行流程

基础

SparkSession对象

DataFrame入门

DataFrame构建

DataFrame代码风格

DSL

SQL

SparkSQL Shuffle 分区数目

DataFrame数据写出

Spark UDF

Catalyst优化器

Spark SQL的执行流程

PySpark SQL

基础

PySpark SQL与Hive的异同

Hive和Spark 均是:“分布式SQL计算引擎”
均是构建大规模结构化数据计算的绝佳利器，同时SparkSQL拥有更好的性能。
目前，企业中使用Hive仍旧居多，但SparkSQL将会在很近的未来替代Hive成为分布式SQL计算市场的顶级

这里的重点是：Spark SQL能支持SQL和其他代码混合执行，自由度更高，且其是内存计算，更快。但是其没有元数据管理，然而它最终还是会作用到Hive层面，可以调用Hive的Metasotre

SparkSQL的基本对象是DataFrame，其特点及与其他对象的区别为：

SparkSQL 其实有3类数据抽象对象

SchemaRDD对象 (已废弃)

DataSet对象: 可用于Java、Scala语言

DataFrame对象:可用于Java、Scala、Python、R

SparkSession对象

在RDD阶段，程序的执行入口对象是: SparkContext
在Spark 2.0后，推出了SparkSession对象，作为Spark编码的统一入口对象
SparkSession对象可以:
-用于SparkSQL编程作为入口对象
- 用于SparkCore编程，可以通过SparkSession对象中获取到SparkContext

from pyspark.sql import SparkSession
if __name__ == '__main__':
    spark =  SparkSession.builder.appName('lmx').master('local[*]').getOrCreate()
    sc = spark.sparkContext

DataFrame入门

DataFrame的组成如下
在结构层面
StructType对象描述整个DataFrame的表结构

StructField对象描述一个列的信息
在数据层面
Row对象记录一行数据
Column对象记录一列数据并包含列的信息

DataFrame构建

1、用RDD进行构建

rdd的结构要求为：[[xx,xx],[xx,xx]]

spark.createDataFrame(rdd,schema=[])

    spark =  SparkSession.builder.appName('lmx').master('local[*]').getOrCreate()
    sc = spark.sparkContext
    rdd = sc.textFile('data/input/sql/people.txt').map(lambda x:x.split(',')).map(lambda x:[x[0],int(x[1])])
    print(rdd.collect())
    # [['Michael', 29], ['Andy', 30], ['Justin', 19]]
    df = spark.createDataFrame(rdd,schema=['name','age'])
    df.printSchema()#打印表结构
    df.show()#打印表
#     root
#     | -- name: string(nullable=true)
#     | -- age: long(nullable=true)
# 
# +-------+---+
# | name | age |
# +-------+---+
# | Michael | 29 |
# | Andy | 30 |
# | Justin | 19 |
# +-------+---+

2、利用StructType进行创建

需要先引入StructType,StringType,IntegerType等构建schema

from pyspark.sql import SparkSession
from pyspark.sql.types import StructType,StringType,IntegerType
if __name__ == '__main__':
    spark =  SparkSession.builder.appName('lmx').master('local[*]').getOrCreate()
    sc = spark.sparkContext
    rdd = sc.textFile('data/input/sql/people.txt').map(lambda x:x.split(',')).map(lambda x:[x[0],int(x[1])])
#构建schema    
schema =StructType().add("name",StringType(),nullable=False).\
        add('age',IntegerType(),nullable=True)
    df = spark.createDataFrame(rdd,schema=schema)
    df.printSchema()
    df.show()

3、toDF将rdd转换为df

下面展示了两种方式

    # 只设定列名，列的数据结构则是内部自己判断
    df = rdd.toDF(['name','age'])
    df.printSchema()
    # root
    # | -- name: string(nullable=true)
    # | -- age: long(nullable=true)
    # 设定列名和数据类型
    schema =StructType().add("name",StringType(),nullable=False).\
        add('age',IntegerType(),nullable=True)
    df = rdd.toDF(schema=schema)
    df.printSchema()
    # root
    # | -- name: string(nullable=false)
    # | -- age: integer(nullable=true)

4、基于pandas构建

    dfp = pd.DataFrame({
        "id":[1,2,3],
        'score':[99,98,100]
    })
    df = spark.createDataFrame(dfp)
    df.printSchema()
    df.show()
    # root
    # | -- id: long(nullable=true)
    # | -- score: long(nullable=true)
    # 
    # +---+-----+
    # | id | score |
    # +---+-----+
    # | 1 | 99 |
    # | 2 | 98 |
    # | 3 | 100 |
    # +---+-----+

5、通过文件读取创造

在读取json和parquet文件时不需要设定schema，因为文件已经自带

而读取csv时，还需要使用.option设定 header等参数

这里说一下parquet文件

parquet:是Spark中常用的一种列式存储文件格式
和Hive中的ORC差不多，他俩都是列存储格式
parquet对比普通的文本文件的区别：

parquet 内置schema(列名列类型是否为空)

存储是以列作为存储格式

存储是序列化存储在文件中的(有压缩属性体积小)

DataFrame代码风格

DataFrame支持两种风格进行编程，分别是DSL风格和SQL风格
DSL语法风格
DSL称之为:领域特定语言
其实就是指DataFrame的特有API
DSL风格意思就是以调用API的方式来处理Data比如: df.where0.limit0
SQL语法风格
SQL风格就是使用SQL语句处理DataFrame的数据比如: spark.sql(“SELECT*FROM xxx)

DSL

其实就是用其内置的API处理数据，举例：

    df.select('id','subject').show()
    df.where('subject="语文"').show()
    df.select('id','subject').where('subject="语文"').show()
    df.groupBy('subject').count().show()

API其实跟SQL类似，这里不详细说明了，个人感觉不如直接写SQL语句

SQL

DataFrame的一个强大之处就是我们可以将它看作是一个关系型数据表，然后可以通过在程序中使用spark.sgl0来执行SQL语句查询，结果返回一个DataFrame。如果想使用SQL风格的语法，需要将DataFrame注册成表采用如下的方式:

    df.createTempView('tmp') #创建临时视图
    df.createGlobalTempView('global_tmp')#创建全局试图
    # 全局表: 跨SparkSession对象使用在一个程序内的多个SparkSession中均可调用查询前带上前缀：global_tmp
    df.createOrReplaceTempView('repalce_tmp')#创建临时表，如果存在则替换

然后使用spark.sql的形式书写sql代码

    spark.sql('select * from tmp where subject = "语文"').show()
    spark.sql('select id,score from repalce_tmp where score>90').show()
    spark.sql('select subject,max(score) from global_temp.global_tmp group by subject').show()

SparkSQL Shuffle 分区数目

原因: 在SparkSQL中当Job中产生Shufle时，默认的分区数 spark.sql.shufle,partitions 为200，在实际项目中要合理的设置。
在代码中可以设置：

spark =  SparkSession.builder.appName('lmx').\
master('local[*]').config('spark.sql.shufle,partitions',2).\
getOrCreate()

spark.sqL.shuffle.partitions 参数指的是，在sql计算中，shuffle算子阶段默认的分区数是200

对于集群模式来说，200个默认也算比较合适

如在Local下运行，200个很多，在调度上会带宋限外的损耗，所以在Local下建议修改比较低，比如2\4\10均可，这个参数和Spark RDD中设置并行度的参数是相互独立的

DataFrame数据写出

统一API：

下面提供两种方法，分别写出为json和csv

    spark.sql(
        'select user_id,avg(score) avg_score from tmp group by user_id order by avg_score desc'
    ).write.mode('overwrite').format('json').save('data/output/1t')

    spark.sql(
        'select user_id,avg(score) avg_score from tmp group by user_id order by avg_score desc'
    ).write.mode('overwrite').format('csv')\
        .option('header',True)\
        .option('sep',';')\
        .save('data/output/csv')

其他的一些方法：

SparkSQL中读取数据和写出数据 - 知乎

不过这里似乎不能自己命名导出的数据文件

Spark UDF

无论Hive还是SparKSQL分析处理数据时，往往需要使用函数，SparkSQL模块本身自带很多实现公共功能的函数，在pyspark.sql.functions中SparkSQL与Hive一样支持定义函数:UDF和UDAF，尤其是UDF函数在实际项目中使用最为广泛。回顾Hive中自定义函数有三种类型:
第一种:UDF(User-Defined-Function)函数.
一对一的关系，输入一个值经过函数以后输出一个值;
在Hive中继承UDF类，方法名称为evaluate，返回值不能为void，其实就是实现一个方法;

第二种:UDAF(User-Defined Aggregation Function)聚合函数

多对一的关系，输入多个值输出一个值，通常与groupBy联合使用;

第三种:UDTF(User-DefinedTable-Generating Functions)函数

一对多的关系，输入一个值输出多个值(一行变为多行)，用户自定义生成函数，有点像flatMap;

在SparkSQL中，目前仅仅支持UDF函数和UDAF函数，目前Python仅支持UDF

UDF有两种定义方式

方式1语法
udf对象=sparksession.udfregister(参数1，参数2，参数3)

参数1:UDF名称，可用于SQL风格

参数2:被注册成UDF的方法名
参数3:声明UDF的返回值类型

udf对象:返回值对象，是一个UDF对象，可用于DSL风格
方式2语法

from pyspark.sql import functions as F

udf对象 = F.udf(参数1，参数2)

参数1:被注册成UDF的方法名

参数2:声明UDF的返回值类型

udf对象:返回值对象，是一个UDF对象，可用于DSL风格

举例：

    def double_score(num):
        return 2*num

    udf1 = spark.udf.register('udf_1',double_score,IntegerType())
    # dsl风格
    df.select(udf1(df['score'])).show()
    # sql风格
    df.selectExpr('udf_1(score)').show()
    # sql风格2
    df.createTempView('tmp')
    spark.sql("select udf_1(score) from tmp").show()

    udf2 = F.udf(double_score,IntegerType())
    df.select(udf2(df['score'])).show()

当返回值是数组时，需要定义数组内部数据的数据类型：ArrayType(StringType())

    spark =  SparkSession.builder.appName('lmx').master('local[*]').config('spark.sql.shufle,partitions',2).getOrCreate()
    sc = spark.sparkContext

    rdd=sc.parallelize([['i love you'],['i like you']])
    df = rdd.toDF(['ifo'])
    def func(num):
        return num.split(' ')
    udf = spark.udf.register('udf_sql',func,ArrayType(StringType()))

    # dsl风格
    df.select(udf(df['ifo'])).show()

当返回值是字典时，需要使用StructType()，且定义每个列的名字（需要跟函数返回值的列名一样）和数据类型

    rdd=sc.parallelize([[1],[2],[3],[4],[5]])
    df = rdd.toDF(['ifo'])
    df.show()
    def func(num):
        return {'num':num,'num1':num+10}
    udf = spark.udf.register('udf_sql',func,StructType().\
                             add('num',IntegerType(),nullable=False).\
                             add('num1',IntegerType(),nullable=False))
    df.select(udf(df['ifo'])).show()

Catalyst优化器

RDD的执行流程为：

代码 ->DAG调度器逻辑任务 ->Task调度器任务分配和管理监控 ->Worker干活

SparkSQL会对写完的代码，执行“自动优化”，既Catalyst优化器，以提升代码运行效率，避免开发者水平影响到代码执行效率。（RDD代码不会，是因为RDD的数据对象太过复杂，无法被针对性的优化）

加入优化的SparkSQL大致架构为：

1.API 层简单的说就是 Spark 会通过一些 API 接受 SQL 语句

2.收到 SQL 语句以后,将其交给 Catalyst,Catalyst 负责解析 SQL,生成执行计划等

3.Catalyst 的输出应该是 RDD 的执行计划

4.最终交由集群运行

Catalyst优化器主要分为四个步骤

1、解析sql，生成AST(抽象语法树)

2、在 AST 中加入元数据信息,做这一步主要是为了一些优化,例如 col=col 这样的条件

以上面的图为例：

score.id → id#1#L 为 score.id 生成 id 为1,类型是 Long
score.math_score→math_score#2#L为 score.math_score 生成 id 为 2,类型为 Long
people.id→id#3#L为 people.id 生成 id 为3,类型为 Long
people.age→age#4#L为 people.age 生成 id 为 4,类型为 Long

3、对已经加入元数据的 AST,输入优化器,进行优化,主要包含两种常见的优化：

谓词下推(Predicate Pushdown)\ 断言下推:将逻辑判断提前到前面,以减少shuffle阶段的数据量。

以上面的demo举例，可以先进行people.age>10的判断再进行Join等操作。

列值裁剪(Column Pruning):将加载的列进行裁剪,尽量减少被处理数据的宽度

以上面的demo举例，由于只select了score和id，所以开始的时候，可以只保留这两个列，由于parquet是按列存储的，所以很适合这个操作

4、上面的过程生成的 AST 其实最终还没办法直接运行,这个 AST 叫做逻辑计划,结束后,需要生成物理计划,从而生成 RDD 来运行

Spark SQL的执行流程

如此，Spark SQL的执行流程为：

1.提交SparkSQL代码
2.catalyst优化
        a.生成原始AST语法数
        b.标记AST元数据
        c.进行断言下推和列值裁剪以及其它方面的优化作用在AST上
        d.将最终AST得到,生成执行计划
        e.将执行计划翻译为RDD代码
3.Driver执行环境入口构建(SparkSession)
4.DAG 调度器规划逻辑任务
5.TASK 调度区分配逻辑任务到具体Executor上工作并监控管理任务
6.Worker干活

Spark新特性

自适应查询(SparkSQL)

即：Adaptive Query Execution

由于缺乏或者不准确的数据统计信息(元数据)和对成本的错误估算(执行计划调度)导致生成的初始执行计划不理想

在Spark3.x版本提供Adaptive Query Execution自适应查询技术通过在”运行时”对查询执行计划进行优化, 允许Planner在运行时执行可选计划,这些可选计划将会基于运行时数据统计进行动态优化, 从而提高性能，其开启方式为：

set spark.sql.adaptive.enabled = true;

Adaptive Query Execution AQE主要提供了三个自适应优化:

动态合并

即：Dynamically coalescing shuffle partitions

可以动态调整shuffle分区的数量。用户可以在开始时设置相对较多的shuffle分区数，AQE会在运行时将相邻的小分区合并为较大的分区。

动态调整Join策略

即：Dynamically switching join strategies

此优化可以在一定程度上避免由于缺少统计信息或着错误估计大小（当然也可能两种情况同时存在），而导致执行计划性能不佳的情况。这种自适应优化可以在运行时sort merge join转换成broadcast hash join，从而进一步提升性能

动态优化倾斜Join

skew joins可能导致负载的极端不平衡，并严重降低性能。在AQE从shuffle文件统计信息中检测到任何倾斜后，它可以将倾斜的分区分割成更小的分区，并将它们与另一侧的相应分区连接起来。这种优化可以并行化倾斜处理，获得更好的整体性能。

触发条件: 1. 分区大小> spark.sql.adaptive.skewJoin.skewedPartitionFactor (default=10) * "median partition size(中位数分区大小)"

2. 分区大小> spark.sql.adaptive.skewJoin.skewedPartitionThresholdInBytes (default = 256MB ）

动态分区裁剪(SparkSQL)

即：Dynamic Partition Pruning

当优化器在编译时无法识别可跳过的分区时，可以使用"动态分区裁剪"，即基于运行时推断的信息来进一步进行分区裁剪。这在星型模型中很常见，星型模型是由一个或多个并且引用了任意数量的维度表的事实表组成。在这种连接操作中，我们可以通过识别维度表过滤之后的分区来裁剪从事实表中读取的分区。

Python简单实用的连点器仍稽 python
python中可以控制鼠标和键盘的库有很多个，这个连点器使用的是pynput库。首先，我们要先安装pynput库。pipinstallpynput如果觉得太慢了或者报错了，可以使用国内镜像。pipinstallpynput-ihttps://pypi.tuna.tsinghua.edu.cn/simple废话不多说，直接上程序。frompynput.keyboardimportKey,Contro
PythonOCC安装步骤与注意事项我们的武平工作室 IFC学习相关 python bim anaconda
ifcbimifcxmlifcowl交流群。群号：10275989842020-0113补充：有网友提到了pyqt的安装不正确，这里给大家找到了一份安装方式。我自己也是使用该链接的pip安装方式安装的。因此后文没提，以为大家这个点不是问题。总之，有问题再更新！[PyQt]在Windows系统中安装PyQt5-乐松-博客园https://www.cnblogs.com/syh6324/p/94842
Debian11之DataX安装大能嘚吧嘚 Linux_Debian 分布式调度中心大数据
下载github地址安装mkdir/usr/local/DataX&&cd/usr/local/DataXtar-zvxfdatax.tar.gz自检python/usr/local/DataX/bin/datax.py/usr/local/DataX/job/job.json
Debian11之Python3安装大能嘚吧嘚 Linux_Debian Python 后端 python
依赖环境aptupdate&&aptupgradeaptinstallwgetbuild-essentiallibncursesw5-devlibssl-devlibsqlite3-devtk-devlibgdbm-devlibc6-devlibbz2-devlibffi-devzlib1g-dev下载cduse/local/pythonwgethttps://www.python.org/ftp
网页中间件安全加固 jasonwgz 中间件安全 tomcat
一、APACHEWEB服务器软件，apache的程序名是httpd，服务的控制：systemctlstart/stop/statushttpdApache是一个静态网站程序，不能直接支持动态页面；若要支持动态页面，则需要整合其它程序，如要支持PHP动态页面：yuminstallphp-fpmphp-commonphp-develphp-mysqlndphp-mbstringphp-mcrypt安装
PythonOCC 环境配置幽殇默 Brep python
PythonOCC环境配置#OCC7.5.1condacreate--name=pyoccenvpython=3.7sourceactivatepyoccenvcondainstall-cconda-forgepythonocc-core=7.5.1#OCC7.7.0condacreate--name=pyoccenvpython=3.9activatepyoccenvcondainstall-c
Python 自制自动连点器黑客白泽 Python程序脚本 python android 开发语言
Python自制自动连点器1.简介：‌连点器‌是一种能够模拟鼠标点击操作的计算机软件，主要用于自动化和简化重复的鼠标点击任务。它可以根据用户设定的参数，自动进行连续的鼠标点击操作。连点器的工作原理是通过模拟鼠标点击动作，将用户设定的点击位置、点击频率、点击次数等参数转化为实际的鼠标点击操作。用户只需设置好相应的参数，按下热键即可启动连点器，实现自动化操作‌。2.运行效果：3.相关源码：#-*-co
Django ORM解决Oracle表多主键的问题 zZeal django python 后端 oracle
现状以Django3.2为例DjangoORM设计为默认使用单一主键（通常是自增的id字段），这一选择主要基于以下核心原因：简化ORM设计与操作统一访问方式外键关联简化避免歧义冲突主键语义明确防止隐式依赖性能与数据库兼容索引效率优化跨数据库兼容替代方案成熟unique_together约束Oracle现状原始业务表，很多都使用多主键。使用Django映射现有Oracle数据库无法处理多主键问题。O
使用Hint优化复杂SQL案例-1 老虎刘优化 sql 性能 hint
下面这个SQL，执行时间42.4分钟:SELECTABI.APPLY_POLICY_NO,ABI.SALE_NO,ABI.STATUS,QT.NOTICE_STATUSFROMAPPLY_BASE_INFOABI,QT_WAIT_TASK_INFOQTWHEREABI.APPLY_POLICY_NO=QT.VOUCHER_NOANDABI.CREATED_DATE>=TRUNC(SYSDATE-1
[Python办公]Nuitka 详细介绍与打包 Python 项目的步骤 William数据分析 python python 算法程序人生
Nuitka是一个将Python源代码编译为C/C++并生成二进制可执行文件的编译器。它不仅支持Python的所有特性，还能优化代码运行速度，并生成比解释型运行的Python更小的文件。相比于其他打包工具，如PyInstaller、cx_Freeze，Nuitka通过将Python编译为C提升性能，同时生成更高效的可执行文件。1.Nuitka的工作原理Nuitka并不像PyInstaller等工具
基于Python的Selenium详细教程总结（极简版） weixin_41663997 python selenium 开发语言
基于Python的Selenium详细教程总结一、PyCharm安装配置Selenium使用环境:Windows11,Python3.10.5,PyCharm2022.1.3,Selenium4.3.0需要技术:Python,HTML,CSS,JavaScriptSelenium安装:查看已安装的Python包:piplist安装Selenium4.3.0:pipinstallselenium==
java访问数据库视图_java 访问数据库视图金小夕 java访问数据库视图
工作多年调用视图到多次,自己写代码使用视图还是头一回,也觉得新鲜,那就开始呗,数据库系统是Oracle1我用的数据库连接客户端是Navicat,首先创建视图,其实视图就是调用表的操作,提取自己需要的数据放到视图下面,相对于java来说,可以把视图看成是特殊的表对待,这里说的特殊指的是通过hql语句调用访问数据库的时候涉及到关联表的问题.创建视图如下:然后通过myeclipse的hiberanger
oracle用hints调优,oracle性能优化之--hints 顾汐漫 oracle用hints调优
hints是oracle提供的一种机制，用来告诉优化器按照我们告诉它的方式生成执行计划。可以用hints来实现：1)使用的优化器的类型2)基于代价的优化器的优化目标，是all_rows还是first_rows。3)表的访问路径，是全表扫描，还是索引扫描，还是直接利用rowid。4)表之间的连接类型5)表之间的连接顺序6)语句的并行程度1、写HINT目的人为的改变SQL语句的执行计划2、HINT可以
MySQL优化系列9-MySQL控制查询优化器Hints 只是甲 MySQL从小工到专家之路 #MySQL优化 mysql hints MySQL调整执行计划
备注:测试数据库版本为MySQL8.0文章目录一.控制查询计划评估二.可切换的优化三.优化器的Hints3.1优化器Hints概述3.2优化器Hints语法3.3连接顺序优化器Hints3.4表级别的优化器Hints3.5索引级别优化器Hints3.6子查询相关优化器的Hints3.7语句执行时间优化器Hints3.8可变设定Hints语法3.9资源组Hint语法3.10命名查询块的优化器Hint
python中单，双引号和三个双引号的区别 tycoon1988
先说1双引号与3个双引号的区别，双引号所表示的字符串通常要写成一行如：s1="hello,world"如果要写成多行，那么就要使用/(“连行符”)吧，如s2="hello,/world"s2与s1是一样的。如果你用3个双引号的话，就可以直接写了，如下：s3="""hello,world,hahaha."""，那么s3实际上就是"hello,/nworld,/nhahaha.",注意“/n”，所以，
实验三数据库完整性技术计算机小白的笔记数据库 database
实验三数据库完整性技术【实验目的】1、掌握完整性的概念；2、熟悉MySQL的完整性技术。3、了解MySQL的违反完整性处理措施。【实验性质】验证性实验【实验学时】2H【实验内容】写出完整、详尽的SQL语句，根据实验记录结果并总结。(空位不够请自行续页)一、定义完整性。(5分)/*创建表s、p、j、spj*/定义s表；sno主码，sname非空、city缺省值定义p表；pno主码，pname非空、c
【Oracle中使用sta和hint进行性能优化】淦述昌性能优化 oracle 数据库
最近工作中遇到一个非常诡异的事情：sql直接执行快，在存过/匿名块/视图里面执行慢。查看语句的执行计划一模一样，通过对SQL的逐步分析，发现是后台实际的SQL_ID不一致导致的。本文用于对记录对于问题的分析步骤，以及用到的一些优化方式。一：优化思路：1：确定SQL卡在那个部分。将sql分解成一个个select，然后通过insertintotestselect……在直接执行和在declare匿名块中
python+selenium定位网页动态元素 + 定位非select（即input）的下拉列表 + 返回上一个函数进行保存操作心田婷 python 定位 selenium python
1、python+selenium定位网页动态元素这个折磨我快一天的小东西，磨的我都快想睡觉了网上大佬门的经验啥的都看遍了，或许是看到不够多，找了一天都没解决，然后现在终于找到了解决的办法！！！报错：selenium.common.exceptions.NoSuchElementException:Message:nosuchelement:Unabletolocateelement:{“meth
实验三数据库完整性 (头歌) 霸敛笔记数据库 sql oracle
实验三数据库完整性(头歌)制作不易！点个关注！给大家创造更多的价值！目录实验三数据库完整性(头歌)`制作不易！点个关注！给大家创造更多的价值！`第一关：定义s表完整性相关知识MySQL约束概述主键约束非空约束默认值约束查看表中的约束编程要求第二关：定义p表完整性相关知识MySQL检查约束（CHECK）编程要求代码如下：第3关：定义j表完整性编程要求代码如下：第4关：定义spj表完整性相关知识MyS
Python Django ORM qq_15654157 Python python
一、ORM介绍1.什么是ORM?ORM全拼Object-RelationMapping.中文意为对象-关系映射.在MVC/MVT设计模式中的Model模块中都包括ORM2.ORM优势（1）只需要面向对象编程,不需要面向数据库编写代码.对数据库的操作都转化成对类属性和方法的操作.不用编写各种数据库的sql语句.（2）实现了数据模型与数据库的解耦,屏蔽了不同数据库操作上的差异.不在关注用的是mysql
【Oracle篇】使用impdp导入报错ORA-39001:ORA-39000:ORA-39142:incompatible version number xxx in dump file的问题解决奈斯DB Oracle专栏 oracle 数据库
《博主介绍》：✨又是一天没白过，我是奈斯，从事IT领域✨《擅长领域》：✌️擅长阿里云AnalyticDBforMySQL(分布式数据仓库)、Oracle、MySQL、Linux、prometheus监控；并对SQLserver、NoSQL(MongoDB)有了解✌️大佬们都喜欢静静的看文章，并且也会默默的点赞收藏加关注如标题所示这篇文章是记录并分享一下使用数据泵导入时的报错，这个报错是博主在一年之
计算机毕业设计JAVA房屋租赁系统mybatis 煦洋cxsj985 mybatis java 开发语言
计算机毕业设计JAVA房屋租赁系统mybatis计算机毕业设计JAVA房屋租赁系统mybatis+源码+调试部署+系统+数据库+lw本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：ideaeclipse前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAVA运行环境：Win10、JDK1.8数据库：MySQL5.7/8.0源码地址：https://pan
大数据分析案例-基于逻辑回归算法构建抑郁非抑郁推文识别模型艾派森大数据分析案例合集机器学习人工智能 python 数据挖掘回归
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+喜欢大数据分析项目的小伙伴，希望可以多多支持该系列的其他文章大数据分析案例合集
Oracle 导入jar包:ora-29532 two_rain oracle jar oracle java
加载JAVA包loadjava‐u用户名/密码‐v‐resolvejar包.java**删除JAVA包：dropjava‐u用户名/密码‐vjar包.javajava引用报错需要加权限：SQL>GRANTEXECUTEONdbms_cryptoTO用户名;SQL>GRANTEXECUTEONdbms_javaTO用户名;SQL>此处省略创建sm4_encrypt函数SQL>selectsm4_en
oracle通过pid查找执行SQL two_rain oracle oracle sql 数据库
通过TOP命令查看PID:1560PIDUSERPRNIVIRTRESSHRS%CPU%MEMTIME+COMMAND1560oracle20038.978g0.038t16296R100.015.31069:13python3Main_Mem.pyProcessLog1config.ini通过spid查找对应SQL:1、SELECTaddrFROMv$processcWHEREc.spid=15
多线程与高并发（6）——CAS详解（包含ABA问题）李王家的翠花 java 多线程 java 开发语言
一、乐观锁和悲观锁乐观锁和悲观锁都是用于解决并发场景下的数据竞争问题，不局限于某种编程语言或数据库。1、乐观锁：就是很乐观，每次去拿数据的时候都认为别人不会修改，所以不会上锁，但是在更新的时候会判断一下在此期间别人有没有去更新这个数据。乐观锁的实现方式：主要有两种，一种是CAS机制，一种是版本号机制。（1）版本号机制：在数据中增加一个version字段用来表示该数据的版本号，每当数据被修改版本号就
掌握Python Selenium：网页元素自动化定位实战指南 jardonwang1 python selenium 自动化
一、Selenium框架介绍Selenium是一个用于自动化web应用程序测试的工具，它直接运行在浏览器中，就像真实用户在操作一样。这个框架支持多种浏览器（包括Chrome、Firefox、Safari等），并且可以在多种操作系统（Windows、Linux、macOS等）上运行。Selenium的主要目标是使自动化测试变得简单，以支持开发人员和测试人员快速编写测试用例。以下是Selenium框架
【python中级】安装nuitka打包工具 jn10010537 python 服务器开发语言
【python中级】安装nuitka打包工具1.背景2.nuitka简介3.nuitka安装4.nuitka文档1.背景最近发程序执行包，被人说程序包很大。比如python通过pyinstaller打包的可执行程序有30M，然而有同事通过C#编译的程序只有几百K；一度让领导觉得C#这个开发者在忽悠或者摸鱼。我感觉到有点尴尬，但是如果都需要解释一遍，显得苍白无力。虽然python开发效率是快，但是执
大sql如果不能加索引，还能怎么优化 —— hint学习 ckh_user 数据库 sql 数据库 oracle
大sql如果不能加索引，还能怎么优化当前问题：要执行简单查询sql【select字段1，字段2，……，字段40from表where条件groupby字段1，字段2，……，字段40】，但对应表里数据量大，且查询字段和groupby字段是由动态配置的，于是这里不方便加索引，普通查询耗时2个小时以上。解决方案：这里便用hint的并行解决，新的sql【select/*+parallel(8)*/字段1，字
Django ORM查询示例：获取主键为1的记录标题 Leon_Jinhai_Sun django 数据库 oracle
>>>Entry.objects.values_list('headline',flat=True).get(pk=1)'Firstentry'这段代码是使用Django框架的ORM（Object-RelationalMapping，对象关系映射）系统来查询数据库中的一条记录。下面是代码的详细解释：Entry.objects.values_list('headline',flat=True).ge
Spring的注解积累 yijiesuifeng spring 注解
用注解来向Spring容器注册Bean。需要在applicationContext.xml中注册： <context:component-scan base-package=”pagkage1[,pagkage2,…,pagkageN]”/>。如：在base-package指明一个包 <context:component-sc
传感器百合不是茶 android 传感器
android传感器的作用主要就是来获取数据,根据得到的数据来触发某种事件下面就以重力传感器为例; 1,在onCreate中获得传感器服务 private SensorManager sm;// 获得系统的服务 private Sensor sensor;// 创建传感器实例 @Override protected void
[光磁与探测]金吕玉衣的意义 comsci
这是一个古代人的秘密:现在告诉大家信不信由你们: 穿上金律玉衣的人,如果处于灵魂出窍的状态,可以飞到宇宙中去看星星这就是为什么古代
精简的反序打印某个数沐刃青蛟打印
以前看到一些让求反序打印某个数的程序。比如：输入123，输出321。记得以前是告诉你是几位数的，当时就抓耳挠腮，完全没有思路。似乎最后是用到%和/方法解决的。而今突然想到一个简短的方法，就可以实现任意位数的反序打印（但是如果是首位数或者尾位数为0时就没有打印出来了）代码如下： long num, num1=0;
PHP：6种方法获取文件的扩展名 IT独行者 PHP 扩展名
PHP：6种方法获取文件的扩展名 1、字符串查找和截取的方法 1 $extension = substr ( strrchr ( $file , '.' ), 1); 2、字符串查找和截取的方法二 1 $extension = substr
面试111 文强chu 面试
1事务隔离级别有那些，事务特性是什么（问到一次） 2 spring aop 如何管理事务的，如何实现的。动态代理如何实现，jdk怎么实现动态代理的，ioc是怎么实现的，spring是单例还是多例，有那些初始化bean的方式，各有什么区别（经常问） 3 struts默认提供了那些拦截器（一次） 4 过滤器和拦截器的区别（频率也挺高） 5 final，finally final
XML的四种解析方式小桔子 dom jdom dom4j sax
在平时工作中，难免会遇到把 XML 作为数据存储格式。面对目前种类繁多的解决方案，哪个最适合我们呢？在这篇文章中，我对这四种主流方案做一个不完全评测，仅仅针对遍历 XML 这块来测试，因为遍历 XML 是工作中使用最多的（至少我认为）。　　预备　　测试环境：　　AMD 毒龙1.4G OC 1.5G、256M DDR333、Windows2000 Server
wordpress中常见的操作 aichenglong 中文注册 wordpress 移除菜单
1 wordpress中使用中文名注册解决办法 1)使用插件 2)修改wp源代码进入到wp-include/formatting.php文件中找到 function sanitize_user( $username, $strict = false
小飞飞学管理-1 alafqq 管理
项目管理的下午题，其实就在提出问题（挑刺），分析问题，解决问题。今天我随意看下10年上半年的第一题。主要就是项目经理的提拨和培养。结合我自己经历写下心得对于公司选拔和培养项目经理的制度有什么毛病呢？ 1，公司考察，选拔项目经理，只关注技术能力，而很少或没有关注管理方面的经验，能力。 2，公司对项目经理缺乏必要的项目管理知识和技能方面的培训。 3，公司对项目经理的工作缺乏进行指
IO输入输出部分探讨百合不是茶 IO
//文件处理在处理文件输入输出时要引入java.IO这个包； /* 1，运用File类对文件目录和属性进行操作 2，理解流，理解输入输出流的概念 3，使用字节/符流对文件进行读/写操作 4，了解标准的I/O 5，了解对象序列化 */ //1，运用File类对文件目录和属性进行操作 //在工程中线创建一个text.txt
getElementById的用法 bijian1013 element
getElementById是通过Id来设置/返回HTML标签的属性及调用其事件与方法。用这个方法基本上可以控制页面所有标签，条件很简单，就是给每个标签分配一个ID号。返回具有指定ID属性值的第一个对象的一个引用。语法： &n
励志经典语录 bijian1013 励志人生
经典语录1: 哈佛有一个著名的理论：人的差别在于业余时间，而一个人的命运决定于晚上8点到10点之间。每晚抽出2个小时的时间用来阅读、进修、思考或参加有意的演讲、讨论，你会发现，你的人生正在发生改变，坚持数年之后，成功会向你招手。不要每天抱着QQ/MSN/游戏/电影/肥皂剧……奋斗到12点都舍不得休息，看就看一些励志的影视或者文章，不要当作消遣；学会思考人生，学会感悟人生
[MongoDB学习笔记三]MongoDB分片 bit1129 mongodb
MongoDB的副本集(Replica Set)一方面解决了数据的备份和数据的可靠性问题，另一方面也提升了数据的读写性能。MongoDB分片(Sharding)则解决了数据的扩容问题，MongoDB作为云计算时代的分布式数据库，大容量数据存储，高效并发的数据存取，自动容错等是MongoDB的关键指标。本篇介绍MongoDB的切片(Sharding) 1.何时需要分片 &nbs
【Spark八十三】BlockManager在Spark中的使用场景 bit1129 manager
1. Broadcast变量的存储，在HttpBroadcast类中可以知道 2. RDD通过CacheManager存储RDD中的数据，CacheManager也是通过BlockManager进行存储的 3. ShuffleMapTask得到的结果数据，是通过FileShuffleBlockManager进行管理的，而FileShuffleBlockManager最终也是使用BlockMan
yum方式部署zabbix ronin47 yum方式部署zabbix
安装网络yum库#rpm -ivh http://repo.zabbix.com/zabbix/2.4/rhel/6/x86_64/zabbix-release-2.4-1.el6.noarch.rpm 通过yum装mysql和zabbix调用的插件还有agent代理#yum install zabbix-server-mysql zabbix-web-mysql mysql-
Hibernate4和MySQL5.5自动创建表失败问题解决方法 byalias J2EE Hibernate4
今天初学Hibernate4，了解了使用Hibernate的过程。大体分为4个步骤： ①创建hibernate.cfg.xml文件 ②创建持久化对象 ③创建*.hbm.xml映射文件 ④编写hibernate相应代码在第四步中，进行了单元测试，测试预期结果是hibernate自动帮助在数据库中创建数据表，结果JUnit单元测试没有问题，在控制台打印了创建数据表的SQL语句，但在数据库中
Netty源码学习-FrameDecoder bylijinnan java netty
Netty 3.x的user guide里FrameDecoder的例子，有几个疑问： 1.文档说：FrameDecoder calls decode method with an internally maintained cumulative buffer whenever new data is received. 为什么每次有新数据到达时，都会调用decode方法？ 2.Dec
SQL行列转换方法 chicony 行列转换
create table tb(终端名称 varchar(10) , CEI分值 varchar(10) , 终端数量 int) insert into tb values('三星' , '0-5' , 74) insert into tb values('三星' , '10-15' , 83) insert into tb values('苹果' , '0-5' , 93)
中文编码测试 ctrain 编码
循环打印转换编码 String[] codes = { "iso-8859-1", "utf-8", "gbk", "unicode" }; for (int i = 0; i < codes.length; i++) { for (int j
hive 客户端查询报堆内存溢出解决方法 daizj hive 堆内存溢出
hive> select * from t_test where ds=20150323 limit 2; OK Exception in thread "main" java.lang.OutOfMemoryError: Java heap space 问题原因： hive堆内存默认为256M 这个问题的解决方法为：修改/us
人有多大懒，才有多大闲 (评论『卓有成效的程序员』) dcj3sjt126com 程序员
卓有成效的程序员给我的震撼很大，程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得做着重复单调的工作。在看这本书之前，我属于勤奋的人，而看完这本书以后，我要努力变成懒惰的人。不要在去庞大的开始菜单里面一项一项搜索自己的应用程序，也不要在自己的桌面上放置眼花缭乱的快捷图标
Eclipse简单有用的配置 dcj3sjt126com eclipse
1、显示行号 Window -- Prefences -- General -- Editors -- Text Editors -- show line numbers 2、代码提示字符 Window ->Perferences，并依次展开 Java -> Editor -> Content Assist，最下面一栏 auto-Activation
在tomcat上面安装solr4.8.0全过程 eksliang Solr solr4.0后的版本安装 solr4.8.0安装
转载请出自出处： http://eksliang.iteye.com/blog/2096478 首先solr是一个基于java的web的应用，所以安装solr之前必须先安装JDK和tomcat，我这里就先省略安装tomcat和jdk了第一步：当然是下载去官网上下载最新的solr版本，下载地址
Android APP通用型拒绝服务、漏洞分析报告 gg163 漏洞 android APP 分析
点评：记得曾经有段时间很多SRC平台被刷了大量APP本地拒绝服务漏洞，移动安全团队爱内测（ineice.com）发现了一个安卓客户端的通用型拒绝服务漏洞，来看看他们的详细分析吧。 0xr0ot和Xbalien交流所有可能导致应用拒绝服务的异常类型时，发现了一处通用的本地拒绝服务漏洞。该通用型本地拒绝服务可以造成大面积的app拒绝服务。针对序列化对象而出现的拒绝服务主要
HoverTree项目已经实现分层 hvt 编程 .net Web C#ASP.ENT
HoverTree项目已经初步实现分层，源代码已经上传到 http://hovertree.codeplex.com请到SOURCE CODE查看。在本地用SQL Server 2008 数据库测试成功。数据库和表请参考：http://keleyi.com/a/bjae/ue6stb42.htmHoverTree是一个ASP.NET 开源项目，希望对你学习ASP.NET或者C#语言有帮助，如果你对
Google Maps API v3: Remove Markers 移除标记天梯梦 google maps api
Simply do the following: I. Declare a global variable: var markersArray = []; II. Define a function: function clearOverlays() { for (var i = 0; i < markersArray.length; i++ )
jQuery选择器总结 lq38366 jquery 选择器
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
基础数据结构和算法六：Quick sort sunwinner Algorithm Quicksort
Quick sort is probably used more widely than any other. It is popular because it is not difficult to implement, works well for a variety of different kinds of input data, and is substantially faster t
如何让Flash不遮挡HTML div元素的技巧_HTML/Xhtml_网页制作刘星宇 html Web
今天在写一个flash广告代码的时候，因为flash自带的链接，容易被当成弹出广告，所以做了一个div层放到flash上面，这样链接都是a触发的不会被拦截，但发现flash一直处于div层上面，原来flash需要加个参数才可以。让flash置于DIV层之下的方法，让flash不挡住飘浮层或下拉菜单，让Flash不档住浮动对象或层的关键参数：wmode=opaque。方法如下：
Mybatis实用Mapper SQL汇总示例 wdmcygah sql mysql mybatis 实用
Mybatis作为一个非常好用的持久层框架，相关资料真的是少得可怜，所幸的是官方文档还算详细。本博文主要列举一些个人感觉比较常用的场景及相应的Mapper SQL写法，希望能够对大家有所帮助。不少持久层框架对动态SQL的支持不足，在SQL需要动态拼接时非常苦恼，而Mybatis很好地解决了这个问题，算是框架的一大亮点。对于常见的场景，例如：批量插入/更新/删除，模糊查询，多条件查询，联表查询，

PySpark（四）PySpark SQL、Catalyst优化器、Spark SQL的执行流程

PySpark SQL

基础

SparkSession对象

DataFrame入门

DataFrame构建

DataFrame代码风格

DSL

SQL

SparkSQL Shuffle 分区数目

DataFrame数据写出

Spark UDF

Catalyst优化器

Spark SQL的执行流程

Spark新特性

自适应查询(SparkSQL)

动态合并

动态调整Join策略

动态优化倾斜Join

动态分区裁剪(SparkSQL)

你可能感兴趣的:(PySpark,sql,数据库,python,spark)