qq_45973211

Spark SQL概述

1、介绍

Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。使用Spark SQL有两种方式，包括SQL语句以及Dataset API。Spark SQL的一个主要的功能就是执行SQL查询语句。Spark SQL也可以用来从Hive中查询数据。当我们使用某种编程语言开发的Spark作业来执行SQL时，返回的结果是Dataframe/Dataset类型的。当然，我们也可以通过Spark SQL的shell命令行工具，或者是JDBC/ODBC接口来访问。
Hive是将Hive SQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduce的程序的复杂性，由于MapReduce这种计算模型执行效率比较慢。所以Spark SQL的应运而生，它是将Spark SQL转换成RDD，然后提交到集群执行，执行效率非常快！

1.1 Hive和Shark

Spark SQL的前身是Shark,给熟悉RDBMS但又不理解mapreduce的技术人员提供快速上手的工具，Hive应运而生，它是当时唯一运行在hadoop上的SQL on hadoop工具。但是mapreduce计算过程中大量的中间磁盘落地过程消耗了大量的网络IO，降低了运行效率，为了提高SQL on hadoop的效率，大量的SQL on hadoop 工具开始产生，其中表现较为突出的是：mapR的Drill Cloudera的impala , shark。其中shark是伯克利实验室spark生态环境的组件之一，它修改了下图所示的右下角的内存管理，物理计划，执行三个模块，并使之能运行在spark引擎上，从而使得SQL查询的速度得到10-100倍的提升。

1.2 Shark和Spark SQL

随着Spark的发展，对于野心勃勃的Spark团队来说，shark对于hive的太多依赖（如采用hive的语法解析器，查询优化器等等），制约了spark的one stack rule them All的方针，制约了spark各个组件的相互集成，所以提出了Spark SQL项目。
Spark SQL抛弃原有shark的代码，汲取了shark的一些优点，如内存列存储，hive兼容性等，重新开发了Spark SQL代码；由于摆脱了对hive的依赖性，Spark SQL无论在数据兼容，性能优化，组建扩展方面都得到了极大的方便，真可谓“退一步，海阔天空”；

数据兼容方面：不但兼容hive，还可以从RDD，parquet文件，JSON文件中获取数据，未来版本甚至支持获取RDBMS数据以及cassandra等NOSQL数据；
性能优化方面：除了采取in memory columnar storage , byte code generation（内存列存储，生成字节码）等优化技术外，将会引进cost model 对查询进行动态评估，获取最佳物理计划等等；
组件扩展方面：无论是SQL的语法解析器，分析器，还是优化器，都可以重新定义，进行扩展。
2014年6月1日shark项目和Spark SQL项目的主持人reynold xin宣布：停止对shark的开发，团队将所有资源放到Spark SQL项目上，至此，shark的发展画上了句号，但也因此发展出两个直线：Spark SQL 和 hive on spark；其中Spark SQL作为spark生态的一员继续发展，而不再受限于hive，只是兼容hive；而hive on spark是一个hive的发展计划，该计划将spark作为hive的底层引擎之一，也就是说，hive将不再受限于一个引擎，可以采用mapreduce，tez,spark等引擎；

1.3 Spark SQL on Hive:

Spark 使用 sql，操作hive中的数据，hive起到存储的作用；
Hive操作，在Spark 2.0中，是支持读写hive中存储的数据的。但是，因为hive有较多的依赖，所以默认情况下，这些依赖没有包含在spark的发布包中。如果hive依赖可以在classpath路径中，那么spark会自动加载这些依赖。这些hive依赖必须在所有的worker node上都放一份，因为worker node上运行的作业都需要使用hive依赖的序列化与反序列化包来访问hive中的数据。
只要将hive-site.xml、hdfs-site.xml和core-site.xml都放入spark/conf目录下即可。
如果要操作Hive，那么构建SparkSession的时候，就必须启用Hive支持，包括连接到hive的元数据库，支持使用hive序列化与反序列化包，以及支持hive udf函数。
如果我们没有安装hive，也是可以启用hive支持的。如果我们没有放置hive-site.xml到spark/conf目录下，SparkSession就会自动在当前目录创建元数据库，同时创建一个spark.sql.warehouse.dir参数设置的目录，该参数的值默认是当前目录下的spark-warehouse目录。
在spark 2.0中，hive.metastore.warehouse.dir属性已经过时了，现在使用 spark.sql.warehouse.dir属性来指定hive元数据库的位置。

1.4 Hive on Spark:

Hive 起到存储和一部分计算的作用；（类似shark）

1.5 Spark SQL性能提升：

主要Spark SQL在几方面做了优化：

内存列存储：
Spark SQL的表数据在内存中存储不是采用原生态的JVM对象存储方式，而是采用了内存列存储，该存储方式无论在空间占用量，还是读取吞吐量，都占有很大优势；
字节码生成技术（CG）：
CG优化的实现主要依靠scala2.X的运行时反射机制；
Scala代码优化：
Spark SQL在使用Scala编写代码时，尽量避免低效的，容易GC的代码；尽管增加了编写代码的难度，但对于用户来说，还是使用统一的接口，并没有受到影响；
Predicate Pushdown (预言下推)：
Spark SQL对sql语句的优化；
举例：select table1.name,table2.score from table1 join table2 on (table1.id = table2.id)
where table1.age > 50 and table2.score > 90;
说明：按照sql的执行流程，先聚合，后过滤；按照预言下推优化，先过滤，再聚合；

2、特点

2.1 易整合

无缝地混合SQL查询与Spark程序。Spark SQL允许您使用SQL或熟悉的DataFrame API在Spark程序中查询结构化数据。可用于Java、Scala、Python和R。

2.2 统一的数据访问方式

以相同的方式连接到任何数据源。DataFrames和SQL提供了访问各种数据源的通用方法，包括Hive、Avro、Parquet、ORC、JSON和JDBC。您甚至可以通过这些源连接数据;

2.3 兼容Hive

在现有仓库上运行SQL或HiveQL查询。Spark SQL支持HiveQL语法以及Hive SerDes和udf，允许您访问现有的Hive仓库。

2.4 标准的数据兼容

通过JDBC或ODBC连接。服务器模式为业务智能工具提供行业标准的JDBC和ODBC连接。

3、DataFrame、Dataset、RDD之间的关系

在Spark SQL中Spark为我们提供了两个新的抽象，分别是DataFrame和DataSet。从版本的产生上来看：
RDD (Spark1.0) —> Dataframe(Spark1.3) —> Dataset(Spark1.6)
RDD、DataFrame、Dataset全都是Spark平台下的分布式弹性数据集，如果同样的数据都给到这三个数据结构，他们分别计算之后，都会给出相同的结果。不同是的他们的执行效率和执行方式。

3.1 DataFrame

Dataframe就是按列组织的Dataset。在逻辑概念上，可以大概认为Dataframe等同于关系型数据库中的表，或者是Python/R语言中的data frame，但是在底层做了大量的优化。Dataframe可以通过很多方式来构造：比如结构化的数据文件，Hive表，数据库，已有的RDD。Scala，Java，Python，R等语言都支持Dataframe。在Scala API中，Dataframe就是Dataset[Row]的类型别名。在Java中，需要使用Dataset来代表一个Dataframe。
与RDD类似，DataFrame也是一个分布式数据容器。然而DataFrame更像传统数据库的二维表格，除了数据以外，还记录数据的结构信息，即schema。同时，与Hive类似，DataFrame也支持嵌套数据类型（struct、array和map）。从API易用性的角度上看，DataFrame API提供的是一套高层的关系操作，比函数式的RDD API要更加友好，门槛更低。由于与R和Pandas的DataFrame类似，Spark DataFrame很好地继承了传统单机数据分析的开发体验。
DataFrame多了数据的结构信息，即schema。RDD是分布式的Java对象的集合。DataFrame是分布式的Row对象的集合。DataFrame除了提供了比RDD更丰富的算子以外，更重要的特点是提升执行效率、减少数据读取以及执行计划的优化，比如filter下推、裁剪等。
DataFrame是为数据提供了Schema的视图。可以把它当做数据库中的一张表来对待。DataFrame也是懒执行的。
性能上比RDD要高，主要有两方面原因：

定制化内存管理
数据以二进制的方式存在于非堆内存，节省了大量空间之外，还摆脱了GC的限制。
优化的执行计划
查询计划通过Spark catalyst optimiser进行优化。

Dataframe的劣势在于在编译期缺少类型安全检查，导致运行时出错.
Dataframe：untyped（无类型的）操作，有了SparkSession之后，就可以通过已有的RDD，Hive表，或者其他数据源来创建Dataframe，比如说通过json文件来创建。Dataframe提供了一种domain-specific language来进行结构化数据的操作，这种操作也被称之为untyped操作，与之相反的是基于强类型的typed操作。

3.2 Dataset

是DataFrame API的一个扩展，是Spark最新的数据抽象
用户友好的API风格，既具有类型安全检查也具有DataFrame的查询优化特性。
Dataset支持编解码器，当需要访问非堆上的数据时可以避免反序列化整个对象，提高了效率。
样例类被用来在Dataset中定义数据的结构信息，样例类中每个属性的名称直接映射到Dataset中的字段名称。
DataFrame是Dataset的特列，DataFrame=Dataset[Row] ，所以可以通过as方法将DataFrame转换为Dataset。Row是一个类型，跟Car、Person这些的类型一样，所有的表结构信息我都用Row来表示。
Dataset是强类型的。比如可以有Dataset[Car]，Dataset[Person]。

DataFrame只是知道字段，但是不知道字段的类型，所以在执行这些操作的时候是没办法在编译的时候检查是否类型失败的，比如你可以对一个String进行减法操作，在执行的时候才报错，而Dataset不仅仅知道字段，而且知道字段类型，所以有更严格的错误检查。就跟JSON对象和类对象之间的类比。
Dataset是一个分布式的数据集。Dataset是Spark 1.6开始新引入的一个接口，它结合了RDD API的很多优点（包括强类型，支持Lambda表达式等），以及Spark SQL的优点（优化后的执行引擎）。Dataset可以通过JVM对象来构造，然后通过transformation类算子（map，flatMap，filter等）来进行操作。Scala和Java的API中支持Dataset，但是Python不支持Dataset API。不过因为Python语言本身的天然动态特性，Dataset API的不少feature本身就已经具备了（比如可以通过row.columnName来直接获取某一行的某个字段）。R语言的情况跟Python也很类似。
Dataset：typed（强类型）操作，Dataset与RDD比较类似，但是非常重要的一点不同是，RDD的序列化机制是基于Java序列化机制或者是Kryo的，而Dataset的序列化机制基于一种特殊的Encoder，来将对象进行高效序列化，以进行高性能处理或者是通过网络进行传输。Dataset除了Encoder，也同时支持Java序列化机制，但是Encoder的特点在于动态的代码生成，同时提供一种特殊的数据格式，来让Spark不将对象进行反序列化，即可直接基于二进制数据执行一些常见的操作，比如filter、sort、hash等。

3.3 三者的共性

RDD、DataFrame、Dataset全都是Spark平台下的分布式弹性数据集，为处理超大型数据提供便利;
三者都有惰性机制，在进行创建、转换，如map方法时，不会立即执行，只有在遇到Action如foreach时，三者才会开始遍历运算，极端情况下，如果代码里面有创建、转换，但是后面没有在Action中使用对应的结果，在执行时会被直接跳过;
三者都会根据spark的内存情况自动缓存运算，这样即使数据量很大，也不用担心会内存溢出;
三者都有partition的概念;
三者有许多共同的函数，如filter，排序等;
在对DataFrame和Dataset进行操作许多操作都需要这个包进行支持;
DataFrame和Dataset均可使用模式匹配获取各个字段的值和类型。

3.4 三者的区别：

RDD:

RDD一般和spark mlib同时使用
RDD不支持Spark SQL操作

DataFrame:

与RDD和Dataset不同，DataFrame每一行的类型固定为Row，只有通过解析才能获取各个字段的值。
DataFrame与Dataset一般不与Spark mlib同时使用
DataFrame与Dataset均支持Spark SQL的操作，比如select，groupby之类，还能注册临时表/视窗，进行sql语句操作
DataFrame与Dataset支持一些特别方便的保存方式，比如保存成csv，可以带上表头，这样每一列的字段名一目了然利用这样的保存方式，可以方便的获得字段名和列的对应，而且分隔符（delimiter）可以自由指定。

Dataset:
Dataset和DataFrame拥有完全相同的成员函数，区别只是每一行的数据类型不同。
DataFrame也可以叫Dataset[Row],每一行的类型是Row，不解析，每一行究竟有哪些字段，各个字段又是什么类型都无从得知，只能用上面提到的getAS方法或者共性中的第七条提到的模式匹配拿出特定字段
而Dataset中，每一行是什么类型是不一定的，在自定义了case class之后可以很自由的获得每一行的信息。
DataFrame多了数据的结构信息，即schema。RDD是分布式的 Java对象的集合。DataFrame是分布式的Row对象的集合。DataFrame除了提供了比RDD更丰富的算子以外，更重要的特点是提升执行效率、减少数据读取以及执行计划的优化，比如filter下推、裁剪等。这样用户只需要指定自己的操作逻辑，DataFrame的优化器会帮助用户选择一条效率最优的执行路径。同时Tungsten优化使得DataFrame的存储和计算效率比RDD高很多。Spark的机器学习项目MLlib的ML pipeline就是完全基于DataFrame的，而且未来Streaming也会以DataFrame为核心。
DataSet以Catalyst逻辑执行计划表示，并且数据以编码的二进制形式被存储，不需要反序列化就可以执行sorting、shuffle等操作。
DataSet创立需要一个显式的Encoder，把对象序列化为二进制，可以把对象的scheme映射为Spark SQL类型，然而RDD依赖于运行时反射机制。
Dataset可以认为是DataFrame的一个特例，主要区别是Dataset每一个record存储的是一个强类型值而不是一个Row。这个强类型的值是以编码的二进制形式被存储的，这种存储格式可以不用反序列化就直接可以被上面的算子（例如sort，Shuffle等）操作。所以在创建Dataset的时候需要指定用于这个编码工作的Encoder。因此具有如下三个特点：

DataSet可以在编译时检查类型并且是面向对象的编程接口
DataFrame会继承DataSet，DataFrame是面向Spark SQL的接口.
DataFrame和DataSet可以相互转化， df.as[ElementType] 这样可以把DataFrame转化为DataSet， ds.toDF() 这样可以把DataSet转化为DataFrame。

从RDD发展到DataFrame、 Dataset的背后深层次原因:
因为spark的瓶颈在于内存和CPU，DataFrame的出现优化了算子的查询计划，同时依靠Tungsten计划逐渐摆脱对于JVM的依赖。

4、Spark SQL程序执行的入口

SQLContext：
要使用Spark SQL，首先就得创建一个SQLContext对象，或者是它的子类的对象，比如HiveContext的对象。

Java版本：
JavaSparkContext sc = ...; 
SQLContext sqlContext = new SQLContext(sc);

Scala版本：
val sc: SparkContext = ... 
val sqlContext = new SQLContext(sc)
import sqlContext.implicits._

SqlContext与HiveContext的区别：
SqlContext现在只支持SQL语法解析器（SQL-92标准）；
HiveContext现在既支持SQL语法解析器也支持HiveSQL语法解析器，默认是HiveSQL语法解析器，用户可以通过配置切换SQL语法解析器，来运行HiveContext不支持的语法。

Spark SQL程序执行入口分类：
1、SQLContext：只支持解析SQL语法；
2、HiveContext：是SQLContext的一个子类，既支持SQL语法，也支持HQL语法，默认是HiveSQL语法解析器，用户可以通过配置切换SQL语法解析器，来运行HiveContext不支持的语法；
3、SparkSession：是Spark2.0之后提供的全新的Spark SQL入口，相当于是SQLContext和HiveContext结合体，而且在SparkSession中也封装了一个SparkContext。

新的Spark SQL入口SparkSession
SparkSession：新的入口。从Spark 2.0开始，一个最大的改变就是，Spark SQL的统一入口就是SparkSession，SQLContext和HiveContext未来会被淘汰。可以通过SparkSession.builder()来创建一个SparkSession，如下代码所示。SparkSession内置就支持Hive，包括使用HiveSQL语句查询Hive中的数据，使用Hive的UDF函数，以及从Hive表中读取数据等。
在老的版本中，Spark SQL提供两种SQL查询起始点，一个叫SQLContext，用于Spark自己提供的SQL查询，一个叫HiveContext，用于连接Hive的查询。 SparkSession是Spark最新的SQL查询起始点，实质上是SQLContext和HiveContext的组合，所以在SQLContext和HiveContext上可用的API在SparkSession上同样是可以使用的。SparkSession内部封装了sparkContext，所以计算实际上是由sparkContext完成的。

import org.apache.spark.sql.SparkSession
val spark = SparkSession
.builder()
.appName("Spark SQL basic example")
.config("spark.some.config.option", "some-value")
.getOrCreate()
// For implicit conversions like converting RDDs to DataFrames
import spark.implicits._

SparkSession.builder：用于创建一个SparkSession。
import spark.implicits._ ：的引入是用于将DataFrames隐式转换成RDD，使df能够使用RDD中的方法。

如果需要Hive支持，则需要以下创建语句：

import org.apache.spark.sql.SparkSession
val spark = SparkSession
.builder()
.appName("Spark SQL basic example")
.config("spark.some.config.option", "some-value")
.enableHiveSupport()   // 使支持Hive
.getOrCreate()
// For implicit conversions like converting RDDs to DataFrames
import spark.implicits._

5、Spark SQL支持的数据源

内存中集合或者是RDD
外部存储结构化文件（csv，txt，json，parquet、…）（可以存储在本地，也可以存储在HDFS）
关系型数据库（MySQL,…）
支持Hive连接

6、RDD、DataFrame、Dataset三者之间的转换

RDD 转为DataFrame toDF
RDD 转为Dataset toDS
DataFrame转为RDD dataFrame.rdd
Dataset转为RDD dataset.rdd
DataFrame转为Dataset dataFrame.as[数据类型]
Dataset转为DataFrame dataset.toDF

数据分析师必看！20个高频SQL面试题+答案解析数分大拿的Statham sql java 数据库数据分析数据清洗
作者：数分大拿的Statham一、引言在数据分析岗位面试中，SQL是必考的核心技能。本文整理了20个高频出现的SQL面试真题，涵盖基础操作、进阶函数和实战场景，特别加入窗口函数等近年热门考点，助您快速掌握通关秘籍！二、基础篇（5题）Q1基础查询与过滤题目：查询订单表中2023年交易金额大于5000元的订单ID和用户ID，按金额降序排列。答案：SELECTorder_id,user_idFROMor
mysql插入数据java.sql.SQLException: Incorrect string value: ‘\xF0\x9F\x94\x97 B...‘ for column 问题修复代码先觉数据库 java mysql java 数据库
问题原因原因是Emoji表情或者某些特殊字符是4个字节，而MySQL的utf8编码最多3个字节，所以数据插不进去。这里可以看到编码确实不对解决方案方案1在mysql的安装目录下找到my.ini,作如下修改：[mysqld]character-set-server=utf8mb4[mysql]default-character-set=utf8mb4修改后重启Mysqlsudoservicemysq
数据库3（数据库指令） songx_99 数据库数据库 oracle sql
数据库指令以SQLserver为工具操作，点击页面上方新建查询按键，在出现的空白页写以下SQL语句，写完后，点击上方执行按钮，即可在下方看到查询结果注释格式为两条短线，后跟注释内容直接点击执行，会执行所有语句，得到多个查询结果的表格选中特定语句点击执行，可以只执行选中的语句数据库指令有几种类型：SELECT子句SELECT*FROMtitles–显示titles表的所有列所有信息，from后是查询
centos7正式服务器部署uwsgi+nginx+django项目-亲身研究[斜眼笑] pyswt Django centos python nginx centos
服务器是centos7的，首先从安装python3开始安装依赖包yuminstallzlib-develbzip2-developenssl-develncurses-develsqlite-develreadline-develtk-develgcc*make-y然后安装python3wgethttps://www.python.org/ftp/python/3.5.2/Python-3.5.2
HBase2.6.1部署文档 CXH728 zookeeper hbase
1、HBase概述ApacheHBase是基于Hadoop分布式文件系统（HDFS）之上的分布式、列存储、NoSQL数据库。它适合处理结构化和半结构化数据，能够存储数十亿行和数百万列的数据，并支持实时读写操作。HBase通常应用于需要快速随机读写、低延迟访问以及高吞吐量的场景，例如大规模日志处理、社交网络数据存储等。HBase特性列存储模型：HBase的数据是按列族存储的，适合高稀疏数据。行键分区
Hive-4.0.1版本部署文档 CXH728 hive hadoop 数据仓库
1.前置要求操作系统：建议使用CentOS7或Ubuntu20.04（本试验使用的是CentOSLinuxrelease7.9.2009(Core)）Java环境：建议安装Java8或更高版本。Hadoop：Hive需要依赖Hadoop进行分布式存储，建议安装Hadoop3.x版本（本实验采用的是hadoop3.3.6）。数据库：HiveMetastore需要数据库支持，建议使用MySQL、Pos
hive-3.1.3部署文档 CXH728 hive hadoop 数据仓库
提前准备一个正常运行的hadoop集群java环境hive安装包下载地址：https://archive.apache.org/dist/hive/hive-3.1.3/apache-hive-3.1.3-bin.tar.gzmysql安装包1、内嵌模式由于内嵌模式使用场景太少（基本不用），所以仅练习安装查看基础功能[root@master~]#tarxfapache-hive-3.1.3-bin
大数据面试之路 (三) mysql 愿与狸花过一生大数据面试职场和发展
技术选型通常也是被问道的问题，一方面考察候选人对技术掌握程度，另一方面考察对项目的理解，以及项目总结能力。介绍项目是从数据链路介绍，是一个很好来的方式，会让人觉得思路清晰，项目理解透彻。将SparkSQL加工后的数据存入MySQL通常基于以下几个关键原因：1.数据应用场景适配OLTP与OLAP分工：SparkSQL擅长处理大数据量的OLAP（分析型）任务，而MySQL作为OLTP（事务型）数据库，
【大数据入门】第三章·数据预处理十二月的猫《小白读透AI原理》大数据大数据入门人工智能入门数据处理
个人主页：十二月的猫-CSDN博客系列专栏：《小白读透AI原理》_十二月的猫的博客-CSDN博客十二月的寒冬阻挡不了春天的脚步，十二点的黑夜遮蔽不住黎明的曙光目录1.前言2.为什么要进行数据预处理2.1脏数据3.数据预处理分类4.数据清理4.1数据填充4.1.1数据缺失的类型1.完全随机缺失（MissingCompletelyatRandom,MCAR）2.随机缺失（MissingatRandom
Mysql在oracle的安装与配置（怕忘）薛定谔的码* mysql oracle 数据库
1、获取iso安装oracle：https://mirrors.tuna.tsinghua.edu.cn/openeuler/openEuler-24.03-LTS/ISO/x86_64/openEuler-24.03-LTS-x86_64-dvd.isoopenEuler-22.03-LTS-x86_64-dvd.iso2、安装os手动设置固定IP，建议大家网卡vmnet8网关：x.x.x.2D
《Python全栈开发》第1课：认识全栈开发与Web工作原理程序员没睡醒 Python全栈 python 前端开发语言
课程目标理解全栈开发的核心概念了解网站运行的底层原理建立全栈知识体系框架完成第一个网页实践一、什么是全栈开发？（用餐厅比喻）1.1餐厅后厨vs餐厅前厅顾客服务员点单厨师做菜传菜员送餐1.2对应到Web开发：餐厅角色Web开发对应关键技术服务员前端开发HTML/CSS/JavaScript厨师后端开发Python/Java/PHP传菜员数据库MySQL/MongoDB店长全栈工程师掌握所有环节二、网
MySQL 与 MongoDB 的区别 kse_music #DB mysql mongodb 数据库
文章目录前言一、如何选择二、索引总结前言在当今数据驱动的世界中，数据库技术扮演着至关重要的角色，它们为应用程序提供了存储、管理和检索数据的基础设施。MySQL和MongoDB作为两种广泛使用的数据库管理系统，分别代表了关系型数据库（SQL）和非关系型数据库（NoSQL）的典型范例。MySQL是一种成熟的关系型数据库管理系统（RDBMS），自1995年问世以来，凭借其稳定性、可靠性和易用性，成为了许
【存储中间件】MongoDB最热门NoSql数据库（一）：NoSQL、MongoDB介绍道友老李架构师进阶-存储中间件 nosql mongodb 中间件
文章目录1.MongoDb综述1.1.什么是Nosql1.2.什么是MongoDb**1.2.1核心特性****1.2.2典型应用场景****1.2.3与关系型数据库对比****1.2.4局限性及使用建议**个人主页：道友老李欢迎加入社区：道友老李的学习社区1.MongoDb综述1.1.什么是NosqlNoSQL（NotOnlySQL）是一类非关系型数据库的统称，其核心特征在于突破传统关系型数据库
初识开源云原生数仓Databend 开源项目精选云原生
Databend是一款开源的数据仓库产品，主要定位于OLAP场景，采用云原生架构理念（可对比snowflake），有非常好的扩展性、同时具备低成本、高性能的优势，兼容MySQL协议。Stars数8,245Forks数765主要特点针对对象存储平台进行优化的云原生架构。符合SQL:2011标准，支持复杂查询和数据版本回溯（时间旅行）功能。与流行的商业智能（BI）、提取、转换和加载（ETL）以及数据科
Mysql高频面试题 GentleDevin #Java面试宝典 mysql java 数据库
MVCC相关面试题1.什么是MVCC？它解决了什么问题？答：MVCC是多版本并发控制机制，它通过维护数据多个版本，实现非锁定读，解决了读写互斥问题，通过保存数据的多个版本，让读操作可以在不获取锁的情况下读取数据，提高了并发性能。同时，MVCC还能保证事务的隔离性，例如在可重复读隔离级别下，事务在整个执行过程中看到的数据是一致的。2.InnoDB中MVCC的实现原理是什么？答：主要通过为每行数据增加
python引号嵌套_【python】sql语句插入中内容同时包含单引号和双引号的解决办法... weixin_39520199 python引号嵌套
在python中调用MySQLdb模块插入数据信息，假设待输入信息data为：Hello'World"!其中同时包含了单引号和双引号一般插入语句为sql="insertintotb(my_str)values('%s')"%(data)cursor.execute(sql)其中values('%s')中的%s外面也要有引号，这个引号与data中的引号匹配导致了内容错误解决办法一:MySQLdb.e
Oracle/MySQL/PostgreSQL 到信创数据库数据同步简介笑远数据库数据同步详解数据库 python etl
Oracle/MySQL/PostgreSQL数据库同步到信创数据库的处理方案、注意事项及工具介绍在当前信息化快速发展的背景下，企业面临着多样化的数据库管理需求。尤其是将现有的Oracle、MySQL、PostgreSQL等主流数据库数据迁移或同步到国产信创（国产自主创新）数据库系统，如华为的GaussDB、达梦（Dameng）、人大金仓（Kingbase）等，成为了许多企业的实际需求。本文将详细
Websoft9 运维面板，全网真正的一键部署应用运维运维自动化
一、传统部署的复杂性：以WordPress为例的技术拆解手动部署的典型步骤（耗时约2小时）：#1.安装LAMP环境sudoaptinstallapache2mysql-serverphplibapache2-mod-phpphp-mysql#2.配置MySQL（需交互式设置root密码、创建数据库）sudomysql_secure_installationmysql-uroot-p-e"CREAT
【GreatSQL优化器-16】INDEX_SKIP_SCAN 数据库mysql
【GreatSQL优化器-16】INDEX_SKIP_SCAN一、INDEX_SKIP_SCAN介绍GreatSQL优化器的索引跳跃扫描（IndexSkipScan）是一种优化查询的技术，尤其在联合索引中用于减少扫描的无效行数。它通过"跳跃"式的扫描方式，避免了对索引中无用部分的扫描，从而提升查询效率。这种技术适合特定场景，并有一定的优缺点。索引跳跃扫描利用的是联合索引中非首列（非最左前缀）的索引
MySQL8官方YUM仓库使用指南
MySQL是一个非常流行的开源关系数据库管理系统，在各种应用场景中都得到了广泛的应用。随着版本的更新，MySQL8引入了许多新特性和性能提升，广泛受到开发者和企业的青睐。为了方便在各种Linux发行版中安装MySQL8，MySQL官方提供了YUM仓库。本指南将介绍如何使用MySQL8官方YUM仓库来安装和管理MySQL。YUM和YUM仓库简介YUM（YellowdogUpdater,Modifie
DeepSeek一键生成可视化看板 CodeJourney. 数据库算法人工智能能源
在当今数据驱动的时代，数据可视化已成为企业决策和分析的关键工具。然而，传统的数据可视化过程往往需要专业的技术知识和大量的时间成本，这对于许多非技术人员来说是一个巨大的挑战。不过，现在有了DeepSeek，这一切都变得轻松简单。本文将深入探讨DeepSeek一键生成可视化看板的强大功能，以及它如何改变我们处理数据的方式。一、数据可视化的重要性在大数据时代，数据的价值不言而喻。但原始数据往往是繁杂无序
使用Java开发工具包会遇到哪些问题 ios
哈喽，大家好呀，淼淼又来和大家见面啦，Java作为一门广泛应用于企业级应用、安卓开发、大数据处理等领域的编程语言，其强大的跨平台能力和丰富的类库支持吸引了无数开发者。然而，在使用Java开发工具包(JavaDevelopmentKit,简称JDK)的过程中，开发者往往会遇到各种问题。本文旨在探讨这些常见问题，并提供相应的解决策略，帮助开发者更高效地利用Java进行项目开发。环境配置问题问题描述：初
Hive实用小文件合并方案 500佰 Hive线上问题处理方案 hive hadoop 数据仓库大数据
#Hive常见故障#大数据#生产环境真实案例#Hive#离线数据库#整理#经验总结说明：此篇总结hive常见故障案例处理方案结合自身经历总结不易+关注+收藏欢迎留言Hive实用小文件合并方案请往下翻！！！更多Hive案例汇总方案(点击跳转)：Hive常见故障多案例维护宝典--项目总结(宝典一)Hive常见故障多案例维护宝典--项目总结(宝典二)目录内容如下：架构概述【1】参数及配置类常见故障执行s
大数据面试之路 (二) hive小文件合并优化方法愿与狸花过一生大数据大数据 hive hadoop
大量小文件容易在文件存储端造成瓶颈，影响处理效率。对此，您可以通过合并Map和Reduce的结果文件来处理。一、合并小文件的常见场景写入时产生小文件：Reduce任务过多或数据量过小，导致每个任务输出一个小文件。动态分区插入：分区字段基数高，每个分区生成少量数据，形成大量小文件。频繁追加数据：通过INSERTINTO多次追加数据，导致文件碎片化。二、合并小文件的核心方法方法1：调整Reduce任务
MySQL 8.4 突破创新，全新特性揭秘 web13093320398 面试学习路线阿里巴巴 mysql android 数据库
MySQL最新发布的MySQL8.4LTS,“LTS”代表“Long-TermSupport”（长期支持），是软件行业常用的术语之一。在软件开发中，LTS版本是指那些经过特别维护并提供长期支持的版本。通常，LTS版本会获得更长时间的更新和安全补丁支持，以确保它们能够在较长的时间内保持稳定和可靠。对于MySQL来说，发布LTS版本意味着这个版本将会得到更长时间的维护和支持，以满足用户的需求。MySQ
Deepin 基于Docker搭建Sql Server 2019数据库转悠的陀螺运维 docker 数据库 sql
前言SqlServer一般指MicrosoftSQLServer，是Microsoft公司推出的关系型数据库管理系统示例搭建环境：deepinV20+Docker20.10.12一、先决条件1)硬件环境配置要求硬盘最少6GB的可用硬盘空间，延展《磁盘空间要求》内存最低要求：ExpressEdition：512MB，所有其他版本：1GB推荐：ExpressEdition：1GB，所有其他版本：至少4
第八课：Scrapy框架入门：工业级爬虫开发 deming_su Python scrapy 爬虫 python
在当今大数据时代，数据抓取已成为信息获取的重要手段。Scrapy作为一个基于Python的开源网络爬虫框架，凭借其高效、灵活的特性，在工业级爬虫开发中占据重要地位。本文将详细介绍Scrapy框架的基本架构、工作流程、关键组件（如Spider类与ItemPipeline）以及中间件机制，并通过一个电商产品爬虫案例，展示如何使用Scrapy框架进行数据抓取。1.Scrapy架构与工作流程Scrapy架
使用flinkCDC监听 mysql 数据到mysql报错从零开始· mysql apache 数据库 flink flinkcdc
报错：java.lang.NoClassDefFoundError:org/apache/flink/table/api/TableException解决：完整依赖1.12.02.0.0org.apache.flinkflink-java${flink-version}org.apache.flinkflink-streaming-java_2.11${flink-version}org.apac
flink（十一）：Table&Sql实现窗口水印计算羽落风起大数据 flink flink
文章目录分享说明实现讲解代码总结分享大数据博客列表说明本博客每周五更新一次。本文属于实战，讲解Flink1.12版本java代码使用时间窗口加水印实现，具体需求为5秒内用户订单总数、订单最大金额、最小金额实现讲解代码结构分为5部分，准备环境env数据输入source模拟数据生成数据处理transformation创建水印、窗口执行任务基于sql和table风格实现对应功能数据输出sink启动任务e
MySQL 8.4 版本(LTS) 发布，一睹为快 m0_74823683 面试学习路线阿里巴巴 mysql adb android
前言Oracle前几天发布了MySQL8.4版本(LTS)，该版本是创新版的第一个长期支持版本。详细规划，请移步技术译文|一文了解MySQL全新版本模型关于MySQL的版本发布规划OracleMySQL官方开发团队推出的新版本将过渡到新的MySQL版本模型。MySQL8.1.0是第一个创新版本，8.0.34+将只进行错误修复，直到8.0生命周期结束（EOL，定于2026年4月）。MySQL8.x版
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，