Marho11

Spark SQL，DataFrames and DataSets Guide官方文档翻译

Spark SQL是一个结构化数据处理的Spark模块。

DataSets和DataFrames

一个DataSet是一个分布式数据集合，类似于RDDs。可以构建于JVM对象，并用函数式transformation（map，flatMap，filter等）。Python没有DataSet API的支持。

一个DataFrame就是一个以命名列进行整合的DataSet。类似于关系型数据库中的表。

DataFrames可以通过多种数据源进行构建：结构化数据文件，Hive中的表，外部数据库，已有的RDD。

出发点：SparkSession

Spark程序的入口是SparkSession，一个SparkSession可以用来创建DataFrame，将DataFrame注册为表，在表上执行SQL，缓存表和读取parquet文件。只用SparkSession.builder就可以创建一个基本的SparkSession对象：

from pyspark.sql import SparkSession
spark = SparkSession\
    .builder\
    .appName("PythonSQL")\
    .config("spark.some.config.option", "some-value")\
    .getOrCreate()

Spark2.0中的SparkSession提供对Hive特征的内部支持：用HiveQL写query语句，访问Hive UDFs，从Hive表中读取数据。为了只用这些操作支持，不需要安装Hive？？。

创建DataDrames

有SparkSession对象后，应用就可以根据已有的RDD、Hive表或者Spark数据源创建DataFrame。

小栗子：

#根据一个json文件创建一个DataFrame

df= spark.read.json("examples/src/main/resources/people.json")

#在标准输出中显示DataFrame的内容

df.show()

Untyped Dataset Operations (aka DataFrame Operations)

DataFrames在python中为机构化数据处理提供了一个domain-specific语言。

在Python中，有两种方式来访问DataFrame的列：通过属性（df.age），通过索引（df['age']）。推荐使用后者，不会将列名、同时也是DataFrame类的属性混淆。

# spark is an existing SparkSession

# Create the DataFrame
df = spark.read.json("examples/src/main/resources/people.json")

# Show the content of the DataFrame
df.show()
## age  name
## null Michael
## 30   Andy
## 19   Justin

# Print the schema in a tree format
df.printSchema()
## root
## |-- age: long (nullable = true)
## |-- name: string (nullable = true)

# Select only the "name" column
df.select("name").show()
## name
## Michael
## Andy
## Justin

# Select everybody, but increment the age by 1
df.select(df['name'], df['age'] + 1).show()
## name    (age + 1)
## Michael null
## Andy    31
## Justin  20

# Select people older than 21
df.filter(df['age'] > 21).show()
## age name
## 30  Andy

# Count people by age
df.groupBy("age").count().show()
## age  count
## null 1
## 19   1
## 30   1

详细的API看官方文档（ http://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.DataFrame）

执行SQL查询程序

SparkSession的sql函数可以运行SQL查询，结果以DataFrame的数据格式返回。

# spark is an existing SparkSession
df = spark.sql("SELECT * FROM table")

和RDDs互操作

Spark SQL有两种不同的方法将已存在的RDDs转换成DataSets。

1、使用反射来获取包含特定对象类型的RDD内的schema。

当已知schema的时，使用基于反射的方法会使得代码更简洁，效果更好。

2、通过编程接口创建schema，并将其应用到已有的RDD上。

当运行时才知道列和列类型的情况下，允许你创建DataSets。

使用反射获取schema

Spark SQL可以将Row对象格式的RDD转换成 DataFrame ，并推断其类型。Rows是通过向Row类传入一个key/value对列表作为关键字参数来构建。列表的keys定义了表的列名，通过抽样整个数据集来推断类型，类似于推断json文件。

步骤大致以下两步：

1、将原来的RDD转换成Row格式的RDD。

2、通过SparkSession提供的createDataFrame创建一个DataFrame。

之后就可以通过DataFrame的 createOrReplaceTempView("tablename")将其创建或者替换一个临时视图，即表tablename。就可以用spark.sql方法在表tablename上运行SQL语句了。

# spark is an existing SparkSession.
from pyspark.sql import Row
sc = spark.sparkContext

# 加载一个text文件，并将每一行转换成一个Row对象。
lines = sc.textFile("examples/src/main/resources/people.txt")
parts = lines.map(lambda l: l.split(","))
# parts.collect()
#输出：[[u'Michael', u' 29'], [u'Andy', u' 30'], [u'Justin', u' 19']]  
people = parts.map(lambda p: Row(name=p[0], age=int(p[1])))
#people.collect()
#输出：[Row(age=29, name=u'Michael'), Row(age=30, name=u'Andy'), Row(age=19, name=u'Justin')]
# Infer the schema, and register the DataFrame as a table.
schemaPeople = spark.createDataFrame(people)#创建一个DataFrame
schemaPeople.createOrReplaceTempView("people")#用这个DataFrame创建或者替换一个临时视图people（可以认为people是一张表）
# SQL can be run over DataFrames that have been registered as a table.
teenagers = spark.sql("SELECT name FROM people WHERE age >= 13 AND age <= 19")
# The results of SQL queries are RDDs and support all the normal RDD operations.
teenNames = teenagers.map(lambda p: "Name: " + p.name)
for teenName in teenNames.collect():
  print(teenName)
# 官网说SQL查询结果是RDDs，可以用所有RDD的操作，但是我这里查询结果是DataFrame：
>>> type(teenagers)

但当调用map时说DataFrame没有这个map方法。

>>> teenagers.collect()
[Row(name=u'Justin')]

可以看出，teenagers的元素类型是Row，

for t in teenagers.collect():
...     print(t['name'])
输出Justin。

通过编程接口指定schema

当一个dictionary关键字参数不能被提前定义（如，records结构被编码成string，或者解析一个text数据集且根据不同用户划分不同fields），可通过以下三步创建一个 DataFrame ：

1、基于原来的RDD创建一个tuples或lists的RDD。

2、创建与RDD中tuples或lists结构相匹配的StructType，通过该StructType创建表示RDD的schema。

3、通过SparkSession提供的createDataFrame方法将schema应用到RDD创建一个DataFrame。

之后就可以通过DataFrame的 createOrReplaceTempView("tablename")将其创建或者替换一个临时视图，即表tablename。就可以用spark.sql方法在表tablename上运行SQL语句了。

# Import SparkSession and data types
from pyspark.sql.types import *

# spark is an existing SparkSession.
sc = spark.sparkContext

# Load a text file and convert each line to a tuple.
lines = sc.textFile("examples/src/main/resources/people.txt")
parts = lines.map(lambda l: l.split(","))
people = parts.map(lambda p: (p[0], p[1].strip()))

# The schema is encoded in a string.
schemaString = "name age"

fields = [StructField(field_name, StringType(), True) for field_name in schemaString.split()]
schema = StructType(fields)

# Apply the schema to the RDD.
schemaPeople = spark.createDataFrame(people, schema)#创建一个DataFrame

# Creates a temporary view using the DataFrame
schemaPeople.createOrReplaceTempView("people")

# SQL can be run over DataFrames that have been registered as a table.
results = spark.sql("SELECT name FROM people")

# The results of SQL queries are DataFrame
for name in results.collect():
    print name

数据源

Spark SQL通过DataFrame接口支持多种数据源的操作。一个DataFrame可以进行relational转换，也可以注册为临时表后执行SQL查询操作。

常用的加载/保存函数

Spark SQL默认数据源是parquet格式的。

df = spark.read.load("examples/src/main/resources/users.parquet")
df.select("name", "favorite_color").write.save("namesAndFavColors.parquet")

手动指定选项

当数据源格式不是parquet时，需手动指定数据源的格式。数据源格式需要指定全名（例如：org.apache.spark.sql.parquet），但如果数据源是内置格式，只需指定简称（json，parquet，jdbc）。通过指定数据源格式，可以对DataFrames进行类型转换操作。

df = spark.read.load("examples/src/main/resources/people.json", format="json")
df.select("name", "age").write.save("namesAndAges.parquet", format="parquet")

直接在文件上执行SQL

除了使用read API将文件加载成DataFrame并执行查询，也可以直接在文件上用SQL执行查询。

df= spark.sql("SELECT * FROM parquet.`examples/src/main/resources/users.parquet`")

存储模式

可以采用SaveMode执行存储操作，SaveMode定义了对数据的处理模式。需要注意的是，这些保存模式不使用任何锁定，不是原子操作。此外，当使用Overwrite方式执行时，在输出新数据之前原数据就已经被删除。

SaveMode详细介绍如下表：

Spark SQL，DataFrames and DataSets Guide官方文档翻译_第1张图片

通过使用saveAsTable命令，可以将DataFrames持久化到表中。已有的Hive部署不需要使用这个特性，Spark将会创建一个默认的本地Hive 元数据库。和createOrRepalceTempView不同的是，saveAsTable会实体化DataFrame的内容，并且会在Hive 元数据库中创建一个指针指向该数据。只要维护与同一个元数据库的连接，即使你重启Spark程序，那个持久化的表仍然会存在。通过使用SparkSession的table方法，并以表名为参数，就可以创建一个和DataFrame一样的持久化表。

默认情况下，saveAsTable方法将创建一个“managed table”，意味着数据的位置受元数据库控制。当表被删除后，managed table也会删除存储的数据。

Parquet文件

Parquet是多种数据处理系统支持的列式数据格式。该文件保留了原始数据的模式，Spark SQL提供了parquet文件的读写操作。

读取Parquet文件
例子：

schemaPeople.write.parquet("people.parquet")#schemaPeople是上边例子创建的DataFrame，parquet方法将DataFrame内容以Parquet的格式进行保存，维持着schema信息。
# Read in the Parquet file created above. Parquet files are self-describing so the schema is preserved.
# The result of loading a parquet file is also a DataFrame.
parquetFile = spark.read.parquet("people.parquet")
#Parquet文件也可以用来创建一个临时的view，然后用于SQL语句中
parquetFile.createOrReplaceTempView("parquetFile");
teenagers = spark.sql("SELECT name FROM parquetFile WHERE age >= 13 AND age <= 19")
for teenName in teenNames.collect():
  print(teenName)

分区解析
在类似于Hive的系统中，对表进行分区是对数据进行优化的方式之一。在一个分区的表中，数据通过分区列将数据存储在不同的目录下。Parquet数据源现在能够自动发现并解析分区信息。例如，对人口数据进行分区存储，分区列为gender和country，使用下面的目录结构：

path
└── to
    └── table
        ├── gender=male
        │   ├── ...
        │   │
        │   ├── country=US
        │   │   └── data.parquet
        │   ├── country=CN
        │   │   └── data.parquet
        │   └── ...
        └── gender=female
            ├── ...
            │
            ├── country=US
            │   └── data.parquet
            ├── country=CN
            │   └── data.parquet
            └── ...

通过将path/to/table传递给SparkSession.read.parquet或SparkSession.read.load，Spark SQL可以根据路径自动解析分区信息。返回的DataFrame的schema如下：

root
|-- name: string (nullable = true)
|-- age: long (nullable = true)
|-- gender: string (nullable = true)
|-- country: string (nullable = true)

需要注意的是，分区列的数据类型是自动解析的。当前支持数值类型和string类型。有时用户不希望自动解析分区列的数据类型，自动解析分区类型的参数为：park.sql.sources.partitionColumnTypeInference.enabled，默认值为true。如果想关闭该功能，直接将该参数设置为disabled。此时，分区列数据格式将被默认设置为string类型，不再进行类型解析。

从Spark1.6开始，分区解析只有在默认给定的路径下才会发现分区。对于上面的例子，如果用户将path/to/table/gender=male传给SparkSession.read.parquet或SparkSession.read.load，gender不会被当做分区列。如果用户需要指定分区解析开始的基本路径，可以在数据源 options中设置basePath。例如，当path/to/table/gender=male是数据的路径时，用户设置basePath的值为path/to/table/，那么gender就会成为分区列。

Schema合并

像ProtocolBuffer、Avro和Thrift，Parquet也支持schema evolution（schema演变）。用户可以先定义一个简单的Schema，然后逐渐的向Schema中增加列描述。通过这种方式，用户可以获取多个有不同Schema但相互兼容的Parquet文件。现在Parquet数据源能自动检测这种情况，并合并这些文件的schemas。

因为schema合并是一个高消耗的操作，很多情况下是不需要的，所以从1.5开始默认关闭了这个功能。可以通过以下两种方式开启：

1、当数据源是Parquet文件时，将数据源选项mergeSchema设置为true（如下面的例子）。

2、将全局SQL选项spark.sql.parquet.mergeSchema设置为true。

# spark from the previous example is used in this example.

# Create a simple DataFrame, stored into a partition directory
df1 = spark.createDataFrame(sc.parallelize(range(1, 6))\
                                   .map(lambda i: Row(single=i, double=i * 2)))
df1.write.parquet("data/test_table/key=1")

# Create another DataFrame in a new partition directory,
# adding a new column and dropping an existing column
df2 = spark.createDataFrame(sc.parallelize(range(6, 11))
                                   .map(lambda i: Row(single=i, triple=i * 3)))
df2.write.parquet("data/test_table/key=2")

# Read the partitioned table
df3 = spark.read.option("mergeSchema", "true").parquet("data/test_table")
df3.printSchema()

# The final schema consists of all 3 columns in the Parquet files together
# with the partitioning column appeared in the partition directory paths.
# root
# |-- single: int (nullable = true)
# |-- double: int (nullable = true)
# |-- triple: int (nullable = true)
# |-- key : int (nullable = true)

Hive metastore Parquet表转换

当向Hive metastore读写Parquet表时，为了更好地性能，Spark SQL将使用自带的Parquet SerDe，而不用Hive的SerDe（SerDe：Serialize/Deserialize的简称，目的是用于序列化和反序列化）。这个优化的配置参数为spark.sql.hive.convertMetastoreParquet，默认是开启的。

Hive/Parquet Schema反射（Reconciliation）

从表schema处理的角度来看，Hive和Parquet有两个主要区别：

1、Hive不区分大小写（ is case insensitive），而Parquet区分大小写。

2、Hive允许所有列为空，而Parquet中的空是有重要意义的。

由于这两个区别，当我们将Hive metastore Parquet表转换成Spark SQL Parquet表时，需要将Hive metastore schema 和Parquet schema一致化，一致化规则如下：

1、两个schema中同名的字段必须具有相同的数据类型。一致化后的字段必须为Parquet的字段类型，所以空值是很重要的（ nullability is respected）。

2、一致化后的schema只包含那些在Hive metastore schema中定义的字段。

（1）在一致化后的schema中忽略只出现在Parquet schema的字段。

（2）将只出现在Hive metastore schema的字段设为nullable字段，并加到一致化后的schema中。

元数据刷新

为了更好的性能，Spark SQL 缓存了Parquet 元数据。当Hive metastore Parquet表转换是enabled时，那些转换后的表的元数据也能够被缓存。当表被Hive或其他工具更新后，为了保证元数据的一致性，需要手动刷新元数据。示例：

# spark is an existing HiveContext
spark.refreshTable("my_table")

配置

可以使用SparkSession的setConf方法来配置Parquet，或者使用SQL执行SET key==value命令。

Spark SQL，DataFrames and DataSets Guide官方文档翻译_第2张图片

JSON 数据集

Spark SQL可以自动解析JSON数据集的schema，读取JSON数据集为DataFrame格式。读取JSON文件可以用SparkSession.read.json方法。

需要注意的是，这里的JSON文件不是常规的JSON文件。JSON文件每一行必须包含一个独立有效的JSON对象。所以，如果读取的是多行描述一个JSON对象的文件，就会导致出错。

示例如下：

# spark is an existing SparkSession.

# A JSON dataset is pointed to by path.
# The path can be either a single text file or a directory storing text files.
people = spark.read.json("examples/src/main/resources/people.json")

# The inferred schema can be visualized using the printSchema() method.
people.printSchema()
# root
#  |-- age: long (nullable = true)
#  |-- name: string (nullable = true)

# Creates a temporary view using the DataFrame.
people.createOrReplaceTempView("people")

# SQL statements can be run by using the sql methods provided by `spark`.
teenagers = spark.sql("SELECT name FROM people WHERE age >= 13 AND age <= 19")

# Alternatively, a DataFrame can be created for a JSON dataset represented by
# an RDD[String] storing one JSON object per string.
anotherPeopleRDD = sc.parallelize([
  '{"name":"Yin","address":{"city":"Columbus","state":"Ohio"}}'])
anotherPeople = spark.jsonRDD(anotherPeopleRDD)该行会报错：'SparkSession' object has no attribute 'jsonRDD'
应该是没有这个方法。

Hive表

Spark SQL也支持读写Hive中的数据。然后，Hive有大量的依赖包，这些依赖包在Spark distribution中是没有的。如果Hive的依赖可以在classpath中搜索到，Spark可以自动加载。注意，这些依赖也必须分布到所有的worker节点上，因为为了能够访问Hive中的数据，节点会调用Hive的序列化和反序列化库（SerDes）。

Hive的配置文件是conf/目录下的hive-site.xml，core-site.xml (for security configuration)和hdfs-site.xml（for HDFS configuration）。

操作Hive时，必须实例化一个Hive支持的SparkSession对象，连接着一个持久化的mHive metastore，支持Hive serdes和Hive的用户自定义函数。即使用户没有现有的Hive部署，也能够使Hive支持。当没有通过hive-site.xml配置时，context会自动在当前目录下创建metastore_db，同时创建一个由spark.sql.warehouse.dir指定的目录，默认为当前目录下的spark-warehouse目录，这是spark应用开始的地方。注意，从Spark2.0.0开始hive-site.xml文件中的hive.metastore.warehouse.dir属性被弃用。用spark.sql.warehouse.dir来指定数据仓库中数据库的位置。也许需要给那个启动spark应用的用户授予写权限。

# spark is an existing SparkSession
spark.sql("CREATE TABLE IF NOT EXISTS src (key INT, value STRING)")
spark.sql("LOAD DATA LOCAL INPATH 'file:///opt/spark/spark-2.0.0-bin-hadoop2.7/examples/src/main/resources/kv1.txt' INTO TABLE src")

# Queries can be expressed in HiveQL.
results = spark.sql("FROM src SELECT key, value").collect()

和不同版本的Hive metastore交互

Spark SQL提供的Hive支持最重要一点是可以和Hive metastore进行交互，使得Spark SQL能够访问Hive表的元数据。从Spark1.4.0开始，Spark SQL只需下面简单的配置，就支持各版本Hive metastore的访问。注意，涉及到metastore时Spar SQL忽略了Hive的版本。Spark SQL内部将Hive反编译至Hive 1.2.1版本，Spark SQL的内部操作(serdes, UDFs, UDAFs, etc)都调用Hive 1.2.1版本的class。版本配置项见下面表格：

Spark SQL，DataFrames and DataSets Guide官方文档翻译_第3张图片

JDBC To Other Databases

Spark SQL通过JDBC访问其他数据库。当使用JDBC访问其他数据库时，应该首选JdbcRDD（scala）。这是因为结果是以DataFrame的格式返回的，且Spark SQL处理DataFrame会很容易，也会很方便的添加其他数据源。因为JDBC数据源不需要用户提供ClassTag，所以很适合使用Java或Python进行操作（注意，这和允许其他应用使用Spark SQL执行查询操作的Spark SQL JDBC server是不同的）。

使用JDBC访问数据源，需要在spark classpath添加JDBC driver配置。例如，为了从Spark Shell连接postgres，需要运行下面的命令：

bin/spark-shell --driver-class-path postgresql-9.4.1207.jar --jars postgresql-9.4.1207.jar

通过调用数据源API，远程数据库的表可以被加载为DataFrame或Spark SQL临时表。下面的选项是支持的：

Spark SQL，DataFrames and DataSets Guide官方文档翻译_第4张图片

df = spark.read.format('jdbc').options(url='jdbc:postgresql:dbserver', dbtable='schema.tablename').load()

故障排除

1、在客户端 session和所有的executors上，JDBC driver类必须对启动类加载器（primordial class loader）是visible。这是因为当创建一个connection时，Java的DriverManager类会执行安全验证，安全认证将忽略所有对启动类加载器为非visible的driver。一个方便的解决办法是修改所有worker节点上的compute_classpath.sh脚本，将driver JARs添加至脚本。

2、有些数据库（如H2）将所有名字转换为大写，所以在Spark SQL中也需要将名字全部大写。

性能调优

通过缓存数据至内存或开启某些选项，可以提升一些作业负荷的性能。

缓存数据至内存

Spark SQL可以通过调用spark.cacheTable('tableName')或dataFrame.cache()，使用一种柱状格式将表缓存到内存中。然后Spark SQL在执行查询任务时，只需扫描必须的列，还可以自动调节压缩，从而达到最小化内存使用率和降低GC压力的目的。可以调用spark.uncacheTable("tableName")将表从内存中移除。

可通过两种配置方式开启缓存数据功能：

1、使用SparkSession的setConf方法

2、执行SQL的SET key=value命令

Spark SQL，DataFrames and DataSets Guide官方文档翻译_第5张图片

其他配置选项

下面的选项也可以用来调整查询执行的性能。在将来的版本中，这些选项有可能会被弃用，会增强自动调优功能。

Spark SQL，DataFrames and DataSets Guide官方文档翻译_第6张图片

分布式SQL引擎（ 待看）

使用Spark SQL的JDBC/ODBC或者CLI，可以将Spark SQL作为一个分布式查询引擎。终端用户或应用不需要编写额外的代码，可以直接使用Spark SQL执行SQL查询。

运行Thrift JDBC/ODBC服务

这里运行的Thrift JDBC/ODBC服务与Hive 1.2.1中的HiveServer2一致。可以在Spark目录下执行如下命令来启动JDBC/ODBC服务：

./sbin/start-thriftserver.sh

这个命令接收所有 bin/spark-submit 命令行参数，添加一个 --hiveconf 参数来指定Hive的属性。详细的参数说明请执行命令 ./sbin/start-thriftserver.sh --help 。

服务默认监听端口为localhost:10000。有两种方式修改默认监听端口：

1、修改环境变量：

export HIVE_SERVER2_THRIFT_PORT=

export HIVE_SERVER2_THRIFT_BIND_HOST=

./sbin/start-thriftserver.sh \

--master \

...

2、修改系统属性

./sbin/start-thriftserver.sh \

--hiveconf hive.server2.thrift.port= \

--hiveconf hive.server2.thrift.bind.host= \

--master

...

使用 beeline 来测试Thrift JDBC/ODBC服务：

./bin/beeline

连接到Thrift JDBC/ODBC服务

beeline> !connect jdbc:hive2://localhost:10000

在非安全模式下，只需要输入机器上的一个用户名即可，无需密码。在安全模式下，beeline会要求输入用户名和密码。

配置Hive需要替换 conf/ 目录下的 hive-site.xml。

Thrift JDBC服务也支持通过HTTP传输发送thrift RPC messages。开启HTTP模式需要将下面的配参数配置到系统属性或 conf/: 下的 hive-site.xml中

hive.server2.transport.mode - Set this to value: http

hive.server2.thrift.http.port - HTTP port number fo listen on; default is 10001

hive.server2.http.endpoint - HTTP endpoint; default is cliservice

测试http模式，可以使用beeline链接JDBC/ODBC服务：

beeline> !connect jdbc:hive2://:/?

hive.server2.transport.mode=http; hive.server2.thrift.http.path=

运行Spark SQL CLI

Spark SQL CLI可以很方便的在本地运行Hive元数据服务以及从命令行执行查询任务。需要注意的是，Spark SQL CLI不能与Thrift JDBC服务交互。

在Spark目录下执行如下命令启动Spark SQL CLI：

./bin/spark-sql

配置Hive需要替换 conf/ 下的 hive-site.xml 。执行 ./bin/spark-sql --help 可查看详细的参数说明。

与Hive的兼容

Spark SQL与Hive Metastore，SerDes，UDFs兼容。当前Hive SerDes和UDFs是基于Hive1.2.1，Spark SQL兼容Hive Metastore从0.12到1.2.1的所有版本。

在Hive Warehouses中部署Spark SQL

Spark SQL Thrift JDBC服务与Hive相兼容，在已存在的Hive上部署Spark SQL Thrift服务不需要对已存在的Hive Metastore做任何修改，也不需要对数据做任何改动。

Spark SQL支持的Hive特性

Spark SQL支持大多数Hive特性，如：

Hive查询语句，包括：
    SELECT
    GROUP BY
    ORDER BY
    CLUSTER BY
    SORT BY
所有Hive运算符，包括
    比较操作符（=, ⇔, ==, <>, <, >, >=, <=, etc）
    算术运算符（+, -, *, /, %, etc）
    逻辑运算符（AND, &&, OR, ||, etc）    
    复杂类型构造器
    数学函数（sign,ln,cos,etc）
    字符串函数（instr,length,printf,etc）
用户自定义函数（UDF）
用户自定义聚合函数（UDAF）
用户自定义序列化格式器（SerDes）
窗口函数
Joins
    JOIN
    {LEFT|RIGHT|FULL} OUTER JOIN
    LEFT SEMI JOIN
    CROSS JOIN
Unions
子查询
    SELECT col FROM ( SELECT a + b AS col from t1) t2
Sampling
Explain
表分区，包括动态分区插入
视图
所有的Hive DDL函数，包括：
    CREATE TABLE
    CREATE TABLE AS SELECT
    ALTER TABLE
大部分的Hive数据类型，包括：
    TINYINT
    SMALLINT
    INT
    BIGINT
    BOOLEAN
    FLOAT
    DOUBLE
    STRING
    BINARY
    TIMESTAMP
    DATE
    ARRAY<>
    MAP<>
    STRUCT<>

Spark SQL不支持的Hive特性

下面是当前不支持的Hive特性，其中大部分特性在实际的Hive使用中很少用到。

Major Hive Features

Tables with buckets：bucket是在一个Hive表分区内进行hash分区。Spark SQL当前不支持。

Esoteric Hive Features

UNION type

Unique join

Column statistics collecting：当期Spark SQL不智齿列信息统计，只支持填充Hive Metastore的sizeInBytes列。

Hive Input/Output Formats

File format for CLI: 这个功能用于在CLI显示返回结果，Spark SQL只支持TextOutputFormat

Hadoop archive

Hive优化

部分Hive优化还没有添加到Spark中。没有添加的Hive优化（比如索引）对Spark SQL这种in-memory计算模型来说不是特别重要。下列Hive优化将在后续Spark SQL版本中慢慢添加。

1、块级别位图索引和虚拟列（用于建立索引）

2、自动检测joins和groupbys的reducer数量：当前Spark SQL中需要使用“ SET spark.sql.shuffle.partitions=[num_tasks]; ”控制post-shuffle的并行度，3、不能自动检测。

4、仅元数据查询：对于可以通过仅使用元数据就能完成的查询，当前Spark SQL还是需要启动任务来计算结果。

数据倾斜标记：当前Spark SQL不遵循Hive中的数据倾斜标记。

5、join中STREAMTABLE提示：当前Spark SQL不遵循STREAMTABLE提示。

6、查询结果包含多个小文件时合并小文件：如果查询结果包含多个小文件，Hive能合并小文件为几个大文件，避免HDFS metadata溢出。当前Spark SQL不支持这个功能。

Reference

数据类型

Spark SQL和DataFrames支持的数据格式如下：
•数值类型 
•ByteType: 代表1字节有符号整数. 数值范围： -128 到 127.
•ShortType: 代表2字节有符号整数. 数值范围： -32768 到 32767.
•IntegerType: 代表4字节有符号整数. 数值范围： -2147483648 t到 2147483647.
•LongType: 代表8字节有符号整数. 数值范围： -9223372036854775808 到 9223372036854775807.
•FloatType: 代表4字节单精度浮点数。
•DoubleType: 代表8字节双精度浮点数。
•DecimalType: 表示任意精度的有符号十进制数。内部使用java.math.BigDecimal.A实现。
•BigDecimal由一个任意精度的整数非标度值和一个32位的整数组成。
•String类型 
•StringType: 表示字符串值。
•Binary类型 
•BinaryType: 代表字节序列值。
•Boolean类型 
•BooleanType: 代表布尔值。
•Datetime类型 
•TimestampType: 代表包含的年、月、日、时、分和秒的时间值
•DateType: 代表包含的年、月、日的日期值
•复杂类型 
•ArrayType(elementType, containsNull): 代表包含一系列类型为elementType的元素。如果在一个将ArrayType值的元素可以为空值，containsNull指示是否允许为空。
•MapType(keyType, valueType, valueContainsNull): 代表一系列键值对的集合。key不允许为空，valueContainsNull指示value是否允许为空
•StructType(fields): 代表带有一个StructFields（列）描述结构数据。 
•StructField(name, dataType, nullable): 表示StructType中的一个字段。name表示列名、dataType表示数据类型、nullable指示是否允许为空。

Spark SQL所有的数据类型在 org.apache.spark.sql.types 包内。Python中通过下面的命令进行访问：from pyspark.sql.types import *

Spark SQL，DataFrames and DataSets Guide官方文档翻译_第7张图片

NaN 语义

当处理float或double类型时，如果类型不符合标准的浮点语义，则使用专门的处理方式NaN。需要注意的是：

1、NaN = NaN 返回 true

2、可以对NaN值进行聚合操作

3、在join操作中，key为NaN时，NaN值与普通的数值处理逻辑相同

4、NaN值大于所有的数值型数据，在升序排序中排在最后

参考文章：官方文档

http://www.cnblogs.com/BYRans/p/5057110.html

你可能感兴趣的:(Spark)

安全运维的 “五层防护”：构建全方位安全体系 KKKlucifer 安全运维
在数字化运维场景中，异构系统复杂、攻击手段隐蔽等挑战日益突出。保旺达基于“全域纳管-身份认证-行为监测-自动响应-审计溯源”的五层防护架构，融合AI、零信任等技术，构建全链路安全运维体系，以下从技术逻辑与实践落地展开解析：第一层：全域资产纳管——筑牢安全根基挑战云网基础设施包含分布式计算（Hadoop/Spark）、数据流处理（Storm/Flink）等异构组件，通信协议繁杂，传统方案难以全面纳管
Hive 事务表(ACID)问题梳理
文章目录问题描述分析原因什么是事务表概念事务表和普通内部表的区别相关配置事务表的适用场景注意事项设计原理与实现文件管理格式参考博客问题描述工作中需要使用pyspark读取Hive中的数据，但是发现可以获取metastore，外部表的数据可以读取，内部表数据有些表报错信息是：AnalysisException:org.apache.hadoop.hive.ql.metadata.HiveExcept
云原生--微服务、CICD、SaaS、PaaS、IaaS 青秋. 云原生 docker 云原生微服务 kubernetes serverless service_mesh ci/cd
往期推荐浅学React和JSX-CSDN博客一文搞懂大数据流式计算引擎Flink【万字详解，史上最全】-CSDN博客一文入门大数据准流式计算引擎Spark【万字详解，全网最新】_大数据spark-CSDN博客目录1.云原生概念和特点2.常见云模式3.云对外提供服务的架构模式3.1IaaS（Infrastructure-as-a-Service）3.2PaaS（Platform-as-a-Servi
Spark运行架构 EmoGP Spark spark 架构大数据
Spark框架的核心是一个计算引擎，整体来说，它采用了标准master-slave的结构如下图所示，它展示了一个Spark执行时的基本结构，图形中的Driver表示master，负责管理整个集群中的作业任务调度，图形中的Executor则是slave，负责实际执行任务。由上图可以看出，对于Spark框架有两个核心组件：DriverSpark驱动器节点，用于执行Spark任务中的main方法，负
Spark 各种配置项 zhixingheyi_tian 大数据 spark Spark Conf spark jvm java
/bin/spark-shell--masteryarn--deploy-modeclient/bin/spark-shell--masteryarn--deploy-modeclusterTherearetwodeploymodesthatcanbeusedtolaunchSparkapplicationsonYARN.Inclustermode,theSparkdriverrunsinside
Spark RDD 及性能调优 Aurora_NeAr spark wpf c#
RDDProgrammingRDD核心架构与特性分区（Partitions）：数据被切分为多个分区；每个分区在集群节点上独立处理；分区是并行计算的基本单位。计算函数（ComputeFunction）：每个分区应用相同的转换函数；惰性执行机制。依赖关系（Dependencies）窄依赖：1个父分区→1个子分区（map、filter）。宽依赖：1个父分区→多个子分区（groupByKey、join）。
Apache Iceberg数据湖基础 Aurora_NeAr apache
IntroducingApacheIceberg数据湖的演进与挑战传统数据湖（Hive表格式）的缺陷：分区锁定：查询必须显式指定分区字段（如WHEREdt='2025-07-01'）。无原子性：并发写入导致数据覆盖或部分可见。低效元数据：LIST操作扫描全部分区目录（云存储成本高）。Iceberg的革新目标：解耦计算引擎与存储格式（支持Spark/Flink/Trino等）；提供ACID事务、模式
大数据技术之Flink
第1章Flink概述1.1Flink是什么1.2Flink特点1.3FlinkvsSparkStreaming表Flink和Streaming对比FlinkStreaming计算模型流计算微批处理时间语义事件时间、处理时间处理时间窗口多、灵活少、不灵活（窗口必须是批次的整数倍）状态有没有流式SQL有没有1.4Flink的应用场景1.5Flink分层API第2章Flink快速上手2.1创建项目在准备
Hadoop核心组件最全介绍 Cachel wood 大数据开发 hadoop 大数据分布式 spark 数据库计算机网络
文章目录一、Hadoop核心组件1.HDFS(HadoopDistributedFileSystem)2.YARN(YetAnotherResourceNegotiator)3.MapReduce二、数据存储与管理1.HBase2.Hive3.HCatalog4.Phoenix三、数据处理与计算1.Spark2.Flink3.Tez4.Storm5.Presto6.Impala四、资源调度与集群管
大数据分析技术的学习路径，不是绝对的，仅供参考水云桐程序员学习大数据数据分析学习方法
阶段一：基础筑基（1-3个月）1.编程语言：Python：掌握基础语法、数据结构、流程控制、函数、面向对象编程、常用库（NumPy,Pandas）。SQL：精通SELECT语句（过滤、排序、分组、聚合、连接）、DDL/DML基础。理解关系型数据库概念（表、主键、外键、索引）。MySQL或PostgreSQL是很好的起点。Java/Scala：深入理解Hadoop/Spark等框架会更有优势。初学者
大数据开发高频面试题：Spark与MapReduce解析
被招网约司机的盯上了好几天实习了六个月，到期被通知不能转正。外包裁员让我去友商我该去吗？offer比较华为状态码浏览器插件嵌入式项目推荐2019秋招总结+云从语音算法面经+银行群面面经科大讯飞语音算法面经语音算法美团一面已挂科大讯飞智能语音方向值得去吗？语音算法oc科大讯飞语音算法二面荣耀一面语音算法面经，已挂荣耀_语音算法工程一面科大讯飞语音一面凉经8.18携程机器学习（语音方向）一面【vivo
spark处理kafka的用户行为数据写入hive 月光一族吖 spark kafka hive
在CentOS上部署Hadoop（Hadoop3.4.1）和Hive（Hive3.1.2）的详细步骤说明。这份指南面向单机安装（伪集群模式），如果需要搭建真正的多节点集群，各节点间的网络互访、SSH免密登录以及配置同步需进一步调整。注意：本指南假设你已拥有root权限或者具有sudo权限，并且系统连接Internet（用于下载安装包）。步骤中的版本号可根据实际需要进行更改。一、环境准备更新系统软件
Spark 4.0的VariantType 类型以及内部存储鸿乃江边鸟大数据 SQL spark spark sql 大数据
背景本文基于Spark4.0总结Spark中的VariantType类型，用尽量少的字节来存储Json的格式化数据分析这里主要介绍Variant的存储，我们从VariantBuilder.buildJson方法(把对应的json数据存储为VariantType类型)开始：publicstaticVariantparseJson(JsonParserparser,booleanallowDuplic
如何学习才能更好地理解人工智能工程技术专业和其他信息技术专业的关联性？人工智能教学实践 python编程实践人工智能学习人工智能
要深入理解人工智能工程技术专业与其他信息技术专业的关联性，需要跳出单一专业的学习框架，通过“理论筑基-实践串联-跨学科整合”的路径构建系统性认知。以下是分阶段、可落地的学习方法：一、建立“专业关联”的理论认知框架绘制知识关联图谱操作方法：用XMind或Notion绘制思维导图，以AI为中心，辐射关联专业的核心技术节点。例如：AI（机器学习）├─数据支撑：大数据技术（Hadoop/Spark）+数据
Spark从入门到熟悉（篇二）
本文介绍Spark的RDD编程，并进行实战演练，加强对编程的理解，实现快速入手知识脉络包含如下8部分内容：创建RDD常用Action操作常用Transformation操作针对PairRDD的常用操作缓存操作共享变量分区操作编程实战创建RDD实现方式有如下两种方式实现：textFile加载本地或者集群文件系统中的数据用parallelize方法将Driver中的数据结构并行化成RDD示例"""te
Kafka生态整合深度解析：构建现代化数据架构的核心枢纽
Kafka生态整合深度解析：构建现代化数据架构的核心枢纽导语：在当今数据驱动的时代，ApacheKafka已经成为企业级数据架构的核心组件。本文将深入探讨Kafka与主流技术栈的整合方案，帮助架构师和开发者构建高效、可扩展的现代化数据处理平台。文章目录Kafka生态整合深度解析：构建现代化数据架构的核心枢纽一、Kafka与流处理引擎的深度集成1.1Kafka+ApacheSpark：批流一体化处理
Spark on Docker：容器化大数据开发环境搭建指南 AI天才研究院 ChatGPT 实战 ChatGPT AI大模型应用入门实战与进阶大数据 spark docker ai
SparkonDocker：容器化大数据开发环境搭建指南关键词：Spark、Docker、容器化、大数据开发、分布式计算、开发环境搭建、容器编排摘要：本文系统讲解如何通过Docker实现Spark开发环境的容器化部署，涵盖从基础概念到实战部署的完整流程。首先分析Spark分布式计算框架与Docker容器技术的核心原理及融合优势，接着详细演示单节点开发环境和多节点集群环境的搭建步骤，包括Docker
SeaTunnel 社区月报（5-6 月）：全新功能上线、Bug 大扫除、Merge 之星是谁？ SeaTunnel bug SeaTunnel 开源数据集成大数据
在5月和6月，SeaTunnel社区迎来了一轮密集更新：2.3.11正式发布，新增对Databend、Elasticsearch向量、HTTP批量写入、ClickHouse多表写入等多个连接器能力，全面提升了数据同步灵活性。同时，近100个修复与优化PR合入，涵盖Spark引擎并行性修复、Paimon精度兼容性增强、Mongo-CDCExactlyOnce默认值优化、OracleDDL类型支持补全
Spark从入门到熟悉（篇三）小新学习屋数据分析 spark 大数据分布式
本文介绍Spark的DataFrame、SparkSQL，并进行SparkSQL实战，加强对编程的理解，实现快速入手知识脉络包含如下7部分内容：RDD和DataFrame、SparkSQL的对比创建DataFrameDataFrame保存成文件DataFrame的API交互DataFrame的SQL交互SparkSQL实战参考资料RDD和DataFrame、SparkSQL的对比RDD对比Data
大数据集群架构hadoop集群、Hbase集群、zookeeper、kafka、spark、flink、doris、dataeas(二) 争取不加班！ hadoop hbase zookeeper 大数据运维
zookeeper单节点部署wget-chttps://dlcdn.apache.org/zookeeper/zookeeper-3.8.4/apache-zookeeper-3.8.4-bin.tar.gz下载地址tarxfapache-zookeeper-3.8.4-bin.tar.gz-C/data/&&mv/data/apache-zookeeper-3.8.4-bin//data/zoo
Hadoop、Spark、Flink 三大大数据处理框架的能力与应用场景
一、技术能力与应用场景对比产品能力特点应用场景Hadoop-基于MapReduce的批处理框架-HDFS分布式存储-容错性强、适合离线分析-作业调度使用YARN-日志离线分析-数据仓库存储-T+1报表分析-海量数据处理Spark-基于内存计算，速度快-支持批处理、流处理（StructuredStreaming）-支持SQL、ML、图计算等-支持多语言（Scala、Java、Python）-近实时处
SeaTunnel 社区月报（5-6 月）：全新功能上线、Bug 大扫除、Merge 之星是谁？数据库
在5月和6月，SeaTunnel社区迎来了一轮密集更新：2.3.11正式发布，新增对Databend、Elasticsearch向量、HTTP批量写入、ClickHouse多表写入等多个连接器能力，全面提升了数据同步灵活性。同时，近100个修复与优化PR合入，涵盖Spark引擎并行性修复、Paimon精度兼容性增强、Mongo-CDCExactlyOnce默认值优化、OracleDDL类型支持补全
spark数据处理练习题番外篇【上】
一.单选题（共23题，100分）1.(单选题)maven依赖应该加在哪个文件中？A.pom.xmlB.log4j.propertiesC.src/main/scala.resourceD.src/test/scala.resource正确答案:A:pom.xml;Maven依赖应该添加在pom.xml文件中，这是Maven项目的核心配置文件。解释：pom.xml(ProjectObjectMode
基于django+Spark+大数据+爬虫技术的国漫推荐与可视化平台设计和实现(源码+论文+部署讲解等) 阿勇学长大数据项目实战案例 Java精品毕业设计实例 Python数据可视化项目案例大数据 django spark 国漫推荐与可视化平台毕业设计 Java
博主介绍：✌全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等
spark写入hive表问题 qq_42265026 spark hive 大数据
1、httpclient发送post请求，当返回的数据过大时，报错socketclosed这个原因是客户端主动将连接关闭，根本原因是将httpclient。execute的返回结果closeableResponse作为a方法的返回结果，在b方法中进行解析虽然在b方法中没有关闭closeableResponse，但是在a方法中返回closeableResponse后，会进行httppost.real
spark解析压缩包数据，写入到hive表中 dbbigdata spark 大数据 hive
spark解析xxxxx.tar.gz形式的压缩包。压缩包里面是一个个的json文件或者zip的文件，zip里面是json文件。先用spark读取tar.gz的路径，然后开流传给newTarArchiveInputStream(newGZIPInputStream(file))去处理，大概的代码如下defmain(args:Array[String]):Unit={valroot:String=a
【SequoiaDB】4 巨杉数据库SequoiaDB整体架构 Alen_Liu_SZ 巨杉数据库 SequoiaDB架构编目节点协调节点数据节点巨杉数据库
1整体架构SequoiaDB巨杉数据库作为分布式数据库，由数据库存储引擎与数据库实例两大模块组成。其中，数据库存储引擎模块是数据存储的核心，负责提供整个数据库的读写服务、数据的高可用与容灾、ACID与发你不是事务等全部核心数据服务能力。数据库实例模块则作为协议与语法的适配层，用户可根据需要创建包括MySQL、PostgreSQL与SparkSQL在内的结构化数据实例；支持JSON语法的MongoD
App Store暗藏虚假抖音，内含间谍软件窃取照片和加密货币 FreeBuf- TikTok App Store iOS Android
卡巴斯基网络安全研究人员近日发现名为SparkKitty的新型间谍软件活动，该恶意程序已感染苹果AppStore和谷歌Play官方商店的多个应用。这款间谍软件旨在窃取用户移动设备中的所有图片，疑似专门搜寻加密货币相关信息。该攻击活动自2024年初开始活跃，主要针对东南亚和中国用户。伪装流行应用渗透设备SparkKitty间谍软件通过看似无害的应用程序渗透设备，通常伪装成TikTok等流行应用的修改
存得快查得准，但就是算不动？试试时序数据库 TDengine × Spark 的组合拳
每个工程师可能都遇到过类似场景：时序数据沉淀在数据库中，格式规范、查询快捷，但当任务升级——比如滑窗聚合、多源拼接、机器学习训练——一些业务可能就需要更强的计算能力和更灵活的分析工具。TDengine专注于高效存储与极速查询，而在数据“算力”层面，我们选择了更强的伙伴。现在，TDengine正式开放与ApacheSpark的无缝集成通道。一个是高性能、低成本的时序数据库，一个是横扫大数据世界的分析
Spark Streaming 与 Flink 实时数据处理方案对比与选型指南浅沫云归后端技术栈小结 spark-streaming flink real-time
SparkStreaming与Flink实时数据处理方案对比与选型指南实时数据处理在互联网、电商、物流、金融等领域均有大量应用，面对海量流式数据，SparkStreaming和Flink成为两大主流开源引擎。本文基于生产环境需求，从整体架构、编程模型、容错机制、性能表现、实践案例等维度进行深入对比，并给出选型建议。一、问题背景介绍业务场景日志实时统计与告警用户行为实时画像实时订单或交易监控流式ET
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟