csdn郭芮

在Apache Spark 2.0中使用 DataFrames 和 SQL

作者：马小龙（Dr. Christoph Schubert），浙江财经大学数据分析和大数据计算客座教授。2006年在德国不来梅大学获得数学博士学位后，在多特蒙德大学软件工程研究所从事研究和教学工作直到2011年来到中国。他的研究方向重点在大数据技术和NoSQL数据库以及功能规划和随机计算模型与模态逻辑。他还是国际大数据分析大会主席。
责编：郭芮，关注大数据领域，技术投稿、文章纠错请发送邮件至[email protected]。
本文为《程序员》原创文章，未经允许请勿转载，更多精彩文章请订阅《程序员》

在Apache Spark 2.0中使用DataFrames和SQL的第一步

Spark 2.0开发的一个动机是让它可以触及更广泛的受众，特别是缺乏编程技能但可能非常熟悉SQL的数据分析师或业务分析师。因此，Spark 2.0现在比以往更易使用。在这部分，我将介绍如何使用Apache Spark 2.0。并将重点关注DataFrames作为新Dataset API的无类型版本。

到Spark 1.3，弹性分布式数据集（Resilient Distributed Dataset，RDD）一直是Spark中的主要抽象。RDD API是在Scala集合框架之后建模的，因此间接提供了Hadoop Map / Reduce熟悉的编程原语以及函数式编程（Map、Filter、Reduce）的常用编程原语。虽然RDD API比Map / Reduce范例更具表达性，但表达复杂查询仍然很繁琐，特别是对于来自典型数据分析背景的用户，他们可能熟悉SQL，或来自R/Python编程语言的数据框架。

Spark 1.3引入了DataFrames作为RDD顶部的一个新抽象。DataFrame是具有命名列的行集合，在R和Python相应包之后建模。

Spark 1.6看到了Dataset类作为DataFrame的类型化版本而引入。在Spark 2.0中，DataFrames实际上是Datasets的特殊版本，我们有type DataFrame = Dataset [Row]，因此DataFrame和Dataset API是统一的。

表面上，DataFrame就像SQL表。Spark 2.0将这种关系提升到一个新水平：我们可以使用SQL来修改和查询DataSets和DataFrames。通过限制表达数量，有助于更好地优化。数据集也与Catalyst优化器良好集成，大大提高了Spark代码的执行速度。因此，新的开发应该利用DataFrames。

在本文中，我将重点介绍Spark 2.0中DataFrames的基本用法。我将尝试强调Dataset API和SQL间的相似性，以及如何使用SQL和Dataset API互换地查询数据。借由整个代码生成和Catalyst优化器，两个版本将编译相同高效的代码。

代码示例以Scala编程语言给出。我认为这样的代码最清晰，因为Spark本身就是用Scala编写的。

SparkSession

SparkSession类替换了Apache Spark 2.0中的SparkContext和SQLContext，并为Spark集群提供了唯一的入口点。

val spark = SparkSession
   .builder()
   .appName("SparkTwoExample")
   .getOrCreate()

为了向后兼容，SparkSession对象包含SparkContext和SQLContext对象，见下文。当我们使用交互式Spark shell时，为我们创建一个名为spark的SparkSession对象。

创建DataFrames

DataFrame是具有命名列的表。最简单的DataFrame是使用SparkSession的range方法来创建：

scala> val numbers = spark.range（1，50，10）
numbers：org.apache.spark.sql.Dataset [Long] = [id：bigint]

使用show给我们一个DataFrame的表格表示，可以使用describe来获得数值属性概述。describe返回一个DataFrame：

scala> numbers.show()
 id
---
  1
 11
 21
 31
 41

scala> numbers.describe().show()

summary|                        id
-------+--------------------------
  count|                         5
   mean|                      21.0
 stddev|        15.811388300841896
    min|                         1
    max|                        41

观察到Spark为数据帧中唯一的列选择了名称id。对于更有趣的示例，请考虑以下数据集：

val customerData = List(("Alex", "浙江", 39, 230.00), ("Bob", "北京", 18, 170.00),
("Chris", "江苏", 45, 529.95), ("Dave", "北京", 25, 99.99), ("Ellie", "浙江", 23, 1299.95), ("Fred", "北京", 21, 1099.00))
val customerDF = spark.createDataFrame(customerData)

在这种情况下，customerDF对象将有名为_1、_2、_3、_4的列，它们以某种方式违反了命名列的目的。可以通过重命名列来恢复：

val customerDF = spark.createDataFrame(customerData).
  withColumnRenamed("_1", "customer").
  withColumnRenamed("_2", "province").
  withColumnRenamed("_3", "age").
  withColumnRenamed("_4", "total")

使用printSchema和describe提供以下输出：

scala> customerDF.printSchema
root
 |-- customer: string (nullable = true)
 |-- province: string (nullable = true)
 |-- age: integer (nullable = false)
 |-- total: double (nullable = false)


scala> customerDF.describe().show

summary|             age|                total
-------+----------------+---------------------
  count|               6|                    6
   mean|            28.5|    571.4816666666667
   stev| 10.876580344942981| 512.0094204374238
    min|              18|                99.99
    max|              45|              1299.95

一般来说我们会从文件加载数据。SparkSession类为提供了以下方法：

val customerDFFromJSON = spark.read.json("customer.json")
val customerDF = spark.read.option("header", "true").option("inferSchema", "true").csv("customer.csv")

在这里我们让Spark从CSV文件的第一行提取头信息（通过设置header选项为true），并使用数字类型（age和total）将数字列转换为相应的数据类型 inferSchema选项。
其他可能的数据格式包括parquet文件和通过JDBC连接读取数据的可能性。

基本数据操作

我们现在将访问DataFrame中数据的基本功能，并将其与SQL进行比较。

沿袭，操作，动作和整个阶段的代码生成

相同的谱系概念，转换操作和行动操作之间的区别适用于Dataset和RDD。我们下面讨论的大多数DataFrame操作都会产生一个新的DataFrame，但实际上不执行任何计算。要触发计算，必须调用行动操作之一，例如show（将DataFrame的第一行作为表打印），collect（返回一个Row对象的Array），count（返回DataFrame中的行数），foreach（对每一行应用一个函数）。这是惰性求值（lazy evaluation）的常见概念。

下面Dataset类的所有方法实际上依赖于所有数据集的有向非循环图（Directed Acyclic Graph，DAG），从现有数据集中创建一个新的“数据集”。这被称为数据集的沿袭。仅使用调用操作时，Catalyst优化程序将分析沿袭中的所有转换，并生成实际代码。这被称为整阶段代码生成，并且负责Dataset对RDD的性能改进。

Row-行对象

Row类在DataFrame的一行不带类型数据值中充当容器。通常情况下我们不会自己创建Row对象，而是使用下面的语法：

import org.apache.spark.sql._
val row = Row(12.3, false, null, "Monday")

Row对象元素通过位置（从0开始）或者使用apply进行访问：

row(1) // 产生 Any = false

它会产生一个Any的对象类型。或者最好使用get，方法之一：

row.getBoolean(1) // 产生 Boolean = false
row.getString(3) // 产生 String = "Monday"

因为这样就不会出现原始类型的开销。我们可以使用isNull方法检查行中的一个条目是否为’null’：

row.isNullAt(2) // 产生 true

我们现在来看看DataFrame类最常用的转换操作：

select

我们将要看的第一个转换是“select”，它允许我们对一个DataFrame的列进行投影和变换。

引用列

通过它们的名称有两种方法来访问DataFrame列：可以将其引用为字符串；或者可以使用apply方法，col-方法或$以字符串作为参数并返回一个Column（列）对象。所以customerDF.col(“customer”)和customerDF(“customer”)都是customerDF的第一列。

选择和转换列

最简单的select转换形式允许我们将DataFrame投影到包含较少列的DataFrame中。下面的四个表达式返回一个只包含customer和province列的DataFrame：

customerDF.select("customer", "province")
customerDF.select($"customer", $"province")
customerDF.select(col("customer"), col("province"))
customerDF.select(customerDF("customer"), col("province"))

不能在单个select方法中调用混合字符串和列参数：customerDF.select(“customer”, $”province”)导致错误。

使用Column类定义的运算符，可以构造复杂的列表达式：

customerDF.select($"customer",  ($"age" * 2) + 10, $"province" === "浙江")

应用show得到以下结果：

customer|  ((age * 2) + 10)|    (province = 浙江)
--------+------------------+--------------------
    Alex|              88.0|                true
     Bob|              46.0|               false
   Chris|             100.0|               false
    Dave|              60.0|               false
   Ellie|              56.0|                true
    Fred|              52.0|               false

列别名

新数据集的列名称从用于创建的表达式中派生而来，我们可以使用alias或as将列名更改为其他助记符：

customerDF.select($"customer" as "name",  ($"age" * 2) + 10 alias "newAge", $"province" === "浙江" as "isZJ")

产生与前面相同内容的DataFrame，但使用名为name，newAge和isZJ的列。

Column类包含用于执行基本数据分析任务的各种有效方法。我们将参考读者文档的详细信息。

最后，我们可以使用lit函数添加一个具有常量值的列，并使用when和otherwise重新编码列值。例如，我们添加一个新列“ageGroup”，如果“age <20”，则为1，如果“age <30”则为2，否则为3，以及总是为“false”的列“trusted”：

customerDF.select($"customer", $"age",
when($"age" < 20, 1).when($"age" < 30, 2).otherwise(3) as "ageGroup", lit(false) as "trusted")

给出以下DataFrame：

customer|   age|   ageGroup|   trusted
--------+------+-----------+----------
    Alex|    39|          3|     false
     Bob|    18|          1|     false
   Chris|    45|          3|     false
    Dave|    25|          2|     false
   Ellie|    23|          2|     false
    Fred|    21|          2|     false

drop是select相对的转换操作；它返回一个DataFrame，其中删除了原始DataFrame的某些列。

最后可使用distinct方法返回原始DataFrame中唯一值的DataFrame：

customerDF.select($"province").distinct

返回一个包含单个列的DataFrame和包含值的三行：“北京”、“江苏”、“浙江”。

filter

第二个DataFrame转换是Filter方法，它在DataFrame行中进行选择。有两个重载方法：一个接受一个Column，另一个接受一个SQL表达式（一个String）。例如，有以下两种等效方式来过滤年龄大于30岁的所有客户：

customerDF.filter($"age" > 30)
customerDF.filter("age > 30") //SQL

Filter转换接受一般的布尔连接符and（和）和or（或）：

customerDF.filter($"age" <= 30 and $"province" === "浙江")
customerDF.filter("age <= 30 and province = '浙江'") //SQL

我们在SQL版本中使用单个等号，或者使用三等式“===”（Column类的一个方法）。在==运算符中使用Scala的等于符号会导致错误。我们再次引用Column类文档中的有用方法。

聚合（aggregation）

执行聚合是进行数据分析的最基本任务之一。例如，我们可能对每个订单的总金额感兴趣，或者更具体地，对每个省或年龄组的总金额或平均金额感兴趣。可能还有兴趣了解哪个客户的年龄组具有高于平均水平的总数。借用SQL，我们可以使用GROUP BY表达式来解决这些问题。DataFrames提供了类似的功能。可以根据一些列的值进行分组，同样，还可以使用字符串或“Column”对象来指定。

我们将使用以下DataFrame：

val customerAgeGroupDF = customerDF.withColumn("agegroup",
when($"age" < 20, 1).when($"age" < 30, 2).otherwise(3))

withColumn方法添加一个新的列或替换一个现有的列。

聚合数据分两步进行：一个调用GroupBy方法将特定列中相等值的行组合在一起，然后调用聚合函数，如sum（求和值），max（最大值）或为原始DataFrame中每组行计算的“avg”（平均值）。从技术上来说，GroupBy会返回一个RelationalGroupedDataFrame类的对象。RelationalGroupedDataFrame包含max、min、avg、mean和sum方法，所有这些方法都对DataFrame的数字列执行指定操作，并且可以接受一个String-参数来限制所操作的数字列。此外，我们有一个count方法计算每个组中的行数，还有一个通用的agg方法允许我们指定更一般的聚合函数。所有这些方法都会返回一个DataFrame。

例如：

customerAgeGroupDF.
    groupBy("agegroup", "province").
    count().show()

输出以下内容：

agegroup|    province|   count|
--------+------------+--------+
       2|         北京|       2|
       3|         浙江|       1|
       3|         江苏|       1|
       2|         浙江|       1|
       1|         北京|       1|
--------+------------+--------+

customerAgeGroupDF.groupBy(“agegroup”).max().show()输出：

agegroup|    max(age)|    max(total)|    max(agegroup)
--------+------------+--------------+-----------------
       1|          18|         170.0|                1
       3|          45|        529.95|                3
       2|          25|       1299.95|                2

最后，customerAgeGroupDF.groupBy(“agegroup”).min(“age”, “total”).show()输出：

agegroup|    min(age)|    min(total)
--------+------------+-------------
       1|          18|        170.0
       3|          39|        230.0
       2|          21|        99.99

还有一个通用的agg方法，接受复杂的列表达式。agg在RelationalGroupedDataFrame和Dataset中都可用。后一种方法对整个数据集执行聚合。这两种方法都允许我们给出列表达式的列表：

customerAgeGroupDF.
  groupBy("agegroup").
  agg(sum($"total"), min($"total")).
  show()

输出：

agegroup|   sum(total)|    min(total)
--------+-------------+--------------
       1|        170.0|         170.0
       3|       759.95|         230.0
       2|      2498.94|         99.99

可用的聚合函数在org.apache.spark.sql.functions中定义。类RelationalGroupedDataset在Apache Spark 1.x中被称为“GroupedData”。 RelationalGroupedDataset的另一个特点是可以对某些列值进行透视。例如，以下内容允许我们列出每个年龄组的总数：

customerAgeGroupDF.
  groupBy("province").
  pivot("agegroup").
  sum("total").
  show()

给出以下输出：

province|      1|        2|        3
--------+-------+---------+---------
     江苏|   null|     null|   529.95
     北京|  170.0|  1198.99|     null
     浙江|   null|  1299.95|    230.0

其中null值表示没有省/年龄组的组合。Pivot的重载版本接受一个值列表以进行透视。这一方面允许我们限制列数，另一方面更加有效，因为Spark不需要计算枢轴列中的所有值。例如：

customerAgeGroupDF.
  groupBy("province").
  pivot("agegroup", Seq(1, 2)).
  agg("total").
  show()

给出以下输出：

province|       1|          2
--------+--------+-----------
     江苏|    null|       null
     北京|   170.0|    1198.99
     浙江|    null|    1299.95

最后，使用枢纽数据也可以进行复杂聚合：

customerAgeGroupDF.
  groupBy("province").
  pivot("agegroup", Seq(2, 3)).
  agg(sum($"total"), min($"total")).
  filter($"province" =!= "北京"). 
  show()

输出：

province|2_sum(`total`)|2_min(`total`)|3_sum(`total`)|3_min(`total`)
--------+--------------+--------------+---------------+-------------
     江苏|          null|          null|         529.95|       529.95
     浙江|       1299.95|       1299.95|          230.0|        230.0

这里=!=是Column类的“不等于”方法。

排序和限制

OrderBy方法允许我们根据一些列对数据集的内容进行排序。和以前一样，我们可以使用Strings或Column对象来指定列：customerDF.orderBy（”age”）和 customerDF.orderBy（$”age”）给出相同的结果。默认排序顺序为升序。如果要降序排序，可以使用Column类的desc方法或者desc函数：

customerDF.orderBy($"province", desc("age")).show()

customer|    province|   age|    total
--------+------------+------+---------
    Dave|         北京|    25|    99.99
    Fred|         北京|    21|  1099.00
     Bob|         北京|    18|   170.00
   Chris|         江苏|    45|   529.95
    Alex|         浙江|    39|   230.00
   Ellie|         浙江|    23|  1299.95

观察到desc函数返回了一个Column-object，任何其他列也需要被指定为Column-对象。

最后，limit方法返回一个包含原始DataFrame中第一个n行的DataFrame。

DataFrame方法与SQL对比

我们已经发现，DataFrame类的基本方法与SQLselect语句的部分密切相关。下表总结了这一对应关系：

在Apache Spark 2.0中使用 DataFrames 和 SQL_第1张图片

到目前为止连接（join）在我们的讨论中已经缺失。Spark的DataFrame支持连接，我们将在文章的下一部分讨论它们。

下面将讨论完全类型化的DataSets API，连接和用户定义的函数（UDF）。

使用SQL来处理DataFrames

我们还在Apache Spark 2.0中直接执行SQL语句。SparkSession的SQL方法返回一个DataFrame。此外，DataFrame的selectExp方法也允许我们为单列指定SQL表达式，如下所示。为了能够引用SQL表达式中的DataFrame，首先有必要将DataFrame注册为临时表，在Spark 2中称为临时视图（temporary view，简称为tempview）。DataFrame为我们提供了以下两种方法：

createTempView创建一个新视图，如果具有该名称的视图已存在，则抛出一个异常；
createOrReplaceTempView创建一个用来替换的临时视图。

两种方法都将视图名称作为唯一参数。

customerDF.createTempView("customer") //register a table called 'customer'

注册表后，可以使用SparkSession的SQL方法来执行SQL语句：

spark.sql("SELECT customer, age FROM customer WHERE province = '北京'")

返回具有以下内容的DataFrame：

customer|   age
--------+------
     Bob|    18
    Dave|    25
    Fred|    21

SparkSession类的catalog字段是Catalog类的一个对象，具有多种处理会话注册表和视图的方法。例如，Catalog的ListTables方法返回一个包含所有已注册表信息的Dataset：

scala> spark.catalog.listTables().show()
+----------+------------+--------------+---------------+----------------+
|      name|    database|   description|      tableType|     isTemporary|
+----------+------------+--------------+---------------+----------------+
|customer  |        null|          null|      TEMPORARY|            true|
+----------+------------+--------------+---------------+----------------+

会返回一个包含有关注册表“tableName”中列信息的Dataset，例如：

spark.catalog.listColumns("customer")

此外，可以使用DataSet的SelectExpr方法执行某些产生单列的SQL表达式，例如：

customerDF.selectExpr("sum(total)") 
customerDF.selectExpr("sum(total)", "avg(age)")

这两者都产生DataFrame对象。

第一步结束语

我们希望让读者相信，Apache Spark 2.0的统一性能够为熟悉SQL的分析师们提供Spark的学习曲线。下一部分将进一步介绍类型化Dataset API的使用、用户定义的函数以及Datasets间的连接。此外，我们将讨论新Dataset API的使用缺陷。

在Apache Spark 2.0中使用DataFrames和SQL的第二步

本文第一部分使用了无类型的DataFrame API，其中每行都表示一个Row对象。在下面的内容中，我们将使用更新的DatasetAPI。Dataset是在Apache Spark 1.6中引入的，并已在Spark 2.0中使用DataFrames进行了统一，我们现在有了type DataFrame = Dataset [Row]，其中方括号（[和] Scala中的泛型类型，因此类似于Java的<和>）。因此，上面讨论的所有诸如select、filter、groupBy、agg、orderBy、limit等方法都以相同的方式使用。

Datasets：返回类型信息

Spark 2.0以前的DataFrame API本质上是一个无类型的API，这也就意味着在编译期间很可能会因为某些编译器错误，导致无法访问类型信息。

和之前一样，我们将在示例中使用Scala，因为我相信Scala最为简洁。可能涉及的例子：spark将表示SparkSession对象，代表我们的Spark集群。

例子：分析Apache访问日志

我们将使用Apache访问日志格式数据。先一起回顾Apache日志中的典型行，如下所示：

127.0.0.1 - - [01/Aug/1995:00:00:01 -0400] "GET /images/launch-logo.gif HTTP/1.0" 200 1839

此行包含以下部分：

127.0.0.1是向服务器发出请求的客户端（远程主机）IP地址（或主机名，如果可用）；
输出中的第一个-表示所请求的信息（来自远程机器的用户身份）不可用；
输出中的第二个-表示所请求的信息（来自本地登录的用户身份）不可用；
[01 / Aug / 1995：00：00：01 -0400]表示服务器完成处理请求的时间，格式为：[日/月/年：小时：分：秒时区]，有三个部件：”GET /images/launch-logo.gif HTTP / 1.0”；
请求方法（例如，GET，POST等）；
端点（统一资源标识符）；
和客户端协议版本（’HTTP / 1.0’）。

1.200这是服务器返回客户端的状态代码。这些信息非常有价值：成功回复（从2开始的代码），重定向（从3开始的代码），客户端导致的错误（以4开头的代码），服务器错误（代码从5开始）。最后一个条目表示返回给客户端的对象大小。如果没有返回任何内容则是-或0。

首要任务是创建适当的类型来保存日志行信息，因此我们使用Scala的case类，具体如下：

case class ApacheLog(
   host: String, 
   user: String, 
   password: String, 
   timestamp: String, 
   method: String, 
   endpoint: String, 
   protocol: String, 
   code: Integer, 
   size: Integer
)

默认情况下，case类对象不可变。通过它们的值来比较相等性，而不是通过比较对象引用。

为日志条目定义了合适的数据结构后，现在需要将表示日志条目的String转换为ApacheLog对象。我们将使用正则表达式来达到这一点，参考如下：

^(\S+) (\S+) (\S+) \[([\w:/]+\s[+\-]\d{4})\] "(\S+) (\S+)\s*(\S*)" (\d{3}) (\S+)

可以看到正则表达式包含9个捕获组，用于表示ApacheLog类的字段。

使用正则表达式解析访问日志时，会面临以下问题：

一些日志行的内容大小以-表示，我们想将它转换为0；
一些日志行不符合所选正则表达式给出的格式。

为了克服第二个问题，我们使用Scala的“Option”类型来丢弃不对的格式并进行确认。Option也是一个泛型类型，类型Option[ApacheLog]的对象可以有以下形式：

None，表示不存在一个值（在其他语言中，可能使用null）；
Some(log)for a ApacheLog-objectlog。

以下为一行函数解析，并为不可解析的日志条目返回None：

def parse_logline(line: String) : Option[ApacheLog] = {
  val apache_pattern = """^(\S+) (\S+) (\S+) \[([\w:/]+\s[+\-]\d{4})\] "(\S+) (\S+)\s*(\S*)" (\d{3}) (\S+)""".r

   line match {
     case apache_pattern(a, b, c, t, f, g, h, x, y) => {
         val size = if (y == "-") 0 else y.toInt
         Some(ApacheLog(a, b, c, t, f, g, h, x.toInt, size))
       }
   case _ => None
   }
}

最好的方法是修改正则表达式以捕获所有日志条目，但Option是处理一般错误或不可解析条目的常用技术。

综合起来，现在来剖析一个真正的数据集。我们将使用著名的NASA Apache访问日志数据集，它可以在ftp://ita.ee.lbl.gov/traces/NASA_access_log_Jul95.gz下载。

下载和解压缩文件后，首先将其打开为String的Dataset，然后使用正则表达式解析：

import spark.implicits._
val filename = "NASA_access_log_Jul95"
val rawData = spark.read.text(filename).as[String].cache

用spark.read.text方法打开文本文件并返回一个DataFrame，是textfile的行。使用Dataset的as方法将其转换为包含Strings的Dataset对象（而不是Rows包含字符串），并导入spark.implicits._以允许创建一个包含字符串或其他原始类型的Dataset。

现在可以解析数据集：

val apacheLogs = rawData.flatMap(parse_logline)

flatMap将parse_logline函数应用于rawData的每一行，并将Some(ApacheLog)形式的所有结果收集到apacheLogs中，同时丢弃所有不可解析的日志行（所有结果的形式None）。

我们现在可以对“数据集”执行分析，就像在“DataFrame”上一样。Dataset中的列名称只是ApacheLog case类的字段名称。

例如，以下代码打印生成最多404个响应的10个端点：

apacheLogs.filter($"code" === 404).
  groupBy($"endpoint").
  count.
  orderBy($"count".desc).
  limit(10).show

如前所述，可以将Dataset注册为临时视图，然后使用SQL执行查询：

apacheLogs.createOrReplaceTempView("apacheLogs")

spark.sql("select endpoint, count(*) as c
   from apacheLogs 
   where code = 404
group by endpoint 
   order by c desc 
   limit 10").show

上面的SQL查询具有与上面的Scala代码相同的结果。

用户定义的函数（user defined function, UDF）

在Spark SQL中，我们可以使用范围广泛的函数，包括处理日期、基本统计和其他数学函数的函数。Spark在函数中的构建是在org.apache.spark.sql.functions对象中定义的。

作为示例，我们使用以下函数提取主机名的顶级域：

def extractTLD(host : String) : String = {
  host.substring(host.lastIndexOf('.')  + 1)
}

如果想在SQL查询中使用这个函数，首先需要注册。这是通过SparkSession的udf对象实现的：

val extractTLD_UDF =spark.udf.register("extractTLD", extractTLD _)

函数名后的最后一个下划线将extractTLD转换为部分应用函数（partially applied function)，这是必要的，如果省略它会导致错误。register方法返回一个UserDefinedFunction对象，可以应用于列表达式。

一旦注册，我们可以在SQL查询中使用extractTLD：

spark.sql("select extractTLD(host) from apacheLogs")

要获得注册的用户定义函数概述，可以使用spark.catalog对象的listFunctions方法，该对象返回SparkSession定义的所有函数DataFrame：

spark.catalog.listFunctions.show

注意Spark SQL遵循通常的SQL约定，即不区分大小写。也就是说，以下SQL表达式都是有效的并且彼此等价：select extractTLD（host）from apacheLogs，select extracttld（host）from apacheLogs，”select EXTRACTTLD(host) from apacheLogs”。spark.catalog.listFunctions返回的函数名将总是小写字母。

除了在SQL查询中使用UDF，我们还可以直接将它们应用到列表达式。以下表达式返回.net域中的所有请求：

apacheLogs.filter(extractTLD_UDF($"host") === "net")

值得注意的是，与Spark在诸如filter，select等方法中的构建相反，用户定义的函数只采用列表达式作为参数。写extractTLD_UDF（“host”）会导致错误。

除了在目录中注册UDF并用于Column表达式和SQL中，我们还可以使用org.apache.spark.sql.functions对象中的udf函数注册一个UDF：

import org.apache.spark.sql.functions.udf
def request_failed(code : Integer) : Boolean = { code >= 400 }
val request_failed_udf = udf(request_failed _)

注册UDF后，可以将它应用到Column表达式（例如filter里面），如下所示：

apacheLogs.filter(request_failed_udf($"code")).show

但是不能在SQL查询中使用它，因为还没有通过名称注册它。

UDF和Catalyst优化器

Spark中用Catalyst优化器来优化所有涉及数据集的查询，会将用户定义的函数视作黑盒。值得注意的是，当过滤器操作涉及UDF时，在连接之前可能不会“下推”过滤器操作。我们通过下面的例子来说明。

通常来说，不依赖UDF而是从内置的“Column”表达式进行组合操作可能效果更好。

加盟

最后，我们将讨论如何使用以下两个Dataset方法连接数据集：

join返回一个DataFrame
joinWith返回一对Datasets

以下示例连接两个表1、表2（来自维基百科）：

在Apache Spark 2.0中使用 DataFrames 和 SQL_第2张图片

表1 员工（Employee）

在Apache Spark 2.0中使用 DataFrames 和 SQL_第3张图片

表2 部门（Department）

定义两个case类，将两个表编码为case类对象的序列（由于空间原因不显示），最后创建两个Dataset对象：

case class Department (depID : Integer, depName: String)
 case class Employee  (lastname : String, depID: Integer)
val depData = Seq(Department(31, "Sales"), 
... )
 val empData = Seq(Employee("Rafferty", 31), 
 ...,
 Employee("Williams",null))
val employees = spark.createDataset(empData)
 val departments = spark.createDataset(depData)

为了执行内部等连接，只需提供要作为“String”连接的列名称：

val joined = employees.join(departments, "depID")

Spark会自动删除双列，joined.show给出以下输出：

在Apache Spark 2.0中使用 DataFrames 和 SQL_第4张图片

表3 输出

在上面，joined是一个DataFrame，不再是Dataset。连接数据集的行可以作为Seq列名称给出，或者可以指定要执行的equi-join（inner，outer，left_outer，right_outer或leftsemi）类型。想要指定连接类型的话，需要使用Seq表示法来指定要连接的列。请注意，如果执行内部联接（例如，获取在同一部门中工作的所有员工的对）：employees.join(employees，Seq(“depID”))，我们没有办法访问连接的DataFrame列：employees.join(employees, Seq(“depID”)).select(“lastname”)会因为重复的列名而失败。处理这种情况的方法是重命名部分列：

employees.withColumnRenamed("lastname", "lname").
 join(employees, Seq("depID")).show

除了等连接之外，我们还可以给出更复杂的连接表达式，例如以下查询，它将所有部门连接到不知道部门ID且不在本部门工作的员工：

departments.join(employees, departments("depID") =!= employees("depID"))

然后可以不指定任何连接条件，在两个Datasets间执行笛卡尔联接： departments.join(employees).show。

与joinWith类型保存连接

最后，Dataset的joinWith方法返回一个Dataset，包含原始数据集中匹配行的Scala元组。

departments.
  joinWith(employees, 
    departments("depID") === employees("depID")
).show

在Apache Spark 2.0中使用 DataFrames 和 SQL_第5张图片

表4 返回Dataset

这可以用于自连接后想要规避上述不可访问列的问题情况。

加入和优化器

Catalyst优化器尝试通过将“过滤器”操作向“下推”，以尽可能多地优化连接，因此它们在实际连接之前执行。

为了这个工作，用户定义的函数（UDF），不应该在连接条件内使用用因为这些被Catalyst处理为黑盒子。

结论

我们已经讨论了在Apache Spark 2.0中使用类型化的DatasetAPI，如何在Apache Spark中定义和使用用户定义的函数，以及这样做的危险。使用UDF可能产生的主要困难是它们会被Catalyst优化器视作黑盒。

另有CSDN Spark用户微信群，请添加微信guorui_1118并备注公司+实名+职位申请入群。

更多精彩，欢迎关注CSDN大数据公众号！

你可能感兴趣的:(在Apache Spark 2.0中使用 DataFrames 和 SQL)

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
芦花鞋一四许叶晗
又是在一个寒冷的夏日里，青铜和葵花决定今天一起去卖芦花鞋，奶奶亲手给他们做了一碗热乎乎的粥对他们说:“就靠你们两挣生活费了这碗粥赶紧趁热喝了吧！”于是青铜和葵花喝完了奶奶给她们做的粥，就准备去镇上卖卢花鞋，这回青铜和葵花穿着新的芦花鞋来到了镇上。青铜这回看到了很多人都在卖，用手势表达对葵花说:“这回有好多人在抢我们生意呢！我们必须得吆喝起来。”葵花点了点头。可是谁知他们也大声的叫，卖芦花喽！卖芦花
关于沟通这件事，项目经理不需要每次都面对面进行流程大师兄
很多项目经理都会遇到这样的问题，项目中由于事情太多，根本没有足够的时间去召开会议，那在这种情况下如何去有效地管理项目中的利益相关者？当然，不建议电子邮件也不需要开会的话，建议可以采取下面几种方式来形成有效的沟通，这几种方式可以帮助你努力的通过各种办法来保持和各方面的联系。项目经理首先要问自己几个问题，项目中哪些利益相关者是必须要进行沟通的？可以列出项目中所有的利益相关者清单，同时也整理出项目中哪些
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
2020-01-25 晴岚85
郑海燕坚持分享590天2020.1.24在生活中只存在两个问题。一个问题是：你知道想要达成的目标是什么，但却不知道如何才能达成；另一个问题是：你不知道你的目标是什么。前一个是行动的问题，后一个是结果的问题。通过制定具体的下一步行动，可以解决不知道如何开始行动的问题。而通过去想象结果，对结果做预估，可以解决找不着目标的问题。对于所有吸引我们注意力，想要完成的任务，你可以先想象一下，预期的结果究竟是什
随笔 | 仙一般的灵气海思沧海
仙岛今天，我看了你全部，似乎已经进入你的世界我不知道，这是否是梦幻，还是你仙一般的灵气吸引了我也许每一个人都要有一份属于自己的追求，这样才能够符合人生的梦想，生活才能够充满着阳光与快乐我不知道，我为什么会这样的感叹，是在感叹自己的人生，还是感叹自己一直没有孜孜不倦的追求只感觉虚度了光阴，每天活在自己的梦中，活在一个不真实的世界是在逃避自己，还是在逃避周围的一切有时候我嘲笑自己，嘲笑自己如此的虚无，
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
OC语言多界面传值五大方式 Magnetic_h ios ui 学习 objective-c 开发语言
前言在完成暑假仿写项目时，遇到了许多需要用到多界面传值的地方，这篇博客来总结一下比较常用的五种多界面传值的方式。属性传值属性传值一般用前一个界面向后一个界面传值，简单地说就是通过访问后一个视图控制器的属性来为它赋值，通过这个属性来做到从前一个界面向后一个界面传值。首先在后一个界面中定义属性@interfaceBViewController:UIViewController@propertyNSSt
一百九十四章. 自相矛盾巨木擎天
唉！就这么一夜，林子感觉就像过了很多天似的，先是回了阳间家里，遇到了那么多不可思议的事情儿。特别是小伙伴们，第二次与自己见面时，僵硬的表情和恐怖的气氛，让自己如坐针毡，打从心眼里难受！还有东子，他现在还好吗？有没有被人欺负？护城河里的小鱼小虾们，还都在吗？水不会真的干枯了吧？那对相亲相爱漂亮的太平鸟儿，还好吧！春天了，到了做窝、下蛋、喂养小鸟宝宝的时候了，希望它们都能够平安啊！虽然没有看见家人，也
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
地推话术，如何应对地推过程中家长的拒绝校师学
相信校长们在做地推的时候经常遇到这种情况：市场专员反馈家长不接单，咨询师反馈难以邀约这些家长上门，校区地推疲软，招生难。为什么？仅从地推层面分析，一方面因为家长受到的信息轰炸越来越多，对信息越来越“免疫”；而另一方面地推人员的专业能力和营销话术没有提高，无法应对家长的拒绝，对有意向的家长也不知如何跟进，眼睁睁看着家长走远；对于家长的疑问，更不知道如何有技巧地回答，机会白白流失。由于回答没技巧和专业
谢谢你们，爱你们！鹿游儿
昨天家人去泡温泉，二个孩子也带着去，出发前一晚，匆匆下班，赶回家和孩子一起收拾。饭后，我拿出笔和本子（上次去澳门时做手帐的本子）写下了1\2\3\4\5\6\7\8\9,让后让小壹去思考，带什么出发去旅游呢？她在对应的数字旁边画上了，泳衣、泳圈、肖恩、内衣内裤、tapuy、拖鞋……画完后，就让她自己对着这个本子，将要带的，一一带上，没想到这次带的书还是这本《便便工厂》(晚上姑婆发照片过来，妹妹累得
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
小丽成长记（四十三）玲玲54321
小丽发现，即使她好不容易调整好自己的心态下一秒总会有不确定的伤脑筋的事出现，一个接一个的问题，人生就没有停下的时候，小问题不断出现。不过她今天看的书，她接受了人生就是不确定的，厉害的人就是不断创造确定性，在Ta的领域比别人多的确定性就能让自己脱颖而出，显示价值从而获得的比别人多的利益。正是这样的原因，因为从前修炼自己太少，使得她现在在人生道路上打怪起来困难重重，她似乎永远摆脱不了那种无力感，有种习
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
Cell Insight | 单细胞测序技术又一新发现，可用于HIV-1和Mtb共感染个体诊断尐尐呅
结核病是艾滋病合并其他疾病中导致患者死亡的主要原因。其中结核病由结核分枝杆菌（Mycobacteriumtuberculosis,Mtb）感染引起，获得性免疫缺陷综合症（艾滋病）由人免疫缺陷病毒（Humanimmunodeficiencyvirustype1,HIV-1）感染引起。国家感染性疾病临床医学研究中心/深圳市第三人民医院张国良团队携手深圳华大生命科学研究院吴靓团队，共同研究得出单细胞测序
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
爬山后遗症璃绛
爬山，攀登，一步一步走向制高点，是一种挑战。成功抵达是一种无法言语的快乐，在山顶吹吹风，看看风景，这是从未有过的体验。然而，爬山一时爽，下山腿打颤，颠簸的路，一路向下走，腿部力量不够，走起来抖到不行，停不下来了！第二天必定腿疼，浑身酸痛，坐立难安！
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
swagger访问路径 igotyback swagger
Swagger2.x版本访问地址：http://{ip}:{port}/{context-path}/swagger-ui.html{ip}是你的服务器IP地址。{port}是你的应用服务端口，通常为8080。{context-path}是你的应用上下文路径，如果应用部署在根路径下，则为空。Swagger3.x版本对于Swagger3.x版本（也称为OpenAPI3）访问地址：http://{ip
mysql禁用远程登录 igotyback mysql
去mysql库中的user表里，将host都改成localhost之后刷新权限FLUSHPRIVILEGES;
如何在 Fork 的 GitHub 项目中保留自己的修改并同步上游更新？github_fork_update iBaoxing github
如何在Fork的GitHub项目中保留自己的修改并同步上游更新？在GitHub上Fork了一个项目后，你可能会对项目进行一些修改，同时原作者也在不断更新。如果想要在保留自己修改的基础上，同步原作者的最新更新，很多人会不知所措。本文将详细讲解如何在不丢失自己改动的情况下，将上游仓库的更新合并到自己的仓库中。问题描述假设你在GitHub上Fork了一个项目，并基于该项目做了一些修改，随后你发现原作者对
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR