五柳-先生

Apache Spark数据分析教程（二）：Spark SQL

Spark是一款非常流行同时功能又十分强大的实时数据分析工具。在本 Spark序列教程的第一部分，我们已经对Spark进行了介绍，讲解了Spark的历史，详细解释了用于在Spark集群中进行数据分片存储的弹性分布式数据集（ RDDs）并对Apache Spark的生态系统进行了介绍。

本教程（第二部分）将对Spark生态系统中占有重要地位的Spark SQL和DataFrame进行介绍，给大家演示Spark、Spark SQL结合Cassandara的使用。如果你还没有学习过本序列教程的第一部分，请点击 Apache Spark介绍（第一部分）：实时数据分析进行学习。

Apache Spark是 Hadoop的有效继任者并对其进行了有效补充，它引领了大数据技术的发展趋势。Spark为数据分析运行在大规模分布式系统任务上提供了易于使用的API，它能够比其它形式的数据分析运行得更快，这缘于其大多数的任务都能够在内存中完成。Apache Spark为一个普通的开发人员提供了实时大数据分析能力, Spark SQL便是明证，Spark SQL API不仅易于使用而且功能强大。

Spark SQL

Spark SQL使得运行SQL和HiveQL查询十分简单（注意： HiveQL源于Apache Hive，Hive是一个构建在Hadoop平台基础上的数据仓库系统，用于提供大数据分析服务）。Spark SQL 能够轻易地定位相应的表和元数据。Spark SQL 为Spark提供了查询结构化数据的能力，查询时既可以使用SQL也可以使用人们熟知的DataFrame API（RDD）。Spark SQL支持多语言编程包括Java、Scala、Python及R，开发人员可以根据自身喜好进行选择。

使用Java 查询数据

String query = "SELECT * FROM table";

ResultSet results = session.execute(query);

DataFrame是Spark SQL的核心，它将数据保存为行构成的集合，行对应列有相应的列名。使用DataFrames可以非常方便地查询数据、给数据绘图及进行数据过滤。

DataFrames也可以用于数据的输入与输出，例如利用Spark SQL中的DataFrames，可以轻易地将下列数据格式加载为表并进行相应的查询操作：

RDD
JSON
Hive
Parquet
MySQL
HDFS
S3
JDBC
其它 ...

数据一旦被读取，借助于DataFrames便可以很方便地进行数据过滤、列查询、计数、求平均值及将不同数据源的数据进行整合。

如果你正计划通过读取和写数据来进行分析，Spark SQL可以轻易地帮你实现并将整个过程自动化。

在后面的例子中，我们将在Python Spark shell中给大家演示如何使用Spark SQL和DataFrames。从GitHub上获取提交的 QBit, the Java Microservices Lib历史数据，然后将其加载到Spark当中，并对数据进行相应的操作，具体步骤如下：

在终端上启动Python Spark shell：

cd spark-1.5.0-bin-hadoop2.4
./bin/pyspark
15/08/22 22:30:40 INFO BlockManagerMaster: Registered BlockManager
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 1.5.0
      /_/
Using Python version 2.7.5 (default, Mar  9 2014 22:15:05)
SparkContext available as sc, HiveContext available as sqlContext.

从github上获取QBit的提交历史，并保存到名称为test.log的文件中：

抽取提交历史并保存为log文件

git log > test.log

由于此次使用的是Python，我们先通过textFile方法将test.log加载为RDD，然后在该RDD上执行一些操作：

textFile = sc.textFile("../qbit/test.log")

执行完上面这条语句，可以得到一个textFile RDD，该RDD由文本行组成的分区数据构成，先来统计一个RDD中的文本行数：

textFile.count()
5776

代码执行完，得到的行数为5776。然后我们先行中带有commit关键字的行筛选出来：

linesWithCommit = textFile.filter(lambda line: "commit" in line)

通过前面的操作足以说明通过Python 使用RDD 的简便性。

为后面演示DataFrame的使用，先让github的历史记录文件抽取保存为JSON类型并将文件命名为sparktest.json：

将github上的提交历史保存为JSON

git log  --pretty=format:'{"commit":"%H","author":"%an","author_email":"%ae","date":"%ad","message":"%f"}' > sparktest.json

在正式进行Spark SQL操作之前，先得创建sqlContext，它可以通过SparkContext进行创建：

from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)

在shell命令行中，sqlContext 同SparkContext 一样都是自动创建的，无需自己手动去创建，SparkContext以SC变量名的形式存在，sqlContext则以sqlContext 变量名的形式存在。

接下来，将JSON数据加载为Spark的DataFrame，变量命名为dataframe：

将JSON数据加载成DataFrame ，变量命名为dataframe

dataframe = sqlContext.load("../qbit/sparktest.json", "json")

加载数据时，只需调用sqlContext 的load()方法，方法中传入的参数为文件目录和文件类型。Spark会为dataframe解析所有的列及对应名称，为确保所有的工作都已按预期执行，可以打印出dataframe的模式（Schema）：

打印dataframe的模式（Schema）

dataframe.printSchema()
root
 |-- author: string (nullable = true)
 |-- author_email: string (nullable = true)
 |-- commit: string (nullable = true)
 |-- date: string (nullable = true)
 |-- message: string (nullable = true)

上面这个带根（root）的图展示了各行对应的列名及其对应类型。本例中的每行表示的是Gihub上QBit Microservices Lib项目对应的一次提交。所有的准备工作完成后，便可以在数据上进行相应的操作。

例如，我们可以获取文件的第一条提交记录，该提交记录表示的是github的最近一次提交。

获取最近的提交记录用以分析

dataframe.first()
Row(author=u'Richard Hightower', author_email=u'[email protected]', 
commit=u'696a94f80d1eedae97175f76b9139a340fab1a27', 
date=u'Wed Aug 19 17:51:11 2015 -0700', 
message=u'Merge-pull-request-359-from-advantageous-add_better_uri_param_handling')

我们可以查询所有列中的某一列并显示其内容，例如，只查询 QBit Microservices Lib项目的作者(author)列并显示最近的20个源码贡献者，默认情况下Spark会返回最近的20条记录。

采用Spark SQL进行分析—查询author列并返回最近的20条记录

dataframe.select("author").show()
+-----------------+
|           author|
+-----------------+
|Richard Hightower|
|   Rick Hightower|
|   Rick Hightower|
|Richard Hightower|
|   Rick Hightower|
|Richard Hightower|
|   Rick Hightower|
|Geoffrey Chandler|
|Geoffrey Chandler|
|Richard Hightower|
|Richard Hightower|
|Richard Hightower|
|Richard Hightower|
|Richard Hightower|
|Richard Hightower|
|   Rick Hightower|
|   Rick Hightower|
|   Rick Hightower|
|   Rick Hightower|
|   Rick Hightower|
+-----------------+

当然，也可以设置show()函数的参数以返回需要的记录行数，这里只返回最近5个为QBit Microservices Lib项目贡献过源码作者：

查询作者列并返回最近的5个贡献过源码的作者

dataframe.select("author").show(5)
+-----------------+
|           author|
+-----------------+
|Richard Hightower|
|   Rick Hightower|
|   Rick Hightower|
|Richard Hightower|
|   Rick Hightower|
+-----------------+

我们可以再好好想想，这里使用的是一些相对非结构化的数据，在这个案例中，我们抓取项目的git提交日志后，可以马上执行相应的查询。现在我们想象一下，如果要在成千上万的项目上执行同样的操作，所有这些项目构成的可能是一个大公司git库，另外经常需要对所有的数据进行分析，而不只是对其中一个项目数据进行分析的话，便可以使用Spark集群处理大量的非结构化数据。此时你便可以看到Spark作为一个实时数据分析平台的处理能力，它具有简单易用、可扩展且处理能力强的特点。

查询Date列并显示最近的20条提交日期记录：

查询Date列并显示最近的20条提交日期记录

dataframe.select("date").show()
+--------------------+
|                date|
+--------------------+
|Wed Aug 19 17:51:...|
|Wed Aug 19 17:37:...|
|Wed Aug 19 16:59:...|
|Wed Aug 19 14:47:...|
|Wed Aug 19 14:42:...|
|Wed Aug 19 13:05:...|
|Wed Aug 19 11:59:...|
|Mon Aug 17 10:18:...|
|Mon Aug 17 10:17:...|
|Mon Aug 17 00:46:...|
|Sun Aug 16 23:52:...|
|Sun Aug 16 23:33:...|
|Sun Aug 16 23:05:...|
|Sun Aug 16 23:03:...|
|Sun Aug 16 22:33:...|
|Thu Aug 13 21:20:...|
|Thu Aug 13 21:15:...|
|Thu Aug 13 20:31:...|
|Thu Aug 13 20:05:...|
|Thu Aug 13 20:04:...|
+--------------------+

通过dataframe获取 QBit Microservices Lib已提交次数，计算dataframe的行数：

获取QBit Microservice Lib已经提交次数

dataframe.count()
914

914便是提交次数，该提交次数也可以从Github上看到。

我们也使用DataFrame的 filter函数进行提交次数统计，例如可以统计有多少提交是由Richard Hightower或Geoffrey Chandler完成的。

筛选出Richard Hightower 的提交并统计提交次数

dataframe.filter(dataframe.author =="Richard Hightower").count()
708

Richard Hightower的提交次数是708。

筛选出Geoffrey Chandler 的提交并统计提交次数

dataframe.filter(dataframe.author =="Geoffrey Chandler").count()
102

Geoffrey Chandler的提交次数是102。

前面的例子是通过JSON格式的数据文件创建DataFrame，我们也可以通过另外两种方式创建DataFrame：

如果列及其类型在运行时之前都是未知的，可以通过创建模式并将其应用到RDD上来创建。
如列及其类型是已知的，可以通过反射机制来创建。

为简单起见，这里使用Spark自带的people.txt文件创建RDD，该文件中有三个人名及对应年龄，姓名与年龄使用逗号分隔，该文件可以使用通过下列文件路径找到：~/spark/examples/src/main/resources/people.txt。下面的编码步骤将使用详细的注释以便于理想。

People.txt 文件内容

Michael, 29
Andy, 30
Justin, 19

创建模式（Schema）并将其应用到 textFile RDD

# Import data types
from pyspark.sql.types import *
# Create a RDD from `people.txt`
# then convert each line to a tuple.
lines = sc.textFile("examples/src/main/resources/people.txt")
parts = lines.map(lambda l: l.split(","))
people = parts.map(lambda p: (p[0], p[1].strip()))
# encode the schema in a string.
schemaString = "name age"
# Create a type fields
fields = [StructField(field_name, StringType(), True) \
            for field_name in schemaString.split()]
# Create the schema
schema = StructType(fields)
# Apply the schema to the RDD.
schemaPeople = sqlContext.createDataFrame(people, schema)
# In order to query data you need
# to register the DataFrame as a table.
schemaPeople.registerTempTable("people")
# Using sql query all the name from the table
results = sqlContext.sql("SELECT name FROM people")
# The results of SQL queries are RDDs
# and support all the normal RDD operations.
names = results.map(lambda p: "Name: " + p.name)
for name in names.collect():
  print name

上面的代码输出下列内容：

输出

Name: Michael
Name: Andy
Name: Justin

输出内容确实为所有人的名字。

可以看到，Spark能够非常方便地赋与非结构化数据相应的结构化信息以利于查询，Spark甚至能够将集群节点中的数据进行分割并进行并行分析。目前你可以视Apache Spark为一个能够进行实时数据分析和即席查询分析的快速、通用的大规模数据处理引擎。

现在让我们来演示如何利用反射机制进行数据分析。

在Spark SQL中通过反射机制进行数据分析

# First we need to import the following Row class
from pyspark.sql import SQLContext, Row
# Create a RDD peopleAge,
# when this is done the RDD will
# be partitioned into three partitions
peopleAge = sc.textFile("examples/src/main/resources/people.txt")
# Since name and age are separated by a comma let's split them
parts = peopleAge.map(lambda l: l.split(","))
# Every line in the file will represent a row
# with 2 columns name and age.
# After this line will have a table called people
people = parts.map(lambda p: Row(name=p[0], age=int(p[1])))
# Using the RDD create a DataFrame
schemaPeople = sqlContext.createDataFrame(people)
# In order to do sql query on a dataframe,
# you need to register it as a table
schemaPeople.registerTempTable("people")
# Finally we are ready to use the DataFrame.
# Let's query the adults that are aged between 21 and 50
adults = sqlContext.sql("SELECT name FROM people \
       WHERE age >= 21 AND age <= 50")
# loop through names and ages
adults = adults.map(lambda p: "Name: " + p.name)
for Adult in adults.collect():
  print Adult

上面的代码将输出：

输出

Name: Michael
Name: Andy

上面两人的年龄确实在21~50之间。

Spark、SparkSQL与 Cassandra协同使用

Spark 与Cassandra协同使用

假设想利用 Spark和 Cassandra并通过Java编写一个程序。这里给出使Apache Spark与Apache Cassandra能够协同使用的步骤:

首先需要导入下列依赖：

spark-cassandra-connector_2.10:1.1.1-rc4'
spark-cassandra-connector-java_2.10:1.1.1'
spark-streaming_2.10:1.5.0'

使用Gradle管理依赖：

Spark SQL和Cassandra 协同使用进行数据分析时的Gradle构建文件

dependencies {
    //Spark and Cassandra connector to work with java
   compile 'com.datastax.spark:spark-cassandra-connector_2.10:1.1.1-rc4'
    compile 'com.datastax.spark:spark-cassandra-connector-java_2.10:1.1.1'
    compile 'org.apache.spark:spark-streaming_2.10:1.5.0'
}

然后，设置Spark配置文件，SparkConf用于对Spark的配置属性（如Spark Master及应用程序名称）进行配置，也可以通过set()方法进行任意的键值对如spark.cassandra.connection.host进行配置。

Spark master为需要连接的集群管理器，支持以几种URL：

local，将Spark运行在本地的一个woker线程上，本例使用的便是这种方式
local[K]，将Spark运行在本地的K个线程上，通常K被设置为机器的CPU核数
spark://HOST:PORT ，连接给定的集群master，端口必须与master匹配，默认值为7077

为使Spark能够使用Cassandra，需要设置spark.cassandra.connection.host为Spark master的主机地址，在本例中为本地主机地址，具体配置如下：

SparkConf conf = new SparkConf();
  ...
        conf.setAppName("TODO spark and cassandra");
        conf.setMaster("local");
        conf.set("spark.cassandra.connection.host", "localhost");

完成前面的配置后，便可以着手创建模式（Schema），该模式为Cassandra的表和keyspace ，它可以保存后期需要加载的数据。

创建一个CassandraConnector 的连接器实例，同时创建Cassandra的Keyspacce todolist和Table的todolist

private void createSchema(JavaSparkContext sc) {
        CassandraConnector connector = 
                   CassandraConnector.apply(sc.getConf());
        try (Session session = connector.openSession()) {
            session.execute(deletekeyspace);
            session.execute(keyspace);
            session.execute("USE todolist");
            session.execute(table);
            session.execute(tableRDD);
        }
 }

正如上面的代码描述的，我们创建了一个CassandraConnector 的实例，然后执行Cassandra查询语言（Cassandra Query Language，CQL）。我们将在后面的其它文章中对这一主题进行详细讲解。

使用Cassandra查询语言

/* Delete keyspace todolist if exists. */
String deletekeyspace = "DROP KEYSPACE IF EXISTS todolist";
/* Create keyspace todolist. */
String keyspace = "CREATE KEYSPACE IF NOT EXISTS todolist" +
  " WITH replication = {'class': 'SimpleStrategy'," +
  " 'replication_factor':1}";
/* Create table todolisttable. */
String table = "CREATE TABLE todolist.todolisttable(" +
            + " id text PRIMARY KEY, "
            + " description text, "
            + " category text, "
            + " date timestamp )";
/* Create table temp. */
String tableRDD = "CREATE TABLE todolist.temp(id text PRIMARY KEY, "
            + "description text, "
            + "category text )";

我们现在有两张表，它们分别是todolisttable 和temp，然后使用Cassandra CQL将todo项的数据加载到todolisttable当中：

private void loadData(JavaSparkContext sc) {
        CassandraConnector connector = CassandraConnector.apply(sc.getConf());
        try (Session session = connector.openSession()) {
            session.execute(task1);
            session.execute(task2);
            session.execute(task3);
            session.execute(task4);
            session.execute(task5);
            session.execute(task6);
            session.execute(task7);
        }

下面给出的是需要加载到Cassandra 中的todo项，最后面跟的是CQL 命令。

需要加载到Spark中的 Todo项目，加载时使用Cassandra CQL 命令

TodoItem item = new TodoItem("George", "Buy a new computer", "Shopping");
   TodoItem item2 = new TodoItem("John", "Go to the gym", "Sport");
    TodoItem item3 = new TodoItem("Ron", "Finish the homework", "Education");
    TodoItem item4 = new TodoItem("Sam", "buy a car", "Shopping");
    TodoItem item5 = new TodoItem("Janet", "buy groceries", "Shopping");
    TodoItem item6 = new TodoItem("Andy", "go to the beach", "Fun");
    TodoItem item7 = new TodoItem("Paul", "Prepare lunch", "Coking");
//index data
    String task1 = "INSERT INTO todolisttable (ID, Description, Category, Date)"
            + item.toString();
    String task2 = "INSERT INTO todolisttable (ID, Description, Category, Date)"
            + item2.toString();
    String task3 = "INSERT INTO todolisttable (ID, Description, Category, Date)"
            + item3.toString();
    String task4 = "INSERT INTO todolisttable (ID, Description, Category, Date)"
            + item4.toString();
    String task5 = "INSERT INTO todolisttable (ID, Description, Category, Date)"
            + item5.toString();
    String task6 = "INSERT INTO todolisttable (ID, Description, Category, Date)"
            + item6.toString();
    String task7 = "INSERT INTO todolisttable (ID, Description, Category, Date)"
            + item7.toString();

接下来便可以从Cassandra的todolisttable中查询数据：

从Cassandra的todolisttable中查询数据

private void queryData(JavaSparkContext sc) {
        CassandraConnector connector = 
                   CassandraConnector.apply(sc.getConf());
        try (Session session = connector.openSession()) {
            ResultSet results = session.execute(query);
            System.out.println("Query all results from cassandra:\n" + results.all());
        }

将Cassandra的表作为Spark RDD并从中获取数据：

将Cassandra的表作为Spark RDD并从中获取数据

public  void accessTableWitRDD(JavaSparkContext sc){
        JavaRDD cassandraRDD = javaFunctions(sc).cassandraTable("todolist", "todolisttable")
                .map(new Function() {
                    @Override
                    public String call(CassandraRow cassandraRow) throws Exception {
                        return cassandraRow.toString();
                    }
                });
    }

为将Cassandra的表作为RDD读取数据，我们使用cassandraTable("keyspace", "table")方法。cassandraTable 方法要能够起作用，需要利用javaFunctions()方法将sparkcontext作为参数传入。

对该RDD来说，其数据类型是CassandraRow

打印该RDD：

打印Spark RDD的数据

System.out.println("\nData as CassandraRows from a RDD: \n" + StringUtils.join(cassandraRDD.toArray(), "\n"));

我们也可以像读取Cassandra表中的数据一样简单地将RDD保存到Cassandra当中，首先创建一个类型为TodoItem的RDD并填充部分数据，然后将其保存为Cassandra的临时表：

创建一个包含todo items 集合的RDD，然后将其保存到Cassandra

public void saveRDDToCass(JavaSparkContext sc) {
        List todos = Arrays.asList(
        new TodoItem("George", "Buy a new computer", "Shopping"),
        new TodoItem("John", "Go to the gym", "Sport"),
        new TodoItem("Ron", "Finish the homework", "Education"),
        new TodoItem("Sam", "buy a car", "Shopping"),
        new TodoItem("Janet", "buy groceries", "Shopping"),
        new TodoItem("Andy", "go to the beach", "Fun"),
        new TodoItem("Paul", "Prepare lunch", "Coking")
        );
        JavaRDD rdd = sc.parallelize(todos);
        javaFunctions(rdd).writerBuilder("todolist", "temp", mapToRow(TodoItem.class)).saveToCassandra();

上面我们创建了TodoItem的List集合，然后使用parallelize 方法创建对应的Spark RDD对象rdd，然后通过调用传入参数为rdd对象的writerBuilder 方法将RDD保存为一个keyspace todolist和一个temp表。

为确保rdd已经保存到Cassandra的temp表中，我们从该表中查询数据：

从Cassandra 中查询temp表数据

String query1 = "SELECT * FROM todolist.temp";
ResultSet results1 = session.execute(query1);
System.out.println("\nQuery all results from temp" +
 " table after saving a RDD into Cassandra:\n" +
 results1.all());

最后，我们给出完整的代码列表，并在代码运行部分给出所有的命令，包括如何从Github中获取源码、如何在机器上运行。

Spark SQL与Cassandra协同使用

Spark SQL能够让你查询结构化的数据，包括RDD和任何存储在Cassandra中的数据，为使用Spark SQL 我们需要做以几件事：

创建SQLContext （SQLContext构造函数参数为SparkContext)。
加载parquet 格式数据 (parquet数据格式是一种列式数据存储格式，意味着数据表按列组织而非行组织)。
数据加载完成后便得到DataFrame。
额外的信息使得在数据注册成表之后可以使用SQL进行查询
SQL查询得到的是行对象
SQL查询是一款强大的工具

值得注意的是Spark DataFrame具有普通Spark RDD所拥有的函数，而且在其数据集还具备更多关于列名称和类型的元数据。

关于Spark SQL有用的信息包括：

Spark SQL可以将表缓存到内存当中
当使用SQL进行数据查询时，返回的结果是RDD
使用parquets格式读取数据：列存储格式能够过滤掉不需要的数据
RDD能够以parquet格式文件存储
JSON对象可以使用jsonRDD方法转换成DataFrame

RDD可以并行执行，它是一种弹性分布式数据集，是构成Spark的主要组件，它是数据的一种表示方式。RDD的数据可以分片存储在集群上，正是这些分片数据使得task可以并行执行。RDD的分片越多，其并行执行度越高。

Parquet是一种列数据存储格式，它也可以被其它数据处理系统如Hive所支持。Apache Parquet是Hadoop生态圈的一部分，它是一种跨语言、跨数据处理框架的列式数据格式。Spark SQL能够读写Parquet文件，这些文件保存了数据的Schema信息。

让我们来演示如何通过java语言使用Spark SQL进行前面 todo item例子的开发。

首先，需要在gradle 文件中引入spark-sql 的依赖：

在Gradle 中使用Spark SQL 依赖

dependencies {
 compile 'org.apache.spark:spark-sql_2.10:1.5.0'
}

然后，创建Spark configuration 对象并连接Cassandra：

为Cassandra 创建SparkSpark configuration对象

SparkConf conf = new SparkConf();
conf.setAppName("TODO sparkSQL and cassandra");
conf.setMaster("local");
conf.set("spark.cassandra.connection.host", "localhost");

创建Spark Context对象 (JavaSparkContext)。

创建Spark Context

JavaSparkContextsc=newJavaSparkContext(conf);

创建SQLContext对象以便使用SQL连接Cassandra：

创建Spark SQL Context

JavaSparkContext sc = new JavaSparkContext(conf);

通过SQLContext便能注册RDD并利用Spark SQL进行查询操作。

然后，创建RDD对象（rdd）并加载数据(TodoItems)：

RDD 加载 TodoItems

 List todos = Arrays.asList(
                new TodoItem("George", "Buy a new computer", "Shopping"),
                new TodoItem("John", "Go to the gym", "Sport"),
                new TodoItem("Ron", "Finish the homework", "Education"),
                new TodoItem("Sam", "buy a car", "Shopping"),
                new TodoItem("Janet", "buy groceries", "Shopping"),
                new TodoItem("Andy", "go to the beach", "Fun"),
                new TodoItem("Paul", "Prepare lunch", "Cooking")
        );
        JavaRDD rdd = sc.parallelize(todos);

需要注意的是我们使用parallelize方法将所有的Todo数据加载到整个Spark集群。JavaRDD通过context.parallelize方法产生。

然后，通过sqlContext创建DataFrame：

通过sqlContext创建DataFrame

DataFrame dataframe = sqlContext.createDataFrame(rdd, TodoItem.class);

Dataframe从 TodoItem.class获取对应的schema。

然后，将dataframe注册成名为todo的表：

将DataFrame注册成名为todo的表

sqlContext.registerDataFrameAsTable(dataframe, "todo");

这样后面便可以使用todo进行DataFrame数据的查询。

到这一步便可以使用Spark SQL提供的所有操作，首先对todo items进行计数，它将加载数据到内存以便进行更快速的查询操作：

获取DataFrame中TODO items的数量

System.out.println("Total number of TodoItems = [" + rdd.count() + "]\n");

最后，使用SQL进行数据的查询：

使用Spark SQL查询Todo Items并显示查询结果

 DataFrame result = sqlContext.sql("SELECT * from todo");
        System.out.println("Show the DataFrame result:\n");
        result.show();
        System.out.println("Select the id column and show its contents:\n");
        result.select("id").show();

可以在本文最后的运行部分获取相关代码及如何运行这些代码的教程。这里给出本文例子的完整代码。

完整代码清单

SparkApp.java清单

package com.example;
import com.datastax.driver.core.ResultSet;
import com.datastax.driver.core.Session;
import com.datastax.spark.connector.cql.CassandraConnector;
import com.datastax.spark.connector.japi.CassandraRow;
import org.apache.commons.lang.StringUtils;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.Function;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import java.io.Serializable;
import java.util.Arrays;
import java.util.List;
import static com.datastax.spark.connector.japi.CassandraJavaUtil.javaFunctions;
import static com.datastax.spark.connector.japi.CassandraJavaUtil.mapToRow;
//import org.apache.cassandra.cql.BatchStatement;
/**
 * Created by fadi on 5/18/15.
 */
public class SparkApp implements Serializable {
    static final Logger logger = LoggerFactory.getLogger(SparkApp.class);
    TodoItem item = new TodoItem("George", "Buy a new computer", "Shopping");
    TodoItem item2 = new TodoItem("John", "Go to the gym", "Sport");
    TodoItem item3 = new TodoItem("Ron", "Finish the homework", "Education");
    TodoItem item4 = new TodoItem("Sam", "buy a car", "Shopping");
    TodoItem item5 = new TodoItem("Janet", "buy groceries", "Shopping");
    TodoItem item6 = new TodoItem("Andy", "go to the beach", "Fun");
    TodoItem item7 = new TodoItem("Paul", "Prepare lunch", "Coking");
    String keyspace = "CREATE KEYSPACE IF NOT EXISTS todolist  WITH replication = {'class': 'SimpleStrategy', 'replication_factor':1}";
    //index data
    String task1 = "INSERT INTO todolisttable (ID, Description, Category, Date)"
            + item.toString();
    String task2 = "INSERT INTO todolisttable (ID, Description, Category, Date)"
            + item2.toString();
    String task3 = "INSERT INTO todolisttable (ID, Description, Category, Date)"
            + item3.toString();
    String task4 = "INSERT INTO todolisttable (ID, Description, Category, Date)"
            + item4.toString();
    String task5 = "INSERT INTO todolisttable (ID, Description, Category, Date)"
            + item5.toString();
    String task6 = "INSERT INTO todolisttable (ID, Description, Category, Date)"
            + item6.toString();
    String task7 = "INSERT INTO todolisttable (ID, Description, Category, Date)"
            + item7.toString();
    //delete keyspace
    String deletekeyspace = "DROP KEYSPACE IF EXISTS todolist";
    //delete table
    String deletetable = "DROP TABLE todolisttable";
    //create table
    String table = "CREATE TABLE todolist.todolisttable(id text PRIMARY KEY, "
            + "description text, "
            + "category text, "
            + "date timestamp )";
    String tableRDD = "CREATE TABLE todolist.temp(id text PRIMARY KEY, "
            + "description text, "
            + "category text )";
    //Query all data
    String query = "SELECT * FROM todolist.todolisttable";
    String query1 = "SELECT * FROM todolist.temp";
    //Update table
    String update = "UPDATE todolisttable SET Category='Fun',Description='Go to the beach' WHERE ID='Ron'";
    //Deleting data where the index id = George
    String delete = "DELETE FROM todolisttable WHERE ID='George'";
    //Deleting all data
    String deleteall = "TRUNCATE todolisttable";
//---------------------------------------------------------------------------------
    private transient SparkConf conf;
    private SparkApp(SparkConf conf) {
        this.conf = conf;
    }
    private void run() {
        JavaSparkContext sc = new JavaSparkContext(conf);
        createSchema(sc);
        loadData(sc);
        saveRDDToCassandra(sc);
        queryData(sc);
        accessTableWitRDD(sc);
        sc.stop();
    }
    private void createSchema(JavaSparkContext sc) {
        CassandraConnector connector = CassandraConnector.apply(sc.getConf());
        try (Session session = connector.openSession()) {
            session.execute(deletekeyspace);
            session.execute(keyspace);
            session.execute("USE todolist");
            session.execute(table);
            session.execute(tableRDD);
        }
    }
    private void loadData(JavaSparkContext sc) {
        CassandraConnector connector = CassandraConnector.apply(sc.getConf());
        try (Session session = connector.openSession()) {
            session.execute(task1);
            session.execute(task2);
            session.execute(task3);
            session.execute(task4);
            session.execute(task5);
            session.execute(task6);
            session.execute(task7);
        }
    }
    private void queryData(JavaSparkContext sc) {
        CassandraConnector connector = CassandraConnector.apply(sc.getConf());
        try (Session session = connector.openSession()) {
            ResultSet results = session.execute(query);
            System.out.println("\nQuery all results from cassandra's todolisttable:\n" + results.all());
            ResultSet results1 = session.execute(query1);
            System.out.println("\nSaving RDD into a temp table in casssandra then query all results from cassandra:\n" + results1.all());
        }
    }
    public  void accessTableWitRDD(JavaSparkContext sc){
        JavaRDD cassandraRDD = javaFunctions(sc).cassandraTable("todolist", "todolisttable")
                .map(new Function() {
                    @Override
                    public String call(CassandraRow cassandraRow) throws Exception {
                        return cassandraRow.toString();
                    }
                });
        System.out.println("\nReading Data from todolisttable in Cassandra with a RDD: \n" + StringUtils.join(cassandraRDD.toArray(), "\n"));
        // javaFunctions(cassandraRDD).writerBuilder("todolist", "todolisttable", mapToRow(String.class)).saveToCassandra();
    }
    public void saveRDDToCassandra(JavaSparkContext sc) {
        List todos = Arrays.asList(
                new TodoItem("George", "Buy a new computer", "Shopping"),
                new TodoItem("John", "Go to the gym", "Sport"),
                new TodoItem("Ron", "Finish the homework", "Education"),
                new TodoItem("Sam", "buy a car", "Shopping"),
                new TodoItem("Janet", "buy groceries", "Shopping"),
                new TodoItem("Andy", "go to the beach", "Fun"),
                new TodoItem("Paul", "Prepare lunch", "Coking")
        );
        JavaRDD rdd = sc.parallelize(todos);
        javaFunctions(rdd).writerBuilder("todolist", "temp", mapToRow(TodoItem.class)).saveToCassandra();
    }
//----------------------------------------------------------------------------------------------------------------------------
    public static void main( String args[] )
    {
        SparkConf conf = new SparkConf();
        conf.setAppName("TODO spark and cassandra");
        conf.setMaster("local");
        conf.set("spark.cassandra.connection.host", "localhost");
        SparkApp app = new SparkApp(conf);
        app.run();
    }
}

SparkSQLApp.java清单

package com.example;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.sql.DataFrame;
import org.apache.spark.sql.SQLContext;
import java.util.Arrays;
import java.util.List;
/**
 * Created by fadi on 6/14/15.
 */
public class SparkSQLApp {
    private transient SparkConf conf;
    private SparkSQLApp(SparkConf conf) {
        this.conf = conf;
    }
    private void run() {
        JavaSparkContext sc = new JavaSparkContext(conf);
         SQLContext sqlContext = new SQLContext(sc);
        createDataframe(sc, sqlContext);
        querySQLData(sqlContext);
        sc.stop();
    }
    public void createDataframe(JavaSparkContext sc, SQLContext sqlContext ) {
        List todos = Arrays.asList(
                new TodoItem("George", "Buy a new computer", "Shopping"),
                new TodoItem("John", "Go to the gym", "Sport"),
                new TodoItem("Ron", "Finish the homework", "Education"),
                new TodoItem("Sam", "buy a car", "Shopping"),
                new TodoItem("Janet", "buy groceries", "Shopping"),
                new TodoItem("Andy", "go to the beach", "Fun"),
                new TodoItem("Paul", "Prepare lunch", "Cooking")
        );
        JavaRDD rdd = sc.parallelize(todos);
        DataFrame dataframe =   sqlContext.createDataFrame(rdd, TodoItem.class);
        sqlContext.registerDataFrameAsTable(dataframe, "todo");
        System.out.println("Total number of TodoItems = [" + rdd.count() + "]\n");
    }
    public void querySQLData(SQLContext sqlContext) {
        DataFrame result = sqlContext.sql("SELECT * from todo");
        System.out.println("Show the DataFrame result:\n");
        result.show();
        System.out.println("Select the id column and show its contents:\n");
        result.select("id").show();
    }
    public static void main( String args[] )
    {
        SparkConf conf = new SparkConf();
        conf.setAppName("TODO sparkSQL and cassandra");
        conf.setMaster("local");
        conf.set("spark.cassandra.connection.host", "localhost");
        SparkSQLApp app = new SparkSQLApp(conf);
        app.run();
    }
}

Todoitem.java清单

package com.example;
import java.io.Serializable;
import java.time.LocalDateTime;
public class TodoItem implements Serializable {
    private String id;
    private String description;
    private String category;
    private final LocalDateTime date = LocalDateTime.now();
    public TodoItem(String id, String description, String category) {
        this.id = id;
        this.description = description;
        this.category = category;
    }
    public String getId(){
        return this.id;
    }
    public  String getDescription(){
        return this.description;
    }
    public String getCategory(){
        return this.category;
    }
    public void setId(String id) {
        this.id = id;
    }
    public void setDescription(String description) {
        this.description = description;
    }
    public void setCategory(String category) {
        this.category = category;
    }
    @Override
    public String toString() {
        return  "VALUES ( " + "'" + this.id +"'" + ", " + "'" + this.description +"'" + ", " + "'" + this.category +"'" +", "  + "'" + date +"'" + ")";
    }
}

build.gradle清单

apply plugin: 'idea'
apply plugin: 'java'
apply plugin: 'jetty'
apply plugin: 'application'
applicationName = 'todocass'
applicationDefaultJvmArgs = ["-Dlogback.configurationFile=etc/todosolr/logging.xml"]
sourceCompatibility = 1.8
version = '1.0'
repositories {
    mavenLocal()
    mavenCentral()
}
task runSpark(type: JavaExec, dependsOn: 'classes') {
    main = "com.example.SparkApp"
    classpath = sourceSets.main.runtimeClasspath
}
task runSparkSQL(type: JavaExec, dependsOn: 'classes') {
    main = "com.example.SparkSQLApp"
    classpath = sourceSets.main.runtimeClasspath
}
dependencies {
    //spark and cassandra connector to work with java
    compile 'com.datastax.spark:spark-cassandra-connector_2.10:1.1.1-rc4'
    compile 'com.datastax.spark:spark-cassandra-connector-java_2.10:1.1.1'
    compile 'org.apache.spark:spark-streaming_2.10:1.5.0'
    compile 'org.apache.spark:spark-sql_2.10:1.5.0'
    //logback dependencies
    compile 'ch.qos.logback:logback-core:1.1.3'
    compile 'ch.qos.logback:logback-classic:1.1.3'
    compile 'org.slf4j:slf4j-api:1.7.12'
}
//Install/copy tasks
task copyDist(type: Copy) {
    dependsOn "installApp"
    from "$buildDir/install/todocass"
    into 'opt/todocass'
}
task copyLog(type: Copy) {
    from "src/main/resources/logback.xml"
    into "etc/todocass/"
}
task copyLogToImage(type: Copy) {
    from "src/main/resources/logback.xml"
    into "image-todo-cass/etc"
}
task copyDistToImage(type: Copy) {
    dependsOn "installApp"
    from "$buildDir/install/todocass"
    into "$projectDir/image-todo-cass/opt/todocass"
}

运行

首先运行Cassandra：

cd ~/cassandra
bin/cassandra -f

获取代码：

git clone https://github.com/MammatusTech/Spark-Course.git

然后构建Spark-Course：

cd Spark-Course
gradle clean build

首先，运行SparkApp，这是Spark与Cassandra协同工作的例子：

gradle runSpark

运行时将看到下列内容：

Query all results from cassandra's todolisttable:
[Row[George, Shopping, Mon Jun 15 13:36:07 PDT 2015, Buy a new computer], Row[Janet, Shopping, Mon Jun 15 13:36:07 PDT 2015, buy groceries], Row[John, Sport, Mon Jun 15 13:36:07 PDT 2015, Go to the gym], Row[Paul, Coking, Mon Jun 15 13:36:07 PDT 2015, Prepare lunch], Row[Ron, Education, Mon Jun 15 13:36:07 PDT 2015, Finish the homework], Row[Andy, Fun, Mon Jun 15 13:36:07 PDT 2015, go to the beach], Row[Sam, Shopping, Mon Jun 15 13:36:07 PDT 2015, buy a car]]
Saving RDD into a temp table in casssandra then query all results from cassandra:
[Row[George, Shopping, Buy a new computer], Row[Janet, Shopping, buy groceries], Row[John, Sport, Go to the gym], Row[Paul, Coking, Prepare lunch], Row[Ron, Education, Finish the homework], Row[Andy, Fun, go to the beach], Row[Sam, Shopping, buy a car]]
Reading Data from todolisttable in Cassandra with a RDD:
CassandraRow{id: Paul, category: Coking, date: 2015-06-15 13:36:07-0700, description: Prepare lunch}
CassandraRow{id: Sam, category: Shopping, date: 2015-06-15 13:36:07-0700, description: buy a car}
CassandraRow{id: Ron, category: Education, date: 2015-06-15 13:36:07-0700, description: Finish the homework}
CassandraRow{id: Janet, category: Shopping, date: 2015-06-15 13:36:07-0700, description: buy groceries}
CassandraRow{id: John, category: Sport, date: 2015-06-15 13:36:07-0700, description: Go to the gym}
CassandraRow{id: George, category: Shopping, date: 2015-06-15 13:36:07-0700, description: Buy a new computer}
CassandraRow{id: Andy, category: Fun, date: 2015-06-15 13:36:07-0700, description: go to the beach}

然后运行SparkSQL APP，这是Spark SQL与Cassandra协同工作的例子：

gradle runSparkSQL:

运行时将看到下列内容：

Total number of TodoItems = [7]
Show the DataFrame result:
+---------+-------------------+------+
| category|        description|    id|
+---------+-------------------+------+
| Shopping| Buy a new computer|George|
|    Sport|      Go to the gym|  John|
|Education|Finish the homework|   Ron|
| Shopping|          buy a car|   Sam|
| Shopping|      buy groceries| Janet|
|      Fun|    go to the beach|  Andy|
|  Cooking|      Prepare lunch|  Paul|
+---------+-------------------+------+
Select the id column and show its contents:
+------+
|    id|
+------+
|George|
|  John|
|   Ron|
|   Sam|
| Janet|
|  Andy|
|  Paul|
+------+

结束语

本文展示了Spark在实时数据分析方面的强大功能，介绍了Spark生态系统中的一个重要部分——Spark SQL和DataFrames。DataFrames构建在RDD之上，RDD的数据分片使得DataFrame能够被并行处理。

在本文中，我们也演示了如何将Spark和Spark SQL与Cassandra结合起来使用。

Apache Spark已经被证明是Hadoop的天然继承，并引领着大数据技术趋势。它在Hadoop生态圈中运行良好，是实现大数据分析的一条快速通道。Spark提供一套易于使用的API，具备大规模分布式任务下的数据分析能力。Apache Spark 使得普通开发者也具备大数据的实时数据分析能力。 Spark SQL是Apache Spark提供的API的一个实例，易于使用而功能强大。

参考文献

Spark Docs
Spark Github
About Spark
Mammatus Tech
Mammatus Apache Spark Course

原文链接：Analytics with Apache Spark Tutorial Part 2: Spark SQL（译者/牛亚真审校/朱正贵责编/仲浩）

译者简介：牛亚真，本科，2010年毕业于西南大学计算机与信息科学学院信息管理与信息系统专业；研究生，2013年毕业于中国科学院大学文献情报中心情报学专业，计算机信息处理与检索方向。

转载： http://www.csdn.net/article/2015-11-25/2826325

你可能感兴趣的:(大数据-离线计算-Spark)

人工智能真的能编程吗？研究勾勒出自主软件工程的障碍 WSSWWWSSW 人工智能软件工程
想象一下这样一个未来：人工智能悄然承担起软件开发的繁重工作：重构杂乱无章的代码、迁移遗留系统以及排查竞态条件，这样人类工程师就可以专注于架构、设计以及那些机器仍然无法解决的真正新颖的问题。最近的进展似乎让这个未来近在咫尺，但麻省理工学院计算机科学与人工智能实验室（CSAIL）以及其他几家合作机构的研究人员发表的一篇新论文指出，要实现这个潜在的未来，需要认真审视当前面临的挑战。这篇题为《面向软件工程
7.22学习感悟唐醋里脊学习算法
数组（单一性，有序性，连续性基于内存空间）1）一维数组，定义数据类型都能行除了（void）2）数组内[]元素至少有一个。3）一维数组的引用4）定义这一行只表示类型说明符。5）数组的数组名代表数组的首元素地址6）数组不能整体赋值7）数组小的比数组大的位置靠前（有序性）8）数组的越阶访问。9）计算数组中元素的个数。（1）逆序（2）选择排序：在合适的数组位置上放上合适的数（3）冒泡排序：相邻两个元素核心
mysql学习记录7.22 woshishui68892
记录一下在学习mysql时避免忘记的内容。日期计算MySQL提供了一些函数，可用于对日期执行计算，例如，计算年龄或提取部分日期。要确定您的每只宠物几岁，请使用该TIMESTAMPDIFF()功能。它的参数是要表示结果的单位，以及两个日期之间的差值。以下查询为每只宠物显示出生日期，当前日期和年龄（以年为单位）。一个别名（age）是用来制造最终输出列标签更有意义。SELECTname,birth,CU
305李03days作业#裂变实验室# 李_d891
A账号大数据里加的人B账号精筛选一遍的客户C账号vip客户深度信任客户今天事情有点多，没有好好学习，明天重新写一个补到新作业里。
计算机网络哪里不会点哪里. 网络计算机网络服务器网络
目录一、OSI与TCP/IP各层的结构与功能二、三次握手和四次挥手1.三次握手2.为什么要三次握手3.第二次握手回传了ACK，为什么还要回传SYN4.四次挥手三、TCP协议如何保证可靠传输四、状态码五、Cookie和Session六、HTTP1.0和HTTP1.1七、URI和URL八、HTTP和HTTPS一、OSI与TCP/IP各层的结构与功能应用层应用层(application-layer）的任
k8s:手动创建PV，解决postgis数据库本地永久存储云游 k8s kubernetes 容器云原生
1.离线环境CPU:HygonC86728532-coreProcessor操作系统：麒麟操作系统containerd：1.7.27Kubernetes:1.26.12KubeSphere:4.1.2kubekey：3.1.10Harbor:2.13.1Postgis:17-3.52创建StorageClass2.1创建apiVersion:storage.k8s.io/v1kind:Storag
USB串口通信、握手协议、深度学习等技术要点深度学习教程, 深度学习人工智能网络协议
基于OpenMV的智能车牌识别系统：从硬件到算法的完整实现前言本文将详细介绍一个基于OpenMV微控制器的智能车牌识别系统的设计与实现。该系统集成了嵌入式视觉处理、串口通信协议、深度学习OCR识别等多种技术，实现了从图像采集到车牌识别的完整流程。系统架构概述整体设计思路该车牌识别系统采用分布式架构设计，将计算密集型任务与嵌入式控制分离：┌─────────────┐USB串口通信┌────────
基于Docker搭建Harbor私有镜像仓库
Harbor是VMware开源的企业级Docker容器镜像仓库，支持镜像存储、访问控制、镜像复制、安全扫描、审计日志等功能，适合企业级私有化部署。1.前置环境说明Harbor的部署依赖于Docker和DockerCompose环境。鉴于Docker已在系统中完成安装，以下将重点介绍DockerCompose的配置及Harbor的安装步骤。下面示例是在线安装，离线安装可以去github下载安装包[r
贪心算法（基础算法） breeze_phantom 算法 c++贪心算法
1.引言ok啊，拖更这么长时间也是没有压力（doge）不说啥，直接进入正题。2.概念这个贪心算法呢，看名字就知道，不就是每个步骤都挑最好的嘛，有啥难的。这么说的话......其实确实，你如果真的能很快找出贪心策略那就可以这么说，但还是那句话，策略怎么找是个问题。讲这么多，还没讲一下定义（虽然不讲感觉也能猜出来）：贪心算法就是在特定问题中每一次计算都做出最好的选择，举个例子：本蒟蒻去商店买东西，这商
如何构建FunASR的本地语音识别服务
FunASR简介FunASR是阿里巴巴达摩院开源的高性能语音识别工具包，支持离线识别和实时流式识别两种模式。其核心特点包括：支持多种语音任务：ASR（自动语音识别）、VAD（语音活动检测）、标点恢复、关键词检测等。提供预训练模型：覆盖中文、英文等多语言，支持不同场景（通用、会议、直播等）。支持多种部署方式：本地Python、Docker容器、ONNX推理优化等。开源地址：GitHub-FunASR
计算机网络学习----Https协议典孝赢麻崩乐急计算机网络学习 https
在互联网通信中，数据安全始终是核心需求。当用户在浏览器中输入https://访问网站时，背后隐藏着一套复杂的安全机制——HTTPS（HypertextTransferProtocolSecure）。它通过TLS/SSL协议对HTTP通信加密，而支撑这一加密体系的核心正是证书体系。本文将详细解析HTTPS的证书体系、加密通信流程、核心作用、优缺点，并结合代码示例说明其实现逻辑。HTTPS是什么？HT
初识opencv
文章目录1.什么opencv，它的优势点2.opencv安装和环境配置3.了解数字图像的基本概念：像素、彩色图像、灰度图像、二值图像、图像算数操作4.练习numpy中array的基本操作5.练习图像的加载、保存、以及算术操作参考文献1.什么opencv，它的优势点OpenCV是Intel®开源计算机视觉库。它由一系列C函数和少量C++类构成，实现了图像处理和计算机视觉方面的很多通用算法。OpenC
深入理解Socket套接字原理 Princesk web应用测试学习 websocket tcp/ip python
Socket套接字原理1、什么是Socket在计算机领域，套接字Socket作为计算机之间进行通信的固定的约定方式之一存在。这种太抽象了，我举个例子，我们要是用笔记本电脑前需要先对电脑供电，那供电就有两种方式电线插座供电和电池供电，电网有电就用插座供电，电网没电就用笔记本的自带的电池供电。那么这个供电的工具（电池或者电线插座）就是套接字Socket。Socket起源于Linux系统，我们都知道Li
C语言第一章--C语言简介
C语言第一章--C语言简介一、指令、程序和软件1.什么是指令？2.什么是程序？3.什么是软件？二、计算机语言1.什么是计算机语言？2.计算机语言有哪些？三、高级语言的发展1.什么是非结构化语言？2.什么是结构化语言？3.什么是面向对象语言？四、C语言简介五、语言特点1.语法简洁2.具有结构化的控制语句3.丰富的数据类型4.丰富的运算符5.可对物理地址进行直接操作6.具有良好的移植性7.可生成高质量
Python训练 + Go优化 + C#部署：端到端AI模型的跨语言实践威哥说编程人工智能学习资料库 python golang c#
在现代AI应用中，如何高效地训练、优化、并最终部署AI模型是一项复杂且具有挑战性的任务。在这一过程中，选择合适的编程语言和工具可以显著提高效率和系统的性能。Python作为AI领域的主流语言，具有丰富的深度学习框架（如PyTorch和TensorFlow），在模型训练方面处于领先地位。然而，针对计算密集型任务（如数据预处理、加密等），Go语言因其高效的并发处理和出色的性能，成为优化计算的理想选择。
深度解析：阿里云服务器ECS计算型c7性能CPU内存、带宽和存储测评阿腾云
深度解析：阿里云服务器ECS计算型c7性能CPU内存、带宽和存储测评，ECS计算型c7实例性能测评，CPU采用第三代IntelXeon可扩展处理器（IceLake），基频2.7GHz，全核睿频3.5GHz，计算性能稳定；c7云服务器依托第三代神龙架构，提供稳定可预期的超高性能。同时通过芯片快速路径加速手段，完成存储、网络性能以及计算稳定性的数量级提升。阿里云服务器网aliyunfuwuqi.com
yolov8涨点系列之替换幽灵卷积GhostConv 没脾气的小玩家 yolov8涨点系列 YOLO 目标检测
文章目录核心思想主要步骤优势yolov8.yaml文件增加CBAMyolov8.yamlyolov8.yaml将Conv卷积替换成GhostConv 幽灵卷积（GhostConv）是一种新颖的卷积操作方法，旨在解决传统卷积神经网络中参数量和计算量过大的问题，尤其适用于资源受限的设备。以下是对幽灵卷积的详细介绍：核心思想常规的卷积操作会产生大量的特征图，其中存在一定的冗余信息。幽灵卷积的核心思
Apache Ignite 的并发控制：实现高性能事务处理的关键 AI天才研究院 AI实战 AI人工智能与大数据 LLM大模型落地实战指南大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着大数据时代的到来，数据量的增长和计算能力的提升使得传统的数据库和计算模型已经无法满足业务需求。为了应对这些挑战，分布式计算和存储技术得到了广泛的研究和应用。ApacheIgnite是一款高性能的分布式数据库和计算平台，它可以提供实时性能和高可用性，同时支持事务处理和并发控制。在这篇文章中，我们将深入探讨ApacheIgnite的并发控制机制，以及如何实现高性能事务处理。我们将从以下
Roslyn 的兴起 AI云栈
原文地址：https://msdn.microsoft.com/magazine/732ddd02-d67b-447e-a400-ec8c1e94b58c过去数年来，各类计算机专业人员、思想领导者和专家倡导将域特定语言(DSL)的概念作为研究软件问题解决方案的一种方法。如果“临时用户”可以使用DSL语法在系统中调整和修改业务规则，这种方法似乎尤其适用。这对许多开发人员来说是软件的“圣杯”—构建在业
Apache Ignite SQLLine工具使用指南侯霆垣
ApacheIgniteSQLLine工具使用指南概述ApacheIgnite作为一个分布式内存计算平台，提供了完整的SQL功能支持。SQLLine是Ignite内置的一个命令行工具，它允许开发者和数据库管理员通过交互式方式执行SQL查询和管理Ignite集群。本文将详细介绍如何使用SQLLine工具与Ignite集群进行交互。SQLLine工具简介SQLLine是一个基于控制台的JDBC客户端工
HCIP第一天课程笔记整理搞IT的马哥 IP 网络网络协议 tcp/ip 服务器
HCIP----huawei认证高级工程师抽象语言先转化成编码编码一定要转化成二进制（为什么一定要转化成二进制？）二进制信号转化成电信号处理电信号（协议等同于标准，目的就是提升服务）（1876年电话诞生，1946年第一台电子计算机诞生）OSI参考模型---OSI/RM---ISO（国际标准化组织）---1979年颁布开放式系统互联参考模型（应表会传网数物）应用层---提供各种应用服务，将抽象语言转
2019-06-06 906bbbe1730f
尊敬的李老师，智慧的教授，亲爱的跃友们，大家晚上好！我是来自临沂永林木业的姜秀萍，今天是我日精进分享的第180天，给大家分享我今天的进步，每天进步一点点，距离成功便不远。比学习好好学好数学，计算，口算，培养孩子的同时，也锻炼了自己，会给自己的工作带来帮助。比改变我变了，世界就变了，虚心学习，从内而外，提高自身素养，和专业技能。比付出承担才会成长，付出才会杰出，只要努力付出，定会在将来的某一天收获成
DolphinScheduler 如何高效调度 AnalyticDB on Spark 作业？ DolphinScheduler社区 spark 大数据分布式
DolphinScheduler是一个分布式易扩展的可视化DAG工作流任务调度开源系统，能高效地执行和管理大数据流程。用户可以在DolphinSchedulerWeb界面轻松创建、编辑和调度云原生数据仓库AnalyticDBMySQL版的Spark作业。前提条件AnalyticDBforMySQL集群的产品系列为企业版、基础版或湖仓版。AnalyticDBforMySQL集群中已创建Job型资源组
C语言程序设计--第一章 C语言概述 ✎ ぅTrip、° c语言
计算机语言计算机语言种类有很多，根据其发展的过程和面向的对象，可分为三类：机器语言、汇编语言、高级语言。机器语言（第一代语言）由二进制代码0和1构成的指令序列，面向计算机CPU系统，是计算机可以直接识别并执行的计算机语言。例：加法指令10000000、减法指令10010000优点：机器语言能被计算机CPU直接理解和执行，不需要另外的翻译软件，占用空间少，执行速度快。缺点：机器语言缺点主要表现在难理
【C语言编写随机数生成器】-经典C语言程序100例之十二 DevRevolt c语言算法开发语言编程
【C语言编写随机数生成器】-经典C语言程序100例之十二随机数在计算机编程中是非常重要的一种技术，因为它可以用于创建随机序列、密码学、统计分析等多个领域。本文介绍了使用C语言编写随机数生成器的方法。C语言提供了rand()和srand()函数来生成伪随机数。其中，srand()函数用于初始化随机数发生器，而rand()函数则返回0到RAND_MAX（通常为32767）之间的随机整数。这两个函数的使
边缘计算监控突围：Prometheus在5G MEC环境中的瘦身方案
作者：开源大模型智能运维FreeAiOps引言：5GMEC场景下的监控挑战与机遇随着5G多接入边缘计算（MEC）的普及，监控系统面临前所未有的挑战：资源碎片化：边缘节点通常部署在资源受限的硬件上（如ARM服务器、工业网关），CPU和内存容量仅为传统云服务器的1/5网络波动性：MEC设备常位于基站侧或工厂车间，面临高丢包率（5%-15%）和间歇性断网问题数据爆炸：单台MEC设备可能承载数百个物联网终
具身智能：从理论到实践的跨越
具身智能（EmbodiedAI）的概念起源与发展是一个跨越半个多世纪的学术探索历程，其核心思想在不同学科的交叉碰撞中逐渐成型。以下从理论源头、技术奠基、术语演进三个维度展开解析，揭示这一概念的学术脉络与产业价值：一、理论源头：从图灵的哲学构想到认知科学的具身化转向1.图灵的"感官机器"设想（1950年）在人工智能奠基性论文《计算机器与智能》中，图灵提出了两种智能发展路径：抽象计算路径：如国际象棋等
python作业陈小铃子 python 开发语言
基础练习练习目标函数01.计算车费题目描述小红打车，起步价8元(3公里),每公里收费2元，她打车行驶了n公里，通过函数封装并计算车费输入描述输入一个公里数输出描述输出应付车费示例输入：5输出：12defcalculate_fare(distance):base_price=8#起步价per_km_cost=2#每公里费用min_distance=3#最小计费距离ifdistance0:sum_nu
cddlib(用于凸多面体计算和线性不等式系统求解)的开源库 Tipriest_ 数学优化运算 cddlib 优化计算凸多面体 C 线性不等式求解
cddlib是一个用于凸多面体计算和线性不等式系统求解的开源C库，全称为CDD(DoubleDescriptionMethodLibrary)。它基于双描述法（DoubleDescriptionMethod），主要用于处理凸多面体的顶点（V-representation）和不等式（H-representation）之间的转换，以及相关的几何计算。以下是详细介绍：1.核心功能凸多面体表示转换：H-r
AWS架构师咸鱼一条_o.0?! aws 云计算
AWS架构师部分定义S3（S3存储桶）EC2弹性计算云EBS弹性块存储SNAPSHOT快照AMI：EC2镜像ELB弹性负载均衡器EFSDATABASEDATAWAREHOUSEOLTPOLAPElastiCacheVPCRoute53部分定义UserGroup:用户组下的用户继承该用户组所有权限Policy：Jasonformat：类似文字描述，指定object的类型。给user和group提供权
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag