大大怪啊

SparSql（详细）

1． Spark SQL概述
1.1． Spark SQL的前世今生
Shark是一个为Spark设计的大规模数据仓库系统，它与Hive兼容。Shark建立在Hive的代码基础上，并通过将Hive的部分物理执行计划交换出来。这个方法使得Shark的用户可以加速Hive的查询，但是Shark继承了Hive的大且复杂的代码使得Shark很难优化和维护，同时Shark依赖于Spark的版本。随着我们遇到了性能优化的上限，以及集成SQL的一些复杂的分析功能，我们发现Hive的MapReduce设计的框架限制了Shark的发展。在2014年7月1日的Spark Summit上，Databricks宣布终止对Shark的开发，将重点放到Spark SQL上。

Hive和shark的架构图
1.2．什么是Spark SQL

Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。
相比于Spark RDD API，Spark SQL包含了对结构化数据和在其上运算的更多信息，Spark SQL使用这些信息进行了额外的优化，使对结构化数据的操作更加高效和方便。
有多种方式去使用Spark SQL，包括SQL、DataFrames API和Datasets API。但无论是哪种API或者是编程语言，它们都是基于同样的执行引擎，因此你可以在不同的API之间随意切换，它们各有各的特点，看你喜欢那种风格。
1.3．为什么要学习Spark SQL
我们已经学习了Hive，它是将Hive SQL转换成MapReduce然后提交到集群中去执行，大大简化了编写MapReduce程序的复杂性，由于MapReduce这种计算模型执行效率比较慢，所以Spark SQL应运而生，它是将Spark SQL转换成RDD，然后提交到集群中去运行，执行效率非常快！
1.易整合

将sql查询与spark程序无缝混合，可以使用java、scala、python、R等语言的API操作。

2.统一的数据访问

以相同的方式连接到任何数据源。
3.兼容Hive

支持hiveSQL的语法。

4.标准的数据连接

可以使用行业标准的JDBC或ODBC连接。
2． DataFrame
2.1．什么是DataFrame
DataFrame的前身是SchemaRDD，从Spark 1.3.0开始SchemaRDD更名为DataFrame。与SchemaRDD的主要区别是：DataFrame不再直接继承自RDD，而是自己实现了RDD的绝大多数功能。你仍旧可以在DataFrame上调用rdd方法将其转换为一个RDD。
在Spark中，DataFrame是一种以RDD为基础的分布式数据集，类似于传统数据库的二维表格，DataFrame带有Schema元信息，即DataFrame所表示的二维表数据集的每一列都带有名称和类型，但底层做了更多的优化。DataFrame可以从很多数据源构建，比如：已经存在的RDD、结构化文件、外部数据库、Hive表。
2.2． DataFrame与RDD的区别
RDD可看作是分布式的对象的集合，Spark并不知道对象的详细模式信息，DataFrame可看作是分布式的Row对象的集合，其提供了由列组成的详细模式信息，使得Spark SQL可以进行某些形式的执行优化。DataFrame和普通的RDD的逻辑框架区别如下所示：

上图直观地体现了DataFrame和RDD的区别。
左侧的RDD[Person]虽然以Person为类型参数，但Spark框架本身不了解 Person类的内部结构。
而右侧的DataFrame却提供了详细的结构信息，使得Spark SQL可以清楚地知道该数据集中包含哪些列，每列的名称和类型各是什么。DataFrame多了数据的结构信息，即schema。这样看起来就像一张表了，DataFrame还配套了新的操作数据的方法，DataFrame API（如df.select())和SQL(select id, name from xx_table where …)。
此外DataFrame还引入了off-heap,意味着JVM堆以外的内存, 这些内存直接受操作系统管理（而不是JVM）。Spark能够以二进制的形式序列化数据(不包括结构)到off-heap中, 当要操作数据时, 就直接操作off-heap内存. 由于Spark理解schema, 所以知道该如何操作。
RDD是分布式的Java对象的集合。DataFrame是分布式的Row对象的集合。DataFrame除了提供了比RDD更丰富的算子以外，更重要的特点是提升执行效
率、减少数据读取以及执行计划的优化。
有了DataFrame这个高一层的抽象后，我们处理数据更加简单了，甚至可以用SQL来处理数据了，对开发者来说，易用性有了很大的提升。
不仅如此，通过DataFrame API或SQL处理数据，会自动经过Spark 优化器（Catalyst）的优化，即使你写的程序或SQL不高效，也可以运行的很快。

2.3． DataFrame与RDD的优缺点
RDD的优缺点：
优点:
（1）编译时类型安全
编译时就能检查出类型错误
（2）面向对象的编程风格
直接通过对象调用方法的形式来操作数据
缺点:
（1）序列化和反序列化的性能开销
无论是集群间的通信, 还是IO操作都需要对对象的结构和数据进行序列化和反序列化。
（2）GC的性能开销
频繁的创建和销毁对象, 势必会增加GC
DataFrame通过引入schema和off-heap（不在堆里面的内存，指的是除了不在堆的内存，使用操作系统上的内存），解决了RDD的缺点, Spark通过schame就能够读懂数据, 因此在通信和IO时就只需要序列化和反序列化数据, 而结构的部分就可以省略了；通过off-heap引入，可以快速的操作数据，避免大量的GC。但是却丢了RDD的优点，DataFrame不是类型安全的, API也不是面向对象风格的。

2.4．读取数据源创建DataFrame
2.4.1 读取文本文件创建DataFrame
在spark2.0版本之前，Spark SQL中SQLContext是创建DataFrame和执行SQL的入口，利用hiveContext通过hive sql语句操作hive表数据，兼容hive操作，并且hiveContext继承自SQLContext。在spark2.0之后，这些都统一于SparkSession，SparkSession 封装了 SparkContext，SqlContext，通过SparkSession可以获取到SparkConetxt,SqlContext对象。

（1）在本地创建一个文件，有三列，分别是id、name、age，用空格分隔，然后上传到hdfs上。person.txt内容为：
1 zhangsan 20
2 lisi 29
3 wangwu 25
4 zhaoliu 30
5 tianqi 35
6 kobe 40
上传数据文件到HDFS上：
hdfs dfs -put person.txt /

（2）在spark shell执行下面命令，读取数据，将每一行的数据使用列分隔符分割
先执行 spark-shell --master local[2]
val lineRDD= sc.textFile("/person.txt").map(_.split(" "))

（3）定义case class（相当于表的schema）
case class Person(id:Int, name:String, age:Int)

（4）将RDD和case class关联
val personRDD = lineRDD.map(x => Person(x(0).toInt, x(1), x(2).toInt))

（5）将RDD转换成DataFrame
val personDF = personRDD.toDF

（6）对DataFrame进行处理
personDF.show

personDF.printSchema

（7）、通过SparkSession构建DataFrame
使用spark-shell中已经初始化好的SparkSession对象spark生成DataFrame
val dataFrame=spark.read.text("/person.txt")

2.4.2 读取json文件创建DataFrame
（1）数据文件
使用spark安装包下的
/opt/bigdata/spark/examples/src/main/resources/people.json文件

（2）在spark shell执行下面命令，读取数据
val jsonDF= spark.read.json(“file:///opt/bigdata/spark/examples/src/main/resources/people.json”)

（3）接下来就可以使用DataFrame的函数操作


2.4.3 读取parquet列式存储格式文件创建DataFrame
（3）数据文件
使用spark安装包下的
/opt/bigdata/spark/examples/src/main/resources/users.parquet文件

（2）在spark shell执行下面命令，读取数据
val parquetDF=spark.read.parquet(“file:///opt/bigdata/spark/examples/src/main/resources/users.parquet”)

（3）接下来就可以使用DataFrame的函数操作


3.DataFrame常用操作
3.1. DSL风格语法
DataFrame提供了一个领域特定语言(DSL)以方便操作结构化数据。下面是一些使用示例
（1）查看DataFrame中的内容，通过调用show方法
personDF.show

（2）查看DataFrame部分列中的内容
查看name字段的数据
personDF.select(personDF.col(“name”)).show

查看name字段的另一种写法
personDF.select(“name”).show

查看 name 和age字段数据
personDF.select(col(“name”), col(“age”)).show

（3）打印DataFrame的Schema信息
personDF.printSchema

（4）查询所有的name和age，并将age+1
personDF.select(col(“id”), col(“name”), col(“age”) + 1).show

也可以这样：
personDF.select(personDF(“id”), personDF(“name”), personDF(“age”) + 1).show

（5）过滤age大于等于25的，使用filter方法过滤
personDF.filter(col(“age”) >= 25).show

（6）统计年龄大于30的人数
personDF.filter(col(“age”)>30).count()

（7）按年龄进行分组并统计相同年龄的人数
personDF.groupBy(“age”).count().show

3.2. SQL风格语法
　DataFrame的一个强大之处就是我们可以将它看作是一个关系型数据表，然后可以通过在程序中使用spark.sql() 来执行SQL查询，结果将作为一个DataFrame返回。
如果想使用SQL风格的语法，需要将DataFrame注册成表,采用如下的方式：
personDF.registerTempTable(“t_person”)
（1）查询年龄最大的前两名
spark.sql(“select * from t_person order by age desc limit 2”).show

（2）显示表的Schema信息
spark.sql(“desc t_person”).show

（3）查询年龄大于30的人的信息
spark.sql("select * from t_person where age > 30 ").show

4.DataSet
4.1. 什么是DataSet
DataSet是分布式的数据集合。DataSet是在Spark1.6中添加的新的接口。它集中了RDD的优点（强类型和可以用强大lambda函数）以及Spark SQL优化的执行引擎。DataSet可以通过JVM的对象进行构建，可以用函数式的转换（map/flatmap/filter）进行多种操作。

4.2. DataFrame、DataSet、RDD的区别
假设RDD中的两行数据长这样：

那么DataFrame中的数据长这样:

那么Dataset中的数据长这样:

或者长这样（每行数据是个Object）:

DataSet包含了DataFrame的功能，Spark2.0中两者统一，DataFrame表示为DataSet[Row]，即DataSet的子集。
（1）DataSet可以在编译时检查类型
（2）并且是面向对象的编程接口
相比DataFrame，Dataset提供了编译时类型检查，对于分布式程序来讲，提交一次作业太费劲了（要编译、打包、上传、运行），到提交到集群运行时才发现错误，这会浪费大量的时间，这也是引入Dataset的一个重要原因。
4.3. DataFrame与DataSet的互转
DataFrame和DataSet可以相互转化。
（1）DataFrame转为 DataSet
df.as[ElementType]这样可以把DataFrame转化为DataSet。
（2）DataSet转为DataFrame
ds.toDF()这样可以把DataSet转化为DataFrame。

4.4. 创建DataSet
（1）通过spark.createDataset创建
//todo:1、创建SparkSession,指定appName和master
val spark: SparkSession = SparkSession.builder()
.appName(“SparkSqlSchema”)
.master(“local[2]”)
.getOrCreate()
//需要导入隐式装换
import spark.implicits._
//创建dataframe的方式1
val ds: Dataset[Int] = spark.createDataset(0 to 10)
ds.show()
spark.stop()

（2）通toDS方法生成DataSet
//todo:1、创建SparkSession,指定appName和master
val spark: SparkSession = SparkSession.builder()
.appName(“SparkSqlSchema”)
.master(“local[2]”)
.getOrCreate()
//需要导入隐式装换
import spark.implicits._
val df = spark.createDataFrame(List(Person01(“Jason”, 34), Person01(“Tom”, 20))).toDF(“name”, “age”)
val ds = df.as[Person01]
ds.show()
spark.stop()

（3）通过List封装数据直接转换成dataSet
//todo:1、创建SparkSession,指定appName和master
val spark: SparkSession = SparkSession.builder()
.appName(“SparkSqlSchema”)
.master(“local[2]”)
.getOrCreate()
import spark.implicits._
//需要导入隐式装换
val ds = List(Person(“Jason”, 34), Person(“Tom”, 20)).toDS()
ds.show();

更多DataSet操作API地址：
http://spark.apache.org/docs/2.0.2/api/scala/index.html#org.apache.spark.sql.Dataset
三、以编程方式执行Spark SQL查询
1．编写Spark SQL程序实现RDD转换DataFrame
前面我们学习了如何在Spark Shell中使用SQL完成查询，现在我们来实现在自定义的程序中编写Spark SQL查询程序。
在Spark SQL中有两种方式可以在DataFrame和RDD进行转换，第一种方法是利用反射机制，推导包含某种类型的RDD，通过反射将其转换为指定类型的DataFrame，适用于提前知道RDD的schema。
第二种方法通过编程接口与RDD进行交互获取schema，并动态创建DataFrame，在运行时决定列及其类型。
首先在maven项目的pom.xml中添加Spark SQL的依赖

org.apache.spark spark-sql_2.11 2.0.2

1.1．通过反射推断Schema
Scala支持使用case class类型导入RDD转换为DataFrame，通过case class创建schema，case class的参数名称会被反射读取并成为表的列名。这种RDD可以高效的转换为DataFrame并注册为表。
代码如下：
package cn.itcast.sql
import org.apache.spark.SparkContext
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{DataFrame, SparkSession}

/**

RDD转化成DataFrame:利用反射机制
*/
//todo:定义一个样例类Person
case class Person(id:Int,name:String,age:Int) extends Serializable

object InferringSchema {

def main(args: Array[String]): Unit = {
//todo：1、构建sparkSession 指定appName和master的地址
val spark: SparkSession = SparkSession.builder()
.appName(“InferringSchema”)
.master(“local[2]”).getOrCreate()
//todo:2、从sparkSession获取sparkContext对象
val sc: SparkContext = spark.sparkContext
sc.setLogLevel(“WARN”)//设置日志输出级别
//todo:3、加载数据
val dataRDD: RDD[String] = sc.textFile(“D:\person.txt”)
//todo:4、切分每一行记录
val lineArrayRDD: RDD[Array[String]] = dataRDD.map(.split(" "))
//todo:5、将RDD与Person类关联
val personRDD: RDD[Person] = lineArrayRDD.map(x=>Person(x(0).toInt,x(1),x(2).toInt))
//todo:6、创建dataFrame,需要导入隐式转换
import spark.implicits.
val personDF: DataFrame = personRDD.toDF()

//todo-------------------DSL语法操作 start--------------
//1、显示DataFrame的数据，默认显示20行
personDF.show()
//2、显示DataFrame的schema信息
personDF.printSchema()
//3、显示DataFrame记录数
println(personDF.count())
//4、显示DataFrame的所有字段
personDF.columns.foreach(println)
//5、取出DataFrame的第一行记录
println(personDF.head())
//6、显示DataFrame中name字段的所有值
personDF.select(“name”).show()
//7、过滤出DataFrame中年龄大于30的记录
personDF.filter( $" a g e " > 30) . s h o w () / / 8 、统计 D a t a F r a m e 中年龄大于 30 的人数 p r i n t l n (p e r s o n D F . f i l t e r ($ “age”>30).count())
//9、统计DataFrame中按照年龄进行分组，求每个组的人数
personDF.groupBy(“age”).count().show()
//todo-------------------DSL语法操作 end-------------

//todo--------------------SQL操作风格 start-----------
//todo:将DataFrame注册成表
personDF.createOrReplaceTempView(“t_person”)
//todo:传入sql语句，进行操作

spark.sql(“select * from t_person”).show()

spark.sql(“select * from t_person where name=‘zhangsan’”).show()

spark.sql(“select * from t_person order by age desc”).show()
//todo--------------------SQL操作风格 end-------------

sc.stop()
}
}

1.2．通过StructType直接指定Schema
当case class不能提前定义好时，可以通过以下三步通过代码创建DataFrame
（1）将RDD转为包含row对象的RDD
（2）基于structType类型创建schema，与第一步创建的RDD相匹配
（3）通过sparkSession的createDataFrame方法对第一步的RDD应用
schema创建DataFrame
package cn.itcast.sql

import org.apache.spark.SparkContext
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType}
import org.apache.spark.sql.{DataFrame, Row, SparkSession}

/**

RDD转换成DataFrame:通过指定schema构建DataFrame
*/
object SparkSqlSchema {
def main(args: Array[String]): Unit = {
//todo:1、创建SparkSession,指定appName和master
val spark: SparkSession = SparkSession.builder()
.appName(“SparkSqlSchema”)
.master(“local[2]”)
.getOrCreate()
//todo:2、获取sparkContext对象
val sc: SparkContext = spark.sparkContext
//todo:3、加载数据
val dataRDD: RDD[String] = sc.textFile(“d:\person.txt”)
//todo:4、切分每一行
val dataArrayRDD: RDD[Array[String]] = dataRDD.map(_.split(" "))
//todo:5、加载数据到Row对象中
val personRDD: RDD[Row] = dataArrayRDD.map(x=>Row(x(0).toInt,x(1),x(2).toInt))
//todo:6、创建schema
val schema:StructType= StructType(Seq(
StructField(“id”, IntegerType, false),
StructField(“name”, StringType, false),
StructField(“age”, IntegerType, false)
))

//todo:7、利用personRDD与schema创建DataFrame
val personDF: DataFrame = spark.createDataFrame(personRDD,schema)

//todo:8、DSL操作显示DataFrame的数据结果
personDF.show()

//todo:9、将DataFrame注册成表
personDF.createOrReplaceTempView(“t_person”)

//todo:10、sql语句操作
spark.sql(“select * from t_person”).show()

spark.sql(“select count(*) from t_person”).show()

sc.stop()
}
}

2．编写Spark SQL程序操作HiveContext
HiveContext是对应spark-hive这个项目,与hive有部分耦合, 支持hql,是SqlContext的子类,也就是说兼容SqlContext;
2.1．添加pom依赖

org.apache.spark
spark-hive_2.11
2.0.2

2.2．代码实现
package itcast.sql

import org.apache.spark.sql.SparkSession
/**

todo:支持hive的sql操作
*/
object HiveSupport {
def main(args: Array[String]): Unit = {
val warehouseLocation = “D:\workSpace_IDEA_NEW\day2017-10-12\spark-warehouse”
//todo:1、创建sparkSession
val spark: SparkSession = SparkSession.builder()
.appName(“HiveSupport”)
.master(“local[2]”)
.config(“spark.sql.warehouse.dir”, warehouseLocation)
.enableHiveSupport() //开启支持hive
.getOrCreate()
spark.sparkContext.setLogLevel(“WARN”) //设置日志输出级别
import spark.implicits._
import spark.sql

//todo:2、操作sql语句
sql(“CREATE TABLE IF NOT EXISTS person (id int, name string, age int) row format delimited fields terminated by ’ '”)
sql(“LOAD DATA LOCAL INPATH ‘/person.txt’ INTO TABLE person”)
sql("select * from person ").show()
spark.stop()
}
}

注意:
使用hive需要sparksession设置支持选项,如果用户集群里，没有部署好的hive，sparksession也能够提供hive支持,在这种情况下，如果没有hive-site.xml文件，sparkcontext会自动在当前目录创建元数据db,并且会在spark.sql.warehouse.dir表示的位置创建一个目录，用户存放table数据，所以spark.sql.warehouse.dir是一个用户存放hive table文件的一个目录，因为是一个目录地址，难免会收到操作系统的影响,因为不同的文件系统的前缀是不一样了，为了适配性，spark鼓励在code中设置该选项，而不是在hive-site.xml中设置该选项。

如果没有部署好的hive，spark确实是会使用内置的hive，但是spark会将所有的元信息都放到spark_home/bin 目录下也就是为什么配置了spark.sql.warehouse.dir 却不起作用的原因。而且，就算部署了hive，也需要让spark识别hive，否则spark，还是会使用spark默认的hive
只有在部署好的hive情况下，使用spark.sql.warehouse.dir才会生效，而且spark会默认覆盖hive的配置项。

四、数据源
1． JDBC
Spark SQL可以通过JDBC从关系型数据库中读取数据的方式创建DataFrame，通过对DataFrame一系列的计算后，还可以将数据再写回关系型数据库中。
1.1． SparkSql从MySQL中加载数据
1.1.1 通过IDEA编写SparkSql代码
package itcast.sql
import java.util.Properties
import org.apache.spark.sql.{DataFrame, SparkSession}
/**

todo:Sparksql从mysql中加载数据
*/
object DataFromMysql {
def main(args: Array[String]): Unit = {
//todo:1、创建sparkSession对象
val spark: SparkSession = SparkSession.builder()
.appName(“DataFromMysql”)
.master(“local[2]”)
.getOrCreate()
//todo:2、创建Properties对象，设置连接mysql的用户名和密码
val properties: Properties =new Properties()
properties.setProperty(“user”,“root”)
properties.setProperty(“password”,“123456”)
//todo:3、读取mysql中的数据
val mysqlDF: DataFrame = spark.read.jdbc(“jdbc:mysql://192.168.200.150:3306/spark”,“iplocaltion”,properties)
//todo:4、显示mysql中表的数据
mysqlDF.show()
spark.stop()
}
}
执行查看效果：

1.1.2 通过spark-shell运行
（1）、启动spark-shell(必须指定mysql的连接驱动包)

spark-shell
–master spark://hdp-node-01:7077
–executor-memory 1g
–total-executor-cores 2
–jars /opt/bigdata/hive/lib/mysql-connector-java-5.1.35.jar
–driver-class-path /opt/bigdata/hive/lib/mysql-connector-java-5.1.35.jar

（2）、从mysql中加载数据
val mysqlDF = spark.read.format(“jdbc”).options(Map(“url” -> “jdbc:mysql://192.168.200.100:3306/spark”, “driver” -> “com.mysql.jdbc.Driver”, “dbtable” -> “iplocaltion”, “user” -> “root”, “password” -> “123456”)).load()

（3）、执行查询

1.2． SparkSql将数据写入到MySQL中
1.2.1 通过IDEA编写SparkSql代码
（1）编写代码
package itcast.sql
import java.util.Properties
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{DataFrame, Dataset, SaveMode, SparkSession}
/**

todo:sparksql写入数据到mysql中
*/
object SparkSqlToMysql {
def main(args: Array[String]): Unit = {
//todo:1、创建sparkSession对象
val spark: SparkSession = SparkSession.builder()
.appName(“SparkSqlToMysql”)
.getOrCreate()
//todo:2、读取数据
val data: RDD[String] = spark.sparkContext.textFile(args(0))
//todo:3、切分每一行,
val arrRDD: RDD[Array[String]] = data.map(.split(" "))
//todo:4、RDD关联Student
val studentRDD: RDD[Student] = arrRDD.map(x=>Student(x(0).toInt,x(1),x(2).toInt))
//todo:导入隐式转换
import spark.implicits.
//todo:5、将RDD转换成DataFrame
val studentDF: DataFrame = studentRDD.toDF()
//todo:6、将DataFrame注册成表
studentDF.createOrReplaceTempView(“student”)
//todo:7、操作student表 ,按照年龄进行降序排列
val resultDF: DataFrame = spark.sql(“select * from student order by age desc”)

//todo:8、把结果保存在mysql表中
//todo:创建Properties对象，配置连接mysql的用户名和密码
val prop =new Properties()
prop.setProperty(“user”,“root”)
prop.setProperty(“password”,“123456”)

resultDF.write.jdbc(“jdbc:mysql://192.168.200.150:3306/spark”,“student”,prop)

//todo:写入mysql时，可以配置插入mode，overwrite覆盖，append追加，ignore忽略，error默认表存在报错
//resultDF.write.mode(SaveMode.Overwrite).jdbc(“jdbc:mysql://192.168.200.150:3306/spark”,“student”,prop)
spark.stop()
}
}
//todo:创建样例类Student
case class Student(id:Int,name:String,age:Int)

（2）用maven将程序打包
通过IDEA工具打包即可

（3）将Jar包提交到spark集群
spark-submit
–class itcast.sql.SparkSqlToMysql
–master spark://hdp-node-01:7077
–executor-memory 1g
–total-executor-cores 2
–jars /opt/bigdata/hive/lib/mysql-connector-java-5.1.35.jar
–driver-class-path /opt/bigdata/hive/lib/mysql-connector-java-5.1.35.jar
/root/original-spark-2.0.2.jar /person.txt

（4）查看mysql中表的数据

你可能感兴趣的:(Scala)

svg图片兼容性和用法优缺点独行侠_ef93
svg图片的使用方法第一次来认认真真的研究了下svg图片，之前只是在网上见过，但都是一晃而过也没当回事，最近网站改版看到同事有用到svg格式的图片，想想自己干了几年的重构也没用过，这些细节的知识是应该好好研究研究了。暂时还没研究得完全透切，先记下目前为止所看到的吧不然又给忘了。svg可缩放矢量图形（ScalableVectorGraphics），顾名思义就是任意改变其大小也不会变形，是基于可扩展标
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构汤萌妮Margaret
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构scalable_agent项目地址:https://gitcode.com/gh_mirrors/sc/scalable_agent在当今的人工智能研究前沿，深度强化学习（DRL）因其在复杂任务中的卓越表现而备受瞩目。本文要介绍的是一个开源于GitHub的重量级项目：“ScalableDistributedDeep-RLwithImp
车载以太网之SOME/IP IT_码农车载以太网车载以太网 SOME/IP
整体介绍SOME/IP(全称为：Scalableservice-OrientedMiddlewarEoverIP)，是运行在车载以太网协议栈基础之上的中间件，或者也可以称为应用层软件。发展历程AUTOSAR4.0-完成宝马SOME/IP消息的初步集成；AUTOSAR4.1-支持SOME/IP-SD及其发布/订阅功能；AUTOSAR4.2-添加transformer用于序列化以及其他相关优化；AUT
Scala学习之旅－对Option友好的flatMap 喝冰咖啡 scala 学习
聊点什么OptionflatMapvs.OptionOption的作用在Java/Scala中,Optional/Option(本文还是以scala代码为例)是用来表示某个对象存在或者不存在，也就是说,Option是某个类型T的Wrapper,如果T!=null,Option(T).isDefined==true如果T==null,Option(T).isEmpty==true有了Option这层
编程常用命令总结 Yellow0523 Linux BigData 大数据
编程命令大全1.软件环境变量的配置JavaScalaSparkHadoopHive2.大数据软件常用命令Spark基本命令Spark-SQL命令Hive命令HDFS命令YARN命令Zookeeper命令kafka命令Hibench命令MySQL命令3.Linux常用命令Git命令conda命令pip命令查看Linux系统的详细信息查看Linux系统架构(X86还是ARM，两种方法都可)端口号命令L
区块链的可伸缩性以及面临的挑战 Mindfulness code 区块链开发区块链
1.可伸缩性在过去的几年中，可伸缩性（Scalability,也称为可扩展性)问题一直是激烈辩论、严格研究和媒体关注的焦点。这是一个至关重要的问题，因为它可能意味着区块链不适于广泛应用，而仅限于联盟许可的私有网络。在经过对该领域的大量研究之后，人们提出了许多解决方案，下面将详细介绍这些解决方案。从理论上讲，解决可伸缩性问题的一般方法通常围绕协议级别的强化。例如，通常提到的比特比可伸缩性解决方案是增
Scala教程之:静态类型 flydean程序那些事
Scala是静态类型的，它拥有一个强大的类型系统，静态地强制以安全、一致的方式使用抽象，我们通过下面几个特征来一一说明：泛类型型变类型上界类型下界内部类抽象类型复合类型自类型隐式参数隐式转换多态方法类型推断通过这些特性，为安全可重用的编程抽象以及类型安全的扩展提供了强大的基础。泛类型和java一样，Scala也有泛型的概念，在scala里面泛型是使用方括号[]来接受类型参数的。通常使用字母A来作为
Pytorch深度学习- Tensorboard的使用以及图像变换transform的使用（小土堆） Mr chenxizhi 深度学习人工智能 python
Tensorboard中的SummaryWriter使用导入数据包fromtorch.utils.tensorboardimportSummaryWriter构造函数方法#那么生成的数据文件都存在于logs文件夹下writer=SummaryWriter("logs")add_scalar代码示例'''tag:数据标题global_step:x轴数据scalar_value:y轴数据'''#运行结
动手学深度学习（pytorch土堆）-02TensorBoard的使用 #include<菜鸡> 深度学习深度学习 pytorch 人工智能
1.可视化代码使用了torch.utils.tensorboard将数据记录到TensorBoard以便可视化。具体来说，它将标量数据记录到目录logs中，使用的是SummaryWriter类。代码分解如下：SummaryWriter("logs")：初始化一个TensorBoard的写入器，日志会保存到"logs"目录。writer.add_scalar("y=x",i,i)：在循环的每一次迭代
【OpenCV】官方文档学习，库的命名冲突处理办法【声明命名空间】深耕AI opencv 学习人工智能
原文：SomeofthecurrentorfutureOpenCVexternalnamesmayconflictwithSTLorotherlibraries.Inthiscase,useexplicitnamespacespecifierstoresolvethenameconflicts:Mata(100,100,CV_32F);randu(a,Scalar::all(1),Scalar::
【鼠鼠学AI代码合集#5】线性代数鼠鼠龙年发大财鼠鼠学AI系列代码合集人工智能线性代数机器学习
在前面的例子中，我们已经讨论了标量的概念，并展示了如何使用代码对标量进行基本的算术运算。接下来，我将进一步说明该过程，并解释每一步的实现。标量（Scalar）的基本操作标量是只有一个元素的数值。它可以是整数、浮点数等。通过下面的Python代码，我们可以很容易地进行标量的加法、乘法、除法和指数运算。代码实现：importtorch#定义两个标量x=torch.tensor(3.0)#标量x，值为3
【Pytorch】cumsum的实现逻辑栏杆拍遍看吴钩 pytorch pytorch 人工智能 python
本文只记录cumsum的实现逻辑的CUDA部分，也即底层调用了CUDA的什么实现算子。voidlaunch_cumsum_cuda_kernel(constTensorBase&result,constTensorBase&self,int64_tdim){AT_DISPATCH_ALL_TYPES_AND_COMPLEX_AND2(ScalarType::Half,ScalarType::BFl
CloudCompare操作（某一指定要素按照PointSourceID分类）喵喵不爱吃鱼工具使用
CloudCompare操作（指定强度值点云按照PointSourceID分类）以实标线为例：强度值31、首先将点云按照Intensity显示Properties->Active:IntensityCurrent:Blue->Green…2、截取实标线菜单栏：Edit->Scalarfields->FilterByValue:3-43、截取的实标线点云按照PointSourceID显示，再使用Po
【MySQL】深圳大学数据库实验二看未来捏深大数据库数据库 mysql
目录一、实验目的二、实验要求三、实验设备四、建议的实验步骤4.1EXERCISES5GROUPBY&HAVINGGROUPBY的用法HAVING的用法综合示例小结4.2EXERCISES6SUBQUERIES.1.标量子查询（ScalarSubquery）2.行子查询（RowSubquery）3.表子查询（TableSubquery）4.相关子查询（CorrelatedSubquery）5.非相关
2024年大数据高频面试题(下篇）猿与禅 Java架构师面试大数据面试 scala 即席查询分桶调度系统数据倾斜
文章目录Scala数据类型函数式编程闭包函数柯里化面向对象样例类对象与伴生对象特质(trait)模式匹配隐式转换即席查询KylinKylin特点Kylin工作原理核心算法Kylin总结Kylin的优点什么场景用KylinKylin的缺点Impala什么是ImpalaImpala为什么快FrontendBackendImpala总结：Presto什么是PrestoPresto的执行过程Presto总
PyFlink自定义函数吉小雨 pyflink flink
在PyFlink（ApacheFlink的PythonAPI）中，自定义函数分为三种主要类型：ScalarFunction（标量函数）、TableFunction（表函数）和AggregateFunction（聚合函数）。这些自定义函数可以在Flink的SQL和TableAPI中使用，用于扩展PyFlink的内置功能，处理自定义的计算逻辑。1.安装PyFlink在开始之前，确保你的环境中已安装了P
训练过程可视化tensorboard和wandb及np.array和tensor互相转换小裴（碎碎念版） python
tensorboardfromtensorboardXimportSummaryWriter#设置保存日志文件路径logger_path=os.path.join(path,current_time)logger=SummaryWriter(log_dir=logger_path,comment=comment)#要保存的数据logger.add_scalar("value_loss",value
Hexagon_DSP_User_Guide(2) weixin_38498942 tools 简介 dsp开发开发语言 tool
Hexagon_DSP_User_Guide（2）4.2Guidelinesforassemblyandintrinsicoptimization4.2.1Maximizeinstructionsperpacket4.2.1.1Scalarinstructionpackingrules4.2.1.2HVXpackingrules4.2.2Understandandreducestalls4.2.2
多种model serving 的调研比较 Helen_Cat
image.pnggithubofficesite框架语言依赖项服务端开发语言客户端调用语言是否支持restful支持算法是否支持hdfs大规模是否支持同时部署多个模型服务是否支持模型切换是否支持模型跟踪是否支持pmmlpredictioniohttps://github.com/apache/predictioniohttp://predictionio.apache.orgscalamysql
SparkStreaming业务逻辑处理的一些高级算子看见我的小熊没 sparkStreaming scala spark big data scala
1、reduceByKey reduceByKey是按key进行计算，操作的数据是每个批次内的数据（一个采集周期），不能跨批次计算。如果需要实现对历史数据的跨批次统计累加，则需要使用updateStateByKey算子或者mapWithState算子。packagecom.sparkscala.streamingimportorg.apache.log4j.{Level,Logger}impor
ARM SIMD instruction -- fcmpe xiaozhiwise Assembly 汇编
FCMPEFloating-pointsignalingCompare(scalar).ThisinstructioncomparesthetwoSIMD&FPsourceregistervalues,orthefirstSIMD&FPsourceregistervalueandzero.ItwritestheresulttothePSTATE.{N,Z,C,V}flags.浮点数比较（标量）。此
Windows系统下的Spark环境配置 eeee~~ 3：大数据技术实用教程 spark 大数据分布式
一：Spark的介绍ApacheSpark是一个开源的分布式大数据处理引擎，它提供了一整套开发API，包括流计算和机器学习。Spark支持批处理和流处理，其显著特点是能够在内存中进行迭代计算，从而加快数据处理速度。尽管Spark是用Scala开发的，但它也为Java、Scala、Python和R等高级编程语言提供了开发接口。Spark提供了多个核心组件，包括：SparkCore：提供内存计算的能力
Redis概述 AC编程
一、为什么需要NoSQLHighperformance高并发读写HugeStorage海量数据的高效率存储和访问HighScalability&&HighAvailability高可拓展性和高可用性二、NoSQL数据库的四大分类键值（Key-Value）存储列存储文档数据库图形数据库三、四类NoSQL数据库比较键值（Key-Value）存储相关产品：Redis、Voldemort、TokyoCab
EMR组件部署指南 ivwdcwso 运维 EMR 大数据开源运维
EMR(ElasticMapReduce)是一个大数据处理和分析平台,包含了多个开源组件。本文将详细介绍如何部署EMR的主要组件,包括:JDK1.8ElasticsearchKafkaFlinkZookeeperHBaseHadoopPhoenixScalaSparkHive准备工作所有操作都在/data目录下进行。首先安装JDK1.8:yuminstalljava-1.8.0-openjdk部署
演示Scalalazy变量的惰性求值悻运 scala
惰性求值：在用到的时候才对表达式进行求值，而不是在定义时立即求值，并且变量只有在首次访问时才会进行初始化，之后再次访问时会使用已经计算好的值以下是演示Scala的lazy变量惰性求值的步骤：1：定义一个lazy变量。在Scala中，可以使用lazy关键字来声明一个lazy变量。例如，我们可以定义一个名为x的lazy变量：lazyvalx={//初始化代码块...}2:访问lazy变量。当我们第一次
kafka集群搭建 java皮皮虫 kafka springboot 后台 kafka kafka测试 kafka集群
Kafka集群搭建一、概念说明它是一个分布式消息系统，由linkedin使用scala编写，用作LinkedIn的活动流（ActivityStream）和运营数据处理管道（Pipeline）的基础。具有高水平扩展和高吞吐量。比较定义解释：1、Java和scala都是运行在JVM上的语言。2、erlang和最近比较火的和go语言一样是从代码级别就支持高并发的一种语言，所以RabbitMQ天生就有很高
介绍一下SOME/IP 的Session handing功能 aFakeProgramer SOME/IP精华学习笔记网络协议
SOME/IP（Scalableservice-OrientedMiddlewarEoverIP）协议中的会话处理功能（SessionHandling）是确保消息传递可靠性和顺序的重要机制。以下是其主要功能：1.会话ID（SessionID）：每个会话都有一个唯一的会话ID，用于标识和跟踪消息。所有属于同一会话的消息都共享相同的会话ID³。2.消息分段：对于需要分段传输的大消息，SOME/IP使用
429. N-ary Tree Level Order Traversal. Python/Scala 电饭锅娃儿
环境：python3.6，scala2.11.8题意N叉树的层次遍历，题意比较清晰，具体可戳此。分析虽然是N叉树遍历，仍可参考二叉树的先序、中序及后序遍历。三种方法都使用递归和栈来完成二叉树的遍历，不同的是N叉树要求返回的结果为二维列表，反映节点间的层级关系。递归基于二叉树的通用递归写法，先来看看遍历N叉树的递归起手式：defdfs(node):ifnode:#符合某些条件后，添加至结果列表。类似
AES加密类库教程马安柯Lorelei
AES加密类库教程AES-Encryption-ClassesAESencryptioninPython,PHP,C#,Java,C++,F#,Ruby,Scala,Node.js项目地址:https://gitcode.com/gh_mirrors/ae/AES-Encryption-Classes项目介绍本教程将详细介绍GitHub上的一个开源项目——AES-Encryption-Classe
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在