专业大数据

Spark学习笔记

交流学习加群460570824

Data

Source->Kafka->Spark Streaming->Parquet->Spark SQL(SparkSQL可以结合ML、GraphX等)->Parquet->其它各种Data Mining等

1.1 Spark集群的安装

Spark的运行是构建在hadoop集群之上（默认hadoop集群已经安装好了），在spark集群集群上必须要安装对应版本的scala

1.1.1 scala安装

Ø下载scala版本，解压scala

Ø配置环境变量/etc/profile,添加SCALA_HOME、修改PATH，添加上scala的path路径

Ø进入$SCALA_HOME/bin目录，执行./scala验证scala是否安装成功

Ø集群机器都需要安装scala

1.1.2 spark安装

在集群的所有机器上都必须要安装spark，首先安装master的spark程序

Ø先解压spark程序

Ø修改环境变量/etc/profile添加SPARK_HOME和修改spark PATH路径

Ø配置spark，进入conf目录下

nmv spark-env.sh.template spark-env.sh

其中：spark_master_ip：用于指定master

nvi slaves修改文件，把work节点都添加进去;

Ø至此，spark集群安装完毕

1.1.3启动集群校验

Ø先启动hadoop集群，jps查看进程

Ø再启动spark集群，在sbin目录下执行./start-all.shjps查看进程

ØUi访问，检查集群情况http://master:8080

Ø进入spark/bin目录下，启动spark-shell脚本

1.2 spark-shell的使用

在master机器上的$SPARK_HOME/bin目录下，运行./spark-shell程序启动shark-shell脚本；通过http://master:4040查看spark-shell运行情况

1.2.1 spark-shell操作hdfs文件实战

Ø将spark目录下的README.md文件上传到hdfs上的/test目录下，通过hdfs ui来进行查看slave:50070/explorer.html#/查看文件是否上传成功

Ø在spark-shell脚本程序下，执行sc（SparkContext实例），启动spark-sehll时，系统自动生成

scala> sc

res0: org.apache.spark.SparkContext = org.apache.spark.SparkContext@65859b44

# SparkContext是把代码提交到集群或者本地的通道，编写Spark代码，无论是要运行本地还是集群都必须要有SparkContext实例

ØSpark-shell读取hdfs文件的README.md文件

val file = sc.textFile(“hdfs://mapeng:8020/test/README.md”)

#这里把读取到的文本内容赋值给了变量file,（就是一个MappedRDD，在spark的代码中，一切都是基于RDD进行操作的）

Ø读取文本中包含有“spark”的行

scala> val sparks = file.filter(line

=> line.contains("spark"))

sparks: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[3] at

filter at :26

#此时生成了一个FilterRDD

Ø统计spark一共出现多少次

Sparks.count

1.2.2 spark-shell操作及详细说明

1.2.2.1并行化集合（parallelize）

Ø加载集合数据

val data = sc.parallelize(1 to 10)#加载集合数据

或者; val data = sc.parallelize(List(1,2,3,4…))

Ø对集合数据进行*2操作

val data1 = data.map(_*2)

Ø对数据进行过滤：过滤出是2的倍数的集合

val data2 = data.filter(_%2==0)

Ø内存缓存数据

data.cache

Ø触发action，以数据的形式返回结果集

data.collect

Ø返回结果集的第一个元素

data.first

Ø返回结果集的前3个元素

data.take(3)

Ø统计元素的个数

data.count

Ø查看RDD的转换过程

data.toDebugString

1.2.2.2 map数据集合

Ø加载List(Map)数据

val

data=sc.parallelize(List(("A",1),("B",2),("C",3),("A",4),("B",5)))

Ø排序sortByKey()

scala> data.sortByKey().collect

res55: Array[(String, Int)] = Array((A,1), (A,4), (B,2), (B,5),

(C,3))

Ø分组groupByKey()

scala>

data.groupByKey().collect

res57: Array[(String, Iterable[Int])] = Array((B,CompactBuffer(2, 5)), (A,CompactBuffer(1, 4)), (C,CompactBuffer(3)))

Ø求和reduceByKey(_+_)

scala>

data.reduceByKey(_+_).collect

res59: Array[(String, Int)] = Array((B,7), (A,5), (C,3))

Ø去重distinct

scala> data.distinct.collect

res60: Array[(String, Int)] = Array((A,1), (A,4), (B,5), (C,3),

(B,2))

Ø联合union

scala> val

data1=sc.parallelize(List(("A",1),("B",2),("C",3),("A",4),("B",5)))

data1:

org.apache.spark.rdd.RDD[(String, Int)] = ParallelCollectionRDD[0] at

parallelize at :24

scala> val data2=sc.parallelize(List(("A",4),("A",4),("C",3),("A",4),("B",5)))

data2:

org.apache.spark.rdd.RDD[(String, Int)] = ParallelCollectionRDD[1] at

parallelize at :24

scala>

data1.union(data2).collect

res1: Array[(String, Int)] = Array((A,1), (B,2), (C,3), (A,4),

(B,5), (A,4), (A,4), (C,3), (A,4), (B,5))

Ø关联join

相当于笛卡尔积

1.2.2.3保存转换结果saveAsTextFile

data.saveAsTextFile(“path”);//将转换结果存储在hdfs指定的路径

1.2.3 spark cache缓存

对于spark程序，第二次执行要比前面的执行的效率要高

1.3 RDD(弹性分布式数据集)

1.3.1 RDD介绍

ØRDD是一个容错的、并行的数据结构，可以让用户显示的将数据存储在磁盘和内存中，并能控制数据的分区。

ØRDD提供了一套丰富的函数来操作数据

ØRDD作为数据机构，本质上是一个只读的分区记录集合；一个RDD可以包含多个分区，每个分区就是一个dataSet片段；RDD可以相互依赖

n窄依赖：RDD的每个分区最多只能被一个child

RDD的分区使用（例如：map操作）

n宽依赖：RDD的分区可以被多个child

RDD的分区使用（例如：join操作）

区别：

（1）窄依赖可以在集群中的一个节点上如流水般的执行，相反，宽依赖需要所有的父分区的数据都可用

（2）从出现失败恢复的角度来考虑：窄依赖只需要重新计算失败的父RDD的分区，而宽依赖失败会导致其父RDD的多个分区重新计算

1.3.2 RDD分区

1.3.3创建操作

1.3.3.1集合创建操作

Spark提供了两类函数实现从集合生成RDD；

Øparallelize

val rdd = sc.parallelize(1 to 100)

ØmakeRDD:还提供了指定分区参数

val rdd = sc.makeRDD(1 to 100,3)#指定了分区数为3

1.3.3.2存储创建操作

操作hdfs

val rdd = sc.textFile(“hdfs://master:9000/test/xxx.txt”)

1.3.4 RDD的基本转换操作

1.3.4.1 RDD的重新分区

repartition和coalesce是对RDD的分区进行重新划分

Ørepartition(numPartitions:Int):RDD[T]

Øcoalesce(numPartitions:Int,shuffle:Boolean=false):RDD[T]

repartition只是coalesce接口中shuffle为true的简易实现。

重新划分分区主要有三种情况：（原RDD有N个分区，需要重新划分为M个分区）

ØN

ØN>M(相差不大)：面临着要把原分区进行合并的操作，最终合成M个分区，这时将shuffle设置为false

注：在shuffle为false时，设置M>N，coalesce是不起作用的

ØN>>M（差距悬殊）：如果将shuffle设置为false，由于父子RDD是窄依赖，会使得它们同处于一个stage中，可能会造成spark程序运行的并行度不够，从而影响效率。

因而，最好设置为true，使得coalesce之前的操作有更好的并行度

1.3.4.2 RDD转换为数组（randomSplit、glom）

ØrandomSplit(weight:Array[Double],seed:Long=System.nanoTime):Array[RDD[T]]

randomSplit函数是将一个RDD切分为多个RDD，返回结果是一个RDD数组;函数的第一个方法传入的参数权重是一个Double类型的数组；权重大的，分到的数据的概率大

val rdd = sc.makeRDD(1 to 10)

val splitRDD = rdd.randomSplit(Array(1.0,3.0,6.0))

#返回的一个RDD数组，查看数组元素

splitRDD(0).collect

splitRDD(1).collect

splitRDD(2).collect

Øglom():RDD[Array[T]]

glom函数是将RDD中每一个分区中类型为T的元素转换为Array[T]

val rdd = sc.makeRDD(1 to 10,3)

val glomRDD= rdd.glom

#返回的结果是一个数组，

glomRDD.collect

scala> glomRDD.collect

res44: Array[Array[Int]] = Array(Array(1, 2, 3), Array(4, 5, 6), Array(7,

8, 9, 10))

1.3.4.3 RDD的集合操作

Øunion(other:RDD[T]) :RDD[T]

将两个RDD的数据进行合并，返回两个RDD的并集，不去重

Øintersection(other:RDD[T]) :RDD[T]

返回两个RDD的交集（会去重）

Øsubtract(other:RDD[T]) :RDD[T]

取差集

Øzip(other:RDD[T]):RDD[T]

zip函数用于将两个RDD组合成key/value形式的RDD，两个RDD的partition个数以及元素的数量都必须要相同，不然会抛出异常

val rdd1 = sc.makeRDD(List(1,2,3,3))

val rdd2 = sc.makeRDD(List(2,3,4))

union操作

rdd1.union(rdd2).collect

#结果

Array[Int] = Array(1, 2, 3, 3, 2, 3, 4)

intersection操作

rdd1.intersection(rdd2).collect

#结果（去重）

Array[Int] = Array(3, 2)

subtract操作

rdd1.subtract(rdd2).collect

#结果（不去重）

Array[Int] = Array(1, 1)

zip操作

scala> val rdd1 = sc.makeRDD(1

to 3)

scala> val rdd2 =

sc.makeRDD(List(1.0,2.0,3.0))

scala> rdd1.zip(rdd2).collect

res8: Array[(Int, Double)] = Array((1,1.0), (2,2.0), (3,3.0))

1.3.4.4键值RDD转换操作

map和flatmap的区别：

（1）map是对每个元素都进行指定的操作，返回每个元素处理后的对象

（2）flatmap对所有的元素都做指定的操作，将所有的对象合并为一个对象返回

val rdd = sc.makeRDD(1 to 3)

rdd.map(x=>Seq(x,x)).collect

#结果

Array[Seq[Int]] = Array(List(1, 1),

List(2, 2), List(3, 3), List(4, 4))

rdd.flatMap(x=>Seq(x,x)).collect

#结果，合并为一个对象返回

Array[Int] = Array(1, 1, 2, 2, 3, 3, 4, 4)

未完待续.....

1.3.5 RDD的行动操作

每调用一次行动操作，都会触发一次spark的调度并返回响应的结果

1.3.5.1集合标量行动操作

Øcount

返回RDD中的元素的个数

Øfirst

返回RDD中的第一个元素

Øreduce(f:(T,T) = >T)

对RDD中的元素进行二元计算，返回计算结果

val rdd = sc.makeRDD(1 to 4)

rdd.reduce(_+_)#10

rdd.reduce(_-_)#-8

Øcollect()

以集合的形式返回RDD的元素

Øtake(number:Int)

返回集合中[0,num-1]下标的元素

Øtop(num:Int)

先降序排序，返回前num个元素

ØtakeOrdered(num:Int)

以与top相反的排序规则（升序），返回前num个元素

Ølookup(key:k):Seq[v]

lookup是针对（k,v）类型RDD的行动操作，针对给定的键值，返回与此键值相对应的所有值

1.3.5.2存储行动操作

RDD不仅可以存储在hdfs中还能存储到Hbase、MangoDB等数据库中

1.4 Spark SQL

1.4.1 spark sql与shark区别

sparksql是一个支持结构化数据处理的spark模块，提供DaraFrame作为可编程的数据抽象，可以对DataFrame执行sql的操作。

spark sql的诞生就是为了解决spark平台上的交互式查询问题，并且提供sql接口兼容原有数据库用户的使用情况

Øshark简单的说，就是spark上的hive，其底层依赖Hive引擎的，但在spark平台上，解析速度是hive的好多倍；就是一个升级版的大数据仓库

Ø在spark1.0版本开始，shark被官方抛弃使用

Øspark sql的优势：

nspark sql完全脱离了hive的限制

nspark sql支持查询原生的RDD，能够高效的处理大数据的各种场景的基础

n能够在scala中写sql语句，支持简单的sql语法检查，将结果取回作为RDD使用

nCatalyst能够帮助用户优化查询，catalyst能够进行一定程度的性能提升

# catalyst是spark sql的调度核心，解析sql形成其对应的执行计划（遵循DAG图）

1.4.2 DataFrame和DataSet

1.4.2.1 RDD与DataFrame的区别

如上图：

Ø左侧的RDD[Person]虽然以Person为类型参数，但是spark框架本省不了解Person类的内部结构；而右侧的DataFrame却提供了详细的结构信息（schema），使得spark sql可以清楚的知道该数据集中包含哪些列，每列的名称和类型

ØRDD是分布式的java对象的集合；而DataFrame是分布式的row对象的集合

ØDataFrame除了提供比RDD更丰富的算子外，更重要的特点是提升执行效率、减少数据读取以及执行计划的优化

1.4.2.2 DataFrame与DataSet的区别

DataSet可以认为是DataFrame的一个特例，主要区别是DataSet的每一个record存储的是一个强类型值而不是一个Row。具有三个特点：

ØDataSet在编译时检查类型

Ø面向对象的编程接口

Ø后面的版本DataFrame是继承DataSet的，DataFrame是面向Spark sql的接口

相互转换：

DataFrame和DataSet可以相互转化，df.as[ElementType]这样可以把DataFrame转化为DataSet，ds.toDF()这样可以把DataSet转化为DataFrame

1.4.2.3 DataFrame

（1）DataFrame是一个分布式的数据集，类似于关系数据库的一个表。

ØDataFrame以列的形式存储，但是不知道列的类型，因此，在编译时不进行校验，只有在运行时才会处理；DataSet不仅知道字段，还知道类型，所以编译时会进行类型校验

Ø可以由结构化的数据转换过来，也可以从hive，外部数据库或者RDD转换

ØDataFrame在spark sql中，可以使用sql的方式进行操作，与RDD类似，也可以采用lazy的方式，只有动作发生时才会真正的计算

ØDataFrame的数据源：支持JSON文件、hive表格，支持本地文件系统以及hdfs等；配合JDBC还支持外部关系型数据库

1.4.2.4与RDD的相互操作

spark sql支持两种不同的方式用于将存在的RDD转换为DataSets、DataFrame

Ø反射推断模式：

该模式使得代码更加的简练，不过在写spark程序的时候已经知道模式信息，（比如RDD中自己定义的case class类型）

练习：从hdfs文件中读取数据，创建一个Person的RDD

1.定义Person type

scala> case class

Person(id:Int,name:String,addr:String)

defined class Person

2.从hdfs读取文件，封装成DataFrame数据集

scala> val personDf = spark.sparkContext

.textFile("/test/preson.txt")

.map(_.split(","))

.map(p=>Person(p(0).toInt,p(1),p(2)))

.toDF

personDf:

org.apache.spark.sql.DataFrame = [id: int, name: string ... 1 more field]

3.将personDf注册为一个视图view

scala>

personDf.createOrReplaceTempView("person")

4.通过sql查询视图；sql支持复杂的,包括多表关联

scala> spark.sql("select

addr,count(1) from person group by addr").show

Ø编程指定模式：

构造一个模式，将其应用到一个已经存在的RDD上将其转化为DataFrame，该方法适用于运行之前不知道列以及列的类型的情况

import org.apache.spark.sql.types._

1.加载数据

val presonRDD= spark.sparkContext.textFile(“/test/person.txt”)

2.定义schema

val stringSchema = “id,name,addr”

val schema = StructType(stringSchma.split(",").map(field=>StructField(field,StringType,nullable=true)))

3.转换rdd的记录到rows集合

1.4.3 spark sql的操作

1.4.3.1创建SparkSession实例

SparkSeesion类时Spark SQL的所有功能的入口；spark-shell启动时，默认生成了一个SparkSession的实例：spark

importorg.apache.spark.sql.SparkSession

val spark = SparkSession.builder

.master("local")

.config("spark.sql.warehouse.dir", "/user/hive/warehouse")

.appName("spark text")

.getOrCreate

//包含隐式转换（比如讲RDDs转成DataFrames）API

importspark.implicits._

1.4.3.2创建DataFrame

spark sql读取hdfs中json数据

val df = spark.read.json("/test/course.json")

#显示df的数据

Ø显示df的数据

df.show

#结果：

Ø查询df的结构信息

Ø显示指定的字段值：使用select(col1,,col2)

Ø过滤，查询长度》12的数据

Ø分组操作groupBy

1.4.3.3 spark sql实战

1.4.3.3.1入口：SQLContext,HiveContext（Starting Point: SQLContext）

spark sql中所有的操作入口点都是SQLContext类或者它的子类.创建一个基本的SQLContext，只需要SparkContext即可（sc）

注：spark2.0之后，sparkSession是实现了同样的功能，不需要显示的创建SparkConf、sparkContext、SQLContext,因为这些对象都封装在了SparkSession中。即是

val sqlContext = new org.apache.spark.sql.SQLContext(sc)

valhiveContext =neworg.apache.spark.sql.hive.HiveContext(sc)

除了SparkContext外，还有HiveContext。两者的区别：

ØSQLContext只支持标准的sql语法解析器

ØHiveContext现在支持sql语法解析器和HiveSql语法解析器；默认为hivesql语法解析器，用户可以通过配置来切换sql语法解析器，来运行hivesql不支持的语法

Ø使用HiveContext可以使用Hive的UDF，读写Hive表数据等hive操作。sqlContext不可以对hive进行操作

Ø趋势：SqlContext不断丰富中，最终两者会形成一个统一的Context

1.4.3.3.2创建DataFrame

使用SqlContext，spark程序可以通过RDD、hive表、JSON格式数据等数据源创建DataFrame

val df = sqlContext.read.json(“/test/readme.json”)

1.4.3.3.3 DataFrame操作

df.show

df.printSchema

df.

1.4.3.3.4 Parquet文件

Parquet文件是一种列式存储格式的文件，能被很多数据处理系统支持。Spark SQL支持读取和写入Parquet文件，并可自动保留原始数据的格式（schema）

优势：

可以跳过不符合条件的数据，只读取需要的数据，降低IO数据量

压缩编码可以降低磁盘存储空间。由于同一列的数据类型是一样的，可以使用更高效的压缩编码进一步节省存储空间

只读取需要的列，支持向量运算，能够获取更好的扫描性能

还有，parquet数据源支持自动发现和推断分区信息

1.4.3.3.5 DataFrame的java操作

将DataFrame的结果转换为java的list

List listRow =result.javaRDD().collect();

for(Row row : listRow){

System.out.println(row);

}

1.4.3.4 SparkSession操作

在2.0版本之前，与spark交互之前必须创建SparkConf和SparkContext；然而到了2.0版本，不需要显示的创建这些对象SparkConf、SparkContext和SqlContext了，这些对象都已经封装在了SparkSession中了，即，2.0版本之后，入口就是就变成了SparkSession，在spark-shell启动时，会实例化一个SparkSession实例spark

ØSparkSession封装的对象

Ø获取conf默认配置，可以调整配置spark的运行参数

1.4.3.4.0 SparkSession的创建

sparkSession类是所有Spark SQL功能的入口，只需要调用SparkSession.builder()即可创建

importorg.apache.spark.sql.SparkSession

val spark = SparkSession.builder

.master("local")

.config("spark.sql.warehouse.dir", "/user/hive/warehouse")

.appName("spark Streaming +kafka")

.enableHiveSupport

.getOrCreate

1.4.3.4.1获取catalog元数据

1.4.3.4.2创建Dataset和Dataframe

最简单的办法就是通过range方法，创建DataSet

注，range也可以有3个参数，第三个参数是间隔，默认的创建的字段：id

Øtop(n)操作

Ø对某一列进行统计操作

Ø通过createDataFrame创建

重新命名列名withColumnRenamed

1.4.3.4.3读取json文件

1.4.3.4.4在SparkSession中使用Spark SQL

1.4.3.4.5数据源

spark支持多种数据源的数据，

Ø最简单的加载方式是load，默认的格式为parquet文件，（可以通过spark.sql.sources.default来默认指定格式）

val df = spark.read.load(“...”)

Ø将DataFrame数据存储为parquet

df.select("name","type").write.save("course.parquet")

存储的路径为（hdfs）：path hdfs://192.168.21.144:9000/user/root/course.parquet

也可以手动指定格式，以及指定要保存的文件的格式

scala> val df =

spark.read.format("json").load("/test/course.json")

df: org.apache.spark.sql.DataFrame = [length: bigint, name: string

... 1 more field]

#指定要保存的文件的格式

scala>

df.write.format("parquet").save("course1.parquet")

1.4.3.4.6保存数据到永久表saveAsTable

DataFrame可以通过调用saveAsTable方法将数据落地到hive表中，不过对已经部署的hive不会受影响，spark会创建本地的metastore（使用derby），saveAsTable会持久化数据并指向hive metastore

saveAsTable默认会创建一个“受管理表”，意味着数据的位置都是受metastore管理的。当“受管理表”被删除，其对应的数据也都会被删除。

注：文件内容保存在${SPARK_HOME}/bin/spark-warehouse/tableName

scala> df.write.saveAsTable("course")

#调用，spark.sql(sql_str)比较灵活

1.4.3.4.7 spark整合hive

如果spark没有整合hive，那么spark的元数据都是在bin目录下，自动创建metastore_db（以derby做支撑）

整合hive后，支持spark从hive取数，永久保存数据到hive中；并支持hive的mysql作为元数据存储数据库

Ø将hive配置文件中hive-site.xml文件复制到${spark_home}/conf

Ø将hadoop配置文件中hdfs-site.xml和core-site.xml文件复制到${spark_home}/conf

Ø将hive下元数据库mysql的驱动，复制到${spark_home}/jars下

可以将DataFrame数据永久保存到hive表中

1.5 Spark Streaming

spark2.0将流数据计算统一到了DataSet中，提出了Structured

Streaming的概念，将数据源映射为一张无限长度的表，同时将流计算的结果映射为另一张表，完全以结构化的方式去操作流数据，复用了其对象的Catalyst引擎

1.5.1 spark Streaming实战

创建Steaming DataFrame，用来监听host:9999获取socket数据，并对获取的数据进行RDD转换操作，最后统计各个词出现的次数

Ø创建socket通道

nc –lk 9999

Ø获取socket通道数据(需要填写socket的host、port)

scala>val line

spark.readStream.format("socket").option("host","mapeng").option("port",9999).load

Ø转换操作

scala> val wordCount = line.as[String].flatMap(_.split("

")).groupBy("value").count

wordCount: org.apache.spark.sql.DataFrame

= [value: string, count: bigint]

Ø使用start()来启动流式数据计算流程

scala> val query =

wordCount.writeStream.outputMode("complete").format("console").start

程序自动启动了job计算，并在控制台展现计算结果；（接收到socket流数据，spark自动计算，控制台展现结果）

说明：

（1）outputMode现在有三种方式：complete ,append,update（目前只实现了前两种）

lcomplete：每次计算完成后，都能得到全量的计算结果（每次计算都得到转换后的最新结果集）

lappend：每次计算完成后，能拿到增量的计算结果

两种方式的使用说明：

使用了聚合类函数才能使用complete的模式，只有简单的使用了map,filter等转换模式才能使用append模式，不做复杂的聚合统计运算

1.6 Spark Streaming + kafka整合

1.6.1 pom.xml文件，添加spark依赖

org.apache.hadoop

hadoop-client

2.6.0

org.apache.hadoop

hadoop-common

2.6.0

org.apache.hadoop

hadoop-hdfs

2.6.0

org.apache.spark

spark-core_2.11

2.0.0

org.apache.spark

spark-sql_2.11

2.0.0

org.apache.spark

spark-streaming_2.11

2.0.0

org.apache.spark

spark-hive_2.11

2.0.0

org.apache.spark

spark-streaming-kafka-0-10_2.11

2.0.0

org.apache.hive

hive-jdbc

1.2.1

io.netty

netty-all

4.0.29.Final

1.6.2实战代码

packagecom.mp.fight

importorg.apache.spark.sql.SparkSession

importorg.apache.spark.streaming.StreamingContext

importorg.apache.spark.streaming.Seconds

importorg.apache.spark.streaming._

importorg.apache.spark.streaming.kafka010.KafkaUtils

importorg.apache.spark.streaming.kafka010.LocationStrategies

importorg.apache.kafka.common.serialization.StringDeserializer

importorg.apache.spark.streaming.kafka010.ConsumerStrategies.Subscribe

importorg.apache.spark.sql.SQLContext

importorg.apache.spark.sql.SaveMode

objectTest4{

caseclassPerson(id:Int,name:String,addr:String)

defmain(args: Array[String]): Unit = {

//声明sparkSession

valspark=SparkSession.builder

.master("local")

.appName("spark Streaming kafkasql")

.config("spark.sql.warehouse.dir","/user/hive/warehouse")

.getOrCreate

//kafka设置

valkafkaParams=Map[String, Object](

"bootstrap.servers"->"mapeng:9092",

"key.deserializer"->classOf[StringDeserializer],

"value.deserializer"->classOf[StringDeserializer],

"group.id"->"example",

"auto.offset.reset"->"latest",

"enable.auto.commit"->(false: java.lang.Boolean)

)

//topic

valtopics=List("testmp")

//初始化StreamingContext

valssc=newStreamingContext(spark.sparkContext,Seconds(30));

//从kafka中读取数据

valkafkaStream=KafkaUtils.createDirectStream[String,String](

ssc,

LocationStrategies.PreferConsistent,

Subscribe[String,String](topics,kafkaParams)

).map(_.value())

//kafkaStream.print

importspark.sqlContext.implicits._

//启用sparkSql来操作DStream转换为DataFrame

kafkaStream.foreachRDD{rdd=>{

if(rdd.isEmpty) {

println("rdd is

empty")

}else{

valperson=rdd.map(_.split(",")).map(p=>Person(p(0).toInt,p(1),p(2))).toDF

//新接收的数据，追加存储在parquet文件中（重写文件）

person.write.mode(SaveMode.Append).save("hdfs://mapeng:9000/test/person.parquet")

//实时统计区域人数

valdf=spark.read.load("hdfs://mapeng:9000/test/person.parquet")

df.createOrReplaceTempView("person")

valaddrCount=spark.sql("select

addr,count(1) as num from person group by addr")

//将统计结果实时回写到parquet文件中

addrCount.write.mode(SaveMode.Overwrite).save("hdfs://mapeng:9000/test/addrCount.parquet")

//继续做多维度统计，可以使用sparksql操作处理parquet文件

}

//启动job

ssc.start

ssc.awaitTermination

}

1.6.3 DStream中foreachRDD、foreachePartition、foreach的区别

ØforeachRDD：得到的是处理一个批次的数据

ØforeachPartition：对一个批次的每个分区数据做处理

Øforeach：每条数据处理，单个元素处理

1.6.4 spark Streaming + socket

val ssc = new StreamingContext(sparkConf,

Seconds(1))

//获得一个DStream负责连接监听端口:地址

val lines = ssc.socketTextStream(“192.168.21.144”, 9999)

//对每一行数据执行Split操作

val words = lines.flatMap(_.split(" "))

//统计word的数量

val pairs = words.map(word => (word, 1))

val wordCounts = pairs.reduceByKey(_ + _)

//输出结果

wordCounts.print

ssc.start//开始

ssc.awaitTermination//计算完毕退出

1.8 parquet文件

1.8.1 parquet是面向分析型业务的列式存储格式，有如下优势

Parquet文件尾部存储了文件的元数据信息和统计信息，自描述的，方便解析

1.只读取需要的列，支持向量运算，能够获得更好的扫描性能

2.可以跳过不符合条件的数据，只读取需要的数据，降低io

3.同一列的数据类型是一样的，可以使用更高效的压缩编码，节约存储磁盘

1.8.2 parquet适配多种计算框架

Parquet是语言无关的，而且不与任何一种数据处理框架绑定在一起，适配多种语言和组件，能够与Parquet配合的组件有：

查询引擎: Hive, Impala, Pig, Presto, Drill, Tajo, HAWQ, IBM

Big SQL

计算框架: MapReduce, Spark, Cascading, Crunch, Scalding, Kite

数据模型: Avro, Thrift, Protocol Buffers, POJOs

1.8.3 parquet数据模型

eg:

message AddressBook {

required string owner;

repeated stringownerPhoneNumbers;

repeated group contacts {

required string name;

optional string phoneNumber;

}

说明：

schema的格式是这样的：

（1）根叫做message

（2）message包括有多个fields，每个fields包括有三个属性：repetition，type，name

其中，repetition有3中类型：required（出现一次）、optional（出现0次或者1次）、repeated（出现0次或者多次）

（3）type可以是一个group或者一个简单的类型

以上schema描述说明：

（1）每条记录标识一个AddressBook

（2）有且只有一个owner

（3）有0个或多个ownerPhoneNumbers

（4）owner可以有0个或者多个contacts。每个contact有且只有一个name，这个contact的phoneNumber可有可无（0个或者1个）

注：parquet格式的数据类型没有复杂的Map，List，Set等，使用group和repeated fields来表示；

null值不会被存储

实例：

1.8.4 parquet格式文件的存储

在parquet格式的存储中，一个schema的树结构有几个叶子节点，实际存储汇总就有几个column，例如上图中的schema实际存储就4个列

1.8.5 DataFrame与Parquet

（1）保存DF为Parquet格式

dfPerson.write.parquet("person.parquet")

(2)hive中建立parquet格式的表

createtableperson_parquetlikepersonstoredasparquet;

insertoverwritetableperson_parquetselect*fromperson;

（3）加载Parquet文件不再需要case class。

valpersonDF =spark.read.parquet("person.parquet")

personDF.registerAsTempTable("pp")

valmales = spark.sql("select * from pp where gender='M'")

males.show

1.8.5 parquet文件的持久化

1.8.5.1 spark中将DataFrame数据写到hdfs中的parquet文件中，支持追加

personDf.write.mode(SaveMode.Append).save(“hdfs://mapeng:9000/test/person.parquet”)

saveMode有如下几种方式：

1.8.5.2 parquet文件合并

合并的规则：相同的列，在新的数据集中，是通用的列，

各自不同的列，也作为新的数据集的列。

你可能感兴趣的:(大数据,大数据,spark)

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
疫情，疫情东山草
2020年，疫情爆发，至今已近三年，反反复复，此起彼伏。不但没被消灭，还自我发展，从德尔塔到奥密克戎，与时俱进的变异着。去年11月，疫情之下，大数据800米范围内，都成为时空伴随者。“你的码儿有没有变颜色”“你绿码还是黄码”成为那段时间的流行语，当然少不了的还有全员核酸。段子手整出来一首歌：我走过你走过的路,这算不算相逢？我吹过你吹过的风，这算不算相拥？800米内我们不曾擦肩而过，你却要我14天相
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
Spark 组件 GraphX、Streaming 叶域大数据 spark spark 大数据分布式
Spark组件GraphX、Streaming一、SparkGraphX1.1GraphX的主要概念1.2GraphX的核心操作1.3示例代码1.4GraphX的应用场景二、SparkStreaming2.1SparkStreaming的主要概念2.2示例代码2.3SparkStreaming的集成2.4SparkStreaming的应用场景SparkGraphX用于处理图和图并行计算。Graph
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
【数字化供应链】数字化供应链架构、全景管理、全流程贯通方案数字化建设方案数字化转型数据治理主数据数据仓库供应链数字仓储智慧物流智慧仓储物流园区架构微服务数据挖掘大数据人工智能
原文《数字化供应链架构、全景管理、全流程贯通方案》PPT格式。主要从供应链管理全景、智慧供应链建设总体目标、供应链总体业务流程、供应链总体功能架构、供应链总体技术架构、供应链全流程贯通、供应链全领域管理、供应链数据数据分析、供应链决策中台等进行建设。本文仅对主要内容进行介绍。来源网络公开渠道，旨在交流学习，如有侵权联系速删，更多参考公众号：优享智库基于先进IT技术、大数据能力、物联网应用、区块链平
80 鑫_259b
科普一个谈恋爱的方法。在以前，谈恋爱千难万难，就难在对对方不知底细，不知道对方希望自己是一个怎样的人，要耗费大量的时间去试探、再磨合，往往会因为一些小事一些细节，满盘皆输。在一个信息化的时代，在一个大数据近乎变成了流行语的时代，我们要跟上时代的步伐，通过大数据，去寻找异性最希望自己展现出来的形象是什么，才可以在爱情的道路上少走弯路。那这个大数据怎么操作呢？上街发问卷？问别人的择偶标准？一来会被打死
解锁企业潜能，Vatee万腾平台引领智能新纪元自媒体经济说其他
在数字化转型的浪潮中，企业正站在一个前所未有的十字路口，面对着前所未有的机遇与挑战。解锁企业内在潜能，实现跨越式发展，已成为众多企业的共同追求。而Vatee万腾平台，作为智能科技的先锋，正以其强大的智能赋能能力，引领企业步入一个全新的智能纪元。Vatee万腾平台，是一个集成了人工智能、大数据、云计算等前沿技术的综合性智能服务平台。它不仅仅是一个技术工具，更是企业转型升级的加速器，能够深入企业运营的
释放“AI+”新质生产力，深算院如何“把大数据变小”？ YashanDB YashanDB 国产数据库数据库数据库大数据
近期，南都·湾财社推出《新质·中国造》栏目，深入千行百业，遍访湾区企业，解锁湾区新质生产力，共探高质量发展之道。本期对话深圳计算科学研究院YashanDB首席技术官陈志标，探讨国产数据库如何实现创新突围，抢抓数字经济时代的新机遇。以下是专访内容：如何应对AI时代所面临的算力挑战？南都·湾财社：数据、算力和算法是发展人工智能的三要素，深算院做了怎样的前瞻性布局？陈志标：今年，政府工作报告中首次提及开
数字化智能工厂数字化供应链架构、全景管理、全流程贯通方案数字化建设方案智能制造数字工厂制造业数字化转型工业互联网架构
随着信息技术的飞速发展，数字化转型已成为制造企业提升竞争力的关键途径。数字化智能工厂通过集成先进的物联网(IoT)、大数据、云计算、人工智能(AI)等技术，实现了生产过程的智能化、供应链管理的精准化及决策的科学化。本方案旨在构建一套完善的数字化供应链架构，实现全景管理、全流程贯通、智慧化升级，以数据为驱动，强化技术支撑与安全管理体系，推动企业向智能制造迈进。一、数字化供应链架构1.**集成化平台构
日记——我的歌单静若小猴
又到一年一度大数据汇总的时候了，听歌已经成为很多人生活里的一种乐趣。春夏秋冬，我们都有自己喜欢的歌，歌词歌曲唱出沃尔玛你的心声。还记得大学时候最喜欢听的《春天里》，我有一天单曲回放了30遍，总觉得听着仿佛看到自己声音。还有的歌，初听不知曲中意，再听已经是曲终人，听着歌流泪，听着歌入睡……还记得那些年少的故事吗，总觉得自己才是故事外的人，却不是自己已经入歌。一段时间会喜欢一个人的音乐，一段时间会沉静
Linux dmesg命令：显示开机信息 fafadsj666 linux 数据库数据挖掘机器学习大数据
通过学习《Linux启动管理》一章可以知道，在系统启动过程中，内核还会进行一次系统检测（第一次是BIOS进行加测），但是检测的过程不是没有显示在屏幕上，就是会快速的在屏幕上一闪而过那么，如果开机时来不及查看相关信息，我们是否可以在开机后查看呢？答案是肯定的，使用dmesg命令就可以。无论是系统启动过程中，还是系统运行过程中，只要是内核产生的信息，都会被存储在系统缓冲区中，已经为大家精心准备了大数据
大数据新视界 --大数据大厂之揭秘大数据时代 Excel 魔法：大厂数据分析师进阶秘籍青云交大数据新视界 Excel 数据分析函数公式数据透视表图表功能规划求解数据分析工具库大数据新视界数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
大数据新视界 --大数据大厂之数据挖掘入门：用 R 语言开启数据宝藏的探索之旅青云交大数据新视界数据库大数据数据挖掘 R 语言算法案例未来趋势应用场景学习建议大数据新视界
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
高职人工智能训练师边缘计算实训室解决方案武汉唯众智创人工智能训练师边缘计算实训室人工智能训练师实训室边缘计算实训室
一、引言随着物联网（IoT）、大数据、人工智能（AI）等技术的飞速发展，计算需求日益复杂和多样化。传统的云计算模式虽在一定程度上满足了这些需求，但在处理海量数据、保障实时性与安全性、提升计算效率等方面仍面临诸多挑战。在此背景下，边缘计算作为一种新兴的计算模式应运而生，通过将计算能力推向数据生成或用户所在的网络边缘，显著降低了数据传输的延迟，提升了处理效率，并增强了数据安全性。针对高等职业院校的人工
python基于django/flask的NBA球员大数据分析与可视化python+java+node.js QQ_511008285 python django flask java spring boot 数据分析
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以本文针对NBA球员的大数据进行
Java基于spring boot的国产电影数据分析与可视化python+java+node.js QQ_511008285 java spring boot 数据分析 python django vue.js flask
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以该系统使用进行大数据处理和
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen