syc0616

SparkSQL项目

YARN产生背景

MapReduce1.X的问题：

JobTracker的压力太大了；

YARN的产生

YARN的架构

1个RM（ResourceManager）+N个（NodeManager）

ResourceManager的职责：一个集群的active状态的RM只有一个，负责整个集群的资源管理和调度；

1.处理客户端的请求（启动/杀死）任务；

2.启动/监控ApplicationMaster（一个作业对应一个AM）；

3.监控NM；

4.系统的资源分配和调度；

NodeManager：整个集群中有N个，负责单个节点的资源管理和使用，以及task的运行情况；

1.定期向RM汇报本节点的资源使用请求和各个Container的运行状态；

2.接收并处理RM的Container启动的各种命令；

3.单个节点的资源管理和任务管理；

ApplicationMaster：每个应用/作业对应一个，负责应用程序的管理；

1.数据切分；

2.为应用程序向RM申请资源（container），并分配给内部任务；

3.与NM通信以启停task，task时运行在container中的；

4.task的监控和容错；

Container:

对任务运行情况的描述：CPU、Memory、环境变量

YARN的执行流程

1.用户向YARN提交作业；

2.RM为该作业分配第一个container（AM）；

3.RM会与对应的NM通信，要求NM在这个container上启动应用程序的AM；

4.AM首先向RM注册，然后AM将为各个任务申请资源，并监控运行情况；

5.AM采用轮询的方式通过RPC协议向RM申请和领取资源；

6.AM申请到资源以后，便和相应的NM通信，要求NM启动任务；

7.NM启动我们作业对应的task；

验证是否成功：有两个进程ResourceManager，NodeManager

大数据仓库Hive

Hive产生背景：

MapReduce编程的不便性；

HDFS上的文件缺少Schema；

Hive体系结构

客户端：Command-line shell、Thrift/JDBC

Hive部署架构--测试环境

Hive部署架构--生产环境

MySQL主、备：保证hive元数据的正确

为什么要使用Hive

Hive在Hadoop生态中的位置

Hive环境搭建

配置hive.xml文件

4）拷贝MySQL驱动到hive/lib

5）启动Hive

hive/bin/hive

Hive基本操作

创建表

查看表的元数据

加载数据到hive表

编写HSQL

例子：

创建表

加载数据

求每个部门的人数

Spark大数据处理框架

Hadoop生态系统

Spark生态系统

Spark与hadoop生态圈对比

Spark与hadoop比较

Spark与MapReduce对比

Spark项目实战

安装Spark

配置环境变量

验证Spark

spark-shell --master local[2]

Standalone模式

启动

spark-shell --master spark://hadoop001:7077

SparkSQL 概述

1.SQL on hadoop常用框架

2.SparkSQL架构

SparkSQL使用

1.SQLContext/HiveContext/SparkSession的使用

1.SQLContext

SparkSQL处理步骤：

//1)创建相应的Context
val sparkConf = new SparkConf()

//在测试或者生产中，AppName和Master我们是通过脚本进行指定
//sparkConf.setAppName("SQLContextApp").setMaster("local[2]")

val sc = new SparkContext(sparkConf)
val sqlContext = new SQLContext(sc)

//2)相关的处理: json
val people = sqlContext.read.format("json").load(path)
people.printSchema()
people.show()

//3)关闭资源
sc.stop()

提交SparkSQL任务到集群

2.HiveContext

//1)创建相应的Context
val sparkConf = new SparkConf()

//在测试或者生产中，AppName和Master我们是通过脚本进行指定
//sparkConf.setAppName("HiveContextApp").setMaster("local[2]")

val sc = new SparkContext(sparkConf)
val hiveContext = new HiveContext(sc)

//2)相关的处理:读取hive中的表
hiveContext.table("emp").show

//3)关闭资源
sc.stop()

3.SparkSession

val spark = SparkSession.builder().appName("SparkSessionApp")
.master("local[2]").getOrCreate()

val people = spark.read.json("file:///Users/rocky/data/people.json")
people.show()

spark.stop()

spark-shell&spark-sql的使用

1.使用spark-shell

./spark-shell --master local[2]

spark访问hive需要把hive-site.xml拷贝到spark/conf/目录下；

需要MySQL的驱动包：

--jars mysql-connector-javaxxxx.jar

2.使用spark-sql

./spark-sql --master local[2] --jars mysql-connector-javaxxxx.jar

查看执行计划

逻辑计划、优化、物理计划

2.thriftserver/beeline的使用

1.启动thriftserver服务

默认端口：10000

2.使用beeline

beeline -u jadbc:hive2://localhost:10000 -n hadoop （这台机器用户名）

总结

thriftserver和普通的spark-shell/spark-sql有什么区别？

所以thriftserver优点比较多

3.jdbc方式编程访问

添加依赖:org.spark-project.hive#hive-jdbc

开发代码连接thriftserver

//jdbc驱动名

Class.forName("org.apache.hive.jdbc.HiveDriver")

//url就是beeline客户端连接的命令

val conn = DriverManager.getConnection("jdbc:hive2://hadoop001:14000","hadoop","")
val pstmt = conn.prepareStatement("select empno, ename, sal from emp")
val rs = pstmt.executeQuery()
while (rs.next()) {
println("empno:" + rs.getInt("empno") +
" , ename:" + rs.getString("ename") +
" , sal:" + rs.getDouble("sal"))

}

rs.close()
pstmt.close()
conn.close()

DataFrame&DataSet概念及使用

1.DataFrame概述

DataSet是一个分布式的数据集；

DataFrame是一个DataSet；

DataFrame是以列（列名、列的类型、列值）的形式构成的分布式数据集，安装列赋予不同的名称；

DataFrame是一张表；

DataFrame可以从文本文件，一张表（hive）等创建；

DataFrame对比RDD

DataFrame是有schema的；RDD没有表的结构；

2.DataFrame基本API常用操作

1.Create DataFrame

多种数据源创建一个dataframe

sparksession.read.format("jason").load(path)

2.printSchema

输出dataframe对应的schema信息

3.show

输出记录

4.select

查询某列所有的数据

peopleDF.select("name").show()

// 查询某几列所有的数据，并对列进行计算

peopleDF.select(peopleDF.col("name"), (peopleDF.col("age") + 10).as("age2")).show()

5.filter

//根据某一列的值进行过滤

peopleDF.filter(peopleDF.col("age") > 19).show()

6.groupBy

//根据某一列进行分组，然后再进行聚合操作

peopleDF.groupBy("age").count().show()

DataFrame与RDD相互操作

1.反射方式

推导出Schema的信息，当已知道Schema的组成；

caseclass保存Schema的信息

def inferReflection(spark: SparkSession) {
// RDD ==> DataFrame
val rdd = spark.sparkContext.textFile("file:///Users/rocky/data/infos.txt")

//注意：需要导入隐式转换
import spark.implicits._
val infoDF = rdd.map(_.split(",")).map(line => Info(line(0).toInt, line(1), line(2).toInt)).toDF()

infoDF.show()

//操作DataFrame

infoDF.filter(infoDF.col("age") > 30).show

//注册临时表

infoDF.createOrReplaceTempView("infos")

//采用SQL方式
spark.sql("select * from infos where age > 30").show()
}

// DataFrame转RDD的样例类与Schema对应

case class Info(id: Int, name: String, age: Int)

2.编程方式

当Schema事先不知道时（即样例类不能提前定义时），在运行的时候才能确定；

Create an RDD of Rows from the original RDD;

Create the schema represented by a StructType matching the structure of Rows in the RDD created in Step 1.

Apply the schema to the RDD of Rows via createDataFrame method provided by SparkSession.

def program(spark: SparkSession): Unit = {
// RDD ==> DataFrame
val rdd = spark.sparkContext.textFile("file:///Users/rocky/data/infos.txt")

val infoRDD = rdd.map(_.split(",")).map(line => Row(line(0).toInt, line(1), line(2).toInt))

// 定义一个StructType

val structType = StructType(Array(StructField("id", IntegerType, true),
StructField("name", StringType, true),
StructField("age", IntegerType, true)))

val infoDF = spark.createDataFrame(infoRDD,structType)
infoDF.printSchema()
infoDF.show()

//通过df的api进行操作
infoDF.filter(infoDF.col("age") > 30).show

//通过sql的方式进行操作
infoDF.createOrReplaceTempView("infos")
spark.sql("select * from infos where age > 30").show()
}

DataFrame API操作

// RDD ==> DataFrame
val rdd = spark.sparkContext.textFile("file:///Users/rocky/data/student.data")

//注意：需要导入隐式转换
import spark.implicits._
//注意：转义字符

val studentDF = rdd.map(_.split("\\|")).map(line => Student(line(0).toInt, line(1), line(2), line(3))).toDF()

// 所有的字段都全部展示，不管是多长；

studentDF.show(30, false)

show、take、first（一个数据）、head、filter

studentDF.filter("name=''").show
studentDF.filter("name='' OR name='NULL'").show

//name以M开头的人
studentDF.filter("SUBSTR(name,0,1)='M'").show

val studentDF2 = rdd.map(_.split("\\|")).map(line => Student(line(0).toInt, line(1), line(2), line(3))).toDF()

排序

studentDF.sort(studentDF("name").asc, studentDF("id").desc).show

连接

studentDF.join(studentDF2, studentDF.col("id") === studentDF2.col("id")).show

样例类

case class Student(id: Int, name: String, phone: String, email: String)

DataSet概述

静态类型（Static-typing）和运行时类型安全（runtime type-safety）

//注意：需要导入隐式转换
import spark.implicits._

val path = "file:///Users/rocky/data/sales.csv"

//spark如何解析csv文件？
val df = spark.read.option("header","true").option("inferSchema","true").csv(path)
df.show

val ds = df.as[Sales]
ds.map(line => line.itemId).show

spark.sql("seletc name from person").show

//df.seletc("name")
df.select("nname")

ds.map(line => line.itemId)

spark.stop()
}

case class Sales(transactionId:Int,customerId:Int,itemId:Int,amountPaid:Double)

SparkSQL多外部数据源

目标

1）开发人员：不需要将代码合并到Spark中

--jars 即可以

2）用户

spark.read.format(format)

json,parquet,jdbc

1.操作Jason文件

//1)创建相应的Context
val sparkConf = new SparkConf()

//在测试或者生产中，AppName和Master我们是通过脚本进行指定
//sparkConf.setAppName("SQLContextApp").setMaster("local[2]")

val sc = new SparkContext(sparkConf)
val sqlContext = new SQLContext(sc)

//2)相关的处理: json
val people = sqlContext.read.format("json").load(path)
people.printSchema()
people.show()

df.write.format("json").save(path)

//3)关闭资源
sc.stop()

2.操作Parquet文件

1.SparkCore代码

val spark = SparkSession.builder().appName("SparkSessionApp")
.master("local[2]").getOrCreate()

/**
* spark.read.format("parquet").load 这是标准写法
*/
val userDF = spark.read.format("parquet").load("file:///home/hadoop/app/spark-2.1.0-bin-2.6.0-cdh5.7.0/examples/src/main/resources/users.parquet")

userDF.printSchema()
userDF.show()

userDF.select("name","favorite_color").show

userDF.select("name","favorite_color").write.format("json").save("file:///home/hadoop/tmp/jsonout")

spark.read.load("file:///home/hadoop/app/spark-2.1.0-bin-2.6.0-cdh5.7.0/examples/src/main/resources/users.parquet").show

//会报错，因为sparksql默认处理的format就是parquet
spark.read.load("file:///home/hadoop/app/spark-2.1.0-bin-2.6.0-cdh5.7.0/examples/src/main/resources/people.json").show

spark.read.format("parquet").option("path","file:///home/hadoop/app/spark-2.1.0-bin-2.6.0-cdh5.7.0/examples/src/main/resources/users.parquet").load().show
spark.stop()

2.SQL用法：

指定using org.apache.spark.sql.parquet

CREATE TEMPORARY VIEW parquetTable
USING org.apache.spark.sql.parquet
OPTIONS (
  path "examples/src/main/resources/people.parquet"
)

SELECT * FROM parquetTable

3.操作Hive表数据

重命名hive中的表；

设置SparkSQL中的分区数：默认是200

case class Record(key: Int, value: String)

val warehouseLocation = new File("spark-warehouse").getAbsolutePath

val spark = SparkSession
  .builder()
  .appName("Spark Hive Example")
  .config("spark.sql.warehouse.dir", warehouseLocation)
  .enableHiveSupport()
  .getOrCreate()

import spark.implicits._
import spark.sql

// create table
sql("CREATE TABLE IF NOT EXISTS src (key INT, value STRING) USING hive")
// load data into table
sql("LOAD DATA LOCAL INPATH 'examples/src/main/resources/kv1.txt' INTO TABLE src")

// Queries are expressed in HiveQL
sql("SELECT * FROM src").show()


// The results of SQL queries are themselves DataFrames and support all normal functions.
val sqlDF = sql("SELECT key, value FROM src WHERE key < 10 ORDER BY key")

// The items in DataFrames are of type Row, which allows you to access each column by ordinal.
val stringsDS = sqlDF.map {
  case Row(key: Int, value: String) => s"Key: $key, Value: $value"
}


// You can also use DataFrames to create temporary views within a SparkSession.
val recordsDF = spark.createDataFrame((1 to 100).map(i => Record(i, s"val_$i")))
recordsDF.createOrReplaceTempView("records")


// Queries can then join DataFrame data with data stored in Hive.
sql("SELECT * FROM records r JOIN src s ON r.key = s.key").show()



// Create a Hive managed Parquet table, with HQL syntax instead of the Spark SQL native syntax
// `USING hive`
sql("CREATE TABLE hive_records(key int, value string) STORED AS PARQUET")
// Save DataFrame to the Hive managed table
val df = spark.table("src")
df.write.mode(SaveMode.Overwrite).saveAsTable("hive_records")
// After insertion, the Hive managed table has data now
sql("SELECT * FROM hive_records").show()





// Prepare a Parquet data directory
val dataDir = "/tmp/parquet_data"
spark.range(10).write.parquet(dataDir)
// Create a Hive external Parquet table
sql(s"CREATE EXTERNAL TABLE hive_bigints(id bigint) STORED AS PARQUET LOCATION '$dataDir'")
// The Hive external table should already have data
sql("SELECT * FROM hive_bigints").show()


// Turn on flag for Hive Dynamic Partitioning
spark.sqlContext.setConf("hive.exec.dynamic.partition", "true")
spark.sqlContext.setConf("hive.exec.dynamic.partition.mode", "nonstrict")
// Create a Hive partitioned table using DataFrame API
df.write.partitionBy("key").format("hive").saveAsTable("hive_part_tbl")
// Partitioned column `key` will be moved to the end of the schema.
sql("SELECT * FROM hive_part_tbl").show()

4.操作MySQL表数据

// Note: JDBC loading and saving can be achieved via either the load/save or jdbc methods
// Loading data from a JDBC source
val jdbcDF = spark.read
  .format("jdbc")
  .option("url", "jdbc:postgresql:dbserver")
  .option("dbtable", "schema.tablename")
  .option("user", "username")
  .option("password", "password")
  .load()

val connectionProperties = new Properties()
connectionProperties.put("user", "username")
connectionProperties.put("password", "password")
val jdbcDF2 = spark.read
  .jdbc("jdbc:postgresql:dbserver", "schema.tablename", connectionProperties)
// Specifying the custom data types of the read schema
connectionProperties.put("customSchema", "id DECIMAL(38, 0), name STRING")
val jdbcDF3 = spark.read
  .jdbc("jdbc:postgresql:dbserver", "schema.tablename", connectionProperties)

// Saving data to a JDBC source
jdbcDF.write
  .format("jdbc")
  .option("url", "jdbc:postgresql:dbserver")
  .option("dbtable", "schema.tablename")
  .option("user", "username")
  .option("password", "password")
  .save()

jdbcDF2.write
  .jdbc("jdbc:postgresql:dbserver", "schema.tablename", connectionProperties)

// Specifying create table column data types on write
jdbcDF.write
  .option("createTableColumnTypes", "name CHAR(64), comments VARCHAR(1024)")
  .jdbc("jdbc:postgresql:dbserver", "schema.tablename", connectionProperties)

1.read

spark.read
.format("jdbc")
.option("url", "jdbc:postgresql:dbserver")
.option("dbtable", "schema.tablename")
.option("user", "username")
.option("password", "password")
.load()

2.jdbc

val connectionProperties = new Properties()
connectionProperties.put("user", "username")
connectionProperties.put("password", "password")
val jdbcDF2 = spark.read
.jdbc("jdbc:postgresql:dbserver", "schema.tablename", connectionProperties)
// Specifying the custom data types of the read schema
connectionProperties.put("customSchema", "id DECIMAL(38, 0), name STRING")
val jdbcDF3 = spark.read
.jdbc("jdbc:postgresql:dbserver", "schema.tablename", connectionProperties)

使用外部数据源综合查询Hive和MySQL的表数据

val spark = SparkSession.builder().appName("HiveMySQLApp")
.master("local[2]").getOrCreate()

// 加载Hive表数据
val hiveDF = spark.table("emp")

// 加载MySQL表数据
val mysqlDF = spark.read.format("jdbc").option("url", "jdbc:mysql://localhost:3306").option("dbtable", "spark.DEPT").option("user", "root").option("password", "root").option("driver", "com.mysql.jdbc.Driver").load()

// JOIN
val resultDF = hiveDF.join(mysqlDF, hiveDF.col("deptno") === mysqlDF.col("DEPTNO"))
resultDF.show

resultDF.select(hiveDF.col("empno"),hiveDF.col("ename"),
mysqlDF.col("deptno"), mysqlDF.col("dname")).show

spark.stop()

Spark SQL的愿景

1.少的代码

2.同一输入和输出

3.自定义数据源

4.合并Schema

但性能开销比较大；

setting data source option mergeSchema to true when reading Parquet files (as shown in the examples below), or
setting the global SQL option spark.sql.parquet.mergeSchema to true.

5.自动分区探测

spark.sql.sources.partitionColumnTypeInference.enabled

请注意，分区列的数据类型是自动推断的。目前，支持数字数据类型、日期、时间戳和字符串类型。有时用户可能不想自动推断分区列的数据类型。对于这些用例，可以通过配置自动类型推断spark.sql.sources.partitionColumnTypeInference.enabled，默认为true。当类型推断被禁用时，字符串类型将用于分区列。

从 Spark 1.6.0 开始，分区发现默认只查找给定路径下的分区。对于上面的示例，如果用户传递path/to/table/gender=male给 SparkSession.read.parquet或SparkSession.read.load，gender则不会被视为分区列。如果用户需要指定分区发现应该从哪个基本路径开始，他们可以basePath在数据源选项中设置。例如，当path/to/table/gender=male是数据和用户的路径设置basePath为时path/to/table/，gender将是一个分区列。

6.运行速度对比

7.读更少的数据

A.列式存储，只读取有用的列；

B.使用分区加载；

C.忽略min/max，这些一般在表中的静态变量中存储；

D.将一些条件信息，提前已过滤掉不必要的数据；

列式存储

减少空间，更方便查询

8.底层优化

1列优化；2分区优化

Join优化：

1.先过滤，在加载

2.列式优化，只加载有用的列

日志分析实战

1.记录用户行为日志

网站页面的访问量

网站的粘性；

离线数据处理架构

1.数据采集

Flume：web日志写入到HDFS；

2.数据清洗

脏数据：

Spark、hive、MapReduce或其他的一些分布式计算框架，清洗完之后的数据可存放在HDFS（Hive/SparkSQL）

3.数据处理

按需要进行相应业务的统计和分析；

Spark、hive、MapReduce或其他的一些分布式计算框架

4.数据结果入库

可以苍颜白发在RDBMS、NoSQL数据库中；

5.数据的可视化

通过图形化展示的方式展现出来：饼图、柱状图、地图、折线图

ECharts、HUE、Zeppelin

需求一：统计immoc主站最受欢迎的课程/收集TopN访问次数

//最受欢迎的TopN课程
def videoAccessTopNStat(spark: SparkSession, accessDF:DataFrame, day:String): Unit = {

/**
* 使用DataFrame的方式进行统计
*/
import spark.implicits._

val videoAccessTopNDF = accessDF.filter($"day" === day && $"cmsType" === "video")
.groupBy("day","cmsId").agg(count("cmsId").as("times")).orderBy($"times".desc)

videoAccessTopNDF.show(false)

//使用SQL的方式进行统计
// accessDF.createOrReplaceTempView("access_logs")
// val videoAccessTopNDF = spark.sql("select day,cmsId, count(1) as times from access_logs " +
// "where day='20170511' and cmsType='video' " +
// "group by day,cmsId order by times desc")
//
// videoAccessTopNDF.show(false)

//将统计结果写入到MySQL中
try {
videoAccessTopNDF.foreachPartition(partitionOfRecords => {
val list = new ListBuffer[DayVideoAccessStat]

partitionOfRecords.foreach(info => {
val day = info.getAs[String]("day")
val cmsId = info.getAs[Long]("cmsId")
val times = info.getAs[Long]("times")

/**
* 不建议大家在此处进行数据库的数据插入
*/

list.append(DayVideoAccessStat(day, cmsId, times))
})

StatDAO.insertDayVideoAccessTopN(list)
})
} catch {
case e:Exception => e.printStackTrace()
}

}

需求二：按地市统计immoc主站最受欢迎的课程/收集TopN访问次数

根据IP日志提取出城市信息

窗口函数在SparkSQL使用

def cityTopN(spark: SparkSession, df: DataFrame, day: String) = {

// 使用DateFrame方式统计
import spark.implicits._
val cityTopDF = df.filter($"day" === day && $"courseType" === "article")
.groupBy("day", "courseId", "city")
.agg(count("courseId").as("times"))

val top3 = cityTopDF.select(
cityTopDF("day"),
cityTopDF("courseId"),
cityTopDF("city"),
cityTopDF("times"),
row_number().over(Window.partitionBy(cityTopDF("city")).orderBy(cityTopDF("times").desc)).as("timesRank")
).filter("timesRank<=3")
// top3.show(false)

// 将结果写入mysql
top3.foreachPartition(partition => {
val list = new ListBuffer[CityTop]
partition.foreach(record => {
val day = record.getAs[String]("day")
val courseId = record.getAs[Long]("courseId")
val city = record.getAs[String]("city")
val times = record.getAs[Long]("times")
val timesRank = record.getAs[Int]("timesRank")
list.append(CityTop(day, courseId, city, times, timesRank))
})
Dao.insertCityTop(list)
})

}

agg的作用

正常情况下，当我们使用了聚合算子，后面就无法在使用其他聚合算子
而agg可以使我们同时获取多个聚合运算结果

//同样也可以这样写
//stuDF.groupBy("gender").agg(max("age"),min("age"),avg("age"),count("id")).show()
stuDF.groupBy("gender").agg("age"->"max","age"->"min","age"->"avg","id"->"count").show()
/*
+------+--------+--------+------------------+---------+
   |gender|max(age)|min(age)| avg(age)|count(id)|
   +------+--------+--------+------------------+---------+
   | F| 23| 20|21.333333333333332| 3|
   | M| 22| 16| 19.5| 4|
   +------+--------+--------+------------------+---------+
*/

创建MySQL表

样例类

case class CityTop(day: String, courseId: Long, city: String, times: Long, timesRank: Int)

创建DAO

def insertCityTop(list: ListBuffer[CityTop]) = {
var con: Connection = null
var state: PreparedStatement = null
try {
con = MySQLUtil.getConnection()
con.setAutoCommit(false)
val sql = "insert into city_top(day,courseId,city,times,timesRank) values(?,?,?,?,?)"
state = con.prepareStatement(sql)
for(ele <- list) {
state.setString(1, ele.day)
state.setLong(2, ele.courseId)
state.setString(3, ele.city)
state.setLong(4, ele.times)
state.setInt(5, ele.timesRank)
state.addBatch()
}
state.executeBatch()
con.commit()
} catch {
case e: Exception => e.printStackTrace()
} finally {
MySQLUtil.release(con, state)
}
}

TOPN并入库

def cityTopN(spark: SparkSession, df: DataFrame, day: String) = {

// 使用DateFrame方式统计
import spark.implicits._
val cityTopDF = df.filter($"day" === day && $"courseType" === "article")
.groupBy("day", "courseId", "city")
.agg(count("courseId").as("times"))

val top3 = cityTopDF.select(
cityTopDF("day"),
cityTopDF("courseId"),
cityTopDF("city"),
cityTopDF("times"),
row_number().over(Window.partitionBy(cityTopDF("city")).orderBy(cityTopDF("times").desc)).as("timesRank")
).filter("timesRank<=3")
// top3.show(false)

// 将结果写入mysql
top3.foreachPartition(partition => {
val list = new ListBuffer[CityTop]
partition.foreach(record => {
val day = record.getAs[String]("day")
val courseId = record.getAs[Long]("courseId")
val city = record.getAs[String]("city")
val times = record.getAs[Long]("times")
val timesRank = record.getAs[Int]("timesRank")
list.append(CityTop(day, courseId, city, times, timesRank))
})
Dao.insertCityTop(list)
})

}

需求三：按流量统计imooc主站最受欢迎的课程/收集TopN访问次数

def trafficTopN(spark: SparkSession, df: DataFrame, day: String) = {

// 使用DateFrame方式统计
import spark.implicits._
val trafficTopDF = df.filter($"day" === day && $"courseType" === "article")
.groupBy("day","courseId").agg(sum("traffic").as("traffics"))
.orderBy($"traffics".desc)
//.show(false)

// 将结果写入mysql
trafficTopDF.foreachPartition(partition => {
val list = new ListBuffer[TrafficTop]
partition.foreach(record => {
val day = record.getAs[String]("day")
val courseId = record.getAs[Long]("courseId")
val traffics = record.getAs[Long]("traffics")
list.append(TrafficTop(day, courseId, traffics))
})
Dao.insertTrafficTop(list)
})

}

创建MySQL表

日志内容

访问时间、访问过程耗费流量、访问URL、访问IP地址

//访问日志转换(输入==>输出)工具类
object AccessConvertUtil {

//定义的输出的字段
val struct = StructType(
Array(
StructField("url",StringType),
StructField("cmsType",StringType),
StructField("cmsId",LongType),
StructField("traffic",LongType),
StructField("ip",StringType),
StructField("city",StringType),
StructField("time",StringType),
StructField("day",StringType)
)
)

/

数据清洗

第一步清洗：抽取出我们所需要的指定列的数据

val spark = SparkSession.builder().master("local[2]").appName("FormatSpark").getOrCreate()

val access = spark.sparkContext.textFile("E:/ImoocData/init.log")
access.take(10).foreach(println)
// 218.75.35.226 - - [11/05/2017:08:07:35 +0800] "POST /api3/getadv HTTP/1.1" 200 407 "http://www.imooc.com/article/17891" "-" cid=0×tamp=1455254555&uid=5844555
access.map(line => {
val splits = line.split(" ")
val ip = splits(0)
val time = splits(3) + " " + splits(4)
val traffic = splits(9)
val url = splits(10).replace("\"", "")
DateUtil.parse(time) + "\t" + url + "\t" + traffic + "\t" + ip
// 2017-05-11 08:07:35 http://www.imooc.com/article/17891 407 218.75.35.226
}).saveAsTextFile("E:/ImoocData/format")//.take(10).foreach(println)

spark.stop()

第二步清洗

val accessRDD = spark.sparkContext.textFile("/Users/rocky/data/imooc/access.log")

//accessRDD.take(10).foreach(println)

//RDD ==> DF
val accessDF = spark.createDataFrame(accessRDD.map(x => AccessConvertUtil.parseLog(x)), AccessConvertUtil.struct)

// accessDF.printSchema()

// accessDF.show(false)

accessDF.coalesce(1).write.format("parquet").mode(SaveMode.Overwrite)
.partitionBy("day").save("/Users/rocky/data/imooc/clean2")

使用SparkSQL解析访问日志

解析出课程编号、类型

根据IP解析出城市信息

添加依赖文件：

操作MySQL

// MySQL操作工具类
object MySQLUtils {

/**
* 获取数据库连接
*/
def getConnection() = {
DriverManager.getConnection("jdbc:mysql://localhost:3306/imooc_project?user=root&password=root")
}

/**
* 释放数据库连接等资源
* @param connection
* @param pstmt
*/
def release(connection: Connection, pstmt: PreparedStatement): Unit = {
try {
if (pstmt != null) {
pstmt.close()
}
} catch {
case e: Exception => e.printStackTrace()
} finally {
if (connection != null) {
connection.close()
}
}
}

}

创建MySQL表

def insertDayTop(list: ListBuffer[DayTop]) = {
var con: Connection = null
var state: PreparedStatement = null
try {
con = MySQLUtil.getConnection()
   // 关闭自动提交
con.setAutoCommit(false)
val sql = "insert into day_top(day,courseId,times) values(?,?,?)"
state = con.prepareStatement(sql)
for(ele <- list) {
state.setString(1, ele.day)
state.setLong(2, ele.courseId)
state.setLong(3, ele.times)
       // 加入批量
state.addBatch()
}
   // 批量提交
state.executeBatch()
con.commit()
} catch {
case e: Exception => e.printStackTrace()
} finally {
MySQLUtil.release(con, state)
}
}

删除指定日期的数据

def deleteData(day: String) = {
val tables = Array("day_top", "city_top", "traffic_top")
var con: Connection = null
var state: PreparedStatement = null
try {
con = MySQLUtil.getConnection()
for(table <- tables) {
val deleteSQL = s"delete from $table where day=?"
val state = con.prepareStatement(deleteSQL)
state.setString(1, day)
state.executeUpdate()
}
} catch {
case e: Exception => e.printStackTrace()
} finally {
MySQLUtil.release(con, state)
}
}

调优：

1.控制文件输出大小：coalesce；

2.分区字段的数据类型调整：spark.sql.sources.partitionColumnTypeInference.enabled=false

这样所有的数据就都是字符串类型；

你可能感兴趣的:(spark)

PySpark 静听山水 Spark spark
PySpark的本质确实是Python的一个接口层，它允许你使用Python语言来编写ApacheSpark应用程序。通过这个接口，你可以利用Spark强大的分布式计算能力，同时享受Python的易用性和灵活性。1、PySpark的工作原理PySpark的工作原理可以概括为以下几个步骤：编写Python代码：开发者使用Python语法来编写Spark应用程序。这些程序通常涉及创建RDDs（弹性分布
Ubuntu的ssh 请不要问我是谁
安装sshsudoapt-getupdatesudoapt-getinstallopenssh-server检测ssh是否启动sudops-e|grepssh创建root用户sudopasswdroot配置本机无密码ssh登录cd/home/spark0ssh-keygen-trsa-P""cat.ssh/id_rsa.pub>>.ssh/authorized_keyschmod600.ssh/a
2024年大数据最新实时数仓之实时数仓架构(Hudi) 2401_84185556 程序员大数据架构
技术框架Kafka：用于接入数据源；FlinkCDC：如果直接接入业务数据源可以考虑CDC方式，如果通过Kafka缓冲接入业务数据可以忽略;Flink：用于数据ETL，包括接入数据、处理数据及输出数据全链路数据计算任务；Spark：用于数据ETL，包括处理数据及输出数据全链路数据计算任务；Hudi：湖仓一体数据管理框架，用来管理模型数据，包括ODS/DWD/DWS/DIM/ADS等；Doris：O
实时数仓之实时数仓架构(Hudi)(1)，2024年最新熬夜整理华为最新大数据开发笔试题 2401_84181221 程序员架构大数据
+Hudi：湖仓一体数据管理框架，用来管理模型数据，包括ODS/DWD/DWS/DIM/ADS等；+Doris：OLAP引擎，同步数仓结果模型，对外提供数据服务支持；+Hbase：用来存储维表信息，维表数据来源一部分有Flink加工实时写入，另一部分是从Spark任务生产，其主要作用用来支持FlinkETL处理过程中的LookupJoin功能。这里选用Hbase原因主要因为Table的HbaseC
starrocks和clickhouse数据库比较 CodeMaster_37714848 clickhouse 数据库
Starrocks和ClickHouse都是用于数据分析的数据库，但它们的设计理念和用途有所不同。下面是这两者的一些主要比较点：1.基础架构与设计目标Starrocks:Starrocks是一个专注于实时数据分析的平台，常用于大数据处理和商业智能应用。它设计用于高效处理大规模数据集，并且支持复杂查询和数据处理。支持多种数据源的集成，并且可以与其他大数据技术（如Hadoop、Spark）协同工作。C
Hive的优势与使用场景傲雪凌霜，松柏长青后端大数据 hive hadoop 数据仓库
Hive的优势Hive作为一个构建在Hadoop上的数据仓库工具，具有许多优势，特别是在处理大规模数据分析任务时。以下是Hive的主要优势：1.与Hadoop生态系统的紧密集成Hive构建在Hadoop分布式文件系统(HDFS)之上，能够处理海量数据并进行分布式计算。它利用Hadoop的MapReduce或Spark来执行查询，具备高度扩展性，适合大数据处理。2.支持SQL-like查询语言(Hi
Spark 3.5.1 升级 Java 17 异常 cannot access class sun.nio.ch.DirectBuffer 敏叔V587 spark java nio
异常说明使用Spark3.5.1升级到Java17的时候会有一个异常，异常如下SLF4J:Failedtoloadclass"org.slf4j.impl.StaticLoggerBinder".SLF4J:Defaultingtono-operation(NOP)loggerimplementationSLF4J:Seehttp://www.slf4j.org/codes.html#Static
【无标题】大数据之批处理，流处理，批流一体概念数字天下大数据
批处理批处理是将一定量的数据集合在一起，形成一个数据批次，然后对这个批次中的数据进行处理。Spark和Flink都支持批处理，其中Spark使用的是批处理模型，即将一批数据一次性读入内存，然后对其进行处理，处理完成后再将结果写入磁盘。Flink也支持批处理，但使用的是基于流处理的批处理模式，即将一批数据分成多个数据流进行处理，可以实现更高效的内存管理和更低的延迟。流处理流式处理是一种将数据流式地处
pyspark kafka mysql_数据平台实践①——Flume+Kafka+SparkStreaming(pyspark) weixin_39793638 pyspark kafka mysql
蜻蜓点水Flume——数据采集如果说，爬虫是采集外部数据的常用手段的话，那么，Flume就是采集内部数据的常用手段之一(logstash也是这方面的佼佼者)。下面介绍一下Flume的基本构造。Agent：包含Source、Channel和Sink的主体，它是这3个组件的载体，是组成Flume的数据节点。Event：Flume数据传输的基本单元。Source：用来接收Event，并将Event批量传
<转>Spark体系架构 yongjian_luo Spark
最近看到一篇关于Spark架构的博文，作者是AlexeyGrishchenko。看过Alexey博文的同学应该都知道，他对Spark理解地非常深入，读完他的“spark-architecture”这篇博文，有种醍醐灌顶的感觉，从JVM内存分配到Spark集群的资源管理，步步深入，感触颇多。因此，在周末的业余时间里，将此文的核心内容译成中文，并在这里与大家分享。如在翻译过程中有文字上的表达纰漏，还请
Spark分布式计算原理 NightFall丶 #Spark apache spark spark
目录一、RDD依赖与DAG原理1.1RDD的转换一、RDD依赖与DAG原理Spark根据计算逻辑中的RDD的转换与动作生成RDD的依赖关系，同时这个计算链也形成了逻辑上的DAG。1.1RDD的转换e.g.(以wordcount为例）packagesparkimportorg.apache.spark.{SparkConf,SparkContext}objectWordCount{defmain(a
Apache Flink 替换 Spark Stream的架构与实践( bilibili 案例解读)_streamsparkflink加载udf(1) 2401_84165953 程序员 flink spark 架构
2.开发架构设计（1）开发架构图：如下图左侧所示。最上层是Saber-Streamer，主要进行作业提交以及API管理。下一层是BSQL层，主要进行SQL的扩展和解析，包括自定义算子和个性算子。再下层是运行时态，下面是引擎层。运行时态主要管理引擎层作业的上下层。bilibili早期使用的引擎是SparkStreaming，后期扩展了Flink，在开发架构中预留了一部分引擎层的扩展。最下层是状态存储
PySpark数据分析基础：PySpark基础功能及DataFrame操作基础语法详解_pyspark rdd 2401_84187537 数据分析数据挖掘
DataFrame.show()使用格式：df.show()df.show(1)+---+---+-------+----------+-------------------+|a|b|c|d|e|+---+---+-------+----------+-------------------+|1|2.0|string1|2000-01-01|2000-01-0112:00:00|+---+---
PySpark数据分析基础：PySpark基础功能及DataFrame操作基础语法详解_pyspark rdd(1) 2401_84181368 程序员数据分析数据挖掘
dfDataFrame[a:bigint,b:double,c:string,d:date,e:timestamp]####通过由元组列表组成的RDD创建rdd=spark.sparkContext.parallelize([(1,2.,‘string1’,date(2000,1,1),datetime(2000,1,1,12,0)),(2,3.,‘string2’,date(2000,2,1),
PySpark数据分析基础：PySpark基础功能及DataFrame操作基础语法详解_pyspark rdd(2) 2401_84181403 程序员数据分析数据挖掘
轻松切换到pandasAPI和PySparkAPI上下文，无需任何开销。有一个既适用于pandas（测试，较小的数据集）又适用于Spark（分布式数据集）的代码库。熟练使用pandas的话很快上手3.StreamingApacheSpark中的Streaming功能运行在Spark之上，支持跨Streaming和历史数据的强大交互和分析应用程序，同时继承了Spark的易用性和容错特性。SparkS
Pyspark DataFrame常用操作函数和示例还是那个同伟伟 Spark 人工智能机器学习 pandas pyspark spark
针对类型：pyspark.sql.dataframe.DataFrame目录1.打印前几行1.1show()函数1.2take()函数2.读取文件2.1spark.read.csv3.获取某行某列的值(具体值)4.查看列名5.修改列名5.1修改单个列名5.2修改多个列名5.2.1链式调用withColumnRenamed方法5.2.2使用selectExpr方法6.pandas类型转化为pyspa
Spark概念知识笔记 kuntoria
最近总结了个人的各项能力，发现在大数据这方面几乎没有涉及，因此想补充这方面的知识，丰富自己的知识体系，大数据生态主要包含：Hadoop和Spark两个部分，Spark作用相当于MapReduceMapReduce和Spark对比如下磁盘由于其物理特性现在，速度提升非常困难，远远跟不上CPU和内存的发展速度。近几十年来，内存的发展一直遵循摩尔定律，价格在下降，内存在增加。现在主流的服务器，几百GB或
大数据秋招面经之spark系列 wq17629260466 大数据 spark
文章目录前言spark高频面试题汇总1.spark介绍2.spark分组取TopN方案总结：方案2是最佳方案。3.repartition与coalesce4.spark的oom问题怎么产生的以及解决方案5.storm与flink,sparkstreaming之间的区别6.spark的几种部署方式：7.复习spark的yarn-cluster模式执行流程：8.spark的job提交流程：9.spar
每天一个数据分析题（五百一十四）- 决策树算法跟着紫枫学姐学CDA 数据分析题库算法数据分析决策树
决策树由节点和边两种元素组成的结构，决策树中不包含一下哪种结点？A.根结点（rootnode)B.内部结点（internalnode）C.外部结点（externalnode）D.叶结点（leafnode）数据分析认证考试介绍：点击进入题目来源于CDA模拟题库点击此处获取答案数据分析专项练习题库内容涵盖Python，SQL，统计学，数据分析理论，深度学习，可视化，机器学习，Spark八个方向的专项练
【Spark高级应用】使用Spark进行高级数据处理与分析爱技术的小伙子大数据 spark ajax 大数据
Spark高级应用使用Spark进行高级数据处理与分析引言在大数据时代，快速处理和分析海量数据是每个企业面临的重大挑战。ApacheSpark作为一种高效的分布式计算框架，凭借其高速、易用、通用和灵活的特点，已经成为大数据处理和分析的首选工具。本文将深入探讨如何使用Spark进行高级数据处理与分析，通过实际案例和代码示例，帮助你掌握Spark的高级应用技巧。提出问题如何进行高效的大规模数据处理？如
spark读取csv文件静听山水 Spark spark
测试spark读取本地和hdfs文件frompyspark.sqlimportSparkSessionspark=SparkSession.builder\.appName("ExamplePySparkScript")\.getOrCreate()#读取本地csv文件df=spark.read.csv("/Users/xiaokkk/Desktop/local_projects/spark/in
SparkStreaming业务逻辑处理的一些高级算子看见我的小熊没 sparkStreaming scala spark big data scala
1、reduceByKey reduceByKey是按key进行计算，操作的数据是每个批次内的数据（一个采集周期），不能跨批次计算。如果需要实现对历史数据的跨批次统计累加，则需要使用updateStateByKey算子或者mapWithState算子。packagecom.sparkscala.streamingimportorg.apache.log4j.{Level,Logger}impor
Spark一些个人总结易逑实战数据大数据 spark big data scala
文章目录前言一、Spark是什么二、Spark用来做什么三、Spark的优势是什么四、为什么用Spark五、Spark解决了什么问题总结前言随着大数据技术的发展，一些更加优秀的组件被提了出来，比如现在最常用的Spark组件，基于RDD原理在大数据处理中占据了越来越重要的作用。在此我们探索了Spark的原理，以及其在大数据开发中的重要作用。一、Spark是什么Spark是一个用来实现快速，通用的集群
spark任务优化参数整理尘世壹俗人大数据Spark技术 spark 大数据分布式
以下参数中有sql字眼的一般只有spark-sql模块生效，例外的时候会另行说明，此外由于总结这些参数是在不同时间段，当时使用的spark版本也不一样，因此要注意是否有效，如果本博主已经试过的会直接说明。1、任务使用资源限制，基本参数，注意，这些资源配置有spark前缀是因为他们是标准的conf配置，也就是submit脚本，你调用–conf参数写的，和–driver.memory这种属于不同的优先
Spark与Kafka进行连接傲雪凌霜，松柏长青后端大数据 spark kafka
在Java中使用Spark与Kafka进行连接，你可以使用SparkStreaming来处理实时流数据。以下是一个简单的示例，展示了如何使用SparkStreaming从Kafka读取数据并进行处理。1.引入依赖首先，在你的pom.xml文件中添加必要的依赖项（假设你在使用Maven）：org.apache.sparkspark-core_2.123.4.0org.apache.sparkspar
Spark入门：KMeans聚类算法 17111_Chaochao1984a 算法 spark kmeans
聚类（Clustering）是机器学习中一类重要的方法。其主要思想使用样本的不同特征属性，根据某一给定的相似度度量方式（如欧式距离）找到相似的样本，并根据距离将样本划分成不同的组。聚类属于典型的无监督学习（UnsupervisedLearning）方法。与监督学习（如分类器）相比1，无监督学习的训练集没有人为标注的结果。在非监督式学习中，数据并不被特别标识，学习模型是为了推断出数据的一些内在结构。
Spark MLlib模型训练—聚类算法 K-means 不二人生 Spark ML 实战算法 spark-ml 聚类
SparkMLlib模型训练—聚类算法K-meansK-means是一种经典的聚类算法，广泛应用于数据挖掘、图像处理、推荐系统等领域。它通过将数据划分为(k)个簇（clusters），使得同一簇内的数据点尽可能相似，而不同簇之间的数据点差异尽可能大。ApacheSpark提供了K-means聚类算法的高效实现，支持大规模数据的分布式计算。本文将详细介绍K-means聚类算法的原理，并结合Spark
Spark MLlib模型训练—聚类算法 Bisecting K-means 不二人生 Spark ML 实战算法 spark-ml 聚类
SparkMLlib模型训练—聚类算法BisectingK-means由于传统的KMeans算法的聚类结果易受到初始聚类中心点选择的影响，因此在传统的KMeans算法的基础上进行算法改进，对初始中心点选取比较严格，各中心点的距离较远，这就避免了初始聚类中心会选到一个类上，一定程度上克服了算法陷入局部最优状态。二分KMeans(BisectingKMeans)算法的主要思想是：首先将所有点作为一个簇
DAG (directed acyclic graph) 作为大数据执行引擎的优点 joeywen 分布式计算 Storm Spark Storm 杂谈 Storm spark DAG
TL;DR-ConceptuallyDAGmodelisastrictgeneralizationofMapReducemodel.DAG-basedsystemslikeSparkandTezthatareawareofthewholeDAGofoperationscandobetterglobaloptimizationsthansystemslikeHadoopMapReducewhicha
Spark的Web界面静听山水 Spark spark
http://localhost:4040/jobs/在顶部导航栏上，可以点击以下选项来查看不同类型的Spark应用信息：Jobs-此视图将列出所有已提交的作业，并提供每个作业的详细信息，如作业ID、名称、开始时间、结束时间等。Stages-此视图可以查看作业分解成的不同阶段，包括每个阶段的任务数、当前状态等。Storage-此视图展示了数据如何在RDDs（弹性分布式数据集）之间进行分层存储，以及
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI linux PHP android
╔-----------------------------------╗┆
zookeeper admin 笔记 braveCS zookeeper
Required Software 1) JDK>=1.6 2)推荐使用ensemble的ZooKeeper(至少3台)，并run on separate machines 3)在Yahoo!，zk配置在特定的RHEL boxes里，2个cpu，2G内存，80G硬盘数据和日志目录 1)数据目录里的文件是zk节点的持久化备份，包括快照和事务日
Spring配置多个连接池 easterfly spring
项目中需要同时连接多个数据库的时候，如何才能在需要用到哪个数据库就连接哪个数据库呢？ Spring中有关于dataSource的配置： <bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource" &nb
Mysql 171815164 mysql
例如，你想myuser使用mypassword从任何主机连接到mysql服务器的话。 GRANT ALL PRIVILEGES ON *.* TO 'myuser'@'%'IDENTIFIED BY 'mypassword' WI TH GRANT OPTION; 如果你想允许用户myuser从ip为192.168.1.6的主机连接到mysql服务器，并使用mypassword作
CommonDAO（公共/基础DAO） g21121 DAO
好久没有更新博客了，最近一段时间工作比较忙，所以请见谅，无论你是爱看呢还是爱看呢还是爱看呢，总之或许对你有些帮助。 DAO(Data Access Object)是一个数据访问（顾名思义就是与数据库打交道）接口，DAO一般在业
直言有讳永夜-极光感悟随笔
1.转载地址:http://blog.csdn.net/jasonblog/article/details/10813313 精华: “直言有讳”是阿里巴巴提倡的一种观念，而我在此之前并没有很深刻的认识。为什么呢？就好比是读书时候做阅读理解，我喜欢我自己的解读，并不喜欢老师给的意思。在这里也是。我自己坚持的原则是互相尊重，我觉得阿里巴巴很多价值观其实是基本的做人
安装CentOS 7 和Win 7后，Win7 引导丢失随便小屋 centos
一般安装双系统的顺序是先装Win7，然后在安装CentOS，这样CentOS可以引导WIN 7启动。但安装CentOS7后，却找不到Win7 的引导，稍微修改一点东西即可。一、首先具有root 的权限。即进入Terminal后输入命令su，然后输入密码即可二、利用vim编辑器打开/boot/grub2/grub.cfg文件进行修改 v
Oracle备份与恢复案例 aijuans oracle
Oracle备份与恢复案例一. 理解什么是数据库恢复当我们使用一个数据库时，总希望数据库的内容是可靠的、正确的，但由于计算机系统的故障（硬件故障、软件故障、网络故障、进程故障和系统故障）影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重构这个完整的数据库，该处理称为数据库恢复。恢复过程大致可以分为复原(Restore)与
JavaEE开源快速开发平台G4Studio v5.0发布無為子
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V5.0版本已经正式发布。访问G4Studio网站 http://www.g4it.org 2013-04-06 发布G4Studio_V5.0版本功能新增 (1). 新增了调用Oracle存储过程返回游标，并将游标映射为Java List集合对象的标
Oracle显示根据高考分数模拟录取百合不是茶 PL/SQL编程 oracle例子模拟高考录取学习交流
题目要求: 1,创建student表和result表 2,pl/sql对学生的成绩数据进行处理 3,处理的逻辑是根据每门专业课的最低分线和总分的最低分数线自动的将录取和落选 1,创建student表,和result表学生信息表; create table student( student_id number primary key,--学生id
优秀的领导与差劲的领导 bijian1013 领导管理团队
责任优秀的领导：优秀的领导总是对他所负责的项目担负起责任。如果项目不幸失败了，那么他知道该受责备的人是他自己，并且敢于承认错误。差劲的领导：差劲的领导觉得这不是他的问题，因此他会想方设法证明是他的团队不行，或是将责任归咎于团队中他不喜欢的那几个成员身上。努力工作优秀的领导：团队领导应该是团队成员的榜样。至少，他应该与团队中的其他成员一样努力工作。这仅仅因为他
js函数在浏览器下的兼容 Bill_chen jquery 浏览器 IE DWR ext
做前端开发的工程师，少不了要用FF进行测试，纯js函数在不同浏览器下，名称也可能不同。对于IE6和FF，取得下一结点的函数就不尽相同： IE6：node.nextSibling,对于FF是不能识别的； FF：node.nextElementSibling,对于IE是不能识别的；兼容解决方式：var Div = node.nextSibl
【JVM四】老年代垃圾回收：吞吐量垃圾收集器(Throughput GC) bit1129 垃圾回收
吞吐量与用户线程暂停时间衡量垃圾回收算法优劣的指标有两个：吞吐量越高，则算法越好暂停时间越短，则算法越好首先说明吞吐量和暂停时间的含义。垃圾回收时，JVM会启动几个特定的GC线程来完成垃圾回收的任务，这些GC线程与应用的用户线程产生竞争关系，共同竞争处理器资源以及CPU的执行时间。GC线程不会对用户带来的任何价值，因此，好的GC应该占
J2EE监听器和过滤器基础白糖_ J2EE
Servlet程序由Servlet，Filter和Listener组成，其中监听器用来监听Servlet容器上下文。监听器通常分三类：基于Servlet上下文的ServletContex监听，基于会话的HttpSession监听和基于请求的ServletRequest监听。 ServletContex监听器 ServletContex又叫application
博弈AngularJS讲义(16) - 提供者 boyitech js AngularJS api Angular Provider
Angular框架提供了强大的依赖注入机制，这一切都是有注入器(injector)完成. 注入器会自动实例化服务组件和符合Angular API规则的特殊对象，例如控制器，指令，过滤器动画等。那注入器怎么知道如何去创建这些特殊的对象呢？ Angular提供了5种方式让注入器创建对象，其中最基础的方式就是提供者(provider), 其余四种方式(Value, Fac
java-写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 bylijinnan java
public class CommonSubSequence { /** * 题目：写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 * 写一个版本算法复杂度O(N^2)和一个O(N) 。 * * O(N^2)：对于a中的每个字符，遍历b中的每个字符，如果相同，则拷贝到新字符串中。 * O(
sqlserver 2000 无法验证产品密钥 Chen.H sql windows SQL Server Microsoft
在 Service Pack 4 (SP 4), 是运行 Microsoft Windows Server 2003、 Microsoft Windows Storage Server 2003 或 Microsoft Windows 2000 服务器上您尝试安装 Microsoft SQL Server 2000 通过卷许可协议 (VLA) 媒体。这样做, 收到以下错误信息CD KEY的 SQ
[新概念武器]气象战争 comsci
气象战争的发动者必须是拥有发射深空航天器能力的国家或者组织.... 原因如下: 地球上的气候变化和大气层中的云层涡旋场有密切的关系,而维持一个在大气层某个层次
oracle 中 rollup、cube、grouping 使用详解 daizj oracle grouping rollup cube
oracle 中 rollup、cube、grouping 使用详解 -- 使用oracle 样例表演示转自namesliu -- 使用oracle 的样列库，演示 rollup, cube, grouping 的用法与使用场景 --- ROLLUP ，为了理解分组的成员数量，我增加了分组的计数 COUNT(SAL)
技术资料汇总分享 Dead_knight 技术资料汇总分享
本人汇总的技术资料，分享出来，希望对大家有用。 http://pan.baidu.com/s/1jGr56uE 资料主要包含： Workflow->工作流相关理论、框架(OSWorkflow、JBPM、Activiti、fireflow...) Security->java安全相关资料(SSL、SSO、SpringSecurity、Shiro、JAAS...) Ser
初一下学期难记忆单词背诵第一课 dcj3sjt126com english word
could 能够 minute 分钟 Tuesday 星期二 February 二月 eighteenth 第十八 listen 听 careful 小心的，仔细的 short 短的 heavy 重的 empty 空的 certainly 当然 carry 携带；搬运 tape 磁带 basket 蓝子 bottle 瓶 juice 汁，果汁 head 头；头部
截取视图的图片, 然后分享出去 dcj3sjt126com OS Objective-C
OS 7 has a new method that allows you to draw a view hierarchy into the current graphics context. This can be used to get an UIImage very fast. I implemented a category method on UIView to get the vi
MySql重置密码 fanxiaolong MySql重置密码
方法一: 在my.ini的[mysqld]字段加入： skip-grant-tables 重启mysql服务，这时的mysql不需要密码即可登录数据库然后进入mysql mysql>use mysql; mysql>更新 user set password=password('新密码') WHERE User='root'; mysq
Ehcache（03）——Ehcache中储存缓存的方式 234390216 ehcache MemoryStore DiskStore 存储驱除策略
Ehcache中储存缓存的方式目录 1 堆内存（MemoryStore） 1.1 指定可用内存 1.2 驱除策略 1.3 元素过期 2 &nbs
spring mvc中的@propertysource jackyrong spring mvc
在spring mvc中，在配置文件中的东西，可以在java代码中通过注解进行读取了： @PropertySource 在spring 3.1中开始引入比如有配置文件 config.properties mongodb.url=1.2.3.4 mongodb.db=hello 则代码中 @PropertySource(&
重学单例模式 lanqiu17 单例 Singleton 模式
最近在重新学习设计模式，感觉对模式理解更加深刻。觉得有必要记下来。第一个学的就是单例模式，单例模式估计是最好理解的模式了。它的作用就是防止外部创建实例，保证只有一个实例。单例模式的常用实现方式有两种，就人们熟知的饱汉式与饥汉式，具体就不多说了。这里说下其他的实现方式静态内部类方式: package test.pattern.singleton.statics; publ
.NET开源核心运行时，且行且珍惜 netcome java .net 开源
背景 2014年11月12日，ASP.NET之父、微软云计算与企业级产品工程部执行副总裁Scott Guthrie，在Connect全球开发者在线会议上宣布，微软将开源全部.NET核心运行时，并将.NET 扩展为可在 Linux 和 Mac OS 平台上运行。.NET核心运行时将基于MIT开源许可协议发布，其中将包括执行.NET代码所需的一切项目——CLR、JIT编译器、垃圾收集器（GC）和核心
使用oscahe缓存技术减少与数据库的频繁交互 Everyday都不同 Web 高并发 oscahe缓存
此前一直不知道缓存的具体实现，只知道是把数据存储在内存中，以便下次直接从内存中读取。对于缓存的使用也没有概念，觉得缓存技术是一个比较”神秘陌生“的领域。但最近要用到缓存技术，发现还是很有必要一探究竟的。缓存技术使用背景：一般来说，对于web项目，如果我们要什么数据直接jdbc查库好了，但是在遇到高并发的情形下，不可能每一次都是去查数据库，因为这样在高并发的情形下显得不太合理——
Spring+Mybatis 手动控制事务 toknowme mybatis
@Override public boolean testDelete(String jobCode) throws Exception { boolean flag = false; &nbs
菜鸟级的android程序员面试时候需要掌握的知识点 xp9802 android
熟悉Android开发架构和API调用掌握APP适应不同型号手机屏幕开发技巧熟悉Android下的数据存储熟练Android Debug Bridge Tool 熟练Eclipse/ADT及相关工具熟悉Android框架原理及Activity生命周期熟练进行Android UI布局熟练使用SQLite数据库；熟悉Android下网络通信机制，S