程裕强

Spark2.x学习笔记：14、Spark SQL程序设计

Spark2.x学习笔记：14、 Spark SQL程序设计

14.1 RDD的局限性

RDD仅表示数据集，RDD没有元数据，也就是说没有字段语义定义。
RDD需要用户自己优化程序，对程序员要求较高。
从不同数据源读取数据相对困难。
合并多个数据源中的数据也较困难。

14.2 DataFrame和Dataset

（1）DataFrame
由于RDD的局限性，Spark产生了DataFrame。
DataFrame=RDD+Schema
其中Schema是就是元数据，是语义描述信息。
在Spark1.3之前，DataFrame被称为SchemaRDD。以行为单位构成的分布式数据集合，按照列赋予不同的名称。对select、fileter、aggregation和sort等操作符的抽象。

内部数据无类型，统一为Row
DataFrame是一种特殊类型的Dataset
DataFrame自带优化器Catalyst，可以自动优化程序。
DataFrame提供了一整套的Data Source API。

（2）Dataset
由于DataFrame的数据类型统一是Row，所以DataFrame也是有缺点的。

Row运行时类型检查
比如salary是字符串类型，下面语句也只有运行时才进行类型检查。

dataframe.filter("salary>1000").show()

Row不能直接操作domain对象
函数风格编程，没有面向对象风格的API

所以，Spark SQL引入了Dataset，扩展了DataFrame API，提供了编译时类型检查，面向对象风格的API。
Dataset可以和DataFrame、RDD相互转换。
DataFrame[Row]=Dataset
可见DataFrame是一种特殊的Dataset。

14.3 为什么需要DataFrame和Dataset？

我们知道Spark SQL提供了两种方式操作数据：

SQL查询
DataFrame和Dataset API

既然Spark SQL提供了SQL访问方式，那为什么还需要DataFrame和Dataset的API呢？
这是因为SQL语句虽然简单，但是SQL的表达能力却是有限的（所以Oracle数据库提供了PL/SQL）。DataFrame和Dataset可以采用更加通用的语言（Scala或Python）来表达用户的查询请求。此外，Dataset可以更快扑捉错误，因为SQL是运行时捕获异常，而Dataset是编译时检查错误。

14.4 基本步骤

创建SparkSession对象
SparkSession封装了Spark SQL执行环境信息，是所有Spark SQL程序唯一的入口。
创建DataFrame或Dataset
Spark SQL支持多种数据源
在DataFrame或Dataset之上进行转换和Action
Spark SQL提供了多钟转换和Action函数
返回结果
保存结果到HDFS中，或直接打印出来。

步骤1：创建SparkSession对象

val spark=SparkSessin.builder
        .master("local")
        .appName("spark session example")
        .getOrCreate()

注意：SparkSession中封装了spark.sparkContext和spark.sqlContext
后面所有程序或程序片段中出现的spark变量均是SparkSession对象

将RDD隐式转换为DataFrame

import spark.implicits._

步骤2：创建DataFrame或Dataset
提供了读写各种格式数据的API，包括常见的JSON，JDBC，Parquet，HDFS

步骤3：在DataFrame或Dataset之上进行各种操作

14.5 实例演示

（1）进入spark-shell

[root@node1 ~]# spark-shell
17/10/13 10:05:57 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Spark context Web UI available at http://192.168.80.131:4040
Spark context available as 'sc' (master = local[*], app id = local-1507903559300).
Spark session available as 'spark'.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 2.2.0
      /_/

Using Scala version 2.11.8 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_112)
Type in expressions to have them evaluated.
Type :help for more information.

scala>

这里的Spark session对象是对Spark context对象的进一步封装。也就是说Spark session对象（spark）中的SparkContext就是Spark context对象（sc）,从下面输出信息可以验证。

scala> spark.sparkContext
res0: org.apache.spark.SparkContext = org.apache.spark.SparkContext@7bd7c4cf

scala> println(sc)
org.apache.spark.SparkContext@7bd7c4cf

scala>

（2）导入org.apache.spark.sql.Row

scala> import org.apache.spark.sql.Row
import org.apache.spark.sql.Row

（3）定义case class

scala> case class User(userID:Long,gender:String,age:Int,occupation:String,zipcode:String)
defined class User

scala> val usersRDD=sc.textFile("file:///root/data/ml-1m/users.dat")
usersRDD: org.apache.spark.rdd.RDD[String] = file:///root/data/ml-1m/users.dat MapPartitionsRDD[3] at textFile at :25

scala> usersRDD.count
res3: Long = 6040

（4）case class作为RDD的schema

scala> val userRDD =usersRDD.map(_.split("::")).map(p=>User(p(0).toLong,p(1).trim,p(2).toInt,p(3),p(4)))
userRDD: org.apache.spark.rdd.RDD[User] = MapPartitionsRDD[5] at map at :29

（5）通过RDD.toDF将RDD转换为DataFrame

scala> val userDF=userRDD.toDF
userDF: org.apache.spark.sql.DataFrame = [userID: bigint, gender: string ... 3 more fields]

（6）查看DataFrame所以方法
输入userDF.，然后tab键，可以看到DataFrame所以方法

scala> userDF.
agg                             cube               hint             randomSplitAsList      take                
alias                           describe           inputFiles       rdd                    takeAsList          
apply                           distinct           intersect        reduce                 toDF                
as                              drop               isLocal          registerTempTable      toJSON              
cache                           dropDuplicates     isStreaming      repartition            toJavaRDD           
checkpoint                      dtypes             javaRDD          rollup                 toLocalIterator     
coalesce                        except             join             sample                 toString            
col                             explain            joinWith         schema                 transform           
collect                         explode            limit            select                 union               
collectAsList                   filter             map              selectExpr             unionAll            
columns                         first              mapPartitions    show                   unpersist           
count                           flatMap            na               sort                   where               
createGlobalTempView            foreach            orderBy          sortWithinPartitions   withColumn          
createOrReplaceGlobalTempView   foreachPartition   persist          sparkSession           withColumnRenamed   
createOrReplaceTempView         groupBy            printSchema      sqlContext             withWatermark       
createTempView                  groupByKey         queryExecution   stat                   write               
crossJoin                       head               randomSplit      storageLevel           writeStream         

scala>

（7）输出DataFrame的Schema

scala> userDF.printSchema
root
 |-- userID: long (nullable = false)
 |-- gender: string (nullable = true)
 |-- age: integer (nullable = false)
 |-- occupation: string (nullable = true)
 |-- zipcode: string (nullable = true)

（8）DataFrame的其他方法

scala> userDF.first
res5: org.apache.spark.sql.Row = [1,F,1,10,48067]

scala> userDF.take(10)
res6: Array[org.apache.spark.sql.Row] = Array([1,F,1,10,48067], [2,M,56,16,70072], [3,M,25,15,55117], [4,M,45,7,02460], [5,M,25,20,55455], [6,F,50,9,55117], [7,M,35,1,06810], [8,M,25,12,11413], [9,M,25,17,61614], [10,F,35,1,95370])

scala>

（9）查看DataFrame可以转化的数据格式
输入userDF.write.，然后tab键，可以看到DataFrame可以转化的数据格式

scala> userDF.write.
bucketBy   format       jdbc   mode     options   parquet       save          sortBy      
csv        insertInto   json   option   orc       partitionBy   saveAsTable   text        

scala>

（10）将DataFrame数据以JSON格式写入HDFS

scala> userDF.write.json("/tmp/json")

scala>

（11）查看HDFS

[root@node1 ~]# hdfs dfs -ls /tmp/json
Found 2 items
-rw-r--r--   3 root supergroup          0 2017-10-13 10:31 /tmp/json/_SUCCESS
-rw-r--r--   3 root supergroup     442408 2017-10-13 10:31 /tmp/json/part-00000-6f19a241-2f72-4a06-a6bc-81706c89bf5b-c000.json
[root@node1 ~]#

（12）也可以写入本地

scala> userDF.write.json("file:///tmp/json")

[root@node1 ~]# ls /tmp/json
part-00000-66aa0658-0343-4659-a809-468e4fde23a5-c000.json  _SUCCESS
[root@node1 ~]# tail -5 /tmp/json/part-00000-66aa0658-0343-4659-a809-468e4fde23a5-c000.json
{"userID":6036,"gender":"F","age":25,"occupation":"15","zipcode":"32603"}
{"userID":6037,"gender":"F","age":45,"occupation":"1","zipcode":"76006"}
{"userID":6038,"gender":"F","age":56,"occupation":"1","zipcode":"14706"}
{"userID":6039,"gender":"F","age":45,"occupation":"0","zipcode":"01060"}
{"userID":6040,"gender":"M","age":25,"occupation":"6","zipcode":"11106"}
[root@node1 ~]#

（13）查看Spark SQL可以读的数据格式

scala> val df=spark.read.
csv   format   jdbc   json   load   option   options   orc   parquet   schema   table   text   textFile

scala>

（14）将JSON文件转化为DataFrame

scala> val df=spark.read.json("/tmp/json")
df: org.apache.spark.sql.DataFrame = [age: bigint, gender: string ... 3 more fields]

scala> df.take(2)
res9: Array[org.apache.spark.sql.Row] = Array([1,F,10,1,48067], [56,M,16,2,70072])

scala>

（15）再将DataFrame转化为ORC格式数据（该格式文件是二进制文件）

scala> df.write.orc("file:///tmp/orc")

[root@node1 ~]# ls /tmp/orc
part-00000-09cf3025-cc71-4a76-a35d-a7cef4885be8-c000.snappy.orc  _SUCCESS
[root@node1 ~]#

（16）读取目录/tmp/orc下的所有orc文件

scala> val orcDF=spark.read.orc("file:///tmp/orc")
orcDF: org.apache.spark.sql.DataFrame = [age: bigint, gender: string ... 3 more fields]

scala> orcDF.first
res11: org.apache.spark.sql.Row = [1,F,10,1,48067]

scala>

14.6 select和filter

（1）select

scala> userDF.select("UserID","age").show
+------+---+
|UserID|age|
+------+---+
|     1|  1|
|     2| 56|
|     3| 25|
|     4| 45|
|     5| 25|
|     6| 50|
|     7| 35|
|     8| 25|
|     9| 25|
|    10| 35|
|    11| 25|
|    12| 25|
|    13| 45|
|    14| 35|
|    15| 25|
|    16| 35|
|    17| 50|
|    18| 18|
|    19|  1|
|    20| 25|
+------+---+
only showing top 20 rows


scala> userDF.select("UserID","age").show(2)
+------+---+
|UserID|age|
+------+---+
|     1|  1|
|     2| 56|
+------+---+
only showing top 2 rows

scala> userDF.selectExpr("UserID","ceil(age/10) as newAge").show(2)
+------+------+
|UserID|newAge|
+------+------+
|     1|     1|
|     2|     6|
+------+------+
only showing top 2 rows

scala> userDF.select(max('age),min('age),avg('age)).show(2)
+--------+--------+------------------+
|max(age)|min(age)|          avg(age)|
+--------+--------+------------------+
|      56|       1|30.639238410596025|
+--------+--------+------------------+

**（2）filter**
scala> userDF.filter(userDF("age")>30).show(2)
+------+------+---+----------+-------+
|userID|gender|age|occupation|zipcode|
+------+------+---+----------+-------+
|     2|     M| 56|        16|  70072|
|     4|     M| 45|         7|  02460|
+------+------+---+----------+-------+
only showing top 2 rows


scala> userDF.filter("age>30 and occupation=10").show(2)
+------+------+---+----------+-------+
|userID|gender|age|occupation|zipcode|
+------+------+---+----------+-------+
|  4562|     M| 35|        10|  94133|
|  5223|     M| 56|        10|  11361|
+------+------+---+----------+-------+


scala>

（3）select和filter组合

scala> userDF.select("userID","age").filter("age>30").show(2)
+------+---+
|userID|age|
+------+---+
|     2| 56|
|     4| 45|
+------+---+
only showing top 2 rows


scala> userDF.filter("age>30").select("userID","age").show(2)
+------+---+
|userID|age|
+------+---+
|     2| 56|
|     4| 45|
+------+---+
only showing top 2 rows

14.7 groupBy

scala> userDF.groupBy("age").count.show
+---+-----+                                                                     
|age|count|
+---+-----+
|  1|  222|
| 35| 1193|
| 50|  496|
| 45|  550|
| 25| 2096|
| 56|  380|
| 18| 1103|
+---+-----+


scala> userDF.groupBy("age").agg(count('gender),countDistinct('occupation)).show
+---+-------------+--------------------------+                                  
|age|count(gender)|count(DISTINCT occupation)|
+---+-------------+--------------------------+
|  1|          222|                        13|
| 35|         1193|                        21|
| 50|          496|                        20|
| 45|          550|                        20|
| 25|         2096|                        20|
| 56|          380|                        20|
| 18|         1103|                        20|
+---+-------------+--------------------------+


scala> userDF.groupBy("age").agg("gender"->"count","occupation"->"count").show
+---+-------------+-----------------+
|age|count(gender)|count(occupation)|
+---+-------------+-----------------+
|  1|          222|              222|
| 35|         1193|             1193|
| 50|          496|              496|
| 45|          550|              550|
| 25|         2096|             2096|
| 56|          380|              380|
| 18|         1103|             1103|
+---+-------------+-----------------+


scala>

14.8 join

问题：求解看过movieID=2116电影的观众的性别与年龄的分布。
（1）Users DataFrame

scala> userDF.printSchema
root
 |-- userID: long (nullable = false)
 |-- gender: string (nullable = true)
 |-- age: integer (nullable = false)
 |-- occupation: string (nullable = true)
 |-- zipcode: string (nullable = true)


scala>

（2）Ratings DataFrame

scala> case class Rating(userID:Long,movieID:Long,Rating:Int,Timestamp:String)
defined class Rating

scala> val ratingsRDD=sc.textFile("file:///root/data/ml-1m/ratings.dat")
ratingsRDD: org.apache.spark.rdd.RDD[String] = file:///root/data/ml-1m/ratings.dat MapPartitionsRDD[65] at textFile at :25

scala> val ratingRDD =ratingsRDD.map(_.split("::")).map(p=>Rating(p(0).toLong,p(1).toLong,p(2).toInt,p(3)))
ratingRDD: org.apache.spark.rdd.RDD[Rating] = MapPartitionsRDD[67] at map at :29

scala> val ratingDF=ratingRDD.toDF
ratingDF: org.apache.spark.sql.DataFrame = [userID: bigint, movieID: bigint ... 2 more fields]

scala> scala> ratingDF.printSchema
root
 |-- userID: long (nullable = false)
 |-- movieID: long (nullable = false)
 |-- Rating: integer (nullable = false)
 |-- Timestamp: string (nullable = true)

scala>

（2）join

scala> val mergeredDF=ratingDF.filter("movieID=2116").join(userDF,"userID").select("gender","age").groupBy("gender","age").count
mergeredDF: org.apache.spark.sql.DataFrame = [gender: string, age: int ... 1 more field]

scala> mergeredDF.show
+------+---+-----+                                                              
|gender|age|count|
+------+---+-----+
|     M| 18|   72|
|     F| 18|    9|
|     M| 56|    8|
|     M| 45|   26|
|     F| 45|    3|
|     M| 25|  169|
|     F| 56|    2|
|     M|  1|   13|
|     F|  1|    4|
|     F| 50|    3|
|     M| 50|   22|
|     F| 25|   28|
|     F| 35|   13|
|     M| 35|   66|
+------+---+-----+


scala>

14.9 临时表

scala> userDF.createOrReplaceTempView("users")

scala> val groupedUsers=spark.sql("select gender,age,count(*) as num from users group by gender, age")
groupedUsers: org.apache.spark.sql.DataFrame = [gender: string, age: int ... 1 more field]

scala> groupedUsers.show
+------+---+----+                                                               
|gender|age| num|
+------+---+----+
|     M| 18| 805|
|     F| 18| 298|
|     M| 56| 278|
|     M| 45| 361|
|     F| 45| 189|
|     M| 25|1538|
|     F| 56| 102|
|     M|  1| 144|
|     F|  1|  78|
|     F| 50| 146|
|     M| 50| 350|
|     F| 25| 558|
|     F| 35| 338|
|     M| 35| 855|
+------+---+----+


scala>

注意：在Spark程序运行中，临时表才存在。当Spark程序运行结束，临时表也被销毁。

14.10 Spark SQL的表

（1）Session范围内的临时表

df.createOrReplaceTempView(“tableName”)
只在Session范围内有效，Session结束临时表自动销毁

（2）全局范围内的临时表

df.createGlobalTempView(“tableName”)
所有Session共享

scala> userDF.createGlobalTempView("users")

scala> spark.sql("select * from global_temp.users").show
+------+------+---+----------+-------+
|userID|gender|age|occupation|zipcode|
+------+------+---+----------+-------+
|     1|     F|  1|        10|  48067|
|     2|     M| 56|        16|  70072|
|     3|     M| 25|        15|  55117|
|     4|     M| 45|         7|  02460|
|     5|     M| 25|        20|  55455|
|     6|     F| 50|         9|  55117|
|     7|     M| 35|         1|  06810|
|     8|     M| 25|        12|  11413|
|     9|     M| 25|        17|  61614|
|    10|     F| 35|         1|  95370|
|    11|     F| 25|         1|  04093|
|    12|     M| 25|        12|  32793|
|    13|     M| 45|         1|  93304|
|    14|     M| 35|         0|  60126|
|    15|     M| 25|         7|  22903|
|    16|     F| 35|         0|  20670|
|    17|     M| 50|         1|  95350|
|    18|     F| 18|         3|  95825|
|    19|     M|  1|        10|  48073|
|    20|     M| 25|        14|  55113|
+------+------+---+----------+-------+
only showing top 20 rows


scala> spark.newSession().sql("select * from global_temp.users").show
+------+------+---+----------+-------+
|userID|gender|age|occupation|zipcode|
+------+------+---+----------+-------+
|     1|     F|  1|        10|  48067|
|     2|     M| 56|        16|  70072|
|     3|     M| 25|        15|  55117|
|     4|     M| 45|         7|  02460|
|     5|     M| 25|        20|  55455|
|     6|     F| 50|         9|  55117|
|     7|     M| 35|         1|  06810|
|     8|     M| 25|        12|  11413|
|     9|     M| 25|        17|  61614|
|    10|     F| 35|         1|  95370|
|    11|     F| 25|         1|  04093|
|    12|     M| 25|        12|  32793|
|    13|     M| 45|         1|  93304|
|    14|     M| 35|         0|  60126|
|    15|     M| 25|         7|  22903|
|    16|     F| 35|         0|  20670|
|    17|     M| 50|         1|  95350|
|    18|     F| 18|         3|  95825|
|    19|     M|  1|        10|  48073|
|    20|     M| 25|        14|  55113|
+------+------+---+----------+-------+
only showing top 20 rows


scala>

（3）将DataFrame或Dataset持久化到Hive中
df.write.mode(“overwrite”).saveAsTable(“database.tableName”)

Flow 数据流学习-冷流和热流 qq_39844788 学习
文章参考的Kotlin学习笔记（五）——Flow数据流学习实践指北（一）-掘金Kotlin系列之认识一下Flow-掘金冷流（ColdFlow）：在数据被使用方订阅后，即调用collect方法之后，提供方才开始执行发送数据流的代码，通常是调用emit方法。即不消费，不生产，多次消费才会多次生产。使用方和提供方是一对一的关系。热流（HotFlow）：无论有无使用方，提供方都可以执行发送数据流的操作，提
MapReduce学习笔记
1.MapReduce做什么Mapper负责“分”，即把复杂的任务分解为若干个“简单的任务”来处理。Reducer负责对map阶段的结果进行汇总。2.MapReduce工作机制实体一：客户端，用来提交MapReduce作业。实体二：JobTracker，用来协调作业的运行。实体三：TaskTracker，用来处理作业划分后的任务。实体四：HDFS，用来在其它实体间共享作业文件。3.编写MapRed
uni-app学习笔记二十一--pages.json中tabBar设置底部菜单项和图标 moxiaoran5753 uni-app 学习笔记
如果应用是一个多tab应用，可以通过tabBar配置项指定一级导航栏，以及tab切换时显示的对应页。在pages.json中提供tabBar配置，不仅仅是为了方便快速开发导航，更重要的是在App和小程序端提升性能。在这两个平台，底层原生引擎在启动时无需等待js引擎初始化，即可直接读取pages.json中配置的tabBar信息，渲染原生tab。Tips当设置position为top时，将不会显示i
C# 学习笔记-多线程操作、异常排除鱼听禅 C#c#多线程
多线程操作、异常排除1.异常解决1.1关于创建调用提示非单线程的问题2.关于无法捕获的异常2.1AccessViolationException异常1.异常解决1.1关于创建调用提示非单线程的问题调试过程中，创建多线程调用Excel时提示：在可以调用OLE之前，必须将当前线程设置为单线程单元(STA)模式。请确保您的Main函数带有STAThreadAttribute标记解决方法是，设置线程属性为
Flutter-完整开发实战详解(一、Dart-语言和-Flutter-基础) 2401_85122662 flutter
《Android学习笔记总结+最新移动架构视频+大厂安卓面试真题+项目实战源码讲义》完整开源地址：https://docs.qq.com/doc/DSkNLaERkbnFoS0ZF基本类型var可以定义变量，如vartag=“666”，这和JS、Kotlin等语言类似，同时Dart属于动态类型语言，支持闭包。Dart中number类型分为int和double，其中java中的long对应的也是Da
学习笔记：oracle online系列：oracle：Per-Process PGA memory limit 认真就输DBA Oracle 学习随笔学习笔记 oracle
我们的文章会在微信公众号IT民工的龙马人生和博客网站(www.htz.pw)同步更新，欢迎关注收藏，也欢迎大家转载，但是请在文章开始地方标注文章出处，谢谢！由于博客中有大量代码，通过页面浏览效果更佳。本文转自朋友的真实案例分享。oracleonline系列：oracle：Per-ProcessPGAmemorylimit前几日，东区某客户的19crac出现了ORA-04030，从报错的trace来
机器学习知识点复习上（保研、复试、面试）百面机器学习笔记
机器学习知识点复习上一、特征工程1.为什么需要对数值类型的特征做归一化？2.文本表示模型3.图像数据不足的处理方法二、模型评估1.常见的评估指标2.ROC曲线3.为什么在一些场景中要使用余弦相似度而不是欧氏距离？4.过拟合和欠拟合三、经典算法1.支持向量机SVM2.逻辑回归3.决策树四、降维1.主成分分析（PrinalComponentsAnalysis,PCA）降维中最经典的方法2.线性判别分析
DPDK探测设备并初始化分享放大价值 DPDK dpdk probe 设备初始化 mmap
本文整理下之前的学习笔记，基于DPDK17.11版本源码分析。主要看一下DPDK探测网卡设备，并进行初始化的流程，用到了类似kernel中的总线-设备-驱动模型。本文的重点之一是DPDK如何在用户态操作网卡寄存器，这里先给个答案:想要操作网卡寄存器，需要用到网卡的基地址BAR，intel网卡一般使用BAR0就行，通过mmap此文件/sys/bus/pci/devices/'pciaddress'/
动手学深度学习13.7. 单发多框检测（SSD）-笔记&练习（PyTorch） scdifsn 深度学习笔记 pytorch ssd 单发多框检测（SSD）目标检测 mAP评价
以下内容为结合李沐老师的课程和教材补充的学习笔记，以及对课后练习的一些思考，自留回顾，也供同学之人交流参考。本节课程地址：45SSD实现【动手学深度学习v2】_哔哩哔哩_bilibili本节教材地址：13.7.单发多框检测（SSD）—动手学深度学习2.0.0documentation本节开源代码：…>d2l-zh>pytorch>chapter_optimization>ssd.ipynb单发多框
动手学深度学习3.3线性回归的简洁实现-笔记&练习（PyTorch） scdifsn 深度学习线性回归笔记 pytorch
以下内容为结合李沐老师的课程和教材补充的学习笔记，以及对课后练习的一些思考，自留回顾，也供同学之人交流参考。本节课程地址：线性回归的简洁实现_哔哩哔哩_bilibili本节教材地址：3.3.线性回归的简洁实现—动手学深度学习2.0.0documentation(d2l.ai)本节开源代码：...>d2l-zh>pytorch>chapter_linear-networks>linear-regre
Python学习笔记2-垃圾回收机制 Carrie_Lei Python python 学习笔记
Python的垃圾回收机制是自动管理内存的系统，用于回收不再使用的内存，以避免内存泄漏和优化内存使用。Python使用引用计数（ReferenceCounting）和垃圾回收（GarbageCollection）两种方式来管理内存。1.引用计数(ReferenceCounting)引用计数是Python内存管理的基础机制。每个对象都维护一个引用计数器，记录有多少个引用指向该对象。当一个新的引用指向
Python数据分析学习笔记：字符串统计 NIKEeri python pandas 字符串匹配 python 数据分析学习
一、题目来源KagglePandas-Exercise:SummaryFunctionsandMaps章节二、题目要求描述一瓶葡萄酒时，可用的词汇有限。哪种词出现频率更高：“tropical”还是“fruity”？统计description列中这两个词的出现次数。忽略大小写。三、我的思路（使用str.contains统计总次数）tropical_count=reviews['description
【机器学习|学习笔记】随机森林（Random Forest, RF）详解，附代码。努力毕业的小土博^_^ 机器学习基础算法优质笔记1 机器学习学习笔记随机森林人工智能
【机器学习|学习笔记】随机森林（RandomForest,RF）详解，附代码。【机器学习|学习笔记】随机森林（RandomForest,RF）详解，附代码。文章目录【机器学习|学习笔记】随机森林（RandomForest,RF）详解，附代码。前言起源随机子空间法与Bagging的萌芽原理算法机制理论保障发展应用优缺点优点缺点Python实现示例（Scikit-learn）欢迎铁子们点赞、关注、收藏
PyTorch深度学习快速入门教程【小土堆】详细学习笔记（第1-11个视频笔记）胡说八道的Dr. Zhu 深度学习 pytorch 学习
本学习笔记源自于B站up主【我是土堆】的视频教程：PyTorch深度学习快速入门教程（绝对通俗易懂！）【小土堆】本博客是该视频教程中第1-11个视频的详细学习笔记，第12-22个视频、第23-33个视频的详细学习笔记链接如下：PyTorch深度学习快速入门教程【小土堆】详细学习笔记（第12-22个视频笔记）PyTorch深度学习快速入门教程【小土堆】详细学习笔记（第23-33个视频笔记）目录1、P
关于 Linux中系统调优的一些笔记山河已无恙 Linux笔记 Linux 性能调优 1024程序员节 linux 运维
写在前面推送的的邮件里看到有大佬讲的公共课，听了之后这里整理学习笔记。因为是公开课，所以讲的很浅，没接触过，这里做为了解，长长见识。博文内容包括系统调优原理概述如何检测系统的性能瓶颈如何进行内核参数调优如何限制服务的资源占用自定义tuned调优配置集我突然又明白，死亡是聪明的兄长，我们可以放心地把自己托付给他，他会知道在我们有所准备的适当时刻前来。我也突然懂得，原来痛苦、失望和悲愁不是为了惹恼我们
CSC研修计划的书写
博主最近在申请CSC，所以也会更新一下自己的学习笔记，有需要的可以关注我一下，同时有问题大家可以一起交流一下啊一要求（fromCSC官网）①拟留学专业(研究课题)在国内外研究情况及水平；②拟选择的留学国别、留学单位及选择原因(应简单评述对方国家及留学单位在申请人所从事学科、专业领域的水平、优势，申请人及所在单位与对方有无合作基础及业务联系);③达到本次出国学习预期目标的可行性,结合本人目前从事的工
【机器学习笔记 Ⅱ】9 模型评估巴伦是只猫机器学习机器学习笔记人工智能
评估机器学习模型是确保其在实际应用中有效性和可靠性的关键步骤。以下是系统化的评估方法，涵盖分类、回归、聚类等任务的评估指标和技术：一、分类模型评估1.基础指标2.高级指标ROC-AUC：通过绘制真正例率（TPR）vs假正例率（FPR）曲线下面积评估模型整体性能。AUC=1：完美分类；AUC=0.5：随机猜测。适用于二分类及多分类（OvR或OvO策略）。混淆矩阵：可视化模型在各类别上的具体错误（如将
【机器学习笔记 Ⅱ】7 多类分类巴伦是只猫机器学习机器学习笔记分类
1.多类分类（Multi-classClassification）定义多类分类是指目标变量（标签）有超过两个类别的分类任务。例如：手写数字识别：10个类别（0~9）。图像分类：区分猫、狗、鸟等。新闻主题分类：政治、经济、体育等。特点互斥性：每个样本仅属于一个类别（区别于多标签分类）。输出要求：模型需输出每个类别的概率分布，且概率之和为1。实现方式One-vs-Rest(OvR)：训练K个二分类器（
【DeepSeek开源周】Day 4：DualPipe & EPLB 学习笔记蓝海星梦 DeepSeek开源周探秘开源学习笔记人工智能云计算分布式
目录一、DualPipe&EPLB概述二、DualPipe详解1.流水线并行策略（1）F-then-B策略（2）1F1B策略2.朴素流水线并行3.GPipe微批次流水线并行4.PipeStream5.ZBPP6.DualPipe7.DualPipeV8.流水线并行方案对比三、EPLB详解1.专家并行（EP）2.EPLB冗余专家策略3.负载均衡策略（1）分层负载均衡（2）全局负载均衡（3）接口和示例
【机器学习笔记 Ⅱ】4 神经网络中的推理
推理（Inference）是神经网络在训练完成后利用学到的参数对新数据进行预测的过程。与训练阶段不同，推理阶段不计算梯度也不更新权重，仅执行前向传播。以下是其实现原理和代码示例的完整解析：1.推理的核心步骤加载训练好的模型参数（权重和偏置）。前向传播：输入数据逐层计算，得到输出。后处理：根据任务类型解析输出（如分类取概率最大值，回归直接输出）。2.代码实现（Python+NumPy）(1)定义模型
【机器学习笔记 Ⅲ】3 异常检测算法巴伦是只猫机器学习机器学习笔记算法
异常检测算法（AnomalyDetection）详解异常检测是识别数据中显著偏离正常模式的样本（离群点）的技术，广泛应用于欺诈检测、故障诊断、网络安全等领域。以下是系统化的解析：1.异常类型类型描述示例点异常单个样本明显异常信用卡交易中的天价消费上下文异常在特定上下文中异常（如时间序列）夏季气温突降至零下集体异常一组相关样本联合表现为异常网络流量中突然的DDOS攻击流量2.常用算法(1)基于统计的
【机器学习笔记 Ⅲ】4 特征选择巴伦是只猫机器学习机器学习笔记人工智能
特征选择（FeatureSelection）系统指南特征选择是机器学习中优化模型性能的关键步骤，通过筛选最相关、信息量最大的特征，提高模型精度、降低过拟合风险并加速训练。以下是完整的特征选择方法论：1.特征选择的核心目标提升模型性能：去除噪声和冗余特征，增强泛化能力。降低计算成本：减少训练和预测时间。增强可解释性：简化模型，便于业务理解。2.特征选择方法分类(1)过滤法（FilterMethods
机器学习笔记二-回归
回归是统计学和机器学习中的一种基本方法，用于建模变量之间的关系，特别是用一个或多个自变量（输入变量）来预测一个因变量（输出变量）的值。回归分析广泛应用于预测、趋势分析和关联研究中。根据目标和数据的性质，可以使用不同类型的回归方法。1.回归的基本概念：自变量（IndependentVariable）:也称为预测变量、解释变量，是模型中的输入变量，用于预测或解释因变量的变化。因变量（Dependent
OpenHarmony解读之设备认证：Pake协议详解与实战陈乔布斯鸿蒙开发 HarmonyOS OpenHarmony harmonyos 分布式鸿蒙开发软总线 openHarmony 嵌入式硬件
往期推文全新看点（文中附带最新·鸿蒙全栈学习笔记）①鸿蒙应用开发与鸿蒙系统开发哪个更有前景？②嵌入式开发适不适合做鸿蒙南向开发？看完这篇你就了解了~③对于大前端开发来说，转鸿蒙开发究竟是福还是祸？④鸿蒙岗位需求突增！移动端、PC端、IoT到底该怎么选？⑤记录一场鸿蒙开发岗位面试经历~⑥持续更新中……一、概述在设备认证过程中，pake协议用于认证会话密钥协商，基于该会话密钥，双方可以安全地交换各自的
【ESP32最全学习笔记（基础篇）——7.ESP32 ADC – 使用 Arduino IDE 读取模拟值】「已注销」 ESP32学习笔记学习 ESP32 单片机嵌入式硬件 Arduino
关于本教程：ESP32基础篇1.ESP32简介2.ESP32Arduino集成开发环境3.VS代码和PlatformIO4.ESP32引脚5.ESP32输入输出6.ESP32脉宽调制7.ESP32模拟输入☑8.ESP32中断定时器9.ESP32深度睡眠
计算机网络（网页显示过程，TCP三次握手，HTTP1.0，1.1，2.0，3.0，JWT cookie）老虎0627 计算机网络计算机网络 tcp/ip 网络协议
前言最近一直在看后端开发的面经，里面涉及到了好多计算机网络的知识，在这里以问题的形式写一个学习笔记（其中参考了:JavaGuide和小林coding这两个很好的学习网站）1.当键入网址后，到网页显示，其间发生了什么？（1）首先浏览器会解析URL。（如确定协议像Http或Https）（2）然后通过DNS服务器把域名解析为IP地址。（找到服务器啦）（3）接着TCP协议三次握手和服务器建立连接。（客户端
PyQt5—QTextEdit 学习笔记寄思～ Python——PyQt5笔记 qt 学习笔记 python
第二章控件学习一、QTextEdit基础认知QTextEdit是PyQt/PySide框架中用于处理富文本内容的强大控件，它不仅支持纯文本编辑，还能处理HTML、图片等复杂内容，是开发文本编辑器、日志查看器等应用的核心组件。二、最简单的QTextEdit实现下面是一个创建QTextEdit并显示的基础案例，适合零基础入门：importsysfromPyQt5.QtWidgetsimportQApp
陈强《计量经济学及Stata应用》学习笔记——持续更新 WangSoooCute 学习笔记
1导论1.1什么是计量经济学econometrics几种关系：相关关系、因果关系、逆向因果关系reversecausality、双向因果关系被解释变量dependentvariable解释变量explanatoryvariable=regressor=自变量independentvariable=协变量covariateunobservable的误差项errorterm=随机扰动项stochast
医咖会免费STATA教程学习笔记——单因素方差分析 Unacandoit stata 单因素方差分析
单因素方差分析和单因素回归分析相同1.单因素方差分析需要满足的假设：（1）因变量为连续变量（2）至少有一个分类变量（大于等于2类）（3）观测值相互独立（4）没有异常值（5）服从正态分布（6）方差齐性2.准备工作（1）导入数据集：webusesystolic,clear（2）检验是否存在异常值：方法一：图形——箱线图——在变量中选择systolic——确定方法二：grahboxsystolic,ov
【机器学习笔记 Ⅱ】11 决策树模型巴伦是只猫机器学习机器学习笔记决策树
决策树模型（DecisionTree）详解决策树是一种树形结构的监督学习模型，通过一系列规则对数据进行分类或回归。其核心思想是模仿人类决策过程，通过不断提问（基于特征划分）逐步逼近答案。1.核心概念节点类型：根节点：起始问题（最佳特征划分点）。内部节点：中间决策步骤（特征判断）。叶节点：最终预测结果（类别或数值）。分支：对应特征的取值或条件判断（如“年龄≥30？”）。2.构建决策树的关键步骤(1)
knob UI插件使用换个号韩国红果果 JavaScript jsonp knob
图形是用canvas绘制的 js代码 var paras = { max:800, min:100, skin:'tron',//button type thickness:.3,//button width width:'200',//define canvas width.,canvas height displayInput:'tr
Android+Jquery Mobile学习系列(5)-SQLite数据库白糖_ JQuery Mobile
目录导航 SQLite是轻量级的、嵌入式的、关系型数据库，目前已经在iPhone、Android等手机系统中使用,SQLite可移植性好，很容易使用，很小，高效而且可靠。因为Android已经集成了SQLite，所以开发人员无需引入任何JAR包，而且Android也针对SQLite封装了专属的API，调用起来非常快捷方便。我也是第一次接触S
impala-2.1.2-CDH5.3.2 dayutianfei impala
最近在整理impala编译的东西，简单记录几个要点：根据官网的信息（https://github.com/cloudera/Impala/wiki/How-to-build-Impala）： 1. 首次编译impala，推荐使用命令： ${IMPALA_HOME}/buildall.sh -skiptests -build_shared_libs -format 2.仅编译BE ${I
求二进制数中1的个数周凡杨 java 算法二进制
解法一：对于一个正整数如果是偶数，该数的二进制数的最后一位是 0 ，反之若是奇数，则该数的二进制数的最后一位是 1 。因此，可以考虑利用位移、判断奇偶来实现。 public int bitCount(int x){ int count = 0; while(x!=0){ if(x%2!=0){ /
spring中hibernate及事务配置 g21121 Hibernate
hibernate的sessionFactory配置：  <bean id="sessionFactory" class="org.springframework.orm.hibernate3.LocalSessionFactoryBean"> <
log4j.properties 使用 510888780 log4j
log4j.properties 使用一.参数意义说明输出级别的种类 ERROR、WARN、INFO、DEBUG ERROR 为严重错误主要是程序的错误 WARN 为一般警告，比如session丢失 INFO 为一般要显示的信息，比如登录登出 DEBUG 为程序的调试信息配置日志信息输出目的地 log4j.appender.appenderName = fully.qua
Spring mvc-jfreeChart柱图（2）布衣凌宇 jfreechart
上一篇中生成的图是静态的，这篇将按条件进行搜索，并统计成图表，左面为统计图，右面显示搜索出的结果。第一步：导包第二步；配置web.xml(上一篇有代码) 建BarRenderer类用于柱子颜色 import java.awt.Color; import java.awt.Paint; import org.jfree.chart.renderer.category.BarR
我的spring学习笔记14-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。 PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java
maven 之 cobertura 简单使用 antlove maven test unit cobertura report
1. 创建一个maven项目 2. 创建com.CoberturaStart.java package com; public class CoberturaStart { public void helloEveryone(){ System.out.println("=================================================
程序的执行顺序百合不是茶 JAVA执行顺序
刚在看java核心技术时发现对java的执行顺序不是很明白了,百度一下也没有找到适合自己的资料,所以就简单的回顾一下吧代码如下; 经典的程序执行面试题 //关于程序执行的顺序 //例如： //定义一个基类 public class A(){ public A(
设置session失效的几种方法 bijian1013 web.xml session失效监听器
在系统登录后，都会设置一个当前session失效的时间，以确保在用户长时间不与服务器交互，自动退出登录，销毁session。具体设置很简单，方法有三种：（1）在主页面或者公共页面中加入：session.setMaxInactiveInterval(900);参数900单位是秒，即在没有活动15分钟后，session将失效。这里要注意这个session设置的时间是根据服务器来计算的，而不是客户端。所
java jvm常用命令工具 bijian1013 java jvm
一.概述程序运行中经常会遇到各种问题，定位问题时通常需要综合各种信息，如系统日志、堆dump文件、线程dump文件、GC日志等。通过虚拟机监控和诊断工具可以帮忙我们快速获取、分析需要的数据，进而提高问题解决速度。本文将介绍虚拟机常用监控和问题诊断命令工具的使用方法，主要包含以下工具: &nbs
【Spring框架一】Spring常用注解之Autowired和Resource注解 bit1129 Spring常用注解
Spring自从2.0引入注解的方式取代XML配置的方式来做IOC之后，对Spring一些常用注解的含义行为一直处于比较模糊的状态，写几篇总结下Spring常用的注解。本篇包含的注解有如下几个： Autowired Resource Component Service Controller Transactional 根据它们的功能、目的，可以分为三组，Autow
mysql 操作遇到safe update mode问题 bitray update
我并不知道出现这个问题的实际原理,只是通过其他朋友的博客,文章得知的一个解决方案,目前先记录一个解决方法,未来要是真了解以后,还会继续补全. 在mysql5中有一个safe update mode,这个模式让sql操作更加安全,据说要求有where条件,防止全表更新操作.如果必须要进行全表操作,我们可以执行 SET
nginx_perl试用 ronin47 nginx_perl试用
因为空闲时间比较多，所以在CPAN上乱翻，看到了nginx_perl这个项目(原名Nginx::Engine)，现在托管在github.com上。地址见：https://github.com/zzzcpan/nginx-perl 这个模块的目的，是在nginx内置官方perl模块的基础上，实现一系列异步非阻塞的api。用connector/writer/reader完成类似proxy的功能（这里
java-63-在字符串中删除特定的字符 bylijinnan java
public class DeleteSpecificChars { /** * Q 63 在字符串中删除特定的字符 * 输入两个字符串，从第一字符串中删除第二个字符串中所有的字符。 * 例如，输入”They are students.”和”aeiou”，则删除之后的第一个字符串变成”Thy r stdnts.” */ public static voi
EffectiveJava--创建和销毁对象 ccii 创建和销毁对象
本章内容： 1. 考虑用静态工厂方法代替构造器 2. 遇到多个构造器参数时要考虑用构建器（Builder模式） 3. 用私有构造器或者枚举类型强化Singleton属性 4. 通过私有构造器强化不可实例化的能力 5. 避免创建不必要的对象 6. 消除过期的对象引用 7. 避免使用终结方法 1. 考虑用静态工厂方法代替构造器类可以通过
[宇宙时代]四边形理论与光速飞行 comsci
从四边形理论来推论为什么光子飞船必须获得星光信号才能够进行光速飞行？一组星体组成星座向空间辐射一组由复杂星光信号组成的辐射频带，按照四边形-频率假说一组频率就代表一个时空的入口那么这种由星光信号组成的辐射频带就代表由这些星体所控制的时空通道，该时空通道在三维空间的投影是一
ubuntu server下python脚本迁移数据 cywhoyi python Kettle pymysql cx_Oracle ubuntu server
因为是在Ubuntu下，所以安装python、pip、pymysql等都极其方便，sudo apt-get install pymysql，但是在安装cx_Oracle（连接oracle的模块）出现许多问题，查阅相关资料，发现这边文章能够帮我解决，希望大家少走点弯路。http://www.tbdazhe.com/archives/602 1.安装python 2.安装pip、pymysql
Ajax正确但是请求不到值解决方案 dashuaifu Ajax async
Ajax正确但是请求不到值解决方案解决方案：1 . async: false , 2. 设置延时执行js里的ajax或者延时后台java方法！！！！！！！例如： $.ajax({ &
windows安装配置php+memcached dcj3sjt126com PHP Install memcache
Windows下Memcached的安装配置方法 1、将第一个包解压放某个盘下面，比如在c:\memcached。 2、在终端（也即cmd命令界面）下输入 'c:\memcached\memcached.exe -d install' 安装。 3、再输入： 'c:\memcached\memcached.exe -d start' 启动。（需要注意的: 以后memcached将作为windo
iOS开发学习路径的一些建议 dcj3sjt126com ios
iOS论坛里有朋友要求回答帖子，帖子的标题是：想学IOS开发高阶一点的东西，从何开始，然后我吧啦吧啦回答写了很多。既然敲了那么多字，我就把我写的回复也贴到博客里来分享，希望能对大家有帮助。欢迎大家也到帖子里讨论和分享，地址：http://bbs.csdn.net/topics/390920759 下面是我回复的内容：结合自己情况聊下iOS学习建议，
Javascript闭包概念 fanfanlovey JavaScript 闭包
1.参考资料 http://www.jb51.net/article/24101.htm http://blog.csdn.net/yn49782026/article/details/8549462 2.内容概述要理解闭包，首先需要理解变量作用域问题内部函数可以饮用外面全局变量 var n=999; 　　functio
yum安装mysql5.6 haisheng mysql
1、安装http://dev.mysql.com/get/mysql-community-release-el7-5.noarch.rpm 2、yum install mysql 3、yum install mysql-server 4、vi /etc/my.cnf 添加character_set_server=utf8
po/bo/vo/dao/pojo的详介 IT_zhlp80 java BO VO DAO POJO po
JAVA几种对象的解释 PO:persistant object持久对象,可以看成是与数据库中的表相映射的java对象。最简单的PO就是对应数据库中某个表中的一条记录，多个记录可以用PO的集合。PO中应该不包含任何对数据库的操作. VO:value object值对象。通常用于业务层之间的数据传递，和PO一样也是仅仅包含数据而已。但应是抽象出的业务对象,可
java设计模式 kerryg java 设计模式
设计模式的分类：一、设计模式总体分为三大类： 1、创建型模式（5种）：工厂方法模式，抽象工厂模式，单例模式，建造者模式，原型模式。 2、结构型模式（7种）：适配器模式，装饰器模式，代理模式，外观模式，桥接模式，组合模式，享元模式。 3、行为型模式（11种）：策略模式，模版方法模式，观察者模式，迭代子模式，责任链模式，命令模式，备忘录模式，状态模式，访问者
[1]CXF3.1整合Spring开发webservice——helloworld篇木头.java spring webservice CXF
Spring 版本3.2.10 CXF 版本3.1.1 项目采用MAVEN组织依赖jar 我这里是有parent的pom，为了简洁明了，我直接把所有的依赖都列一起了，所以都没version，反正上面已经写了版本 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="ht
Google 工程师亲授：菜鸟开发者一定要投资的十大目标 qindongliang1922 工作感悟人生
身为软件开发者，有什么是一定得投资的？ Google 软件工程师 Emanuel Saringan 整理了十项他认为必要的投资，第一项就是身体健康，英文与数学也都是必备能力吗？来看看他怎么说。（以下文字以作者第一人称撰写））你的健康无疑地，软件开发者是世界上最久坐不动的职业之一。每天连坐八到十六小时，休息时间只有一点点，绝对会让你的鲔鱼肚肆无忌惮的生长。肥胖容易扩大罹患其他疾病的风险，
linux打开最大文件数量1,048,576 tianzhihehe c linux
File descriptors are represented by the C int type. Not using a special type is often considered odd, but is, historically, the Unix way. Each Linux process has a maximum number of files th
java语言中PO、VO、DAO、BO、POJO几种对象的解释衞酆夼 java VO BO POJO po
PO:persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。可以看成是与数据库中的表相映射的java对象。最简单的PO就是对应数据库中某个表中的一条记录，多个记录可以用PO的集合。PO中应该不包含任何对数据库的操作。 BO:business object业务对象封装业务逻辑的java对象

Spark2.x学习笔记：14、Spark SQL程序设计