R语言中文社区

用R语言实现密度聚类dbscan

作者：张丹，R语言中文社区专栏特邀作者，《R的极客理想》系列图书作者，民生银行大数据中心数据分析师，前况客创始人兼CTO。
个人博客 http://fens.me， Alexa全球排名70k。

前言

聚类是一种将数据点按一定规则分群的机器学习技术，k-Means聚类是被用的最广泛的也最容易理解的一种。除了K-Means的方法，其实还有很多种不同的聚类方法，本文将给大家介绍基于密度的聚类，我们可以通过使用dbscan包来实现。

一、DBSCAN基于密度的聚类

二、dbscan包介绍

三、kNN()函数使用

四、dbscan()函数使用

五、hdbscan()函数使用

一、DBSCAN基于密度的聚类

DBSCAN（Density-Based Spatial Clustering of Applications with Noise）聚类算法，它是一种基于高密度连通区域的基于密度的聚类算法，能够将具有足够高密度的区域划分为簇，并在具有噪声的数据中发现任意形状的簇。

DBSCAN需要两个重要参数：epsilon(eps)和最小点(minPts)。参数eps定义了点x附近的邻域半径ε，它被称为x的最邻居。参数minPts是eps半径内的最小邻居数。

上图中(a)，数据集中的任何点x邻居(6=minPts)都被标记为核心点，ε是半径。上图中(b)，x为核心点，y的邻居小于(4

dbscan算法将数据点分为三类：

核心点：在半径eps内含有超过minPts数目的点。
边界点：在半径eps内点的数量小于使用DBSCAN进行聚类的时候，不需要预先指定簇的个数，最终的簇的个数不确定。minPts,但是落在核心点的邻域内的点。
噪音点：既不是核心点也不是边界点的点

DBSCAN算法的执行过程

1、DBSCAN算法随机从一个未被访问的数据点x开始，以eps为半径搜索范围内的所有邻域点。

2、如果x点在该邻域内有足够数量的点，数量大于等于minPts，则聚类过程开始，并且当前数据点成为新簇中的第一个核心点。否则，该点将被标记为噪声。该点都会被标记为“已访问”。

3、新簇中的每个核心点x，它的eps距离邻域内的点会归为同簇。eps邻域内的所有点都属于同一个簇，然后对才添加到簇中的所有新点重复上述过程。

4、重复步骤2和3两个过程，直到确定了簇中的所有点才停止，即访问和标记了聚类的eps邻域内的所有点。

5、当完成了这个簇的划分，就开始处理新的未访问的点，发现新的簇或者是噪声。重复上述过程，直到所有点被标记为已访问才停止。这样就完成了，对所有点的聚类过程。

优点和缺点

DBSCAN具有很多优点，提前不需要确定簇的数量。不同于Mean-shift算法，当数据点非常不同时，会将它们单纯地引入簇中，DBSCAN能将异常值识别为噪声。另外，它能够很好地找到任意大小和任意形状的簇。

DBSCAN算法的主要缺点是，当数据簇密度不均匀时，它的效果不如其他算法好。这是因为当密度变化时，用于识别邻近点的距离阈值ε和minPoints的设置将随着簇而变化。在处理高维数据时也会出现这种缺点，因为难以估计距离阈值eps。

二、dbscan包介绍

dbscan包，提供了基于密度的有噪声聚类算法的快速实现，包括 DBSCAN（基于密度的具有噪声的应用的空间聚类），OPTICS（用于识别聚类结构的排序点），HDBSCAN（分层DBSCAN）和LOF（局部异常因子）算法，dbscan底层使用C++编程，并建立kd树的数据结构进行更快的K最近邻搜索，从而实现加速。

本文的系统环境为：

Win10 64bit
R 3.4.2 x86_64

dbscan包的安装非常简单，只需要一条命令就能完成。

1~ R
2> install.packages("dbscan")
3> library(dbscan)

函数列表：

dbscan(), 实现DBSCAN算法
optics(), 实现OPTICS算法
hdbscan(), 实现带层次DBSCAN算法
sNNclust(), 实现共享聚类算法
jpclust(), Jarvis-Patrick聚类算法
lof(), 局部异常因子得分算法
extractFOSC(),集群优选框架，可以通过参数化来执行聚类。
frNN(), 找到固定半径最近的邻居
kNN(), 最近邻算法，找到最近的k个邻居
sNN(), 找到最近的共享邻居数量
pointdensity(), 计算每个数据点的局部密度
kNNdist()，计算最近的k个邻居的距离
kNNdistplot()，画图，最近距离
hullplot(), 画图，集群的凸壳

dbscan包，提供了多个好用的函数，我们接下来先介绍3个函数，分别是kNN()，dbscan(), hdbscan()，其他的函数等以后有时间，再单独进行使用介绍。

三、kNN()函数使用

kNN()函数，使用kd-tree数据结构，用来快速查找数据集中的所有k个最近邻居。

函数定义：

1kNN(x, k, sort = TRUE, search = "kdtree", bucketSize = 10, splitRule = "suggest", approx = 0)

参数列表

x，数据矩阵，dist对象或kNN对象。
k，要查找的邻居数量。
sort，按距离对邻居进行排序。
search，最近邻搜索策略，使用kdtree，linear或dist三选一，默认为kdtree。
bucketSize，kd-tree叶子节点的最大值。
splitRule，kd-tree的拆分规则，默认用SUGGEST。
approx，使用近似方法，加速计算。

函数使用：以iris鸢尾花的数据集，做为样本。聚类是不需要有事前有定义的，所以我们把iris的种属列去掉。

 1# 去掉种属列
 2> iris2 <- iris[, -5]
 3> head(iris2)
 4  Sepal.Length Sepal.Width Petal.Length Petal.Width
 51          5.1         3.5          1.4         0.2
 62          4.9         3.0          1.4         0.2
 73          4.7         3.2          1.3         0.2
 84          4.6         3.1          1.5         0.2
 95          5.0         3.6          1.4         0.2
106          5.4         3.9          1.7         0.4

使用kNN()函数，来计算iris2数据集中，每个值最近的5个点。

 1# 查询最近邻的5个点
 2> nn <- kNN(iris2, k=5)
 3
 4# 打印nn对象
 5> nn
 6k-nearest neighbors for 150 objects (k=5).
 7Available fields: dist, id, k, sort
 8
 9# 查询nn的属性列表
10> attributes(nn)
11$names
12[1] "dist" "id"   "k"    "sort"
13
14$class
15[1] "kNN" "NN"

打印出，每个点最近邻的5个点。行，为每个点索引值，列，为最近邻的5个点，输出的矩阵为索引值。

1> head(nn$id)
2      1  2  3  4  5
3[1,] 18  5 40 28 29
4[2,] 35 46 13 10 26
5[3,] 48  4  7 13 46
6[4,] 48 30 31  3 46
7[5,] 38  1 18 41  8
8[6,] 19 11 49 45 20

打印出，每个点与最近的5个点的距离值。行，为每个点的索引，列，为最近邻的5个点，输出的矩阵为距离值。

1> head(nn$dist)
2             1         2         3         4         5
3[1,] 0.1000000 0.1414214 0.1414214 0.1414214 0.1414214
4[2,] 0.1414214 0.1414214 0.1414214 0.1732051 0.2236068
5[3,] 0.1414214 0.2449490 0.2645751 0.2645751 0.2645751
6[4,] 0.1414214 0.1732051 0.2236068 0.2449490 0.2645751
7[5,] 0.1414214 0.1414214 0.1732051 0.1732051 0.2236068
8[6,] 0.3316625 0.3464102 0.3605551 0.3741657 0.3872983

如果我们要查看索引为33的点，与哪5个点最紧邻，可以用下面的方法。

 1# 设置索引
 2> idx<-33
 3
 4# 打印与33，最近邻的5个点的索引
 5> nn$id[idx,]
 6 1  2  3  4  5 
 734 47 20 49 11 
 8
 9# 画图
10> cols = ifelse(1:nrow(iris2) %in% nn$id[idx,],"red", "black")
11> cols[idx]<-'blue'
12> plot(iris2,pch = 19, col = cols)

我们的数据集是多列的，把每2列组合形成的二维平面，都进行输出。蓝色表示索引为33的点，红色表示最紧邻的5个点，黑色表示其他的点。

从图中，可以很直观的看到，这几点确实是密集的在一起，也就是找到了最近邻。

接下来，我们画出连线图，选取第一列(Sepal.Length)和第二列(Sepal.Width)，按取画出最紧邻前5连接路径。

1> plot(nn, iris2)

通过连接路径，我们就能很清晰的看到，最紧邻算法的分组过程，连接在一起的就够成了一个分组，没有连接在一起的就是另外的分组，上图中可以看出来分成了2个组。

再对nn进行二次最近邻计算，画出前2的连接路径。

1> plot(kNN(nn, k = 2), iris2)

四、dbscan()函数使用

dbscan是一种基于密度的聚类算法，这类密度聚类算法一般假定类别可以通过样本分布的紧密程度决定。同一类别的样本，他们之间的紧密相连的，也就是说，在该类别任意样本周围不远处一定有同类别的样本存在。

函数定义：

1dbscan(x, eps, minPts = 5, weights = NULL, borderPoints = TRUE, ...)

参数解释：

x，矩阵或者距离对象，frNN对象。
eps，半径的大小。
minPts，半径区域中的最小点数量，默认为5
weights，数据点的权重，仅用于加权聚类
borderPoints，边界点是否为噪声，默认为TRUE；为FALSE时，边界点为噪声。
…，将附加参数传递给固定半径最近邻搜索算法，调用frNN。

函数使用：以iris鸢尾花的数据集，做为样本。聚类是不需要有事前有定义的，所以我们把iris的种属列去掉。

 1# 去掉种属列
 2> iris2 <- iris[, -5]
 3> head(iris2)
 4  Sepal.Length Sepal.Width Petal.Length Petal.Width
 51          5.1         3.5          1.4         0.2
 62          4.9         3.0          1.4         0.2
 73          4.7         3.2          1.3         0.2
 84          4.6         3.1          1.5         0.2
 95          5.0         3.6          1.4         0.2
106          5.4         3.9          1.7         0.4

在使用dbscan函数时，我们要输出2个参数，eps和minPts。

eps，值可以使用绘制k-距离曲线(k-distance graph)方法得到，在k-距离曲线图明显拐点位置为较好的参数。若参数设置过小，大部分数据不能聚类；若参数设置过大，多个簇和大部分对象会归并到同一个簇中。
minPts，通常让minPts≥dim+1，其中dim表示数据集聚类数据的维度。若该值选取过小，则稀疏簇中结果由于密度小于minPts，从而被认为是边界点儿不被用于在类的进一步扩展；若该值过大，则密度较大的两个邻近簇可能被合并为同一簇。

下面我们通过绘制k-距离曲线，寻找knee，即明显拐点位置为对应较好的参数，找到适合的eps值。使用kNNdistplot()函数，让参数k=dim + 1，dim为数据集列的个数，iris2是4列，那么设置k=5。

1# 画出最近距离图
2> kNNdistplot(iris2, k = 5)
3> abline(h=0.5, col = "red", lty=2)

kNNdistplot()会计算点矩阵中的k=5的最近邻的距离，然后按距离从小到大排序后，以图形进行展示。x轴为距离的序号，y轴为距离的值。图中黑色的线，从左到右y值越来越大。

通过人眼识别，k-距离曲线上有明显拐点，我们以y=0.5平行于x轴画一条红色线，突出标识。所以，最后确认的eps为0.5。

调用dbscan()函数，进行对iris2数据集进行聚类，eps=0.5，minPts=5。

 1> res <- dbscan(iris2, eps = 0.5, minPts = 5)
 2> res
 3DBSCAN clustering for 150 objects.
 4Parameters: eps = 0.5, minPts = 5
 5The clustering contains 2 cluster(s) and 17 noise points.
 6
 7 0  1  2 
 817 49 84 
 9
10Available fields: cluster, eps, minPts

聚类后，一共分成了2组，第1组49个值，第2组84个值，另外，第0组17个值为噪声点。把聚类的结果画图展示。

1> pairs(iris, col = res$cluster + 1L)

数据集是多列的，把每2列组合形成的二维平面，都进行输出。红色点表示第1组，绿色点表示为第2组，黑色点表示噪声点。这样就完成了有噪声的基于密度的dbscan聚类。

五、hdbscan()函数使用

hdbscan()，快速实现了分层DBSCAN算法，与stats包中的hclust()方法形成的传统分层聚类方法类似。

函数定义：

1hdbscan(x, minPts, xdist = NULL,gen_hdbscan_tree = FALSE, gen_simplified_tree = FALSE)

参数解释：

x，矩阵或者距离对象
minPts，区域中的最小点数量
xdist，dist对象，可以提前算出来，当参数传入
gen_hdbscan_tree，生成一个hdbscan树
gen_simplified_tree，生成一个简化的树结构

3.1 iris鸢尾花的数据集
以iris鸢尾花的数据集，做为样本，去掉种属列。设置minPts =5让当前群集中最小的数量为5，开始聚类。

1> hcl<-hdbscan(iris2, minPts = 5);hcl
2HDBSCAN clustering for 150 objects.
3Parameters: minPts = 5
4The clustering contains 2 cluster(s) and 0 noise points.
5
6  1   2 
7100  50 
8
9Available fields: cluster, minPts, cluster_scores, membership_prob, outlier_scores, hc

聚类后，一共分成了2组，第1组100个值，第2组50个值，没有噪声点。生成的hcl对象包括6个属性。
属性解释

cluster，表明属性哪个群集，零表示噪声点。
minPts，群集中最小的数量
cluster_scores，每个突出（“平坦”）群集的稳定性分数之和。
membership_prob，群集内某点的“概率”或个体稳定性
outlier_scores，每个点的异常值
hc，层次结构对象

把聚类的结果画图展示。

1> plot(iris2, col=hcl$cluster+1, pch=20)

数据集是多列的，把每2列组合形成的二维平面，都进行输出。红色点表示第1组，绿色点表示为第2组，这样就完成了hdbscan聚类。

打印hcl对象层次结构，包括150个数据，聚法方法是健壮单一的，距离是相互可达。

1> hcl$hc
2
3Call:
4hdbscan(x = iris2, minPts = 5)
5
6Cluster method   : robust single 
7Distance         : mutual reachability 
8Number of objects: 150

画出层次的合并过程图

1> plot(hcl$hc, main="HDBSCAN* Hierarchy")

从图可以清楚的看出，主要的2类的分支，区分度比较高。

3.2 moons数据集
由于iris数据集用hdbscan聚类获得的结果，与真实的数据分类结果不一致。我们再用dbscan包自带的数据集moons做一下测试。

先准备数据，加载moons数据集，了解数据基本情况，画出散点图。

 1# 加载dbscan自带数据集
 2> data("moons")
 3> head(moons)
 4            X          Y
 51 -0.41520756  1.0357347
 62  0.05878098  0.3043343
 73  1.10937860 -0.5097378
 84  1.54094828 -0.4275496
 95  0.92909498 -0.5323878
106 -0.86932470  0.5471548
11
12# 画出散点图
13> plot(moons, pch=20)

用hdbscan()函数，实现层次dbscan算法。

 1> cl <- hdbscan(moons, minPts = 5)
 2> cl
 3HDBSCAN clustering for 100 objects.
 4Parameters: minPts = 5
 5The clustering contains 3 cluster(s) and 0 noise points.
 6
 7 1  2  3 
 825 25 50 
 9
10Available fields: cluster, minPts, cluster_scores, membership_prob, outlier_scores, hc

一共100条数据，被分成了3类，没有噪声。把聚类的结果画图展示。

1# 画图
2> plot(moons, col=cl$cluster+1, pch=20)

打印层次结构

1> cl$hc
2Call:
3hdbscan(x = moons, minPts = 5)
4
5Cluster method   : robust single 
6Distance         : mutual reachability 
7Number of objects: 100

画出层次的合并过程图

1> plot(cl$hc, main="HDBSCAN* Hierarchy")

从图可以清楚的看出，主要的3类的分支，区分度比较高。

如果我们想省略分层的细节，我们可以只画出主要分支，并标识类别。

1plot(cl, gradient = c("purple", "blue", "green", "yellow"), show_flat = T)

接下来，我们要对群集的稳定性做一些优化，cluster_scores属性可以查看集群的得分。

1> cl$cluster_scores
2        1         2         3 
3110.70613  90.86559  45.62762

通过membership_prob属性，画图表示个体的稳定性。

 1# 打印membership_prob
 2> head(cl$membership_prob)
 3[1] 0.4354753 0.2893287 0.4778663 0.4035933 0.4574012 0.4904582
 4
 5# 计算群集的数量
 6> num<-length(cl$cluster_scores)
 7
 8# 从彩虹色中取得对应数量的颜色
 9> rains<-rainbow(num)
10> cols<-cl$cluster
11> cols[which(cols==1)]<-rains[1]
12> cols[which(cols==2)]<-rains[2]
13> cols[which(cols==3)]<-rains[3]
14
15# 设置透明度，表示个体的稳定性
16> plot(moons, col=alpha(cols,cl$membership_prob), pch=19)

最后，我们可以在图中，在标记出异常值得分最高的前6个点。

1# 对异常值进行排序，取得分最高的
2> top_outliers <- order(cl$outlier_scores, decreasing = TRUE) %>% head
3> plot(moons, col=alpha(cols,cl$outlier_scores), pch=19)
4> text(moons[top_outliers, ], labels = top_outliers, pos=3)

从图中看到，异常得分高的点(outlier_scores)与个体的稳定性(membership_prob)，并不是同一类点。异常值通常被认为是，偏离其假定的基础分布的离群点。

写

在最后

通过上面3个函数的使用案例，我们了解了如何用dbscan包实现基于密度的聚类方法。真实世界的数据是复杂的，我们用来分析数据的工具也是多样的，多掌握一种工具、多一些知识积累，让我们迎接真实世界数据的挑战吧。

往期精彩：

R语言实现46种距离算法
R语言中文社区2018年终文章整理（作者篇）
R语言中文社区2018年终文章整理（类型篇）

公众号后台回复关键字即可学习

回复爬虫            爬虫三大案例实战
回复 Python       1小时破冰入门
回复数据挖掘     R语言入门及数据挖掘
回复人工智能     三个月入门人工智能
回复数据分析师  数据分析师成长之路
回复机器学习     机器学习的商业应用
回复数据科学     数据科学实战
回复常用算法常用数据挖掘算法

给我【好看】

你也越好看！

你可能感兴趣的:(用R语言实现密度聚类dbscan)

OC语言多界面传值五大方式 Magnetic_h ios ui 学习 objective-c 开发语言
前言在完成暑假仿写项目时，遇到了许多需要用到多界面传值的地方，这篇博客来总结一下比较常用的五种多界面传值的方式。属性传值属性传值一般用前一个界面向后一个界面传值，简单地说就是通过访问后一个视图控制器的属性来为它赋值，通过这个属性来做到从前一个界面向后一个界面传值。首先在后一个界面中定义属性@interfaceBViewController:UIViewController@propertyNSSt
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
30天风格练习-DAY2 黄希夷
Day2（重义）在一个周日/一周的最后一天，我来到位于市中心/市区繁华地带的一家购物中心/商场，中心内人很多/熙熙攘攘。我注意到/看见一个独行/孤身一人的年轻女孩/，留着一头引人注目/长过腰际的头发，上身穿一件暗红色/比正红色更深的衣服/穿在身体上的东西。走下扶梯的时候，她摔倒了/跌向地面，在她正要站起来/让身体离开地面的时候，过长/超过一般人长度的头发被支撑身体/躯干的手掌压/按在下面，她赶紧用
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
每日一题——第八十四题互联网打工人no1 C语言程序设计每日一练 c语言
题目：编写函数1、输入10个职工的姓名和职工号2、按照职工由大到小顺序排列，姓名顺序也随之调整3、要求输入一个职工号，用折半查找法找出该职工的姓名#define_CRT_SECURE_NO_WARNINGS#include#include#defineMAX_EMPLOYEES10typedefstruct{intid;charname[50];}Empolyee;voidinputEmploye
WPF中的ComboBox控件几种数据绑定的方式互联网打工人no1 wpf c#
一、用字典给ItemsSource赋值（此绑定用的地方很多，建议熟练掌握）在XMAL中：在CS文件中privatevoidBindData(){DictionarydicItem=newDictionary();dicItem.add(1,"北京");dicItem.add(2,"上海");dicItem.add(3,"广州");cmb_list.ItemsSource=dicItem;cmb_l
git常用命令笔记咩酱-小羊 git 笔记
###用习惯了idea总是不记得git的一些常见命令，需要用到的时候总是担心旁边站了人~~~记个笔记@_@，告诉自己看笔记不丢人初始化初始化一个新的Git仓库gitinit配置配置用户信息gitconfig--globaluser.name"YourName"gitconfig--globaluser.email"[email protected]"基本操作克隆远程仓库gitclone查看
腾讯云技术深度探索：构建高效云原生微服务架构我的运维人生云原生架构腾讯云运维开发技术共享
腾讯云技术深度探索：构建高效云原生微服务架构在当今快速发展的技术环境中，云原生技术已成为企业数字化转型的关键驱动力。腾讯云作为行业领先的云服务提供商，不断推出创新的产品和技术，助力企业构建高效、可扩展的云原生微服务架构。本文将深入探讨腾讯云在微服务领域的最新进展，并通过一个实际案例展示如何在腾讯云平台上构建云原生应用。腾讯云微服务架构概览腾讯云微服务架构基于云原生理念，旨在帮助企业快速实现应用的容
直抒《紫罗兰永恒花园外传》雷姆的黑色童话
没看过《紫罗兰永恒花园》的我莫名的看完了《紫罗兰永恒花园外传》，又莫名的被故事中的姐妹之情狠狠地感动了的一把。感动何在：困苦中相依为命的姐妹二人被迫分离，用一个人的自由换取另一个人的幸福。之后，虽相隔不知几许依旧心心念念彼此牵挂。这种深深的姐妹情谊就是令我为之动容的所在。贝拉和泰勒分别影片开始，海天之间一个孩童凭栏眺望，手中拿着折旧的信纸。镜头一转，挑灯伏案的薇尔莉特正在打字机前奋笔疾书。这些片段
linux中sdl的使用教程,sdl使用入门 Melissa Corvinus linux中sdl的使用教程
本文通过一个简单示例讲解SDL的基本使用流程。示例中展示一个窗口，窗口里面有个随机颜色快随机移动。当我们鼠标点击关闭按钮时间窗口关闭。基本步骤如下：1.初始化SDL并创建一个窗口。SDL_Init()初始化SDL_CreateWindow()创建窗口2.纹理渲染存储RGB和存储纹理的区别：比如一个从左到右由红色渐变到蓝色的矩形，用存储RGB的话就需要把矩形中每个点的具体颜色值存储下来；而纹理只是一
拥有断舍离的心态，过精简生活--《断舍离》读书笔记爱吃丸子的小樱桃
不知不觉间房间里的东西越来越多，虽然摆放整齐，但也时常会觉得空间逼仄，令人心生烦闷。抱着断舍离的态度，我开始阅读《断舍离》这本书，希望从书中能找到一些有效的方法，帮助我实现空间、物品上的断舍离。《断舍离》是日本作家山下英子通过自己的经历、思考和实践总结而成的，整体内涵也从刚开始的私人生活哲学的“断舍离”升华成了“人生实践哲学”，接着又成为每个人都能实行的“改变人生的断舍离”，从“哲学”逐渐升华成“
2020-04-12每天三百字之连接与替代冷眼看潮
不知道是不是好为人师，有时候还真想和别人分享一下我对某些现象的看法或者解释。人类社会不断发展进步的过程，就是不断连接与替代的过程。人类发现了火并应用火以后，告别了茹毛饮血的野兽般的原始生活（火烧、烹饪替代了生食）人类用石器代替了完全手工，工具的使用使人类进步一大步。类似这样的替代还有很多，随着科技的发展，有更多的原始的事物被替代，代之以更高效、更先进的技术。在近现代，汽车替代了马车，高速公路和铁路
从0到500+，我是如何利用自媒体赚钱？一列脚印
运营公众号半个多月，从零基础的小白到现在慢慢懂了一些运营的知识。做好公众号是很不容易的，要做很多事情；排版、码字、引流…通通需要自己解决，业余时间全都花费在这上面涨这么多粉丝是真的不容易，对比知乎大佬来说，我们这种没资源，没人脉，还没钱的小透明来说，想要一个月涨粉上万，怕是今天没睡醒（不过你有的方法，算我piapia打脸）至少我是清醒的，自己慢慢努力，实现我的万粉目标！大家快来围观、支持我吧！孩子
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
使用LLaVa和Ollama实现多模态RAG示例 llzwxh888 python 人工智能开发语言
本文将详细介绍如何使用LLaVa和Ollama实现多模态RAG（检索增强生成），通过提取图像中的结构化数据、生成图像字幕等功能来展示这一技术的强大之处。安装环境首先，您需要安装以下依赖包：!pipinstallllama-index-multi-modal-llms-ollama!pipinstallllama-index-readers-file!pipinstallunstructured!p
利用LangChain的StackExchange组件实现智能问答系统 nseejrukjhad langchain microsoft 数据库 python
利用LangChain的StackExchange组件实现智能问答系统引言在当今的软件开发世界中，StackOverflow已经成为程序员解决问题的首选平台之一。而LangChain作为一个强大的AI应用开发框架，提供了StackExchange组件，使我们能够轻松地将StackOverflow的海量知识库集成到我们的应用中。本文将详细介绍如何使用LangChain的StackExchange组件
有舍才有得 _清净_
为什么经常讲放下？放下就是让你要舍得、舍去。喜舍心就是把自己喜欢的，用慈悲心喜舍出去。这就锻炼了你们在人间，学会放下原本不舍得的东西或一些事物，学会舍出去，学会帮助别人，学会多付出。你今天付出了慈悲心、喜舍心，以后会得到更多的缘助力。缘助力是什么？——贵人缘啊。今天没有付出，不懂得付出，什么都只会想到自己，那你也得不到缘助力。慈悲喜舍就是用慈悲心去帮助别人，用喜舍心去付出，最后也会得到别人回报。别
MongoDB Oplog 窗口喝醉酒的小白 MongoDB 运维
在MongoDB中，oplog（操作日志）是一个特殊的日志系统，用于记录对数据库的所有写操作。oplog允许副本集成员（通常是从节点）应用主节点上已经执行的操作，从而保持数据的一致性。它是MongoDB副本集实现数据复制的基础。MongoDBOplog窗口oplog窗口是指在MongoDB副本集中，从节点可以用来同步数据的时间范围。这个窗口通常由以下因素决定：Oplog大小：oplog的大小是有限
libyuv之linux编译 jaronho Linux linux 运维服务器
文章目录一、下载源码二、编译源码三、注意事项1、银河麒麟系统（aarch64）（1）解决armv8-a+dotprod+i8mm指令集支持问题（2）解决armv9-a+sve2指令集支持问题一、下载源码到GitHub网站下载https://github.com/lemenkov/libyuv源码，或者用直接用git克隆到本地，如：gitclonehttps://github.com/lemenko
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
没有邀请码怎么注册买手妈妈? 氧惠评测
买手妈妈怎么注册小编为大家带来买手妈妈没有邀请码怎么注册。打开买手妈妈APP，点击“马上注册”，输入邀请信息“邀请码”点击下一步，没有邀请码是登录不上的，所以这个必须要填写，那我们没有怎么办？填写成功就可以登录下一步。这里面有手机登录和淘宝登录，手机登录以后也需要用淘宝授权的，所以基本上都是淘宝登录。购物、看电影、点外卖、用氧惠APP！更优惠！氧惠（全网优惠上氧惠）——是与以往完全不同的抖客+淘客
番茄西红柿叶子病害分类数据集12882张11类别 futureflsl 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：12882分类类别数：11类别名称:["Bacterial_Spot_Bacteria","Early_Blight_Fungus","Healthy","Late_Blight_Water_Mold","Leaf_Mold_Fungus","Powdery
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
心有蓝天白云，爱情便会晴空万里，然后有花香有鸟鸣有美好的未来曹十二吖
丁南的婚姻，来自于一场她对生命的对比。她曾经说过，当她最爱的母亲用生命去逼迫她结婚的时候，她曾一度不理解到愤怒，甚至于想过用轻生来对抗母亲的不理智。庆幸的是，丁南是一个自我调节能力非常强的人，她想如果我连死亡都不怕，还怕不能经营好一段婚姻吗？抱着这样的念头，24年没有谈过恋爱的她，用短短三个月的时间，完成了少女到女人的蜕变。她曾经说过：“我要把自己最珍贵的东西留给自己命中注定的那个人。”闺蜜几人中
[星球大战]阿纳金的背叛 comsci
本来杰迪圣殿的长老是不同意让阿纳金接受训练的......... 但是由于政治原因,长老会妥协了...这给邪恶的力量带来了机会所以......现代的地球联邦接受了这个教训...绝对不让某些年轻人进入学院
看懂它，你就可以任性的玩耍了！ aijuans JavaScript
javascript作为前端开发的标配技能，如果不掌握好它的三大特点：1.原型 2.作用域 3. 闭包 ,又怎么可以说你学好了这门语言呢？如果标配的技能都没有撑握好，怎么可以任性的玩耍呢？怎么验证自己学好了以上三个基本点呢，我找到一段不错的代码，稍加改动，如果能够读懂它，那么你就可以任性了。 function jClass(b
Java常用工具包 Jodd Kai_Ge java jodd
Jodd 是一个开源的 Java 工具集，包含一些实用的工具类和小型框架。简单，却很强大！写道 Jodd = Tools + IoC + MVC + DB + AOP + TX + JSON + HTML < 1.5 Mb Jodd 被分成众多模块，按需选择，其中工具类模块有： jodd-core &nb
SpringMvc下载 120153216 springMVC
@RequestMapping(value = WebUrlConstant.DOWNLOAD) public void download(HttpServletRequest request,HttpServletResponse response,String fileName) { OutputStream os = null; InputStream is = null;
Python 标准异常总结 2002wmj python
Python标准异常总结 AssertionError 断言语句（assert）失败 AttributeError 尝试访问未知的对象属性 EOFError 用户输入文件末尾标志EOF（Ctrl+d） FloatingPointError 浮点计算错误 GeneratorExit generator.close()方法被调用的时候 ImportError 导入模块失
SQL函数返回临时表结构的数据用于查询 357029540 SQL Server
这两天在做一个查询的SQL，这个SQL的一个条件是通过游标实现另外两张表查询出一个多条数据，这些数据都是INT类型，然后用IN条件进行查询，并且查询这两张表需要通过外部传入参数才能查询出所需数据，于是想到了用SQL函数返回值，并且也这样做了，由于是返回多条数据，所以把查询出来的INT类型值都拼接为了字符串，这时就遇到问题了，在查询SQL中因为条件是INT值，SQL函数的CAST和CONVERST都
java 时间格式化 | 比较大小| 时区个人笔记 7454103 java eclipse tomcat c MyEclipse
个人总结！不当之处多多包含！引用 1.0 如何设置 tomcat 的时区：位置：(catalina.bat---JAVA_OPTS 下面加上) set JAVA_OPT
时间获取Clander的用法 adminjun Clander 时间
/** * 得到几天前的时间 * @param d * @param day * @return */ public static Date getDateBefore(Date d,int day){ Calend
JVM初探与设置 aijuans java
JVM是Java Virtual Machine（Java虚拟机）的缩写，JVM是一种用于计算设备的规范，它是一个虚构出来的计算机，是通过在实际的计算机上仿真模拟各种计算机功能来实现的。Java虚拟机包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收堆和一个存储方法域。 JVM屏蔽了与具体操作系统平台相关的信息，使Java程序只需生成在Java虚拟机上运行的目标代码（字节码）,就可以在多种平台
SQL中ON和WHERE的区别 avords
SQL中ON和WHERE的区别数据库在通过连接两张或多张表来返回记录时，都会生成一张中间的临时表，然后再将这张临时表返回给用户。 www.2cto.com 在使用left jion时，on和where条件的区别如下： 1、 on条件是在生成临时表时使用的条件，它不管on中的条件是否为真，都会返回左边表中的记录。
说说自信 houxinyou 工作生活
自信的来源分为两种,一种是源于实力,一种源于头脑.实力是一个综合的评定,有自身的能力,能利用的资源等.比如我想去月亮上,要身体素质过硬,还要有飞船等等一系列的东西.这些都属于实力的一部分.而头脑不同,只要你头脑够简单就可以了!同样要上月亮上,你想,我一跳,1米,我多跳几下,跳个几年,应该就到了!什么?你说我会往下掉?你笨呀你!找个东西踩一下不就行了吗? 无论工作还
WEBLOGIC事务超时设置 bijian1013 weblogic jta 事务超时
系统中统计数据，由于调用统计过程，执行时间超过了weblogic设置的时间，提示如下错误：统计数据出错! 原因：The transaction is no longer active - status: 'Rolling Back. [Reason=weblogic.transaction.internal
两年已过去，再看该如何快速融入新团队 bingyingao java 互联网融入架构新团队
偶得的空闲，翻到了两年前的帖子该如何快速融入一个新团队，有所感触，就记下来，为下一个两年后的今天做参考。时隔两年半之后的今天，再来看当初的这个博客，别有一番滋味。而我已经于今年三月份离开了当初所在的团队，加入另外的一个项目组，2011年的这篇博客之后的时光，我很好的融入了那个团队，而直到现在和同事们关系都特别好。大家在短短一年半的时间离一起经历了一
【Spark七十七】Spark分析Nginx和Apache的access.log bit1129 apache
Spark分析Nginx和Apache的access.log，第一个问题是要对Nginx和Apache的access.log文件进行按行解析，按行解析就的方法是正则表达式： Nginx的access.log解析正则表达式 val PATTERN = """([^ ]*) ([^ ]*) ([^ ]*) (\\[.*\\]) (\&q
Erlang patch bookjovi erlang
Totally five patchs committed to erlang otp, just small patchs. IMO, erlang really is a interesting programming language, I really like its concurrency feature. but the functional programming style
log4j日志路径中加入日期 bro_feng java log4j
要用log4j使用记录日志，日志路径有每日的日期，文件大小5M新增文件。实现方式 log4j: <appender name="serviceLog" class="org.apache.log4j.RollingFileAppender"> <param name="Encoding" v
读《研磨设计模式》-代码笔记-桥接模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 个人觉得关于桥接模式的例子，蜡笔和毛笔这个例子是最贴切的：http://www.cnblogs.com/zhenyulu/articles/67016.html * 笔和颜色是可分离的，蜡笔把两者耦合在一起了：一支蜡笔只有一种
windows7下SVN和Eclipse插件安装 chenyu19891124 eclipse插件
今天花了一天时间弄SVN和Eclipse插件的安装，今天弄好了。svn插件和Eclipse整合有两种方式，一种是直接下载插件包，二种是通过Eclipse在线更新。由于之前Eclipse版本和svn插件版本有差别，始终是没装上。最后在网上找到了适合的版本。所用的环境系统：windows7JDK：1.7svn插件包版本：1.8.16Eclipse：3.7.2工具下载地址：Eclipse下在地址：htt
[转帖]工作流引擎设计思路 comsci 设计模式工作应用服务器 workflow 企业应用
作为国内的同行，我非常希望在流程设计方面和大家交流，刚发现篇好文(那么好的文章，现在才发现，可惜)，关于流程设计的一些原理，个人觉得本文站得高，看得远，比俺的文章有深度，转载如下 ================================================================================= 自开博以来不断有朋友来探讨工作流引擎该如何
Linux 查看内存，CPU及硬盘大小的方法 daizj linux cpu 内存硬盘大小
一、查看CPU信息的命令 [root@R4 ~]# cat /proc/cpuinfo |grep "model name" && cat /proc/cpuinfo |grep "physical id" model name : Intel(R) Xeon(R) CPU X5450 @ 3.00GHz model name :
linux 踢出在线用户 dongwei_6688 linux
两个步骤： 1.用w命令找到要踢出的用户，比如下面： [root@localhost ~]# w 18:16:55 up 39 days, 8:27, 3 users, load average: 0.03, 0.03, 0.00 USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT
放手吧,就像不曾拥有过一样 dcj3sjt126com
内容提要：静悠悠编著的《放手吧就像不曾拥有过一样》集结“全球华语世界最舒缓心灵”的精华故事，触碰生命最深层次的感动，献给全世界亿万读者。《放手吧就像不曾拥有过一样》的作者衷心地祝愿每一位读者都给自己一个重新出发的理由，将那些令你痛苦的、扛起的、背负的，一并都放下吧！把憔悴的面容换做一种清淡的微笑，把沉重的步伐调节成春天五线谱上的音符，让自己踏着轻快的节奏，在人生的海面上悠然漂荡，享受宁静与
php二进制安全的含义 dcj3sjt126com PHP
PHP里，有string的概念。 string里，每个字符的大小为byte（与PHP相比，Java的每个字符为Character，是UTF8字符，C语言的每个字符可以在编译时选择）。 byte里，有ASCII代码的字符，例如ABC，123，abc，也有一些特殊字符，例如回车，退格之类的。特殊字符很多是不能显示的。或者说，他们的显示方式没有标准，例如编码65到哪儿都是字母A，编码97到哪儿都是字符
Linux下禁用T440s，X240的一体化触摸板(touchpad) gashero linux ThinkPad 触摸板
自打1月买了Thinkpad T440s就一直很火大，其中最让人恼火的莫过于触摸板。 Thinkpad的经典就包括用了小红点(TrackPoint)。但是小红点只能定位，还是需要鼠标的左右键的。但是自打T440s等开始启用了一体化触摸板，不再有实体的按键了。问题是要是好用也行。实际使用中，触摸板一堆问题，比如定位有抖动，以及按键时会有飘逸。这就导致了单击经常就
graph_dfs hcx2013 Graph
package edu.xidian.graph; class MyStack { private final int SIZE = 20; private int[] st; private int top; public MyStack() { st = new int[SIZE]; top = -1; } public void push(i
Spring4.1新特性——Spring核心部分及其他 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
配置HiveServer2的安全策略之自定义用户名密码验证 liyonghui160com
具体从网上看 http://doc.mapr.com/display/MapR/Using+HiveServer2#UsingHiveServer2-ConfiguringCustomAuthentication LDAP Authentication using OpenLDAP Setting
一位30多的程序员生涯经验总结 pda158 编程工作生活咨询
1.客户在接触到产品之后，才会真正明白自己的需求。　　这是我在我的第一份工作上面学来的。只有当我们给客户展示产品的时候，他们才会意识到哪些是必须的。给出一个功能性原型设计远远比一张长长的文字表格要好。 2.只要有充足的时间，所有安全防御系统都将失败。　　安全防御现如今是全世界都在关注的大课题、大挑战。我们必须时时刻刻积极完善它，因为黑客只要有一次成功，就可以彻底打败你。 3.
分布式web服务架构的演变自由的奴隶 linux Web 应用服务器互联网
最开始，由于某些想法，于是在互联网上搭建了一个网站，这个时候甚至有可能主机都是租借的，但由于这篇文章我们只关注架构的演变历程，因此就假设这个时候已经是托管了一台主机，并且有一定的带宽了，这个时候由于网站具备了一定的特色，吸引了部分人访问，逐渐你发现系统的压力越来越高，响应速度越来越慢，而这个时候比较明显的是数据库和应用互相影响，应用出问题了，数据库也很容易出现问题，而数据库出问题的时候，应用也容易
初探Druid连接池之二——慢SQL日志记录 xingsan_zhang 日志连接池 druid 慢SQL
由于工作原因，这里先不说连接数据库部分的配置，后面会补上，直接进入慢SQL日志记录。 1.applicationContext.xml中增加如下配置： <bean abstract="true" id="mysql_database" class="com.alibaba.druid.pool.DruidDataSourc