weixin_41560991

读书笔记_第十六章

#聚类分析

#聚类分析是一种数据归约技术，旨在揭露一个数据集中观测值的子集
#它可以把大量的观测值规约为若干个类
#这里的类被定义为若干个观测值组成的群组，群组内观测值的相似度比群间相似度高

#最常用的聚类方法：
#方法一，层次聚类
#在层次聚类中，每一个观测值自成一类，这些类每次两两合并，直到所有类被聚成一类为止
#常用算法包括：单联动，全联动，平均联动，质心，和Ward方法

#方法二，划分聚类
#在划分聚类中，首先指定类的个数k,然后观测值被随机分成k类，再重新形成聚合的类
#常用算法包括：k-means(k均值)，围绕中心点的划分（PAM）

#聚类分析的一般步骤
#第一步：选择合适的变量
#第二步：缩放数据
#df1 <- apply(mydata,2,function(x){(x-mean(x)/sd(x))}) #标准化,u=0,sd=1
#df2 <- apply(mydata,2,fuction(x){x/max(x)})#除以最大值
#df3 <- apply(mydata,2,fuction(x){(x-mean(x)/mad(x))}) #减去均值并除以变量的平均绝对偏差

#第三步：寻找异常点
#第四步：计算距离
#第五步：选择聚类算法
#第六步：获得一种或多种聚类方法
#第七步：确定类的数目
#第八步：获得最终的聚类解决方案
#第九步：解读类
#第十步：验证结果

#批量安装包,感觉像是并行操作
install.packages(c("cluster","Nbclust","flexclust","fMultivar","ggplot2","rattle"))

#计算距离

library(lattice)
library(modeltools)
library(stats4)
library(flexclust) #library支持加载函数，加载数据无效object 'nutrient' not found

data(nutrient,package="flexclust") #加载进入全局环境变量
head(nutrient,4) #查看前四行数据
dim(nutrient) #返回 27,5，即27行，5列

#dist(x,method=)用来计算矩阵或数据框中所有行之间的距离
#x 输入数据
#method 默认为欧几里得距离

#补充说明:
#欧几里得距离通常做为连续型数据的距离度量
#但是如果存在其他类型的数据，则需要相异的替代措施，你可以使用cluster包中
#daisy()函数来获得包含任意二元(binary),名义(nominal)，有序(ordinal),
#连续(continuous)属性组合的相异矩阵

d <- dist(nutrient)
class(d) #返回dist对象
m <- as.matrix(d)#强制转换成matirx对象
dim(m) #返回27行，27列
m[1:4,1:4] #查看距离计算后结果矩阵的前四行
#结果解读：
#以BEEF BRAISED，HAMBURGER数据为例，计算欧几里得距离
#原始数据：
#energy protein fat calcium iron
#BEEF BRAISED 340 20 28 9 2.6
#HAMBURGER 245 21 17 9 2.7
#d方=(340-245)^2+(20-21)^2+(28-17)^2+(9-9)^2+(2.6-2.7)^2=95.64^2
#d=95.64

#观测值之间的距离越大，异质性越大
#观测值和它自己之间的距离为0

#层次聚类
#优点：
#当需要嵌套聚类和有意义的层次结构时，层次聚类或许特别有用
#在生物科学中这种情况很常见
#在某种意义上分层算法是贪婪的，一旦一个观测值被分配给一个类，它就不能在后面的
#过程中被重新分配
#层次聚类难以应用到数百甚至数千观测值的大样本中

#算法
#1定义每个观测值（行或单元）为一类
#2计算每类和其他各类的距离
#3把距离最短的两类合并成一类，这样类的个数就减少一个
#4重复步骤2，步骤3，直到包含所有观测值的类合并成单个的类为止

#方法
#single单联动：一个类中的点和另一个类中的点的最小距离
#倾向于发现细长，雪茄型的类。它通常展示一种链式的现象，即不相似的观测值分到一类中
#因为它们和它们的中间值很想像

#complete全联动：一个类中的点和另一个类中的点的最大距离
#倾向于发现大致相等的直径紧凑类
#它对异常值很敏感

#average平均联动：一个类中的点和另一个类中的点的平均距离
#平均联动提供了以上两种方法的折中
#它不像链式，而且对异常值没有那么敏感
#它倾向于把方差小的类聚合

#centroid质心：两类中质心(变量均值向量)之间的距离。对单个的观测值来说，质心就是变量的值
#很受欢迎
#但是它不能如平均联动法，或ward法表现的好

#Ward法：两个类之间所有变量的方差分析的平方和
#倾向于把少量观测值的类聚合到一起，并且倾向于产生与观测值个数大致相等的类

#范例一营养数据的平均联动聚类
data(nutrient,package="flexclust")
row.names(nutrient) <- tolower(row.names(nutrient)) #将大写行名替换成小写行名
nutrient.scaled <- scale(nutrient) #将每一列值，标准化
class(nutrient.scaled) #返回矩阵对象，作为新的数据源，而不在使用原始数据源
dim(nutrient.scaled ) #返回 27行，5列
d <- dist(nutrient.scaled) #基于标准化后的数据源，计算欧几里得距离
fit.average <- hclust(d,method="average") #基于平均联动average,生成层次聚类模型
fit.average

#树状图应该从下往上读，它展示了这些条目如何被结合成类
#每一个观测值起初自成1类，然后基于距离，将相距最近的两类（beef braised和smoked ham）合并
#然后合并继续，直到所有的观测值都合并成一类
#高度刻度代表了该高度类之间合并的判断值

plot(fit.average,hang=-1,cex=0.8,
main="Average Linkage Clustering")#基于模型画图，hang=-1,表示将标签悬挂在y=-1处理
#结果解读：
#tuna canned 和 chiicken canned是相似的
#但它们与clams canned有很大的不同
#辅助于理解基于食物营养成分的相似性和相异性

#范例二选择聚类的个数
library(NbClust)
#Prompt before New Page
#options("device.ask.default")
devAskNewPage(ask=TRUE) #弹出窗口;Hit to see next plot
devAskNewPage(ask=FALSE)

#NbClust(),确定在一个聚类分析里面类的最佳数目
#输入包括需要做聚类的矩阵或是数据框
#distance,使用的距离测度
#method,使用的聚类方法
#min.nc,最小的聚类个数
#max.nc,最大的聚类个数
nc <- NbClust(nutrient.scaled,distance="euclidean",
min.nc=2,max.nc=15,method="average")
class(nc) #返回list

#在min.nc和max.nc之间使用多个集群获得的数据集的每个分区的索引值。
nc$All.index
dim(nc$All.index) #返回14*26

#每个指标提出的最优聚类数及其对应的指标值。
nc$Best.nc
dim(nc$Best.nc) #返回 2*26
class(nc$Best.nc) #返回matirx
nc$Best.nc[1,] #第一行，对应Number_clusters信息，观测值对应组别信息
nc$Best.nc[2,] #第二行，对应Value_Index信息

#基于组别信息，统计频数值
table(nc$Best.nc[1,])
#0 1 2 3 4 5 9 10 13 14 15 --第一行，聚类个数
#2 1 4 4 2 4 1 1 2 1 4 --第二行，判断原则赞同聚类个数
#第三列：四个评判准则赞同聚类个数为2
#第四列：四个评判准则赞同聚类个数为3
#第六列：四个评判准则赞同聚类个数为5
#第十一列：四个评判准则赞同聚类个数为15

#一个观测值，一行观测数据，即对应一条评判规则
#第二行求和：2+1+4+4+2+4+1+1+2+1+4=26，共计26行观测值，对应26条评判规则
barplot(table(nc$Best.nc[1,]),
xlab="Number of Clusters",
ylab="Number of Criteria",
main="Number of Clusters Chosen by 26 Criteria")

#范例三获取最终的聚类方案，在2,3,5,15组中进行取舍判断,假设取5

#cutree(),将树状分成五类
clusters <- cutree(fit.average,k=5)
class(clusters) #返回向量
length(clusters)#返回27
rownames(clusters) #返回NULL
colnames(clusters) #返回NULL
is.vector(clusters) #返回TRUE
names(clusters) #返回向量各对象的名称，对应27个观测值的名字

clusters[1]
#beef braised
#1

clusters["beef braised"]
#beef braised
#1

table(clusters)
#结果解读：
#1 2 3 4 5
#7 16 1 2 1

#第一类，有7个观测值
#第二类，有16个观测值
#第三类，有1个观测值
#第四类，有2个观测值
#第五类，有1个观测值

#基于cluster对象中包含的27个观测值，分别对应的组别信息，进行分组
#利用aggregate,基于原始数据集群的分组情况，计算每组，每一列的中位数
aggregate(nutrient,by=list(cluster=clusters),median)

#利用aggregate,基于标准化数据集群的分组情况，计算每组，每一列的中位数
aggregate(as.data.frame(nutrient.scaled),by=list(Cluster=clusters),median)

#模型，原树状图
plot(fit.average,hang=-1,cex=0.8,
main="Average Linkage Clustering\n5 Cluster Solution")
#在原树状图上，叠加五类的解决方案，即画框图
#各个类下观察值的个数，与table(clusters)的频数统计结果一致
rect.hclust(fit.average,k=5)

#划分聚类分析
#

#k均值聚类
#算法：
#1 选择k个中心点（可随机选择k行）
#2 把每个数据点分配到离它最近的中心点
#3 重新计算每类中的点到该类中心点距离的平均值
#4 分配每个数据到它最近的中心点
#5 重复步骤3，步骤4直到所有的观测值不再被分配或是达到最大的迭代次数，R把10次作为默认迭代次数

#优点：
#k均值聚类能处理比层次聚类更大的数据集
#另外，观测值不会永远被分到一类中
#当我们提高整体解决方案时，聚类方案也会改动
#但是均值的使用意味着所有的变量必须是连续的，并且这个方法很有可能被异常值影响

#范例一 k均值聚类
data(wine,package="rattle")#从数据包加载进全局环境变量
dim(wine) #返回178行,14列(1列对应观测值名，13列对应化学成分)

head(wine) #默认加载前六行数据

dim(wine[,-1]) #删除酒名列，返回178,13
dim(wine[-1]) #删除酒名列，返回178,13
df <- scale(wine[,-1])#将原数据集，进行标准化操作
dim(df) #返回178,13

#apply(df,2,var) 针对每一列求方差，返回向量，每一个值代表当前列的方差
#sum(apply(df,2,var)) 所有列方差求和
wss <- (nrow(df)-1)*sum(apply(df,2,var)) #返回总平方和，等价于k$totss

#由于k均值聚类每次都是随机选择k个点，所以每次调用函数可能获得不同的方案
#使用set.seed函数可以保证结果是可复制的
set.seed(1234)
#kmeans(x,centers,nstart)
#x 表示数值型数据集
#centers 表示要提取的聚类数目
#nstart 表示尝试多种初始配置并输出最好的一个

k <- kmeans(df,centers=2)
#返回向量列表，利用类别编号对观测值进行标识
#A vector of integers (from 1:k) indicating the cluster to which each point is allocated.
k$cluster

#返回类中心
#A matrix of cluster centres.
k$centers

#返回总平方和，总平方和=所有组内平方和+所有组间平方和
#The total sum of squares.
k$totss #返回 2301 （884.3435 + 765.0965 + 651.56=2301）

#返回各组内平方和
#Vector of within-cluster sum of squares, one component per cluster.
k$withinss #返回 884.3435 765.0965

#返回各组内平方和的总和
#Total within-cluster sum of squares, i.e. sum(withinss).
k$tot.withinss #返回 1649.44(884.3435+765.0965=1649.44)

#返回组间平方和
#The between-cluster sum of squares, i.e. totss-tot.withinss.
k$betweenss #返回 651.56

sum(kmeans(df,centers=2)$withinss) #返回1649.44，等价于k$tot.withinss

#第一种方法，盲选，合适的聚类个数

#肘部法则
#如果问题中没有指定的值，可以通过肘部法则这一技术来估计聚类数量。
#肘部法则会把不同值的成本函数值画出来。
#随着值的增大，平均畸变程度会减小；每个类包含的样本数会减少，于是样本离其重心会更近。
#但是，随着值继续增大，平均畸变程度的改善效果会不断减低。值增大过程中，畸变程度的改善效果下降幅度最大的位置对应的值就是肘部。

wssplot <- function(data,nc=15,seed=1234){
wss <- (nrow(data)-1)*sum(apply(data,2,var)) #得到一个数值
for(i in 2:nc){
#为了保证结果的可复制性，必须设定随机种子
set.seed(seed)
#得到以i为聚类个数(等价于组别个数)，求得所有组内平方和，存储到矩阵中
wss[i] <- sum(kmeans(data,centers=i)$withinss)
}
#基于聚类个数，以及当前聚类下素有组内平方和画图
plot(1:nc,wss,type="b",xlab="Number of Clusters",
ylab="Within groups sum of squares")
}

wssplot(df)
#结果解读：
#从一类到三类变化时，组内的平方总和有一个明显的下降趋势
#三类以后，下降的速度减弱
#暗示聚成三类可能对数据来说是一个很好的拟合

#第二种方法，利用NbClust来选择合适的聚类个数
library(NbClust)
set.seed(1234)
devAskNewPage(ask=TRUE)
nc <- NbClust(df,min.nc = 2,max.nc=15,method="kmeans")
# ***** Conclusion *****
#* According to the majority rule, the best number of clusters is 3
#NbClust，同样建议选3个聚类

table(nc$Best.nc[1,])
# 0 1 2 3 10 12 14 15
# 2 1 4 15 1 1 1 1
# 分3组时，有15个判断原则投票

barplot(table(nc$Best.n[1,]),
xlab="Number of Clusters",
ylab="Number of Clusters Chosen by 26 Criteria")

#将确定后的centers=3带入kmeans函数，生成模型
#为了保证结果的可复制性，设定随机种子1234
set.seed(1234)
fit.km <- kmeans(df,3,nstart=25)
fit.km$size #返回每一个组的观测值数量，62 65 51
fit.km$centers #返回每一个组的centers,基于标准化的数据运算
#基于原始数据，计算每一组下每一列的mean值
aggregate(wine[-1],by=list(clusters=fit.km$cluster),mean)

#范例
class(wine) #返回 data.frame
wine[1] #返回wine数据源的，第一列，即type列,但包含了标题行
class(wine[1]) #返回 "data.frame"
dim(wine[1]) #返回178行*1列

wine$Type #返回wine数据源的，第一列，即type列
class(wine$Type) #返回"factor"
dim(wine$Type) #Null
is.vector(wine$Type) #返回FALSE
length(wine$Type) #返回178

fit.km$cluster #返回每个观测值对应组号的向量列表
class(fit.km$cluster) #返回 "integer"
is.vector(fit.km$cluster) #返回TRUE
length(fit.km$cluster) #返回178

#table(var1,var2,...),要求var1...n必须是因子变量
#基于Type列，fit.km$cluster值生成二维表格
#wine$Type，对应行维度
#fit.km$cluster，对应列维度
ct.km <- table(wine$Type,fit.km$cluster)
ct.km

#范例兰德指数(Rand index)来量化类型变量和类之间的协议
#调整的兰德指数为两种划分提供了一种衡量两个分区之间的协定，即调整后机会的量度
#它的变化范围从-1(不同意)到1(完全同意)
library(flexclust)
randIndex(ct.km)
# ARI
#0.897495
#结果解读;
#葡萄酒品种类型（wine$Type）和聚类的解决方案之间的协定是0.9
#结果不坏

#围绕中心点的划分

#因为k均值聚类方法是基于均值的，所以它对异常值是敏感的
#一个更稳健的方法是围绕中心点的划分。
#k均值聚类一般使用欧几里得距离
#而PAM可以使用任意的距离来计算，它可以容纳混合数据类型，并且不仅限于连续变量

#PAM算法如下：
#1 随机选择k个观测值（每个都称为中心点）
#2 计算观测值到各个中心的距离/相异性
#3 把每个观测值分配到最近的中心点
#4 计算每个中心到每个观测值的距离的总和（总成本）
#5 选择一个该类中不是中心的点，并和中心点互换
#6 重新把每一个点分配到距它最近的中心点
#7 再次计算总成本
#8 如果总成本比步骤（4）计算的总成本少，把新的点作为中心点
#9 重复步骤5~8直到中心点不再改变

#范例一对葡萄酒数据使用基于质心的划分方法

library(cluster)
set.seed(1234) #设定随机种子，保证结果的复制
#pam(x,k,metirc="euclidean",stand=FALSE)
#x 代表数据矩阵或数据框
#k 表示聚类的个数
#metric 表示相异性/相似性的度量
#stand 表示一个逻辑值，表示是否有变量应该在计算该指标之前被标准化

#wine[-1] , 表示wine数据去除第一列type值后，作为输入数据传入
#stand=TRUE 表示基于原始值进行的中心点方法
fit.pam <- pam(wine[-1],k=3,stand=TRUE)
fit.pam$medoids #输出中心点
fit.pam$clustering #输出各个观测值，被组标签标记后的向量
fit.pam$clustering[36] #第36个观测值对应的组号，1
fit.pam$clustering[107] #第36个观测值对应的组号，2
fit.pam$clustering[175] #第36个观测值对应的组号，3

table(fit.pam$clustering)
# 1 2 3
#75 54 49
#分成3类，分别包含75个观测值，54个观测值，49个观测值
#75+54+49=178，总观测值

clusplot(fit.pam,main="Bivariate Cluster Plot")
#结果解读

#范例兰德指数

#table(var1,var2,...),要求var1...n必须是因子变量
#基于Type列，fit.pam$cluster值生成二维表格
#wine$Type，对应行维度
#fit.pam$cluster，对应列维度
ct.pam <- table(wine$Type,fit.pam$clustering)
ct.pam

#范例兰德指数(Rand index)来量化类型变量和类之间的协议
#调整的兰德指数为两种划分提供了一种衡量两个分区之间的协定，即调整后机会的量度
#它的变化范围从-1(不同意)到1(完全同意)
randIndex(ct.pam)
# ARI
#0.6994957
#结果解读;
#葡萄酒品种类型（wine$Type）和聚类的解决方案之间的协定是0.6994957
#结果不好，从0.9减低到了0.6994957

par(mfrow=c(1,1))

#避免不存在的类

#范例

#定义随机的数据源
library(timeDate)
library(timeSeries)
library(fBasics)
library(fMultivar)

set.seed(1234)
#双变量正态随机偏差
#从相关系数为0.5的二元正态分布中抽取1000个观测值
df <- rnorm2d(1000,rho=0.5)
df <- as.data.frame(df)
dim(df) #返回 1000行 2列
#完全随机，没有规律，所以不存在任何类
plot(df,main="Bivariate Normal Distribution with rho=0.5")

#方法一肘部法则，盲选聚类个数
wssplot(df)
#建议选三个，后续变化比较平缓

#方法二，NbClust选取聚类个数
library(NbClust)
nc <- NbClust(df,min.nc=2,max.nc=15,method="kmeans")
#***** Conclusion *****

# * According to the majority rule, the best number of clusters is 2
#NbClust推荐选2个聚类变量

dev.new() #新打开画布窗口，画条形图
barplot(table(nc$Best.nc[1,]),
xlab="Number of Clusters",
ylab="Number of Criteria",
main="Number of Clusters Chosen by 26 Criteria")

#范例使用PAM法进行双聚类分析

library(ggplot2)
library(cluster)
#基于确认的2聚类，进行中心点的划分，生成中心点划分模型
fit <- pam(df,k=2)
#将模型中各观测值对应的组号，向量因子化，追加到数据源的新列
df$clustering <- factor(fit$clustering)
dim(df) #返回1000行，3列

#ggplot()+geom_point()+ggtile(),
#注意+必须位于第一个函数右括号旁，当时另起一行，将失败
#将没有类的随机数据，任意划分成两类
ggplot(data=df,aes(x=V1,y=V2,color=clustering,
shape=clustering))+
geom_point()+
ggtitle("Clustering of Bivariate Normal Data")

#返回14*26
dim(nc$All.index) #返回14*26
plot(nc$All.index[,4],type="o",
ylab="CCC",xlab="Number of clusters",
col="blue")
#nc$All.index[,4]第四列值对应CCC列
#立方聚类规则(Cubic Cluster Criteria CCC)往往可以帮助我们揭示不存在的结构
#当CCC值为负，并且对于两类或是更多的类递减时，就是典型的单峰分布
#如果你视图找出的某种意义上的“真实的”类，而不是一个方便的划分，就要确保结果
#是文件的并且是可重复的。
#如果同一类持续复原，你就可以对得出的结果更加自信

android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
OC语言多界面传值五大方式 Magnetic_h ios ui 学习 objective-c 开发语言
前言在完成暑假仿写项目时，遇到了许多需要用到多界面传值的地方，这篇博客来总结一下比较常用的五种多界面传值的方式。属性传值属性传值一般用前一个界面向后一个界面传值，简单地说就是通过访问后一个视图控制器的属性来为它赋值，通过这个属性来做到从前一个界面向后一个界面传值。首先在后一个界面中定义属性@interfaceBViewController:UIViewController@propertyNSSt
10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
PHP环境搭建详细教程好看资源平台前端 php
PHP是一个流行的服务器端脚本语言，广泛用于Web开发。为了使PHP能够在本地或服务器上运行，我们需要搭建一个合适的PHP环境。本教程将结合最新资料，介绍在不同操作系统上搭建PHP开发环境的多种方法，包括Windows、macOS和Linux系统的安装步骤，以及本地和Docker环境的配置。1.PHP环境搭建概述PHP环境的搭建主要分为以下几类：集成开发环境：例如XAMPP、WAMP、MAMP，这
拥有断舍离的心态，过精简生活--《断舍离》读书笔记爱吃丸子的小樱桃
不知不觉间房间里的东西越来越多，虽然摆放整齐，但也时常会觉得空间逼仄，令人心生烦闷。抱着断舍离的态度，我开始阅读《断舍离》这本书，希望从书中能找到一些有效的方法，帮助我实现空间、物品上的断舍离。《断舍离》是日本作家山下英子通过自己的经历、思考和实践总结而成的，整体内涵也从刚开始的私人生活哲学的“断舍离”升华成了“人生实践哲学”，接着又成为每个人都能实行的“改变人生的断舍离”，从“哲学”逐渐升华成“
【华为OD机试真题2023B卷 JAVA&JS】We Are A Team 若博豆 java 算法华为 javascript
华为OD2023（B卷）机试题库全覆盖，刷题指南点这里WeAreATeam时间限制：1秒|内存限制：32768K|语言限制：不限题目描述：总共有n个人在机房，每个人有一个标号（1<=标号<=n），他们分成了多个团队，需要你根据收到的m条消息判定指定的两个人是否在一个团队中，具体的：1、消息构成为：abc，整数a、b分别代
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
如何部分格式化提示模板:LangChain中的高级技巧 nseejrukjhad langchain java 服务器 python
标题:如何部分格式化提示模板:LangChain中的高级技巧内容:如何部分格式化提示模板:LangChain中的高级技巧引言在使用大型语言模型(LLM)时,提示工程是一个关键环节。LangChain提供了强大的提示模板功能,让我们能更灵活地构建和管理提示。本文将介绍LangChain中一个高级特性-部分格式化提示模板,这个技巧可以让你的提示管理更加高效和灵活。什么是部分格式化提示模板?部分格式化提
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
梁文道《尽头:怎样是好的阅读和书写》片段白夜书摘
1、写小说的人，有时会强烈地感到一种现实的召唤，想去面对和回应现实。这时他们会觉得自己正站在时代中心，就像黑格尔说的，要把时代精神掌握在自己的小说（不是哲学）里面。但是这也很危险，当一个作家像一个时代那样书写，可能就会出现问题了。2、文字是远比语言大块而且湿冷的木头，又距离我们内心的火花稍远，不容易瞬间点燃起来，这处隙缝，给了我们回身的余地，可以再多看一下想一下设身处地一下；人类过往这最后五千年，
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
第六集如何安装CentOS7.0，3分钟学会centos7安装教程 date分享
从光盘引导系统按回车键继续进入引导程序安装界面，选择语言这里选择简体中文版点击继续选择桌面安装下面给系统分区选择磁盘，点击完成选择基本分区，点击加号swap分区,大小填内存的两倍在选择根分区，使用所有可用的磁盘空间选择文件系统ext4点击完成，点击开始安装设置root密码，点击完成设置普通用户和密码，点击完成整个过程持续八分钟左右根据个人配置不同，时间长短不同好，现在点击重启系统进入重启状态点击本
Rust基础知识 GRKF15 rust 开发语言后端
1.Rust语言简介1.1基础语法变量声明：let关键字用于声明变量，可以指定或不指定类型，如leta=10;和letmutc=30i32;。函数定义：使用fn关键字定义函数，并指定参数类型及返回类型，如fnadd(i:i32,j:i32)->i32{i+j}。控制流：包括if、else等，控制语句后需要使用;来结束语句。1.2数据类型整数类型：i8、i16、i32、i64、i128，以及无符号的
简介Shell、zsh、bash zhaosuningsn Shell zsh bash shell linux bash
Shell是Linux和Unix的外壳，类似衣服，负责外界与Linux和Unix内核的交互联系。例如接收终端用户及各种应用程序的命令，把接收的命令翻译成内核能理解的语言，传递给内核，并把内核处理接收的命令的结果返回给外界，即Shell是外界和内核沟通的桥梁或大门。Linux和Unix提供了多种Shell，其中有种bash，当然还有其他好多种。Mac电脑中不但有bash，还有一个zsh，预装的，据说
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
希望和悲伤都是照亮我们人生的一缕光山月映雪
我开始并不想读《云边有个小卖部》，但看到好几个学生就都在读这本书，为了了解学生的阅读实际，我就拿起这本书翻看起来。读了十几页，发现小说的语言中不时有一些粗俗的字眼，感觉自己读不下去了。小说一开始把云边镇风景写的特别的美好，我错判为脱离现实的鸳鸯蝴蝶派小说，对于人为制造的童话世界的人与物，我真的不太感兴趣，所以就没有再读了。有天在教室闲转，顺手又拿起了这本书看了起来，这次我才真的看进去了。这部小说除
「豆包Marscode体验官」 | 云端 IDE 启动 & Rust 体验张风捷特烈 ide rust 开发语言后端
theme:cyanosis我正在参加「豆包MarsCode初体验」征文活动MarsCode可以看作一个运行在服务端的远程VSCode开发环境。对于我这种想要学习体验某些语言，但不想在电脑里装环境的人来说非常友好。本文就来介绍一下在MarsCode里，我的体验rust开发体验。一、MarsCode是什么它的本质是:提供代码助手和云端IDE服务的web网站，可通过下面的链接访问https://www
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_

读书笔记_第十六章

你可能感兴趣的:(R,R,语言实战,R,R,语言实战,读书笔记)