Rr-7

数据挖掘-朴素贝叶斯算法的R实现

本次为学生时期所写的实验报告，代码程序为课堂学习和自学，对网络程序有所参考，如有雷同，望指出出处，谢谢！

基础知识来自教材：李航的《统计学习方法》

本人小白，仍在不断学习中，有错误的地方恳请大佬指出，谢谢！

一、实验要求：

编程实现朴素贝叶斯分类器，要求该分类器能够自动处理离散特征和连续特征，验证程序，使用交叉验证评估模型，并与模型KNN算法对比。

二、代码实现（R语言）

1.使用朴素贝叶斯算法计算预测值

naive.bayes.prediction <- function(X,y,condition,continuous = "NO",lambda = 0){
                                    #训练数据集X，y，测试数据condition
#continuous = "NO"表示离散数据，等于"YES"表示连续数据
                                    #默认lambda=1
  
  #公共参数
  yclass = length(unique(y))       #y的类别数
  y = as.matrix(y)                 #将y转化为列向量
  prior = rep(NA,yclass)           #该向量用于存储先验概率的值
  Xfeature = ncol(X)               #X的特征数
  prediction=rep(NA,nrow(condition))
  
  #离散部分参数
  situation <- matrix(NA,nrow = yclass, ncol = Xfeature) 
  #用于存储条件概率的每一个连乘项，其中"列"为X的每个特征，"行"为y的类别.
  above = matrix(NA,nrow = nrow(condition),ncol=yclass)  
  #该向量用于存储贝叶斯分类器公式中分子的值,其中(i,j)元表示给定第i个x下为第j类的概率值的决定值
  
  #连续部分参数
  mu <- matrix(NA,nrow = yclass, ncol = Xfeature) 
  #用于存储给定y的类别下X各特征的平均值，其中行数为y的类别数，列数为X的特征数
  final = matrix(NA,nrow = nrow(condition),ncol = yclass) 
  #该向量用于存储给定x下类别为i的概率值的决定值
  Xscale = scale(X)                     #对X进行标准化，便于协方差矩阵的求解
  sigma = t(Xscale)%*%Xscale            #计算协方差矩阵
  
  
  #离散情况
  if (continuous == "NO"){
    for (i in 1:yclass) {
      #先验概率
      prior[i] <- sum(y == unique(y)[i]) / length(y)  #prior中存储所有y=ck先验概率的值   

      #条件概率
      for (k in 1:nrow(condition)) {
        for (j in 1:Xfeature) {
          situation[i,j] = 
(sum((X[,j]== condition[k,j]) & 
(y[,1] == unique(y)[i]))+lambda)/ 
             (sum(y[,1] == unique(y)[i]) +length(unique(X[,j]))*lambda)
          #situaition的（i,j）元素表示在y = ci条件下Xj = condition中（xj）的条件概率
        }

        #计算条件概率的乘积*先验概率，即贝叶斯分类器公式中分子的值
        above[k,i]=prod(situation[i,])*prior[i]
      }
      
    }
    
    for (k in 1:nrow(condition)) {
      prediction[k] = unique(y)[which.max(above[k,])] 
    }
  }
  
  
  #连续情况  
  else if(continuous == "YES"){
    for (i in 1:yclass) {  
      
      #先验概率
      prior[i] <- sum(y == unique(y)[i]) / length(y)   #prior中存储所有y=ck先验概率的值  

      
      #计算均值
      for (j in 1:Xfeature) {
        mu[i,j] = mean(X[,j][which(y[,1] == unique(y)[i])])  
      }
      
      #计算每个给定x下类别为i的概率值的决定值
      for(k in 1:nrow(condition)){
        final[k,i] = 
log(prior[i])-(1/2)*t(mu[i,])%*%solve(sigma)%*%mu[i,]
+t(condition[k,])%*%solve(sigma)%*%mu[i,]
      }
      
}

    
    for (k in 1:nrow(condition)) {
      prediction[k] = unique(y)[which.max(final[k,])] 
    }
  }
  prediction
}

2.S-折交叉验证函数编写

Stest<- function(X,y,S,judge){    
#S为折数，judge取值为“NO”或“YES”，judge=“NO”时表示数据离散，judge=“YES”时表示数据连续
  
  n = dim(X)[1]   #数据的行数
  percentage = rep(NA,S)
  
  #进行1到S的循环，总长度为n（如1,2,3,4,1,2,3,4,1,2...），并进行打乱
  CV.ID = sample(rep(1:S,length.out = n))  
  for (j in 1:S){
X.test = X[CV.ID==j,]   #相当于从被分为S份的数据中随机抽取1份作为测试数据集，循环S次
           
    y.test = y[CV.ID==j]
X.train = X[CV.ID!=j,]  #相当于从被分为S份的数据中随机抽取（S-1）份作为训练数据集，循环S次

    y.train = y[CV.ID!=j]
    
    y.hat =naive.bayes.prediction(X.train,y.train,X.test,continuous = judge,lambda = 0)     #测试数据集中y的预测值
    
    #由准确率来判断误差大小
    percentage[j] = sum(y.hat==y.test)/length(y.test)
    
  }
  
  correct = mean(percentage)                        #正确率
  error = 1-mean(percentage)                        #误判率
  plot(1:S,percentage,type="l")                     #每一次交叉验证时正确率的折线图
  list(correct = correct,error = error,percentage = percentage
}

三、检验

1.检验数据选择

本次实验使用UCI数据库中Iris数据集：

（1）该数据集的特征量有：萼片长度(Sepal.Length)、萼片宽度(Sepal.Width)、花瓣长度(Petal.Length)、花瓣宽度(Petal.Width)；

（2）类别(Species)有：鸢尾花(Iris Setosa)、鸢尾花(Iris Versicolour)、弗吉尼亚鸢尾 (Iris Virginica)；

（3）不同类别的花所对应的各特征值的数据有所不同。从中抽取部分作为测试数据集，剩下的作为训练数据集，使用贝叶斯算法计算测试数据对应的类，并与实际值进行对比。

2.使用朴素贝叶斯算法进行分类（使用交叉验证法计算每次分类准确率）

输入：

#1.离散数据
#使用chiM算法对UCI数据库的iris数据集进行离散化
library(discretization)
iris <- read.csv("F:/iris.data",header = FALSE)
colnames(iris)=c("Sepal.Length", "Sepal.Width","Petal.Length", "Petal.Width", "Species")
result<-chiM(iris,alpha=0.05)

#离散后的数据为
iris_discrete <- result$Disc.data
X = iris_discrete [,1:4]
X = as.matrix(X)
y = iris_discrete [,5]
y = as.matrix(y)

#进行5-折交叉验证
Stest(X,y,S=5,judge="NO")


#2.连续数据
#使用iris原始数据
iris_continuous <- read.csv("F:/iris.data",header = FALSE)

colnames(iris_continuous)=c("Sepal.Length", "Sepal.Width","Petal.Length", "Petal.Width", "Species")
X = iris_continuous[,1:4]
X = as.matrix(X)
y = iris_continuous[,5]
y = as.matrix(y)

#5-折交叉验证
Stest(X,y,S=5,judge="YES")

输出：

①离散数据：

$correct

[1] 0.9666667

$error

[1] 0.03333333

$percentage

[1] 1.0000000 0.9000000 0.9333333 1.0000000 1.0000000

分析：由结果可知平均预测准确率为96.67%，五次交叉验证的预测准确率都在90%以上

②连续数据：

> Stest(X,y,S=5,judge="YES")

$correct

[1] 0.8333333

$error

[1] 0.1666667

$percentage

[1] 0.7666667 0.9000000 0.8333333 0.8666667 0.8000000

分析：由结果可知平均预测准确率为83.33%，五次交叉验证的预测准确率集中在76%-90%之间。正确率较高。

四、与knn算法比较

1分析：两种算法的比较考虑实行以下步骤：

①设置相同的训练数据集X.train,y.train和测试数据集X.test,y.test

②使用朴素贝叶斯算法分类并计算正确率

③使用knn算法分类并计算正确率

④比较两者正确率大小

*注明1：在文章《数据挖掘-k近邻算法的R实现》可得已验证的knn算法代码以及交叉验证选择最佳k值的代码，在本次实验中将直接使用这两份代码。

*注明2：在文章《数据挖掘-k近邻算法的R实现》中同样使用了UCI的iris数据集，其中使用代码进行交叉验证选择出的最佳k值为5，本实验将沿用此结论。

2 代码编写

（1）使用交叉验证法选择最佳k值

#使用交叉验证法选择最佳k值
findk <- function(X,y,K.list,S=5){   #S表示交叉验证中的折数（S-折交叉验证）
  nk = length(K.list)
  n = dim(X)[1]   #数据的行数
  CV.ID = sample(rep(1:S,length.out = n))  
                          #进行1到S的循环，总长度为n（如1,2,3,4,1,2,3,4,1,2...），并进行打乱
                        
  CV.per = matrix(NA,nk,S)#交叉验证的下标
  for (i in 1:nk) {
    for (j in 1:S){
      X.test = X[CV.ID==j,] #相当于从被分为S份的数据中随机抽取1份作为测试数据集，循环S次

      y.test = y[CV.ID==j]
      X.train = X[CV.ID!=j,]#相当于从被分为S份的数据中随机抽取（S-1）份作为训练数据集，循环S次

      y.train = y[CV.ID!=j]

      y.hat =myknn(X.train, y.train, X.test,K = K.list[i], distance = 'euclidean')  
                                     #测试数据集中y的预测值
      y.test = as.numeric(y.test)
      y.hat = as.numeric(y.hat)      #将向量转化为数值型
      
      CV.per[i,j] = mean((y.test-y.hat)^2)
    }
  }
  CV.per.mean = apply(CV.per, 1, mean) #将各K值对应的交叉验证误差存储在此向量中

  plot(K.list,CV.per.mean,type="l") #绘制k值与对应误差值的函数图，可用于直观判断k值的最佳取值

  K.opt = K.list[which.min(CV.per.mean)]
  list(CV.per=CV.per, CV.per.mean=CV.per.mean, K.opt=K.opt)
}

（2）在上一篇文章中已知knn算法程序：

myknn <- function(train.data, ytrain, test.data, K=3, distance = 'euclidean'){ 
  #输入训练数据集和测试数据集数据，默认给定k值为3，默认距离函数使用欧氏距离
  testlen = nrow(test.data)   #测试数据集的行数
  trainlen = nrow(train.data) #训练数据集的行数
  
  A = rbind(test.data,train.data) #A为测试数据集和训练数据集按行合并形成的矩阵
  
  dist = dist(A,method = distance)
  testdist = as.matrix(dist)[1:testlen,(testlen+1):(testlen+trainlen)]       
  #将dist变换为矩阵形式，并取适当的行和列，使得第（i，j）元素为测试数据集第i行向量与训练数据集第j行向量的距离
  
  colnames(testdist) = c(1:trainlen)  #更改列编号为从1开始
  
  ytest = rep(NA,testlen)  #建立长度与测试数据集等长的空向量，用于存储测试数据集对应的y的预测值

  for (i in 1:testlen) {
testsorted = sort(testdist[i,],index.return = TRUE)  
                             #将距离矩阵的第i行按从小到大排列，并返回排序后对应于原序列的下标

reindex = testsorted$ix[1:K]  
                             #返回与第i行测试数据距离最近的前K个训练数据对应的原下标
    
    #接下来寻找下标对应的y值中出现频率最大的y值
    uniqve = unique(ytrain[reindex])        #去掉下标对应的y值中重复的值
    match = match(ytrain[reindex],uniqve)     

   #找出ytrain[reindex]中每个元素在uniqve中的位置
    tabulate = tabulate(match)       #记录match从1开始的数字中各数字出现的次数
    max = which.max(tabulate)         #找出tabulate中最大的数
    
    ytest[i]=uniqve[max] 
  }
  
  ytest
}

（3）编写比较函数

compare <- function(X,y,S=5){
  
  n = dim(X)[1]   #数据的行数
  percentage =matrix(NA,ncol = 2,nrow = S)
  
  #进行1到S的循环，总长度为n（如1,2,3,4,1,2,3,4,1,2...），并进行打乱
  CV.ID = sample(rep(1:S,length.out = n))  
  for (j in 1:S){
X.test = X[CV.ID==j,]  #相当于从被分为S份的数据中随机抽取1份作为测试数据集，循环S次

    y.test = y[CV.ID==j]
X.train = X[CV.ID!=j,]  #相当于从被分为S份的数据中随机抽取（S-1）份作为训练数据集，循环S次

    y.train = y[CV.ID!=j]
    
yhat_bayes = naive.bayes.prediction(X.train,y.train,
X.test,continuous = "YES")  #计算贝叶斯算法下测试数据集中y的预测值


yhat_knn = myknn(X.train,y.train,X.test,K=5,
distance = "euclidean")   #计算knn算法下测试数据集中y的预测值（已知最佳k值为5）

    
    #计算准确率
    percentage[j,1] = sum(yhat_bayes==y.test)/length(y.test)
    percentage[j,2] = sum(yhat_knn==y.test)/length(y.test)
  }
  
  correct = apply(percentage,2,mean)  #分别求每列的均值
  
par(mfrow = c(1,2))
  plot(1:S,percentage[,1],type="l",main = "朴素贝叶斯算法下分类的准确率")
  plot(1:S,percentage[,2],type="l",main = "knn算法下分类的准确率")  
  list(correct = correct,percentage = percentage)
  
}

compare(X,y,S=5)

3.输出

$correct

[1] 0.8000000 0.9666667

$percentage

[,1] [,2]

[1,] 0.7000000 0.9666667

[2,] 0.7333333 0.9666667

[3,] 0.9666667 1.0000000

[4,] 0.7666667 0.9333333

[5,] 0.8333333 0.9666667

分析：由结果得(针对连续变量iris)朴素贝叶斯算法的平均准确率为80%，knn算法的平均准确率为96.7%。在5个交叉验证中朴素贝叶斯算法分类准确率也均低于knn算法。可知knn算法预测效果较好。由图像可看出两者每一次交叉验证所使用数据集下预测值的起伏情况大致一致。

五、小结

本次实验主要编写了朴素贝叶斯算法（离散数据和连续数据）的程序，并使用了交叉验证法验证算法程序正确与否。这个过程要求我们熟练掌握朴素贝叶斯分类的基本过程。先验概率的计算较为简单（使用频率估计概率），难点在于条件概率的计算过程。我们需明确给定y下X个特征独立同分布的重要假定。在具体计算方面：对于离散情况，条件概率由各x特征值概率的乘积估计而来；而对于连续情况，则需要根据假定的给定y下X的多元概率分布密度函数来计算（本实验中假定X服从多元正态分布）,最后取使得后验概率最大的k即为所求的类别ck。同时也需及时复习先前学习的其他算法。对于同一数据，不同算法的预测准确率可能有着较大的不同，这将帮助我们选择更好的算法进行数据预测。

C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
Leetcode 148. 排序链表
文章目录前引题目代码（首刷看题解）代码（8.9二刷部分看解析）代码（9.15三刷部分看解析）前引综合性比较强的一道题，要求时间复杂度必须O(logn)才能通过，最适合链表的排序算法就是归并。这里采用自顶向下的方法步骤：找到链表中点（双指针）对两个子链表排序(递归，直到只有一个结点，记得将子链表最后指向nullptr）归并（引入dummy结点）题目Leetcode148.排序链表代码（首刷看题解）c
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
LeetCode算法题：电话号码的字母组合吱屋猪_ 算法 leetcode java
题目描述：给定一个仅包含数字2-9的字符串，返回所有它能表示的字母组合。答案可以按任意顺序返回。给出数字到字母的映射如下（与电话按键相同）。注意1不对应任何字母。2->"abc"3->"def"4->"ghi"5->"jkl"6->"mno"7->"pqrs"8->"tuv"9->"wxyz"例如，给定digits="23"，返回["ad","ae","af","bd","be","bf","cd
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求可曾去过倒悬山 java 前端架构
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求三年经验是Java程序员的分水岭，技术栈深度决定你成为“业务码农”还是“架构师候选人”。本文整合阿里、美团、滴滴等大厂招聘要求，为你绘制可落地的进阶路线。一、Java核心：从语法糖到JVM底层三年经验与初级的核心差异在于系统级理解，大厂面试常考以下能力：JVM与性能调优内存模型（堆外内存、元空间）、GC算法（G1/ZGC适用场
被动降噪的概念及编程实现 CodeByte 人工智能算法 javascript 编程
被动降噪是指通过编程技术和算法，对输入的数据进行处理，以减少或消除其中的噪声。噪声可以是各种形式的干扰，例如来自传感器、通信信号或其他外部源的干扰。在本文中，我们将探讨被动降噪的意义以及如何使用编程来实现这一目标。被动降噪的意义：噪声对数据的准确性和可靠性产生负面影响。在许多应用领域，例如图像处理、音频处理和信号处理中，噪声的存在可能导致数据质量下降，使得后续的分析和处理变得困难。因此，被动降噪技
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
反光衣识别漏检率 30%？陌讯多尺度模型实测优化
在建筑工地、交通指挥等场景中，反光衣是保障作业人员安全的重要装备，对其进行精准识别是智能监控系统的核心功能之一。但传统视觉算法在实际应用中却屡屡碰壁：强光下反光衣易与背景混淆、远距离小目标漏检率高达30%、复杂场景下模型泛化能力不足[实测数据来源：某智慧工地项目2024年Q1日志]。这些问题直接导致安全监控系统预警滞后，给安全生产埋下隐患。一、技术解析：反光衣识别的核心难点与陌讯算法创新反光衣识别
【GESP】C++三级真题 luogu-B4359 [GESP202506 三级] 分糖果 CoderCodingNo GESP c++java 开发语言
GESPC++三级，2025年6月真题，模拟算法，难度★★☆☆☆。本次三级题目个人感觉比较简单。题目题解详见：【GESP】C++三级真题luogu-B4359[GESP202506三级]分糖果|OneCoder【GESP】C++三级真题luogu-B4359[GESP202506三级]分糖果|OneCoderGESPC++三级，2025年6月真题，模拟算法，难度★★☆☆☆。本次三级题目个人感觉比较
【华为机试】HJ61 放苹果不爱熬夜的Coder 算法华为机试 golang 华为 golang 算法面试
文章目录HJ61放苹果描述输入描述输出描述示例1示例2解题思路算法分析问题本质分析状态定义与转移递推关系详解动态规划表构建算法流程图示例推导过程代码实现思路时间复杂度分析关键优化点边界情况处理递归解法对比实际应用场景测试用例分析算法特点数学原理完整题解代码HJ61放苹果描述我们需要将m个相同的苹果放入n个相同的盘子中，允许有的盘子空着不放。求解有多少种不同的分法。输入描述输入两个整数m,n(0B[
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
.NET中的安全性之数字签名、数字证书、强签名程序集、反编译 hezudao25 NET .net assembly 加密算法 reference header
本文将探讨数字签名、数字证书、强签名程序集、反编译等以及它们在.NET中的运用（一些概念并不局限于.NET在其它技术、平台中也存在）。1.数字签名数字签名又称为公钥数字签名，或者电子签章等，它借助公钥加密技术实现。数字签名技术主要涉及公钥、私钥、非对称加密算法。1.1公钥与私钥公钥是公开的钥匙，私钥则是与公钥匹配的严格保护的私有密钥；私钥加密的信息只有公钥可以解开，反之亦然。在VisualStud
数据结构：导论梁辰兴数据结构学习笔记数据结构导论算法时间复杂度空间复杂度
目录一，数据结构的研究内容二，基本概念与术语（一）数据、数据元素、数据项与数据对象（二）数据结构（三）数据类型与抽象数据类型️三，抽象数据类型的表示与实现⚙️四，算法与算法分析⚖️（一）算法的定义及特性（二）评价算法优劣的基本标准⏱️（三）算法的时间复杂度（四）算法的空间复杂度章结一，数据结构的研究内容数据结构是计算机科学的核心基础，其研究内容可概括为三大维度：数据组织形式：探索如何将现实世界中的
C++ 标准库＜numeric＞
以下对C++标准库中头文件所提供的数值算法与工具做一次系统、深入的梳理，包括算法功能、示例代码、复杂度分析及实践建议。一、概述中定义了一组对数值序列进行累加、内积、差分、扫描等操作的算法，以及部分辅助工具（如std::iota、std::gcd/std::lcm等）。所有算法均作用于迭代器区间，符合STL风格，可与任意容器或原始数组配合使用。从C++17、20起，又陆续加入了并行友好的std::r
具身语义导航算法总揽 Shilong Wang 具身导航算法算法
端到端方法小脑大脑GNMNavDPNaVILAViNTNomadNavidStreamVLNMapNavNavGPTUni-NavidOctoNavNavGPT2模仿学习行为克隆BCDAgger模块化方法GOATVLFMSayPlanLM-NavETPNavVoroNavEmbodiedRAGVL-NavStairwaytoSuccess业内大佬北大王鹤NavidUni-NavidOctoNav吴
android去除gps漂移代码,GPS漂移过滤算法扇贝君
GPS漂移过滤算法基本思想：逐点过滤，再经过基础过滤后，进行判断运动状态，静止状态和运动中。如果静止，则使用电子围栏；如果运动，则先过滤大速度，再过滤加速度，然后过滤距离(包括超大距离，和速度相关距离)。对于要过滤的点，采用之前最近的可靠点，进行替换，同时，无效次数+1，如果后面是有效点，则无效次数-1，如果无效次数归0，认为这个点才是真正可靠点(无效次数为正时，都为要被替换的点)。如果遇到不定点
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
项目开发日记
框架整理学习UIMgr：一、数据结构与算法1.1关键数据结构成员变量类型说明m_CtrlsList当前正在显示的所有UI页面m_CachesList已打开过、但现在不显示的页面（缓存池）1.2算法逻辑查找缓存页面：从m_Caches中倒序查找是否已有对应ePageType页面，找到则重用。页面加载：从资源管理器ResMgr加载prefab并绑定控制器/视图组件。页面关闭：从m_Ctrls移除，添加
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
《C++性能优化指南》 linux版代码及原理解读第一章 v俊逸 C++性能优化指南性能优化 C++性能优化性能优化
概述：目录概述：性能优化的必要性：C++代码优化策略总结用好的编译器并用好编译器使用更好的算法使用更好的库减少内存分配和复制移除计算使用更好的数据结构提高并发性优化内存管理性能优化的必要性：按照当今的CPU运行速度来说，执行一条指令所需要的时间是10的-9次方的时间单位，如此快速的执行速度是否就没有性能优化的必要了呢？其实不然，性能优化与CPU的执行速度并无非常大的关系，试想一下，一段代码，如果用
《C++性能优化指南》 linux版代码及原理解读第四章 v俊逸 C++性能优化指南性能优化 C++性能优化指南性能优化
目录概述为什么字符串很麻烦字符串是动态分配的字符串赋值背后的操作如何面对字符串会进行大量复制写时复制COW（copyonwrite）尝试优化字符串避免临时字符串通过预留存储空间减少内存分配通过传递引用减少实参复制使用迭代器操作减少循环中的比较操作减少返回值的复制还没有结束，使用字符数组代替字符串再次优化字符串尝试其他的算法叠加以前的优化方式使用其他的编译器使用其他字符串的库功能丰富的字符串库使用s
rtos内存管理林内克思 java linux 算法
FreeRTOS将内存分配API保留在其可移植层，提供了五种内存管理算法：heap_1：最简单，不允许释放内存。heap_2：允许释放内存，但不会合并相邻的空闲块。heap_3：简单包装了标准malloc()和free()，以保证线程安全。heap_4：合并相邻的空闲块以避免碎片化。包含绝对地址放置选项。heap_5：如同heap_4，能够跨越多个不相邻内存区域的堆。特点缺点heap_1简单、不支
c++中迭代器的本质三月微风 c++开发语言
C++迭代器的本质与实现原理迭代器是C++标准模板库(STL)的核心组件之一，它作为容器与算法之间的桥梁，提供了统一访问容器元素的方式。下面从多个维度深入解析迭代器的本质特性。一、迭代器的基本定义与分类迭代器的本质迭代器是一种行为类似指针的对象，用于遍历和操作容器中的元素。它提供了一种统一的方式来访问不同容器中的元素，而无需关心容器的具体实现细节。标准分类体系C++标准定义了5种迭代器类型，按功能
Java开发中，spring mvc 的线程怎么调用？小麦麦子 spring mvc
今天逛知乎，看到最近很多人都在问spring mvc 的线程http://www.maiziedu.com/course/java/ 的启动问题，觉得挺有意思的，那哥们儿问的也听仔细，下面的回答也很详尽，分享出来，希望遇对遇到类似问题的Java开发程序猿有所帮助。问题：在用spring mvc架构的网站上，设一线程在虚拟机启动时运行，线程里有一全局
maven依赖范围 bitcarter maven
1.test 测试的时候才会依赖，编译和打包不依赖，如junit不被打包 2.compile 只有编译和打包时才会依赖 3.provided 编译和测试的时候依赖，打包不依赖，如：tomcat的一些公用jar包 4.runtime 运行时依赖，编译不依赖 5.默认compile 依赖范围compile是支持传递的，test不支持传递 1.传递的意思是项目A，引用
Jaxb org.xml.sax.saxparseexception : premature end of file darrenzhu xml premature JAXB
如果在使用JAXB把xml文件unmarshal成vo(XSD自动生成的vo)时碰到如下错误： org.xml.sax.saxparseexception : premature end of file 很有可能时你直接读取文件为inputstream，然后将inputstream作为构建unmarshal需要的source参数。InputSource inputSource = new In
CSS Specificity 周凡杨 html 权重 Specificity css
有时候对于页面元素设置了样式，可为什么页面的显示没有匹配上呢？ because specificity CSS 的选择符是有权重的，当不同的选择符的样式设置有冲突时，浏览器会采用权重高的选择符设置的样式。规则： HTML标签的权重是1 Class 的权重是10 Id 的权重是100
java与servlet g21121 servlet
servlet 搞java web开发的人一定不会陌生，而且大家还会时常用到它。下面是java官方网站上对servlet的介绍： java官网对于servlet的解释写道 Java Servlet Technology Overview Servlets are the Java platform technology of choice for extending and enha
eclipse中安装maven插件 510888780 eclipse maven
1.首先去官网下载 Maven： http://www.apache.org/dyn/closer.cgi/maven/binaries/apache-maven-3.2.3-bin.tar.gz 下载完成之后将其解压，我将解压后的文件夹：apache-maven-3.2.3，并将它放在 D:\tools目录下，即 maven 最终的路径是：D:\tools\apache-mave
jpa@OneToOne关联关系布衣凌宇 jpa
Nruser里的pruserid关联到Pruser的主键id，实现对一个表的增删改，另一个表的数据随之增删改。 Nruser实体类 //***************************************************************** @Entity @Table(name="nruser") @DynamicInsert @Dynam
我的spring学习笔记11-Spring中关于声明式事务的配置 aijuans spring 事务配置
这两天学到事务管理这一块，结合到之前的terasoluna框架，觉得书本上讲的还是简单阿。我就把我从书本上学到的再结合实际的项目以及网上看到的一些内容，对声明式事务管理做个整理吧。我看得Spring in Action第二版中只提到了用TransactionProxyFactoryBean和<tx:advice/>,定义注释驱动这三种，我承认后两种的内容很好，很强大。但是实际的项目当中
java 动态代理简单实现 antlove java handler proxy dynamic service
dynamicproxy.service.HelloService package dynamicproxy.service; public interface HelloService { public void sayHello(); } dynamicproxy.service.impl.HelloServiceImpl package dynamicp
JDBC连接数据库百合不是茶 JDBC编程 JAVA操作oracle数据库
如果我们要想连接oracle公司的数据库，就要首先下载oralce公司的驱动程序，将这个驱动程序的jar包导入到我们工程中; JDBC链接数据库的代码和固定写法; 1,加载oracle数据库的驱动; &nb
单例模式中的多线程分析 bijian1013 java thread 多线程 java多线程
谈到单例模式，我们立马会想到饿汉式和懒汉式加载，所谓饿汉式就是在创建类时就创建好了实例，懒汉式在获取实例时才去创建实例，即延迟加载。饿汉式： package com.bijian.study; public class Singleton { private Singleton() { } // 注意这是private 只供内部调用 private static
javascript读取和修改原型特别需要注意原型的读写不具有对等性 bijian1013 JavaScript prototype
对于从原型对象继承而来的成员，其读和写具有内在的不对等性。比如有一个对象A，假设它的原型对象是B，B的原型对象是null。如果我们需要读取A对象的name属性值，那么JS会优先在A中查找，如果找到了name属性那么就返回；如果A中没有name属性，那么就到原型B中查找name，如果找到了就返回；如果原型B中也没有
【持久化框架MyBatis3六】MyBatis3集成第三方DataSource bit1129 dataSource
MyBatis内置了数据源的支持，如： <environments default="development"> <environment id="development"> <transactionManager type="JDBC" /> <data
我程序中用到的urldecode和base64decode,MD5 bitcarter c MD5 base64decode urldecode
这里是base64decode和urldecode，Md5在附件中。因为我是在后台所以需要解码： string Base64Decode(const char* Data,int DataByte,int& OutByte) { //解码表 const char DecodeTable[] = { 0, 0, 0, 0, 0, 0
腾讯资深运维专家周小军：QQ与微信架构的惊天秘密 ronin47
社交领域一直是互联网创业的大热门，从PC到移动端，从OICQ、MSN到QQ。到了移动互联网时代，社交领域应用开始彻底爆发，直奔黄金期。腾讯在过去几年里，社交平台更是火到爆，QQ和微信坐拥几亿的粉丝，QQ空间和朋友圈各种刷屏，写心得，晒照片，秀视频，那么谁来为企鹅保驾护航呢？支撑QQ和微信海量数据背后的架构又有哪些惊天内幕呢？本期大讲堂的内容来自今年2月份ChinaUnix对腾讯社交网络运营服务中心
java-69-旋转数组的最小元素。把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素 bylijinnan java
public class MinOfShiftedArray { /** * Q69 旋转数组的最小元素 * 把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素。 * 例如数组{3, 4, 5, 1, 2}为{1, 2, 3, 4, 5}的一个旋转，该数组的最小值为1。 */ publ
看博客，应该是有方向的 Cb123456 反省看博客
看博客，应该是有方向的: 我现在就复习以前的，在补补以前不会的，现在还不会的，同时完善完善项目，也看看别人的博客. 我刚突然想到的: 1.应该看计算机组成原理，数据结构，一些算法，还有关于android,java的。 2.对于我，也快大四了，看一些职业规划的，以及一些学习的经验，看看别人的工作总结的. 为什么要写
[开源与商业]做开源项目的人生活上一定要朴素,尽量减少对官方和商业体系的依赖 comsci 开源项目
为什么这样说呢？因为科学和技术的发展有时候需要一个平缓和长期的积累过程，但是行政和商业体系本身充满各种不稳定性和不确定性，如果你希望长期从事某个科研项目，但是却又必须依赖于某种行政和商业体系，那其中的过程必定充满各种风险。。。所以，为避免这种不确定性风险，我
一个 sql优化（[精华] 一个查询优化的分析调整全过程！很值得一看） cwqcwqmax9 sql
见 http://www.itpub.net/forum.php?mod=viewthread&tid=239011 Web翻页优化实例提交时间: 2004-6-18 15:37:49 回复发消息环境： Linux ve
Hibernat and Ibatis dashuaifu Hibernate ibatis
Hibernate VS iBATIS 简介 Hibernate 是当前最流行的O/R mapping框架，当前版本是3.05。它出身于sf.net，现在已经成为Jboss的一部分了 iBATIS 是另外一种优秀的O/R mapping框架，当前版本是2.0。目前属于apache的一个子项目了。相对Hibernate“O/R”而言，iBATIS 是一种“Sql Mappi
备份MYSQL脚本 dcj3sjt126com mysql
#!/bin/sh # this shell to backup mysql #[email protected] (QQ:1413161683 DuChengJiu) _dbDir=/var/lib/mysql/ _today=`date +%w` _bakDir=/usr/backup/$_today [ ! -d $_bakDir ] && mkdir -p
iOS第三方开源库的吐槽和备忘 dcj3sjt126com ios
转自 ibireme的博客做iOS开发总会接触到一些第三方库，这里整理一下，做一些吐槽。目前比较活跃的社区仍旧是Github，除此以外也有一些不错的库散落在Google Code、SourceForge等地方。由于Github社区太过主流，这里主要介绍一下Github里面流行的iOS库。首先整理了一份 Github上排名靠
html wlwmanifest.xml eoems html xml
所谓优化wp_head()就是把从wp_head中移除不需要元素，同时也可以加快速度。步骤：加入到function.php remove_action('wp_head', 'wp_generator'); //wp-generator移除wordpress的版本号，本身blog的版本号没什么意义，但是如果让恶意玩家看到，可能会用官网公布的漏洞攻击blog remov
浅谈Java定时器发展 hacksin java 并发 timer 定时器
java在jdk1.3中推出了定时器类Timer,而后在jdk1.5后由Dou Lea从新开发出了支持多线程的ScheduleThreadPoolExecutor，从后者的表现来看，可以考虑完全替代Timer了。 Timer与ScheduleThreadPoolExecutor对比： 1. Timer始于jdk1.3,其原理是利用一个TimerTask数组当作队列
移动端页面侧边导航滑入效果 ini jquery Web html5 css javascirpt
效果体验：http://hovertree.com/texiao/mobile/2.htm可以使用移动设备浏览器查看效果。效果使用到jquery-2.1.4.min.js，该版本的jQuery库是用于支持HTML5的浏览器上，不再兼容IE8以前的浏览器，现在移动端浏览器一般都支持HTML5，所以使用该jQuery没问题。HTML文件代码： <!DOCTYPE html> <h
AspectJ+Javasist记录日志 kane_xie aspectj javasist
在项目中碰到这样一个需求，对一个服务类的每一个方法，在方法开始和结束的时候分别记录一条日志，内容包括方法名，参数名+参数值以及方法执行的时间。 @Override public String get(String key) { // long start = System.currentTimeMillis(); // System.out.println("Be
redis学习笔记 MJC410621 redis NoSQL
1)nosql数据库主要由以下特点：非关系型的、分布式的、开源的、水平可扩展的。 1，处理超大量的数据 2，运行在便宜的PC服务器集群上， 3，击碎了性能瓶颈。 1)对数据高并发读写。 2)对海量数据的高效率存储和访问。 3)对数据的高扩展性和高可用性。 redis支持的类型： Sring 类型 set name lijie get name lijie set na
使用redis实现分布式锁 qifeifei
在多节点的系统中，如何实现分布式锁机制，其中用redis来实现是很好的方法之一，我们先来看一下jedis包中，有个类名BinaryJedis,它有个方法如下： public Long setnx(final byte[] key, final byte[] value) { checkIsInMulti(); client.setnx(key, value); ret
BI并非万能，中层业务管理报表要另辟蹊径张老师的菜大数据 BI 商业智能信息化
BI是商业智能的缩写，是可以帮助企业做出明智的业务经营决策的工具，其数据来源于各个业务系统，如ERP、CRM、SCM、进销存、HER、OA等。 BI系统不同于传统的管理信息系统，他号称是一个整体应用的解决方案，是融入管理思想的强大系统：有着系统整体的设计思想，支持对所有
安装rvm后出现rvm not a function 或者ruby -v后提示没安装ruby的问题 wudixiaotie function
1.在~/.bashrc最后加入 [[ -s "$HOME/.rvm/scripts/rvm" ]] && source "$HOME/.rvm/scripts/rvm" 2.重新启动terminal输入： rvm use ruby-2.2.1 --default 把当前安装的ruby版本设为默

数据挖掘-朴素贝叶斯算法的R实现

一、实验要求：

二、代码实现（R语言）

1.使用朴素贝叶斯算法计算预测值

2.S-折交叉验证函数编写

三、检验

1.检验数据选择

2.使用朴素贝叶斯算法进行分类（使用交叉验证法计算每次分类准确率）

输入：

输出：

四、与knn算法比较

1分析：两种算法的比较考虑实行以下步骤：

2 代码编写

（1）使用交叉验证法选择最佳k值

（2）在上一篇文章中已知knn算法程序：

（3）编写比较函数

3.输出

五、小结

你可能感兴趣的:(数据挖掘,数据挖掘,算法,r语言,近邻算法,机器学习)