古月哥欠666

朴素贝叶斯——机器学习总结

朴素贝叶斯

基础知识
- 概念
- 优缺点
- 一般过程
利用python进行文本分类
- 准备数据
- 训练算法
- 测试算法
示例1：使用朴素贝叶斯过滤垃圾邮件
- 一般步骤
- 准备数据：切分文本
- 测试算法：使用朴素贝叶斯进行交叉验证
示例2：使用朴素贝叶斯分类器从个人广告中获取区域倾向
- 一般步骤
- 收集数据：导入RSS源
- RSS源分类器及高频词去除函数
- 分析数据：显示地域相关的用词

基础知识

概念

从简单的概率分类器开始，给出一些假设（条件独立性）学习朴素贝叶斯分类器。“朴素“意味最原始、最简单的假设。

优缺点

优点：在数据较少的情况下仍然有效，可以处理多类别问题。
缺点：对输入数据的准备方式（数据的关联性）比较敏感。
适用数据类型：标称型数据

注：标称型：一般在有限的数据中取，而且只存在‘是’和‘否’两种不同的结果（一般用于分类）数值型：可以在无限的数据中取，而且数值比较具体化，例如4.02,6.23这种值（一般用于回归分析）
朴素贝叶斯是贝叶斯决策理论的一部分，决策理论的核心思想是选择具有最高概率的决策。

一般过程

朴素贝叶斯的一般过程
收集数据：可以使用任何方法。本章使用RSS源。
准备数据：需要数值型或者布尔型数据。
分析数据：有大量特征时，绘制特征作用不大，此时使用直方图效果更好。
训练算法：计算不同的独立特征的条件概率。
测试算法：计算错误率。
使用算法：一个常见的朴素贝叶斯应用是文档分类。可以在任意的分类场景中使用朴素贝叶斯分类器，不一定非要是文本。

注：朴素贝叶斯分类器通常有两种实现方式：一种基于贝努利模型实现，一种基于多项式模型实现。这里采用前一种，该实现方式中并不考虑词在文档中出现的次数，只考虑出不出现，因此在这个意义上相当于假设词是等权重的

利用python进行文本分类

准备数据

制作数据集和标签，这里为了简化减少了数据量，可以添加

#定义数据集
def loadDataSet():
    postingList=[['quit', 'buying', 'worthless', 'dog', 'food', 'stupid'],
                 ['my', 'dog', 'has', 'flea', 'problems', 'help','please']]
    classVec=[1,0]
    return postingList,classVec

数据集文档中包含重复词条，利用set集合返回一个不重复的词表，首先创建一个空集合，遍历文档集合进行与运算添加到新集合里

#利用set集合创建不重复的列表
def createVocabList(dataSet):
    vocabSet= set([])
    for document in dataSet:
        vocabSet=vocabSet|set(document)
    return list(vocabSet)

该函数输入参数为词汇表及某个文档，输出的是文档向量，向量每一元素为1或哦，分别表示词汇表中的单词在输入文档中是否。首先一个和词汇表等长的0向量，遍历新文档单词，若词汇表含有该单词，对应索引处设值为1

#给inputdata，转换为文档类别向量
def set0fWord2Vec(vocabList,inputSet):
    returnVec=[0]*len(vocabList)
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)]=1
        else: print("the word:%d is not in my Vocabularay!"%word)
    return returnVec

这里我新建一个主函数main（）来运行演示结果

import bayes_copy
list0Posts,listClasses=bayes_copy.loadDataSet()
myVocabList=bayes_copy.createVocabList(list0Posts)
print(myVocabList)
a=bayes_copy.set0fWord2Vec(myVocabList,list0Posts[0])
print(a)

输出结果为

['help', 'food', 'problems', 'quit', 'my', 'stupid', 'dog', 'buying', 'please', 'has', 'flea', 'worthless']
[0, 1, 0, 1, 0, 1, 1, 1, 0, 0, 0, 1]

由于词表没有排序，myVocabList为乱序，所以最终输出结果也为乱序

训练算法

这里是对贝叶斯算法的分析
该函数的伪代码如下：
计算每个类别中的文档数目
对每篇训练文档：
对每个类别：
如果词条出现文档中一增加该词条的计数值
增加所有词条的计数值
对每个类别：
对每个词条：
将该词条的数目除以总词条数目得到条件概率
返回每个类别的条件概率

def trainNB0(trainMatrix, trainCategory):
	"""
	Function：	朴素贝叶斯分类器训练函数

	Args：		trainMatrix：文档矩阵
				trainCategory：类别标签向量

	Returns：	p0Vect：非侮辱性词汇概率向量
				p1Vect：侮辱性词汇概率向量
				pAbusive：侮辱性文档概率
	"""
	#获得训练集中文档个数
	numTrainDocs = len(trainMatrix)
	#获得训练集中单词个数
	numWords = len(trainMatrix[0])
	#计算文档属于侮辱性文档的概率
	pAbusive = sum(trainCategory)/float(numTrainDocs)
	#初始化概率的分子变量，分母变量
	#p0Num = zeros(numWords); p1Num = zeros(numWords)
	#p0Denom = 0.0; p1Denom = 0.0
	#为了避免概率为0的出现影响最终结果，将所有词初始化为1，分母初始化为2
	#初始化概率的分子变量，分母变量
	p0Num = ones(numWords); p1Num = ones(numWords)
	p0Denom = 2.0; p1Denom = 2.0
	#遍历训练集trainMatrix中所有文档
	for i in range(numTrainDocs):
		#如果侮辱性词汇出现，则侮辱词汇计数加一，且文档的总词数加一
		if trainCategory[i] ==1:
			p1Num += trainMatrix[i]
			p1Denom += sum(trainMatrix[i])
		#如果非侮辱性词汇出现，则非侮辱词汇计数加一，且文档的总词数加一
		else:
			p0Num += trainMatrix[i]
			p0Denom += sum(trainMatrix[i])
	#对每个元素做除法求概率
	p1Vect = p1Num/p1Denom
	p0Vect = p0Num/p0Denom
	#对每个元素做除法求概率，为了避免下溢出的影响，对计算结果取自然对数
	p1Vect = log(p1Num/p1Denom)
	p0Vect = log(p0Num/p0Denom)
	#返回两个类别概率向量和一个概率
	return p0Vect, p1Vect, pAbusive

最终得到的类别概率向量为p(wi|c1)和p(wi|c0)，w中的元素比较多利用Numpy数组快速计算。p1Num += trainMatrix[i]相当于trainMatrix[i]代表词汇表在某一文档中出现时将0改为1的向量

trainMat=[]
for postinDoc in list0Posts:
    trainMat.append(bayes_copy.set0fWord2Vec(myVocabList,postinDoc))

这段很巧妙，搞了半天才看懂，trainMat的输出结果为[[0, 0, 0, 1, 1, 0, 1, 1, 0, 1, 0, 1], [1, 1, 1, 0, 0, 1, 1, 0, 1, 0, 1, 0]]这与p0V和p1V结果不一样，前者是全部词汇量myVocabList相对于list0Posts中每个postinDoc的变化，而后者是类别确定情况下啊，myVocabList中各元素出现该类别的概率。

测试算法

前言：利用贝叶斯分类器对文档进行分类时，要计算多个概率的乘积以获得文档属千某个类别的概率，即计算p(w0|1)p (w1 |1)p(w2 |1)。如果其中某个概率值为0, 那么最后的乘积也为0。为降低这种影响，可以将所有词的出现数初始化为1, 并将分母初始化为2。
在文本编辑器中打开bayes.py文件，并将trainNB0(）的第4行和第5行修改为：

pONum = ones(numWords); plNum = ones(numWords) 
pODenom = 2.0; plDenom = 2.0

另一个问题是当遇到多个概率值很小相乘时出现下溢出或者由于浮点数舍入导致的错误，可以利用对数进行解决。

plVect＝log(plNum/plDenom) 
pOVect = log(pONum/pODenom)

def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
	#向量元素相乘后求和再加到类别的对数概率上，等价于概率相乘
	p1 = sum(vec2Classify * p1Vec) + log(pClass1)
	p0 = sum(vec2Classify * p0Vec) + log(1.0 - pClass1)
	if p1 > p0:
		return 1
	else:
		return 0

上面的函数即为分类测试代码，vec2Classify为要分类的向量

import bayes_copy
from numpy import *
from bayes_copy import set0fWord2Vec,classifyNB
#创建词汇表
list0Posts,listClasses=bayes_copy.loadDataSet()
myVocabList=bayes_copy.createVocabList(list0Posts)
#训练部分
trainMat=[]
for postinDoc in list0Posts:
    trainMat.append(bayes_copy.set0fWord2Vec(myVocabList,postinDoc))
p0V,p1V,pAb=bayes_copy.trainNB0(trainMat,listClasses)
#测试部分
testEntry=['love','my','dalmation']
thisDoc=array(set0fWord2Vec(myVocabList,testEntry))
print(testEntry,'classifid as:',classifyNB(thisDoc,p0V,p1V,pAb))

上面为测试代码，输出结果如下：

the word:love is not in my Vocabularay!
the word:dalmation is not in my Vocabularay!
['love', 'my', 'dalmation'] classifid as: 0

示例1：使用朴素贝叶斯过滤垃圾邮件

前言：
set-of-words model(词集模型)一个词在文档中只出现过一次
bag-of-words model(词袋模型)一个词在文档中出现过多次

将returnVec[vocabList.index(word)]=1
改为returnVec[vocabList.index(word)]+=1

一般步骤

(1) 收集数据：提供文本文件。
(2) 准备数据：将文本文件解析成词条向量。
(3) 分析数据：检查词条确保解析的正确性。
(4) 训练算法：使用我们之前建立的trainNB0( ）函数。
(5) 测试算法：使用classifyNB(），并且构建一个新的测试函数来计算文档集的错误
(6) 使用算法：构建一个完整的程序对一组文档进行分类，将错分的文档输出到屏幕上

准备数据：切分文本

通过string.split()进行切分文档为词向量

def textParse(bigString):
    import re
    #使用re去除除单词数字意外单位任何字符
    listofTokens=re.split(r'\W*',bigString)
    #将单词全部改为小写，且去除空格
    return [tok.lower() for tok in listofTokens if len(tok)>2]

测试算法：使用朴素贝叶斯进行交叉验证

这里主要是增加了对数据的处理，以及对训练集与测试集的构建

def spamTest():
	"""
	Function：	贝叶斯垃圾邮件分类器

	Args：		无

	Returns：	float(errorCount)/len(testSet)：错误率
				vocabList：词汇表
				fullText：文档中全部单词
	"""
	#初始化数据列表
	docList = []; classList = []; fullText = []
	#导入文本文件
	for i in range(1, 26):
		#切分文本
		wordList = textParse(open('D:\Program Files\JetBrains\PycharmProjects\deeplearning\ML-master\ML-master\Ch04\email/spam/%d.txt' % i).read())
		#切分后的文本以原始列表形式加入文档列表
		docList.append(wordList)
		#切分后的文本直接合并到词汇列表
		fullText.extend(wordList)
		#标签列表更新
		classList.append(1)
		#切分文本
		#print('i = :', i)
		wordList = textParse(open('D:\Program Files\JetBrains\PycharmProjects\deeplearning\ML-master\ML-master\Ch04\email/ham/%d.txt' % i).read())
		#切分后的文本以原始列表形式加入文档列表
		docList.append(wordList)
		#切分后的文本直接合并到词汇列表
		fullText.extend(wordList)
		#标签列表更新
		classList.append(0)

	#创建一个包含所有文档中出现的不重复词的列表
	vocabList = createVocabList(docList)

	#初始化训练集和测试集列表
	trainingSet = list(range(50)); testSet = []
	#随机构建测试集，随机选取十个样本作为测试样本，并从训练样本中剔除
	for i in range(10):
		#随机得到Index
		randIndex = int(random.uniform(0, len(trainingSet)))
		#将该样本加入测试集中
		testSet.append(trainingSet[randIndex])
		#同时将该样本从训练集中剔除
		del(trainingSet[randIndex])
	#初始化训练集数据列表和标签列表
	trainMat = []; trainClasses = []
	#遍历训练集
	for docIndex in trainingSet:
		#词表转换到向量，并加入到训练数据列表中
		trainMat.append(bag0fWords2VecMN(vocabList, docList[docIndex]))
		#相应的标签也加入训练标签列表中
		trainClasses.append(classList[docIndex])
	#朴素贝叶斯分类器训练函数
	p0V, p1V, pSpam = trainNB0(array(trainMat), array(trainClasses))
	#初始化错误计数
	errorCount = 0
	#遍历测试集进行测试
	for docIndex in testSet:
		#词表转换到向量
		wordVector = bag0fWords2VecMN(vocabList, docList[docIndex])
		#判断分类结果与原标签是否一致
		if classifyNB(array(wordVector), p0V, p1V, pSpam) != classList[docIndex]:
			#如果不一致则错误计数加1
			errorCount += 1
			#并且输出出错的文档
			print("classification error",docList[docIndex])
	#打印输出信息
	print('the erroe rate is: ', float(errorCount)/len(testSet))
	#返回词汇表和全部单词列表
	return docList,vocabList, fullText

总结：根据邮件进行正则化处理得到数据集，对数据集进行拆分得到训练集和测试集，然后进行遍历训练得到类别概率，最后进行分类，计算错误率，由于是随机选取电子邮件测试，所以每次错误率会不一样。

示例2：使用朴素贝叶斯分类器从个人广告中获取区域倾向

在这个最后的例子当中，我们将分别从美国的两个城市中选取一些人，通过分析这些人发布的征婚广告信息，来比较这两个城市的人们在广告用词上是否不同。如果结论确实是不同，那么他们各自常用的词是哪些？从人们的用词当中，我们能否对不同城市的人所关心的内容有所了解？

一般步骤

(1) 收集数据：从RSS源收集内容，这里需要对RSS源构建一个接口。
(2) 准备数据：将文本文件解析成词条向量。
(3) 分析数据：检查词条确保解析的正确性。
(4) 训练算法：使用我们之前建立的trainNB0( ）函数。
(5) 测试算法：观察错误率，确保分类器可用。可以修改切分程序，以降低错误率，提高分类结果。
(6) 使用算法：构建一个完整的程序，封装所有内容。给定两个RSS源，该程序会显示最常用的公共词。

收集数据：导入RSS源

import feedparser
ny=feedparser.parse ('http://newyork.craigslist.org/stp/index.rss')
sf=feedparser.parse ('http://sfbay.craigslist.org/stp/index.rss ')

RSS源要在函数外导入，这样做的原因是RSS源会随时间而改变。如果想通过改变代码来比较程序执行的差异，就应该使用相同的输
入。重新加载RSS源就会得到新的数据，但很难确定是代码原因还是输入原因导致输出结果的改变。

RSS源分类器及高频词去除函数

def calcMostFreq(vocabList, fullText):
	"""
	Function：	计算出现频率

	Args：		vocabList：词汇表
				fullText：全部词汇

	Returns：	sortedFreq[:30]：出现频率最高的30个词
	"""
	import operator
	freqDict = {}
	for token in vocabList:
		freqDict[token] = fullText.count(token)
	sortedFreq = sorted(freqDict.items(), key=operator.itemgetter(1), reverse=True)
	return sortedFreq[:30]

def localWords(feed1, feed0):
	"""
	Function：	RSS源分类器

	Args：		feed1：RSS源
				feed0：RSS源

	Returns：	vocabList：词汇表
				p0V：类别概率向量
				p1V：类别概率向量
	"""
	import feedparser
	#初始化数据列表
	docList = []; classList = []; fullText = []
	minLen = min(len(feed1['entries']), len(feed0['entries']))
	#导入文本文件
	for i in range(minLen):
		#切分文本
		wordList = textParse(feed1['entries'][i]['summary'])
		#切分后的文本以原始列表形式加入文档列表
		docList.append(wordList)
		#切分后的文本直接合并到词汇列表
		fullText.extend(wordList)
		#标签列表更新
		classList.append(1)
		#切分文本
		wordList = textParse(feed0['entries'][i]['summary'])
		#切分后的文本以原始列表形式加入文档列表
		docList.append(wordList)
		#切分后的文本直接合并到词汇列表
		fullText.extend(wordList)
		#标签列表更新
		classList.append(0)
	#获得词汇表
	vocabList = createVocabList(docList)
	#获得30个频率最高的词汇
	top30Words = calcMostFreq(vocabList, fullText)
	#去掉出现次数最高的那些词
	for pairW in top30Words:
		if pairW[0] in vocabList: vocabList.remove(pairW[0])
	trainingSet = list(range(2*minLen)); testSet = []
	#随机构建测试集，随机选取二十个样本作为测试样本，并从训练样本中剔除
	for i in range(20):
		#随机得到Index
		randIndex = int(random.uniform(0, len(trainingSet)))
		#将该样本加入测试集中
		testSet.append(trainingSet[randIndex])
		#同时将该样本从训练集中剔除
		del(trainingSet[randIndex])
	#初始化训练集数据列表和标签列表
	trainMat = []; trainClasses = []
	#遍历训练集
	for docIndex in trainingSet:
		#词表转换到向量，并加入到训练数据列表中
		trainMat.append(bagOfWords2VecMN(vocabList, docList[docIndex]))
		#相应的标签也加入训练标签列表中
		trainClasses.append(classList[docIndex])
	#朴素贝叶斯分类器训练函数
	p0V, p1V, pSpam = trainNB0(array(trainMat), array(trainClasses))
	#初始化错误计数
	errorCount = 0
	#遍历测试集进行测试
	for docIndex in testSet:
		#词表转换到向量
		wordVector = bagOfWords2VecMN(vocabList, docList[docIndex])
		#判断分类结果与原标签是否一致
		if classifyNB(array(wordVector), p0V, p1V, pSpam) != classList[docIndex]:
			#如果不一致则错误计数加1
			errorCount += 1
	#打印输出信息
	print('the erroe rate is: ', float(errorCount)/len(testSet))
	#返回词汇表和两个类别概率向量
	return vocabList, p0V, p1V

难点解析：freqDict.items()将freqDict字典分解为元组列表，operator.itemgetter(1)按照第二个元素的次序对元组进行排序，reverse=True是逆序，即按照从大到小的顺序排列。第一个函数遍历词汇表中的每个词并统计它在文本中出现的次数，然后根据出现次数从高到低对词典进行排序。

分析数据：显示地域相关的用词

def getTopWords(ny, sf):
	"""
	Function：	最具表征性的词汇显示函数

	Args：		ny：RSS源
				sf：RSS源

	Returns：	打印信息
	"""
	import operator
	#RSS源分类器返回概率
	vocabList, p0V, p1V=localWords(ny, sf)
	#初始化列表
	topNY = []; topSF = []
	#设定阈值，返回大于阈值的所有词，如果输出信息太多就提高阈值
	for i in range(len(p0V)):
		if p0V[i] > -4.5 : topSF.append((vocabList[i], p0V[i]))
		if p1V[i] > -4.5 : topNY.append((vocabList[i], p1V[i]))
	#排序
	sortedSF = sorted(topSF, key=lambda pair: pair[1], reverse=True)
	print("SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**")
	#打印
	for item in sortedSF:
		print(item[0])
	#排序
	sortedNY = sorted(topNY, key=lambda pair: pair[1], reverse=True)
	print("NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**")
	#打印
	for item in sortedNY:
		print(item[0])

函数getTopWords(）使用两个RSS源作为输入，然后训练并测试朴素贝叶斯分类器，返回使用的概率值。然后创建两个列表用于元组的存储。与之前返回排名最高的X个单词不同，这里可以返回大于某个阀值的所有词。这些元组会按照它们的条件概率进行排序。

PX4飞控之位置控制（1）整体架构 Felix_ZL px4飞控 PX4 位置控制架构
位置控制是无人机飞控的核心算法之一，一方面根据commander中的flag标志位和Navigator中提供的航点信息进行控制（自主模式下），另一方面得到期望姿态角（setpoint）的四元数信息，给到姿态控制模块进行姿态控制。本文重点PX4飞控的位置控制的代码整体架构（mc_pos_control）,具体的控制算法将在后续文章中陆续奉上。位置控制模块的主函数：task_main()1.订阅结构体
C++徒手造国密SM算法！码农の头发消失术实录 skyksksksksks C++个人杂记物联网国密算法国密算法密码学 c++开发语言
【开场暴击：程序员的修仙之路】各位在秃头边缘疯狂试探的代码战士！今天我们要挑战史诗级成就——用纯C++手搓国家密码管理局钦定的SM2/SM3/SM4算法！没有现成库！没有外挂！只有头铁和即将离你而去的头发！(ง•̀_•́)ง【SM2加密：和椭圆曲线谈恋爱の玄学】这玩意儿就像追女神——你永远猜不透她的心思！来看加密の奥义三连：SM2加密vs追妹子对比表行为SM2加密流程追妹子流程第一步生成随机数k制
C++ 用ECC算法 Curve为EC_NIST_FP_521写个示例签名和验签。PCI认证小黄人软件经验分享 ssl 学习
以下是一个使用OpenSSL实现ECC(椭圆曲线密码)签名和验签的C++示例，曲线使用secp521r1（即NISTP-521）。这个程序：生成NISTP-521曲线的EC密钥。使用SHA-512进行哈希并签名数据。验证签名的正确性。编译：g++-oecc_signecc_sign.cpp-lssl-lcrypto运行：./ecc_sign你可以试试看，看看签名和验签是否成功！
计算机视觉总结 Trank-Lw 计算机视觉深度学习人工智能
以下是针对上述问题的详细解答，并结合代码示例进行说明：1.改进YOLOv5人脸检测模块，复杂光照场景准确率从98.2%提升至99.5%优化具体过程：光照补偿：在数据预处理阶段，采用自适应光照补偿算法，对图像进行实时增强，以减少光照变化对人脸检测的影响。数据增强：在训练数据中增加复杂光照场景下的样本，如强光、弱光、背光等，通过数据增强提高模型对不同光照条件的适应性。模型调整：对YOLOv5模型的网络
每日一题一一Leetcode128. 最长连续序列 - 力扣 Blue.ztl 写写算法 leetcode 算法数据结构
每日一题一一Leetcode128.最长连续序列-力扣作者：blue时间：2025.3.14128.最长连续序列-力扣（LeetCode）本题的要求是：给定一个未排序的整数数组nums，找出其中数字连续的最长序列（不要求序列元素在原数组中连续）的长度。本题用排序加遍历的方法非常容易解决，但是算法的效率太低。本题正真的解题思路如下，首先，数组中是有可能出现重复的数字，但是重复的数字其实并不影响我们找
DeepSeek关键RL算法GRPO，有人从头跑通了，贡献完整代码强化学习曾小健2 大语言模型LLM 算法
DeepSeek关键RL算法GRPO，有人从头跑通了，贡献完整代码机器之心2025年03月02日11:54北京选自GitHub作者：AndriyBurkov机器之心编译GRPO（GroupRelativePolicyOptimization）是DeepSeek-R1成功的基础技术之一，我们之前也多次报道过该技术，比如《DeepSeek用的GRPO占用大量内存？有人给出了些破解方法》。简单来说，GR
深度学习 Deep Learning 第8章深度学习优化 odoo中国 AI编程人工智能深度学习人工智能优化
深度学习第8章深度学习的优化章节概述本章深入探讨了深度学习中的优化技术，旨在解决模型训练过程中面临的各种挑战。优化是深度学习的核心环节，直接关系到模型的训练效率和最终性能。本章首先介绍了优化在深度学习中的特殊性，然后详细讨论了多种优化算法，包括随机梯度下降（SGD）、动量法、Nesterov动量法、AdaGrad、RMSProp和Adam等。此外，还探讨了参数初始化策略、自适应学习率方法以及二阶优
DAY33 贪心算法Ⅱ Useee 贪心算法算法
122.买卖股票的最佳时机II-力扣（LeetCode）想到把整体利润分解为每天的利润，就豁然开朗了。classSolution{public:intmaxProfit(vector&prices){intresult=0;for(inti=1;i&nums){intcover=0;if(nums.size()==1)returntrue;for(inti=0;i=nums.size()-1)re
众数(masses)（c++）羊蜜不是羊 c++算法数据结构
题目描述由文件给出N个1到30000间无序数正整数，其中1≤N≤10000，同一个正整数可能会出现多次，出现次数最多的整数称为众数。求出它的众数及它出现的次数。输入描述输入文件第一行是正整数的个数N，第二行开始为N个正整数。输出描述输出文件有若干行，每行两个数，第1个是众数，第2个是众数出现的次数。（两个数之间由一个空格间隔，行末无多余空格）样例输入12242325372343输出2434来源算法
简单密码破解（c++）羊蜜不是羊 c++算法开发语言
题目描述密码是我们生活中非常重要的东东，我们的那么一点不能说的秘密就全靠它了。哇哈哈.接下来渊子要在密码之上再加一套密码，虽然简单但也安全。假设渊子原来一个BBS上的密码为zvbo941987,为了方便记忆，他通过一种算法把这个密码变换成YUANzi1987，这个密码是他的名字和出生年份，怎么忘都忘不了，而且可以明目张胆地放在显眼的地方而不被别人知道真正的密码。他是这么变换的，大家都知道手机上的字
HTML语言的贪心算法宇瞳月包罗万象 golang 开发语言后端
HTML语言的贪心算法：理论与实践引言在编程和算法研究中，贪心算法是一种广泛应用的解决问题的方法。它通过对每一阶段选择最优解的方式来构建整个问题的解决方案。贪心算法不一定能在所有情况下得到最优解，但在许多实际问题中，它能够提供一个足够好的近似解。本文将探讨贪心算法的基本概念、典型应用、优缺点，并结合HTML语言的特点，提出一些具体的实现示例和思考。一、贪心算法的基本概念贪心算法是一种求解最优化问题
景联文科技提供高质量文本标注服务，驱动AI技术发展景联文科技科技人工智能
文本标注是指在原始文本数据上添加标签的过程，这些标签可以用来指示特定的实体、关系、事件等信息，以帮助计算机理解和处理这些数据。文本标注是自然语言处理（NLP）领域的一个重要环节，它通过为文本的不同部分提供具体的含义和上下文信息，增强机器学习和深度学习模型对文本内容的理解能力。标注类型情感分析情感极性：确定文本表达的情感倾向，如正面、负面或中立。强度评估：衡量情感的强烈程度，从轻微到极端不等。命名实
《Hello 算法》火了！！！一本写给算法初学者的入门算法书籍遇码分享算法 hello hello算法算法书籍
曾经也放出豪言壮语，决心要刷遍力扣上的所有算法题目。然而现实就很快啪啪的打脸。不知道多少人和我有过一样的经历。在读到《Hello算法》的序中，作者靳宇栋给了我们一个“台阶”。随后就表达了针对我们的现状，他特地写了《Hello算法》这本书，代表广大算法初学者表示感激涕零。《Hello算法》为什么适合入门动画图解、一键运行的数据结构与算法教程全书采用动画图解，内容清晰易懂、学习曲线平滑，引导初学者探索
景联文科技：以高质量数据标注推动人工智能领域创新与发展景联文科技科技人工智能数据标注
在当今这个由数据驱动的时代，高质量的数据标注对于推动机器学习、自然语言处理（NLP）、计算机视觉等领域的发展具有不可替代的重要性。数据标注过程涉及对原始数据进行加工，通过标注特定对象的特征来生成能够被机器学习模型识别和使用的编码格式，从而使数据更具有意义和可解读性。数据标注的主要类型包括：图像标注：指在图片中标识出目标物体的位置、形状或类别等信息，如自动驾驶技术中的行人、车辆及交通标志的识别。文本
Matlab实现SSA-HKELM麻雀算法（SSA）优化混合核极限学习机多变量回归预测的详细项目实例 nantangyuxi MATLAB 算法 matlab 回归人工智能数据挖掘开发语言深度学习
目录Mstlsb实她TTS-HKFLM麻雀算法（TTS）优化混合核极限学习机多变量回归预测她详细项目实例1项目背景介绍...1项目目标她意义...1目标...1意义...2项目挑战及解决方案...2挑战...2解决方案...3项目特点她创新...3创新点...3特点...4项目应用领域...4应用领域...4项目效果预测图程序设计及代码示例...5项目模型架构...6数据预处理...6混合核极限学
客服机器人怎么才能精准的回答用户问题？玩人工智能的辣条哥 AI面试机器人客服机器人
环境：客服机器人问题描述：客服机器人怎么才能精准的回答用户问题？解决方案：客服机器人要精准回答用户问题，需综合技术、数据和用户体验等多方面因素。以下是关键策略和步骤：1.精准理解用户意图自然语言处理（NLP）技术分词与实体识别：提取关键词（如“订单号”“退货”）和实体（如时间、地点）。意图分类：通过机器学习模型（如BERT、Transformer）将问题归类（如“售后”“支付”）。上下文理解记录对
群体智能优化算法-爱情进化算法 (Love Evolution Algorithm, LEA，含Matlab源代码） HR Zhou 算法 matlab 开发语言群体智能优化优化
摘要爱情进化算法（LEA）是一种基于心理学刺激-价值-角色理论（Stimulus-Value-RoleTheory）所提出的新型元启发式算法。该算法将“恋爱中的人”抽象为种群个体，通过对个体“幸福度（Happiness）”的定义和动态更新，模拟了从“相遇->价值交流->角色平衡”三个阶段不断逼近全局最优解的过程。LEA在高维连续优化与工程应用等场景下可实现对搜索空间的充分探索与精细开发。本文结合算
灰狼优化算法（Grey Wolf Optimization, GWO）及其 Python 代码追蜻蜓追累了算法 python github pycharm jupyter matlab numpy
灰狼优化算法（GreyWolfOptimization,GWO）是一种基于灰狼社会行为觅食过程而设计的优化算法。其基本原理是模拟灰狼群体中个体的协作和竞争行为，以迭代更新的方式寻找最优解。灰狼优化算法涉及三种灰狼的角色：alpha（α）、beta（β）和delta（δ），它们分别代表群体中的优势个体。算法包括初始化灰狼位置、计算适应度值、更新灰狼位置等步骤。以下是一个简单的Python示例代码，实
25. 策略模式智想天开设计模式详解策略模式 bash 开发语言
原文地址:策略模式更多内容请关注：智想天开1.策略模式简介策略模式（StrategyPattern）是一种行为型设计模式，它定义了一系列算法，将每一个算法封装起来，并使它们可以相互替换。策略模式让算法的变化独立于使用算法的客户。通过引入策略模式，可以在不修改客户端代码的情况下，动态地更改对象的行为。关键点：算法封装：将不同的算法封装到独立的策略类中。互换性：策略类可以相互替换，客户端可以根据需要选
人工智能与网络信息技术的深度融合鸭鸭鸭进京赶烤学术会议人工智能 AI编程 ai 机器人计算机视觉网络计算机网络
在当今时代，人工智能（AI）和网络信息技术正以前所未有的速度推动着社会变革。从通用人工智能（AGI）到具身智能的普及，AI不仅实现了技术上的飞跃，也在各个行业展现出巨大的应用潜力。随着技术的不断迭代，我们迎来了许多创新应用，例如AI在电子信息技术中的应用，通过算法优化与升级，显著提高了处理效率和准确性。网络信息技术同样在飞速发展。面向2030年的未来网络发展趋势表明，网络将支撑万亿级、人机物、全时
OpenCV 4.2.0与扩展模块安装与应用指南土城三富
本文还有配套的精品资源，点击获取简介：OpenCV4.2.0是一个先进的计算机视觉库，包含了图像处理、计算机视觉和机器学习算法。本压缩包包含OpenCV核心库和扩展模块（opencv_contrib），版本均为4.2.0。该版本引入了性能增强、API优化以及对深度学习框架和硬件加速技术的更新支持。扩展模块提供了额外的实验性算法和功能，有助于研究和开发新算法。指南详细介绍了如何安装和配置这些库，并提
java队列实现限流_如何使用队列实现微服务限流算法？纽太普 java队列实现限流
队列在平时开发中可能是出现频率最高的数据结构之一了，但是大部分情况下，我们都是用别人已经实现好的，比如kafka，比如redis里的list，以至于让人怀疑为什么还要去学习队列呢？希望今天的内容可以给你一些启发。什么是队列为了整个文章的完整性，我们还是来介绍一下什么是队列。我们举个生活中常见的案例，假设你在周杰伦的奶茶店买奶茶，由于人很多，为了保持公平和秩序，你被要求排队，最先来的人排到最前面，这
YOLOV11|YOLO12改进系列指南魔鬼面具 YOLO
基于Ultralytics的YOLO11|YOLO12改进目前自带的一些改进方案(持续更新)为了感谢各位对本项目的支持,本项目的赠品是yolov5-PAGCP通道剪枝算法.具体使用教程专栏改进汇总YOLO11系列二次创新系列ultralytics/cfg/models/11/yolo11-RevCol.yaml使用(ICLR2023)ReversibleColumnNetworks对yolo11主
OpenCV ML 模块使用指南 ice_junjun OpenCV opencv 人工智能计算机视觉
一、模块概述OpenCV的ML模块提供了丰富的机器学习算法，可用于解决各种计算机视觉和数据分析问题。本指南将详细介绍该模块中主要的机器学习算法，包括支持向量机（SVM）、K均值聚类（K-Means）和神经网络（ANN），并结合图像分类和聚类分析这两个典型应用场景进行代码实现与解释。二、主要函数及类详解（一）支持向量机（SVM）：cv.ml.SVM_create()功能支持向量机（SVM）是一种强大
强化学习中策略网络模型设计与优化技巧数字扫地僧计算机视觉深度学习
I.引言强化学习（ReinforcementLearning,RL）是一种通过与环境交互，学习如何采取行动以最大化累积奖励的机器学习方法。策略网络（PolicyNetwork）是强化学习中一种重要的模型，它直接输出动作的概率分布或具体的动作。本篇博客将深入探讨策略网络的设计原则、优化技巧，并结合具体实例展示其应用。II.策略网络的基本概念A.策略网络的定义策略网络是一种神经网络，它接受当前状态作为
蓝桥杯——算法训练——粘木棍大柠丶蓝桥杯蓝桥杯算法职场和发展
问题描述有N根木棍，需要将其粘贴成M个长木棍，使得最长的和最短的的差距最小。输入格式第一行两个整数N,M。一行N个整数，表示木棍的长度。输出格式一行一个整数，表示最小的差距样例输入32102040样例输出10数据规模和约定N,M<=7packagecom.study.蓝桥杯.算法训练;importjava.util.Arrays;importjava.util.Scanner;/***@autho
蓝桥杯——算法训练——共线大柠丶蓝桥杯蓝桥杯算法职场和发展
问题描述给定2维平面上n个整点的坐标，一条直线最多能过几个点？输入格式第一行一个整数n表示点的个数以下n行，每行2个整数分别表示每个点的x,y坐标。输出格式输出一个整数表示答案。样例输入50011220323样例输出3数据规模和约定n<=1500，数据保证不会存在2个相同的点。点坐标在int范围内importjava.util.Scanner;/***@authorsjn*@date2022-2-
基于Python编程语言实现“机器学习”，用于车牌识别项目我的sun&shine Python python 机器学习计算机视觉
基于Python的验证码识别研究与实现1.摘要验证码的主要目的是区分人类和计算机，用来防止自动化脚本程序对网站的一些恶意行为，目前绝大部分网站都利用验证码来阻止恶意脚本程序的入侵。验证码的自动识别对于减少自动登录时长，识别难以识别的验证码图片有着重要的作用。对验证码图像进行灰度化、二值化、去离散噪声、字符分割、归一化、特征提取、训练和字符识别等过程可以实现验证码自动识别。首先将原图片进行灰度化处理
BM25S 项目安装和配置指南陆汝涓Marissa
BM25S项目安装和配置指南bm25sBM25Sisanultra-fastlexicalsearchlibrarythatimplementsBM25usingscipy项目地址:https://gitcode.com/gh_mirrors/bm/bm25s1.项目基础介绍和主要编程语言BM25S是一个快速实现BM25算法的开源项目，主要用于文本检索任务。BM25是一种广泛使用的排名函数，常用于
DS/ML：数据科学技术之数据科学生命周期(四大层次+机器学习六大阶段+数据挖掘【5+6+6+4+4+1】步骤)的全流程最强学习路线讲解之详细攻略一个处女座的程序猿资深文章(前沿/经验/创新)DataScience ML 数据科学数据科学的生命周期机器学习
DS/ML：数据科学技术之数据科学生命周期(四大层次+机器学习六大阶段+数据挖掘【5+6+6+4+4+1】步骤)的全流程最强学习路线讲解之详细攻略导读：本文章是博主在数据科学和机器学习领域，先后实战过几百个应用案例之后的精心总结，应该是完全覆盖了数据科学的整个生命周期及其各个阶段的要点。其中机器学习领域六大阶段更是在整个数据科学生命周期中扮演着极其重要的角色。同时，因为涉及到博主出书中出版社要求在
js动画html标签（持续更新中） 843977358 html js 动画 media opacity
1.jQuery 效果 - animate() 方法改变 "div" 元素的高度： $(".btn1").click(function(){ $("#box").animate({height:"300px
springMVC学习笔记 caoyong springMVC
1、搭建开发环境 a>、添加jar文件，在ioc所需jar包的基础上添加spring-web.jar,spring-webmvc.jar b>、在web.xml中配置前端控制器 <servlet> &nbs
POI中设置Excel单元格格式 107x poi style 列宽合并单元格自动换行
引用：http://apps.hi.baidu.com/share/detail/17249059 POI中可能会用到一些需要设置EXCEL单元格格式的操作小结：先获取工作薄对象: HSSFWorkbook wb = new HSSFWorkbook(); HSSFSheet sheet = wb.createSheet(); HSSFCellStyle setBorder = wb.
jquery 获取A href 触发js方法的this参数无效的情况一炮送你回车库 jquery
html如下： <td class=\"bord-r-n bord-l-n c-333\"> <a class=\"table-icon edit\" onclick=\"editTrValues(this);\">修改</a> </td>" j
md5 3213213333332132 MD5
import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; public class MDFive { public static void main(String[] args) { String md5Str = "cq
完全卸载干净Oracle11g sophia天雪 orale数据库卸载干净清理注册表
完全卸载干净Oracle11g A、存在OUI卸载工具的情况下：第一步：停用所有Oracle相关的已启动的服务；第二步：找到OUI卸载工具：在“开始”菜单中找到“oracle_OraDb11g_home”文件夹中 &
apache 的access.log 日志文件太大如何解决 darkranger apache
CustomLog logs/access.log common 此写法导致日志数据一致自增变大。直接注释上面的语法 #CustomLog logs/access.log common 增加： CustomLog "|bin/rotatelogs.exe -l logs/access-%Y-%m-d.log
Hadoop单机模式环境搭建关键步骤 aijuans 分布式
Hadoop环境需要sshd服务一直开启，故，在服务器上需要按照ssh服务，以Ubuntu Linux为例，按照ssh服务如下： sudo apt-get install ssh sudo apt-get install rsync 编辑HADOOP_HOME/conf/hadoop-env.sh文件，将JAVA_HOME设置为Java
PL/SQL DEVELOPER 使用的一些技巧 atongyeye java sql
1 记住密码这是个有争议的功能，因为记住密码会给带来数据安全的问题。但假如是开发用的库，密码甚至可以和用户名相同，每次输入密码实在没什么意义，可以考虑让PLSQL Developer记住密码。位置：Tools菜单－－Preferences－－Oracle－－Logon HIstory－－Store with password 2 特殊Copy 在SQL Window
PHP：在对象上动态添加一个新的方法 bardo 方法动态添加闭包
有关在一个对象上动态添加方法，如果你来自Ruby语言或您熟悉这门语言，你已经知道它是什么...... Ruby提供给你一种方式来获得一个instancied对象，并给这个对象添加一个额外的方法。好！不说Ruby了，让我们来谈谈PHP PHP未提供一个“标准的方式”做这样的事情，这也是没有核心的一部分... 但无论如何，它并没有说我们不能做这样
ThreadLocal与线程安全 bijian1013 java java多线程 threadLocal
首先来看一下线程安全问题产生的两个前提条件： 1.数据共享，多个线程访问同样的数据。 2.共享数据是可变的，多个线程对访问的共享数据作出了修改。实例：定义一个共享数据： public static int a = 0;
Tomcat 架包冲突解决征客丶 tomcat Web
环境： Tomcat 7.0.6 win7 x64 错误表象：【我的冲突的架包是：catalina.jar 与 tomcat-catalina-7.0.61.jar 冲突，不知道其他架包冲突时是不是也报这个错误】严重: End event threw exception java.lang.NoSuchMethodException: org.apache.catalina.dep
【Scala三】分析Spark源代码总结的Scala语法一 bit1129 scala
Scala语法 1. classOf运算符 Scala中的classOf[T]是一个class对象，等价于Java的T.class,比如classOf[TextInputFormat]等价于TextInputFormat.class 2. 方法默认值 defaultMinPartitions就是一个默认值，类似C++的方法默认值
java 线程池管理机制 BlueSkator java线程池管理机制
编辑 Add Tools jdk线程池一、引言第一：降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。第二：提高响应速度。当任务到达时，任务可以不需要等到线程创建就能立即执行。第三：提高线程的可管理性。线程是稀缺资源，如果无限制的创建，不仅会消耗系统资源，还会降低系统的稳定性，使用线程池可以进行统一的分配，调优和监控。
关于hql中使用本地sql函数的问题（问-答） BreakingBad HQL 存储函数
转自于：http://www.iteye.com/problems/23775 问：我在开发过程中，使用hql进行查询（mysql5）使用到了mysql自带的函数find_in_set()这个函数作为匹配字符串的来讲效率非常好，但是我直接把它写在hql语句里面（from ForumMemberInfo fm,ForumArea fa where find_in_set(fm.userId,f
读《研磨设计模式》-代码笔记-迭代器模式-Iterator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.Arrays; import java.util.List; /** * Iterator模式提供一种方法顺序访问一个聚合对象中各个元素，而又不暴露该对象内部表示 * * 个人觉得，为了不暴露该
常用SQL chenjunt3 oracle sql C++c C#
--NC建库 CREATE TABLESPACE NNC_DATA01 DATAFILE 'E:\oracle\product\10.2.0\oradata\orcl\nnc_data01.dbf' SIZE 500M AUTOEXTEND ON NEXT 50M EXTENT MANAGEMENT LOCAL UNIFORM SIZE 256K ; CREATE TABLESPA
数学是科学技术的语言 comsci 工作活动领域模型
从小学到大学都在学习数学，从小学开始了解数字的概念和背诵九九表到大学学习复变函数和离散数学，看起来好像掌握了这些数学知识，但是在工作中却很少真正用到这些知识，为什么？最近在研究一种开源软件-CARROT2的源代码的时候，又一次感觉到数学在计算机技术中的不可动摇的基础作用，CARROT2是一种用于自动语言分类（聚类）的工具性软件，用JAVA语言编写，它
Linux系统手动安装rzsz 软件包 daizj linux sz rz
1、下载软件 rzsz-3.34.tar.gz。登录linux，用命令 wget http://freeware.sgi.com/source/rzsz/rzsz-3.48.tar.gz下载。 2、解压 tar zxvf rzsz-3.34.tar.gz 3、安装 cd rzsz-3.34 ; make posix 。注意：这个软件安装与常规的GNU软件不
读源码之:ArrayBlockingQueue dieslrae java
ArrayBlockingQueue是concurrent包提供的一个线程安全的队列,由一个数组来保存队列元素.通过 takeIndex和 putIndex来分别记录出队列和入队列的下标,以保证在出队列时不进行元素移动. //在出队列或者入队列的时候对takeIndex或者putIndex进行累加,如果已经到了数组末尾就又从0开始,保证数
C语言学习九枚举的定义和应用 dcj3sjt126com c
枚举的定义 # include <stdio.h> enum WeekDay { MonDay, TuesDay, WednesDay, ThursDay, FriDay, SaturDay, SunDay }; int main(void) { //int day; //day定义成int类型不合适 enum WeekDay day = Wedne
Vagrant 三种网络配置详解 dcj3sjt126com vagrant
Forwarded port Private network Public network Vagrant 中一共有三种网络配置，下面我们将会详解三种网络配置各自优缺点。端口映射(Forwarded port)，顾名思义是指把宿主计算机的端口映射到虚拟机的某一个端口上，访问宿主计算机端口时，请求实际是被转发到虚拟机上指定端口的。Vagrantfile中设定语法为： c
16.性能优化-完结 frank1234 性能优化
性能调优是一个宏大的工程，需要从宏观架构(比如拆分，冗余，读写分离，集群，缓存等)，软件设计（比如多线程并行化，选择合适的数据结构），数据库设计层面（合理的表设计，汇总表，索引，分区，拆分，冗余等）以及微观（软件的配置，SQL语句的编写，操作系统配置等）根据软件的应用场景做综合的考虑和权衡，并经验实际测试验证才能达到最优。性能水很深，笔者经验尚浅，赶脚也就了解了点皮毛而已，我觉得
Word Search hcx2013 search
Given a 2D board and a word, find if the word exists in the grid. The word can be constructed from letters of sequentially adjacent cell, where "adjacent" cells are those horizontally or ve
Spring4新特性——Web开发的增强 jinnianshilongnian spring spring mvc spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装配置tengine并设置开机启动 liuxingguome centos
yum install gcc-c++ yum install pcre pcre-devel yum install zlib zlib-devel yum install openssl openssl-devel Ubuntu上可以这样安装 sudo aptitude install libdmalloc-dev libcurl4-opens
第14章工具函数（上） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Xelsius 2008 and SAP BW at a glance blueoxygen BO Xelsius
Xelsius提供了丰富多样的数据连接方式，其中为SAP BW专属提供的是BICS。那么Xelsius的各种连接的优缺点比较以及Xelsius是如何直接连接到BEx Query的呢？以下Wiki文章应该提供了全面的概览。 http://wiki.sdn.sap.com/wiki/display/BOBJ/Xcelsius+2008+and+SAP+NetWeaver+BW+Co
oracle表空间相关 tongsh6 oracle
在oracle数据库中，一个用户对应一个表空间，当表空间不足时，可以采用增加表空间的数据文件容量，也可以增加数据文件，方法有如下几种： 1.给表空间增加数据文件 ALTER TABLESPACE "表空间的名字" ADD DATAFILE '表空间的数据文件路径' SIZE 50M; &nb
.Net framework4.0安装失败 yangjuanjava .net windows
上午的.net framework 4.0，各种失败，查了好多答案，各种不靠谱，最后终于找到答案了和Windows Update有关系，给目录名重命名一下再次安装，即安装成功了！下载地址：http://www.microsoft.com/en-us/download/details.aspx?id=17113 方法： 1.运行cmd，输入net stop WuAuServ 2.点击开

朴素贝叶斯——机器学习总结

朴素贝叶斯

基础知识

概念

优缺点

一般过程

利用python进行文本分类

准备数据

训练算法

测试算法

示例1：使用朴素贝叶斯过滤垃圾邮件

一般步骤

准备数据：切分文本

测试算法：使用朴素贝叶斯进行交叉验证

示例2：使用朴素贝叶斯分类器从个人广告中获取区域倾向

一般步骤

收集数据：导入RSS源

RSS源分类器及高频词去除函数

分析数据：显示地域相关的用词

你可能感兴趣的:(机器学习,算法)