圣西罗风之子

《机器学习实战》笔记——第四章：基于概率论的分类方法：朴素贝叶斯

1 说明

该书主要以原理简介+项目实战为主，本人学习的主要目的是为了结合李航老师的《统计学习方法》以及周志华老师的西瓜书的理论进行学习，从而走上机器学习的“不归路”。因此，该笔记主要详细进行代码解析，从而透析在进行一项机器学习任务时候的思路，同时也积累自己的coding能力。
正文由如下几部分组成：
1、实例代码（详细注释）
2、知识要点（函数说明）
3、调试及结果展示

2 正文

（1）基于贝叶斯决策理论的分类方法

朴素贝叶斯算法（NBC），“朴素”在于该理论有个假设前提，那就是——特征与特征之间相互独立，这一假设使得该模型在输入向量特征条件有关联的场景下表现不佳；“贝叶斯”意思是该算法基于贝叶斯定理，属于监督学习中的生成模型。其他生成模型还有GMM、HMM等。该算法广泛应用于NLP等领域。

该章节涉及到的概念有：条件概率、边缘概率、联合概率、独立分布、全概率公式、贝叶斯公式、先验概率和后验概率等等。

下面对贝叶斯分类器表达式进行推导：
→step1：条件概率
$P(A|B)=\frac{P(AB)}{P(B)}，P(B|A)=\frac{P(AB)}{P(A)}$
→step2：由上二式联立可得“贝叶斯定理”
$P(A|B)=\frac{P(B|A)·P(A)}{P(B)}$
→step3：全概率公式

→step4：贝叶斯公式
将全概率公式整理可得：
$P(B)=\sum_{i=1}^{n}P(A_{i})\cdot P(B|A_{i})$
则有
$P(A|B)=\frac{P(B|A)·P(A)}{\sum_{i=1}^{n}P(A_{i})\cdot P(B|A_{i})}$

→step5：条件独立
朴素贝叶斯对条件概率分布做了条件独立性假设。则贝叶斯公式中的分子
$P(B|A)=P(B=b_{1},b_{2}\cdot \cdot \cdot b_{n}|A_{i})=\prod_{j=1}^{n}P(B_{j}=b_{j}|A_{i})$

→step6：贝叶斯判定准则（贝叶斯分类器）
将5式代入贝叶斯公式，整理可得
$P(A_{i}|B)=\frac{P(A_{i})·\prod_{j=1}^{n}P(B_{j}=b_{j}|A_{i})}{\sum_{i=1}^{n}P(A_{i})\cdot P(B|A_{i})}$
因为上式分母对所有 $A_{i}$ 都是相同的，因此左式正比于右式分子部分，即
$P(A_{i}|B)∝{P(A_{i})·\prod_{j=1}^{n}P(B_{j}=b_{j}|A_{i})}$ 即可得朴素贝叶斯分类器的表达式
$f(B)=argmax({P(A_{i})·\prod_{j=1}^{n}P(B_{j}=b_{j}|A_{i})})$

（2）准备数据：从文本中构建词向量

1、本章例程是要做一个文本分类问题，我们可以将整个文档看成是实例，而文档中的元素相应的构成特征。通过观察文档中出现的词，并把每个词的出现与否相应的作为特征，进而构造分类器对文档进行分类。该例程以一个留言社区为例，为了过滤掉那些内容不当的侮辱性言论，对此我们可以建立两个类别：侮辱性和非侮辱性，分别用0和1来表示。下面是代码部分：

#导入数据集
def loadDataSet():
    postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
                 ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
                 ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
                 ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                 ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
                 ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
    classVec = [0,1,0,1,0,1]    #1 is abusive, 0 not
    return postingList,classVec

#将数据集中的所有词条进行求并，输出不重复的所有元素形成词汇表
def createVocabList(dataSet):
    vocabSet = set([])  #创建一个集合set，方便后续求数据集并集
    for document in dataSet:
        vocabSet = vocabSet | set(document) #求数据集中每个语句所包含词条的并集
    return list(vocabSet)#输出不重复的所有元素(词汇表)

#将词条数据集转换为词向量数据集
def setOfWords2Vec(vocabList, inputSet):
    returnVec = [0]*len(vocabList)#创建一个与词汇表等长的向量，所有元素初始化为0
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] = 1#如果输入数据的词条存在于数据表中，则对应位的值设为1
        else:
            print("the word: %s is not in my Vocabulary!"%word)
    return returnVec

知识要点：
①set()：set() 函数创建一个无序不重复元素集，可进行关系测试，删除重复数据，还可以计算交集、差集、并集等。
②index()：Python index() 方法检测字符串中是否包含子字符串 str。

2、下面我们执行一下程序：

******
import sys; print('Python %s on %s' % (sys.version, sys.platform))
sys.path.extend(['E:\\ML_text\\machinelearninginaction\\Ch04', 'E:/ML_text/machinelearninginaction/Ch04'])
PyDev console: starting.
Python 3.6.7 |Anaconda, Inc.| (default, Oct 28 2018, 19:44:12) [MSC v.1915 64 bit (AMD64)] on win32
>>>import bayes
>>>listOPosts, listClasses = bayes.loadDataSet()
>>>myVocabList = bayes.createVocabList(listOPosts)
>>>myVocabList
['stop', 'stupid', 'dalmation', 'take', 'I', 'ate', 'has', 'please', 'love', 'flea', 'buying', 'worthless', 'park', 'my', 'cute', 'problems', 'food', 'to', 'is', 'help', 'posting', 'steak', 'quit', 'licks', 'garbage', 'mr', 'how', 'maybe', 'him', 'not', 'dog', 'so']
>>>bayes.setOfWords2Vec(myVocabList, listOPosts[0])
[0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0]
>>>bayes.setOfWords2Vec(myVocabList, listOPosts[3])
[1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0]

从我们运行的结果可以看到，setOfWords2Vec函数的两个输入分别是我们createVocabList函数生成的词汇表，以及loadDataSet函数中导入的数据集中的单个语句所构成的词条集合，输出的returnVec为通过词条集合转换好的词向量。

（3）训练算法：从词向量计算概率

1、下面构造的trainNB0函数是一个过程产物，因为该函数中还会有一些缺陷，到后面会作出修改来改善它的功能。下面还是先学习trainNB0函数：

#朴素贝叶斯分类器训练函数
def trainNB0(trainMatrix,trainCategory):
    numTrainDocs = len(trainMatrix)#获取文档总数
    numWords = len(trainMatrix[0])#获取词汇表词汇个数
    pAbusive = sum(trainCategory)/float(numTrainDocs)# 基于训练集估计类先验概率：P(侮辱性文档)=侮辱性文档个数/文档总数
    p0Num = zeros(numWords); p1Num = zeros(numWords)#创建两个和词汇表维度一致的全0矩阵
    p0Denom = 0.0; p1Denom = 0.0
    for i in range(numTrainDocs):
        if trainCategory[i] == 1:
            p1Num += trainMatrix[i]
            p1Denom += sum(trainMatrix[i])
        else:
            p0Num += trainMatrix[i]
            p0Denom += sum(trainMatrix[i])
    p1Vect = p1Num/p1Denom# P(词向量特征j|侮辱性文档)
    p0Vect = p0Num/p0Denom# P(词向量特征j|非侮辱性文档)
    return p0Vect,p1Vect,pAbusive

由上面代码，我们可以看出，为了估计类后验概率 P(类别 i |词向量特征 j )，我们已经计算出了 类先验概率 P(侮辱性文档) （注：此例为二分类问题，因此 P(类别2)=1-P(类别1)，即已知P(类别 i )）及 类条件概率 P(词向量特征 j |类别 i )，即可完成贝叶斯分类器的构造：
$)=\frac{P(类别i)}{P(词向量特征集合)}{·\prod_{j=1}^{n}P(词向量特征j|类别i)}$ $↓$ $由于 P (词向量特征集合) 对于所有类别来说是相同的，因此有：$
$)∝{P(类别i)}{·\prod_{j=1}^{n}P(词向量特征j|类别i)}$ $↓$ $f(词向量特征集合)=argmax({P(类别i)·\prod_{j=1}^{n}P(词向量特征j|类别i)})$
2、上述trainNB0函数，其输入变量trainMatrix是通过setOfWords2Vec函数输出的多个returnVec向量组成，即将文档数据集完全转换后的词向量数据集。我们为了测试trainNB0函数，构造main函数：

if __name__ == '__main__':
    listOPosts, listClasses = loadDataSet()
    myVocabList = createVocabList(listOPosts)
    trainMat = []
    for postinDoc in listOPosts:#构造词向量数据集
        trainMat.append(setOfWords2Vec(myVocabList, postinDoc))
    p0V, p1V, pAb = trainNB0(trainMat, listClasses)
    print(pAb, '\n\n', p0V, '\n\n', p1V)

输出结果如下：

 0.5 

 [0.         0.04166667 0.08333333 0.         0.04166667 0.04166667
 0.04166667 0.04166667 0.04166667 0.04166667 0.125      0.
 0.04166667 0.         0.04166667 0.04166667 0.04166667 0.
 0.04166667 0.04166667 0.         0.         0.         0.04166667
 0.         0.         0.04166667 0.         0.04166667 0.04166667
 0.04166667 0.04166667] 

 [0.05263158 0.         0.05263158 0.15789474 0.         0.
 0.05263158 0.         0.         0.         0.         0.05263158
 0.         0.05263158 0.         0.         0.         0.05263158
 0.         0.05263158 0.05263158 0.10526316 0.05263158 0.
 0.05263158 0.05263158 0.         0.05263158 0.         0.
 0.10526316 0.        ]

（4）测试算法：根据现实情况修改分类器

1、贝叶斯分类器表达式中计算独立同分布数据概率的乘积，如果其中一个概率为0，那么最后整个乘积结果直接等于0，为了降低该影响，例程中对初始化矩阵进行了修改，由原本的全0矩阵修改为全1矩阵，并将分母部分初始化由0.0改变为2.0。
另外一个问题就是下溢出，太多很小的数相乘容易造成计算溢出，因此该例程采用对乘积取自然对数，修改后的trainNB0()函数为：

#朴素贝叶斯分类器训练函数
def trainNB0(trainMatrix,trainCategory):
    numTrainDocs = len(trainMatrix)#获取文档总数
    numWords = len(trainMatrix[0])#获取词汇表词汇个数
    pAbusive = sum(trainCategory)/float(numTrainDocs)# 基于训练集估计类先验概率：P(侮辱性文档)=侮辱性文档个数/文档总数
	p0Num = ones(numWords); p1Num = ones(numWords)#创建两个和词汇表维度一致的全1矩阵
	p0Denom = 2.0; p1Denom = 2.0#change to 2.0
    for i in range(numTrainDocs):
        if trainCategory[i] == 1:
            p1Num += trainMatrix[i]
            p1Denom += sum(trainMatrix[i])
        else:
            p0Num += trainMatrix[i]
            p0Denom += sum(trainMatrix[i])
    p1Vect = log(p1Num/p1Denom)#change to log()
    p0Vect = log(p0Num/p0Denom)#change to log()
    return p0Vect,p1Vect,pAbusive

知识要点：
①数据溢出包括上溢和下溢：
overflow（上溢）：int类型来保存一个非常大的数，而这个超出了int类型所能表示的最大的数的范围，不过在python中，int型数据是动态长度的，而且对于python3版本的int型数据在理论上是无限长度的（只要你内存够大）。
underflow（下溢）：如果要用double来表示一个非常小的数，超出它所能表示的最小数时，就会发生数据溢出错误。

下面重新执行一下main函数，输出如下结果：

 0.5 

 [-2.56494936 -2.56494936 -2.56494936 -2.56494936 -3.25809654 -2.56494936
 -2.15948425 -2.56494936 -2.56494936 -1.87180218 -2.56494936 -3.25809654
 -3.25809654 -2.56494936 -3.25809654 -2.56494936 -3.25809654 -2.56494936
 -3.25809654 -2.56494936 -2.56494936 -2.56494936 -3.25809654 -3.25809654
 -2.56494936 -3.25809654 -2.56494936 -3.25809654 -3.25809654 -2.56494936
 -2.56494936 -2.56494936] 

 [-3.04452244 -3.04452244 -1.94591015 -3.04452244 -2.35137526 -3.04452244
 -2.35137526 -3.04452244 -3.04452244 -3.04452244 -3.04452244 -2.35137526
 -2.35137526 -3.04452244 -2.35137526 -3.04452244 -2.35137526 -3.04452244
 -1.65822808 -3.04452244 -3.04452244 -3.04452244 -2.35137526 -2.35137526
 -3.04452244 -2.35137526 -3.04452244 -2.35137526 -1.94591015 -2.35137526
 -2.35137526 -3.04452244]

2、改进完分类器训练函数之后，下面构造最后的朴素贝叶斯分类器：

#朴素贝叶斯分类器
def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
    p1 = sum(vec2Classify * p1Vec) + log(pClass1)#vec2Classify * p1Vec即计算 P(词向量特征j∣类别i)累乘，p1=logA+logB等价于logAB
    p0 = sum(vec2Classify * p0Vec) + log(1.0 - pClass1)
    if p1 > p0:
        return 1
    else:
        return 0

该函数输入分别有vec2Classify, p0Vec, p1Vec, pClass1，其中vec2Classify表示的是新输入的样本，而p0Vec, p1Vec, pClass1分别是trainNB0函数的3个输出。
另外p1和p0其实是计算了下面这个表达式：
${P(A_{i})·\prod_{j=1}^{n}P(B_{j}=b_{j}|A_{i})}$
下面我们整合之前我们写的main函数，像书中例程那样构造一个便利函数testingNB()，用来封装所有操作，并输入两个样本，用于测试算法的结果：

#输入样本并给出分类，便利函数
def testingNB():
    listOPosts,listClasses = loadDataSet()
    myVocabList = createVocabList(listOPosts)
    trainMat=[]
    for postinDoc in listOPosts:
        trainMat.append(setOfWords2Vec(myVocabList, postinDoc))
    p0V,p1V,pAb = trainNB0(array(trainMat),array(listClasses))
    testEntry = ['love', 'my', 'dalmation']#输入样本1
    thisDoc = array(setOfWords2Vec(myVocabList, testEntry))
    print(testEntry,'classified as: ',classifyNB(thisDoc,p0V,p1V,pAb))
    testEntry = ['stupid', 'garbage']#输入样本2
    thisDoc = array(setOfWords2Vec(myVocabList, testEntry))
    print(testEntry,'classified as: ',classifyNB(thisDoc,p0V,p1V,pAb))

下面在python交互环境下，执行如下语句测试代码：

******
PyDev console: starting.
Python 3.6.7 |Anaconda, Inc.| (default, Oct 28 2018, 19:44:12) [MSC v.1915 64 bit (AMD64)] on win32
>>>import bayes
>>>bayes.testingNB()
['love', 'my', 'dalmation'] classified as:  0
['stupid', 'garbage'] classified as:  1

3、上述方式是将每个词的出现与否作为一个特征，这可以被描述为词集模型，“如果一个词在文档中出现不止一次，这可能意味着包含 / 该词是否出现在文档中 / 所不能表达的某种信息”，这种方法被称为词袋模型，为了适应词袋模型，需要对setOfWords2Vec函数进行修改，改成bagOfWords2VecMN：

#词袋模型
def bagOfWords2VecMN(vocabList, inputSet):
    returnVec = [0]*len(vocabList)#创建一个与词汇表等长的向量，所有元素初始化为0
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] += 1
    return returnVec

全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
ARM嵌入式可编程控制器技术开发拉勾科研工作室 arm开发
PLC自动化设计|毕业设计指导|工业自动化解决方案✨专业领域：PLC程序设计与调试工业自动化控制系统HMI人机界面开发工业传感器应用电气控制系统设计工业网络通信擅长工具：西门子S7系列PLC编程三菱/欧姆龙PLC应用触摸屏界面设计电气CAD制图工业现场总线技术自动化设备调试主要内容：PLC控制系统设计工业自动化方案规划电气原理图绘制控制程序编写与调试毕业论文指导毕业设计题目与程序设计✅具体问题可以
Spring Cloud Gateway 的执行链路详解愤怒的代码 SpringCloud spring cloud
SpringCloudGateway的执行链路详解核心目标明确SpringCloudGateway的请求处理全过程（从接收到请求→到转发→到返回响应），方便你在合适的生命周期节点插入你的逻辑。核心执行链路图（执行顺序）┌──────────────┐│客户端请求│└────┬─────────┘↓┌────┴─────────────┐│NettyHttpServer│←→ReactorNetty
matlab卷积矩阵绝对值,MATLAB矩阵分析和计算 weixin_39928736 matlab卷积矩阵绝对值
MATLAB矩阵分析和计算编辑锁定讨论上传视频本词条缺少概述图，补充相关内容使词条更完整，还能快速升级，赶紧来编辑吧！《MATLAB矩阵分析和计算》是清华大学出版社出版的一本图书。[1]书名MATLAB矩阵分析和计算作者杜树春出版社清华大学出版社出版时间2019年6月1日定价59元ISBN9787302524816印次1-1印刷日期2019.04.23MATLAB矩阵分析和计算图书内容编辑本书侧重
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
第一次在CSDN 使用Markdown编辑页，就看到了完美的语法，在此处，我记录一下撰卢编辑器笔记
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML图表FLowchart流程图导出与导入导出导入欢迎使用Mark
面试官：Spring 如何控制 Bean 的加载顺序？
在大多数情况下，我们不需要手动控制Bean的加载顺序，因为Spring的IoC容器足够智能。核心原则：依赖驱动加载SpringIoC容器会构建一个依赖关系图（DependencyGraph）。如果BeanA依赖于BeanB（例如，A的构造函数需要一个B类型的参数），Spring会保证在创建BeanA之前，BeanB已经被完全创建和初始化好了。@ServicepublicclassServiceA{
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
LLM-生成器判别器的实现
总结首先，使用GPT模型获取每个词的生成概率pLLMp_{LLM}pLLM。然后，使用训练好的生成判别器，对每个可能的生成结果进行打分，得到pθ(c∣x1:t)p_\theta(c|x_{1:t})pθ(c∣x1:t)。最后，结合两者的输出，用贝叶斯规则调整每个词的概率，选择调整后的概率最高的词作为输出。通过这样的组合，生成过程可以更好地满足预期需求，如生成符合特定风格或格式的文本。要在使用已经预
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
Python Day9
@浙大疏锦行PythonDay9.内容：热力图的绘制enumerate()方法子图的绘制代码：list_nums=[1,2,3,4,5,6]forindex,valinenumerate(list_nums):print(f"index={index},val={val}")forvalinlist_nums:print(f"val={val}")importpandasaspdimportmat
macd的python代码同花顺_同花顺最牛MACD副图源码再来一碗饭
DIFF:EMA(CLOSE,6)-EMA(CLOSE,16),ColorFFFF26;DEA:EMA(DIFF,5),Color8A15FF;MACD:=2*(DIFF-DEA);对DIFF:0-(EMA(CLOSE,6)-EMA(CLOSE,16));对DEA:0-(EMA(DIFF,5));对称:0-(2*(DIFF-DEA)),STICK,ColorFF6060,LINETHICK1;{D
5G UE注册-建立会话-释放会话-UE注销信令流程 nonamelake 5g
1.画这个流程图的原因3GPP组织估计跟某厂一样部门墙较重，核心网和无线各搞各的标准，为什么内部不拉通一下，搞个端到端的信令流程，好让我等菜鸟能学的容易点。看着3GPP协议里的信令流程，真心看不懂啊，不信你们瞧瞧下面这几张图。2.3GPP里的5GUE注册流程+PDU会话建立流程+PDU会话释放流程+UE注销流程3.自己动手画流程图我看到上面的4张图就头晕呀，实线+虚线+大箭头，而且有些信令的名字和
Flink 2.0 DataStream算子全景 Edingbrugh.南空大数据 flink flink 人工智能
在实时流处理中，ApacheFlink的DataStreamAPI算子是构建流处理pipeline的基础单元。本文基于Flink2.0，聚焦算子的核心概念、分类及高级特性。一、算子核心概念：流处理的"原子操作1.数据流拓扑（StreamTopology）每个Flink应用可抽象为有向无环图（DAG），由源节点（Source）、算子节点（Operator）和汇节点（Sink）构成，算子通过数据流（S
Matplotlib-图像处理与可视化
Matplotlib-图像处理与可视化一、图像数据的本质：从数组到像素二、基础操作：加载与显示图像1.加载图像数据2.显示单张图像3.显示灰度图像三、进阶可视化：通道分离与色彩调整1.分离RGB通道2.调整亮度与对比度四、实用技巧：色彩映射与像素值分析1.自定义色彩映射（Colormap）2.像素值分布直方图五、多图对比与标注：算法结果可视化1.边缘检测结果对比2.图像标注：突出感兴趣区域六、注意
2023年最新Python安装详细教程_python自定义安装 2401_89213215 python 开发语言
1、选择python的稳定发布版本StableReleases点击进入windows操作系统对应的页面，显示python安装版本，这些python安装版本适合windows操作系统。图3-1python稳定与预发布版本图3-1左边是稳定发布版本StableReleases，右边是预发布版本Pre-releases，前者是经过测试，相对完善、稳定的版本，后者还处于测试中，可能不完善，因此，我们下载左
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
（一）OpenCV——噪声去除（降噪）
高斯滤波器（针对高斯噪声）高斯噪声是指它的概率密度函数服从高斯分布（即正态分布）的一类噪声。常见的高斯噪声包括起伏噪声、宇宙噪声、热噪声和散粒噪声等等。高斯滤波(Gaussianfilter)包含许多种，包括低通、带通和高通等，我们通常图像上说的高斯滤波，指的是高斯模糊(GaussianBlur)，是一种高斯低通滤波，其过滤调图像高频成分（图像细节部分），保留图像低频成分（图像平滑区域），所以对图
图神经网络：挖掘关系数据中的宝藏
图神经网络：挖掘关系数据中的宝藏在浩瀚的数据海洋中，蕴藏着一类特殊而强大的资源——关系数据。它们不是孤立的点，而是相互连接、彼此影响的复杂网络：社交平台上朋友的朋友、电商系统中商品与用户的互动、蛋白质分子内原子的结合、城市交通网中的道路连接……这些数据天然以图的形式存在，节点代表实体，边则承载着实体间千丝万缕的关系。传统的数据挖掘工具面对这些盘根错节的结构往往力不从心，而图神经网络（GNN）的崛起
从卡顿到丝滑：uni-app房产App性能优化实践儿歌八万首 uniapp uni-app 性能优化
1.性能优化概述在移动互联网时代，用户对应用性能的要求越来越高。据统计，如果一个应用的启动时间超过3秒，将有53%的用户选择放弃使用。对于房产行业的移动应用来说，性能优化更是至关重要，因为它直接影响到用户的看房体验和决策效率。房产应用的独特挑战房产应用相比其他类型的应用，面临着更多的性能挑战：数据量大：房源、客户、跟进记录等海量数据需要高效处理和展示图片密集：房源图片、户型图、实景照片等大量高清图
【机器学习笔记Ⅰ】9 特征缩放巴伦是只猫机器学习机器学习笔记人工智能
特征缩放（FeatureScaling）详解特征缩放是机器学习数据预处理的关键步骤，旨在将不同特征的数值范围统一到相近的尺度，从而加速模型训练、提升性能并避免某些特征主导模型。1.为什么需要特征缩放？(1)问题背景量纲不一致：例如：特征1：年龄（范围0-100）特征2：收入（范围0-1,000,000）梯度下降的困境：量纲大的特征（如收入）会导致梯度更新方向偏离最优路径，收敛缓慢。量纲小的特征（如
【Python办公】Excel透视转数据图表(饼状图\柱状图\折线图-可拓展) 小庄-Python办公 Python办公自动化 python excel 开发语言 Excel透视 Excel透视工具 python数据分析数据分析
目录专栏导读前言项目概述技术栈选择核心依赖库核心架构设计类结构设计数据流设计界面设计实现布局结构动态界面更新核心功能实现1.透视表计算2.数据排序功能3.数据可视化4.数据统计功能错误处理和用户体验输入验证异常处理项目亮点和创新点1.灵活的多列组合2.智能数据类型处理3.一体化的数据处理流程4.用户友好的界面设计使用场景扩展建议功能扩展性能优化总结完整代码结尾专栏导读欢迎来到Python办公自动化
FFmpeg滤镜相关的重要结构体 melonbo FFMPEG ffmpeg
核心结构体概览FFmpeg滤镜系统由多个关键结构体组成，构成了完整的滤镜处理框架。以下是滤镜系统中最重要的结构体及其相互关系：AVFilterGraph┬─AVFilterContext┬─AVFilter│├─AVFilterLink│└─AVFilterPad└─AVFilterInOut详细结构体分析1.AVFilterGraph（滤镜图容器）功能：管理整个滤镜图的所有组件和状态重要成员：t
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
【EGSR2025】材质+扩散模型+神经网络相关论文整理随笔（四） Superstarimage 文献随笔材质神经网络人工智能扩散模型
AnevaluationofSVBRDFPredictionfromGenerativeImageModelsforAppearanceModelingof3DScenes输入3D场景的几何和一张参考图像，通过扩散模型和SVBRDF预测器获取多视角的材质maps，这些maps最终合并成场景的纹理地图集，并支持在任意视角、任意光照条件下进行重新渲染。样例图如下：在当前时代的技术背景下，生成与几何匹配
android mvvm官方demo,Android mvvm架构demo(DataBinding+LiveData+ViewModel+ Repository)
1.实现效果实现页面加载Bing每日一图的功能2.项目结构image(忽略没有按分类创建).png3.实现过程1.注入依赖//ViewModel与LiveDataimplementation"android.arch.lifecycle:extensions:1.1.1"//图片加载implementation'com.github.bumptech.glide:glide:4.9.0'//网络请
【前端】【Echarts】【Liquidfill 水球图】深入理解 ECharts Liquidfill 水球图：从入门到进阶患得患失949 Echarts学习数据大屏前端 echarts javascript
效果深入理解EChartsLiquidfill水球图：从入门到进阶在可视化数据展示中，水球图（Liquidfill）是一种极具表现力的图表。它形象地用“水位高低”表示某个百分比或完成度，非常适合展示指标进度、占比、加载状态等。本文将结合实际HTML示例，带你全面掌握如何使用ECharts+echarts-liquidfill插件绘制水球图，并通过多个实例逐步讲解配置技巧。准备工作在HTML中使用水
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
物联网入门资料收集 Robin罗兵物联网
1、动动手做一个简单的物联网门禁，手机远程开锁，还带本地射频遥控https://blog.csdn.net/qq_40582683/article/details/796439082、一张图读懂基于微信硬件平台的物联网架构：https://blog.csdn.net/yueqian_scut/article/details/491534053、疯狂物联的控制模块：https://s.taobao.
跨越十年的C++演进：C++20新特性全解析十年编程老舅 C++Linux后端 c++c++20 c++新特性 c++11 c++14 c++17 c++23
跨越十年的C++演进系列，分为5篇，本文为第四篇，后续会持续更新C++23~前3篇如下：跨越十年的C++演进：C++11新特性全解析跨越十年的C++演进：C++14新特性全解析跨越十年的C++演进：C++17新特性全解析C++20标准是C++语言的第四个正式标准，于2020年12月正式发布。首先先上C++20特性思维导图：接下来将从关键字、语法、宏、属性、弃用这5个类目来讲解~1、关键字1.1、c
scala的option和some 矮蛋蛋编程 scala
原文地址： http://blog.sina.com.cn/s/blog_68af3f090100qkt8.html 对于学习 Scala 的 Java™ 开发人员来说，对象是一个比较自然、简单的入口点。在本系列前几期文章中，我介绍了 Scala 中一些面向对象的编程方法，这些方法实际上与 Java 编程的区别不是很大。我还向您展示了 Scala 如何重新应用传统的面向对象概念，找到其缺点
NullPointerException Cb123456 android BaseAdapter
java.lang.NullPointerException: Attempt to invoke virtual method 'int android.view.View.getImportantForAccessibility()' on a null object reference 出现以上异常.然后就在baidu上
PHP使用文件和目录天子之骄 php文件和目录读取和写入 php验证文件 php锁定文件
PHP使用文件和目录 1.使用include()包含文件 (1)：使用include()从一个被包含文档返回一个值 (2)：在控制结构中使用include() include_once()函数需要一个包含文件的路径，此外，第一次调用它的情况和include()一样，如果在脚本执行中再次对同一个文件调用，那么这个文件不会再次包含。在php.ini文件中设置
SQL SELECT DISTINCT 语句何必如此 sql
SELECT DISTINCT 语句用于返回唯一不同的值。 SQL SELECT DISTINCT 语句在表中，一个列可能会包含多个重复值，有时您也许希望仅仅列出不同（distinct）的值。 DISTINCT 关键词用于返回唯一不同的值。 SQL SELECT DISTINCT 语法 SELECT DISTINCT column_name,column_name F
java冒泡排序 3213213333332132 java 冒泡排序
package com.algorithm; /** * @Description 冒泡 * @author FuJianyong * 2015-1-22上午09:58:39 */ public class MaoPao { public static void main(String[] args) { int[] mao = {17,50,26,18,9,10
struts2.18 +json,struts2-json-plugin-2.1.8.1.jar配置及问题！ 7454103 DAO spring Ajax json qq
struts2.18 出来有段时间了！（貌似是稳定版）闲时研究下下！貌似 sruts2 搭配 json 做 ajax 很吃香！实践了下下！不当之处请绕过！呵呵网上一大堆 struts2+json 不过大多的json 插件都是 jsonplugin.34.jar strut
struts2 数据标签说明 darkranger jsp bean struts servlet Scheme
数据标签主要用于提供各种数据访问相关的功能，包括显示一个Action里的属性，以及生成国际化输出等功能数据标签主要包括： action ：该标签用于在JSP页面中直接调用一个Action，通过指定executeResult参数，还可将该Action的处理结果包含到本页面来。 bean ：该标签用于创建一个javabean实例。如果指定了id属性，则可以将创建的javabean实例放入Sta
链表.简单的链表节点构建 aijuans 编程技巧
/*编程环境WIN-TC*/ #include "stdio.h" #include "conio.h" #define NODE(name, key_word, help) \ Node name[1]={{NULL, NULL, NULL, key_word, help}} typedef struct node { &nbs
tomcat下jndi的三种配置方式 avords tomcat
jndi(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。命名服务将名称和对象联系起来，使得我们可以用名称访问对象。目录服务是一种命名服务，在这种服务里，对象不但有名称，还有属性。 tomcat配置
关于敏捷的一些想法 houxinyou 敏捷
从网上看到这样一句话：“敏捷开发的最重要目标就是：满足用户多变的需求，说白了就是最大程度的让客户满意。” 感觉表达的不太清楚。感觉容易被人误解的地方主要在“用户多变的需求”上。第一种多变，实际上就是没有从根本上了解了用户的需求。用户的需求实际是稳定的，只是比较多，也比较混乱，用户一般只能了解自己的那一小部分，所以没有用户能清楚的表达出整体需求。而由于各种条件的，用户表达自己那一部分时也有
富养还是穷养，决定孩子的一生 bijian1013 教育人生
是什么决定孩子未来物质能否丰盛？为什么说寒门很难出贵子，三代才能出贵族？真的是父母必须有钱，才能大概率保证孩子未来富有吗？-----作者：@李雪爱与自由事实并非由物质决定，而是由心灵决定。一朋友富有而且修养气质很好，兄弟姐妹也都如此。她的童年时代，物质上大家都很贫乏，但妈妈总是保持生活中的美感，时不时给孩子们带回一些美好小玩意，从来不对孩子传递生活艰辛、金钱来之不易、要懂得珍惜
oracle 日期时间格式转化征客丶 oracle
oracle 系统时间有 SYSDATE 与 SYSTIMESTAMP； SYSDATE：不支持毫秒，取的是系统时间； SYSTIMESTAMP：支持毫秒，日期，时间是给时区转换的，秒和毫秒是取的系统的。日期转字符窜：一、不取毫秒： TO_CHAR(SYSDATE, 'YYYY-MM-DD HH24:MI:SS') 简要说明， YYYY 年 MM 月
【Scala六】分析Spark源代码总结的Scala语法四 bit1129 scala
1. apply语法 FileShuffleBlockManager中定义的类ShuffleFileGroup，定义： private class ShuffleFileGroup(val shuffleId: Int, val fileId: Int, val files: Array[File]) { ... def apply(bucketId
Erlang中有意思的bug bookjovi erlang
代码中常有一些很搞笑的bug，如下面的一行代码被调用两次（Erlang beam） commit f667e4a47b07b07ed035073b94d699ff5fe0ba9b Author: Jovi Zhang <[email protected]> Date: Fri Dec 2 16:19:22 2011 +0100 erts:
移位打印10进制数转16进制-2008-08-18 ljy325 java 基础
/** * Description 移位打印10进制的16进制形式 * Creation Date 15-08-2008 9:00 * @author 卢俊宇 * @version 1.0 * */ public class PrintHex { // 备选字符 static final char di
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
利用cmd命令将.class文件打包成jar chenyu19891124 cmd jar
cmd命令打jar是如下实现：在运行里输入cmd，利用cmd命令进入到本地的工作盘符。(如我的是D盘下的文件有此路径 D:\workspace\prpall\WEB-INF\classes) 现在是想把D:\workspace\prpall\WEB-INF\classes路径下所有的文件打包成prpall.jar。然后继续如下操作： cd D: 回车 cd workspace/prpal
[原创]JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 comsci eclipse 设计模式算法工作 swing
JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 &nb
SecureCRT右键粘贴的设置 daizj secureCRT 右键粘贴
一般都习惯鼠标右键自动粘贴的功能，对于SecureCRT6.7.5 ，这个功能也已经是默认配置了。老版本的SecureCRT其实也有这个功能，只是不是默认设置，很多人不知道罢了。菜单： Options->Global Options ...->Terminal 右边有个Mouse的选项块。 Copy on Select Paste on Right/Middle
Linux 软链接和硬链接 dongwei_6688 linux
1.Linux链接概念Linux链接分两种，一种被称为硬链接（Hard Link），另一种被称为符号链接（Symbolic Link）。默认情况下，ln命令产生硬链接。【硬连接】硬连接指通过索引节点来进行连接。在Linux的文件系统中，保存在磁盘分区中的文件不管是什么类型都给它分配一个编号，称为索引节点号(Inode Index)。在Linux中，多个文件名指向同一索引节点是存在的。一般这种连
DIV底部自适应 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
Centos6.5使用yum安装mysql——快速上手必备 dcj3sjt126com mysql
第1步、yum安装mysql [root@stonex ~]# yum -y install mysql-server 安装结果： Installed: mysql-server.x86_64 0:5.1.73-3.el6_5 &nb
如何调试JDK源码 frank1234 jdk
相信各位小伙伴们跟我一样，想通过JDK源码来学习Java，比如collections包，java.util.concurrent包。可惜的是sun提供的jdk并不能查看运行中的局部变量，需要重新编译一下rt.jar。下面是编译jdk的具体步骤： 1.把C:\java\jdk1.6.0_26\sr
Maximal Rectangle hcx2013 max
Given a 2D binary matrix filled with 0's and 1's, find the largest rectangle containing all ones and return its area. public class Solution { public int maximalRectangle(char[][] matrix)
Spring MVC测试框架详解——服务端测试 jinnianshilongnian spring mvc test
随着RESTful Web Service的流行，测试对外的Service是否满足期望也变的必要的。从Spring 3.2开始Spring了Spring Web测试框架，如果版本低于3.2，请使用spring-test-mvc项目（合并到spring3.2中了）。 Spring MVC测试框架提供了对服务器端和客户端（基于RestTemplate的客户端）提供了支持。 &nbs
Linux64位操作系统（CentOS6.6）上如何编译hadoop2.4.0 liyong0802 hadoop
一、准备编译软件 1.在官网下载jdk1.7、maven3.2.1、ant1.9.4，解压设置好环境变量就可以用。环境变量设置如下：（1）执行vim /etc/profile （2）在文件尾部加入: export JAVA_HOME=/home/spark/jdk1.7 export MAVEN_HOME=/ho
StatusBar 字体白色 pangyulei status
[[UIApplication sharedApplication] setStatusBarStyle:UIStatusBarStyleLightContent]; /*you'll also need to set UIViewControllerBasedStatusBarAppearance to NO in the plist file if you use this method
如何分析Java虚拟机死锁 sesame java thread oracle 虚拟机 jdbc
英文资料： Thread Dump and Concurrency Locks Thread dumps are very useful for diagnosing synchronization related problems such as deadlocks on object monitors. Ctrl-\ on Solaris/Linux or Ctrl-B
位运算简介及实用技巧（一）：基础篇 tw_wangzhengquan 位运算
http://www.matrix67.com/blog/archives/263 去年年底写的关于位运算的日志是这个Blog里少数大受欢迎的文章之一，很多人都希望我能不断完善那篇文章。后来我看到了不少其它的资料，学习到了更多关于位运算的知识，有了重新整理位运算技巧的想法。从今天起我就开始写这一系列位运算讲解文章，与其说是原来那篇文章的follow-up，不如说是一个r
jsearch的索引文件结构 yangshangchuan 搜索引擎 jsearch 全文检索信息检索 word分词
jsearch是一个高性能的全文检索工具包，基于倒排索引，基于java8，类似于lucene，但更轻量级。 jsearch的索引文件结构定义如下： 1、一个词的索引由=分割的三部分组成：第一部分是词第二部分是这个词在多少