机器学习朴素贝叶斯算法数学过程及Python实现:女生说这话是不是对你有意思

一、文本分析的需求

有时，我们会有分析文本的需求，如分析邮件是否为垃圾邮件。进行文本分析时，首先，我们需要一个特征向量用来表征一段文本，即把文本的特征映射为一个向量。特征向量的创建往往可以通过一个几百词到几万词的字典，通过依次遍历字典中的字符串是否包含与文本中，若包含则该位置为1，不包含为0，以此创建特征向量。如，字典有10000个字符串，包括"a",“abstract”…“buy”…“sale”“ShiZhanfei”…“Zipcy”(一位插画家）等共一万个词。特征向量也为10000*1的一个向量。若字典中包含"a"，则该向量第一位为1，否则第一位为0。若包含"abstract"，第二位为1，否则第二位为0，以此类推可以得到形如 $\hat X=[1,0,0,1,......0,1,1]^T$ 的一个特征向量。假如这段文本来自一封邮件，若"buy",“sale"对应的位置为1，可以推测分类结果很可能为垃圾推销邮件。若"ShiZhanfei”（我的名字~）为1，则分类结果很可能为发给我或者我发给别人的邮件（非垃圾推销邮件）。
对于该特征向量概率 $P(\hat X)$ 可以用多项式分布 $P(\hat X)=\phi_1^{y1}\phi_2^{y2}..\phi_{10000}^{y10000}$ （ $\phi_i$ 为第i个字符串取1的概率，y_i=1或0）以及 $\sum P(\hat X)=1$ 来计算。但字典往往有数百到数万个词， $\phi_i$ 也对应有数百到数万个，此时需要估计的参数为 $P(\hat X)$ 所有可能结果的概率，总共有2¹⁰⁰⁰⁰个，实在太多了。实际中，往往就采用朴素贝叶斯的假设进行建模。

二、朴素贝叶斯

与高斯判别分析一样，朴素贝叶斯也是一种针对不同分类结果分别建模的生成学习算法。它主要应用于文本分析。
首先，由概率论乘法公式可得， $P(x_1,x_2...,x_{9999},x_{10000})=P(x_1)*P(x_2|x_1)*P(x_3|x_1,x_2)...*P(x_{10000}|,x_1,x_2...x_{9999})$ 。多加一个条件y后为 $P(x_1,x_2...,x_{9999},x_{10000}|y)=P(x_1|y)*P(x_2|y,x_1)*P(x_3|y,x_1,x_2)...*P(x_{10000}|y,x_1,x_2...x_{9999})$ 。
朴素贝叶斯算法的假设为：x_i条件相互独立。即 $P(x_2|y,x_1)=P(x_2|y)$ ， $P(x_3|y,x_1,x_2)=P(x_3|y)$ ，任一字符串在给定y时的概率和别的字符串无关。知道一个文本是表白信(y=1)，知道里面有字符串"署名：XXX",但并不能确定表白信中是否有字符串“XXX(你的名字）”,即知道这些信息并不能判断别的字符串是否存在（值是否为1）。
显然，这假设并不合理。文本中如果有"buy"，往往有"sale"；如果有你的心上人的名字，往往也有你的名字，即字典里各个词语并不是相互独立的。但是，实践证明，虽然这个假设并不成立，但分类效果依然较好。所以，工程上可以做这个假设。
也就是说 $P(x_1,x_2...,x_{9999},x_{10000}|y) = \prod_{i=1}^{i=10000}P(x_i|y)$
该模型的参数为:
$\phi_i|_{y=1}=p(x_i|y=1)$
$\phi_i|_{y=0}=p(x_i|y=0)$
$\phi_y=p(y=1)$
可以得到，若有m个样本，似然函数 $l(\phi_y,\phi_i|_{y=1},\phi_i|_{y=0})=\prod_{i=1}^{i=m}P(\hat X_i,y_i)$ ，然后，进行最大似然性估计可以得到参数应选选择为:
$\phi_i|_{y=1}=\frac{\sum_{j=1}^{j=m}1[x_i=1,y_i=1]}{\sum_{j=1}^{j=m}1[y_i=1]}=\frac{标签为1的样本数中第i个字符串出现(x_i=1)的个数}{标签为1的样本数}$ ，即标签为1的样本中第i个字符串出现的概率
$\phi_i|_{y=0}=\frac{\sum_{j=1}^{j=m}1[x_i=1,y_i=0]}{\sum_{j=1}^{j=m}1[y_i=0]}=\frac{标签为0的样本数中第i个单词出现(x_i=0)的个数}{标签为0的样本数}$
$\phi_y=\frac{样本标签为1的数目}{样本总数}$ 即样本标签为1的概率
得到这些参数，就得到了p(x_i|y=1),p(x_i|y=0)以及p(y=1)的表达式。然后，对给定文本进行预测时，就可以用贝叶斯公式 $P(y=1|\hat X)=\frac{P(\hat X|y=1)*P(y=1)}{P(\hat X)}=\frac{P(\hat X|y=1)*P(y=1)}{P(\hat X|y=0)*P(y=0)+P(\hat X|y=1)*P(y=1)}=\frac{(\prod_{j=1}^{j=n_i}P(x_j|y=1)) *P(y=1)}{(\prod_{j=1}^{j=n_i}P(x_j|y=0))*P(y=0)+(\prod_{j=1}^{j=n_i}P(x_j|y=1))*P(y=1)}=\frac{(\prod_{j=1}^{j=n_i}\phi_j|y=1)*\phi_y}{(\prod_{j=1}^{j=n_i}\phi_j|y=0)*(1-\phi_y)+(\prod_{j=1}^{j=n_i}\phi_j|y=1)*\phi_y}$ 计算给定 $\hat X$ 时y=1和0的概率，比较得出结果。其中，n_i为 $\hat X$ 的长度，即 $\hat X$ 有n_i个词语。
字典的得到，可以通过遍历样本集中的所有词语。（若数量过多，可以设置遍历得到样本集中出现三次及以上，十次及以上或更多的词语，以此生成字典）。

三、拉普拉斯平滑

在大多数情况下，朴素贝叶斯可以做出分类。但在一些特殊情况下，仅仅依靠朴素贝叶斯会无法进行分类。
比如，文本中有一个特别特别生僻，一般文本中都不会出现的字符串，如“母猪的产后护理”。进行邮件分类时，在样本集中无论是垃圾邮件，还是非垃圾的正常邮件，都不会包含这个字符串，字典里根本没有这个词。也就是说，最大似然估计的结果为， $\phi_j|_{y=0}=\frac{0}{y=0的样本数}=0$ ， $\phi_j|_{y= 1}=\frac{0}{y=1的样本数}=0$ ，也就是说 $P(x_j|y=1)=\phi_j|_{y= 1}=0$ , $P(x_j|y=0)=\phi_j|_{y= 0}=0$ ，也就是说 $P(x_1,x_2...,x_{9999},x_{10000}|y=1) = \prod_{i=1}^{i=10000}P(x_i|y=1)=0$ , $P(x_1,x_2...,x_{9999},x_{10000}|y=0) = \prod_{i=1}^{i=10000}P(x_i|y=0)=0$ （因为连乘式中第j项为0）。于是， $P(y=1|\hat X)=\frac{P(\hat X|y=1)*P(y=1)}{P(\hat X)}=\frac{P(\hat X|y=1)*P(y=1)}{P(\hat X|y=0)*P(y=0)+P(\hat X|y=1)*P(y=1)}=\frac{0}{0+0}$ , $P(y=0|\hat X)=\frac{P(\hat X|y=0)*P(y=0)}{P(\hat X)}=\frac{P(\hat X|y=1)*P(y=1)}{P(\hat X|y=0)*P(y=0)+P(\hat X|y=1)*P(y=1)}=\frac{0}{0+0}$ ，均无法计算。
此时，需要进行拉普拉斯平滑。
拉普拉斯平滑为对应项均加1，即 $P(y=1|\hat X)=\frac{P(\hat X|y=1)*P(y=1)+1}{(P(\hat X|y=0)*P(y=0)+1)+(P(\hat X|y=1)*P(y=1)+1)}=\frac{1}{1+1}=\frac{1}{2}$ 。

四、更一般化的朴素贝叶斯

上述为最简单的0-1分布的伯努利类型的贝叶斯，还有两种更一般化的贝叶斯分类。

1）x_i取值变为多项式分布

依然假设x_i条件相互独立 $P(x_1,x_2...,x_{9999},x_{10000}|y) = \prod_{i=1}^{i=10000}P(\hat X|y)$ 。但是，x_i不仅仅只取0，1两个值，而是可以取k个值(记为1，2，…k)。
此时，根据朴素贝叶斯xi条件相互独立的假设依然可以得到 $P(\hat X|y)=\prod_{i=1}^{i=10000}P(x_i|y)$ 。此时，P(x_i|y)不再是一个伯努利分布而是一个多项式分布。拉普拉斯平滑为分子加1，分母加K(0-1二项分布有2个结果所以分母加了2。)
针对连续目标变量的分类，就可以将其离散化后如上述进行分类。如对房价进行预测时，可以分为100w以下时x=1，100w到200w时x=2,200w到300w时x=3等。一般会将目标分为10个类别，分类结果较好。

2）多项式事件模型

依然以文本分类为例。(朴素贝叶斯在文本分类中效果好用得多）
如果把每个词考虑为0-1伯努利分布，则仅仅捕获了该词是否出现的特征，对该词数量这个特征没有捕获。而在实际中，若一份文本中出现十次"buy"，则它是垃圾推销邮件的可能应该是大于只出现一次“buy"的。下述建模方式考虑到了词数这个特征。
若把第i个训练样本用特征向量 $\hat X_i=[x_{i1},x_{i2},...x_{i(n_i-1)},x_{i(n_i)},]^T$ ，其中,n_i为该训练样本的长度，即该训练样本所包含的词数。x_i1为该文字中第1个词在字典中的索引。如，该文本第一个词为"Hello"，"Hello"在字典中为第2000个词，则x_i1=2000-1=1999(计算机下标从0开始）。以此类推。
此时，对某份文本而言，它的概率为 $(\prod_{i=1}^{i=n_i}P(x_i|y))P(y)$ 。如对一封垃圾邮件来说，某个垃圾邮件发送者决定给你发一封垃圾邮件，此时y=1，他做这个决定的概率为P(y=1)。然后他用了n_i个词来写这封垃圾邮件，每个词出现的概率为P(x_i|y=1)，此时这封垃圾邮件的存在概率就为 $(\prod_{i=1}^{i=n_i}P(x_i|y=1))P(y=1)$
这个数学模型的参数有
$\phi_{k|y=1}=P(x_i=k|y=1)$
$\phi_{k|y=0}=P(x_i=k|y=0)$
$\phi_y=P(y=1)$
进行最大似然估计可以得到，参数应该选择为：
$\phi_{k|y=1}=\frac{\sum_{i=1}^{i=m}\sum_{j=1}^{j=n_i}1[x_{ij}=k,y_i=1]}{\sum_{i=1}^{i=m}1[y_i=1]*n_i}=\frac{标签为1的文本中，字典中第k个词语出现的次数}{标签为1的文本的词数之和}$
$\phi_{k|y=0}=\frac{\sum_{i=1}^{i=m}\sum_{j=1}^{j=n_i}1[x_{ij}=k,y_i=0]}{\sum_{i=1}^{i=m}1[y_i=0]*n_i}=\frac{标签为0的文本中，字典中第k个词语出现的次数}{标签为0的文本的词数之和}$
$\phi_y=\frac{标签为1的样本数}{样本总数}$
注意，x_ij为一个靠字典长度确定范围的值。所以可以直接判断x_ij是否等于k。
此时，拉普拉斯平滑为 $\phi_{k|y=1}=\frac{\sum_{i=1}^{i=m}\sum_{j=1}^{j=n_i}1[x_{ij}=k,y_i=1]+1}{\sum_{i=1}^{i=m}1[y_i=1]*n_i+10000}=\frac{标签为1的文本中，字典中第k个词语出现的次数+1}{标签为1的文本的词数之和+字典长度(所有可能的词的数量)}$ ，y=0同理

五、朴素贝叶斯的简单实现

import numpy as np
import re
import random
import matplotlib.pyplot as plt
import matplotlib as mpl
#解决图表中文显示问题 
mpl.rcParams["font.sans-serif"] = [u"SimHei"]#黑体显示中文
mpl.rcParams["axes.unicode_minus"] = False#负号正常显示
#创建训练集
def loadDataset():
    #posinglist为样本集 list类型方便处理
    posinglist = [list('我喜欢你'),list('我不喜欢你'),list('舔狗滚'),list('一起去看电影吗'),
                  list('你是个好人但我们不合适'),list('我爱你'),list('我不爱你'),
                  list('我想你了'),list('我不想见到你'),list('可以来我家帮我修电脑吗'),
                  list('如果你在多好'),list('你真棒'),list('我暂时不想谈恋爱'),list('你喜欢什么样的女生'),
                  list('我和室友约好了'),list('我不需要你的关心'),list('送你礼物'),list('不想出去玩'),
                  list('哦'),list('教教我'),list('嘤嘤嘤'),list('有空约吗'),list('我们还是算了吧'),
                  list('学业为重'),list('我们只是朋友'),list('等你')]
    classVector = [1,0,0,1,0,1,0,1,0,1,1,1,0,1,0,0,1,0,0,1,1,1,0,0,0,1]#分类向量，1为喜欢0为不喜欢
    return posinglist,classVector
#创建无重复词库 返回dataset所有元的无序集合
def createVolcabularyList(dataset):
    voca_set = set([])#创建一个空集合
    for document in dataset:
        voca_set = voca_set | set(document)#求交集 集合交集结果为包含所有元的无序集合
    return list(voca_set)#转列表再返回
#得到表达式的特征向量 返回inputset字符串在voca_set字典下的特征向量
def featureVectorForExpression(voca_set,inputSet):
    returnVec = [0]*len(voca_set)#returnVec为全为0，长度为字典列表的长度的列表
    for word in inputSet:
        if word in voca_set:
            returnVec[voca_set.index(word)]=1#取得voca_set中word的索引，作为returnVec为1的对应下标
        #else:
            #print("The word %s is not in voca_set"% word)
    return returnVec
#根据文本集合posinglist，字典voca_set和分类向量feature_vector得到参数并返回
def NaiveBayersTrain(posinglist,voca_set,class_vector):
    phi_y = sum(class_vector)/len(class_vector)#计算y=1的概率，等于y=1的数目/总样本数。sum为对该分类向量求和，值就是1的数目
    wordnum = len(voca_set)#字典词数
    phi_i_y1 = np.zeros((wordnum,1))#创建y=1时xi的概率向量，第i个位置表示字典第i个字符串在y=1时的概率
    for i in range(0,wordnum):
        for j in range(0,len(class_vector)):
            if class_vector[j] == 1 and voca_set[i] in posinglist[j]:
                phi_i_y1[i] += 1#在整个字典，整个分类向量上进行遍历，若分类结果为1，该词在该正样本里，则计数+1
    #print('phi_i_y1:',phi_i_y1)
    phi_i_y1 /= sum(class_vector)
    #print('phi_i_y1:',phi_i_y1)
    phi_i_y0 = np.zeros((wordnum,1))#创建y=0时xi的概率向量，第i个位置表示字典第i个字符串在y=0时的概率
    for i in range(0,wordnum):
        for j in range(0,len(class_vector)):
            if class_vector[j] == 0 and voca_set[i] in posinglist[j]:
                phi_i_y0[i] += 1#在整个字典，整个分类向量上进行遍历，若分类结果为0，该词在该正样本里，则计数+1
    phi_i_y0 /= sum(class_vector)
    #print('phi_i_y0:',phi_i_y0)
    return phi_y,phi_i_y1,phi_i_y0
#根据参数和字典voca_set对输入testExpression计算概率并返回
def NaiveBayersCalculate(phi_y,phi_i_y1,phi_i_y0,testExpression,voca_set):
    FeatureVectorOfExpression = featureVectorForExpression(voca_set,testExpression)
    #print('该输入的特征向量为',FeatureVectorOfExpression)
    Pro_x_y1,Pro_x_y0 = 1,1
    for i in range(0,len(testExpression)):
        if (testExpression[i] in voca_set)==False:
            Pro_x_y0 = 0#有不在字典里的词，则正负样本中它的数量都为0，概率也为0，总概率为连乘，也为0.
            Pro_x_y1 = 0#同上
            print('word',testExpression[i],' is not in the dictionary')
            return Pro_x_y0,Pro_x_y1,0.5,0.5#此时P(y=1|x)和P(y=0|x)的拉普拉斯平滑结果为（0+1）/2=0.5，
    for i in range(0,len(FeatureVectorOfExpression)):
        if FeatureVectorOfExpression[i] ==1 :
            #print('word is:',voca_set[i])
            #print('phi_i_y1[i] is:',phi_i_y1[i])
            #print('phi_i_y0[i] is:',phi_i_y0[i])
            Pro_x_y1 *= phi_i_y1[i]#特征向量第i个位置为字典的第i个字符串，phi_i_y=1第i个位置为字典第i个字符串的概率
            Pro_x_y0 *= phi_i_y0[i]#同上
    Pro_x = Pro_x_y0*(1-phi_y)+Pro_x_y1*phi_y
    Pro_y1_x = (Pro_x_y1*phi_y+1)/(Pro_x+2)#拉普拉斯平滑
    Pro_y0_x = (Pro_x_y0*phi_y+1)/(Pro_x+2)#同上
    return Pro_x_y0,Pro_x_y1,Pro_y0_x,Pro_y1_x
#得到样本和标签向量
pl,cV = loadDataset()
#得到字典
v_set = createVolcabularyList(pl)
#得到概率参数
phi_y,phi_i_y1,phi_i_y0 = NaiveBayersTrain(pl,v_set,cV)
phi_i_y1 = np.ravel(phi_i_y1)#降为一维
phi_i_y0 = np.ravel(phi_i_y0)
#绘图显示概率
fig = plt.figure(figsize=(30,10))
ax1 = plt.subplot(121)  
ax1.bar(v_set,phi_i_y1,color='red')
ax2 = plt.subplot(122)  
ax2.bar(v_set,phi_i_y0,color='green')
plt.show()  
print('字典为',v_set)
#对testInput进行分类
def NaiveBayersClassify(testInput,pl,cv,v_set):
    #得到样本集和标签向量
    posinglist,classVector = pl,cV
    Input = list(testInput)#样本集为list，格式匹配
    #检查样本集里是否已经包含Input，如果已经有，直接根据标签完成分类即可
    for word in posinglist:
        if word == Input:
            print('样本集里有',''.join(Input),'其标签为', classVector[posinglist.index(word)])#''.join把list转回str
            if classVector[posinglist.index(word)] == 1:
                print('女生对你说',testInput,"表示她喜欢你")
            else:
                print('女生对你说',testInput,"表示她不喜欢你")
            return
    #得到字典
    vocabulary_set = v_set
    #计算参数
    phi_y,phi_i_y1,phi_i_y0 = NaiveBayersTrain(posinglist,vocabulary_set,classVector)
    #根据参数计算概率
    Pro_x_y0,Pro_x_y1,Pro_y0_x,Pro_y1_x = NaiveBayersCalculate(phi_y,phi_i_y1,phi_i_y0,testInput,vocabulary_set)
    print(testInput,'预测为喜欢的概率为:',Pro_y1_x)
    print(testInput,'预测为不喜欢的概率为:',Pro_y0_x)
    if Pro_y1_x==0.5 and Pro_y0_x==0.5:
        print("五五开，投硬币吧。。")
    if Pro_y1_x>Pro_y0_x:
        print('女生对你说',testInput,"朴素贝叶斯预测结果为：她喜欢你可能性更大")
    if Pro_y1_x


运行结果为

 实际中的样本集和字典会大很多很多，这里只是简单在网上找了点语句。
 2018.12.21 期末考试复习之前

ES-LTR粗排模块 poins jenkins 运维
ES-LTR粗排模块官方资源：https://github.com/HeiBoWang/elasticsearch-learning-to-rankElasticsearch学习排名插件使用机器学习提高搜索相关性排名。它为维基媒体基金会和Snagajob等地方的搜索提供了动力！这个插件有什么功能此插件：允许您在Elasticsearch中存储特征（Elasticsearch查询模板）记录特征得分（
python清华大学出版社答案_Python机器学习及实践 weixin_39805119 python清华大学出版社答案
第1章机器学习的基础知识1.1何谓机器学习1.1.1传感器和海量数据1.1.2机器学习的重要性1.1.3机器学习的表现1.1.4机器学习的主要任务1.1.5选择合适的算法1.1.6机器学习程序的步骤1.2综合分类1.3推荐系统和深度学习1.3.1推荐系统1.3.2深度学习1.4何为Python1.4.1使用Python软件的由来1.4.2为什么使用Python1.4.3Python设计定位1.4.
UNDERSTANDING HTML WITH LARGE LANGUAGE MODELS liferecords LLM 语言模型人工智能自然语言处理
UNDERSTANDINGHTMLWITHLARGELANGUAGEMODELS相关链接：arXiv关键字：大型语言模型、HTML理解、Web自动化、自然语言处理、机器学习摘要大型语言模型（LLMs）在各种自然语言任务上表现出色。然而，它们在HTML理解方面的能力——即解析网页的原始HTML，对于自动化基于Web的任务、爬取和浏览器辅助检索等应用——尚未被充分探索。我们为HTML理解模型（经过微调
OpenCV（一个C++人工智能领域重要开源基础库）简介愚梦者 OpenCV 人工智能人工智能 opencv c++图像处理计算机视觉开源
返回：OpenCV系列文章目录（持续更新中......）上一篇：OpenCV4.9.0配置选项参考下一篇：OpenCV4.9.0开源计算机视觉库安装概述引言：OpenCV（全称OpenSourceComputerVisionLibrary）是一个基于开放源代码发行的跨平台计算机视觉库，可以用来进行图像处理、计算机视觉和机器学习等领域的开发。该库由英特尔公司于1999年开始开发，最初是为了加速处理器
零基础机器学习(5)之线性回归模型的性能评估一只特立独行猪机器学习机器学习线性回归人工智能
文章目录线性回归模型的性能评估1.举例1-单一特征2.举例2-多特征线性回归模型的性能评估评估线性回归模型时，首先要建立评估的测试数据集（测试集不能与训练集相同），然后选择合适的评估方法，实现对线性回归模型的评估。回归任务中最常用的评估方法有均方误差、均方根误差和预测准确率（确定系数）。1.举例1-单一特征分别对两个模型进行评估，输入的测试集如表所示。面积/（m2）售价/（万元）面积/（m2）售价
2022-05-14 败者食尘_40a0
本文结构速览：一、SQL题二、机器学习&概率论三、开放性问题01SQL题面试真题：现有一张用户签到表（user_sign_d）,标记用户每日是否签到，表结构如下sign_date:日期user_id:用户IDif_sign:当日是否签到,1表示签到，0表示未签到问题①：请计算截止到当前每个用户已经连续签到的天数（输出表仅包含当天签到的所有用户，计算其连续签到的天数）输出表结构如下：user_id:
Android 实现照片抠出人像。 No Promises﹉ android
谢谢阅览、关注！！一、各平台的实现方式：1.Android实现方式：使用图像处理库（如OpenCV）：集成OpenCV库，利用其图像处理功能进行边缘检测和图像分割；使用机器学习模型（如TensorFlowLite）：集成TensorFlowLite和预训练的人像分割模型；使用第三方API服务：利用如百度AI、腾讯AI等提供的在线API进行图像处理。步骤：集成必要的库或API、加载和处理图像、应用抠
Python机器学习笔记：CART算法实战战争热诚
完整代码及其数据，请移步小编的GitHub传送门：请点击我如果点击有误：https://github.com/LeBron-Jian/MachineLearningNote前言在python机器学习笔记：深入学习决策树算法原理一文中我们提到了决策树里的ID3算法，C4.5算法，并且大概的了
机器学习是什么三花学编程机器学习
机器学习是什么？机器学习，这一词汇在当今的科技领域中可谓炙手可热，其影响深远，不仅改变了科学研究的方式，也推动了社会的快速发展。那么，机器学习到底是什么呢？机器学习，顾名思义，是机器（通常指计算机）进行学习的过程。这个过程模仿了人类的学习方式，通过经验积累，不断优化自身性能，最终能够在没有人类直接干预的情况下，进行决策或预测。简单来说，机器学习就是让计算机具备从数据中学习并自动改进的能力。机器学习
最新ChatGPT支持下的PyTorch机器学习与深度学习 zkzhzy ChatGPT 机器学习 python 机器学习深度学习 pytorch chatgpt 数据分析人工智能
近年来，随着AlphaGo、无人驾驶汽车、医学影像智慧辅助诊疗、ImageNet竞赛等热点事件的发生，人工智能迎来了新一轮的发展浪潮。尤其是深度学习技术，在许多行业都取得了颠覆性的成果。另外，近年来，Pytorch深度学习框架受到越来越多科研人员的关注和喜爱。郁磊（副教授）主要从事AI人工智能、大语言模型及软件开发、生理系统建模与仿真、生物医学信号处理，具有丰富的科研经验，主编《MATLAB智能算
神奇的微积分科学的N次方人工智能人工智能 ai
微积分在人工智能（AI）领域扮演着至关重要的角色，以下是其主要作用：优化算法：•梯度下降法：微积分中的导数被用来计算损失函数相对于模型参数的梯度，这是许多机器学习和深度学习优化算法的核心。梯度指出了函数值增加最快的方向，通过沿着负梯度方向更新权重，可以最小化损失函数并优化模型。•反向传播：在神经网络训练中，微积分的链式法则用于计算整个网络中每个参数对于最终损失函数的影响（偏导数），这一过程就是反向
机器学习简介 Dayueban
@我的博客：有味写在前面在年前将要进行靶向代谢组学测定的样品送去公司，随之想想，还有一个半月的时间数据才会回来，那么这段时间是不是可以先学习下分类数据如何分析呢（PS:因为数据是属于分类性质的），所以不久前买的一本书——《机器学习与R语言》稍微系统学一遍，该书为美国的BrettLantz所著，翻译工作由我国学者李洪成、许金炜、李舰完成。学习本书的主要目的是了解机器学习的思想，以及所应用的领域，当然
regression机器学习回归预测模型参考学习后自我总结饮啦冰美式机器学习回归学习
简单来说，就是将样本的特征矩阵映射到样本标签空间。回归分析帮助我们理解在改变一个或多个自变量时，因变量的数值会如何变化。线性模型线性回归用于建立因变量和一个或多个自变量之间的线性关系模型。在线性回归中，假设因变量（被预测变量）与自变量（预测变量）之间存在着线性关系，也就是说，因变量的数值可以通过自变量的线性组合来预测。普通最小二乘线性回归。通过最小化实际观测值与模型预测值之间的误差平方和，可以找到
线性回归和逻辑回归对比学习-含代码和数据 M.D 线性回归逻辑回归学习
线性回归和逻辑回归是两种常见的机器学习算法，它们在一些方面相似，但在其他方面则有明显的不同。以下是它们的对比以及您提供的代码示例：线性回归(LinearRegression)线性回归用于预测连续的数值。这种模型假设自变量和因变量之间存在线性关系。fromsklearn.linear_modelimportLinearRegressionimportmatplotlib.pyplotaspltimp
【Conda】详细讲解程序员不想敲代码啊 conda
Conda1.前言2.关键特点3.Conda命令1.前言Conda是一个流行的包管理器和环境管理器，主要用于Python编程语言，但也可以用来安装、运行和更新包和环境中的任何语言，如R、Ruby、Lua、Scala、Java等。Conda主要是为了方便数据科学、机器学习和类似应用的需要而设计的，但它对任何类型的软件都是适用的。下面，我将概述Conda的几个关键特点和常用命令：2.关键特点环境管理：
机器学习常用框架碧落&凡尘机器学习人工智能
机器学习是人工智能的一个重要分支，它通过让计算机系统利用数据自我学习来改进任务执行的能力。在机器学习领域，有许多成熟的框架被广泛使用，这些框架提供了构建和训练机器学习模型的工具。以下是一些常用的机器学习框架：TensorFlow：由Google开发，是一个开源的软件库，用于数据流编程，广泛应用于各类机器学习任务。它支持分布式计算，能够在大规模数据集上训练复杂的模型。PyTorch：由Faceboo
TensorFlow的介绍和简单案例科学的N次方人工智能 tensorflow 人工智能 python
TensorFlow是一个开源的机器学习框架，由Google开发和维护。它旨在使构建和训练机器学习模型变得更加容易，同时提供高度灵活性和可扩展性。TensorFlow基于数据流图的概念。数据流图是一个由节点和边组成的有向图，其中节点表示操作，边表示数据的流动。TensorFlow通过在数据流图中定义操作和变量来表示机器学习模型，并使用图的计算能力进行训练和推理。TensorFlow支持多种机器学习
基于Python和OpenCV的产品码识别与验证案例 GT开发算法工程师 python opencv 开发语言人工智能计算机视觉
引言：本案例展示了如何使用Python结合OpenCV库来实现产品码的识别与验证。首先，通过图像预处理技术（如灰度化、二值化、降噪等）优化产品码图像，然后利用OpenCV中的模板匹配或机器学习算法（如SVM、神经网络等）来定位并识别产品码。目录原理：代码部分：注意：原理：产品码识别与验证的核心在于图像处理与模式识别技术。首先，通过图像处理技术提取出产品码区域，去除背景干扰，增强产品码的可识别性。然
机器学习中的 K-均值聚类算法及其优缺点刘小董学习心得机器学习
K-均值聚类算法是一种常用的无监督学习算法，用于将样本数据划分为K个不同的簇。其基本思想是通过迭代去优化簇的中心位置，使得每个样本点到所属簇的中心点的距离最小。算法步骤如下：初始化K个簇的中心点，可以随机选择K个样本点作为初始中心点。对于每个样本点，计算其与各个簇中心点的距离，并将其划分到距离最近的簇中。更新每个簇的中心点，将其设为该簇中所有样本点的均值。重复步骤2和步骤3，直到达到停止条件（例如
挑战杯机器学习股票大数据量化分析与预测系统 - python 挑战杯 laafeer python
文章目录0前言1课题背景2实现效果UI界面设计web预测界面RSRS选股界面3软件架构4工具介绍Flask框架MySQL数据库LSTM5最后0前言优质竞赛项目系列，今天要分享的是机器学习股票大数据量化分析与预测系统该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：3分创新点：3分更多资料,项目分享：https://gitee.com
阿里云分布式深度学习训练架构Whale qwfys200 Reading 阿里云分布式深度学习
阿里云分布式深度学习训练架构Whale阿里云分布式深度学习训练架构Whale参考文献Whale基于Tensorflow深度学习分布式训练框架|学习笔记Whale:EfficientGiantModelTrainingoverHeterogeneousGPUs阿里云机器学习平台PAI论文高效大模型训练框架Whale入选USENIXATC’22
Python入门指南：从基础到应用袁公白 python 开发语言
引言：在这个数据驱动的时代，Python已经成为最受欢迎的编程语言之一。它以其简洁的语法、强大的库支持和广泛的应用领域而闻名。无论你是编程新手还是希望扩展你的技能集，学习Python都是一个明智的选择。在这篇博客中，我们将深入探讨Python的基础知诀，并通过实际代码示例来展示其在数据分析、网络爬虫和机器学习等领域的应用。I.Python基础知识A.数据类型Python提供了多种内置的数据类型，包
探索机器学习：智能时代的魔法 ChenDuBr 机器学习人工智能机器学习
在智能科技的浪潮中，机器学习如同一股神秘的力量，悄然改变着我们的世界。它不仅仅是编程代码的延伸，更是一种让机器通过“学习”来解决问题的魔法。本文将带你深入了解机器学习的奥秘，探索它的世界，并展望未来的无限可能。机器学习的奇幻定义想象一下，如果你的电脑或手机能够像孩子一样学习新事物，而且速度更快、记忆力更好，那就是机器学习的魅力所在。机器学习让机器通过海量数据的“熏陶”，自我进化，无需人类一步步指导
【机器学习】支持向量机 | 支持向量机理论全梳理对偶问题转换，核方法，软间隔与过拟合 Qodicat 支持向量机机器学习算法
支持向量机走的路和之前介绍的模型不同之前介绍的模型更趋向于进行函数的拟合，而支持向量机属于直接分割得到我们最后要求的内容1支持向量机SVM基本原理当我们要用一条线（或平面、超平面）将不同类别的点分开时，我们希望这条线尽可能地远离最靠近它的点。这些最靠近线的点被称为支持向量。而这条线到最靠近它的点的距离被称为间隔。支持向量机就是要找到一个最大间隔的线（或平面、超平面），这样可以更好地区分不同类别的点
ChatGPT GPT4科研应用、数据分析与机器学习、论文高效写作、AI绘图技术夏日恋雨人工智能 chatgpt 数据分析 AI大数据机器学习 python 数据挖掘
原文链接：ChatGPTGPT4科研应用、数据分析与机器学习、论文高效写作、AI绘图技术https://mp.weixin.qq.com/s?__biz=MzUzNTczMDMxMg==&mid=2247596849&idx=3&sn=111d68286f9752008bca95a5ec575bb3&chksm=fa823ad6cdf5b3c0c446eceb5cf29cccc3161d746bd
深度学习如何入门？ nanshaws yolov5 深度学习
深度学习是机器学习的一个子领域，它基于人工神经网络的研究。入门深度学习可以分为以下几个步骤：基础知识准备：（1）掌握基础数学知识，特别是线性代数、概率论和统计学、微积分。（2）学习编程语言，Python是目前最流行的深度学习语言，因其简洁易学且有大量的库支持。（3）了解机器学习基础，包括监督学习和非监督学习的概念、模型评估与选择等。学习深度学习理论：（1）理解神经网络的基本组成，如神经元、激活函数
机器学习、深度学习、神经网络之间的关系你好，工程师 AI 机器学习
机器学习（MachineLearning）、深度学习（DeepLearning）和神经网络（NeuralNetworks）之间存在密切的关系，它们可以被看作是一种逐层递进的关系。下面简要介绍它们之间的关系：机器学习（MachineLearning）：机器学习是一种人工智能的分支，关注如何通过数据让计算机系统从经验中学习，提高性能。机器学习算法可以分为监督学习、无监督学习、半监督学习和强化学习等不同
随机森林原理&sklearn实现一稻道人机器学习算法&预测模型 Python 随机森林 sklearn 算法
原理定义随机森林就是通过集成学习的思想将多棵树集成的一种算法，它的基本单元是决策树，而它的本质属于机器学习的一大分支——集成学习（EnsembleLearning）方法。随机森林的名称中有两个关键词，一个是“随机”，一个就是“森林”。随机森林应该是机器学习算法时最先接触到的集成算法，集成学习的家族：Bagging：个体评估器之间不存在强依赖关系，一系列个体学习器可以并行生成。代表算法：随机森林（R
你说什么是机器学习呢 guguguyuan 人工智能
机器学习这个词是让人疑惑的，首先它是英文名称MachineLearning(简称ML)的直译，在计算界Machine一般指计算机。这个名字使用了拟人的手法，说明了这门技术是让机器“学习”的技术。但是计算机是死的，怎么可能像人类一样“学习”呢？传统上如果我们想让计算机工作，我们给它一串指令，然后它遵照这个指令一步步执行下去。有因有果，非常明确。但这样的方式在机器学习中行不通。机器学习根本不接受你输入
【个人学习笔记】概率论与数理统计知识梳理【五】已经是全速前进了概率论
文章目录第五章、大数定律及中心极限定理一、大数定律1.1基本概念1.2弱大数定理二、中心极限定理独立同分布的中心极限定理定理总结第五章、大数定律及中心极限定理写博客比想象中费劲得多，公式得敲好久，所以只得随缘更更了，想写一些机器学习相关的东西，但是强迫症又不允许我把这个扔掉不管，我太难了Orz这一节的内容比较深，即使我是一个喜欢数学的工科生，也没有精力再去深究了，各式各样的大数定律及中心极限定理我
apache ftpserver-CentOS config gengzg apache
<server xmlns="http://mina.apache.org/ftpserver/spring/v1" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=" http://mina.apache.o
优化MySQL数据库性能的八种方法 AILIKES sql mysql
1、选取最适用的字段属性　　MySQL可以很好的支持大数据量的存取，但是一般说来，数据库中的表越小，在它上面执行的查询也就会越快。因此，在创建表的时候，为了获得更好的性能，我们可以将表中字段的宽度设得尽可能小。例如，在定义邮政编码这个字段时，如果将其设置为CHAR(255),显然给数据库增加了不必要的空间，甚至使用VARCHAR这种类型也是多余的，因为CHAR(6)就可以很
JeeSite 企业信息化快速开发平台 Kai_Ge JeeSite
JeeSite 企业信息化快速开发平台平台简介 JeeSite是基于多个优秀的开源项目，高度整合封装而成的高效，高性能，强安全性的开源Java EE快速开发平台。 JeeSite本身是以Spring Framework为核心容器，Spring MVC为模型视图控制器，MyBatis为数据访问层， Apache Shiro为权限授权层，Ehcahe对常用数据进行缓存，Activit为工作流
通过Spring Mail Api发送邮件 120153216 邮件 main
原文地址：http://www.open-open.com/lib/view/open1346857871615.html 使用Java Mail API来发送邮件也很容易实现，但是最近公司一个同事封装的邮件API实在让我无法接受，于是便打算改用Spring Mail API来发送邮件，顺便记录下这篇文章。【Spring Mail API】 Spring Mail API都在org.spri
Pysvn 程序员使用指南 2002wmj SVN
源文件:http://ju.outofmemory.cn/entry/35762 这是一篇关于pysvn模块的指南. 完整和详细的API请参考 http://pysvn.tigris.org/docs/pysvn_prog_ref.html. pysvn是操作Subversion版本控制的Python接口模块. 这个API接口可以管理一个工作副本, 查询档案库, 和同步两个. 该
在SQLSERVER中查找被阻塞和正在被阻塞的SQL 357029540 SQL Server
SELECT R.session_id AS BlockedSessionID , S.session_id AS BlockingSessionID , Q1.text AS Block
Intent 常用的用法备忘 7454103 .net android Google Blog F#
Intent 应该算是Android中特有的东西。你可以在Intent中指定程序要执行的动作（比如：view,edit,dial），以及程序执行到该动作时所需要的资料。都指定好后，只要调用startActivity()，Android系统会自动寻找最符合你指定要求的应用程序，并执行该程序。下面列出几种Intent 的用法显示网页:
Spring定时器时间配置 adminjun spring 时间配置定时器
红圈中的值由6个数字组成，中间用空格分隔。第一个数字表示定时任务执行时间的秒，第二个数字表示分钟，第三个数字表示小时，后面三个数字表示日，月，年，< xmlnamespace prefix ="o" ns ="urn:schemas-microsoft-com:office:office" /> 测试的时候，由于是每天定时执行，所以后面三个数
POJ 2421 Constructing Roads 最小生成树 aijuans 最小生成树
来源：http://poj.org/problem?id=2421 题意：还是给你n个点，然后求最小生成树。特殊之处在于有一些点之间已经连上了边。思路：对于已经有边的点，特殊标记一下，加边的时候把这些边的权值赋值为0即可。这样就可以既保证这些边一定存在，又保证了所求的结果正确。代码： #include <iostream> #include <cstdio>
重构笔记——提取方法（Extract Method） ayaoxinchao java 重构提炼函数局部变量提取方法
提取方法（Extract Method）是最常用的重构手法之一。当看到一个方法过长或者方法很难让人理解其意图的时候，这时候就可以用提取方法这种重构手法。下面是我学习这个重构手法的笔记：提取方法看起来好像仅仅是将被提取方法中的一段代码，放到目标方法中。其实，当方法足够复杂的时候，提取方法也会变得复杂。当然，如果提取方法这种重构手法无法进行时，就可能需要选择其他
为UILabel添加点击事件 bewithme UILabel
默认情况下UILabel是不支持点击事件的，网上查了查居然没有一个是完整的答案，现在我提供一个完整的代码。 UILabel *l = [[UILabel alloc] initWithFrame:CGRectMake(60, 0, listV.frame.size.width - 60, listV.frame.size.height)]
NoSQL数据库之Redis数据库管理(PHP-REDIS实例) bijian1013 redis 数据库 NoSQL
一.redis.php <?php //实例化 $redis = new Redis(); //连接服务器 $redis->connect("localhost"); //授权 $redis->auth("lamplijie"); //相关操
SecureCRT使用备注 bingyingao secureCRT 每页行数
SecureCRT日志和卷屏行数设置一、使用securecrt时，设置自动日志记录功能。 1、在C:\Program Files\SecureCRT\下新建一个文件夹(也就是你的CRT可执行文件的路径），命名为Logs； 2、点击Options -> Global Options -> Default Session -> Edite Default Sett
【Scala九】Scala核心三：泛型 bit1129 scala
泛型类 package spark.examples.scala.generics class GenericClass[K, V](val k: K, val v: V) { def print() { println(k + "," + v) } } object GenericClass { def main(args: Arr
素数与音乐 bookjovi 素数数学 haskell
由于一直在看haskell，不可避免的接触到了很多数学知识，其中数论最多，如素数，斐波那契数列等，很多在学生时代无法理解的数学现在似乎也能领悟到那么一点。闲暇之余，从图书馆找了<<The music of primes>>和<<世界数学通史>>读了几遍。其中素数的音乐这本书与软件界熟知的&l
Java-Collections Framework学习与总结-IdentityHashMap BrokenDreams Collections
这篇总结一下java.util.IdentityHashMap。从类名上可以猜到，这个类本质应该还是一个散列表，只是前面有Identity修饰，是一种特殊的HashMap。简单的说，IdentityHashMap和HashM
读《研磨设计模式》-代码笔记-享元模式-Flyweight bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.HashMap; import java.util.List; import java
PS人像润饰&调色教程集锦 cherishLC PS
1、仿制图章沿轮廓润饰——柔化图像，凸显轮廓 http://www.howzhi.com/course/retouching/ 新建一个透明图层，使用仿制图章不断Alt+鼠标左键选点，设置透明度为21%，大小为修饰区域的1/3左右（比如胳膊宽度的1/3），再沿纹理方向（比如胳膊方向）进行修饰。所有修饰完成后，对该润饰图层添加噪声，噪声大小应该和
更新多个字段的UPDATE语句 crabdave update
更新多个字段的UPDATE语句 update tableA a set (a.v1, a.v2, a.v3, a.v4) = --使用括号确定更新的字段范围
hive实例讲解实现in和not in子句 daizj hive not in in
本文转自：http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842855.html 当前hive不支持 in或not in 中包含查询子句的语法，所以只能通过left join实现。假设有一个登陆表login(当天登陆记录,只有一个uid),和一个用户注册表regusers(当天注册用户，字段只有一个uid)，这两个表都包含
一道24点的10+种非人类解法（2,3,10,10） dsjt 算法
这是人类算24点的方法？！！！事件缘由：今天晚上突然看到一条24点状态，当时惊为天人，这NM叫人啊？以下是那条状态朱明西 : 24点，算2 3 10 10，我LX炮狗等面对四张牌痛不欲生，结果跑跑同学扫了一眼说，算出来了，2的10次方减10的3次方。。我草这是人类的算24点啊。。然后么。。。我就在深夜很得瑟的问室友求室友算刚出完题，文哥的暴走之旅开始了 5秒后
关于YII的菜单插件 CMenu和面包末breadcrumbs路径管理插件的一些使用问题 dcj3sjt126com yii framework
在使用 YIi的路径管理工具时，发现了一个问题。 <?php
对象与关系之间的矛盾：“阻抗失配”效应[转] come_for_dream 对象
概述 “阻抗失配”这一词组通常用来描述面向对象应用向传统的关系数据库（RDBMS）存放数据时所遇到的数据表述不一致问题。C++程序员已经被这个问题困扰了好多年，而现在的Java程序员和其它面向对象开发人员也对这个问题深感头痛。 “阻抗失配”产生的原因是因为对象模型与关系模型之间缺乏固有的亲合力。“阻抗失配”所带来的问题包括：类的层次关系必须绑定为关系模式（将对象
学习编程那点事 gcq511120594 编程互联网
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
Reverse Linked List II hcx2013 list
Reverse a linked list from position m to n. Do it in-place and in one-pass. For example:Given 1->2->3->4->5->NULL, m = 2 and n = 4, return
Spring4.1新特性——页面自动化测试框架Spring MVC Test HtmlUnit简介 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Hadoop集群工具distcp liyonghui160com
1. 环境描述两个集群：rock 和 stone rock无kerberos权限认证，stone有要求认证。 1. 从rock复制到stone，采用hdfs Hadoop distcp -i hdfs://rock-nn:8020/user/cxz/input hdfs://stone-nn:8020/user/cxz/运行在rock端，即源端问题：报版本
一个备份MySQL数据库的简单Shell脚本 pda158 mysql 脚本
　　主脚本（用于备份mysql数据库）：　　该Shell脚本可以自动备份数据库。只要复制粘贴本脚本到文本编辑器中，输入数据库用户名、密码以及数据库名即可。我备份数据库使用的是mysqlump 命令。后面会对每行脚本命令进行说明。　　 1. 分别建立目录“backup”和“oldbackup” 　　#mkdir /backup 　　#mkdir /oldbackup 　
300个涵盖IT各方面的免费资源（中）——设计与编码篇 shoothao IT资源图标库图片库色彩板字体
A. 免费的设计资源 Freebbble:来自于Dribbble的免费的高质量作品。 Dribbble:Dribbble上“免费”的搜索结果——这是巨大的宝藏。 Graphic Burger:每个像素点都做得很细的绝佳的设计资源。 Pixel Buddha:免费和优质资源的专业社区。 Premium Pixels:为那些有创意的人提供免费的素材。
thrift总结 - 跨语言服务开发 uule thrift
官网官网JAVA例子 thrift入门介绍 IBM-Apache Thrift - 可伸缩的跨语言服务开发框架 Thrift入门及Java实例演示 thrift的使用介绍 RPC POM： <dependency> <groupId>org.apache.thrift</groupId>

机器学习 朴素贝叶斯算法数学过程及Python实现:女生说这话是不是对你有意思