htshinichi

【机器学习实战】朴素贝叶斯(连续型/离散型)

朴素贝叶斯
- 一、连续型
  - 1.计算高斯概率密度CalcuGaussProb(x,mean,stdev)
  - 2.获取各类别中各特征的均值、方差和标签集getMeanStdLabel(self,train_data)
  - 3. 计算连续型数据所属类的概率CalcuClassProbCon(arr,cx_mean,cx_std)
  - 4.获取单个样本的预测类别predict(arr,cmean,cstd,label_array)
  - 5.获取整个数据集的预测结果getPredictions(testarr,cmean,cstd,label_array)
  - 6.计算准确率
- 二、离散型
  - 1.初始化init(lamda=1)
  - 2.获取相关参数 getParams(data)
  - 3.计算先验概率 calPriorProb()
  - 4.计算条件概率 calCondProb()
  - 5.预测给定一个实例 predict(traindata,testdata)
  - 6.计算预测准确度getAccuracy(traindata,testdata)
- 三、数据集测试
  - 1.连续型
  - 2.离散型

朴素贝叶斯

一、连续型

当特征中数据是连续型时，通常有两种方法来估计条件概率。
第一种方法是把每一个连续的数据离散化，然后用相应的离散区间替换连续数值。这种方法对于划分离散区间的粒度要求较高，不能太细，也不能太粗。
第二种方法是假设连续数据服从某个概率分布，使用训练数据估计分布参数，通常我们用高斯分布来表示连续数据的类条件概率分布。
此处我们使用第二种方法：

1.计算高斯概率密度CalcuGaussProb(x,mean,stdev)

公式为：
12πσ2−−−−√e(−12σ2(x−μ)2)
μ为均值， σ2 为方差，σ为标准差
给定来自训练数据中已知特征的均值和标准差后，可以使用高斯函数来评估一个给定的特征值的概率。即用高斯概率密度函数来表示条件概率 P(x(j)|ck)

#计算高斯概率密度函数
def CalcuGaussProb(self,x,mean,stdev):
    exponent = np.exp(-(np.power(x-mean,2))/(2*np.power(stdev,2)))
    GaussProb = (1/(np.sqrt(2*np.pi)*stdev))*exponent
    return GaussProb

2.获取各类别中各特征的均值、方差和标签集getMeanStdLabel(self,train_data)

获取类标签，并获取每个类中各个特征的均值和方差

#获取训练集每一类中每个特征的均值和方差以及类标签的取值集合
def getMeanStdLabel(self,train_data):
    label_counts=train_data.label.value_counts()
    label_arr=np.array(label_counts.index)
    label_arr.sort()
    #得到除标签外特征数
    num_feature = len(train_data.columns.values) - 1
    #按类别划分数据
    names = locals()
    for i in range(len(label_arr)):
        names['c%s' % i] = train_data[train_data["label"]==label_arr[i]]
    #按类别对每个属性求均值和方差
    c_mean=[]
    c_std=[]
    for j in range(len(label_arr)):
        names['mc%s' % j] = []
        names['sc%s' % j] = []
        for k in range(num_feature):
            names['mc%s' % j].append(np.mean(names['c%s' % j][k]))
            names['sc%s' % j].append(np.std(names['c%s' % j][k],ddof=1))

    for x in range(len(label_arr)):
        c_mean.append(names['mc%s' % x])
        c_std.append(names['sc%s' % x])
        names['arr_c%s' % x] = np.array(names['c%s' % x])
    return c_mean,c_std,label_arr

3. 计算连续型数据所属类的概率CalcuClassProbCon(arr,cx_mean,cx_std)

n个样本的样本集为 xi∈{x1,x2,...,xn} ，第i个样本 xi 有m个特征 x(j)i∈{x(1)i,x(2)i,...,x(m)i}
对于一个样本属于某类的概率，我们用这个样本所有特征概率之乘积来表示，即 ∏j=1mP(x(j)|ck)

#计算连续数据所属类的概率
def CalcuClassProbCon(self,arr,cx_mean,cx_std):
    cx_probabilities=1
    for i in range(len(cx_mean)):
        cx_probabilities *= self.CalcuGaussProb(arr[i],cx_mean[i],cx_std[i])
    return cx_probabilities

4.获取单个样本的预测类别predict(arr,cmean,cstd,label_array)

对于单个样本返回预测结果，即比较所有类别下，这个样本的概率，找到最大的概率值，返回其类别和概率值。
传入测试样本、均值、方差和标签集合。

#单一样本预测
def predict(self,trainData,testData):
    prob = []
    #print(trainData)
    self.cmean,self.cstd,self.label_array=self.getMeanStdLabel(trainData)
    for i in range(len(self.cmean)):
        cx_mean = self.cmean[i] #x类的均值
        cx_std = self.cstd[i] #x类的方差
        #print(testData)
        prob.append(self.CalcuClassProbCon(testData,cx_mean,cx_std)) #将计算得到的各类别概率存入列表
    bestLabel,bestProb = None,-1 #初始化最可能的类和最大概率值    
    for i in range(len(prob)): #找到所有类别中概率值最大的类
        if prob[i] > bestProb:
            bestProb = prob[i]
            bestLabel = self.label_array[i]
    return bestLabel,bestProb

5.获取整个数据集的预测结果getPredictions(testarr,cmean,cstd,label_array)

#整个数据集预测
def getPredictions(self,TrainData,TestData):
    self.prediction = []
    self.testdata = np.array(TestData)
    for i in range(len(self.testdata)):
        result,proby = self.predict(TrainData,self.testdata[i])
        self.prediction.append(result)
    return self.prediction

6.计算准确率

同理推广到整个数据集(测试集)上，通过比对预测结果和真实标签，计算出准确率
acc=预测正确数数据集总数

#计算准确性
def getAccuracy(self):
    correct = 0
    for i in range(len(self.testdata)):
        if(self.testdata[i][-1]==self.prediction[i]):
            correct += 1
    return (correct/float(len(self.testdata)))*100.0

二、离散型

1.初始化init(lamda=1)

lamda为贝叶斯平滑因子，默认取1(即拉普拉斯平滑)

def __init__(self,lamda=1):
    self.lamda = lamda

2.获取相关参数 getParams(data)

#获取相关参数
def getParams(self,data):
    self.ck_counts = data.label.value_counts()#训练样本中类为ck的数量集合
    self.ck_name = np.array(self.ck_counts.index)#训练样本中类ck名称集合    
    self.DataNum = len(data)#训练样本总数N
    self.CNum = len(self.ck_counts)#类的个数K
    self.DataSet = data

3.计算先验概率 calPriorProb()

先验概率： Pλ(Y=ck)=∑i=1NI(yi=ck)+λN+Kλ
∑i=1NI(yi=ck) ，用ck_counts表示

#计算先验概率
def calPriorProb(self):
    self.ck_PriorProb = []
    for i in range(self.CNum):
        cx_PriorProb = (self.ck_counts[i]+self.lamda)/(self.DataNum+self.CNum*self.lamda)
        self.ck_PriorProb.append(cx_PriorProb)

4.计算条件概率 calCondProb()

条件概率： Pλ(X(j)=ajl|Y=ck)=∑i=1NI(x(j)i=ajl,yi=ck)+λ∑i=1NI(yi=ck)+mλ
我们将计算得到的每个类的每个特征取值的条件概率存起来

#计算条件概率
def calCondProb(self):
    names = locals()#使用动态变量
    self.CondProb = []#存储所有类别的所有特征取值的条件概率
    self.feat_value = []#所有特征取值列表

    #对于每一类别的数据集
    for i in range(len(self.ck_name)):
        names['Q%s' % i] = self.DataSet[self.DataSet["label"]==self.ck_name[i]]#按类别划分数据集
        names['ConProbC%s' % i] = []#定义动态变量，表示各类别中所有特征取值的条件概率集合
        feature_arr = self.DataSet.columns.tolist()[0:len(self.DataSet.columns)-1]#获取训练数据集特征集

        #对于每一个特征求该特征各个取值的条件概率
        for feature in (feature_arr):

            names['Q%s' % feature]=[]#定义动态变量，表示某个类别的某个特征的所有取值条件概率

            #对于某个特征的所有可能取值求条件概率
            for value in self.DataSet[feature].value_counts().index.tolist():

                #生成所有特征取值列表
                if value not in self.feat_value:#如果这个取值不在列表中，则加入这个取值
                    self.feat_value.append(value)

                #这里用了拉普拉斯平滑，使得条件概率不会出现0的情况
                #如果某个类的某个特征取值在训练集上都出现过，则这样计算
                if value in names['Q%s' % i][feature].value_counts():
                    temp = (names['Q%s' % i][feature].value_counts()[value]+self.lamda)/(names['Q%s' % i][feature].value_counts().sum()+len(names['Q%s' % i][feature].value_counts())*self.lamda)
                #如果某个类的某个特征取值并未在训练集上出现，为了避免出现0的情况，分子取1(即lamda平滑因子，取1时为拉普拉斯平滑)
                else:
                    temp = self.lamda/(names['Q%s' % i][feature].value_counts().sum()+len(names['Q%s' % i][feature].value_counts())*self.lamda)

                #将求得的特征取值条件概率加入列表
                names['Q%s' % feature].append(temp)
            #将得到的某个类别的某个特征的所有取值条件概率列表加入某个类别中所有特征取值的条件概率集合
            names['ConProbC%s' % i].extend(names['Q%s' % feature])
        #将某个类别中所有特征取值的条件概率集合加入所有类别所有特征取值的条件概率集合
        self.CondProb.append(names['ConProbC%s' % i])
    #将所有特征取值列表也加入所有类别所有特征取值的条件概率集合(后面用来做columns--列索引)
    self.CondProb.append(self.feat_value)
    #用类别名称的集合来生成行索引index
    index = self.ck_name.tolist()
    index.extend(['other'])#此处由于我最后一行是feat_value，后面会删掉，因此在行索引上也多加一个，后面删掉
    #将所有类别所有特征取值的条件概率集合转换为DataFrame格式
    self.CondProb = pd.DataFrame(self.CondProb,columns=self.CondProb[self.CNum],index = index)
    self.CondProb.drop(['other'],inplace = True)

5.预测给定一个实例 predict(traindata,testdata)

#对一个样本进行预测    
def predict(self,traindata,testdata):
    self.getParams(traindata)#获取参数
    self.calPriorProb()#获取先验概率
    self.calCondProb()#获取条件概率

    self.ClassTotalProb = []#初始化各类别总概率列表
    bestprob = -1#初始化最高概率
    bestfeat = ''#初始化最可能类别

    for feat in self.ck_name:
        pp = self.ck_PriorProb[self.ck_name.tolist().index(feat)]#pp为先验概率
        cp = 1#初始化条件概率
        for value in self.feat_value:
            if value in testdata.value_counts().index.tolist():
                cp = cp * self.CondProb[value][feat]#计算各特征取值的条件概率之积
        TotalProb = pp * cp#条件概率之积与先验概率相乘
        self.ClassTotalProb.append(TotalProb)
    #找到最可能类别和其概率    
    for i in range(len(self.ck_name)):
        if self.ClassTotalProb[i] > bestprob:
            bestprob = self.ClassTotalProb[i]
            bestfeat = self.ck_name[i]
    return bestprob,bestfeat

6.计算预测准确度getAccuracy(traindata,testdata)

#计算预测准确度
def getAccuracy(self,traindata,testdata):
    num = 0
    realFeat = testdata.label.tolist()
    for i in range(len(testdata)):
        temp = testdata.iloc[i][0:len(testdata.columns)-1]    
        predProb,predFeat = self.predict(traindata,temp)
        print(predProb,predFeat,realFeat[i])
        if(realFeat[i] == predFeat):
            num = num + 1
    acc = num / len(realFeat)
    return acc

三、数据集测试

1.连续型

用的是pima印第安人糖尿病数据集来测试

diabetes = pd.read_csv(path+"pima-indians-diabetes.csv")
dia_train,dia_test = train_test_split(diabetes,test_size=0.1)
model_NBC = NaiveBayesContinuous()
model_NBC.getPredictions(dia_train,dia_test)
acc1 = model_NBC.getAccuracy()
print("准确率：","%.2f" % acc1,"%")

准确率： 83.12 %

2.离散型

用的是汽车性价比CarEvalution数据集来测试

car = pd.read_csv(path+"CarEvalution.csv")
car_train,car_test = train_test_split(car,test_size=0.1)
model_NBD = NaiveBayesDiscrete()
acc2 = model_NBD.getAccuracy(car_train,car_test)
print("%.2f" % acc2,"%")

87.02 %

代码
参考
原理

你可能感兴趣的:(练习,机器学,贝叶)

【机器学习】使用scikit-learn中的KNN包实现对鸢尾花数据集或者自定义数据集的的预测加德霍克机器学习人工智能 python 学习作业
一、KNN算法概念K最近邻(K-NearestNeighbor,KNN)分类算法是数据挖掘分类技术中最简单的方法之一，是著名的模式识别统计学方法，在机器学习分类算法中占有相当大的地位。它是一个理论上比较成熟的方法。既是最简单的机器学习算法之一，也是基于实例的学习方法中最基本的，又是最好的文本分类算法之一。二、对鸢尾花数据集进行预测1、代码示例：fromsklearn.datasetsimportl
Julia语言的计算机基础 Code侠客行包罗万象 golang 开发语言后端
Julia语言的计算机基础引言随着数据科学、机器学习和高性能计算的快速发展，对编程语言的需求也日益增加。在众多编程语言中，Julia语言因其独特的设计理念和高性能而迅速崛起。本文将详细探讨Julia语言的基础知识，包括其历史背景、安装与环境配置、基本语法、数据结构、函数与模块、以及性能优化等方面，旨在为对Julia感兴趣的读者提供一份全面的入门指南。一、Julia语言简介1.1历史背景Julia是
想转行到人工智能领域，我该学什么，怎么学？张登杰踩人工智能 python
转行到人工智能（AI）领域需要系统的学习和实践，以下是详细的路径建议，涵盖基础知识、技能学习、项目实践和求职准备：一、明确目标和领域方向人工智能领域广泛，建议先了解细分方向（如机器学习、深度学习、计算机视觉、自然语言处理、强化学习等），结合兴趣和职业规划选择切入点。二、构建基础知识1.数学基础线性代数：矩阵运算、特征值、向量空间。微积分：导数、梯度、优化理论。概率与统计：贝叶斯定理、分布、假设检验
机器学习问题：AttributeError: ‘NoneType‘ object has no attribute ‘split‘ 解决办法零零鲎机器学习人工智能
参考博客：本次博客参考http://t.csdnimg.cn/8E7eH。写下来主要是为了整理自己在学习过程中遇到的问题并把解决办法列出来。学习内容：如果运行出现：AttributeError:‘NoneType’objecthasnoattribute'split’这样的问题。网上有很多解决办法是降级numpy到1.21.4。然后上面博客给出的解决方案是升级threadpoolctl。可以使用命
AI Agent：一场智能革命的开始机器人openai区块链
在当今科技日新月异的时代，AI（人工智能）技术正以前所未有的速度改变着我们的生活和工作方式。其中，AIAgent作为AI领域的一个新兴分支，正逐渐展现出其巨大的潜力和价值。本文将深入探讨AIAgent的发展现状、核心优势以及未来的发展方向，带您领略这一前沿技术的无限魅力。一、AIAgent的发展现状：技术突破与广泛应用近年来，随着大数据、云计算和机器学习等技术的飞速发展，AIAgent的技术水平得
SQL之分析函数/开窗函数案例分析与题目练习 QQ糖~~~~ mysql oracle oracle sql mysql
开窗函数简介:与聚合函数一样，开窗函数也是对行集组进行聚合计算，但是它不像普通聚合函数那样每组只返回一个值，开窗函数可以为每组返回多个值，因为开窗函数所执行聚合计算的行集组是窗口。在ISOSQL规定了这样的函数为开窗函数，在Oracle中则被称为分析函数。下面有一些习题来练习一下：数据表（Oracle）：T_Person表保存了人员信息，FName字段为人员姓名，FCity字段为人员所在的城市名，
【杂谈】-为什么Python是AI的首选语言视觉与物联智能杂谈 python 人工智能开发语言深度学习机器学习
为什么Python是AI的首选语言文章目录为什么Python是AI的首选语言1、为何Python引领人工智能发展1.1可用性和生态系统1.2用户群和用例1.3效率辅助2、AI项目对Python开发人员的要求3、如何开启你的AI学习之旅人工智能的广泛应用正在软件工程领域引发范式转变。Python凭借其易用性、成熟的生态系统以及满足人工智能和机器学习(ML)工作流数据驱动需求的能力，迅速成为人工智能开
新质生产力与核心竞争力提升 AI大模型应用之禅计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
新质生产力、人工智能、机器学习、深度学习、算法优化、数据驱动、核心竞争力、数字化转型1.背景介绍在当今数字化时代，科技创新正以惊人的速度推动着社会发展。人工智能（AI）作为科技发展的重要驱动力，正在深刻地改变着生产方式和生活方式。从自动驾驶汽车到智能语音助手，从个性化推荐系统到医疗诊断辅助，AI技术的应用场景日益广泛，为人类社会带来了前所未有的机遇。然而，AI技术的应用并非一帆风顺。如何有效地利用
智能工单分配在技术支持中的应用 AI大模型应用之禅计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
智能工单分配,技术支持,机器学习,算法优化,效率提升,客户满意度1.背景介绍在当今数字化时代，技术支持部门扮演着至关重要的角色，为用户提供及时有效的技术帮助，确保业务的正常运行。然而，随着用户数量和技术需求的不断增长，传统的人工工单分配方式面临着诸多挑战：分配效率低下:人工分配工单需要耗费大量时间和人力，且难以做到精准匹配，导致工单处理效率低下。资源分配不均衡:经验丰富的技术人员可能承担过多的工作
贪心算法 DeeGLMath ACM算法贪心算法算法
文章目录贪心算法及练习题1.爱与愁的心痛2.凌乱的yyy/线段覆盖3.[NOIP2004提高组]合并果子/[USACO06NOV]FenceRepairG4.[NOIP2010普及组]接水问题5.[THUPC2017]玩游戏6.考验7.[JOI2020Final]JJOOII2贪心算法及练习题简介：贪心算法（英语：greedyalgorithm），是用计算机来模拟一个“贪心”的人做出决策的过程。这
计算广告（一）爱学习的菜鸟罢了搜广推人工智能
计算广告学是一个十分庞大的学科，里面涵盖了自然语言处理、机器学习、推荐系统等众多研究方向。而且广告作为互联网行业的三大盈利模式（广告、电商、游戏）之一，也是这三大模式中最有技术含量的，计算广告学一直都吸引着无数学术界/工业界的精英投入其中（ps：计算广告学也是机器学习在商业界最成功的应用之一）。行业分类例子盈利搜索引擎Google百度广告社交网络腾讯facebook广告增值服务游戏电商网站亚马逊阿
如何从Oracle Autonomous Database加载文档 fGVBSAbe 数据库 oracle python
OracleAutonomousDatabase是一种云数据库，利用机器学习来自动化数据库调优、安全性、备份、更新以及其他传统由数据库管理员(DBAs)执行的例行管理任务。在本文中，我们将演示如何从OracleAutonomousDatabase加载文档。我们将使用连接字符串或TNS配置来进行连接。技术背景介绍OracleAutonomousDatabase通过自动化的方式极大地简化了数据库管理的
基于数据可视化+SpringBoot+Vue的医院综合管理平台设计和实现(源码+论文+部署讲解等) java李杨勇 Java精品毕设实战案例 Java毕业设计实战案例信息可视化 spring boot vue.js 医院综合管理平台 Java毕业设计
博主介绍：✌全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等
自动检测和机器审核系统实现 ╰つ゛木槿 java easyui javascript python java 自然语言处理
目录一、自动检测和机器审核实现步骤1.文本预处理步骤细节：2.关键词检测步骤细节：3.情感分析与情境理解步骤细节：4.机器学习模型训练步骤细节：5.深度学习模型步骤细节：6.多模态审查步骤细节：7.用户行为分析与违规预测步骤细节：总结二、常用的分词工具1.jieba2.THULAC3.HanLP4.SnowNLP5.LAC（LexicalAnalysisofChinese）6.PyLDAvis（结
c语言--第一章练习题 weixin_45958231 c语言 java 算法
第一章练习题1.一个C程序的执行是从(A)。A)本程序的main函数开始，到main函数结束B)本程序文件的第一个函数开始，到本程序文件的最后一个函数结束C)本程序文件的第一个函数开始，到本程序main函数结束D)本程序的main函数开始，到本程序文件的最后一个函数结束A)本程序的main函数开始，到main函数结束正确。C程序的执行总是从main函数开始，并在main函数中的return语句（如
【CV】25.1.7 arxiv更新速递 hinmer arxiv CV每日更新 python 人工智能计算机视觉 chatgpt 目标检测 ai AIGC
—第1篇----关键词:手势识别,计算机视觉,低光照条件,机器学习,RaspberryPi,OpenCV论文链接-摘要:手势识别是一种基于计算机视觉技术的感知用户界面，允许计算机将人类动作解释为命令，使用户无需使用手与计算机交流，从而使鼠标和键盘变得多余。手势识别的主要弱点是光线条件，因为手势控制依赖于摄像头。摄像头用于在2D和3D中解释手势，因此提取的信息可能因光源而异。系统的限制是无法在黑暗环
拿下国产高端市场第一背后，vivo与苹果、华为的共性何玺华为
出品|何玺排版|叶媛国内高端手机市场格局生变据数据机构Counterpoint在8月24日公布的第二季度中国高端智能手机市场报告，vivo在刚刚过去的第二季度中表现抢眼，获得了13%的市场份额，成为仅次于苹果的高端手机品牌厂商。01国内高端手机市场变局笔者至今清楚记得，在10余年前智能手机行业刚刚兴起的阶段，苹果手机在用户心目中的地位，与“高端”二字是直接划等号的。相关数据显示，从2011年至今，
【包邮送书】你好！Python Mindtechnist 粉丝福利 python 网络开发语言机器学习
欢迎关注博主Mindtechnist或加入【智能科技社区】一起学习和分享Linux、C、C++、Python、Matlab，机器人运动控制、多机器人协作，智能优化算法，滤波估计、多传感器信息融合，机器学习，人工智能等相关领域的知识和技术。关注公粽号《机器和智能》回复关键词“python项目实战”即可获取美哆商城视频资源！博主介绍：CSDN博客专家，CSDN优质创作者，CSDN实力新星，CSDN内容
自学成才之路，DeepSeek R1 论文解读智识世界Intelligence 神经网络深度学习自然语言处理课程设计学习方法
DeepSeekR1的论文看完后，后劲很大。虽然我推荐所有人都去阅读一下，但我估计实际去读的人应该很少。今天把论文里的三个亮点，用通俗易懂地方式写出来，希望能让更多人了解这篇论文有多么重要。亮点一：告别“刷题班”，纯“实战”也能练出推理大神！我们平时学习，是不是经常要“刷题”？做大量的练习题，才能巩固知识，提高解题能力。以前训练AI模型，也差不多是这个套路，要先给AI“喂”大量的“习题”（监督数据
基于遗传算法的城市旅行问题（TSP）求解 NovakG_ 深度学习 python 算法深度学习神经网络
1.遗传算法背景介绍遗传算法是一种基于生物进化论中的自然选择和遗传机制的优化算法，模拟了生物进化过程以搜索最优解。通过仿真染色体的交叉、变异等操作，遗传算法将求解过程转换为类似生物进化的迭代运算。该算法在解决复杂的组合优化问题时，通常比常规优化算法更高效，且具有广泛应用，包括组合优化、机器学习、信号处理、自适应控制和人工生命等领域2.遗传算法基本解题思路遗传算法的设计思路主要受到大自然中生物体进化
【2025 ODA teigha .NET系列开发教程第五章】给CAD实体添加附属数据XDATA，包括源码三好学生～张旺 ODA Teigha .NET开发教程 .net
系列文章目录提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加例如：第一章Python机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档2025ODAteigha.NET系列开发教程系列文章目录AutoCADXData扩展数据开发指南什么是XData？XData的两种存储方式1.全局字典存储(XRecord)2.实体附加存储步骤1：注册应
【数据挖掘实战】房价预测机器学习司猫白数据挖掘人工智能 python 机器学习
本次对kaggle中的入门级数据集，房价回归数据集进行数据挖掘，预测房屋价格。本人主页：机器学习司猫白机器学习专栏：机器学习实战PyTorch入门专栏：PyTorch入门深度学习实战：深度学习ok，话不多说，我们进入正题吧概述本次竞赛有79个解释变量（几乎）描述了爱荷华州艾姆斯住宅的各个方面，需要预测每套住宅的最终价格。数据集描述本次数据集已经上传，大家可以自行下载尝试文件说明train.csv-
【AI日志分析】基于机器学习的异常检测：告别传统规则的智能进阶网罗开发 AI 大模型人工智能机器学习
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
Copilot 概述计算机萍萍学姐 copilot copilot 人工智能机器学习
Copilot是什么？它有什么用途？Copilot是由人工智能公司和GitHub合作开发的一个基于人工智能的代码提示工具，它可以利用机器学习技术和大量训练数据生成高质量的代码。Copilot的目标是在保持代码质量和可读性的前提下，提高开发者的编码效率，使得编码工作更为高效和便捷。Copilot的出现是解决编程过程中可能遇到的一些难点和瓶颈问题，特别是在快速迭代的敏捷开发场景中，提高编码效率和减少编
《Python期末备考全攻略：高分秘籍与实用技巧大合集！》跟着小郑学前端 python windows 开发语言数据结构
《Python期末备考全攻略：高分秘籍与实用技巧大合集！》1Python基础语法1.1变量与数据类型1.2条件语句1.3循环语句2.常见数据结构2.1列表2.2元组2.3字典2.4集合3.函数与模块3.1自定义函数3.2匿名函数（lambda）3.3标准库与第三方库4.文件操作4.1文件读写操作5.面向对象编程5.1类与对象5.2继承与多态6.综合练习题与答案1Python基础语法1.1变量与数据
让旅游更智能：基于AR的旅游导览应用解析 Echo_Wish Python 笔记 Python算法旅游 ar restful
友友们好！我的新专栏《Python进阶》正式启动啦！这是一个专为那些渴望提升Python技能的朋友们量身打造的专栏，无论你是已经有一定基础的开发者，还是希望深入挖掘Python潜力的爱好者，这里都将是你不可错过的宝藏。在这个专栏中，你将会找到：●深入解析：每一篇文章都将深入剖析Python的高级概念和应用，包括但不限于数据分析、机器学习、Web开发等。●实战案例：通过丰富的实战案例，带你一步步实现
【AI日志分析】基于机器学习的异常检测：告别传统规则的智能进阶人工智能机器学习深度学习
摘要随着系统规模的扩大和复杂性增加，传统基于规则的日志分析方法难以识别隐藏的复杂异常模式。本文将介绍基于机器学习的日志异常检测技术，包括模型选择、特征工程及实现步骤。通过具体的代码示例与图表，展示如何高效检测异常日志，并提供应用场景与优化策略。引言日志是系统运行状态的关键数据来源，但面对海量日志数据，传统规则式分析显得力不从心。机器学习能够根据日志的历史数据和行为模式，通过训练模型检测异常情况，不
【Python】已完美解决：ERROR: Could not find a version that satisfies the requirement re 屿小夏 python 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
下载马斯克Grok-1模型的实战代码 herosunly 大模型 grok-1 下载模型实战代码
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了下载马斯克Grok-1模型的实战代码，希望能对学习大模型的同学们有所帮助
吴恩达深度学习笔记（七）——机器学习策略子非鱼icon 深度学习自学笔记深度学习机器学习人工智能神经网络吴恩达
一、正交化通俗的理解就是：要能够诊断出系统性能瓶颈在哪里，以有策略刚好解决这个问题。一个“按钮”只负责解决一件事情。二、单一数字评估指标准确率（precision）：在分类器中标记为猫的例子中，有多少是真的猫召回率（recall）：对于所有的真猫图片，你的分类器正确识别了多少。但如果有两个评估指标，就很难去选择一个更好的分类器，如下图所示。所以有一个结合这两个指标的标准方法，也即F1分数，定义如下
jQuery 跨域访问的三种方式 No 'Access-Control-Allow-Origin' header is present on the reque qiaolevip 每天进步一点点学习永无止境跨域众观千象
XMLHttpRequest cannot load http://v.xxx.com. No 'Access-Control-Allow-Origin' header is present on the requested resource. Origin 'http://localhost:63342' is therefore not allowed access. test.html:1
mysql 分区查询优化 annan211 java 分区优化 mysql
分区查询优化引入分区可以给查询带来一定的优势，但同时也会引入一些bug. 分区最大的优点就是优化器可以根据分区函数来过滤掉一些分区，通过分区过滤可以让查询扫描更少的数据。所以，对于访问分区表来说，很重要的一点是要在where 条件中带入分区，让优化器过滤掉无需访问的分区。可以通过查看explain执行计划，是否携带 partitions
MYSQL存储过程中使用游标 chicony Mysql存储过程
DELIMITER $$ DROP PROCEDURE IF EXISTS getUserInfo $$ CREATE PROCEDURE getUserInfo(in date_day datetime)-- -- 实例-- 存储过程名为：getUserInfo-- 参数为：date_day日期格式:2008-03-08-- BEGINdecla
mysql 和 sqlite 区别 Array_06 sqlite
转载： http://www.cnblogs.com/ygm900/p/3460663.html mysql 和 sqlite 区别 SQLITE是单机数据库。功能简约，小型化，追求最大磁盘效率 MYSQL是完善的服务器数据库。功能全面，综合化，追求最大并发效率 MYSQL、Sybase、Oracle等这些都是试用于服务器数据量大功能多需要安装，例如网站访问量比较大的。而sq
pinyin4j使用 oloz pinyin4j
首先需要pinyin4j的jar包支持；jar包已上传至附件内方法一:把汉字转换为拼音；例如：编程转换后则为biancheng /** * 将汉字转换为全拼 * @param src 你的需要转换的汉字 * @param isUPPERCASE 是否转换为大写的拼音； true:转换为大写；fal
微博发送私信随意而生微博
在前面文章中说了如和获取登陆时候所需要的cookie，现在只要拿到最后登陆所需要的cookie，然后抓包分析一下微博私信发送界面 http://weibo.com/message/history?uid=****&name=**** 可以发现其发送提交的Post请求和其中的数据，让后用程序模拟发送POST请求中的数据，带着cookie发送到私信的接入口，就可以实现发私信的功能了。
jsp 香水浓 jsp
JSP初始化容器载入JSP文件后，它会在为请求提供任何服务前调用jspInit()方法。如果您需要执行自定义的JSP初始化任务，复写jspInit()方法就行了 JSP执行这一阶段描述了JSP生命周期中一切与请求相关的交互行为，直到被销毁。当JSP网页完成初始化后
在 Windows 上安装 SVN Subversion 服务端 AdyZhang SVN
在 Windows 上安装 SVN Subversion 服务端2009-09-16高宏伟哈尔滨市道里区通达街291号最佳阅读效果请访问原地址：http://blog.donews.com/dukejoe/archive/2009/09/16/1560917.aspx 现在的Subversion已经足够稳定，而且已经进入了它的黄金时段。我们看到大量的项目都在使
android开发中如何使用 alertDialog从listView中删除数据？ aijuans android
我现在使用listView展示了很多的配置信息，我现在想在点击其中一条的时候填出 alertDialog,点击确认后就删除该条数据，（ ArrayAdapter ，ArrayList，listView 全部删除），我知道在下面的onItemLongClick 方法中参数 arg2 是选中的序号，但是我不知道如何继续处理下去 1 2 3
jdk-6u26-linux-x64.bin 安装 baalwolf linux
1.上传安装文件(jdk-6u26-linux-x64.bin) 2.修改权限 [root@localhost ~]# ls -l /usr/local/jdk-6u26-linux-x64.bin 3.执行安装文件 [root@localhost ~]# cd /usr/local [root@localhost local]# ./jdk-6u26-linux-x64.bin&nbs
MongoDB经典面试题集锦 BigBird2012 mongodb
1.什么是NoSQL数据库？NoSQL和RDBMS有什么区别？在哪些情况下使用和不使用NoSQL数据库？ NoSQL是非关系型数据库，NoSQL = Not Only SQL。关系型数据库采用的结构化的数据，NoSQL采用的是键值对的方式存储数据。在处理非结构化/半结构化的大数据时；在水平方向上进行扩展时；随时应对动态增加的数据项时可以优先考虑使用NoSQL数据库。在考虑数据库的成熟
JavaScript异步编程Promise模式的6个特性 bijian1013 JavaScript Promise
Promise是一个非常有价值的构造器，能够帮助你避免使用镶套匿名方法，而使用更具有可读性的方式组装异步代码。这里我们将介绍6个最简单的特性。在我们开始正式介绍之前，我们想看看Javascript Promise的样子： var p = new Promise(function(r
[Zookeeper学习笔记之八]Zookeeper源代码分析之Zookeeper.ZKWatchManager bit1129 zookeeper
ClientWatchManager接口 //接口的唯一方法materialize用于确定那些Watcher需要被通知 //确定Watcher需要三方面的因素1.事件状态 2.事件类型 3.znode的path public interface ClientWatchManager { /** * Return a set of watchers that should
【Scala十五】Scala核心九：隐式转换之二 bit1129 scala
隐式转换存在的必要性，在Java Swing中，按钮点击事件的处理，转换为Scala的的写法如下： val button = new JButton button.addActionListener( new ActionListener { def actionPerformed(event: ActionEvent) {
Android JSON数据的解析与封装小Demo ronin47
转自：http://www.open-open.com/lib/view/open1420529336406.html package com.example.jsondemo; import org.json.JSONArray; import org.json.JSONException; import org.json.JSONObject; impor
[设计]字体创意设计方法谈 brotherlamp UI ui自学 ui视频 ui教程 ui资料
从古至今，文字在我们的生活中是必不可少的事物，我们不能想象没有文字的世界将会是怎样。在平面设计中，UI设计师在文字上所花的心思和功夫最多，因为文字能直观地表达UI设计师所的意念。在文字上的创造设计，直接反映出平面作品的主题。如设计一幅戴尔笔记本电脑的广告海报，假设海报上没有出现“戴尔”两个文字，即使放上所有戴尔笔记本电脑的图片都不能让人们得知这些电脑是什么品牌。只要写上“戴尔笔
单调队列-用一个长度为k的窗在整数数列上移动，求窗里面所包含的数的最大值 bylijinnan java 算法面试题
import java.util.LinkedList; /* 单调队列滑动窗口单调队列是这样的一个队列：队列里面的元素是有序的，是递增或者递减题目：给定一个长度为N的整数数列a(i),i=0,1,...,N-1和窗长度k. 要求：f(i) = max{a(i-k+1),a(i-k+2),..., a(i)},i = 0,1,...,N-1 问题的另一种描述就
struts2处理一个form多个submit chiangfai struts2
web应用中，为完成不同工作，一个jsp的form标签可能有多个submit。如下代码： <s:form action="submit" method="post" namespace="/my"> <s:textfield name="msg" label="叙述：">
shell查找上个月，陷阱及野路子 chenchao051 shell
date -d "-1 month" +%F 以上这段代码，假如在2012/10/31执行，结果并不会出现你预计的9月份，而是会出现八月份，原因是10月份有31天，9月份30天，所以-1 month在10月份看来要减去31天，所以直接到了8月31日这天，这不靠谱。野路子解决：假设当天日期大于15号
mysql导出数据中文乱码问题 daizj mysql 中文乱码导数据
解决mysql导入导出数据乱码问题方法：１、进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+----------------------------------------+ | Variable_name&nbs
SAE部署Smarty出现：Uncaught exception 'SmartyException' with message 'unable to write dcj3sjt126com PHP smarty sae
对于SAE出现的问题：Uncaught exception 'SmartyException' with message 'unable to write file...。官方给出了详细的FAQ：http://sae.sina.com.cn/?m=faqs&catId=11#show_213 解决方案为： 01 $path
《教父》系列台词 dcj3sjt126com
Your love is also your weak point. 你的所爱同时也是你的弱点。 If anything in this life is certain, if history has taught us anything, it is that you can kill anyone. 不顾家的人永远不可能成为一个真正的男人。 &
mongodb安装与使用 dyy_gusi mongo
一.MongoDB安装和启动,widndows和linux基本相同 1.下载数据库, linux:mongodb-linux-x86_64-ubuntu1404-3.0.3.tgz 2.解压文件,并且放置到合适的位置 tar -vxf mongodb-linux-x86_64-ubun
Git排除目录 geeksun git
在Git的版本控制中，可能有些文件是不需要加入控制的，那我们在提交代码时就需要忽略这些文件，下面讲讲应该怎么给Git配置一些忽略规则。有三种方法可以忽略掉这些文件，这三种方法都能达到目的，只不过适用情景不一样。 1. 针对单一工程排除文件这种方式会让这个工程的所有修改者在克隆代码的同时，也能克隆到过滤规则，而不用自己再写一份，这就能保证所有修改者应用的都是同一
Ubuntu 创建开机自启动脚本的方法 hongtoushizi ubuntu
转载自： http://rongjih.blog.163.com/blog/static/33574461201111504843245/ Ubuntu 创建开机自启动脚本的步骤如下： 1) 将你的启动脚本复制到 /etc/init.d目录下以下假设你的脚本文件名为 test。 2) 设置脚本文件的权限 $ sudo chmod 755
第八章流量复制/AB测试/协程 jinnianshilongnian nginx lua coroutine
流量复制在实际开发中经常涉及到项目的升级，而该升级不能简单的上线就完事了，需要验证该升级是否兼容老的上线，因此可能需要并行运行两个项目一段时间进行数据比对和校验，待没问题后再进行上线。这其实就需要进行流量复制，把流量复制到其他服务器上，一种方式是使用如tcpcopy引流；另外我们还可以使用nginx的HttpLuaModule模块中的ngx.location.capture_multi进行并发
电商系统商品表设计 lkl
DROP TABLE IF EXISTS `category`; -- 类目表 /*!40101 SET @saved_cs_client = @@character_set_client */; /*!40101 SET character_set_client = utf8 */; CREATE TABLE `category` ( `id` int(11) NOT NUL
修改phpMyAdmin导入SQL文件的大小限制 pda158 sql mysql
　用phpMyAdmin导入mysql数据库时，我的10M的数据库不能导入，提示mysql数据库最大只能导入2M。　　 phpMyAdmin数据库导入出错：　　You probably tried to upload too large file. Please refer to documentation for ways to workaround this limit.
Tomcat性能调优方案 Sobfist apache jvm tomcat 应用服务器
一、操作系统调优对于操作系统优化来说，是尽可能的增大可使用的内存容量、提高CPU的频率，保证文件系统的读写速率等。经过压力测试验证，在并发连接很多的情况下，CPU的处理能力越强，系统运行速度越快。。【适用场景】任何项目。二、Java虚拟机调优应该选择SUN的JVM，在满足项目需要的前提下，尽量选用版本较高的JVM，一般来说高版本产品在速度和效率上比低版本会有改进。 J
SQLServer学习笔记 vipbooks 数据结构 xml
1、create database school 创建数据库school 2、drop database school 删除数据库school 3、use school 连接到school数据库，使其成为当前数据库 4、create table class(classID int primary key identity not null) 创建一个名为class的表，其有一

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他