kuaileboy1989

数据挖掘（8）：朴素贝叶斯分类算法原理与实践

出处：fengfenggirl（@也爱数据挖掘）　

网址：http://www.cnblogs.com/fengfenggirl/p/classification_evaluate.html

本系列：

数据挖掘（1）：关联规则挖掘基本概念与Aprior算法

数据挖掘（2）：关联规则FpGrowth算法

数据挖掘（3）：关联规则评价

数据挖掘（4）：使用weka做关联规则挖掘

数据挖掘（5）：使用mahout做海量数据关联规则挖掘

数据挖掘（6）：决策树分类算法

数据挖掘（7）：分类算法评价

今天介绍一下朴素贝叶斯分类算法，讲一下基本原理，再以文本分类实践。

一个简单的例子

朴素贝叶斯算法是一个典型的统计学习方法，主要理论基础就是一个贝叶斯公式，贝叶斯公式的基本定义如下：

这个公式虽然看上去简单，但它却能总结历史，预知未来。公式的右边是总结历史，公式的左边是预知未来，如果把Y看出类别，X看出特征，P(Yk|X)就是在已知特征X的情况下求Yk类别的概率，而对P(Yk|X)的计算又全部转化到类别Yk的特征分布上来。

举个例子，大学的时候，某男生经常去图书室晚自习，发现他喜欢的那个女生也常去那个自习室，心中窃喜，于是每天买点好吃点在那个自习室蹲点等她来，可是人家女生不一定每天都来，眼看天气渐渐炎热，图书馆又不开空调，如果那个女生没有去自修室，该男生也就不去，每次男生鼓足勇气说：“嘿，你明天还来不？”,“啊，不知道，看情况”。

然后该男生每天就把她去自习室与否以及一些其他情况做一下记录，用Y表示该女生是否去自习室，即Y={去，不去}，X是跟去自修室有关联的一系列条件，比如当天上了哪门主课，蹲点统计了一段时间后，该男生打算今天不再蹲点，而是先预测一下她会不会去，现在已经知道了今天上了常微分方法这么主课，于是计算P(Y=去|常微分方程)与P(Y=不去|常微分方程)，看哪个概率大，

如果 P(Y=去|常微分方程) > P(Y=不去|常微分方程)，那这个男生不管多热都屁颠屁颠去自习室了，否则不就去自习室受罪了。P(Y=去|常微分方程)的计算可以转为计算以前她去的情况下，那天主课是常微分的概率P(常微分方程|Y=去)，注意公式右边的分母对每个类别（去/不去）都是一样的，所以计算的时候忽略掉分母，这样虽然得到的概率值已经不再是0~1之间，但是其大小还是能选择类别。

后来他发现还有一些其他条件可以挖，比如当天星期几、当天的天气，以及上一次与她在自修室的气氛，统计了一段时间后，该男子一计算，发现不好算了，因为总结历史的公式：

这里n=3，x(1)表示主课，x(2)表示天气，x(3)表示星期几，x(4)表示气氛，Y仍然是{去，不去}，现在主课有8门，天气有晴、雨、阴三种、气氛有A+,A,B+,B，C五种，那么总共需要估计的参数有8*3*7*5*2=1680个，每天只能收集到一条数据，那么等凑齐1680条数据大学都毕业了，男生打呼不妙，于是做了一个独立性假设，假设这些影响她去自习室的原因是独立互不相关的，于是

有了这个独立假设后，需要估计的参数就变为，(8+3+7+5)*2 = 46个了，而且每天收集的一条数据，可以提供4个参数，这样该男生就预测越来越准了。

朴素贝叶斯分类器

讲了上面的小故事，我们来朴素贝叶斯分类器的表示形式：

当特征为为x时，计算所有类别的条件概率，选取条件概率最大的类别作为待分类的类别。由于上公式的分母对每个类别都是一样的，因此计算时可以不考虑分母，即

朴素贝叶斯的朴素体现在其对各个条件的独立性假设上，加上独立假设后，大大减少了参数假设空间。

在文本分类上的应用

文本分类的应用很多，比如垃圾邮件和垃圾短信的过滤就是一个2分类问题，新闻分类、文本情感分析等都可以看成是文本分类问题，分类问题由两步组成：训练和预测，要建立一个分类模型，至少需要有一个训练数据集。贝叶斯模型可以很自然地应用到文本分类上：现在有一篇文档d（Document），判断它属于哪个类别ck，只需要计算文档d属于哪一个类别的概率最大：

在分类问题中，我们并不是把所有的特征都用上，对一篇文档d，我们只用其中的部分特征词项（nd表示d中的总词条数目），因为很多词项对分类是没有价值的，比如一些停用词“的,是,在”在每个类别中都会出现，这个词项还会模糊分类的决策面，关于特征词的选取，我的这篇文章有介绍。用特征词项表示文档后，计算文档d的类别转化为：

注意P(Ck|d)只是正比于后面那部分公式，完整的计算还有一个分母，但我们前面讨论了，对每个类别而已分母都是一样的，于是在我们只需要计算分子就能够进行分类了。实际的计算过程中，多个概率值P(tj|ck)的连乘很容易下溢出为0，因此转化为对数计算，连乘就变成了累加：

我们只需要从训练数据集中，计算每一个类别的出现概率P(ck)和每一个类别中各个特征词项的概率P(tj|ck)，而这些概率值的计算都采用最大似然估计，说到底就是统计每个词在各个类别中出现的次数和各个类别的文档的数目：

其中，Nck表示训练集中ck类文档的数目，N训练集中文档总数；Tjk表示词项tj在类别ck中出现的次数，V是所有类别的词项集合。这里对词的位置作了独立性假设，即两个词只要它们出现的次数一样，那不管它们在文档的出现位置，它们大概率值P(tj|ck)都是一样，这个位置独立性假设与现实很不相符，比如“放马屁”跟“马放屁”表述的是不同的内容，但实践发现，位置独立性假设得到的模型准确率并不低，因为大多数文本分类都是靠词的差异来区分，而不是词的位置，如果考虑词的位置，那么问题将表达相当复杂，以至于我们无从下手。

然后需要注意的一个问题是ti可能没有出现在ck类别的训练集，却出现在ck类别的测试集合中，这样因为Tik为0，导致连乘概率值都为0，其他特征词出现得再多，该文档也不会被分到ck类别，而且在对数累加的情况下，0值导致计算错误，处理这种问题的方法是采样加1平滑，即认为每个词在各个类别中都至少出现过一次，即

下面这个例子来自于参考文献1，假设有如下的训练集合测试集：

现在要计算docID为5的测试文档是否属于China类别，首先计算个各类的概率，P(c=China)=3/4,P(c!=China)=1/4，然后计算各个类中词项的概率：

注意分母（8+6）中8表示China类的词项出现的总次数是8，+6表示平滑，6是总词项的个数，然后计算测试文档属于各个类别的概率：

可以看出该测试文档应该属于CHina类别。

文本分类实践

我找了搜狗的搜狐新闻数据的历史简洁版，总共包括汽车、财经、it、健康等9类新闻，一共16289条新闻，搜狗给的数据是每一篇新闻用一个txt文件保存，我预处理了一下，把所有的新闻文档保存在一个文本文件中，每一行是一篇新闻，同时保留新闻的id，id的首字母表示类标，预处理并分词后的示例如下：

我用6289条新闻作为训练集，剩余1万条用于测试，采用互信息进行文本特征的提取，总共提取的特征词是700个左右。

分类的结果如下：

8343 10000 0.8343

总共10000条新闻，分类正确的8343条，正确率0.8343，这里主要是演示贝叶斯的分类过程，只考虑了正确率也没有考虑其他评价指标，也没有进行优化。贝叶斯分类的效率高，训练时，只需要扫描一遍训练集，记录每个词出现的次数，以及各类文档出现的次数，测试时也只需要扫描一次测试集，从运行效率这个角度而言，朴素贝叶斯的效率是最高的，而准确率也能达到一个理想的效果。

我的实现代码如下：

#!encoding=utf-8

import random

import sys

import math

import collections

import sys

def shuffle():

'''将原来的文本打乱顺序，用于得到训练集和测试集'''

datas = [line.strip() for line in sys.stdin]

random.shuffle(datas)

for line in datas:

print line

lables = ['A','B','C','D','E','F','G','H','I']

def lable2id(lable):

for i in xrange(len(lables)):

if lable == lables[i]:

return i

raise Exception('Error lable %s' % (lable))

def docdict():

return [0]*len(lables)

def mutalInfo(N,Nij,Ni_,N_j):

#print N,Nij,Ni_,N_j

return Nij * 1.0 / N * math.log(N * (Nij+1)*1.0/(Ni_*N_j))/ math.log(2)

def countForMI():

'''基于统计每个词在每个类别出现的次数，以及每类的文档数'''

docCount = [0] * len(lables)

#每个类的词数目

wordCount = collections.defaultdict(docdict)

for line in sys.stdin:

lable,text = line.strip().split(' ',1)

index = lable2id(lable[0])

words = text.split(' ')

for word in words:

wordCount[word][index] += 1

docCount[index] += 1

miDict = collections.defaultdict(docdict)

#互信息值

N = sum(docCount)

for k,vs in wordCount.items():

for i in xrange(len(vs)):

N11 = vs[i]

N10 = sum(vs) - N11

N01 = docCount[i] - N11

N00 = N - N11 - N10 - N01

mi = mutalInfo(N,N11,N10+N11,N01+N11) + mutalInfo(N,N10,N10+N11,N00+N10)+ mutalInfo(N,N01,N01+N11,N01+N00)+ mutalInfo(N,N00,N00+N10,N00+N01)

miDict[k][i] = mi

fWords = set()

for i in xrange(len(docCount)):

keyf = lambda x:x[1][i]

sortedDict = sorted(miDict.items(),key=keyf,reverse=True)

for j in xrange(100):

fWords.add(sortedDict[j][0])

print docCount

#打印各个类的文档数目

for fword in fWords:

print fword

def loadFeatureWord():

'''导入特征词'''

f = open('feature.txt')

docCounts = eval(f.readline())

features = set()

for line in f:

features.add(line.strip())

f.close()

return docCounts,features

def trainBayes():

'''训练贝叶斯模型，实际上计算每个类中特征词的出现次数'''

docCounts,features = loadFeatureWord()

wordCount = collections.defaultdict(docdict)

tCount = [0]*len(docCounts)

#每类文档特征词出现的次数

for line in sys.stdin:

lable,text = line.strip().split(' ',1)

index = lable2id(lable[0])

words = text.split(' ')

for word in words:

if word in features:

tCount[index] += 1

wordCount[word][index] += 1

for k,v in wordCount.items():

scores = [(v[i]+1) * 1.0 / (tCount[i]+len(wordCount)) for i in xrange(len(v))]

#加1平滑

print '%s\t%s' % (k,scores)

def loadModel():

'''导入贝叶斯模型'''

f = open('model.txt')

scores = {}

for line in f:

word,counts = line.strip().rsplit('\t',1)

scores[word] = eval(counts)

f.close()

return scores

def predict():

'''预测文档的类标，标准输入每一行为一个文档'''

docCounts,features = loadFeatureWord()

docscores = [math.log(count * 1.0 /sum(docCounts)) for count in docCounts]

scores = loadModel()

rCount = 0

docCount = 0

for line in sys.stdin:

lable,text = line.strip().split(' ',1)

index = lable2id(lable[0])

words = text.split(' ')

preValues = list(docscores)

for word in words:

if word in features:

for i in xrange(len(preValues)):

preValues[i]+=math.log(scores[word][i])

m = max(preValues)

pIndex = preValues.index(m)

if pIndex == index:

rCount += 1

print lable,lables[pIndex],text

docCount += 1

print rCount,docCount,rCount * 1.0 / docCount

if __name__=="__main__":

#shuffle()

#countForMI()

#trainBayes()

predict()

代码里面，计算特征词与训练模型、测试是分开的，需要修改main方法，比如计算特征词：

$cat train.txt | python bayes.py > feature.txt

训练模型：

$cat train.txt | python bayes.py > model.txt

预测模型：

cat test.txt | python bayes.py > predict.out

总结

本文介绍了朴素贝叶斯分类方法，还以文本分类为例，给出了一个具体应用的例子，朴素贝叶斯的朴素体现在条件变量之间的独立性假设，应用到文本分类上，作了两个假设，一是各个特征词对分类的影响是独立的，另一个是词项在文档中的顺序是无关紧要的。朴素贝叶斯的独立性假设在实际中并不成立，但在分类效上依然不错，加上独立性假设后，对与属于类ck的谋篇文档d，其p(ck|d)往往会估计过高，即本来预期p(ck|d)=0.55，而朴素贝叶斯却计算得到p(ck|d)=0.99，但这并不影响分类结果，这是朴素贝叶斯分类器在文本分类上效果优于预期的原因。

参考文献:

王斌译.信息检索导论. 人民邮电出版社
codemeals. 文本特征选择. cnblogs.
李航.统计学习方法.清华大学出版社
陈希孺. 概率论与数理统计.中国科学技术出版社.

PX4飞控之位置控制（1）整体架构 Felix_ZL px4飞控 PX4 位置控制架构
位置控制是无人机飞控的核心算法之一，一方面根据commander中的flag标志位和Navigator中提供的航点信息进行控制（自主模式下），另一方面得到期望姿态角（setpoint）的四元数信息，给到姿态控制模块进行姿态控制。本文重点PX4飞控的位置控制的代码整体架构（mc_pos_control）,具体的控制算法将在后续文章中陆续奉上。位置控制模块的主函数：task_main()1.订阅结构体
C++徒手造国密SM算法！码农の头发消失术实录 skyksksksksks C++个人杂记物联网国密算法国密算法密码学 c++开发语言
【开场暴击：程序员的修仙之路】各位在秃头边缘疯狂试探的代码战士！今天我们要挑战史诗级成就——用纯C++手搓国家密码管理局钦定的SM2/SM3/SM4算法！没有现成库！没有外挂！只有头铁和即将离你而去的头发！(ง•̀_•́)ง【SM2加密：和椭圆曲线谈恋爱の玄学】这玩意儿就像追女神——你永远猜不透她的心思！来看加密の奥义三连：SM2加密vs追妹子对比表行为SM2加密流程追妹子流程第一步生成随机数k制
[ Linux 命令基础 ] Linux 命令大全-命令前置知识-系统管理-文件和目录管理-文本处理命令-网络管理命令-权限和用户管理命令-磁盘管理命令 _PowerShell shell脚本入门到精通 Linux 命令大全 linux命令前置知识 linux系统管理 linux文件和目录管理 linux文本处理命令 linux网络管理命令 linux权限和用户管理命令
博主介绍‍博主介绍：大家好，我是_PowerShell，很高兴认识大家~✨主攻领域：【渗透领域】【数据通信】【通讯安全】【web安全】【面试分析】点赞➕评论➕收藏==养成习惯（一键三连）欢迎关注一起学习一起讨论⭐️一起进步文末有彩蛋作者水平有限，欢迎各位大佬指点，相互学习进步！我们搞网络安全需要经常用到linux命令，比用拿到linux的shell，需要使用linux命令。再比如sh脚本，我们经常
使用Python连接SqlServer 带带琪宝工作日记 python sqlserver 开发语言
目录cursor()execute('sqlstr')fetchall()、fetchone()cursor.description属性close()转化为dataframe进行分析使用的是pymssql库，这个库的详细用法参照博客（博客里也有官方文档，英语好的可以直接看）：pythonpymssql—pymssql模块使用指南_夏日白云的博客-CSDN博客我目前的需求只是使用Python连接数据
Python连接SQL SEVER数据库全流程 m0_74823131 数据库 python sql
背景介绍在数据分析领域，经常需要从数据库中获取数据进行分析和处理。而SQLServer是一种常用的关系型数据库管理系统，因此学习如何使用Python连接SQLServer数据库并获取数据是非常有用的。以下是Python使用pymssql连接SQLServer数据库的全流程：安装pymssql库本地账号设置脚本连接数据导入函数实现一、安装pymssqlpymssql是Python连接SQLServe
C++ 用ECC算法 Curve为EC_NIST_FP_521写个示例签名和验签。PCI认证小黄人软件经验分享 ssl 学习
以下是一个使用OpenSSL实现ECC(椭圆曲线密码)签名和验签的C++示例，曲线使用secp521r1（即NISTP-521）。这个程序：生成NISTP-521曲线的EC密钥。使用SHA-512进行哈希并签名数据。验证签名的正确性。编译：g++-oecc_signecc_sign.cpp-lssl-lcrypto运行：./ecc_sign你可以试试看，看看签名和验签是否成功！
Redis中的数据类型与适用场景 cooldream2009 数据库 redis 数据库缓存
目录前言1.字符串(String)1.1特点1.2适用场景2.哈希(Hash)2.1特点2.2适用场景3.列表(List)3.1特点3.2适用场景4.集合(Set)4.1特点4.2适用场景5.有序集合(SortedSet)5.1特点5.2适用场景6.Redis数据类型的选型建议结语前言Redis作为一款高性能的内存数据库，以其卓越的速度和丰富的数据类型广泛应用于各类高并发场景。相较于传统的关系型数
StockTV 全球股票、外汇、期货、加密货币 API 接口文档详解 CryptoRzz python 金融数据分析 java websocket
概述StockTV提供了全球范围内的股票、外汇、期货和加密货币的实时数据接口，支持HTTP和WebSocket两种对接方式。本文将详细介绍如何使用StockTV的API接口获取实时数据，并重点介绍印度数据源的使用。接口文档1.获取Key在使用StockTV的API接口之前，您需要先获取一个Key。请通过以下方式联系我们获取Key：联系我们获取Key2.调用API在调用API时，请将获取到的Key添
AI大模型训练教程 Small踢倒coffee_氕氘氚 python自学经验分享笔记
1.引言随着人工智能技术的快速发展，大模型（如GPT-3、BERT等）在自然语言处理、计算机视觉等领域取得了显著的成果。训练一个大模型需要大量的计算资源、数据和专业知识。本教程将带你了解如何从零开始训练一个AI大模型。2.准备工作2.1硬件要求GPU：推荐使用NVIDIA的高性能GPU，如A100、V100等。内存：至少64GBRAM。存储：SSD存储，至少1TB。#2.2软件环境操作系统：Lin
Redis大key 不7夜宵 redis bootstrap 数据库
Redis大key基本概念，影响Redis大key指在Redis中存储了大量数据的键，它会对Redis的性能和内存管理产生影响。大key的定义与value的大小和元素数量有关，但这个定义并不是绝对的，而是相对的，具体取决于系统的使用场景和性能要求。大key通常有以下两种情况：Value存储占用空间大集合类型的Key中元素过多![[Pastedimage20250227151208.png]]造成的
并发安全的sync.Map 不7夜宵基础知识后端
对于并发读写map的情况下，map的数据会被写乱造成panic。Go语言原生map并不是线程安全的，因此对它进行并发读写操作时需要加锁。但是当操作频繁且要求性能的情况下，锁的优化已经无法满足业务需求，考虑到互联网应用通常是读多写少的场景，Golang的标准库提供了一个特殊的并发安全的map实现，为了与原生map区分，人们习惯性称为sync.map。一、sync.map与map的区别1.并发安全sy
编写简单的小程序又熟了 Python入门学习 python flask
编写简单的小程序文章目录编写简单的小程序1.turtle的认识与使用1.1turtle常用的函数1.2用turtle画小蛇1.3begin_fill和end_fill绘制太阳花2.变量2.1变量的创建2.2命名规则2.3保留字及查看方法3.运算符3.1算数运算符3.2关系运算符3.3逻辑运算符4.注释与缩进5.赋值语句6.输出与输入7.数据类型7.1字符串的索引7.2列表8.字符编码8.2乱码问题
后端登录校验(一）——会话技术 develop_lost 服务器运维
一、登录校验1.什么是登录校验登录校验是服务器端对浏览器端（就是客户端）发送的请求进行校验。校验用户的登录情况，如果用户已经登录，则允许进行用户需要的业务操作，反之则禁止用户操作业务操作，并返回给用户一个错误的提示，让客户端跳转到的登录页面，进行登录操作。2.如何进行登录校验-先认清http协议：http协议是无状态协议，无状态是客户端的每一次请求都是独立的，这次的请求不会携带上一次的数据，服务器
Java后端开发技术详解小二爱编程· java 开发语言
Java作为一门成熟的编程语言，已广泛应用于后端开发领域。其强大的生态系统和广泛的支持库使得Java成为许多企业和开发者的首选后端开发语言。随着云计算、微服务架构和大数据技术的兴起，Java后端开发的技术栈也不断演进。本文将详细介绍Java后端开发的核心技术，包括Java基础、常见框架、数据库操作、缓存技术、异步编程等。1.Java基础：理解面向对象的编程Java是一种面向对象的编程语言，面向对象
Midscene.js自然语言驱动的网页自动化全指南 Hello.Reader 前端技术人工智能 javascript 自动化开发语言
一、概述网页自动化在数据抓取、UI测试和业务流程优化中发挥着重要作用。然而，传统工具如Selenium和Puppeteer要求用户具备编程技能，编写复杂的选择器和脚本维护成本高昂。Midscene.js通过自然语言接口革新了这一领域，用户只需描述任务（如“点击登录按钮”或“提取产品价格”），AI即可自动执行，大幅降低技术门槛。Midscene.js由web-infra-dev团队开发，开源于Git
【Pandas】pandas Series plot.box liuweidong0802 Pandas Series pandas 信息可视化数据分析
Pandas2.2SeriesPlotting方法描述Series.plot([kind,ax,figsize,…])用于绘制Series对象的数据可视化图表Series.plot.area([x,y,stacked])用于绘制堆叠面积图（StackedAreaPlot）Series.plot.bar([x,y])用于绘制垂直条形图（VerticalBarPlot）Series.plot.barh
Spring Boot 项目 90% 存在这 15 个致命漏洞，你的代码在裸奔吗？风象南原创随笔 java spring boot 后端 web安全系统安全
文章首发公众号【风象南】SpringBoot作为一款广泛使用的Java开发框架，虽然为开发者提供了诸多便利，但也并非无懈可击，其安全漏洞问题不容忽视。本文将深入探讨SpringBoot常见的安全漏洞类型、产生原因以及相应的解决方案，帮助开发者更好地保障应用程序的安全。1.SQL注入漏洞漏洞描述：当应用程序使用用户输入的数据来构建SQL查询时，如果没有进行适当的过滤或转义，攻击者就可以通过构造恶意的
SQL-触发器(trigger)的详解以及代码演示 m0_74823827 面试学习路线阿里巴巴 sql 数据库服务器
一、触发器的概念触发器是一种特殊的存储过程，但是触发器不存在输入和输出参数，所以不能被显式的去调用，而是与特定的表相关联，当表中的数据发生变化时，触发器被激活并执行其定义的SQL代码。触发器可以是行级触发器（针对每一行数据变化）或语句级触发器（针对整个SQL语句的变化），行级触发器允许对每一行单独处理，而语句级触发器则在整个操作完成后执行一次。触发器的功能强化约束：触发器能够实现比CHECK语句更
【el-cascader 级联选择器】懒加载 - 适用新增、编辑表单（编辑表单有初始数据） Fighting_p elementUI vue 代码记录 vue.js javascript 前端
目录代码效果代码constant/formList.jsexportconstoperationFormDesc=(_this)=>{return{rule:{type:'cascader',label:'违规情况',layout:12,required:true,attrs:{'collapse-tags':true,props:{lazy:true,//multiple:true,/****【
H743定时器输出PWM波方法（基于STM32CubeMX） NW嵌入式开发单片机开发 stm32 定时器 PWM模式
0工具准备1.STM32CubeMX2.《STM32H743参考手册中文版》3.《stm32h743xi数据手册》1前言本文介绍基于STM32CubeMX，使用stm32h743xi，使用TIM15的通道2输出PWM波的方法。2H743定时器输出PWM波方法（基于STM32CubeMX）《STM32H743参考手册中文版》对PWM模式的描述如下：其中，有关PWM模式1和模式2的介绍见TIM15_C
计算机视觉总结 Trank-Lw 计算机视觉深度学习人工智能
以下是针对上述问题的详细解答，并结合代码示例进行说明：1.改进YOLOv5人脸检测模块，复杂光照场景准确率从98.2%提升至99.5%优化具体过程：光照补偿：在数据预处理阶段，采用自适应光照补偿算法，对图像进行实时增强，以减少光照变化对人脸检测的影响。数据增强：在训练数据中增加复杂光照场景下的样本，如强光、弱光、背光等，通过数据增强提高模型对不同光照条件的适应性。模型调整：对YOLOv5模型的网络
【今日EDA行业分析】2025年3月21日知梦EDA EDA行业分析大数据人工智能半导体 EDA 行业分析
智算时代EDA行业新变局：技术突围与生态重构一、EDA产业格局剧变：技术壁垒与地缘博弈交织在半导体产业链的宏大版图中，EDA工具宛如数字时代的“工业母机”，其重要性伴随芯片复杂度的指数级攀升而愈发显著。据SEMI数据显示，2023年全球EDA市场规模成功突破200亿美元大关，中国本土市场增速更是达到了18%。然而，Synopsys、Cadence、Mentor这三大行业巨头依旧牢牢占据着超过85%
后端安全可靠性 Small踢倒coffee_氕氘氚 python自学笔记经验分享
第一步应该提到参数化查询，也就是预编译语句。这是最有效的方法，比如用PDO或者预处理语句来分离数据和指令。然后，ORM框架也是一个好办法，因为它们通常自动处理参数化，减少手写SQL的机会。接下来，输入验证和过滤很重要。虽然不能完全依赖，但白名单验证比如只允许特定字符，或者转义特殊字符，比如MySQL的mysqli_real_escape_string。不过要注意转义不是绝对安全，尤其是不同数据库有
每日一题一一Leetcode128. 最长连续序列 - 力扣 Blue.ztl 写写算法 leetcode 算法数据结构
每日一题一一Leetcode128.最长连续序列-力扣作者：blue时间：2025.3.14128.最长连续序列-力扣（LeetCode）本题的要求是：给定一个未排序的整数数组nums，找出其中数字连续的最长序列（不要求序列元素在原数组中连续）的长度。本题用排序加遍历的方法非常容易解决，但是算法的效率太低。本题正真的解题思路如下，首先，数组中是有可能出现重复的数字，但是重复的数字其实并不影响我们找
TS类型体操：实现axios的链式调用类型提示 console.log 战略储备局局长前端
调用方法A调用方法B调用方法C对象实例返回对象自身返回对象自身最终结果一、为什么需要链式调用类型提示？在TypeScript中实现axios的链式调用类型提示，能显著提升开发体验：智能补全：开发者无需记忆API参数顺序，IDE自动提示方法链类型安全：拦截器配置、请求参数、响应数据全程类型校验代码自解释：通过类型声明即可理解API设计规范重构友好：修改底层实现不影响上层调用逻辑痛点场景：//传统方式
MyBatis注解——多对多 xingcsdnboke MyBatis mybatis java spring
1、数据库建表语句CREATETABLE`user`(`id`int(11)DEFAULTNULL,`username`varchar(50)DEFAULTNULL);CREATETABLE`role`(`id`int(11)DEFAULTNULL,`rolename`varchar(50)DEFAULTNULL,`roledesc`varchar(50)DEFAULTNULL);CREATETA
MyBatis注解——一对一 xingcsdnboke MyBatis mybatis java spring
1、订单对应用户：一对一，数据库CREATETABLE`orderinfo`(`id`int(11)DEFAULTNULL,`ordertime`datetimeDEFAULTNULL,`total`decimal(8,2)DEFAULTNULL,`uid`int(11)DEFAULTNULL);CREATETABLE`user`(`id`int(11)DEFAULTNULL,`username`
区块链在医疗数据共享中的应用：解锁安全与透明的新维度 Echo_Wish 人工智能前沿技术区块链安全
区块链在医疗数据共享中的应用：解锁安全与透明的新维度近年来，区块链技术在金融领域取得了显著的突破，然而，它的潜力不仅仅局限于数字货币和支付领域。随着医疗数据的数字化和信息化程度不断提升，区块链技术在医疗数据共享中的应用正逐渐成为一个热门话题。区块链以其去中心化、不可篡改、透明且高效的特点，为医疗行业的数据管理提供了全新的解决方案，尤其是在患者隐私保护、数据共享以及医疗服务的透明度方面。那么，区块链
什么是C++对象之间的view proxies 东北豆子哥 C++c++
在C++中，viewproxies是一种轻量级的对象，用于提供对另一个对象的间接访问或视图，而不直接拥有或管理该对象的数据。它们通常用于简化对复杂数据结构的访问，或在不需要复制数据的情况下提供特定的视图。1.ViewProxies的核心概念轻量级：Viewproxies通常不拥有数据，而是引用或包装另一个对象的数据。间接访问：通过viewproxies，可以以特定的方式访问或操作底层数据，而不需要
DeepSeek关键RL算法GRPO，有人从头跑通了，贡献完整代码强化学习曾小健2 大语言模型LLM 算法
DeepSeek关键RL算法GRPO，有人从头跑通了，贡献完整代码机器之心2025年03月02日11:54北京选自GitHub作者：AndriyBurkov机器之心编译GRPO（GroupRelativePolicyOptimization）是DeepSeek-R1成功的基础技术之一，我们之前也多次报道过该技术，比如《DeepSeek用的GRPO占用大量内存？有人给出了些破解方法》。简单来说，GR
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，

数据挖掘（8）：朴素贝叶斯分类算法原理与实践

你可能感兴趣的:(数据挖掘,数据,数据挖掘,大数据,算法)