lico-Net

朴素贝叶斯算法——垃圾邮件分类

系列文章目录

文章目录

前言

二、数据预处理

1.引入的库

2.去掉非中文字符及切片分词

3.进行标注

标注的实现代码：

4.创建词汇表

5.遍历文档中在词汇表中出现的词

6.创建朴素贝叶斯分类器训练函数

7.构建贝叶斯分类器

8.自动化处理垃圾邮件

结果：只截取了一部分

9.最终实现

总结

前言

前面我们已经学习复习了概率论上的一些基础知识，下面我们就需要用这些知识实现用朴素贝叶斯算法对邮件进行分类。

一、收集邮件数据集

垃圾邮件数据集可以通过任何方法进行收集，网上找、自己写等等，我所收集的中文邮件

二、数据预处理

每一篇邮件大致如图所示，除了邮件文本外，还包含其他信息，如发件人邮箱、收件人邮箱等,因为这里是想把垃圾邮件分类简单的作为一个文本分类任务来解决，所以需要去掉除邮件文本外的信息。

1.引入的库

import re    #正则表达式库
import jieba    #分词库
import codecs
import os

2.去掉非中文字符及切片分词

#对邮件数据集进行预处理
#去掉非中文字符
def CleanStr(string):
    string = re.sub(r"[^\u4e00-\u9fff]"," ",string) #将出现的非中文字符用空格替换掉
    string = re.sub(r"\s{2,}"," ",string)   #s在正则表达式表示任意匹配字符，{2,}表示匹配的字符前面至少出现两次
    return string.strip()   #用于移除字符串首尾指定的字符(默认为空格或换行符)

#批量读取文件并另保存
def GetDataInFile(original_path,save_path = 'allEmail.txt'):    #批量打开文件，并将内容保存在allEmail.txt
    files = os.listdir(original_path)   #绝对路径
    for file in files:
        if os.path.isdir(original_path + '/' + file):
            GetDataInFile(original_path + '/' + file,save_path = save_path) #绝对路径+相对路径
        else:
            email = ''  #初始化
            f = codecs.open(original_path + '/' + file,'r','gbk',errors = 'ignore')
            for line in f:
                line = CleanStr(line)   #将读取到的文件调用正则表达式函数
                email += line
            f.close()
            f = open(save_path,'a',encoding='utf-8')    #打开另保存文件 
            email = [word for word in jieba.cut(email) if word.strip()!='']     #用推导公式将email进行切片
            f.write(' '.join(email)+'\n')

print('Storing email in a file...')
GetDataInFile('E:/Learn_data/NaiveBayesData/train/ham',save_path='E:/Learn_data/NaiveBayesData/train/ham/allEmailHam.txt')
GetDataInFile('E:/Learn_data/NaiveBayesData/train/spam',save_path='E:/Learn_data/NaiveBayesData/train/spam/allEmailSpam.txt')
print('Store email finished!')

结果：上述代码会在ham和spam各生成一个allEmail.txt的文本文件，里面包含了所有的ham或spam邮件的中文词汇，这里我只截取了部分

3.进行标注

单独创建一个文本文件保存标签，对邮件进行标注，将样本标签写入一个单独的文件0表示垃圾邮件，1表示非垃圾邮件；需要注意的是我所打开的文本文件是一个对所有邮件创建索引的文本文件，如图所示：

标注的实现代码：

#对邮件进行标注，将样本标签写入一个单独的文件0表示垃圾邮件，1表示非垃圾邮件
def GetLabel(original_path,save_path):
    label_list = []
    f = open(original_path,'r',encoding='utf-8')    #这里打开的是邮件的索引文本
    #spam
    for line in f:
        if line[0] == 'S':
            label_list.append('0')
        
        #ham
        elif line[0] == 'H':
            label_list.append('1')
    with open(save_path,'w',encoding='utf-8') as f:
        f.write('\n'.join(label_list))
    f.close()  
 
print('Storing labels in a file ...')
GetLabel('E:/Learn_data/NaiveBayesData/Index.txt',save_path='E:/Learn_data/NaiveBayesData/label.txt')
print('Store labels finished !')

结果：标注的结果只截取了正样本的部分

0001000010100000000000011111111111111111

4.创建词汇表

#创建一个词汇表
def CreateVocabList(docList):
    VocabSet = set([])  #创建一个空集
    for document in docList:
        VocabSet = VocabSet | set(document) #创建两个集合的并集
    return list(VocabSet)

5.遍历文档中在词汇表中出现的词

def setOfwords2Vect(vocabList,inputSet):    #该函数的输入参数为词汇表及某个文档，输出的是文档向量，向量的每个元素为1或者0，分别表示词汇表中的单词在文档中是否出现

    returnVec = [0]*len(vocabList)  
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] = 1
        else:
            print("the word:%s is not in my Vocabulary!"%word)
    return returnVec

6.创建朴素贝叶斯分类器训练函数

#朴素贝叶斯分类器训练函数
def trainNB0(trainMatrix,trainCategory):    #输入参数为文档矩阵trainMatrix和以及由每篇文档类别标签所构成的向量trainCategory
    numTrainDocs = len(trainMatrix) #获得训练集的长度
    numWords = len(trainMatrix[0])  #
    pAbusive = sum(trainCategory)/float(numTrainDocs)
    p0Num = np.zeros(numWords)
    p1Num = np.zeros(numWords)
    p0Denom = 0.0
    p1Denom = 0.0
    for i in range(numTrainDocs):   #循环遍历训练集trainMatrix中的所有文档
        if trainCategory[i] == 1:
            p1Num += trainMatrix[i]
            p1Denom += sum(trainMatrix[i])
        else:
            p0Num += trainMatrix[i]
            p1Denom += sum(trainMatrix[i])
    p1Vect = p1Num/p1Denom
    p0Vect = p0Num/p0Denom
    return p0Vect,p1Vect,pAbusive

7.构建贝叶斯分类器

#创建朴素贝叶斯分类函数
def classify(vec2Classify,p0Vec,p1Vec,pClass1):
    p1 = sum(vec2Classify *p1Vec) + log(pClass1)
    p0 = sum(vec2Classify * p0Vec) + log(1.0-pClass1)
    if p1 > p0:
        return 1
    else:
        return 0

8.自动化处理垃圾邮件

#创建邮件的测试函数
def SpamTest():     #该函数是对贝叶斯垃圾邮件分类器进行动化处理
    docLists = []
    classList = []
    with open('E:/Learn_data/NaiveBayesData/train/ham/allEmailHam.txt','r',encoding='utf-8') as f:
        for word in f:
            word = f.readline()
            docLists.append(set(word))
            classList.append(1)
    with open('E:/Learn_data/NaiveBayesData/train/spam/allEmailSpam.txt','r',encoding='utf-8') as f:
        for word in f:
            word = f.readline()
            docLists.append(set(word))
            classList.append(0)
    VocabList = CreateVocabList(docLists)
    trainMat = []
    trainClasses = []
    for docIndex in range(50):
        trainMat.append(setOfwords2Vect(VocabList,docLists))
        trainClasses.append(classList[docIndex])
    p0V,p1V,pSpam = trainNB0(np.array(trainMat),np.array(trainClasses))
    #print(docLists)
    #print(classList)
    #print(VocabList)   
    print(p0V) 
    print(p1V) 
    print(pSpam) 
s=SpamTest()

结果：只截取了一部分

开', '背', '在', '媚', '惜', '影', '次', '候', '必', '么', '易', '而', '夜', '者', '喜', '的', '生', '舒', '或', '感', '晚', '之', '送', '难', '能', '且', '门', '就', '已', '是', '点', '出', '不', '说', '什', '她', '都', '我', '当', '容', '天', '境', '了', '时', '事', '一', '从', '外', '会', '诉', '坐', '让', '得', '未', '可', '今', '面', '找', '猩', '闷', '服', '这', '看', '很', '吹', '欢', '冷', '隆', '觉', '多', '上', '管', '女', '每', '后', '没', '些', '经', '躺', '环', '着', '三', '逸', '还', '刮', '风', '下', '来', '安',

9.最终实现

import re
import jieba
import codecs
import os
import numpy as np
import sklearn.feature_extraction.text 
from math import log

#对邮件数据集进行预处理
#去掉非中文字符
def CleanStr(string):
    string = re.sub(r"[^\u4e00-\u9fa5]"," ",string) #将出现的非中文字符用空格替换掉
    string = re.sub(r"\s{2,}"," ",string)   #s在正则表达式表示任意匹配字符，{2,}表示匹配的字符前面至少出现两次
    return string.strip()   #用于移除字符串首尾指定的字符(默认为空格或换行符)

#批量读取文件并另保存
def GetDataInFile(original_path,save_path = 'allEmail.txt'):    #批量打开文件，并将内容保存在allEmail.txt
    files = os.listdir(original_path)   #绝对路径
    for file in files:
        if os.path.isdir(original_path + '/' + file):
            GetDataInFile(original_path + '/' + file,save_path = save_path) #绝对路径+相对路径
        else:
            email = ''  #初始化
            f = codecs.open(original_path + '/' + file,'r',encoding='utf-8',errors = 'ignore')
            for line in f:
                line = CleanStr(line)   #将读取到的文件调用正则表达式函数
                email += line
            f.close()
            f = open(save_path,'a',encoding='utf-8')    #打开另保存文件 
            email = [word for word in jieba.cut(email) if word.strip()!='']     #用推导公式将email进行切词
            for emails in email:
                if len(emails)>1:

                    f.write(' '.join(emails))

# print('Storing email in a file...')
# GetDataInFile('E:/Learn_data/NaiveBayesData/train/ham',save_path='E:/Learn_data/NaiveBayesData/train/ham/allEmailHam.txt')
# GetDataInFile('E:/Learn_data/NaiveBayesData/train/spam',save_path='E:/Learn_data/NaiveBayesData/train/spam/allEmailSpam.txt')
# print('Store email finished!')


#对邮件进行标注，将样本标签写入一个单独的文件0表示垃圾邮件，1表示非垃圾邮件
def GetLabel(original_path,save_path):
    label_list = []
    f = open(original_path,'r',encoding='utf-8')    #这里打开的是文件的索引文本
    #spam
    for line in f:
        if line[0] == 'S':
            label_list.append('0')
        
        #ham
        elif line[0] == 'H':
            label_list.append('1')
    with open(save_path,'w',encoding='utf-8') as f:
        f.write('\n'.join(label_list))
    f.close()  
 
# print('Storing labels in a file ...')
# GetLabel('E:/Learn_data/NaiveBayesData/train/Index.txt',save_path='E:/Learn_data/NaiveBayesData/train/label.txt')
# print('Store labels finished !')


#创建一个词汇表
def CreateVocabList(docList):
    VocabSet = set([])  #创建一个空集
    for document in docList:
        VocabSet = VocabSet | set(document) #创建两个集合的并集
    return list(VocabSet)

#
def setOfwords2Vect(vocabList,inputSet):    #该函数的输入参数为词汇表及某个文档，输出的是文档向量，向量的每个元素为1或者0，分别表示词汇表中的单词在文档中是否出现

    returnVec = [0]*len(vocabList)  
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] = 1
        else:
            print("the word:%s is not in my Vocabulary!"%word)
    return returnVec

#朴素贝叶斯分类器训练函数
def trainNB0(trainMatrix,trainCategory):    #输入参数为文档矩阵trainMatrix和以及由每篇文档类别标签所构成的向量trainCategory
    numTrainDocs = len(trainMatrix) #获得训练集的长度
    numWords = len(trainMatrix[0])  #
    pAbusive = sum(trainCategory)/float(numTrainDocs)
    p0Num = np.zeros(numWords)
    p1Num = np.zeros(numWords)
    p0Denom = 0.0
    p1Denom = 0.0
    for i in range(numTrainDocs):   #循环遍历训练集trainMatrix中的所有文档
        if trainCategory[i] == 1:
            p1Num += trainMatrix[i]
            p1Denom += sum(trainMatrix[i])
        else:
            p0Num += trainMatrix[i]
            p1Denom += sum(trainMatrix[i])
    p1Vect = log(p1Num/p1Denom)
    p0Vect = log(p0Num/p0Denom)
    print("概率1",p1Vect)
    print("概率0",p0Vect)
    print("先验概率",pAbusive)
    return p0Vect,p1Vect,pAbusive
with open('E:/Learn_data/NaiveBayesData/train/spam/allEmailSpam.txt',encoding='utf-8') as f1:
    f3 = f1.read()
with open('E:/Learn_data/NaiveBayesData/train/label.txt',encoding='utf-8') as f2:
    f4 = f2.read()

print(trainNB0(f3,f4))

#创建朴素贝叶斯分类函数
# def classify(vec2Classify,p0Vec,p1Vec,pClass1):
#     p1 = sum(vec2Classify *p1Vec) + log(pClass1)
#     p0 = sum(vec2Classify * p0Vec) + log(1.0-pClass1)
#     if p1 > p0:
#         return 1
#     else:
#         return 0


#创建邮件的测试函数
def SpamTest():     #该函数是对贝叶斯垃圾邮件分类器进行动化处理
    docLists = []
    classList = []
    with open('E:/Learn_data/NaiveBayesData/train/ham/allEmailHam.txt',encoding='utf-8') as f:
        for word in f:
            word = f.readline()
            docLists.append(set(word))
            classList.append(1)
    with open('E:/Learn_data/NaiveBayesData/train/spam/allEmailSpam.txt',encoding='utf-8') as f:
        for word in f:
            word = f.readline()
            docLists.append(set(word))
            classList.append(0)
    VocabList = CreateVocabList(docLists)
    trainMat = []
    trainClasses = []
    for docIndex in range(50):
        trainMat.append(setOfwords2Vect(VocabList,docLists))
        trainClasses.append(classList[docIndex])
    p0V,p1V,pSpam = trainNB0(np.array(trainMat),np.array(trainClasses))
    # print(docLists)
    # print(classList)
    # print(VocabList)   
    # print(p0V) 
    # print(p1V) 
    # print(pSpam) 
s=SpamTest()

输入样本为：131.txt

结果为：正常邮件

输入样本为：023.txt

结果为：垃圾邮件

朴素贝叶斯分类的优缺点：

优点：在数据较少的情况仍然有效，可以处理多类问题

缺点：对于输入数据的准备方式比较敏感

总结

本篇文章内容到处结束，希望码友们继续再接再厉

【机器学习】算法分类 CH3_CH2_CHO 什么？！是机器学习！！机器学习算法有监督学习无监督学习半监督学习强化学习
1、有监督学习1.1定义使用带标签的数据训练模型。有监督学习是机器学习中最常见的一种类型，它利用已知的输入特征和对应的输出标签来训练模型，使模型能够学习到特征与标签之间的映射关系。在训练过程中，模型会不断地调整自身的参数，以最小化预测值与真实标签之间的误差，从而提高预测的准确性。1.2回归问题1.2.1目标预测连续值。回归问题的目标是预测一个连续的数值结果，模型的输出是一个实数值。1.2.2解释回
Linux------Redis(软件安装，Linux下和Windows下)，NoSQL（简单了解） .墨迹. Linux redis 大数据 java
文章目录NoSql1.历史1.单机MySql2.Memcached(缓存)+MySql+垂直拆分(读写分离)3.分库分表+水平拆分+MySql集群4.如今最近的年代5.为什么要使用NoSQL2.什么是NoSQL1.NOSQL2.特点3.3v+3高3.NoSQL的四大分类1.kv键值对：2.文档型数据库（bson和json一样）：3.列存储数据库：4.图关系型数据库Redis1.初始redis1.简
Python 单例模式的 5 种实现方式：深入解析与最佳实践做测试的小薄测试高阶 python 单例模式自动化测试测试框架
单例模式（SingletonPattern）是一种经典的设计模式，其核心思想是确保一个类在整个程序运行期间只有一个实例，并提供一个全局访问点。这种模式在许多场景中非常有用，例如全局配置管理、日志记录器、数据库连接池等。然而，Python的灵活性使得实现单例模式有多种方式，每种方法都有其特点和适用场景。本文将详细介绍Python中实现单例模式的5种常见方法，并深入分析它们的优缺点以及适用场景，帮助您
Python 爬虫实战：舞台剧与演出信息获取西攻城狮北 python 爬虫开发语言
作为一名对文化艺术活动和数据获取感兴趣的内容创作者，我决定利用Python爬虫技术抓取舞台剧与演出信息。这对于文艺爱好者、文化活动组织者以及相关研究人员来说，是一个极具价值的探索。一、项目背景舞台剧和各类演出活动丰富了人们的精神文化生活。许多城市都有专业的演出场馆，如国家大剧院、上海大剧院等，它们会定期发布演出信息。通过爬虫技术，我们可以自动化地获取这些演出信息，方便用户查询和分析。二、技术选型在
LeetCode剑指offer题目记录4 t.y.Tang LeetCode记录 leetcode python 矩阵
leetcode刷题开始啦,每天记录几道题.目录剑指offer07.重建二叉树题目描述示例思路python改进剑指offer09.用两个栈实现队列题目描述示例思路python剑指offer10-1.斐波那契数列题目描述思路pythonC++剑指offer10-2.青蛙跳台阶问题问题描述思路C++剑指offer07.重建二叉树题目描述输入某二叉树的前序遍历和中序遍历的结果，请构建该二叉树并返回其根节
【技巧分享】开发环境配置Python、R、Stata A线上仓库 python 开发语言
自用，看心情更新~版本更新2024-03-131.0版本2024-09-25FIX:1.conda命令ADD：1.python调用r命令2.r系统配置2025-01-22更新VSCode调用Statado文件目录版本更新Python环境配置Cheatsheet基础配置可选：环境配置：conda命令包管理R环境配置基础配置R命令Python调用Method1:`rpy2`Stata环境配置基础配置P
基于 PyTorch 的 MNIST 手写数字分类模型欣然～ pytorch 分类人工智能
一、概述本代码使用PyTorch框架构建了一个简单的神经网络模型，用于解决MNIST手写数字分类任务。代码主要包括数据的加载与预处理、神经网络模型的构建、损失函数和优化器的定义、模型的训练、评估以及最终模型的保存等步骤。二、依赖库torch：PyTorch深度学习框架的核心库，提供了张量操作、自动求导等功能。torch.nn：PyTorch的神经网络模块，包含了各种神经网络层、损失函数等。torc
python实现成语接龙 Camellia 泡泡笔记 python
first_idiom='万事如意'end_str=first_idiom[-1]new_li=[first_idiom]li=['发愤图强','笑容满面','意气风发','强颜欢笑']forindexinrange(len(li)):foriinli:ifend_str==i[0]:new_li.append(i)li.remove(i)end_str=i[-1]breakprint(new_l
数据结构——链表专项 seven——seven linux mailbox之线程邮箱数据结构链表算法
数据结构的总结1.定义一组用来保存一种或者多种特定关系的数据的集合（组织和存储数据）程序的设计：将现实中大量而复杂的问题以特定的数据类型和特定的存储结构存储在内存中，并在此基础上实现某个特定的功能的操作；程序=数据结构+算法高内聚，低耦合2.数据与数据之间的关系数据的逻辑结构：数据元素与元素之间的关系集合：关系平等线性结构：元素之间一对一的关系（表，队列。栈。。。）树型结构：元素之间一对多的关系（
Linux内核中的数据结构与算法（三）哈希链表木木0o0欧尼 Linux 链表数据结构 linux
四，哈希链表谈到链表就不得不谈Linux内核中另外一个重要的结构，哈希链表。讨论这个结构前，你需要对哈希的最基本的概念要清楚哦，由于我们已经讲过Linux内核中的普通链表的结构，这里我们对比他们的区别来了解哈希链表会直观一些。Linux链表认为双指针表头双循环链表对于HASH表来说过于浪费，因而设计了一套用于HASH表的hlist的数据结构，单指针表头双循环链表。hlish表头仅有一个指向首节点的
涛哥聊Python | borb，一个好用的 Python 库，处理 PDF 文件好帮手！双木的木 python拓展学习 python库 python 开发语言机器学习 pdf 人工智能深度学习
本文来源公众号“涛哥聊Python”，仅用于学术分享，侵权删，干货满满。原文链接：borb，一个好用的Python库！大家好，今天为大家分享一个好用的Python库-borb。Github地址：https://github.com/jorisschellekens/borbPythonBorb是一个用于处理PDF文件的Python库，它提供了丰富的功能和工具，使得PDF文件的创建、修改和解析变得更
python—计算学生成绩等级 2111339 彭传月 python
一、打开软件新建窗口输入代码#计算学生成绩等级is_continue='y'whileis_continue=='Y'oris_continue=='y':score=eval(input('请输入学生的成绩：'))ifscore>=90:print('A')elifscore>=80:print('B')elifscore>=70:print('C')elifscore>=60:print('D
CPU占用率飙升至100%：是攻击还是正常现象？群联云防护小杜安全问题汇总 ddos 安全 waf 服务器 cpu 占用被攻击
在运维和开发的日常工作中，CPU占用率突然飙升至100%往往是一个令人紧张的信号。这可能意味着服务器正在遭受攻击，但也可能是由于某些正常的、但资源密集型的任务或进程造成的。本文将探讨如何识别和应对服务器的异常CPU占用情况，并通过Python脚本示例，提供一种监控和诊断CPU占用率的方法。一、CPU占用率100%：攻击or正常？1.1攻击迹象持续性高占用：如果CPU占用率长时间保持在100%，且没
Python 成绩等级判定 Camellia 泡泡 python 笔记
score=int(input("请输入学生成绩:"))if90<=score<=100:grade="A"elif75<=score<=90:grade="B"elif60<=score<=75:grade="C"elifscore<60:grade="D"print("本次考试，等级为:",grade)运行结果：
【Python】PDFMiner.six：高效处理PDF文档的Python工具技术无疆 Python python pdf 开发语言 python3.11 人工智能数据挖掘机器学习
PDF是一种广泛使用的文件格式，特别适用于呈现固定布局的文档。然而，提取PDF文件中的文本和信息并不总是那么简单。幸好有许多Python库可以帮助我们，其中，PDFMiner.six是一个功能强大、专门用于PDF文档解析的库。⭕️宇宙起点什么是PDFMiner.six？主要功能安装PDFMiner.six♨️核心功能和代码示例1.提取PDF文档的纯文本2.从多个页面提取文本3.提取PDF中的表格内
25道Python练手题（附详细答案），赶紧收藏！_python题库字节全栈_rJF python 开发语言
importrandomasrdnumber=rd.randint(0,100)foriinrange(10):choice=int(input("请输入你要猜测的数字："))ifchoice>number:print("你猜大了")elifchoice0and5*x+3*y+z/3==100:count+=1print("="*60)print(f'第{count}种买法，公鸡买了{x}只，母鸡
python爱心代码高级 youyouxiong python 开发语言
在Python中，我们可以使用各种方法来绘制一个“爱心”形状。以下是一个使用turtle模块绘制爱心的高级示例。这个示例将使用更复杂的数学公式和图形操作来绘制一个更精致的爱心形状。importturtleimportmath#设置初始状态window=turtle.Screen()window.bgcolor("black")#设置背景色为黑色love=turtle.Turtle()love.sp
python画一个爱心戴子雯 python绘画 python
大家好这是我的地一篇博客，我要写一个关于python的文章我要用python写一个爱心。不说别的，先看效果效果如下：话不多说，上代码，在这之前要下载python下载这事咱们放在最后现在上代码！！！！！！！！！！！！！！importturtleastt.pensize(2)#笔大小2像素t.pencolor("red")#颜色为红色t.left
brew 安装pip_pip brew wget 安装 weixin_32612253 brew 安装pip
终端播放器安装教程从简书上看到一篇,终端实现网易云音乐的文章,并给出了一个github链接.心里有些痒痒,想看看是什么样子,于是尝试安装.安装过程中有些坎坷,记录以便以后查阅.程序实现是用Python写的.安装使用方式仅仅给了三行命令.安装$pipinstallnetease-musicbox$brewinstallmpg123使用$musicbox下载了源码后,不知道该如何安装.三行命令也是莫名
使用 Baseten 部署和运行机器学习模型的指南 shuoac 机器学习人工智能 python
随着机器学习模型在各个行业中的广泛应用，如何高效地部署和运行这些模型成为一个关键问题。本文将介绍如何使用Baseten平台来部署和服务机器学习模型。Baseten是LangChain生态系统中的一个重要提供者，它提供了所需的基础设施来高效地运行模型。无论是开源模型如Llama2和Mistral，还是专有或经过微调的模型，Baseten都能在专用GPU上运行。技术背景介绍Baseten提供了一种不同
python实现绘制爱心函数（绘制过程） halo0416 python 开发语言
首先，确保已经安装了matplotlib库和numpy库。如果没有安装，可以通过pip来安装：pipinstallmatplotlibpipinstallnumpy了解心形函数公式：x(t)=y(t)=13cos⁡(t)−5cos⁡(2t)−2cos⁡(3t)−cos⁡(4t)定义函数：defheart_shape(t):x=16*np.sin(t)**3y=13*np.cos(t)-5*np.c
python 绘图（爱心） @小H python 开发语言
#-*-coding:utf-8-*-fromturtleimport*defcurvemove():foriinrange(200):right(1)forward(1)color('red','pink')begin_fill()left(140)forward(111.65)curvemove()left(120)curvemove()forward(111.65)end_fill()don
多种方法判断一个数是否为素数的实现与优化徐浪老师徐浪老师大讲堂数据结构算法
素数，又称质数，是一个在数学和计算机科学中非常重要的概念。它是大于1的自然数中，除了1和它本身，不能被其他数整除的数。本文将从最基础的方法讲解到优化算法，并提供完整的实现代码，帮助您高效地判断一个数是否为素数。一、素数的基础知识1.1素数的定义素数：一个大于1的正整数，只有两个正因子：1和它本身。例如：2、3、5、7、11等。非素数：大于1的数中，可以被除1和本身以外的数整除的数。例如：4、6、8
Mulvus向量库数据插入失败排查 Sirius Wu milvus
Mulvus是一个开源的向量数据库，要判断数据是否成功插入以及在插入失败时进行排查，可以参考以下方法：确认数据是否成功插入1.API返回结果在使用Mulvus提供的API插入数据时，API会返回相应的结果信息。以PythonSDK为例，插入数据的代码通常如下：frompymilvusimportconnections,Collection,FieldSchema,CollectionSchema,
代码随想录算法训练营DAY59｜110.字符串接龙、105.有向图的完全可达性、106. 岛屿的周长阿緑代码随想录打卡算法
110.字符串接龙fromcollectionsimportdequedeffindshortestpath(strlist,beginstr,endstr):que=deque()visited={}que.append(beginstr)visited[beginstr]=1result=0whileque:cur=que.popleft()result=visited[cur]foriinr
使用 Python 绘制爱心图形（高级版）徐浪老师徐浪老师大讲堂 python 开发语言
以下是一段使用Python绘制高级“爱心”图案的代码，结合数学公式生成精美的爱心形状，并附加一些交互式的效果，比如渐变颜色或动态展示：动态渐变爱心importnumpyasnpimportmatplotlib.pyplotaspltimportmatplotlib.animationasanimation#设置爱心的数学公式defheart_shape(t):x=16*np.sin(t)**3y=
2025计算机毕设全流程实战指南：Java/Python+协同过滤+小程序开发避坑手册启点毕设课程设计 java python 大四论文指南查重降重技巧毕业设计 spring
技术框架的选择是项目开发的关键起点，直接影响开发效率和最终成果质量。然而，许多开发者在选择技术框架时面临困难：现有知识储备不足以支撑复杂项目需求，团队经验有限，框架选择缺乏前瞻性常导致后期问题。尽管技术框架的选择过程充满挑战，但合适的框架能为项目开发和维护奠定基础，而不当的选择则可能带来持续的技术债务和开发困扰。所以，建议对项目技术框架把握不好的同学，最好是找自己的研究生学长或者老师详细的把关机技
pycharm中使用anaconda部署python环境_pycharm部署配置anaconda环境教程 weixin_39796652
本篇文章小编给大家分享一下pycharm部署配置anaconda环境教程，小编觉得挺不错的，现在分享给大家供大家参考，有需要的小伙伴们可以来看看。pycharm部署anaconda环境Pycharm：python编辑器，社区版本Anaconda：开源的python发行版本(专注于数据分析的python版本)，包含大量的科学包环境基本指令(准备工作)：conda--version查看anaconda
基于NanoDet的无人机交通违规监控系统设计与实现深度学习&目标检测实战项目 NanoDet 无人机目标检测人工智能计算机视觉深度学习
1.引言随着无人机技术的发展，无人机在交通监控领域的应用逐渐增多。无人机能够提供空中视角，具有更高的视野覆盖范围，能够帮助交通管理部门实时监控交通违规行为。本博客将介绍如何使用NanoDet模型实现无人机交通违规监控系统，并结合PyQt5设计一个UI界面来实时展示检测结果。通过该系统，能够检测交通违规行为并做出实时预警，确保交通安全。本博客详细介绍了数据集的构建、模型的训练与推理、碰撞检测算法的实
python poetry添加某个git仓库的某个分支 waketzheng git
命令行不太清楚怎么弄，但可以通过编辑pyproject.toml实现实例：pypika-tortoise={git="https://github.com/henadzit/pypika-tortoise",branch="do-not-use-builder"}参考：WIPDonotcopypypikaquerybyhenadzit·PullRequest#1851·tortoise/torto
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb

朴素贝叶斯算法——垃圾邮件分类

前言

二、数据预处理

1.引入的库

2.去掉非中文字符及切片分词

3.进行标注

标注的实现代码：

4.创建词汇表

5.遍历文档中在词汇表中出现的词

6.创建朴素贝叶斯分类器训练函数

7.构建贝叶斯分类器

8.自动化处理垃圾邮件

结果：只截取了一部分

9.最终实现

总结

你可能感兴趣的:(机器学习,算法,分类,python)