胖哥真不错

【项目实战】Python实现贝叶斯算法疫情微博评论情感分析(手写算法)

说明：这是一个机器学习实战项目（附带数据+代码），如需数据+完整代码可以直接到文章最后获取。

1.需求分析

在新浪微博上有很多关于新冠疫情的微博消息以及评论信息，那么这些文本数据究竟是一个怎样的观点，人们对这次疫情持什么样的态度：积极、消极还是中性。接下来通过建立贝叶斯分类模型来进行微博评论数据的情感分析。

2.数据采集

本数据是从微博上抓取的数据：

数据集：data.xlsx

在实际应用中，根据自己的数据进行替换即可。

特征数据：微博正文

标签数据：分类(积极消极客观)

3.数据预处理

1）原始数据描述：

2)数据去重与空值处理：
#!/usr/bin/python
# -*- coding: UTF-8 -*-

readPath='source.txt'
writePath='source01.txt'
lines_seen=set()
outfiile=open(writePath,'a+',encoding='utf-8')
f=open(readPath,'r',encoding='utf-8')
for line in f:
    if line not in lines_seen:
        outfiile.write(line)
        lines_seen.add(line)
去重前：

去重后：

4.数据分析过程

4.1 分词处理

微博作为一个社交平台，不仅拥有能够迅速的传播特点，并且成为了商家用来推广产品的重点发布平台。在微博中，大量广告、营销类账号的出现，给微博的情感分析造成很大的困难。所以，针对微博的文本预处理变得极其重要。

4.1.1 分词
#!/usr/bin/python
# -*- coding: UTF-8 -*-
import jieba


# 待分词的文本路径
sourceTxt = 'source.txt'
# 分好词后的文本路径
targetTxt = 'target.txt'

# 对文本进行操作
with open(sourceTxt, 'r', encoding='utf-8') as sourceFile, open(targetTxt, 'a+', encoding='utf-8') as targetFile:
        for line in sourceFile:
            seg = jieba.cut(line.strip(), cut_all=False)
            # 分好词之后之间用/隔断
            output = '/'.join(seg)
            targetFile.write(output)
            targetFile.write('\n')
        print('写入成功！')
        sourceFile.close()
        targetFile.close()
中文的分词是将一个汉字序列变成一个个单独的有意义的词汇。文本挖掘首先要以中文分词为前提。目前常用的中文分词软件主要有以下几种：

（1）BosonNLP：玻森的中文语义开放平台，主要提供了一个方便、性能强大的中文自然语言分析的平台。

（2）NLPIR：是中国科学院计算机研究所的一个产品，积累了多年研究工作，暂时是目前世界上最好的中文分词工具。

（3）结巴分词：一款开源在GitHub上面的中文分词工具，提供了python、java等多语言的接口，而且能够识别繁体字，立志成为最好的中文分词工具。

（4）IKAnalyzer：一款开源的java分词工具，最初是以lucene为应用主体的，之后结合了词典分词和语法分析算法的分词组件。

本文中将采用中科院的NLPIR和开源的JIEBA进行分词，其中NLPIR的分类例子如下：

不让我上去疫情高风险地区我还不会自己吗！[doge][doge][doge]（投稿：@还没怀上的葛一他麻麻）http://t.cn/RqKTebK

如果不降噪进行分词：

['（', '不', '@还没怀上的葛一他麻麻', '投稿', '抢', '！', '会', '自己', '还', 'RqKTebK', '疫情', '上', '高风险',’高风险’,’地区’, '[doge]', '让', '：', 'http://t.cn/', '）', '吗', '我']

4.1.2 删除URL

垃圾微博中的内容一般较短，而且一般文字后面都带有链接，由此才能将用户导向网页的入口，如下面几条：

【领 10 元优惠券】【券后价 19.9元】【包邮】粉丝福利购：http://t.cn/R6j6YyX "

"神奇口罩 =26.8 领券拍：http://t.cn/R6lLnsV http://t.cn/R6n9kRO "

"买口罩？找优惠？上莫莉口罩！http://t.cn/RxmHa1i "

"医用口罩 =49 领券拍：http://t.cn/R6nIheq http://t.cn/R6nI2Fp "

"防病毒口罩 =58 领券拍：http://t.cn/R6CjMuM http://t.cn/R6QsX8f "

由上述内容可以知道，一般情况下的普通URL链接都是较长的字符串，如果保持原链接会占用微博的资源。因此，微博希望能够将原本的“长链接”变成缩短的短链接。微博中使用散列（hash）索引，将原始链接对应成一个较短的、一一对应的字幕、数字串组合。

URL中带有有用的信息很少，一般都是广告的导向和用户的定位。我们使用SQL从数据库中查找含有URL的微博数量统计。

统计结果

统计项

结果

含有URL的微博数量

16（总量：5781）

由此可见，URL在微博中的引用量是0.2%，量不是很大，在情感分析前，要对微博文本进行适当的清理，从而去除这些无用的URL，降低这些URL对情感分析的影响。

4.1.3 删除用户名

微博文本中的用户名一般用来提醒该用户，但是，大部分微博用户的用户名毫无规律性，如：@real__pcyyyyy、@CloverH静、@baekhyunee7永远像25岁一样年轻等，对分词器来说有较大的影响，比如JIEBA分词会把“@baekhyunee7永远像25岁一样年轻”拆分成['@', 'baekhyunee7', '永远', '像', '25', '岁', '一样', '年轻']，其中“年轻”会对用来构建的词性特征造成影响，所以，对于用户名的出去也是极其重要的。

4.1.4 去除停用词

停用词（STOP WORDS），在词典中的意思为：对文本中表达的意义并不起什么作用的词语。在SEO中，为了节省存储空间和提高检索速度，搜索引擎会在搜索时自动忽略某些字或词，这些字或词便是停用词。

停用词在一定程度上相当于过滤词，但是过滤词的范围比较大，通常包含色情、政治、暴力等敏感信息，停用词则没有这个限制。通常情况下，停用词可分为两类：

（1）使用广泛，过于频繁的一些单词。比如“我”、“你”之类的词几乎在很多文档中都会出现，对于搜索引擎来说，这类词无法保证准确的搜索结果，还会降低效率。

（2）文档中使用频率很高，但是实际意义不大的词。主要包括语气助词、副词、介词、连词等，在文本表达中没有变现出任何意义。为了增加情感分析的准确性，我们需要对微博文本中去除停用词。

分词结果展示(部分)：

4.2 词频统计与词云图

主要是通过JIEBA工具分词后，通过循环进行词频统计，为了更方便的展示词频的效果，方便进行查看，制作成词云图。
#!/usr/bin/python
# -*- coding: UTF-8 -*-

import jieba
import re


def txt():  # 输出词频前N的词语
    txt = open("target.txt", "r", encoding='utf-8').read()  # 打开txt文件,要和python在同一文件夹
    # print(txt)
    txt00 = open("shuchu.txt", "a+", encoding='utf-8')
    words = jieba.lcut(txt)  # 精确模式，返回一个列表
    # print(words)
    counts = {}  # 创建字典
    lt=['三炮','##','......','24','10','30','2020','14','31','11','13','20','15','28','17','16','29','微博']
    stopkeyword = [line.strip() for line in open('stopwords.txt', encoding='utf-8').readlines()]  # 加载停用词
    for word in words:
        if len(word) == 1:
            continue
        elif word  in stopkeyword :
            rword = " "
        else:
            rword = word
        counts[rword] = counts.get(rword, 0) + 1  # 字典的运用，统计词频
    items = list(counts.items())  # 返回所有键值对
    print(items)
    items.sort(key=lambda x: x[1], reverse=True)  # 降序排序
    N = eval(input("请输入N：代表输出的数字个数："))
    wordlist = list()
    r1 = re.compile(r'\w')  # 字母，数字，下划线，汉字
    r2 = re.compile(r'[^\d]')  # 排除数字
    r3 = re.compile(r'[\u4e00-\u9fa5]')  # 中文
    r4 = re.compile(r'[^_]')  # 排除_
    # stopkeyword = [line.strip() for line in open('stopwords.txt', encoding='utf-8').readlines()]  # 加载停用词
    for i in range(N):
        word, count = items[i]
        txt00.write("{0:<10}{1:<5}".format(word, count))  # 输出前N个词频的词语
        txt00.write('\n')
        if  r1.match(word) and r2.match(word) and r3.match(word) and r4.match(word) :
            continue

    txt00.close()


# 调用词频统计函数
txt()
词频统计结果展示(部分)：

词云图：

5 利用贝叶斯定理情感分析

贝叶斯方法作为一个历史悠久，有着坚实的理论基础的机器学习方法，不仅能够在同时处理很多问题时直接而又高效，而且很多高级自然语言处理模型也能够从它演化而来。贝叶斯方法，是研究自然语言处理问题的一个极其优秀的切入口。其流程主要如下图4.1。

朴素贝叶斯情感分析基本流程

准备工作阶段：此阶段主要是对文本进行预处理，先对样本进行标注，之后根据词频筛选部分的特征词。该阶段输入的事所有待分类的样本，然后得出特征属性和训练样本。朴素贝叶斯的分类器的准确性主要由筛选出来的特征属性来决定。

分类器训练阶段：根据样本中的频率，然后由每个特征计算出每个类别的先验概率。此阶段主要是根据公式的机械计算。此阶段是朴素贝叶斯分类最重要的一个环节。

应用阶段：该阶段主要将测试样本进行输入，然后由分类器来计算出分类的记过。

5.1 贝叶斯定理

贝叶斯公式就一行：

而它其实是由以下的联合概率公式推导出来：

P(Y,X)=P(Y|X)P(X)=P(X|Y)P(Y)

算法描述：

标准的朴素贝叶斯分类算法的执行过程。

（1）对样本进行人工标记

（2）对不同类别的样本进行中文分词

（3）去除样本中的垃圾词条

（4）将整理后的词条做成特征组，分析并计算词条频率信息

（5）根据词条的信息，计算其先验概率。

（6）读取训练的样本，进行分词，降噪，然后形成样本特征组

（7）将测试样本的先验概率代入朴素贝叶斯公式并计算后验概率，得到最大概率的所属类别就是文本的类别

朴素贝叶斯文本分类流程

本文中：将不同的经过数据预处理（去掉无关类的微博）后，将剩下的微博分为三类：POS（积极）、NEG（消极）、Neural（客观）。

（1）一般情况下，积极即带有取向上、努力等思想和表现，如：全民防控众志成城tyy生日快乐[噢耶][噢耶][噢耶]

（2）而消极则代表了负面的，不思进取的，失落等情感，如：对面疫情，有时候觉得人活着挺难的，不想说话[闭嘴]

（3）而客观的就表示仅仅陈述，不含有情感色彩的，如：疫情期间，一百本可以充实自己的外国图书，书荒的Mark

对于文本分类，常用的朴素贝叶斯主要存在三种不同的贝叶斯模型：高斯模型、多变量的伯努利模型和多项式模型

（1）高斯模型——它假设特征是正态分布的。它的一般使用场景是，给出人物的宽度和高度，判断这个人的性别。而情感分析，从给定推文文本中提取出词语的个数，不适合正态分布。

（2）伯努利模型——和高斯模型相似，更适于判断词语是否出现二值特征，而不是词频统计。

（3）多项式模型——它假设特征就是出现次数。这和我们是相关的，因为我们会把推文中的词频当做特征。

5.1.1 高斯朴素贝叶斯

某些特征很可能是连续型变量，比如说物体的长度和人的身高，这些特征可以转换成离散型的值。比如我们将人的身高进行划分，如表1。同时，我们也可以将身高用三个特征表示f1，f2，f3，结果如表2所示。

表1身高特征划分方法一

0~160cm

1

160~170cm

2

170+cm

3

表2身高特征划分方法二

身高

f1 f2 f3

0~160cm

1 0 0

160~170cm

0 1 0

170+cm

0 0 1

不过这些方式都不够细腻，高斯模型可以解决此类问题。高斯模型假设这些一个特征的所有属于某个类别的观测值符合高斯分布。

5.1.2 伯努利贝叶斯

伯努利贝叶斯（Bernoulli Naïve Bayes，BNB）是最早基于朴素贝叶斯模型对文本进行分类的算法。模型中，一篇文本会被表示成欧式空间中的一个二进制变量，即，如果文本中在指示变量中出现的话，则将改值标为1，否则为0.给定测试文本d=，如果属性条件独立，则BNB根据下面的公式选出最大的后验概率来对文本进行分类：

c(d)=argmaxc∈cP(c|c)

从之前别人的研究可以表明伯努利贝叶斯在数据量比较少的时候性能较好，但是，当数据量大的时候，性能远远比不上多项式模型。

5.1.3 多项式朴素贝叶斯定理

多项式朴素贝叶斯（Multinomial Naïve Bayes,MNB）是为了改进多变量伯努利朴素贝叶斯而提出的。该模型中，文本的表示是欧式空间中的一个带有单词频率信息的向量，当一个词语在一篇文章中出现时，该文本的对应的词语频率为1，否则为0。

在条件独立的情况下，给定测试文档,多项式朴素贝叶斯根据下面的极大后验概率来对文本进行分类：



5.2 本项目中的多项式朴素贝叶斯

5.2.1 算法过程

5.2.2 拉普拉斯平滑

在计算先验概率和后验概率的时候，从样本中算出的概率值很有为0，会导致相乘的结果为0，这显然是不合理的，因为不能因为一个事件没有检测到就判断改事件的概率为0。我们可以通过分子和分母都分别加入一个平滑因子aa，就可以避免这个问题。更新过后的先验概率公式变为：

Lj是第j维特征的最大取值

可以证明，改进以后的仍然是概率。平滑因子kk=0即为实现的最大似然估计，这时会出现在本节开始时提到的0概率问题；而kk=1则避免了0概率问题，这种方法被称为拉普拉斯平滑。

拉普拉斯平滑曲线

5.3 实现过程

5.3.1 分词

结巴分词，是Github中开源的中文分词组件，该分词器能够支持三种分词模式：

精确模式：能够将句子用最精确的方法切开，普遍适用于文本分析；

全模式：能够把文本中所有成词的词语都扫描出来，虽然速度非常快，但是不能解决歧义。

搜索引擎模式：在精确模式的基础上，会对长词再次切分，提高召回率，一般适用于搜索引擎分词。

本实验是基于标注的情感分析，故使用结巴分词的精确模式来进行分词。

分词的结果：

5.3.2 特征提取

跟第所述的一样，使用Python统计筛选出频率最高的词。得出的结果使用词云如图所示：

词云

5.3.3 向量化

假如上述中的特征提取中构建出来的单词特征为[‘喜欢’,’失望’,’快乐’,’越来越好’,’晚安’]，长度为m，矢量化的时候如果一条微博为：生日快乐，晚安。那么，构建出来的矩阵为：[0,0,1,0,1]。

说明：

1.如果为n条微博，则构建出来则是n*m的矩阵。

2.如果一条微博的某个特征出现次数多于一次，则进行累加，如，快乐快乐，矢量化之后变成：[0,0,2,0,0,0]。

5.3.4 朴素贝叶斯分类

本文中将微博的情感分为三类，分别用数字代表某一类结果，其中1表示积极，2表示消极，3表示客观。经过之前的去标签、分词和向量化之后，样本均变成了numpy中的数组，下面将使用多项式朴素贝叶斯进行训练。其伪代码如下图所示。

对人工标注中的类别进行计算

对于每篇训练的文本：

    对于每个类别：

        如果某个词语出现在文档中，增加其数值

        然后再增加所有词语的计数值

对于每个类别：

    除于总数目，得出条件概率

使用测试文档与词向量相乘，得出最大类别就是该文本的所属类别

朴素贝叶斯

5.3.5 测试及计算
之后使用从数据源中选取几个句子用来测试，结果如下（后面的标号表示分类结果，其中1表示积极，2表示消极，3表示客观）：

疫情当前，不惊扰别人的宁静，就是慈悲； 不伤害别人的自尊，就是善良。 ---- 3

疫情在家里面，与大哥太有缘分！竟是同天生日！！希望大哥的模特演绎之路能够越走越远越走越顺越走越好！！！ ---- 1

全民抗疫，萌萌哒 ---- 1

在疫情中，现在的年轻人，连点小事都做不好 ---- 2

新冠病毒来袭，丁丁美人飞机临时取消，只能明天再见了[失望] ---- 2

疫情中，默默看书 ---- 3

今年又遇到了疫情，一天又一天，今夕是何年[失望]    ----2

疫情来了，还好这只傻狗没有被学校的捕狗大队抓走[悲伤]    ----2

全民抗击病毒，相比游戏可以凭运气  ---- 3

面对疫情病毒，生活中却全是坑，绕不开[哈哈]   ---- 1

哎，疫情又要在家，现实比不过一个网？[拜拜]    ----2

众志成城，抗击疫情，最最亲爱的自己，最最亲爱的世界，晚安[兔子][月亮]   ---- 3

面对病毒，有点想哭   ----2

疫情在家，发现只要过了星期三就变得好快[晕][晕]     ----2

疫情在家，虽然下雨，健身不能停，瑜伽课加游泳八百米，代餐奶昔不裹腹啊，快睡吧，睡着了就不饿了！ http://t.cn/R2Wx9Wb  ---- 3
建模代码实现：

6 情感倾向饼状图
#!/usr/bin/python
# -*- coding: UTF-8 -*-

import matplotlib.pyplot as plt

plt.rcParams['font.sans-serif'] = 'SimHei'
plt.figure(figsize=(6, 6))
label = ['积极', '消极', '客观']
explode = [0.01, 0.01, 0.01]
values = [2250, 274, 3257]
plt.pie(values, explode=explode, labels=label, autopct='%1.1f%%')
plt.title('情感倾向饼状图')
plt.savefig('./情感倾向饼状图')
plt.show()
针对，贝叶斯分析的结果，制作饼状图，如下图所示：

通过饼状图分析，情感倾向大部分人是客观状态的，表名人们看到这次全民抗疫还是比较客观的；再者就是积极状态的人，说明在这次抗击疫情时，人民还是比较积极的；消极的人很少。

本次机器学习项目实战所需的资料，项目资源如下：https://download.csdn.net/download/weixin_42163563/21350026

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
jsonp 常用util方法 hw1287789687 jsonp jsonp常用方法 jsonp callback
jsonp 常用java方法 (1)以jsonp的形式返回:函数名(json字符串) /*** * 用于jsonp调用 * @param map : 用于构造json数据 * @param callback : 回调的javascript方法名 * @param filters : <code>SimpleBeanPropertyFilter theFilt
多线程场景 alafqq 多线程
0 能不能简单描述一下你在java web开发中需要用到多线程编程的场景？0 对多线程有些了解，但是不太清楚具体的应用场景，能简单说一下你遇到的多线程编程的场景吗？ Java多线程 2012年11月23日 15:41 Young9007 Young9007 4 0 0 4 Comment添加评论关注(2) 3个答案按时间排序按投票排序 0 0 最典型的如： 1、
Maven学习——修改Maven的本地仓库路径 Kai_Ge maven
安装Maven后我们会在用户目录下发现.m2 文件夹。默认情况下，该文件夹下放置了Maven本地仓库.m2/repository。所有的Maven构件(artifact)都被存储到该仓库中，以方便重用。但是windows用户的操作系统都安装在C盘，把Maven仓库放到C盘是很危险的，为此我们需要修改Maven的本地仓库路径。
placeholder的浏览器兼容 120153216 placeholder
【前言】自从html5引入placeholder后，问题就来了，不支持html5的浏览器也先有这样的效果，各种兼容，之前考虑，今天测试人员逮住不放，想了个解决办法，看样子还行，记录一下。【原理】不使用placeholder，而是模拟placeholder的效果，大概就是用focus和focusout效果。【代码】 <scrip
debian_用iso文件创建本地apt源 2002wmj Debian
1.将N个debian-506-amd64-DVD-N.iso存放于本地或其他媒介内，本例是放在本机/iso/目录下 2.创建N个挂载点目录如下： debian:~#mkdir –r /media/dvd1 debian:~#mkdir –r /media/dvd2 debian:~#mkdir –r /media/dvd3 …. debian:~#mkdir –r /media
SQLSERVER耗时最长的SQL 357029540 SQL Server
对于DBA来说，经常要知道存储过程的某些信息： 1. 执行了多少次 2. 执行的执行计划如何 3. 执行的平均读写如何 4. 执行平均需要多少时间列名 &
com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 7454103 eclipse
今天eclipse突然报了com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 错误，并且工程文件打不开了，在网上找了一下资料，然后按照方法操作了一遍，好了，解决方法如下：错误提示信息： An error has occurred.See error log for more details. Reason: com/genuitec/
用正则删除文本中的html标签 adminjun java html 正则表达式去掉html标签
使用文本编辑器录入文章存入数据中的文本是HTML标签格式，由于业务需要对HTML标签进行去除只保留纯净的文本内容，于是乎Java实现自动过滤。如下： public static String Html2Text(String inputString) { String htmlStr = inputString; // 含html标签的字符串 String textSt
嵌入式系统设计中常用总线和接口 aijuans linux 基础
嵌入式系统设计中常用总线和接口任何一个微处理器都要与一定数量的部件和外围设备连接，但如果将各部件和每一种外围设备都分别用一组线路与CPU直接连接，那么连线
Java函数调用方式——按值传递 ayaoxinchao java 按值传递对象基础数据类型
Java使用按值传递的函数调用方式，这往往使我感到迷惑。因为在基础数据类型和对象的传递上，我就会纠结于到底是按值传递，还是按引用传递。其实经过学习，Java在任何地方，都一直发挥着按值传递的本色。首先，让我们看一看基础数据类型是如何按值传递的。 public static void main(String[] args) { int a = 2;
ios音量线性下降 bewithme ios音量
直接上代码吧 //second 几秒内下降为0 - (void)reduceVolume:(int)second { KGVoicePlayer *player = [KGVoicePlayer defaultPlayer]; if (!_flag) { _tempVolume = player.volume;
与其怨它不如爱它 bijian1013 选择理想职业规划
抱怨工作是年轻人的常态，但爱工作才是积极的心态，与其怨它不如爱它。一般来说，在公司干了一两年后，不少年轻人容易产生怨言，除了具体的埋怨公司“扭门”，埋怨上司无能以外，也有许多人是因为根本不爱自已的那份工作，工作完全成了谋生的手段，跟自已的性格、专业、爱好都相差甚远。
一边时间不够用一边浪费时间 bingyingao 工作时间浪费
一方面感觉时间严重不够用，另一方面又在不停的浪费时间。每一个周末，晚上熬夜看电影到凌晨一点，早上起不来一直睡到10点钟，10点钟起床，吃饭后玩手机到下午一点。精神还是很差，下午像一直野鬼在城市里晃荡。为何不尝试晚上10点钟就睡，早上7点就起，时间完全是一样的，把看电影的时间换到早上，精神好，气色好，一天好状态。控制让自己周末早睡早起，你就成功了一半。有多少个工作
【Scala八】Scala核心二：隐式转换 bit1129 scala
Implicits work like this: if you call a method on a Scala object, and the Scala compiler does not see a definition for that method in the class definition for that object, the compiler will try to con
sudoku slover in Haskell (2) bookjovi haskell sudoku
继续精简haskell版的sudoku程序，稍微改了一下，这次用了8行，同时性能也提高了很多，对每个空格的所有解不是通过尝试算出来的，而是直接得出。 board = [0,3,4,1,7,0,5,0,0, 0,6,0,0,0,8,3,0,1, 7,0,0,3,0,0,0,0,6, 5,0,0,6,4,0,8,0,7,
Java-Collections Framework学习与总结-HashSet和LinkedHashSet BrokenDreams linkedhashset
本篇总结一下两个常用的集合类HashSet和LinkedHashSet。它们都实现了相同接口java.util.Set。Set表示一种元素无序且不可重复的集合；之前总结过的java.util.List表示一种元素可重复且有序
读《研磨设计模式》-代码笔记-备忘录模式-Memento bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; /* * 备忘录模式的功能是，在不破坏封装性的前提下，捕获一个对象的内部状态，并在对象之外保存这个状态，为以后的状态恢复作“备忘”
《RAW格式照片处理专业技法》笔记 cherishLC PS
注意，这不是教程！仅记录楼主之前不太了解的一、色彩（空间）管理作者建议采用ProRGB（色域最广），但camera raw中设为ProRGB，而PS中则在ProRGB的基础上，将gamma值设为了1.8（更符合人眼）注意：bridge、camera raw怎么设置显示、输出的颜色都是正确的（会读取文件内的颜色配置文件），但用PS输出jpg文件时，必须先用Edit->conv
使用 Git 下载 Spring 源码编译 for Eclipse crabdave eclipse
使用 Git 下载 Spring 源码编译 for Eclipse 1、安装gradle，下载 http://www.gradle.org/downloads 配置环境变量GRADLE_HOME，配置PATH %GRADLE_HOME%/bin，cmd，gradle -v 2、spring4 用jdk8 下载 https://jdk8.java.
mysql连接拒绝问题 daizj mysql 登录权限
mysql中在其它机器连接mysql服务器时报错问题汇总一、[running][email protected]:~$mysql -uroot -h 192.168.9.108 -p //带-p参数，在下一步进行密码输入 Enter password: //无字符串输入 ERROR 1045 (28000): Access
Google Chrome 为何打压 H.264 dsjt apple html5 chrome Google
Google 今天在 Chromium 官方博客宣布由于 H.264 编解码器并非开放标准，Chrome 将在几个月后正式停止对 H.264 视频解码的支持，全面采用开放的 WebM 和 Theora 格式。 Google 在博客上表示，自从 WebM 视频编解码器推出以后，在性能、厂商支持以及独立性方面已经取得了很大的进步，为了与 Chromium 现有支持的編解码器保持一致，Chrome
yii 获取控制器名和方法名 dcj3sjt126com yii framework
1. 获取控制器名在控制器中获取控制器名: $name = $this->getId(); 在视图中获取控制器名: $name = Yii::app()->controller->id; 2. 获取动作名在控制器beforeAction()回调函数中获取动作名: $name =
Android知识总结（二） come_for_dream android
明天要考试了，速速总结如下 1、Activity的启动模式 standard：每次调用Activity的时候都创建一个（可以有多个相同的实例，也允许多个相同Activity叠加。） singleTop：可以有多个实例，但是不允许多个相同Activity叠加。即，如果Ac
高洛峰收徒第二期：寻找未来的“技术大牛” ——折腾一年，奖励20万元 gcq511120594 工作项目管理
高洛峰，兄弟连IT教育合伙人、猿代码创始人、PHP培训第一人、《细说PHP》作者、软件开发工程师、《IT峰播》主创人、PHP讲师的鼻祖！首期现在的进程刚刚过半，徒弟们真的很棒，人品都没的说，团结互助，学习刻苦，工作认真积极，灵活上进。我几乎会把他们全部留下来，现在已有一多半安排了实际的工作，并取得了很好的成绩。等他们出徒之日，凭他们的能力一定能够拿到高薪，而且我还承诺过一个徒弟，当他拿到大学毕
linux expect heipark expect
1. 创建、编辑文件go.sh #!/usr/bin/expect spawn sudo su admin expect "*password*" { send "13456\r\n" } interact 2. 设置权限 chmod u+x go.sh 3.
Spring4.1新特性——静态资源处理增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
idea ubuntuxia 乱码 liyonghui160com
1.首先需要在windows字体目录下或者其它地方找到simsun.ttf 这个字体文件。 2.在ubuntu 下可以执行下面操作安装该字体： sudo mkdir /usr/share/fonts/truetype/simsun sudo cp simsun.ttf /usr/share/fonts/truetype/simsun fc-cache -f -v
改良程序的11技巧 pda158 技巧
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短永远永远不要把同一个变量用于多个不同的
300个涵盖IT各方面的免费资源（下）——工作与学习篇 shoothao 创业免费资源学习课程远程工作
工作与生产效率: A. 背景声音 Noisli:背景噪音与颜色生成器。 Noizio:环境声均衡器。 Defonic:世界上任何的声响都可混合成美丽的旋律。 Designers.mx:设计者为设计者所准备的播放列表。 Coffitivity:这里的声音就像咖啡馆里放的一样。 B. 避免注意力分散 Self Co
深入浅出RPC uule rpc
深入浅出RPC-浅出篇深入浅出RPC-深入篇 RPC Remote Procedure Call Protocol 远程过程调用协议它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发

统计项		结果
含有URL的微博数量	16（总量：5781）

【项目实战】Python实现贝叶斯算法疫情微博评论情感分析(手写算法)

1.需求分析

2.数据采集

4.数据分析过程

4.1 分词处理

5 利用贝叶斯定理情感分析

5.2 本项目中的多项式朴素贝叶斯

5.3 实现过程

6 情感倾向饼状图

你可能感兴趣的:(机器学习,python,python,朴素贝叶斯算法,机器学习,项目实战,手写算法)