阿拉丁吃米粉

贝叶斯分类器用于文本分类: Multinomial Naïve Bayes

简介

贝叶斯分类器是基于贝叶斯理论的分类器，在NLP（自然语言处理）领域有着广泛的应用，如垃圾邮件检测，个人邮件排序，文本分类，色情内容检测等等。由于贝叶斯分类器是基于贝叶斯理论的，因此使用该分类器时有一个基本假设，即：数据的各特征之间是条件独立的。

假设数据集 $D = \{d_1, d_2, ... , d_n\}$ 的特征集合为 $X = \{x_1, x_2, ... , x_m\}$ ，类别集合为 $C = \{c_1, c_2, c_k\}$ . 即对任意一条数据 $d_i$ ，均有大小为 $m$ 的一维特征向量，数据 $d_i$ 的类别为 $c_j (\le j \le k)$ . 那么 $P(x_i|C)$ 相互之间是条件独立的，即 $P(x_1, x_2, ... , x_k|C) = \prod_{i=1}^kP(x_i|C)$ .

#贝叶斯定理（Naïve Bayes Theorem）
贝叶斯定理指：对于事件A和B，它们之间的概率关系满足： $\frac{P(B|A)P(A)}{P(B)}\tag{1}$
贝叶斯定理说明，通常事件A在事件B（发生）的条件下的概率，与时间B在事件A的条件下的概率是不一样的，但两者之间有确定的关系，这个关系可以用贝叶斯定理来描述。

通常在数据分类的应用中，我们会替换上述公式的一些符号以方便描述。我们假设 $X$ 是数据的特征， $C$ 是数据的类别，则上式可以写成： $\frac{P(X|C)P(C)}{P(X)}\tag{2}$
其中 $P (C ∣ X)$ 的含义是：对于给定的一个文本，已知它的特征是 $X$ ，那么这个文本属于类别 $C$ 的概率是多少。这个值就是我们最终需要的值。

$P (C ∣ X)$ 是贝叶斯分类器要计算出的结果，我们就是通过这个概率来确定这个文本属于哪个类别。这个概率称为后验概率（posterior probability），即我们只有在知道文本的特征 $X$ 之后，才会知道这个文本属于哪个类别。

$P (C)$ 是先验概率（prior probability），表示在观察到文本的特征 $X$ 之前，我们就已经知道了类别 $C$ 概率，即这个概率跟 $X$ 完全无关。 $P (X)$ 同理。

$P (X ∣ C)$ 称为相似度（likelihood）。这个概率表示的意思是我们已经确定了一个类别 $C$ ，那么在 $C$ 中的文本出现特征值为 $X$ 的概率是多少。

在实际的应用中， $P (X ∣ C)$ ， $P (C)$ 和 $P (X)$ 都可以直接或间接获得，或者通过估计得到。

Multinomial Naïve Bayes

贝叶斯分类器有三种，分别是Multinomial Naive Bayes， Binarized Multinomial Naive Bayes以及Bernoulli Naive Bayes. 本文讲述第一种贝叶斯分类器，该分类器主要用于文本的主题分类。Multinomial Naive Bayes中会考虑单词出现的次数，即词频（term frequency）；而第二种——Binarized Multinomial Naive Bayes——不考虑词频，只考虑这个单词有没有出现，主要用于文本情绪分析。例如，一段文本提到bad这个单词，使用第二种分类器不会考虑bad出现了几次，它只关注bad这个有没有出现。

Multinomial Naïve Bayes分类器算法

假设有文本数据集 $D = \{d_1, d_2, ... , d_n\}$ ，其中 $d_i (1 \le i \le n)$ 表示第 $i$ 个文本，因此这个文本数据集一共有 $n$ 个文本。

该文本数据集 $D$ 有一个特征集 $X = \{x_1, x_2, ... , x_m\}$ ，表示对于任意一个文本 $d_i$ ，都有一个特征集 $X_i$ ，文本 $d_i$ 的特征大小为 $m$ ，即 $d_i$ 有 $m$ 个特征。这个特征可以是单词（这是最简单的情况），也可以是N-gram或自己设计的特征。本文使用单词作为特征。若使用单词，那么特征集 $X$ 就是文本数据集 $D$ 中的所有单词的集合， $x_j$ 就是第 $j$ 个单词， $m$ 就是所有单词的数量，可记为 $m = ∣ X ∣$ 。

例如有两个文本 $d_1$ 和 $d_2$
$d_1$ ：This article is about Bayes.
$d_2$ ：Thomas Bayes provided Bayes equation.
在这个例子中， $D=\{d_1, d_2\}$ ， $X=\{this, article, is, about, bayes, thomas, provided, equation\}$ ， $∣ X ∣ = 8$

根据公式(2)，要得到一段文本属于某一类的概率，需要先计算 $P (C)$ ， $P (X)$ 和 $P (X ∣ C)$ 。

应用贝叶斯分类器之前，我们通常会有training data，以上三个概率就从training data中获得。

如何计算 $P (C)$

设有类别集合 $C=\{c_1, c_2, ... , c_k\}$ ， $P (C)$ 表示取得某一个类别的概率，比如不同文本可能属于不同的话题类别，如sport, politics, science等。通常我们假设文本的话题类别归属随机，假设有 $k$ 个类别，那么取到任一个类别的概率（用频率来近似概率）就是 $\frac{1}{k}$ . 因此 $P (C)$ 的值是固定的， $\frac{1}{k}$ ， $k$ 是类别的数量，这个是事先定义好的。

这是最简单的情况，在一些应用上， $P (C)$ 的值是随不同类别的变化而变化的，或者 $c_i$ 服从某种分布，视具体情况而定。有时可以在training data中用各类的出现的频率作为 $P (C)$ 的估计值。

如何计算 $P (X)$

在本文例子中， $X = \{x_1, x_2, ... , x_m\}$ 是所有文本的单词集合， $m$ 表示单词数量。通常情况下， $P (X)$ 的值是固定，即 $P(X)=\frac{1}{m}$ （用频率来近似概率）。该值的确定是基于词袋模型（bag-of-words），即一篇文章是由若干单词组成，每个单词均是从词库中随机等概率抽取而来。像是将所有单词放到一个袋子里（bag），写文章就从这个袋子里随机抽取单词。

但是该模型的缺陷显而易见，通常写作用的单词并不是等概率抽取的。然而实际应用中这样简化问题并取得令人满意的结果。

如何计算 $P (X ∣ C)$

$P (X ∣ C)$ 表示对于指定的类别 $C$ ，在这个类别中的文本出现的特征值等于 $X$ 的概率是多少。注意到 $X$ 和 $C$ 都是集合，要确定一段文本属于哪一类，需要计算所有类别的 $P (X ∣ C)$ ，即对第 $i$ 类，计算 $P(X|c_i)$ 。如此最后才能比较文本属于哪个类别的概率最大。

而 $X$ 是单词的集合，一段文本是由若干单词组成，整个单词串连在一起才能作为这段文本的特征值向量。因此对第 $i$ 类，我们需要对每个文本计算 $P(x_1, x_2, ... , x_m|c_i)$ 。注意到前面提到贝叶斯分类器的假设是各特征变量之间条件独立，因此有 $P(x_1, x_2, ... , x_m|c_i) = \prod_{j=1}^mP(x_j|c_i) \tag{3}$

计算类别归属（ $P (C ∣ X)$ ）

如此，判断文本 $d$ 属于第 $i$ 类的概率可以写成： $\frac{P(c_i) \prod_{j=1}^mP(x_j|c_i)}{P(X)} \tag{4}$
因为 $P (X)$ 是常数项（简单情况下 $P(c_i)$ 也可以是常数项），因此上式可以简化为： $\propto P(c_i) \prod_{j=1}^mP(x_j|c_i) \tag{5}$
因为上式去掉了分母，得到的结果已不是概率，因此将等号替换为 $\propto$ （approximately proportional to）。上式含有积分项，不方便计算且在计算机中可能有溢出的危险，因此对上式右项取对数，简化为： $\propto \log P(c_i) + \sum_{j=1}^m \log P(x_j|c_i) \tag{6}$
此时公式已化至最简，但加号右边的单项 $P (x ∣ c)$ 如何计算？

$P (x ∣ c)$ 的计算以及平滑因子的引入

可以将单词 $x_j$ 在 $c_i$ 类中出现的次数转化为频率，用该频率来估计 $P(x_j|c_i)$ 。下面是个例子。
假设有以下文本：

Text	Class	Doc
Chinese Beijing Chinese	ZH	$d_1$	Training
Chinese Chinese Shanghai	ZH	$d_2$
Chinese Macao	ZH	$d_3$
Tokyo Japan Chinese	JP	$d_4$
Chinese Chinese Chinese Tokyo Japan	?	$d_5$	Test

上述例子的training data中， $X=\{Chinese, Beijing, Shanghai, Macao, Tokyo, Japan\}$ ， $C=\{ZH, JP\}$ 。
则Chinese在ZH类中出现的次数 $c o u n t (C h i n e s e, Z H) = 5$ ，在JP类中出现的次数 $c o u n t (C h i n e s e, J P) = 1$ 。类似地，有：
$c o u n t (C h i n e s e, Z H) = 5$
$c o u n t (B e i j i n g, Z H) = 1$
$c o u n t (S h a n g h a i, Z H) = 1$
$c o u n t (M a c a o, Z H) = 1$
$c o u n t (T o k y o, J P) = 1$
$c o u n t (J a p a n, J P) = 1$
$c o u n t (C h i n e s e, J P) = 1$

将上述单词出现的次数转换为频率，即除以该类别的单词数量。类别ZH的单词数量为8（重复的单词也算），JP类别的单词数量为3. 实际上我们要算的是Test数据分别属于ZH和JP的概率，因此只考虑Test出现的单词即可（忽略Beijing, Shanghai和Macao）。计算得到：
$\simeq freq(Chinese, ZH) = \frac{5}{8}$
$\simeq freq(Tokyo, ZH) = 0$
$\simeq freq(Japan, ZH) = \frac{1}{8}$
$\simeq freq(Chinese, JP) = \frac{1}{3}$
$\simeq freq(Tokyo, JP) = \frac{1}{3}$
$\simeq freq(Japan, JP) = \frac{1}{3}$
以上是计算单项 $P(x_j|c_i)$ 的简单过程。

一般地，设 $T_{cx}$ 是某个文档 $d$ 中的单词 $x$ 在 $c$ 类中出现的次数。设 $\sum_{x^+\in X}T_{cx^+}$ 是所有文档中（即 $D$ ）单词 $x^+$ 出现在 $c$ 类中的次数， $X$ 表示 $D$ 的单词集合。则上述过程的计算可用下式表示： $P(x|c)=\frac{T_{cx}}{\sum_{x^+\in X}T_{cx^+}} \tag{7}$

但注意到上式的分子分母都可能为0，如 $P (T o k y o ∣ Z H)$ 的值为0，显然0的对数无意义。因此引入平滑因子 $\alpha$ ，上式改写为： $P(x|c)=\frac{T_{cx}+\alpha}{\sum_{x^+\in X}(T_{cx^+}+\alpha)} \tag{8}$
令 $\alpha=1$ ，则有：
$P(x|c)=\frac{T_{cx}+1}{\sum_{x^+\in X}(T_{cx^+}+1)}= \frac{T_{cx}+1}{\sum_{x^+\in X}(T_{cx^+})+|X|} \tag{9}$

上式即为计算 $P (x ∣ c)$ 的最终公式。 $\alpha=1$ 称为Laplace平滑。

如此，将公式(9)带入公式(6)，即可进行文本分类。当然，需要先有training data.

#使用Python做文本情绪分类的实例
现在有1000多条已经标注好类别的tweets，根据每条tweet中包含的hashtag确定这条tweet属于哪一类。例如一条tweet中包含“#happy”，那么这条tweet就会被分类到happy的类别。

在这个例子中，所有的tweet组成了文本集合 $D=\{d_1, d_2, ... , d_n\}$ ( $n = 20000$ )。

将这些tweet分成两部分，一部分用作training data，有700条tweet，剩下的用于test data. 先看看这些tweet长什么样。

数据预处理

在对tweet分类之前，先对tweet进行了预处理。首先对每个单词做lemmalization，即将动词和名词复数转为原形，形容词加ly后缀变成的副词都转为形容词原形，这个步骤通过Python的库可以实现。因为tweet的用语十分不规范，存在很多网络语言，因此对每条tweet去掉了在英文字典中不存在的单词（其实这个步骤可以省略，不应该剔除特殊词汇。但是为了方便，我还是去掉了）。

Python的sklearn开发包

sklearn包含很多机器学习的库，multinomial Bayes位于sklearn.naive_bayes.MultinomialNB中。先看看这个**类（不是函数）**的定义：

sklearn.naive_bayes.MultinomialNB(alpha=1.0, fit_prior=True, class_prior=None)

参数alpha就是上文提到的平滑因子 $\alpha$ 。fit_prior=True指是否根据training data学习 $P (C)$ 的值，若赋值False，则 $P (C)$ 的值是固定的，即上文提到的 $P(C)=\frac{1}{k}$ ， $k$ 是类别数。class_prior指是否指定 $P (C)$ 的值。

使用方法如下。具体的使用说明可以参考这个链接。

定义一个MultinomialNB的对象

clf = MultinomialNB(alpha, fit_prior, class_prior)

输入训练样本数据

clf.fit(X_train_tf, Y_train)

预测

predicted = clf.predict(X_pre_tf)

以上的难点其实在于如何获取X_train_tf. 最后处理的结果accuracy是0.7197. 这部分的代码和数据可以参考这里。

这个例子的缺陷

这个例子中使用的tweet无论是training data还是test data都是已经标注好的数据，而标注的依据便是tweet中包含的hashtag，因此每一条tweet其实都包含了某一个emotion类别的关键字，这样可能会无形中提高分类的accuracy. 同时对文本也没有进行去除stopword等预处理，也没有计算TF-IDF。

element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
Cell Insight | 单细胞测序技术又一新发现，可用于HIV-1和Mtb共感染个体诊断尐尐呅
结核病是艾滋病合并其他疾病中导致患者死亡的主要原因。其中结核病由结核分枝杆菌（Mycobacteriumtuberculosis,Mtb）感染引起，获得性免疫缺陷综合症（艾滋病）由人免疫缺陷病毒（Humanimmunodeficiencyvirustype1,HIV-1）感染引起。国家感染性疾病临床医学研究中心/深圳市第三人民医院张国良团队携手深圳华大生命科学研究院吴靓团队，共同研究得出单细胞测序
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
每日一题——第八十九题互联网打工人no1 C语言程序设计每日一练 c语言
题目：在字符串中找到提取数字，并统计一共找到多少整数，a123xxyu23&8889，那么找到的整数为123，23，8889//思想：#include#include#includeintmain(){charstr[]="a123xxyu23&8889";intcount=0;intnum=0;//用于临时存放当前正在构建的整数。boolinNum=false;//用于标记当前是否正在读取一个整
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
PHP环境搭建详细教程好看资源平台前端 php
PHP是一个流行的服务器端脚本语言，广泛用于Web开发。为了使PHP能够在本地或服务器上运行，我们需要搭建一个合适的PHP环境。本教程将结合最新资料，介绍在不同操作系统上搭建PHP开发环境的多种方法，包括Windows、macOS和Linux系统的安装步骤，以及本地和Docker环境的配置。1.PHP环境搭建概述PHP环境的搭建主要分为以下几类：集成开发环境：例如XAMPP、WAMP、MAMP，这
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
利用Requests Toolkit轻松完成HTTP请求 nseejrukjhad http 网络协议网络 python
RequestsToolkit的力量：轻松构建HTTP请求Agent在现代软件开发中，API请求是与外部服务交互的核心。RequestsToolkit提供了一种便捷的方式，帮助开发者构建自动化的HTTP请求Agent。本文旨在详细介绍RequestsToolkit的设置、使用和潜在挑战。引言RequestsToolkit是一个强大的工具包，可用于构建执行HTTP请求的智能代理。这对于想要自动化与外
GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
MongoDB Oplog 窗口喝醉酒的小白 MongoDB 运维
在MongoDB中，oplog（操作日志）是一个特殊的日志系统，用于记录对数据库的所有写操作。oplog允许副本集成员（通常是从节点）应用主节点上已经执行的操作，从而保持数据的一致性。它是MongoDB副本集实现数据复制的基础。MongoDBOplog窗口oplog窗口是指在MongoDB副本集中，从节点可以用来同步数据的时间范围。这个窗口通常由以下因素决定：Oplog大小：oplog的大小是有限
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
番茄西红柿叶子病害分类数据集12882张11类别 futureflsl 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：12882分类类别数：11类别名称:["Bacterial_Spot_Bacteria","Early_Blight_Fungus","Healthy","Late_Blight_Water_Mold","Leaf_Mold_Fungus","Powdery
CX8836：小体积大功率升降压方案推荐（附Demo设计指南）诚芯微科技社交电子
CX8836是一颗同步四开关单向升降压控制器，在4.5V-40V宽输入电压范围内稳定工作，持续负载电流10A，能够在输入高于或低于输出电压时稳定调节输出电压，可适用于USBPD快充、车载充电器、HUB、汽车启停系统、工业PC电源等多种升降压应用场合，为大功率TYPE-CPD车载充电器提供最优解决方案。提供CX8836Demo测试、CX8836样品申请及CX8836方案开发技术支持。CX8836同升
Rust基础知识 GRKF15 rust 开发语言后端
1.Rust语言简介1.1基础语法变量声明：let关键字用于声明变量，可以指定或不指定类型，如leta=10;和letmutc=30i32;。函数定义：使用fn关键字定义函数，并指定参数类型及返回类型，如fnadd(i:i32,j:i32)->i32{i+j}。控制流：包括if、else等，控制语句后需要使用;来结束语句。1.2数据类型整数类型：i8、i16、i32、i64、i128，以及无符号的
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
直返APP是什么?直返APP是干嘛的氧惠帮朋友一起省
直返是一种电商购物模式，其核心特点是用户购买商品后可以获得直接返利。具体来说，用户在直返电商平台购买商品时，不仅可以获得商品本身的优惠，还可以获得一定的现金返利或者积分奖励。返利的金额可以提现到用户的账户余额，或者用于下次购物时抵扣。氧惠APP（带货领导者）——是与以往完全不同的抖客+淘客app！2023全新模式，我的直推也会放到你下面。主打：带货高补贴，深受各位带货团队长喜爱（每天出单带货几十万
摩托车加装车载手机充电usb方案/雅马哈USB充电方案开发诚芯微科技社交电子
长途骑行需要给手机与行车记录仪等设备供电，那么，加装USB充电器就相继在两轮电动车上应用起来了。摩托车加装usb充电方案主要应用于汽车、电动自行车、摩托车、房车、渡轮、游艇等交通工具。提供电动车USB充电器方案/摩托车加装usb充电方案/渡轮加装usb充电方案/游艇加装usb充电方案开发。摩托车加装车载手机充电usb方案、汽车游艇改装四孔面板装双USB车充点烟器5V/4A电动车USB充电器输入4.
广州会刊小程序开发公司哪家好｜开发多少钱费用｜专业外包服务红匣子实力推荐
在选择广州会刊小程序开发公司时，有几个关键因素需要考虑。首先，您应该确定自己的需求和目标，以便找到最合适的开发公司。其次，您需要考虑公司的经验和专业知识。最后，您还应该考虑公司的信誉和口碑。开发-联系电话：13642679953（微信同号）首先，您应该明确自己的需求和目标。会刊小程序是一种用于展示会议信息和日程安排的应用程序。在选择开发公司之前，您应该明确自己的需求，包括功能要求、设计风格和用户体
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Java企业面试题3 马龙强_ java
1.break和continue的作用(智*图)break：用于完全退出一个循环（如for,while）或一个switch语句。当在循环体内遇到break语句时，程序会立即跳出当前循环体，继续执行循环之后的代码。continue：用于跳过当前循环体中剩余的部分，并开始下一次循环。如果是在for循环中使用continue，则会直接进行条件判断以决定是否执行下一轮循环。2.if分支语句和switch分
Linux sh命令 fengyehongWorld Linux linux
目录一.基本语法二.选项2.1-c字符串中读取内容，并执行2.1.1基本用法2.1.2获取当前目录下失效的超链接2.2-x每个命令执行之前，将其打印出来2.3结合Here文档使用一.基本语法⏹Linux和Unix系统中用于执行shell脚本或运行命令的命令。sh[选项][脚本文件][参数...]⏹选项-c：从字符串中读取内容，并执行。-x：在每个命令执行之前，将其打印出来。-s：从标准流中读取内容
白骑士的Java教学基础篇 2.5 控制流语句白骑士所长 Java 教学 java 开发语言
欢迎继续学习Java编程的基础篇！在前面的章节中，我们了解了Java的变量、数据类型和运算符。接下来，我们将探讨Java中的控制流语句。控制流语句用于控制程序的执行顺序，使我们能够根据特定条件执行不同的代码块，或重复执行某段代码。这是编写复杂程序的基础。通过学习这一节内容，你将掌握如何使用条件语句和循环语句来编写更加灵活和高效的代码。条件语句条件语句用于根据条件的真假来执行不同的代码块。if语句‘
JavaScript 中，深拷贝（Deep Copy）和浅拷贝（Shallow Copy）跳房子的前端前端面试 javascript 开发语言 ecmascript
在JavaScript中，深拷贝（DeepCopy）和浅拷贝（ShallowCopy）是用于复制对象或数组的两种不同方法。了解它们的区别和应用场景对于避免潜在的bugs和高效地处理数据非常重要。以下是对深拷贝和浅拷贝的详细解释，包括它们的概念、用途、优缺点以及实现方式。1.浅拷贝（ShallowCopy）概念定义：浅拷贝是指创建一个新的对象或数组，其中包含了原对象或数组的基本数据类型的值和对引用数
利用python实现图片格式之间的相互转换难得北窗高卧 python 开发语言
一、概要图片一般有多种格式，常见的图片格式包括：JPEG（.jpg或.jpeg）：一种广泛使用的有损压缩格式，适用于摄影图像和网页上的图片。PNG（.png）：一种无损压缩格式，支持透明度和更好的图像质量，常用于图标、图形和需要透明背景的图片。该图片是4通道的，外加一个透明通道。如截屏GIF（.gif）：一种支持动画和透明度的格式，常用于简单的动画和图标。BMP（.bmp）：一种无损格式，存储图像
基于STM32与Qt的自动平衡机器人：从控制到人机交互的的详细设计流程极客小张 stm32 qt 机器人物联网人机交互毕业设计 c语言
一、项目概述目标和用途本项目旨在开发一款基于STM32控制的自动平衡机器人，结合步进电机和陀螺仪传感器，实现对平衡机器人的精确控制。该机器人可以用于教育、科研、娱乐等多个领域，帮助用户了解自动控制、机器人运动学等相关知识。技术栈关键词STM32单片机步进电机陀螺仪传感器AD采集电路Qt人机界面实时数据监控二、系统架构系统架构设计本项目的系统架构设计包括以下主要组件：控制单元:STM32单片机传感器
高考后该不该给孩子买电脑，什么情况能买？什么情况不能买？寻求改变
我知道家长们很担心，怕买了电脑小孩沉迷游戏，耽误了学业，也不利于身体健康。对于准大学生来说，基本上在18岁左右，也不算小了，但在很多父母眼里，依旧是个小孩子。数据显示，这种情况是有发生的，大学生约70%的电脑主要被用于玩网络游戏，如果没有养成一个用良好的习惯，对孩子影响是非常大的。我总结为三买，三不买。最近有看到群里很多家长再问，小孩上大学该不该给他买电脑，要买和不买两种观点的家长都有，那么哪种情
Python多线程实现大规模数据集高效转移 sand&wich 网络 python 服务器
背景在处理大规模数据集时，通常需要在不同存储设备、不同服务器或文件夹之间高效地传输数据。如果采用单线程传输方式，当数据量非常大时，整个过程会非常耗时。因此，通过多线程并行处理可以大幅提升数据传输效率。本文将分享一个基于Python多线程实现的高效数据传输工具，通过遍历源文件夹中的所有文件，将它们移动到目标文件夹。工具和库这个数据集转移工具主要依赖于以下Python标准库：os：用于文件系统操作，如
linux系统服务器下jsp传参数乱码 3213213333332132 java jsp linux windows xml
在一次解决乱码问题中，发现jsp在windows下用js原生的方法进行编码没有问题，但是到了linux下就有问题， escape,encodeURI,encodeURIComponent等都解决不了问题但是我想了下既然原生的方法不行，我用el标签的方式对中文参数进行加密解密总该可以吧。于是用了java的java.net.URLDecoder,结果还是乱码，最后在绝望之际，用了下面的方法解决了
Spring 注解区别以及应用 BlueSkator spring
1. @Autowired @Autowired是根据类型进行自动装配的。如果当Spring上下文中存在不止一个UserDao类型的bean，或者不存在UserDao类型的bean，会抛出 BeanCreationException异常，这时可以通过在该属性上再加一个@Qualifier注解来声明唯一的id解决问题。 2. @Qualifier 当spring中存在至少一个匹
printf和sprintf的应用 dcj3sjt126com PHP sprintf printf
<?php printf('b: %b c: %c d: %d <bf>f: %f', 80,80, 80, 80); echo ' '; printf('%0.2f %+d %0.2f ', 8, 8, 1235.456); printf('th
config.getInitParameter 171815164 parameter
web.xml <servlet> <servlet-name>servlet1</servlet-name> <jsp-file>/index.jsp</jsp-file> <init-param> <param-name>str</param-name>
Ant标签详解--基础操作 g21121 ant
Ant的一些核心概念： build.xml：构建文件是以XML 文件来描述的，默认构建文件名为build.xml。 project：每个构建文
[简单]代码片段_数据合并 53873039oycg 代码
合并规则:删除家长phone为空的记录,若一个家长对应多个孩子,保留一条家长记录,家长id修改为phone,对应关系也要修改。代码如下:
java 通信技术云端月影 Java 远程通信技术
在分布式服务框架中，一个最基础的问题就是远程服务是怎么通讯的，在Java领域中有很多可实现远程通讯的技术，例如：RMI、MINA、ESB、Burlap、Hessian、SOAP、EJB和JMS等，这些名词之间到底是些什么关系呢，它们背后到底是基于什么原理实现的呢，了解这些是实现分布式服务框架的基础知识，而如果在性能上有高的要求的话，那深入了解这些技术背后的机制就是必须的了，在这篇blog中我们将来
string与StringBuilder 性能差距到底有多大 aijuans
之前也看过一些对string与StringBuilder的性能分析，总感觉这个应该对整体性能不会产生多大的影响，所以就一直没有关注这块！由于学程序初期最先接触的string拼接，所以就一直没改变过自己的习惯！
今天碰到 java.util.ConcurrentModificationException 异常 antonyup_2006 java 多线程工作 IBM
今天改bug，其中有个实现是要对map进行循环，然后有删除操作，代码如下： Iterator<ListItem> iter = ItemMap.keySet.iterator(); while(iter.hasNext()){ ListItem it = iter.next(); //...一些逻辑操作 ItemMap.remove(it); } 结果运行报Con
PL/SQL的类型和JDBC操作数据库百合不是茶 PL/SQL表标量类型游标 PL/SQL记录
PL/SQL的标量类型: 字符,数字,时间,布尔,%type五中类型的 --标量：数据库中预定义类型的变量 --定义一个变长字符串 v_ename varchar2(10); --定义一个小数,范围 -9999.99~9999.99 v_sal number(6,2); --定义一个小数并给一个初始值为5.4 :=是pl/sql的赋值号
Mockito：一个强大的用于 Java 开发的模拟测试框架实例 bijian1013 mockito 单元测试
Mockito框架： Mockito是一个基于MIT协议的开源java测试框架。 Mockito区别于其他模拟框架的地方主要是允许开发者在没有建立“预期”时验证被测系统的行为。对于mock对象的一个评价是测试系统的测
精通Oracle10编程SQL(10)处理例外 bijian1013 oracle 数据库 plsql
/* *处理例外 */ --例外简介 --处理例外-传递例外 declare v_ename emp.ename%TYPE; begin SELECT ename INTO v_ename FROM emp where empno=&no; dbms_output.put_line('雇员名：'||v_ename); exceptio
【Java】Java执行远程机器上Linux命令 bit1129 linux命令
Java使用ethz通过ssh2执行远程机器Linux上命令，封装定义Linux机器的环境信息 package com.tom; import java.io.File; public class Env { private String hostaddr; //Linux机器的IP地址 private Integer po
java通信之Socket通信基础白糖_ java socket 网络协议
正处于网络环境下的两个程序，它们之间通过一个交互的连接来实现数据通信。每一个连接的通信端叫做一个Socket。一个完整的Socket通信程序应该包含以下几个步骤： ①创建Socket； ②打开连接到Socket的输入输出流； ④按照一定的协议对Socket进行读写操作； ④关闭Socket。 Socket通信分两部分：服务器端和客户端。服务器端必须优先启动，然后等待soc
angular.bind boyitech AngularJS angular.bind AngularJS API bind
angular.bind 描述：上下文，函数以及参数动态绑定，返回值为绑定之后的函数. 其中args是可选的动态参数，self在fn中使用this调用。使用方法： angular.bind(se
java-13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 bylijinnan java
import java.util.ArrayList; import java.util.List; public class KickOutBadGuys { /** * 题目：13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 * Maybe you can find out
Redis.conf配置文件及相关项说明（自查备用） Kai_Ge redis
Redis.conf配置文件及相关项说明 # Redis configuration file example # Note on units: when memory size is needed, it is possible to specifiy # it in the usual form of 1k 5GB 4M and so forth: #
[强人工智能]实现大规模拓扑分析是实现强人工智能的前奏 comsci 人工智能
真不好意思,各位朋友...博客再次更新... 节点数量太少,网络的分析和处理能力肯定不足,在面对机器人控制的需求方面,显得力不从心.... 但是,节点数太多,对拓扑数据处理的要求又很高,设计目标也很高,实现起来难度颇大...
记录一些常用的函数 dai_lm java
public static String convertInputStreamToString(InputStream is) { StringBuilder result = new StringBuilder(); if (is != null) try { InputStreamReader inputReader = new InputStreamRead
Hadoop中小规模集群的并行计算缺陷 datamachine mapreduce hadoop 并行计算
注：写这篇文章的初衷是因为Hadoop炒得有点太热，很多用户现有数据规模并不适用于Hadoop，但迫于扩容压力和去IOE（Hadoop的廉价扩展的确非常有吸引力）而尝试。尝试永远是件正确的事儿，但有时候不用太突进，可以调优或调需求，发挥现有系统的最大效用为上策。 -----------------------------------------------------------------
小学4年级英语单词背诵第二课 dcj3sjt126com english word
egg 蛋 twenty 二十 any 任何 well 健康的，好 twelve 十二 farm 农场 every 每一个 back 向后，回 fast 快速的 whose 谁的 much 许多 flower 花 watch 手表 very 非常，很 sport 运动 Chinese 中国的
自己实践了github的webhooks, linux上面的权限需要注意 dcj3sjt126com github webhook
环境, 阿里云服务器 1. 本地创建项目, push到github服务器上面 2. 生成www用户的密钥 sudo -u www ssh-keygen -t rsa -C "[email protected]" 3. 将密钥添加到github帐号的SSH_KEYS里面 3. 用www用户执行克隆, 源使
Java冒泡排序蕃薯耀冒泡排序 Java冒泡排序 Java排序
冒泡排序 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 10:40:14 星期二 http://fanshuyao.iteye.com/
Excle读取数据转换为实体List【基于apache-poi】 hanqunfeng apache
1.依赖apache-poi 2.支持xls和xlsx 3.支持按属性名称绑定数据值 4.支持从指定行、列开始读取 5.支持同时读取多个sheet 6.具体使用方式参见org.cpframework.utils.excelreader.CP_ExcelReaderUtilTest.java 比如： Str
3个处于草稿阶段的Javascript API介绍 jackyrong JavaScript
原文： http://www.sitepoint.com/3-new-javascript-apis-may-want-follow/?utm_source=html5weekly&utm_medium=email 本文中，介绍3个仍然处于草稿阶段，但应该值得关注的Javascript API. 1) Web Alarm API &
6个创建Web应用程序的高效PHP框架 lampcy Web 框架 PHP
以下是创建Web应用程序的PHP框架，有coder bay网站整理推荐： 1. CakePHP CakePHP是一个PHP快速开发框架，它提供了一个用于开发、维护和部署应用程序的可扩展体系。CakePHP使用了众所周知的设计模式，如MVC和ORM，降低了开发成本，并减少了开发人员写代码的工作量。 2. CodeIgniter CodeIgniter是一个非常小且功能强大的PHP框架，适合需
评"救市后中国股市新乱象泛起"谣言 nannan408
首先来看百度百家一位易姓作者的新闻：三个多星期来股市持续暴跌，跌得投资者及上市公司都处于极度的恐慌和焦虑中，都要寻找自保及规避风险的方式。面对股市之危机，政府突然进入市场救市，希望以此来重建市场信心，以此来扭转股市持续暴跌的预期。而政府进入市场后，由于市场运作方式发生了巨大变化，投资者及上市公司为了自保及为了应对这种变化，中国股市新的乱象也自然产生。首先，中国股市这两天
页面全屏遮罩的实现方式 Rainbow702 html css 遮罩 mask
之前做了一个页面，在点击了某个按钮之后，要求页面出现一个全屏遮罩，一开始使用了position:absolute来实现的。当时因为画面大小是固定的，不可以resize的，所以，没有发现问题。最近用了同样的做法做了一个遮罩，但是画面是可以进行resize的，所以就发现了一个问题，当画面被reisze到浏览器出现了滚动条的时候，就发现，用absolute 的做法是有问题的。后来改成fixed定位就
关于angularjs的点滴 tntxia AngularJS
angular是一个新兴的JS框架，和以往的框架不同的事，Angularjs更注重于js的建模，管理，同时也提供大量的组件帮助用户组建商业化程序，是一种值得研究的JS框架。 Angularjs使我们可以使用MVC的模式来写JS。Angularjs现在由谷歌来维护。这里我们来简单的探讨一下它的应用。首先使用Angularjs我
Nutz--->>反复新建ioc容器的后果 xiaoxiao1992428 DAO mvc IOC nutz
问题： public class DaoZ { public static Dao dao() { // 每当需要使用dao的时候就取一次 Ioc ioc = new NutIoc(new JsonLoader("dao.js")); return ioc.get(

贝叶斯分类器用于文本分类: Multinomial Naïve Bayes

简介

Multinomial Naïve Bayes

Multinomial Naïve Bayes分类器算法

如何计算 P ( C ) P(C) P(C)

如何计算 P ( X ) P(X) P(X)

如何计算 P ( X ∣ C ) P(X|C) P(X∣C)

计算类别归属（ P ( C ∣ X ) P(C|X) P(C∣X)）

P ( x ∣ c ) P(x|c) P(x∣c)的计算以及平滑因子的引入