秋无之地

朴素贝叶斯分类（下）：数据挖掘十大算法之一

⭐️⭐️⭐️⭐️⭐️欢迎来到我的博客⭐️⭐️⭐️⭐️⭐️
作者：秋无之地

简介：CSDN爬虫、后端、大数据领域创作者。目前从事python爬虫、后端和大数据等相关工作，主要擅长领域有：爬虫、后端、大数据开发、数据分析等。

欢迎小伙伴们点赞、收藏⭐️、留言、关注，关注必回关

上一篇文章已经跟大家介绍过《朴素贝叶斯分类（上）：数据挖掘十大算法之一》，相信大家对朴素贝叶斯分类（上）都有一个基本的认识。下面我讲一下：朴素贝叶斯分类（下）：数据挖掘十大算法之一。

朴素贝叶斯分类最适合的场景就是文本分类、情感分析和垃圾邮件识别。其中情感分析和垃圾邮件识别都是通过文本来进行判断。从这里你能看出来，这三个场景本质上都是文本分类，这也是朴素贝叶斯最擅长的地方。所以朴素贝叶斯也常用于自然语言处理 NLP 的工具。

今天我带你一起使用朴素贝叶斯做下文档分类的项目，最重要的工具就是 sklearn 这个机器学习神器。

一、sklearn 机器学习包

sklearn 的全称叫 Scikit-learn，它给我们提供了 3 个朴素贝叶斯分类算法，分别是高斯朴素贝叶斯（GaussianNB）、多项式朴素贝叶斯（MultinomialNB）和伯努利朴素贝叶斯（BernoulliNB）。

这三种算法适合应用在不同的场景下，我们应该根据特征变量的不同选择不同的算法：

高斯朴素贝叶斯：特征变量是连续变量，符合高斯分布，比如说人的身高，物体的长度。

多项式朴素贝叶斯：特征变量是离散变量，符合多项分布，在文档分类中特征变量体现在一个单词出现的次数，或者是单词的 TF-IDF 值等。

伯努利朴素贝叶斯：特征变量是布尔变量，符合 0/1 分布，在文档分类中特征是单词是否出现。

伯努利朴素贝叶斯是以文件为粒度，如果该单词在某文件中出现了即为 1，否则为 0。而多项式朴素贝叶斯是以单词为粒度，会计算在某个文件中的具体次数。而高斯朴素贝叶斯适合处理特征变量是连续变量，且符合正态分布（高斯分布）的情况。比如身高、体重这种自然界的现象就比较适合用高斯朴素贝叶斯来处理。而文本分类是使用多项式朴素贝叶斯或者伯努利朴素贝叶斯。

二、什么是 TF-IDF 值呢？

我在多项式朴素贝叶斯中提到了“词的 TF-IDF 值”，如何理解这个概念呢？

TF-IDF 是一个统计方法，用来评估某个词语对于一个文件集或文档库中的其中一份文件的重要程度。

TF-IDF 实际上是两个词组 Term Frequency 和 Inverse Document Frequency 的总称，两者缩写为 TF 和 IDF，分别代表了词频和逆向文档频率。

词频 TF 计算了一个单词在文档中出现的次数，它认为一个单词的重要性和它在文档中出现的次数呈正比。

逆向文档频率 IDF，是指一个单词在文档中的区分度。它认为一个单词出现在的文档数越少，就越能通过这个单词把该文档和其他文档区分开。IDF 越大就代表该单词的区分度越大。

所以 TF-IDF 实际上是词频 TF 和逆向文档频率 IDF 的乘积。这样我们倾向于找到 TF 和 IDF 取值都高的单词作为区分，即这个单词在一个文档中出现的次数多，同时又很少出现在其他文档中。这样的单词适合用于分类。

三、TF-IDF 如何计算

首先我们看下词频 TF 和逆向文档概率 IDF 的公式。

为什么 IDF 的分母中，单词出现的文档数要加 1 呢？因为有些单词可能不会存在文档中，为了避免分母为 0，统一给单词出现的文档数都加 1。

TF-IDF=TF*IDF

你可以看到，TF-IDF 值就是 TF 与 IDF 的乘积, 这样可以更准确地对文档进行分类。比如“我”这样的高频单词，虽然 TF 词频高，但是 IDF 值很低，整体的 TF-IDF 也不高。

我在这里举个例子。假设一个文件夹里一共有 10 篇文档，其中一篇文档有 1000 个单词，“this”这个单词出现 20 次，“bayes”出现了 5 次。“this”在所有文档中均出现过，而“bayes”只在 2 篇文档中出现过。我们来计算一下这两个词语的 TF-IDF 值。

针对“this”，计算 TF-IDF 值：

所以 TF-IDF=0.02*(-0.0414)=-8.28e-4。

针对“bayes”，计算 TF-IDF 值：

TF-IDF=0.005*0.5229=2.61e-3。

很明显“bayes”的 TF-IDF 值要大于“this”的 TF-IDF 值。这就说明用“bayes”这个单词做区分比单词“this”要好。

如何求 TF-IDF

在 sklearn 中我们直接使用 TfidfVectorizer 类，它可以帮我们计算单词 TF-IDF 向量的值。在这个类中，取 sklearn 计算的对数 log 时，底数是 e，不是 10。

下面我来讲下如何创建 TfidfVectorizer 类。

四、TfidfVectorizer 类的创建

创建 TfidfVectorizer 的方法是：

TfidfVectorizer(stop_words=stop_words, token_pattern=token_pattern)

我们在创建的时候，有两个构造参数，可以自定义停用词 stop_words 和规律规则 token_pattern。需要注意的是传递的数据结构，停用词 stop_words 是一个列表 List 类型，而过滤规则 token_pattern 是正则表达式。

什么是停用词？停用词就是在分类中没有用的词，这些词一般词频 TF 高，但是 IDF 很低，起不到分类的作用。为了节省空间和计算时间，我们把这些词作为停用词 stop words，告诉机器这些词不需要帮我计算。

当我们创建好 TF-IDF 向量类型时，可以用 fit_transform 帮我们计算，返回给我们文本矩阵，该矩阵表示了每个单词在每个文档中的 TF-IDF 值。

在我们进行 fit_transform 拟合模型后，我们可以得到更多的 TF-IDF 向量属性，比如，我们可以得到词汇的对应关系（字典类型）和向量的 IDF 值，当然也可以获取设置的停用词 stop_words。

举个例子，假设我们有 4 个文档：

文档 1：this is the bayes document；
文档 2：this is the second second document；
文档 3：and the third one；
文档 4：is this the document。

现在想要计算文档里都有哪些单词，这些单词在不同文档中的 TF-IDF 值是多少呢？

首先我们创建 TfidfVectorizer 类：

from sklearn.feature_extraction.text import TfidfVectorizer
tfidf_vec = TfidfVectorizer()

然后我们创建 4 个文档的列表 documents，并让创建好的 tfidf_vec 对 documents 进行拟合，得到 TF-IDF 矩阵：

documents = [
    'this is the bayes document',
    'this is the second second document',
    'and the third one',
    'is this the document'
]
tfidf_matrix = tfidf_vec.fit_transform(documents)

输出文档中所有不重复的词：

print('不重复的词:', tfidf_vec.get_feature_names())

运行结果

不重复的词: ['and', 'bayes', 'document', 'is', 'one', 'second', 'the', 'third', 'this']

输出每个单词对应的 id 值：

print('每个单词的ID:', tfidf_vec.vocabulary_)

运行结果

每个单词的ID: {'this': 8, 'is': 3, 'the': 6, 'bayes': 1, 'document': 2, 'second': 5, 'and': 0, 'third': 7, 'one': 4}

输出每个单词在每个文档中的 TF-IDF 值，向量里的顺序是按照词语的 id 顺序来的：

print('每个单词的tfidf值:', tfidf_matrix.toarray())

运行结果：

每个单词的tfidf值: [[0.         0.63314609 0.40412895 0.40412895 0.         0.
  0.33040189 0.         0.40412895]
 [0.         0.         0.27230147 0.27230147 0.         0.85322574
  0.22262429 0.         0.27230147]
 [0.55280532 0.         0.         0.         0.55280532 0.
  0.28847675 0.55280532 0.        ]
 [0.         0.         0.52210862 0.52210862 0.         0.
  0.42685801 0.         0.52210862]]

五、如何对文档进行分类

如果我们要对文档进行分类，有两个重要的阶段：

基于分词的数据准备，包括分词、单词权重计算、去掉停用词；
应用朴素贝叶斯分类进行分类，首先通过训练集得到朴素贝叶斯分类器，然后将分类器应用于测试集，并与实际结果做对比，最终得到测试集的分类准确率。

模块 1：对文档进行分词

在准备阶段里，最重要的就是分词。那么如果给文档进行分词呢？英文文档和中文文档所使用的分词工具不同。

在英文文档中，最常用的是 NTLK 包。NTLK 包中包含了英文的停用词 stop words、分词和标注方法。

import nltk
word_list = nltk.word_tokenize(text) #分词
nltk.pos_tag(word_list) #标注单词的词性

在中文文档中，最常用的是 jieba 包。jieba 包中包含了中文的停用词 stop words 和分词方法。

import jieba
word_list = jieba.cut (text) #中文分词

模块 2：加载停用词表

这个阶段就是生成分类器，主要工作是计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率。

stop_words = [line.strip().decode('utf-8') for line in io.open('stop_words.txt').readlines()]

模块 3：计算单词的权重

这里我们用到 sklearn 里的 TfidfVectorizer 类，上面我们介绍过它使用的方法。

直接创建 TfidfVectorizer 类，然后使用 fit_transform 方法进行拟合，得到 TF-IDF 特征空间 features，你可以理解为选出来的分词就是特征。我们计算这些特征在文档上的特征向量，得到特征空间 features。

tf = TfidfVectorizer(stop_words=stop_words, max_df=0.5)
features = tf.fit_transform(train_contents)

这里 max_df 参数用来描述单词在文档中的最高出现率。假设 max_df=0.5，代表一个单词在 50% 的文档中都出现过了，那么它只携带了非常少的信息，因此就不作为分词统计。

一般很少设置 min_df，因为 min_df 通常都会很小。

模块 4：生成朴素贝叶斯分类器

我们将特征训练集的特征空间 train_features，以及训练集对应的分类 train_labels 传递给贝叶斯分类器 clf，它会自动生成一个符合特征空间和对应分类的分类器。

这里我们采用的是多项式贝叶斯分类器，其中 alpha 为平滑参数。为什么要使用平滑呢？因为如果一个单词在训练样本中没有出现，这个单词的概率就会被计算为 0。但训练集样本只是整体的抽样情况，我们不能因为一个事件没有观察到，就认为整个事件的概率为 0。为了解决这个问题，我们需要做平滑处理。

当 alpha=1 时，使用的是 Laplace 平滑。Laplace 平滑就是采用加 1 的方式，来统计没有出现过的单词的概率。这样当训练样本很大的时候，加 1 得到的概率变化可以忽略不计，也同时避免了零概率的问题。

当 0

# 多项式贝叶斯分类器
from sklearn.naive_bayes import MultinomialNB  
clf = MultinomialNB(alpha=0.001).fit(train_features, train_labels)

模块 5：使用生成的分类器做预测

首先我们需要得到测试集的特征矩阵。

方法是用训练集的分词创建一个 TfidfVectorizer 类，使用同样的 stop_words 和 max_df，然后用这个 TfidfVectorizer 类对测试集的内容进行 fit_transform 拟合，得到测试集的特征矩阵 test_features。

test_tf = TfidfVectorizer(stop_words=stop_words, max_df=0.5, vocabulary=train_vocabulary)
test_features=test_tf.fit_transform(test_contents)

然后我们用训练好的分类器对新数据做预测。

方法是使用 predict 函数，传入测试集的特征矩阵 test_features，得到分类结果 predicted_labels。predict 函数做的工作就是求解所有后验概率并找出最大的那个。

predicted_labels=clf.predict(test_features)

模块 6：计算准确率

计算准确率实际上是对分类模型的评估。我们可以调用 sklearn 中的 metrics 包，在 metrics 中提供了 accuracy_score 函数，方便我们对实际结果和预测的结果做对比，给出模型的准确率。

使用方法如下：

from sklearn import metrics
print metrics.accuracy_score(test_labels, predicted_labels)

六、总结

从数据挖掘的流程来看，一般包括了获取数据、数据清洗、模型训练、模型评估和模型部署这几个过程。

sklearn 中包含了大量的数据挖掘算法，比如三种朴素贝叶斯算法，我们只需要了解不同算法的适用条件，以及创建时所需的参数，就可以用模型帮我们进行训练。在模型评估中，sklearn 提供了 metrics 包，帮我们对预测结果与实际结果进行评估。

在文档分类的项目中，我们针对文档的特点，给出了基于分词的准备流程。一般来说 NTLK 包适用于英文文档，而 jieba 适用于中文文档。我们可以根据文档选择不同的包，对文档提取分词。这些分词就是贝叶斯分类中最重要的特征属性。基于这些分词，我们得到分词的权重，即特征矩阵。

通过特征矩阵与分类结果，我们就可以创建出朴素贝叶斯分类器，然后用分类器进行预测，最后预测结果与实际结果做对比即可以得到分类器在测试集上的准确率。

版权声明

本文章版权归作者所有，未经作者允许禁止任何转载、采集，作者保留一切追究的权利。

目标检测入门教程：使用Python实现目标检测算法晨曦之光，优美芝麻目标检测 python 算法机器学习-深度学习
目标检测是计算机视觉领域中的重要任务，它旨在识别和定位图像或视频中的特定对象。本教程将介绍如何使用Python编程语言实现目标检测算法。我们将使用一种广泛应用的目标检测算法——基于深度学习的单阶段检测器YOLO（YouOnlyLookOnce）的最新版本YOLOv4作为示例。在开始之前，请确保您已经安装了Python和以下必要的库：NumPy、OpenCV和PyTorch。您可以使用pip命令来安
基于Transformer的多通道肌电信号序列分类咖啡百怪 transformer 深度学习人工智能
表面肌电信号(sEMG)为十分重要的人体感官信号，不同的动作和状态对应不同的肌电信号，利用肌电信号的表征能力，我们可以实现对NAO机器人的控制。本项目基于Transformer实现对表面肌电信号的分类，数据使用excel进行保存，使用Pytorch架构建立模型并训练，利用基于Paramiko库的SSH连接来实现对NAO机器人的远程控制。在这里贴上该项目的github仓库连接，大家用得到的可以点个星
「架构师」001计算机组成与体系结构吴维炜 AIGC架构设计师计算机组成计算机体系结构架构师架构师计算机组成与体系
文章目录前言一、计算机结构1.1计算机组成结构1.2CPU组成1.3冯诺依曼结构与哈佛结构二、存储结构2.1层次化存储结构2.2Cache2.3主存编址计算（计算）2.4磁盘基本结构与存取过程（计算）2.5磁盘优化分布存储（计算）2.6磁盘移臂调度算法（计算）2.7单缓冲区和双缓冲区读取三、数据传输控制方式四、总线五、CISC与RISC六、流水线七、校验码八、嵌入式前言本文主要介绍计算机组成与体系
【2024年华为OD机试】(B卷,100分)- 热点网站统计（Java & JS & Python&C/C++）妄北y 华为od java javascript 矩阵 c语言 python
一、问题描述题目描述企业路由器的统计页面需要动态统计公司访问最多的网页URL的TopN。设计一个算法，能够高效动态统计TopN的页面。输入描述每一行都是一个URL或一个数字：如果是URL，代表一段时间内的网页访问。如果是数字N，代表本次需要输出的TopN个URL。输入约束：总访问网页数量小于5000个，单网页访问次数小于65535次。网页URL仅由字母、数字和点分隔符组成，且长度小于等于127字节
C++，STL 简介：历史、组成、优势智驾 C/C++c++开发语言 STL
文章目录引言一、STL的历史STL的核心组成三、STL的核心优势四、结语进一步学习资源：引言C++是一门强大且灵活的编程语言，但其真正的魅力之一在于其标准库——尤其是标准模板库（StandardTemplateLibrary,STL）。STL提供了一系列高效的数据结构和算法，极大地简化了开发者的工作。无论是处理复杂的数据操作，还是优化代码性能，STL都已成为C++开发中不可或缺的工具。本文将带您了
三傻排序的比较（选择，冒泡，插入）某个默默无闻奋斗的人算法 java 数据结构
在学习排序算法时，选择排序、冒泡排序和插入排序是最常见的基础排序算法。但是，尽管这些算法看起来非常相似，它们在实际应用中的效率和性能却有所不同。本文将详细比较这三种排序算法的时间复杂度、空间复杂度。比较总结排序算法时间复杂度（最坏/平均/最好）空间复杂度稳定性总结选择排序O(n^2)/O(n^2)/O(n^2)O(1)不稳定选择排序就像每次去找最小的苹果，把它拿过来放到最前面。比较次数多，但并不保
基于Matlab的秃鹰算法求解最优目标问题代码编织匠人算法 matlab 开发语言 Matlab
基于Matlab的秃鹰算法求解最优目标问题秃鹰算法是一种基于仿生学原理的优化算法，灵感来源于秃鹰在捕食过程中的搜索策略。该算法通过模拟秃鹰的捕食行为，寻找最优解决方案。在本文中，我们将使用Matlab实现秃鹰算法，并利用该算法解决一个最优目标问题。首先，让我们定义要解决的最优目标问题。假设我们有一个函数f(x)，其中x是一个向量，表示优化问题的变量。我们的目标是找到使函数f(x)取得最小值的x值。
【论文复现】一种改进哈里斯鹰优化算法用于连续和离散优化问题小O的算法实验室智能算法智能算法改进论文复现算法智能算法应用论文复现
目录1.摘要2.哈里斯鹰算法HHO原理3.改进策略4.结果展示5.参考文献6.代码获取1.摘要哈里斯鹰优化（HHO）是一种基于种群的元启发式优化算法，已被广泛应用于各种测试函数和实际问题。本文提出了一种改进的HHO算法，旨在通过简化算法结构并改进随机参数的确定方式，来提升算法性能。改进分为三个阶段：1.重新设计了确定随机参数的方法；2.更新了产生新解的策略；3.将决策机制从六步简化为四步。2.哈里
【智能算法】麻雀搜索算法（SSA）原理及实现小O的算法实验室智能算法算法
目录1.背景2.算法原理2.1算法思想2.2算法过程3.代码实现4.参考文献1.背景2020年，Xue等人受麻雀觅食行为和逃避觅食者自然行为启发，提出了麻雀搜索算法(SparrowSearchAlgorithm,SSA)。2.算法原理2.1算法思想自然界中麻雀主要有觅食和反觅食两种行为：觅食：麻雀中分为探索者和追随者，能够寻找较好食物的麻雀（适应度函数较高）为探索者，其余麻雀为追随者受到探索者方向
【智能算法】人工蜂鸟算法（AHA)原理及实现小O的算法实验室智能算法算法智能算法
目录1.背景2.算法原理2.1算法思想2.2算法过程3.代码实现4.参考文献1.背景2021年，Zhao等人受到蜂鸟飞行和捕食行为启发，提出了人工蜂鸟算法(ArtificialHummingbirdAgorithm,AHA)。2.算法原理2.1算法思想AHA算法是一种基于蜂鸟智能行为的生物启发优化算法，旨在解决优化问题。其主要思想包括：食物源模拟：将问题的解空间表示为食物源，每个食物源对应一个解向
【单细胞第二节：单细胞示例数据分析-GSE218208】遗落凡尘的萤火-生信小白单细胞分析数据分析 mysql 数据库
GSE2182081.创建Seurat对象#untar(“GSE218208_RAW.tar”)rm(list=ls())a=data.table::fread("GSM6736629_10x-PBMC-1_ds0.1974_CountMatrix.tsv.gz",data.table=F)a[1:4,1:4]library(tidyverse)a$`alias:gene`=str_split(a
单细胞-第五节多样本数据分析,打分R包AUCell 遗落凡尘的萤火-生信小白单细胞分析数据分析 r语言 windows
文件在单细胞\5_GC_py\1_single_cell\3.AUCell.Rmd1.基因rm(list=ls())load("g.Rdata")2.AUCellhttps://www.ncbi.nlm.nih.gov/pmc/articles/PMC9897923IF:NANANA用这个文章里的方法，将单细胞亚群的marker基因与ros相关基因取交集，用作AUCell的基因集Theinters
大数据组件ClickHouse介绍（场景、优劣势、性能）坚持是一种态度大数据开发 ClickHouse 大数据 clickhouse 数据库列式数据库
大数据组件ClickHouse介绍简介使用场景优势与劣势优势劣势性能单个查询吞吐量处理短查询的延时时间处理大量短查询数据写入性能查询性能简介clickhouse是一个高性能的列式存储分析数据库管理系统，由俄罗斯搜索引擎公司yandex开发。clickhouse具有以下特点高性能：clickhouse优化了查询和数据压缩算法，支持多维度数据分析和快速聚合查询。分布式：clickhouse采用共享无状
MySQL系列之(一)---MySQL使用方法总结(不断更新) Frodo先生 MySQL 不断更新系列
MySQL的使用方法总结在这里先标注上个人认为其他朋友总结的最好的MySQL的学习笔记:这个网站是一大佬博客,名字叫格物,特别值得学习,还有资料可以学习一千行MySQL学习笔记MySQL复习笔记(实例全)1.数据库的介绍数据库就是存储和管理数据的仓库，数据按照一定的格式进行存储，用户可以对数据库中的数据进行增加、修改、删除、查询等操作。2.数据库的分类关系型数据库非关系型数据库关系型数据库:是指采
（一）单细胞数据分析——单细胞数据预处理 Kevin丶大牛单细胞数据分析数据分析数据挖掘 r语言
由于毕业设计是单细胞数据的处理，所以把整个过程所用到的方法进行一个整理，这是第一个部分，对得到的单细胞数据进行质控、降维、聚类等预处理。下面开始：第一步：导入R包（部分R包可能用不到，因为做课题的时候需要就全部导入了，无伤大雅！）library(scibet)library(Seurat)library(scater)library(scran)library(dplyr)library(Matr
再写最长上升子序列（简单dp）计信金边罗算法 c++数据结构
给定一个长度为的数列，求数值严格单调递增的子序列的长度最长是多少。输入格式第一行包含整数。第二行包含个整数，表示完整序列。输出格式输出一个整数，表示最大长度。数据范围1≤≤1000，−109≤数列中的数≤109输入样例：73121856输出样例：4难度：简单时/空限制：1s/64MB总通过数：100525总尝试数：154358来源：模板题AcWing算法标签#includeusingnamespa
python资本市场财务数据分析_Python对股票财务数据进行可视化分析 weixin_39834984
对股票财务数据进行分析是非常必要，但因股票数据量很大，单凭浏览网页或在软件客户端查看是非常浪费精力的一件事，通过Python进行网页数据提取，将财务数据图表化会更加直观。以下代码在Python3.6环境下通过：注：使用注意，将此代码保存为一个文本文件扩展名为.py，在这个文件同目录下建立二个子目录：数据-分析、数据-下载，也可以更改代码中的路径，否则运行时会报错。importmatplotlib.
MySQL实战教程：从小白到大神的进阶之路！奔跑吧邓邓子项目实战 mysql 数据库
目录一、MySQL概述1、MySQL简介1.1MySQL的历史背景1.2MySQL的特点1.3MySQL的应用场景1.4MySQL的版本2、MySQL发展历程2.1MySQL的起源2.2MySQL的早期发展2.3MySQL的成熟与普及2.4MySQL的商业化与收购2.5MySQL的持续创新3、MySQL应用场景3.1Web应用程序3.2企业级应用3.3大数据分析3.4移动应用3.5云计算3.6物联
第十七题：电话号码的字母组合冰魄雕狼 leetcode 算法 leetcode c语言 python java 数据结构
题目描述给定一个仅包含数字2-9的字符串，返回所有可能的由它组成的字母组合。你可以假设输入字符串至少包含一个数字，并且不超过3位数字。实现思路使用哈希表或数组存储每个数字对应的字符，然后通过递归或迭代的方式生成所有可能的组合。如果字符串长度为n，则可以看作是n层循环，每层循环可以选择对应数字的所有字符之一。算法实现C语言实现#include#include#includevoidbacktrack
书生浦语第五期晴斋1216 语言模型
基础作业完成以下任务，并将实现过程记录截图：配置lmdeploy运行环境下载internlm-chat-1.8b模型以命令行方式与模型对话视频链接文档链接基础知识学习模型部署在软件工程中，部署通常指的是将开发完毕的软件投入使用的过程。在人工智能领域，模型部署是实现深度学习算法落地应用的关键步骤。简单来说，模型部署就是将训练好的深度学习模型在特定环境中运行的过程。目前大模型部署面临的挑战计算量巨大内
大规模分布式存储（1）-- 概念、挑战和分类叹了口丶气 HDFS全方位实战分布式分类数据库
随着数据的激增，我们已经进入到了一个数据时代，无论是云计算，大数据还是互联网公司的各种应用，其后台存储平台的目标都是要构建低成本、高性能、可扩展、易用的分布式存储系统。相比传统的分布式存储系统，互联网公司的分布式存储系统具有两个特点：规模大和成本低。本文主要介绍一下什么是大规模分布式存储系统，以及分布式存储系统有哪些类别。一、分布式存储的概念1.1大规模分布式存储系统的定义大规模分布式存储系统的定
数据结构【时间复杂度、空间复杂度--1】北方留意尘数据结构 c语言后端数据结构算法
目录数据结构前言1.算法的复杂度2.时间复杂度2.1时间复杂度的概念2.2大O的渐进表示法2.3时间复杂度存在最好、平均和最坏情况2.4常见时间复杂度计算举例3.空间复杂度注意：时间累积（一去不复返），空间不累计（可重复利用）4.常见时间复杂度以及复杂度oj练习数据结构前言什么是数据结构？数据结构(DataStructure)是计算机存储、组织数据的方式，指相互之间存在一种或多种特定关系的数据元素
003：无人机概述 94_31762031 014-无人机航测无人机测绘无人机物流无人机巡检无人机航拍无人机系统无人机驾驶员
摘要：本文介绍无人机的定义和分类、无人机系统定义、民用无人机驾驶员分类和应用领域。一、无人机的定义和分类1.无人机定义无人机是一种能够在无人驾驶的条件下完成复杂空中飞行任务和各种负载任务的飞行器，可以被视为“空中机器人”。它利用先进的遥控、遥测技术和自备的程序控制装置，能够按照预定的航线或任务指令进行飞行和操作。2.无人机分类（1）按飞行平台构型分类固定翼无人机：类似于传统飞机，拥有一对固定的
【Docker】【Nacos】单机部署又言又语 Docker docker nacos 单机模式
【Docker】【Nacos】单机部署背景介绍环境步骤总结背景因国内访问DockerHub极不稳定，因此总结整理出本文，以便后续需要时方便查看。介绍本文介绍Docker安装Nacos并实现单机模式部署的方法及步骤。环境分类名称版本操作系统WindowsWindows11DockerDockerEngine25.0.3DockerDockerClient25.0.3DockerDockerDeskt
一、复杂度分析之——2、空间复杂度记得多吃点从零开始学算法算法 python
空间复杂度前言一、空间复杂度是什么？二、算法相关空间1、算法在运行过程中使用的内存空间主要包括以下几种。2、暂存空间可以进一步划分为三个部分。三、推算方法四、常见类型五、不同复杂度代码演示1、常数阶O(111)2、对数阶O(lognlog_nlogn)3、线性阶O(nnn)4、平方阶O(n2n^2n2)5、指数阶O(2n2^n2n)总结前言本文将介绍空间复杂度相关知识。如果下面内容看不懂的话，那就
《Python 基础知识点解析--01》青柠小卖部 python 开发语言
在编程的世界里，Python以其简洁易懂的语法和强大的功能受到了广大开发者的喜爱。本文将为您详细介绍Python基础中的一些重要知识点。一、注释的作用与分类注释在代码中起着至关重要的作用，它可以帮助开发者更好地理解代码的功能和逻辑。单行注释：以#开头，其后的内容为注释。例如：#这是一个单行注释多行注释：使用三个单引号'''或三个双引号"""包裹注释内容。例如：'''这是一个多行注释'''注释可以用
爬虫实践--爬取学科排名数据青柠小卖部爬虫
简介在当今这个信息爆炸的时代，数据的获取和分析变得越来越重要。作为一名数据分析师，我经常需要从各种网站抓取数据来进行研究。最近，我接手了一个项目，需要抓取上海软科排名的数据。上海软科排名是一个权威的大学排名，包含了全球大学的学术排名信息。本文将详细介绍我如何使用Python编写爬虫程序来自动化抓取这些数据。环境准备在开始编码之前，我们需要准备以下环境和库：Python3.xrequests：用于发
使用numpy自定义数据集使用tensorflow框架实现逻辑回归并保存模型，然后保存模型后再加载模型进行预辞落山 numpy tensorflow 逻辑回归
1.引言逻辑回归（LogisticRegression）是一种常见的分类算法，广泛应用于二分类问题。在本篇博客中，我们将使用numpy生成一个简单的自定义数据集，并使用TensorFlow框架构建和训练逻辑回归模型。训练完成后，我们会保存模型，并演示如何加载保存的模型进行预测。2.创建自定义数据集首先，我们使用numpy生成一个简单的二分类数据集，包含两个特征和对应的标签。标签0表示负类，标签1表
分类算法：梯度提升树(GBT)算法原理 kkchenjj 数据挖掘机器学习算法分类数据挖掘
分类算法：梯度提升树(GBT)算法原理1.简介1.1梯度提升树的起源与发展梯度提升树(GradientBoostingTree,GBT)是一种强大的机器学习算法，它基于提升方法的原理，通过迭代地构建一系列弱分类器并组合它们来形成一个强分类器。GBT的起源可以追溯到Freund和Schapire在1996年提出的AdaBoost算法，但真正将梯度提升应用于树模型的是JeromeH.Friedman在
全面掌握 Java 排序算法：从原理到代码实现中國移动丶移不动排序算法 java 算法
全面掌握Java排序算法：从原理到代码实现一、基本概念排序算法用于将一组数据按指定顺序排列（通常是升序或降序）。在评估排序算法时，通常需要考虑以下几个方面：1.1什么是排序算法排序算法是一种对数据集合按照某种特定顺序进行重新排列的过程，主要应用在数据处理、查找优化等场景。1.2排序算法的评估标准时间复杂度：算法处理n个元素时所需的时间，例如O(n2)O(n^2)O(n2)表示随着输入量增长，处理时
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v [email protected] 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l