阿尔法小队

传统机器学习之朴素贝叶斯、支持向量机、LDA

1. 朴素贝叶斯的原理

朴素贝叶斯的原理：

基于朴素贝叶斯公式，比较出后验概率的最大值来进行分类，后验概率的计算是由先验概率与类条件概率的乘积得出，先验概率和类条件概率要通过训练数据集得出，即为朴素贝叶斯分类模型，将其保存为中间结果，测试文档进行分类时调用这个中间结果得出后验概率。
优点：在数据较少的情况下仍然有效，可以处理多分类问题
缺点：对于输入数据的准备方式较为敏感

2. 利用朴素贝叶斯模型进行文本分类

垃圾邮件曾经是一个令人非常头痛的问题，长期困扰着邮件运营商和用户。据统计，在2005年，用户收到的电子邮件中80%以上是垃圾邮件。

但你有没有感觉到，这些年来，你收到的垃圾邮件越来越少了，甚至已经几乎感受不到它们的存在。背后一定有什么原因，那就是运营商采用了垃圾邮件过滤方法。

一）基本方法
现在我们收到一封新邮件，我们假定它是正常邮件和垃圾邮件的概率各是50%。即：

P（正常）= P（垃圾）=50%

然后，对这封新邮件的内容进行解析，发现其中含有“发票”这个词，那么这封邮件属于垃圾邮件的概率提高到多少？其实就是计算一个条件概率，在有“发票”词语的条件下，邮件是垃圾邮件的概率：P(垃圾|发票)。直接计算肯定是无法计算了，这时要用到贝叶斯定理：

根据全概率公式：

所以：

其中，P(发票|垃圾)表示所有垃圾邮件中出现“发票”的概率，我们假设100封垃圾邮件中有5封包含“发票”这个词，那么这个概率是5%。P(发票|正常)表示所有正常邮件中出现“发票”的概率，我们假设1000封正常邮件中有1封包含“发票”这个词，那么这个概率是0.1%。于是：

P(垃圾|发票)=(5%×50%) / (5%×50% + 0.1%×50%)

因此，这封新邮件是垃圾邮件的概率是98%。从贝叶斯思维的角度，这个“发票”推断能力很强，直接将垃圾邮件50%的概率提升到98%了。那么，我们是否就此能给出结论：这是封垃圾邮件？

回答是不能！这里有2个核心问题没有解决：
一是 P(发票|垃圾)和P(发票|正常)是我们假定的，怎样实际计算它们？
二是正常邮件也是可能含有“发票”这个词的，误判了怎么办？

（二）概率值计算问题
对于第一个问题，该“统计学”出场了。过程很简单，我们首先收集10000封邮件，用人工方式进行简单判断标定，哪个是正常邮件，哪个是垃圾邮件，假设各有5000封，即P（正常）= P（垃圾）=50%。然后编写程序解析所有邮件的内容文本，提取每一个词，计算每个词语在正常邮件和垃圾邮件中的出现频率。例如“发票”在5000封正常邮件中，出现了5次，那么P(发票|正常)=0.1%，“发票”在5000封垃圾邮件中个，出现了250次，那么P(发票|正常)=1%。以后，就全自动运行，随着邮件数量的增加，这些计算结果会自动调整，越来越精确。（注意：如果一个词只出现在垃圾邮件中，正常邮件中没有，那么在正常邮件中的出现频率也需要设定一个很小的值（例如0.1%），反之亦然，这样做是为了避免概率为0）。

（三）误判问题
对于第二个问题，解决的思路是“多特征判断”。就像猫和老虎，如何单看颜色、花纹都不好判断，那就颜色、花纹、大小、体重等一起来判断。同理，对于“发票”不好来判断，那就联合其他词语一起来判断，如果这封邮件中除了“发票”，还有“常年”，“代开”，“各种”，“行业”，“绝对正规”，“税点低”等词语，那么就通过这些词语联合认定这封邮件是垃圾邮件。

计算方法也不复杂，在基本方法计算的基础上，选取前n个（例如n=3，实际应用中是15个词/字以上）概率最高的词，假设为：“发票”，“常年”，“代开”。然后计算其联合条件概率。即在这3个词同时出现的条件下，是垃圾邮件的概率，即：P(垃圾|发票;常年;代开)。这时仍要用到贝叶斯定理：

这里还需要一个假设：所有词语彼此之间是不相关的（当然实际上不可能完全没有相关性，但可以忽略）。所以：

上边式子中右边的分母不太好求。我们可以换种方式，求这封邮件是正常邮件的概率：

上面两个式子相除，得到：

即在这3个词同时出现的情况下，是垃圾邮件的概率与是正常邮件的概率的比值。上边式子中的每一项，都可以用前面介绍的统计学方法得到。假设P(常年|垃圾)=P(常年|正常)=5%，P(代开|垃圾)=5%，P(代开|正常)=0.1%。那么：

即多个词联合认定，这封邮件是垃圾邮件概率是正常邮件的2500倍，可以确定是垃圾邮件了

作者：saltriver
原文：https://blog.csdn.net/saltriver/article/details/72571876

3. SVM的原理

支持向量机，因其英文名为support vector machine，故一般简称SVM，通俗来讲，它是一种二类分类模型，其基本模型定义为特征空间上的间隔最大的线性分类器，其学习策略便是间隔最大化，最终可转化为一个凸二次规划问题的求解。

4. 利用SVM模型进行文本分类

1 SVM简介
支持向量机（SVM）算法被认为是文本分类中效果较为优秀的一种方法，它是一种建立在统计学习理论基础上的机器学习方法。该算法基于结构风险最小化原理，将数据集合压缩到支持向量集合，学习得到分类决策函数。这种技术解决了以往需要无穷大样本数量的问题，它只需要将一定数量的文本通过计算抽象成向量化的训练文本数据，提高了分类的精确率。
支持向量机（SVM）算法是根据有限的样本信息，在模型的复杂性与学习能力之间寻求最佳折中，以求获得最好的推广能力支持向量机算法的主要优点有：
（1）专门针对有限样本情况，其目标是得到现有信息下的最优解而不仅仅是样本数量趋于无穷大时的最优值；
（2）算法最终转化为一个二次型寻优问题，理论上得到的是全局最优点，解决了在神经网络方法中无法避免的局部极值问题；
（3）支持向量机算法能同时适用于稠密特征矢量与稀疏特征矢量两种情况，而其他一些文本分类算法不能同时满足两种情况。
（4）支持向量机算法能够找出包含重要分类信息的支持向量，是强有力的增量学习和主动学习工具，在文本分类中具有很大的应用潜力。

2 基于SVM的文本分类过程
SVM 文本分类算法主要分四个步骤：文本特征提取、文本特征表示、归一化处理和文本分类。
2.1文本特征提取
目前，在对文本特征进行提取时，常采用特征独立性假设来简化特征选择的过程，达到计算时间和计算质量之间的折中。一般的方法是根据文本中词汇的特征向量，通过设置特征阀值的办法选择最佳特征作为文本特征子集，建立特征模型。（特征提取前，先分词，去停用词）。
本特征提取有很多方法，其中最常用的方法是通过词频选择特征。先通过词频计算出权重，按权重从大到小排序，然后剔除无用词，这些词通常是与主题无关的，任何类的文章中都有可能大量出现的，比如“的”“是”“在”一类的词，一般在停词表中已定义好，去除这些词以后，有一个新的序列排下来，然后可以按照实际需求选取权重最高的前8个，10个或者更多词汇来代表该文本的核心内容。
综上所述，特征项的提取步骤可以总结为：
（1）对全部训练文档进行分词，由这些词作为向量的维数来表示文本；
（2）统计每一类内文档所有出现的词语及其频率，然后过滤，剔除停用词和单字词；
（3）统计每一类内出现词语的总词频，并取其中的若干个频率最高的词汇作为这一类别的特征词集；
（4）去除每一类别中都出现的词，合并所有类别的特征词集，形成总特征词集。最后所得到的特征词集就是我们用到的特征集合，再用该集合去筛选测试集中的特征。

2.2文本特征表示
用tfidf计算权值

2.3归一化处理
归一化就是要把需要处理的数据经过处理后（通过某种算法）限制在你需要的一定范围内。

2.4文本分类

经过文本预处理、特征提取、特征表示、归一化处理后，已经把原来的文本信息抽象成一个向量化的样本集，然后把此样本集与训练好的模板文件进行相似度计算，若不属于该类别，则与其他类别的模板文件进行计算，直到分进相应的类别，这就是SVM 模型的文本分类方式。

5. pLSA、共轭先验分布；LDA主题模型原理

LDA的全称是Latent Dirichlet allocation

LDA算法可以根据给定的文本集合以及预先指定的主题个数，对文本进行主题分类，并给出每个类别下的主题关键词。

理解LDA算法的关键是共轭先验分布，LDA利用了共轭先验分布的特性：经过Bayes推断之后的后验分布仍然和先验分布的形式相同，这意味着可以利用一批数据来更新先验分布P0的参数，使其变成服从同样分布的后验分布P1，并可以将P1作为下一批数据的先验分布。
如果制定了数据生成过程的概率分布，以及参数模型的先验分布，我们可以推导出后验概率分布服从的概率分布模型。如果先验分布和后验分布可以使用同一种概率分布模型来表示，则称
共轭分布描述的是概率分布之间的关系。比如高斯分布是高斯分布的先验分布，Beta分布是二项分布的先验分布。这里有个小技巧，为了证明上述两个例子，无须完整计算Bayes后验分布的表达形式，即可得出结论：

如何理解共轭先验分布？

我们可以将先验分布看做机器学习中的模型（比如Beta分布），那么Beta分布中的参数a，b可以作为模型状态的表示。每次有新的训练数据（样本观测结果），我们就可以更新模型参数（根据数据将先验分布转换为后验分布），以Beta分布为例，如果数据生成过程服从二项分布，参数a，b根据数据更新后的值为a+s，b+f，其中s和f只依赖于训练数据。那么我们可以说模型得到了“训练”，训练的结果就是模型的状态（a，b）得到了更新。这个解释类似于维基百科【1】中的Dynamical system的解释。

6. 使用LDA生成主题特征，在之前特征的基础上加入主题特征进行文本分类

主题模型主要作用

有了主题模型，我们该怎么使用它呢？它有什么优点呢？我总结了以下几点：
　　1)它可以衡量文档之间的语义相似性。对于一篇文档，我们求出来的主题分布可以看作是对它的一个抽象表示。对于概率分布，我们可以通过一些距离公式（比如KL距离）来计算出两篇文档的语义距离，从而得到它们之间的相似度。
　　2)它可以解决多义词的问题。回想最开始的例子，“苹果”可能是水果，也可能指苹果公司。通过我们求出来的“词语－主题”概率分布，我们就可以知道“苹果”都属于哪些主题，就可以通过主题的匹配来计算它与其他文字之间的相似度。
　　3)它可以排除文档中噪音的影响。一般来说，文档中的噪音往往处于次要主题中，我们可以把它们忽略掉，只保持文档中最主要的主题。
　　4)它是无监督的，完全自动化的。我们只需要提供训练文档，它就可以自动训练出各种概率，无需任何人工标注过程。
　　5)它是跟语言无关的。任何语言只要能够对它进行分词，就可以进行训练，得到它的主题分布。

使用主题模型特点：

如果要训练一个主题模型用于预测，数据量要足够大；
理论上讲，词汇长度越长，表达的主题越明确，这需要一个优秀的词库；
如果想要主题划分的更细或突出专业主题，需要专业的词典；
LDA的参数alpha对计算效率和模型结果影响非常大，选择合适的alpha可以提高效率和模型可靠性；
主题数的确定没有特别突出的方法，更多需要经验；
根据时间轴探测热点话题和话题趋势，主题模型是一个不错的选择；
下面用lda来测试分类的效果。之前的准备工作有分词，停用词加载。语料用的是某通信客服语料。

import codecs
from gensim.models import LdaModel
from gensim.corpora import Dictionary
from gensim import  corpora
from gensim import similarities
import jieba

train = []
stopwords = codecs.open('stopword.txt','r',encoding='utf8').readlines()
stopwords = [ w.strip() for w in stopwords ]
fp = codecs.open('E:\loaddata\qa_seg.txt','r',encoding='utf8')
# 去除停止词
for line in fp:
    line = line.split()
    train.append([ w for w in line if w not in stopwords ])

dictionary = corpora.Dictionary(train)
corpus = [ dictionary.doc2bow(text) for text in train ]
lda = LdaModel(corpus=corpus, id2word=dictionary, num_topics=50)
print(dictionary)
# print(dictionary.token2id)

# 打印前30个topic的词分布
print(lda.print_topics(30))
# 打印id为30的topic的词分布
print("------")
print(lda.print_topic(30))

# 输入一句话，查询属于LDA得到的哪个主题类型，先建立索引：
print('输入一句话，查询属于LDA得到的哪个主题类型，先建立索引：')
index = similarities.MatrixSimilarity(lda[corpus])

query = input(">>>")
query_bow = dictionary.doc2bow(list(jieba.cut(query)))
print (query_bow)
query_lda = lda[query_bow]
print (query_lda)        #  主题编号 + 相似度
print(query_lda[0][0])   # 主题编号
print(lda.print_topic(query_lda[0][0]))   # 主题
# print(lda.print_topic(query_lda[0][0]-1))

# 比较和第几句话相似，用LDA得到的索引接着做，并排序输出
sims = index[query_lda]
print(list(enumerate(sims)))
print("排序输出")
sort_sims = sorted(enumerate(sims), key=lambda item: -item[1])
print(sort_sims)

print('与第' + str(sort_sims[0][0]) + '句话最相似')

可以看出输出结果里有各个文本的主题占比
其中我们输入一句话判断属于那个主题

7. 参考
朴素贝叶斯1：sklearn：朴素贝叶斯（naïve beyes） - 专注计算机体系结构 - CSDN博客
LDA数学八卦
lda2：用LDA处理文本(Python) - 专注计算机体系结构 - CSDN博客
合并特征：Python：合并两个numpy矩阵 - 专注计算机体系结构 - CSDN博客

深入理解 CSS Flexbox：如何使用弹性布局实现自适应的水平和垂直居中
在Web开发中，布局一直是CSS的一个重要主题，而水平和垂直居中往往是布局中最常见、最基础的需求。传统的居中方法通常需要使用多层嵌套、position、margin等属性来实现，代码繁琐且不够灵活。而随着CSS弹性布局（Flexbox）的引入，水平和垂直居中变得非常简单、直观，几乎可以适应所有的布局场景。本文将专注于如何使用CSSFlexbox来实现内容的自适应居中，包括水平居中、垂直居中、以及水
【阅读】数据之美，一本书学会可视化设计蟹蟹蟹风流阅读数据可视化知书达礼阅读社数据可视化
这里把《数据之美，一本书学会可视化设计》的摘抄分享下吧，图示上有不清晰的地方还请包容。你真的理解数据了吗？对原始数据了解得越多，打造的基础就越坚实，也就越可能制作成令人信服的数据图表。好的可视化设计，需要具备统计学和设计方面的知识。可视化创作是一个迭代的过程，不同的数据集迭代周期不同。由于数据代表了一定的人物、地点和事物，所以除了真实的数字之外，还有重要的背景信息。注意，垃圾信息的相对而言。一个图
智能化河流水位与流量监测系统：提升水资源管理与环境保护 DX_水位流量监测数据分析信息可视化安全运维自动化人工智能
随着全球气候变化和水资源短缺问题的加剧，科学有效地监测水体状况，尤其是河流的水位和流量，成为了水资源管理与环境保护的重要环节。传统的人工测量方法虽然有效，但存在一定的局限性，如人工误差、监测频率低以及对突发事件反应慢等问题。智能化河流水位与流量监测系统应运而生，通过集成物联网、大数据、云计算和人工智能等技术，不仅提高了监测的精准度和实时性，也提升了水资源管理和环境保护的效率。一、智能化河流水位与流
Oracle 23ai新特性:使用列别名的 GROUP BY 和 HAVING 子句安呀智数据 Oracle oracle 数据库 Oracle 23ai 新特性 having 列别名 group by
摘要随着数据库技术的不断发展，SQL语言也在不断进化，以更好地满足数据查询和分析的需求。本文将探讨如何在SQL查询中使用列别名（columnalias）或列位置（columnposition）来简化GROUPBY和HAVING子句，并提高查询的可读性和维护性。一、引言在SQL查询中，GROUPBY子句用于将具有相同值的行分组到汇总行中，而HAVING子句则用于过滤这些分组的结果。传统上，GROUP
【运维自动化-作业平台】如何使用全局变量之命名空间类型？
命名空间类型的全局变量主要适用场景是同一批主机在多个步骤间需要传递独立的变量值，比如内网ip、hostame，每台主机都是不同的变量值。而字符串变量是全局针对所有主机所有步骤都是一样的变量值。实操演示例：定义一个local_ip的命名空间变量，目标两台机器，然后添加两个执行脚本的步骤，看下变量是如何渲染的。1、添加命名空间变量local_ip2、添加两个执行脚本步骤（步骤一）（步骤二）3、调试执行
读《javaScript高级程序设计－第6章》之继承 javascript
读这篇之前，最好是已读过我前面的关于对象的理解和封装类的笔记。第6章我一共写了3篇总结，下面是相关链接：读《javaScript高级程序设计－第6章》之理解对象读《javaScript高级程序设计－第6章》之封装类一、原型链原型链最简单的理解就是：原型对象指向另一个构造函数的实例。此时的原型对象包括一个指向另一个原型的指针，相应的，另一个原型中的constructor指向另一个构造函数。这种关系层
TiDB 助力广发银行零售信贷业务管理平台成功上线 tidb分布式数据库
导读TiDB助力广发银行在2024年10月正式上线新零售信贷业务管理平台，成功把数据库从原IBMDB2迁移到TiDB分布式数据库上。这也是继总账系统后，TiDB在广发银行成功上线的又一重要系统。TiDB凭借其弹性水平扩展能力和HTAP（混合事务/分析处理）功能，能够有效应对零售信贷业务的混合型复杂业务场景，解决传统数据库的扩展性和架构复杂性问题，提升了系统的稳定性和处理效率。通过精细的迁移方案和高
狂飙 50 倍丨TiDB DDL 框架优化深度解析 tidbddl数据库分布式
导读在多租户大规模部署场景下，传统单机数据库的管理复杂性问题仍困扰着用户。在TiDBv6-v7版本中，我们成功将TiDBDDL创建索引的性能提升了10倍，为用户带来了显著的体验改善。在TiDBv8版本中，我们对TiDBDDL语句执行流程进行了进一步的优化和重构，显著提升了框架的可扩展性和语句的执行效率，为未来实现TiDBDDL的真正分布式执行奠定了坚实基础。本系列文章将从原理解析、技术实现和应用实
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
扫地机类清洁产品之直流无刷电机控制悟空胆好小清洁服务机器人单片机人工智能
扫地机类清洁产品之直流无刷电机控制1.1前言扫地机产品有很多的电机控制，滚刷电机1个，边刷电机1-2个，清水泵电机，风机一个，部分中高端产品支持抹布功能，也就是存在抹布盘电机，还有追觅科沃斯石头等边刷抬升电机，滚刷抬升电机等的，这些电机有直流有刷电机，直接无刷电机，步进电机，电磁阀，挪动泵等不同类型。电机的原理，驱动控制方式也不行。接下来一段时间的几个文章会作个专题分析分享。直流有刷电机会自动持续
2018-07-23-催眠日作业-#不一样的31天#-66小鹿小鹿_33
预言日：人总是在逃避命运的路上，与之不期而遇。心理学上有个著名的名词，叫做自证预言；经济学上也有一个很著名的定律叫做，墨菲定律；在灵修派上，还有一个很著名的法则，叫做吸引力法则。这3个领域的词，虽然看起来不太一样，但是他们都在告诉人们一个现象：你越担心什么，就越有可能会发生什么。同样的道理，你越想得到什么，就应该要积极地去创造什么。无论是自证预言，墨菲定律还是吸引力法则，对人都有正反2个维度的影响
《大清方方案》| 第二话谁佐清欢
和珅究竟说了些什么？竟能令堂堂九五之尊龙颜失色！此处暂且按下不表；单说这位乾隆皇帝，果真不愧是康熙从小带过的，一旦决定了要做的事，便杀伐决断毫不含糊。他当即亲自拟旨，着令和珅为钦差大臣，全权负责处理方方事件，并钦赐尚方宝剑，遇急则三品以下官员可先斩后奏。和珅身负皇上重托，岂敢有半点怠慢，当夜即率领相关人等，马不停蹄杀奔江汉。这一路上，和珅的几位幕僚一直在商讨方方事件的处置方案。有位年轻幕僚建议快刀
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
《庄子.达生9》钱江潮369
【原文】孔子观于吕梁，县水三十仞，流沫四十里，鼋鼍鱼鳖之所不能游也。见一丈夫游之，以为有苦而欲死也，使弟子并流而拯之。数百步而出，被发行歌而游于塘下。孔子从而问焉，曰：“吾以子为鬼，察子则人也。请问，‘蹈水有道乎’”曰：“亡，吾无道。吾始乎故，长乎性，成乎命。与齐俱入，与汩偕出，从水之道而不为私焉。此吾所以蹈之也。”孔子曰：“何谓始乎故，长乎性，成乎命？”曰：“吾生于陵而安于陵，故也；长于水而安于
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
2020-04-12每天三百字之连接与替代冷眼看潮
不知道是不是好为人师，有时候还真想和别人分享一下我对某些现象的看法或者解释。人类社会不断发展进步的过程，就是不断连接与替代的过程。人类发现了火并应用火以后，告别了茹毛饮血的野兽般的原始生活（火烧、烹饪替代了生食）人类用石器代替了完全手工，工具的使用使人类进步一大步。类似这样的替代还有很多，随着科技的发展，有更多的原始的事物被替代，代之以更高效、更先进的技术。在近现代，汽车替代了马车，高速公路和铁路
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
东南林氏之九牧林候选父系祖缘树TheYtree
渊源介绍东晋初年晋安林始祖林禄公入闽，传十世隋右丞林茂，由晋安迁居莆田北螺村。又五世而至林万宠，唐开元间任高平太守，生三子：韬、披、昌。韬公之孙攒，唐德宗立双阙以旌表其孝，时号"阙下林家"。昌公字茂吉，乃万宠公第三子，官兵部司马，配宋氏，生一子名萍。萍于唐贞元间明经及第，官沣洲司马(后追赠中宪大夫)。唐太和年间归隐后，迁居仙游游洋，世称“游洋林”；其后裔居游洋后迁移漳州漳浦路下，由路下林第四房平和
大伟说成语之唉声叹气求索大伟
＊大伟说成语＊【唉声叹气】叹气：因心里不痛快或不如意而吐出长气，发出声音。因为痛苦、憋闷或感伤而发出叹息的声音。【大伟说】情绪外露，非人类所特有，动物亦有情绪，悲哀和欢乐所表示的情绪亦是不一样的，会嗷嗷大叫也会低吟痛哭。不同的是，人类的情绪更复杂，更多样，更丰富。唉声叹气，可以说是最基础的情绪，因为无奈而举足无措，不知该如何如何化解，只有独自一人慢慢承受，长吁短叹不知如何是好，其实是无能无力的表现
libyuv之linux编译 jaronho Linux linux 运维服务器
文章目录一、下载源码二、编译源码三、注意事项1、银河麒麟系统（aarch64）（1）解决armv8-a+dotprod+i8mm指令集支持问题（2）解决armv9-a+sve2指令集支持问题一、下载源码到GitHub网站下载https://github.com/lemenkov/libyuv源码，或者用直接用git克隆到本地，如：gitclonehttps://github.com/lemenko
怎么做淘客赚钱(2022最新免费淘客盈利的方法) 高省_飞智666600
很多人都不知道什么是淘宝客，今天小编为大家解答一下吧。淘宝客，现在简称淘客，是时下比较流行的一个词语，特质为淘宝店推广商品获取提成的人，这些人没有自己的产品，只是在淘宝里面选择适合自己的产品，在自己比较熟悉的领域推广，把产品卖出去之后，会从淘宝店家那里获得百分之五到百分之五十左右的佣金。淘宝客付出的是什么呢？时间。你需要花时间去选适合自己推广的产品，需要花时间去选自己的推广方法，如果你打算自己做个
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
锁之缘尘缘诗词原创作品
是谁追寻梦的足迹，是谁在偷偷的哭泣，日月隔离在黑白天地情感在心中蔓延的痕迹天与地的距离有多远流失的星晨落入哪片空间不要让泪水模糊双眼心牢中一样充满温暖谁说爱情没有永远白娘子又为何爱许仙蝴蝶墓地展翅翩翩轻歌慢舞袖卷人间传奇千古留爱万年…………月落星飞徘徊是选择不去问自已为合舍不得寂寞本就是痛苦的不在追寻梦中的痕迹才不会失去真实的自已
ARM驱动学习之基础小知识 JT灬新一 ARM 嵌入式 arm开发学习
ARM驱动学习之基础小知识•sch原理图工程师工作内容–方案–元器件选型–采购（能不能买到，价格）–原理图（涉及到稳定性）•layout画板工程师–layout（封装、布局，布线，log）（涉及到稳定性）–焊接的一部分工作（调试阶段板子的焊接）•驱动工程师–驱动，原理图，layout三部分的交集容易发生矛盾•PCB研发流程介绍–方案，原理图(网表)–layout工程师（gerber文件）–PCB板
ARM驱动学习之5 LEDS驱动 JT灬新一嵌入式 C 底层 arm开发学习单片机
ARM驱动学习之5LEDS驱动知识点：•linuxGPIO申请函数和赋值函数–gpio_request–gpio_set_value•三星平台配置GPIO函数–s3c_gpio_cfgpin•GPIO配置输出模式的宏变量–S3C_GPIO_OUTPUT注意点：DRIVER_NAME和DEVICE_NAME匹配。实现步骤：1.加入需要的头文件：//Linux平台的gpio头文件#include//三
ARM驱动学习之4小结 JT灬新一嵌入式 C++arm开发学习 linux
ARM驱动学习之4小结#include#include#include#include#include#defineDEVICE_NAME"hello_ctl123"MODULE_LICENSE("DualBSD/GPL");MODULE_AUTHOR("TOPEET");staticlonghello_ioctl(structfile*file,unsignedintcmd,unsignedlo
C++ | Leetcode C++题解之第409题最长回文串 Ddddddd_158 经验分享 C++Leetcode 题解
题目：题解：classSolution{public:intlongestPalindrome(strings){unordered_mapcount;intans=0;for(charc:s)++count[c];for(autop:count){intv=p.second;ans+=v/2*2;if(v%2==1andans%2==0)++ans;}returnans;}};
2020-12-24 我和我的天使们
阅读《老子的心事》391—403“将欲取之，必固与之”：想要得到什么，首先就要送出什么。我常常对孩子们说，你希望别人怎样对你你就怎样对待别人。想要得到别人的尊重，首先要尊重别人。我希望她们可以不迟到，因为不迟到是对别人的尊重，我就自己就先做到不迟到。哪怕是约朋友逛街，我尽量准时赴约。我严格要求孩子们，也同样严格要求自己，我跟孩子们一起把好的品格变成习惯。“是谓微明”：这就是微妙的智慧。看起来很少很
18、架构-可观测性之聚合度量大树~~ 架构 java python 后端架构
聚合度量聚合度量是指对系统运行时产生的各种指标数据进行收集、聚合和分析，以了解系统的健康状况和性能表现。聚合度量是可观测性的关键组成部分，通过对度量数据的分析，可以及时发现系统中的异常和瓶颈。以下是对聚合度量各个方面的详细解析，并结合具体的数据案例和技术支撑。指标收集收集系统运行时产生的各种指标数据是聚合度量的基础。常见的指标包括CPU使用率、内存使用率、请求处理时间、请求数、错误率等。以下是指标
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
面向对象面向过程 3213213333332132 java
面向对象：把要完成的一件事，通过对象间的协作实现。面向过程：把要完成的一件事，通过循序依次调用各个模块实现。我把大象装进冰箱这件事为例，用面向对象和面向过程实现，都是用java代码完成。 1、面向对象 package bigDemo.ObjectOriented; /** * 大象类 * * @Description * @author FuJian
Java Hotspot: Remove the Permanent Generation bookjovi HotSpot
openjdk上关于hotspot将移除永久带的描述非常详细，http://openjdk.java.net/jeps/122 JEP 122: Remove the Permanent Generation Author Jon Masamitsu Organization Oracle Created 2010/8/15 Updated 2011/
正则表达式向前查找向后查找,环绕或零宽断言 dcj3sjt126com 正则表达式
向前查找和向后查找 1. 向前查找：根据要匹配的字符序列后面存在一个特定的字符序列(肯定式向前查找)或不存在一个特定的序列(否定式向前查找)来决定是否匹配。.NET将向前查找称之为零宽度向前查找断言。对于向前查找，出现在指定项之后的字符序列不会被正则表达式引擎返回。 2. 向后查找：一个要匹配的字符序列前面有或者没有指定的
BaseDao 171815164 seda
import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public Conn
Ant标签详解--Java命令 g21121 Java命令
这一篇主要介绍与java相关标签的使用终于开始重头戏了，Java部分是我们关注的重点也是项目中用处最多的部分。 1
[简单]代码片段_电梯数字排列 53873039oycg 代码
今天看电梯数字排列是9 18 26这样呈倒N排列的,写了个类似的打印例子，如下: import java.util.Arrays; public class 电梯数字排列_S3_Test { public static void main(S
Hessian原理云端月影 hessian原理
Hessian 原理分析一．远程通讯协议的基本原理网络通信需要做的就是将流从一台计算机传输到另外一台计算机，基于传输协议和网络 IO 来实现，其中传输协议比较出名的有 http 、 tcp 、 udp 等等， http 、 tcp 、 udp 都是在基于 Socket 概念上为某类应用场景而扩展出的传输协
区分Activity的四种加载模式----以及Intent的setFlags aijuans android
在多Activity开发中，有可能是自己应用之间的Activity跳转，或者夹带其他应用的可复用Activity。可能会希望跳转到原来某个Activity实例，而不是产生大量重复的Activity。这需要为Activity配置特定的加载模式，而不是使用默认的加载模式。加载模式分类及在哪里配置 Activity有四种加载模式： standard singleTop
hibernate几个核心API及其查询分析 antonyup_2006 html .net Hibernate xml 配置管理
(一) org.hibernate.cfg.Configuration类读取配置文件并创建唯一的SessionFactory对象.(一般,程序初始化hibernate时创建.) Configuration co
PL/SQL的流程控制百合不是茶 oracle PL/SQL编程循环控制
PL/SQL也是一门高级语言,所以流程控制是必须要有的,oracle数据库的pl/sql比sqlserver数据库要难,很多pl/sql中有的sqlserver里面没有流程控制; 分支语句 if 条件 then 结果 else 结果 end if ; 条件语句 case when 条件 then 结果; 循环语句 loop
强大的Mockito测试框架 bijian1013 mockito 单元测试
一.自动生成Mock类在需要Mock的属性上标记@Mock注解，然后@RunWith中配置Mockito的TestRunner或者在setUp()方法中显示调用MockitoAnnotations.initMocks(this);生成Mock类即可。二.自动注入Mock类到被测试类 &nbs
精通Oracle10编程SQL(11)开发子程序 bijian1013 oracle 数据库 plsql
/* *开发子程序 */ --子程序目是指被命名的PL/SQL块，这种块可以带有参数，可以在不同应用程序中多次调用 --PL/SQL有两种类型的子程序：过程和函数 --开发过程 --建立过程：不带任何参数 CREATE OR REPLACE PROCEDURE out_time IS BEGIN DBMS_OUTPUT.put_line(systimestamp); E
【EhCache一】EhCache版Hello World bit1129 Hello world
本篇是EhCache系列的第一篇，总体介绍使用EhCache缓存进行CRUD的API的基本使用，更细节的内容包括EhCache源代码和设计、实现原理在接下来的文章中进行介绍环境准备 1.新建Maven项目 2.添加EhCache的Maven依赖 <dependency> <groupId>ne
学习EJB3基础知识笔记白糖_ bean Hibernate jboss webservice ejb
最近项目进入系统测试阶段，全赖袁大虾领导有力，保持一周零bug记录，这也让自己腾出不少时间补充知识。花了两天时间把“传智播客EJB3.0”看完了，EJB基本的知识也有些了解，在这记录下EJB的部分知识，以供自己以后复习使用。 EJB是sun的服务器端组件模型，最大的用处是部署分布式应用程序。EJB (Enterprise JavaBean)是J2EE的一部分，定义了一个用于开发基
angular.bootstrap boyitech AngularJS AngularJS API angular中文api
angular.bootstrap 描述：手动初始化angular。这个函数会自动检测创建的module有没有被加载多次，如果有则会在浏览器的控制台打出警告日志，并且不会再次加载。这样可以避免在程序运行过程中许多奇怪的问题发生。使用方法： angular .
java-谷歌面试题-给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数 bylijinnan java
public class SearchInShiftedArray { /** * 题目：给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数。 * 请在这个特殊数组中找出给定的整数。 * 解答： * 其实就是“旋转数组”。旋转数组的最小元素见http://bylijinnan.iteye.com/bl
天使还是魔鬼？都是我们制造 ducklsl 生活教育情感
----------------------------剧透请原谅，有兴趣的朋友可以自己看看电影，互相讨论哦！！！从厦门回来的动车上，无意中瞟到了书中推荐的几部关于儿童的电影。当然，这几部电影可能会另大家失望，并不是类似小鬼当家的电影，而是关于“坏小孩”的电影！自己挑了两部先看了看，但是发现看完之后，心里久久不能平
[机器智能与生物]研究生物智能的问题 comsci 生物
我想,人的神经网络和苍蝇的神经网络,并没有本质的区别...就是大规模拓扑系统和中小规模拓扑分析的区别.... 但是,如果去研究活体人类的神经网络和脑系统,可能会受到一些法律和道德方面的限制,而且研究结果也不一定可靠,那么希望从事生物神经网络研究的朋友,不如把
获取Android Device的信息 dai_lm android
String phoneInfo = "PRODUCT: " + android.os.Build.PRODUCT; phoneInfo += ", CPU_ABI: " + android.os.Build.CPU_ABI; phoneInfo += ", TAGS: " + android.os.Build.TAGS; ph
最佳字符串匹配算法（Damerau-Levenshtein距离算法）的Java实现 datamachine java 算法字符串匹配
原文：http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html------------------------------------------------------------------------------------------------------------
小学5年级英语单词背诵第一课 dcj3sjt126com english word
long 长的 show 给...看，出示 mouth 口，嘴 write 写 use 用，使用 take 拿，带来 hand 手 clever 聪明的 often 经常 wash 洗 slow 慢的 house 房子 water 水 clean 清洁的 supper 晚餐 out 在外 face 脸，
macvim的使用实战 dcj3sjt126com mac vim
macvim用的是mac里面的vim, 只不过是一个GUI的APP, 相当于一个壳 1. 下载macvim https://code.google.com/p/macvim/ 2. 了解macvim :h vim的使用帮助信息 :h macvim
java二分法查找蕃薯耀 java二分法查找二分法 java二分法
java二分法查找 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 11:40:03 星期二 http:/
Spring Cache注解+Memcached hanqunfeng spring memcached
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>com.google.code.simple-spring-memcached</groupId> <artifactId>simple-s
apache commons io包快速入门 jackyrong apache commons
原文参考 http://www.javacodegeeks.com/2014/10/apache-commons-io-tutorial.html Apache Commons IO 包绝对是好东西，地址在http://commons.apache.org/proper/commons-io/，下面用例子分别介绍： 1）工具类 2
如何学习编程 lampcy java 编程 C++c
首先,我想说一下学习思想.学编程其实跟网络游戏有着类似的效果.开始的时候,你会对那些代码,函数等产生很大的兴趣,尤其是刚接触编程的人,刚学习第一种语言的人.可是,当你一步步深入的时候,你会发现你没有了以前那种斗志.就好象你在玩韩国泡菜网游似的,玩到一定程度,每天就是练级练级,完全是一个想冲到高级别的意志力在支持着你.而学编程就更难了,学了两个月后,总是觉得你好象全都学会了,却又什么都做不了,又没有
架构师之spring-----spring3.0新特性的bean加载控制@DependsOn和@Lazy nannan408 Spring3
1.前言。如题。 2.描述。 @DependsOn用于强制初始化其他Bean。可以修饰Bean类或方法，使用该Annotation时可以指定一个字符串数组作为参数，每个数组元素对应于一个强制初始化的Bean。 @DependsOn({"steelAxe","abc"}) @Comp
Spring4+quartz2的配置和代码方式调度 Everyday都不同代码配置 spring4 quartz2.x 定时任务
前言：这些天简直被quartz虐哭。。因为quartz 2.x版本相比quartz1.x版本的API改动太多，所以，只好自己去查阅底层API…… quartz定时任务必须搞清楚几个概念： JobDetail——处理类 Trigger——触发器，指定触发时间，必须要有JobDetail属性，即触发对象 Scheduler——调度器，组织处理类和触发器，配置方式一般只需指定触发
Hibernate入门 tntxia Hibernate
前言使用面向对象的语言和关系型的数据库，开发起来很繁琐，费时。由于现在流行的数据库都不面向对象。Hibernate 是一个Java的ORM（Object/Relational Mapping）解决方案。 Hibernte不仅关心把Java对象对应到数据库的表中，而且提供了请求和检索的方法。简化了手工进行JDBC操作的流程。如
Math类 xiaoxing598 Math
一、Java中的数字（Math）类是final类，不可继承。 1、常数 PI：double圆周率 E：double自然对数 2、截取（注意方法的返回类型） double ceil(double d) 返回不小于d的最小整数 double floor(double d) 返回不大于d的整最大数 int round(float f) 返回四舍五入后的整数 long round