大大的肥猫

机器学习系列_朴素贝叶斯（1）（原理、python代码、实战）

本文经作者允许转载自公众号：月半一更
链接：https://mp.weixin.qq.com/s/v-FN3rG97Hr8Ez_fnkwpTw

前文中的K-近邻、决策树分类器，给出的分类决策都是确定性的，即：该数据实例确定属于哪一类。但是，再好的分类器有时候也会产生错误的分类结果，这时候我们就希望有一个分类器，它能给出一个最优的类别猜测结果，同时也能给出这个猜测的概率估计值。

这种基于分类结果的概率估计值做出最终决策的分类方法，就是朴素贝叶斯分类器。

本篇主要内容：由贝叶斯决策理论开始，阐述基于概率的分类方法的核心思想；然后，我们通过最简单的理论加实例的方式，深入浅出的介绍条件概率及贝叶斯公式，进而引出朴素贝叶斯算法；最后，通过“网站恶意留言过滤系统”的案例，实战代码，并总结和优化。

一贝叶斯决策理论

朴素贝叶斯是贝叶斯决策理论的一部分，所以在介绍朴素贝叶斯之前，我们首先从全局的高度，去了解贝叶斯决策理论，然后再去钻研算法细节。

假设我们有一个数据集，它由两类数据组成（蓝色数据和青色数据），其数据分布散点图如下。

假设已经通过数据训练出了分类模型，对于新的待分类数据点(x,y)，我们用p1(x,y)表示数据点属于类别c1（蓝色）的概率，用p2(x,y)表示数据点属于类别c2（青色）的概率，那么我们可以用下面的规则来判断数据点最终的可能类别：

如果p1(x,y) > p2(x,y)，那么类别为c1；
如果p1(x,y) < p2(x,y)，那么类别为c2；

也就是说，我们会选择高概率对应的类别。这就是贝叶斯决策理论的核心思想，即选择具有最高概率的决策。

将上面的判定规则，用概率论的语言翻译一下：

如果p1(c1 | x,y) > p2(c2 | x,y)，那么类别为c1；
如果p1(c1 | x,y) < p2(c2 | x,y)，那么类别为c2；

其中 p1(c1 | x,y)的具体意义为：**给定某个数据点(x,y)，那么该数据点来自类别c1的概率是多少？**p2(c2 | x,y)的意义同理。

到这里，分类的问题，其实就变成了求 p1(c1 | x,y)的概率问题。

那么，p1(c1 | x,y)该怎么求呢？

答曰：条件概率和贝叶斯公式。

二条件概率

01 什么是条件概率？

02 举个栗子：小球案例

03 联合、边缘、条件概率关系

我们先来看一下什么是条件概率。

例如：有非独立事件A和B，P(A | B)则表示在B事件发生的情况下，A事件也发生的概率。这种某某条件下另一事件发生的概率，就是条件概率。

举个例子：假设现在有一个装有7个球的桶，其中3个球是灰色的，另外4个球是黑色的。如果随机从桶里取出一个球，问该球是黑球的概率是多少？

很容易知道，概率值为4/7，即P(黑) = 4/7。

如果我们将这7个球，分别放到两个桶（A桶和B桶）里，现在随机取出一个球，问该球是黑球的概率是多少？

如果我这样问你，你会说“你疯了吧，你都没告诉我是从哪只桶里取球，我怎么告诉你概率呢？”

是的，在这种情况下，我们想知道所取的球是黑球的概率，就必须知道是从哪只桶取球的。假设球取自B桶，这时球是黑球的概率应该P(黑 | B)表示。

我们直接给出条件概率的计算公式：

其中：

P(黑 | B) ：条件概率。表示，B桶取球条件下，球为黑球的概率。

P(球=黑，桶= B)：联合概率。表示，球是黑色，同时球来自B桶的概率。由球在桶中的分布可知，球是黑球同时在B桶的个数为2，球总数为7，则联合概率为2/7。

P(桶= B)：边缘概率。表示，球来自B桶的概率。

由概率分布表，即可计算出条件概率P(黑 | B)，B桶取球条件下，球为黑球的概率为2/3。显然，上帝视角看B桶球的分布，这个概率计算的正确的不能再正确了。

这里顺便讲一下这三者概率之间的关系：

联合概率 P(球=黑，桶= B) ：同时满足“球是黑球”且“来自B桶”两个条件的球个数（交集），占总球数的比例。基数为全部的球。

边缘概率 P(桶= B)：满足“来自B桶”的球个数，占总球数的比例。基数为全部的球。

条件概率 P(黑 | B) ：在B桶中，黑球个数占B桶球数的比例。基数为B桶。

最开始学习概率论时候，我最容易混淆的就是联合概率和条件概率。其实只要记住一点，条件概率是有条件才发生的，其基数来自于限定条件。而联合概率和边缘概率，基数都是针对整体全局的。

总结一下前两节：

第一节，我们将分类问题，转化成求取 **p1(c1 | x,y)**的条件概率问题；第二节，我们介绍了条件概率的计算方法。

聪明的你可能发现了，好像有点问题啊！

问题在哪，分析一下：

在机器学习中，拿到一堆标记好类别的训练数据集，我们只能计算出某类别下的各个数据点出现的概率，即p1(x,y | c1)，也就是已知某数据点来自c1类，那么该点是(x,y)的概率。

而分类问题中我们需要求的概率是什么？p1(c1 | x,y)：是给定数据点(x,y)的条件下，求取该数据点属于类别c1或c2的概率，最终取最高的概率对应的类别作为分类决策。

p1(c1 | x,y)和p1(x,y | c1)，那可是大不相同的！

再回到取球的问题上，上面情况下我们要求的是：从B桶取球的条件下，所取的球为黑球的概率。刚才已经计算了，P(黑 | B) = 2/3。

而我们现在问题已经变成了：所取的球为黑球的条件下，问该球来自B桶的概率是多少？即 P(B | 黑)等于多少？

这种交换条件概率中的条件与结果，重新计算概率值，就需要利用强大的贝叶斯公式啦！

三条件概率与贝叶斯公式
01 条件概率的简单理解
02 贝叶斯公式的简单理解

条件概率、贝叶斯公式的简单理解：

根据文氏图，很显然能够看出P(A|B)表示的是C占B的比例，立即得出条件概率的表达式：

贝叶斯公式，是通过交换条件和结果，利用已知的条件概率去求结果为条件的条件概率，即通过P(A|B)，计算P(B|A)。

由条件概率公式：

联立两个条件概率公式：

贝叶斯公式：

我们把P(A)称为"先验概率"，即在B事件发生之前，我们对A事件概率的一个判断。

P(A|B)称为"后验概率"，即在B事件发生之后，我们对A事件概率的重新评估。

P(B|A)/P(B)称为"可能性函数"，这是一个调整因子，使得预估概率更接近真实概率。

这就是贝叶斯公式的含义。我们先预估一个"先验概率"，然后加入实验结果，看这个实验到底是增强还是削弱了"先验概率"，由此得到更接近事实的"后验概率"。

现在，我们回到小球案例：所取的球为黑球的条件下，问该球来自B桶的概率是多少？即 P(B | 黑)等于多少？

这就是贝叶斯公式，通过交换条件概率中的条件与结果，变向求取难以直接计算的条件概率值。即通过P(黑 | B)求P(B | 黑)。

先验概率为3/7，后验概率为1/2，很明显“先验概率”被增强，事件的可能性变大。

这样我们就能回答第二节的问题了，即：可以通过p1(x,y | c1)计算决策分类概率p1(c1 | x,y)。

四贝叶斯与朴素贝叶斯

01 朴素贝叶斯的条件独立性假设

通过前三节，我们了解了贝叶斯决策理论的核心思想和决策分类的概率计算，并通过条件概率和贝叶斯公式，明确了朴素贝叶斯分类器所需的所有前提知识。

现在只剩下最后一点：朴素贝叶斯条件独立性假设。这也是贝叶斯和朴素贝叶斯的关键区别所在。

为了应用的广泛性，我们重写贝叶斯准则，将之前的x,y替换为ω。粗体ω表示这是一个向量，即它由多个数值组成。因此，决策概率计算公式可由下面公式表示：

朴素贝叶斯条件独立性假设的内容为：假设ω是一个多个独立特征的向量，如果将其展开为一个个独立特征，条件概率公式即可改写成向量中每个特征的概率累乘公式。

贝叶斯分类器的基本方法：在统计资料的基础上，依据某些特征，计算各个类别的概率，从而实现分类。

假设某个贝叶斯分类器总共有两类，对于一个新的待分类ω，只需计算P(c1 | ω)和P(c2 | ω)，比较其大小即可完成分类。

进一步可以看到，在决策概率计算过程中，分母**P(ω)在P(c1 | ω)和P(c2 | ω)的比较过程中，并没有什么作用。因此，在P(c1 | ω)和P(c2 | ω)**的计算过程中，忽略P(ω)并不影响决策概率的相对大小。

因此，在实际计算过程中，决策概率计算公式可简化成如下形式：

五小试牛刀：网站恶意留言过滤系统

01 文本拆分、词汇向量

02 词集汇总、数字向量

03 训练模型、概率分类

前四节我们详细介绍了朴素贝叶斯的所有理论知识，说了这么多，最关键的来了：实战！

本节，我们以“网站恶意留言过滤系统”为案例，选取“斑点犬爱好者论坛”的留言板作为数据来源，进行朴素贝叶斯分类模型的训练和测试。

5.1 背景与流程：

为了不影响社区的发展，我们要屏蔽侮辱性的言论，所以要构建一个快速过滤器，如果某条留言使用了负面或者侮辱性的语言，那么就将该留言标志为内容不当。过滤这类内容是一个很常见的需求。对此问题建立两个类型：侮辱类和非侮辱类，使用1和0分别表示。

就本案例而言，从零搭建朴素贝叶斯模型的流程如下：

（1）收集数据：本文数据来自《机器学习实战》。

（2）准备数据：对文本进行词汇拆分，得到词汇向量。

（3）分析数据：汇总词汇，生成词集，并基于词集，将（2）中词汇向量转换为数字向量。

（4）训练算法：计算不同的独立特征的条件概率，根据朴素贝叶斯算法，得出决策概率。

（5）测试算法：利用训练好的分类模型，测试分类的准确度，计算错误率。

（6）使用算法

开始实战之前，为了方便理解，对流程及下文将会出现的关键词作注解：

词汇拆分：对文本中每条留言进行切分，将句子切分为由词汇组成的列表。

留言：“my dog has flea problems help please”
词汇拆分后：['my', 'dog', 'has', 'flea', 'problems', 'help', 'please']

词汇向量：

['my', 'dog', 'has', 'flea', 'problems', 'help', 'please']

词集：所有词汇向量中的词汇汇总，包含训练数据集中出现的所有词汇。

数字向量：基于词集，将词汇向量用数字表示，词汇存在则位置标记为1，否则标记为0，得出数字向量。

词汇向量：['my', 'dog', 'has', 'flea', 'problems', 'help', 'please']
数字向量：[1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1]

5.2 收集数据：message.txt

下图所示“message.txt”中存储的文本内容，即为本案例的数据：六条来自斑点犬爱好者社区留言板的留言。其中每行的第一个字符，为分类标签，1代表侮辱类留言，0代表正常类留言。

5.3 准备数据：词汇切分

读取文件，对文本进行词汇切分，创建留言的词汇向量以及对应的分类标签向量。

# 功能：打开社区留言的txt文件，拆分文本，将每句留言的文本转换成词汇向量
def loadDataSet():
    path = r"机器学习message.txt"
    dataSet = [] # 文本的词汇向量
    label = []   # 文本标签 0：正常言论，1：侮辱性言论
    with open(path) as message:
        for line in message.readlines():
            data_list = line.strip().strip('.').split(' ')
            label.append(int(data_list[0]))
            dataSet.append(data_list[1:])
    return dataSet,label

if __name__ == '__main__':
    dataSet, label = loadDataSet()
    for each in dataSet:
        print(each)
    print(label)

输出结果如下，每条留言已经成功被切分为词汇向量，并与分类标签一一对应。

5.4 分析数据：词集、数字向量

汇总训练集中所有的词汇向量，创建“词集”，存储训练数据集中所有出现的词汇。并基于词集，将每条词汇向量转换为数字向量。

对于单条留言的词汇向量，只要在该词汇向量出现过的单词，在词集相应位置标记为1，没有出现过的，则全部标记为0。这样，即可通过0、1两个数字的向量组合，表示词汇向量所包含的词汇。数字向量的意义即在于此。

# 功能：打开社区留言的txt文件，拆分文本，将每句留言的文本转换成词汇向量
# dataSet：词汇向量
# label：文本标签
def loadDataSet():
    path = r"C:Usersyong_Desktop机器学习message.txt"
    dataSet = [] # 文本的词汇向量
    label = []   # 文本标签 0：正常言论，1：侮辱性言论
    with open(path) as message:
        for line in message.readlines():
            data_list = line.strip().strip('.').split(' ')
            label.append(int(data_list[0]))
            dataSet.append(data_list[1:])
    return dataSet,label

# 功能：创建训练数据集的所有不重复词汇的列表，包含留言板文本中所有单词
# vocabSet：词汇集
def createVocabList(dataSet):
    vocabSet = set([])                      #创建一个空的集合
    for message in dataSet:               
        vocabSet = vocabSet | set(message)  #取并集
    return list(vocabSet)


# 功能：基于词汇集，将词汇向量转换成数字向量
# vocabList：词汇集
# inputSet：每条词汇向量
def setOfWords2Vec(vocabList, inputSet):
    returnVec = [0] * len(vocabList)                                    #创建一个其中所含元素都为0的向量
    for word in inputSet:                                               #遍历每个词汇
        if word in vocabList:                                           #如果词汇存在于词汇集中，则置1
            returnVec[vocabList.index(word)] = 1
        else: print("the word: %s is not in my Vocabulary!" % word)
    return returnVec                                                    #返回单条词汇向量的数字向量

if __name__ == '__main__':
    dataSet, label = loadDataSet() # 01 词汇切分，生成每句留言的词汇向量
    total_VocabList = createVocabList(dataset)  # 02 词汇汇总，生成总的词汇集，包括训练数据集中所有出现过的词汇
    trainMat = [] # 03 将每条词汇向量，转换成数字向量
    for one_message in dataSet:
        digital_list = setOfWords2Vec(total_VocabList,one_message)
        trainMat.append(digital_list)
    print("训练数据集的数字向量:{}".format(trainMat))
    print("数字向量对应的分类标签:{}".format(label))

如上述代码，增加了两个方法（createVocabList、setOfWords2Vec），其中createVocabList方法是用来创建词集，setOfWords2Vec方法是将词汇向量转为数字向量。

代码输出结果：

5.5 训练模型：利用数字向量计算概率

前面我们已经得到训练数据集中每条的留言的数字向量，本节需要做的就是建立和训练分类模型。

训练分类模型，说白了，就是**计算每个类别中各特征的概率，再由朴素贝叶斯公式，计算分类决策概率。**这里的类别只有两类：侮辱类、正常类，特征指的就是某类留言拆分后的每个词汇。

# 01 功能：打开社区留言的txt文件，拆分文本，将每句留言的文本转换成词汇向量
# dataSet：词汇向量
# label：文本标签
def loadDataSet():
    path = r"C:Usersyong_Desktop机器学习message.txt"
    dataSet = [] # 文本的词汇向量
    label = []   # 文本标签 0：正常言论，1：侮辱性言论
    with open(path) as message:
        for line in message.readlines():
            data_list = line.strip().strip('.').split(' ')
            label.append(int(data_list[0]))
            dataSet.append(data_list[1:])
    return dataSet,label

# 02 功能：创建训练数据集的所有不重复词汇的列表，包含留言板文本中所有单词
# vocabSet：词汇集
def createVocabList(dataSet):
    vocabSet = set([])                      #创建一个空的集合
    for message in dataSet:               
        vocabSet = vocabSet | set(message)  #取并集
    return list(vocabSet)

# 03 功能：基于词汇集，将词汇向量转换成数字向量
# vocabList：词汇集
# inputSet：每条词汇向量
def setOfWords2Vec(vocabList, inputSet):
    returnVec = [0] * len(vocabList)                                    #创建一个其中所含元素都为0的向量
    for word in inputSet:                                               #遍历每个词汇
        if word in vocabList:                                           #如果词汇存在于词汇集中，则置1
            returnVec[vocabList.index(word)] = 1
        else: print("the word: %s is not in my Vocabulary!" % word)
    return returnVec                                                    #返回单条词汇向量的数字向量

# 04 功能：利用数字向量训练朴素贝叶斯分类器
# trainMatrix：词条的数字向量
# trainCategory：label，词条的分类标签
def train_NB(trainMatrix,trainCategory):
    numTrainDocs = len(trainMatrix)  # 训练集的留言条数
    numWords = len(trainMatrix[0])   # 词集中词汇总数
    pAbusive = sum(trainCategory)/float(numTrainDocs)  # 侮辱类留言占训练集的比例

    p0Num = np.zeros(numWords); p1Num = np.zeros(numWords)    #创建numpy.zeros数组,词汇出现数初始化为0
    p0Denom = 0.0; p1Denom = 0.0                              #分母初始化为0
    
    for i in range(numTrainDocs):
        if trainCategory[i] == 1:
            # 统计侮辱类留言中每个单词出现的频率向量
            p1Num += trainMatrix[i]
            # 统计被训练的侮辱类留言中所有的词汇数，包括重复出现的词汇
            p1Denom += sum(trainMatrix[i])
        else: 
            p0Num += trainMatrix[i]
            p0Denom += sum(trainMatrix[i])
    # 频率/类别总词数，即为侮辱类里某单词出现的概率，同理计算非侮辱类
    p1Vect = p1Num/p1Denom                                      
    p0Vect = p0Num/p0Denom         
    return p0Vect,p1Vect,pAbusive #返回属于侮辱类的条件概率数组，属于非侮辱类的条件概率数组，文档属于侮辱类的概率

# 05 朴素贝叶斯分类器分类函数
# vec2Classify - 待分类的词条数组
# p0Vec - 侮辱类的条件概率数组
# p1Vec -非侮辱类的条件概率数组
# pClass1 - 文档属于侮辱类的概率
def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
    pClass0 = 1.0 - pClass1
    p1 = reduce(lambda x,y:x*y, vec2Classify * p1Vec) * pClass1    #对应元素相乘
    p0 = reduce(lambda x,y:x*y, vec2Classify * p0Vec) * pClass0
    print('p0:',p0)
    print('p1:',p1)
    if p1 > p0:
        return 1
    else: 
        return 0

# 功能：获取数据、切分数据、向量转换、训练模型
def start():
    dataSet, label = loadDataSet() # 01 词汇切分，生成每句留言的词汇向量
    total_VocabList = createVocabList(dataset)  # 02 词汇汇总，生成总的词汇集，包括训练数据集中所有出现过的词汇
    trainMat = [] # 03 将每条词汇向量，转换成数字向量
    for one_message in dataSet:
        digital_list = setOfWords2Vec(total_VocabList,one_message)
        trainMat.append(digital_list)
    p0_vect,p1_vect,pAbu = train_NB(trainMat,label) # 04 训练分类器

# 功能：测试分类器模型
def test_NB():
    test_message1 = ['love', 'my', 'dalmatian'] # 测试样本1
    test_vect1 = np.array(setOfWords2Vec(total_VocabList, test_message1))   # 测试样本数字向量化
    if classifyNB(test_vect,p0_vect,p1_vect,pAbu): # 06 分类测试
        print(test_message1,'属于侮辱类')
    else:
        print(test_message1,'属于非侮辱类')
        
    test_message2 = ['stupid', 'garbage'] # 测试样本1
    test_vect2 = np.array(setOfWords2Vec(total_VocabList, test_message2))   # 测试样本数字向量化
    if classifyNB(test_vect,p0_vect,p1_vect,pAbu): # 06 分类测试
        print(test_message2,'属于侮辱类')
    else:
        print(test_message2,'属于非侮辱类')
    
if __name__ == '__main__':
    start()
    test_NB()

上述代码，增加了四个函数，但是关键函数只有train_NB和classifyNB，train_NB方法用于训练分类模型，得出两个类别下各特征的概率向量；classifyNB方法根据朴素贝叶斯算法，计算分类的决策概率。两个方法共同成为“朴素贝叶斯分类器模型”。

test_NB方法中，分别用两个测试例子，测试算法的准确性。

然而，训练了这么久的分类器，处女秀就失败了！！如下框图所示，错误分类了侮辱类词条，且并未输出p0和p1两个类别概率值。

问题出在哪儿呢？

六存在的问题及改进

01 零值概率问题

利用贝叶斯分类器对留言进行分类时，要计算多个概率的乘积以获得留言属于某个类别的概率，即计算：

p(w0|1)p(w1|1)p(w2|1)…p(wn|1)

如果其中有一个概率值为0，那么最后的成绩也为0，这时分类器显然不具有分类作用。

因此，我们的朴素贝叶斯分类器，还需要进行改进。怎么进行改进呢？

且待下文分解~

参考文献：

[1] Peter Harrington. 机器学习实战[M].  2013.

[2] https://cuijiahua.com/blog/2017/11/ml_4_bayes_1.html（Jack Cui）

[3] 平冈和幸，崛玄. 程序员的数学2[M].

[4] 李航.统计学习方法[M].北京：清华大学出版社，2012

[5] 小岛宽之. 统计学关我什么事[M]. 北京时代华文书局, 2018.

[6] 维基百科

你可能感兴趣的:(机器学习系列_朴素贝叶斯（1）（原理、python代码、实战）)

guava loadingCache代码示例 IM 胡鹏飞 Java 工具类介绍
publicclassTest2{publicstaticvoidmain(String[]args)throwsException{LoadingCachecache=CacheBuilder.newBuilder()//设置并发级别为8，并发级别是指可以同时写缓存的线程数.concurrencyLevel(8)//设置缓存容器的初始容量为10.initialCapacity(10)//设置缓存
C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
为什么会出现“与此站点的连接不安全”警告？
当浏览器弹出“与此站点的连接不安全”的红色警告时，不仅会让访客感到不安，还可能直接导致用户流失、品牌信誉受损，甚至引发数据泄露风险。作为网站运营者，如何快速解决这一问题？一、为什么会出现“与此站点的连接不安全”警告？浏览器提示“不安全连接”，本质上是检测到当前网站与用户之间的数据传输未经过加密保护。以下是触发警告的常见原因：1.未安装SSL证书SSL（SecureSocketsLayer）证书是网
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
驱动程序为什么要做 WHQL 认证? GDCA SSL证书网络协议网络
驱动程序进行WHQL（WindowsHardwareQualityLabs）认证的核心价值在于解决兼容性、安全性和市场准入三大关键问题，具体必要性如下：️‌一、规避系统拦截，保障驱动可用性‌消除安装警告‌未认证的驱动在安装时会触发Windows的‌红色安全警告‌（如“无法验证发布者”），甚至被系统强制拦截。通过WHQL认证的驱动获得微软数字签名，用户可无阻安装‌。满足系统强制要求‌Windows1
WHQL签名怎么申请 GDCA SSL证书 windows
WHQL（WindowsHardwareQualityLabs）签名是微软对硬件和驱动程序进行认证的一种方式，以确保它们与Windows操作系统的兼容性和稳定性。以下是申请WHQL签名的基本步骤，供您参考：1.准备阶段准备硬件设备和驱动程序：确保您的硬件设备已经准备好，并且对应的驱动程序已经经过充分的测试，能够在各种配置和环境下正常工作。获取EV代码签名证书：根据微软的要求，驱动程序进行WHQL认
JSON 与 AJAX Auscy json ajax 前端
一、JSON（JavaScriptObjectNotation）1.数据类型与语法细节支持的数据类型：基本类型：字符串（需用双引号）、数字、布尔值（true/false）、null。复杂类型：数组（[]）、对象（{}）。严格语法规范：键名必须用双引号包裹（如"name":"张三"）。数组元素用逗号分隔，最后一个元素后不能有多余逗号。数字不能以0开头（如012会被解析为12），不支持八进制/十六进制
发票合并工具小朋的软件园前端 javascript java html 服务器
"发票合并工具"是一款专为高效整理票据设计的实用工具，支持将来自不同渠道的发票文件（如PDF文档、各类图片格式）快速整合为排版规范的PDF文件，尤其适用于财务报销场景下的批量票据处理需求。核心功能亮点多格式兼容：无缝导入PDF文件及常见图片格式（.png/.jpg/.jpeg/.bmp），适配多来源发票整合需求。智能布局配置：提供灵活的页面布局选项（每页2/3/4张发票），其中"2合1"模式针对报
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element(
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以添加戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！intmain(){vectormyvec{3,
【LeetCode 热题 100】24. 两两交换链表中的节点——（解法一）迭代+哨兵 xumistore LeetCode leetcode 链表算法 java
Problem:24.两两交换链表中的节点题目：给你一个链表，两两交换其中相邻的节点，并返回交换后链表的头节点。你必须在不修改节点内部的值的情况下完成本题（即，只能进行节点交换）。文章目录整体思路完整代码时空复杂度时间复杂度：O(N)空间复杂度：O(1)整体思路这段代码旨在解决一个经典的链表操作问题：两两交换链表中的节点(SwapNodesinPairs)。问题要求将链表中每两个相邻的节点进行交换
JavaScript 树形菜单总结 Auscy microsoft
树形菜单是前端开发中常见的交互组件，用于展示具有层级关系的数据（如文件目录、分类列表、组织架构等）。以下从核心概念、实现方式、常见功能及优化方向等方面进行总结。一、核心概念层级结构：数据以父子嵌套形式存在，如{id:1,children:[{id:2}]}。节点：树形结构的基本单元，包含自身信息及子节点（若有）。展开/折叠：子节点的显示与隐藏切换，是树形菜单的核心交互。递归渲染：因数据层级不固定，
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
Leetcode 148. 排序链表
文章目录前引题目代码（首刷看题解）代码（8.9二刷部分看解析）代码（9.15三刷部分看解析）前引综合性比较强的一道题，要求时间复杂度必须O(logn)才能通过，最适合链表的排序算法就是归并。这里采用自顶向下的方法步骤：找到链表中点（双指针）对两个子链表排序(递归，直到只有一个结点，记得将子链表最后指向nullptr）归并（引入dummy结点）题目Leetcode148.排序链表代码（首刷看题解）c
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
LeetCode 148. 排序链表：归并排序的细节解析进击的小白菜 2025 Top100 详解 leetcode 链表算法
文章目录题目描述一、方法思路：归并排序的核心步骤二、关键实现细节：快慢指针分割链表1.快慢指针的初始化问题2.为什么选择`fast=head.next`？示例1：链表长度为偶数（`1->2->3->4`）三、完整代码实现四、复杂度分析五、总结题目描述LeetCode148题要求对链表进行排序，时间复杂度需为O(nlogn)，且空间复杂度为O(logn)。由于链表的特殊结构（无法随机访问），归并排序
前端项目架构设计要领
1.架构设计的核心目标在设计前端项目架构时，核心目标是模块化、可维护、可扩展、可测试，以及开发效率的最大化。这些目标可以通过以下几个方面来实现：组件化：将UI功能封装为可复用的组件。模块化：将业务逻辑分解为独立的模块或服务。自动化构建与部署：实现自动化构建、测试和部署流程，减少人为操作的错误。代码规范化与检查：确保团队协作时，代码风格和质量一致。2.项目目录结构设计一个清晰合理的目录结构对大型项目
精通Canvas：15款时钟特效代码实现指南烟幕缭绕
本文还有配套的精品资源，点击获取简介：HTML5的Canvas是一个用于绘制矢量图形的API，通过JavaScript实现动态效果。本项目集合了15种不同的时钟特效代码，帮助开发者通过学习绘制圆形、线条、时间更新、旋转、颜色样式设置及动画效果等概念，深化对Canvas的理解和应用。项目中的CSS文件负责时钟的样式设定，而JS文件则包含实现各种特效的逻辑，通过不同的函数或类处理时间更新和动画绘制，提
嵌入式系统LCD显示模块编程实践
本文还有配套的精品资源，点击获取简介：本文档提供了一个具有800x480分辨率的3.5英寸液晶显示模块LW350AC9001的驱动程序代码，以及嵌入式系统中使用C/C++语言进行硬件编程的实践指南。该模块的2mm厚度使其适用于空间受限的便携式设备。内容包括驱动程序源代码、硬件控制接口使用方法，以及如何在嵌入式系统中进行图形处理、电源管理与性能优化。1.嵌入式系统原理1.1嵌入式系统概念嵌入式系统是
深入剖析OpenJDK 18 GA源码：Java平台最新发展想法臃肿
本文还有配套的精品资源，点击获取简介：OpenJDK18GA作为Java开发的关键里程碑，提供了诸多新特性和改进。本文章深入探讨了OpenJDK18GA源码，揭示其内部机制，帮助开发者更好地理解和利用这个版本。文章还涵盖了PatternMatching、SealedClasses、Records、JEP395、JEP406和JEP407等特性，以及HotSpot虚拟机、编译器、垃圾收集器、内存模型
Android 开源组件和第三方库汇总 gyyzzr Android Android 开源框架
转载1、github排名https://github.com/trending,github搜索：https://github.com/search2、https://github.com/wasabeef/awesome-android-ui目录UIUI卫星菜单节选器下拉刷新模糊效果HUD与Toast进度条UI其它动画网络相关响应式编程地图数据库图像浏览及处理视频音频处理测试及调试动态更新热更新
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
22、文档：Google Docs的强大与易用性 pear55 探索云技术的无限可能 Google Docs 云端文档语音输入
文档：GoogleDocs的强大与易用性1.GoogleDocs简介GoogleDocs是Google提供的在线办公套件的一部分，它是一个基于云端的文字处
docker-compose方式搭建lnmp环境——筑梦之路筑梦之路 linux系统运维国产化 docker android adb
docker-compose.yml文件#生成docker-compose.ymlcat>docker-compose.ymlnginx/conf.d/default.conf">www/index.phpecho"开始启动服务..."docker-composeup-d#获取本机ipip_addr=$(hostname-I|awk'{print$1}')echo"部署完成！"echo"访问测试页
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
ARM嵌入式可编程控制器技术开发拉勾科研工作室 arm开发
PLC自动化设计|毕业设计指导|工业自动化解决方案✨专业领域：PLC程序设计与调试工业自动化控制系统HMI人机界面开发工业传感器应用电气控制系统设计工业网络通信擅长工具：西门子S7系列PLC编程三菱/欧姆龙PLC应用触摸屏界面设计电气CAD制图工业现场总线技术自动化设备调试主要内容：PLC控制系统设计工业自动化方案规划电气原理图绘制控制程序编写与调试毕业论文指导毕业设计题目与程序设计✅具体问题可以
java工厂模式 3213213333332132 java 抽象工厂
工厂模式有 1、工厂方法 2、抽象工厂方法。下面我的实现是抽象工厂方法, 给所有具体的产品类定一个通用的接口。 package 工厂模式; /** * 航天飞行接口 * * @Description * @author FuJianyong * 2015-7-14下午02:42:05 */ public interface SpaceF
nginx频率限制+python测试 ronin47 nginx 频率 python
部分内容参考：http://www.abc3210.com/2013/web_04/82.shtml 首先说一下遇到这个问题是因为网站被攻击，阿里云报警，想到要限制一下访问频率，而不是限制ip（限制ip的方案稍后给出）。nginx连接资源被吃空返回状态码是502，添加本方案限制后返回599，与正常状态码区别开。步骤如下：
java线程和线程池的使用 dyy_gusi ThreadPool thread Runnable timer
java线程和线程池一、创建多线程的方式 java多线程很常见，如何使用多线程，如何创建线程，java中有两种方式，第一种是让自己的类实现Runnable接口，第二种是让自己的类继承Thread类。其实Thread类自己也是实现了Runnable接口。具体使用实例如下： 1、通过实现Runnable接口方式 1 2
Linux 171815164 linux
ubuntu kernel http://kernel.ubuntu.com/~kernel-ppa/mainline/v4.1.2-unstable/ 安卓sdk代理 mirrors.neusoft.edu.cn 80 输入法和jdk sudo apt-get install fcitx su
Tomcat JDBC Connection Pool g21121 Connection
Tomcat7 抛弃了以往的DBCP 采用了新的Tomcat Jdbc Pool 作为数据库连接组件，事实上DBCP已经被Hibernate 所抛弃，因为他存在很多问题，诸如：更新缓慢，bug较多，编译问题，代码复杂等等。 Tomcat Jdbc P
敲代码的一点想法永夜-极光 java 随笔感想
入门学习java编程已经半年了,一路敲代码下来,现在也才1w+行代码量,也就菜鸟水准吧,但是在整个学习过程中,我一直在想,为什么很多培训老师,网上的文章都是要我们背一些代码?比如学习Arraylist的时候,教师就让我们先参考源代码写一遍,然
jvm指令集程序员是怎么炼成的 jvm 指令集
转自：http://blog.csdn.net/hudashi/article/details/7062675#comments 将值推送至栈顶时 const ldc push load指令 const系列该系列命令主要负责把简单的数值类型送到栈顶。(从常量池或者局部变量push到栈顶时均使用) 0x02 &nbs
Oracle字符集的查看查询和Oracle字符集的设置修改 aijuans oracle
本文主要讨论以下几个部分：如何查看查询oracle字符集、修改设置字符集以及常见的oracle utf8字符集和oracle exp 字符集问题。一、什么是Oracle字符集 Oracle字符集是一个字节数据的解释的符号集合,有大小之分,有相互的包容关系。ORACLE 支持国家语言的体系结构允许你使用本地化语言来存储，处理，检索数据。它使数据库工具，错误消息，排序次序，日期，时间，货
png在Ie6下透明度处理方法 antonyup_2006 css 浏览器 Firebug IE
由于之前到深圳现场支撑上线，当时为了解决个控件下载，我机器上的IE8老报个错，不得以把ie8卸载掉，换个Ie6,问题解决了，今天出差回来，用ie6登入另一个正在开发的系统，遇到了Png图片的问题，当然升级到ie8(ie8自带的开发人员工具调试前端页面JS之类的还是比较方便的，和FireBug一样，呵呵)，这个问题就解决了，但稍微做了下这个问题的处理。我们知道PNG是图像文件存储格式，查询资
表查询常用命令高级查询方法(二) 百合不是茶 oracle 分页查询分组查询联合查询
----------------------------------------------------分组查询 group by having --平均工资和最高工资 select avg(sal)平均工资,max(sal) from emp ; --每个部门的平均工资和最高工资
uploadify3.1版本参数使用详解 bijian1013 JavaScript uploadify3.1
使用：绑定的界面元素<input id='gallery'type='file'/>$("#gallery").uploadify({设置参数，参数如下}); 设置的属性： id: jQuery(this).attr('id'),//绑定的input的ID langFile: 'http://ww
精通Oracle10编程SQL(17)使用ORACLE系统包 bijian1013 oracle 数据库 plsql
/* *使用ORACLE系统包 */ --1.DBMS_OUTPUT --ENABLE:用于激活过程PUT,PUT_LINE,NEW_LINE,GET_LINE和GET_LINES的调用 --语法：DBMS_OUTPUT.enable(buffer_size in integer default 20000); --DISABLE:用于禁止对过程PUT,PUT_LINE,NEW
【JVM一】JVM垃圾回收日志 bit1129 垃圾回收
将JVM垃圾回收的日志记录下来，对于分析垃圾回收的运行状态，进而调整内存分配(年轻代，老年代，永久代的内存分配)等是很有意义的。JVM与垃圾回收日志相关的参数包括： -XX:+PrintGC -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -Xloggc -XX:+PrintGC 通
Toast使用白糖_ toast
Android中的Toast是一种简易的消息提示框，toast提示框不能被用户点击，toast会根据用户设置的显示时间后自动消失。创建Toast 两个方法创建Toast makeText(Context context, int resId, int duration) 参数：context是toast显示在
angular.identity boyitech AngularJS AngularJS API
angular.identiy 描述: 返回它第一参数的函数. 此函数多用于函数是编程. 使用方法: angular.identity(value); 参数详解: Param Type Details value * to be returned. 返回值: 传入的value 实例代码: <!DOCTYPE HTML>
java-两整数相除，求循环节 bylijinnan java
import java.util.ArrayList; import java.util.List; public class CircleDigitsInDivision { /** * 题目：求循环节，若整除则返回NULL，否则返回char*指向循环节。先写思路。函数原型：char*get_circle_digits(unsigned k,unsigned j)
Java 日期周年 Chen.H java C++c C#
/** * java日期操作(月末、周末等的日期操作) * * @author * */ public class DateUtil { /** */ /** * 取得某天相加(减)後的那一天 * * @param date * @param num *
[高考与专业]欢迎广大高中毕业生加入自动控制与计算机应用专业 comsci 计算机
不知道现在的高校还设置这个宽口径专业没有,自动控制与计算机应用专业,我就是这个专业毕业的,这个专业的课程非常多,既要学习自动控制方面的课程,也要学习计算机专业的课程,对数学也要求比较高.....如果有这个专业,欢迎大家报考...毕业出来之后,就业的途径非常广..... 以后
分层查询（Hierarchical Queries） daizj oracle 递归查询层次查询
Hierarchical Queries If a table contains hierarchical data, then you can select rows in a hierarchical order using the hierarchical query clause: hierarchical_query_clause::= start with condi
数据迁移 daysinsun 数据迁移
最近公司在重构一个医疗系统，原来的系统是两个.Net系统，现需要重构到java中。数据库分别为SQL Server和Mysql，现需要将数据库统一为Hana数据库，发现了几个问题，但最后通过努力都解决了。 1、原本通过Hana的数据迁移工具把数据是可以迁移过去的，在MySQl里面的字段为TEXT类型的到Hana里面就存储不了了，最后不得不更改为clob。 2、在数据插入的时候有些字段特别长
C语言学习二进制的表示示例 dcj3sjt126com c basic
进制的表示示例 # include <stdio.h> int main(void) { int i = 0x32C; printf("i = %d\n", i); /* printf的用法 %d表示以十进制输出 %x或%X表示以十六进制的输出 %o表示以八进制输出 */ return 0; }
NsTimer 和 UITableViewCell 之间的控制 dcj3sjt126com ios
情况是这样的: 一个UITableView, 每个Cell的内容是我自定义的 viewA viewA上面有很多的动画, 我需要添加NSTimer来做动画, 由于TableView的复用机制, 我添加的动画会不断开启, 没有停止, 动画会执行越来越多. 解决办法: 在配置cell的时候开始动画, 然后在cell结束显示的时候停止动画查找cell结束显示的代理
MySql中case when then 的使用 fanxiaolong casewhenthenend
select "主键", "项目编号", "项目名称","项目创建时间", "项目状态","部门名称","创建人" union (select pp.id as "主键", pp.project_number as &
Ehcache（01）——简介、基本操作 234390216 cache ehcache 简介 CacheManager crud
Ehcache简介目录 1 CacheManager 1.1 构造方法构建 1.2 静态方法构建 2 Cache 2.1&
最容易懂的javascript闭包学习入门 jackyrong JavaScript
http://www.ruanyifeng.com/blog/2009/08/learning_javascript_closures.html 闭包（closure）是Javascript语言的一个难点，也是它的特色，很多高级应用都要依靠闭包实现。下面就是我的学习笔记，对于Javascript初学者应该是很有用的。一、变量的作用域要理解闭包，首先必须理解Javascript特殊
提升网站转化率的四步优化方案 php教程分享数据结构 PHP 数据挖掘 Google 活动
网站开发完成后,我们在进行网站优化最关键的问题就是如何提高整体的转化率，这也是营销策略里最最重要的方面之一，并且也是网站综合运营实例的结果。文中分享了四大优化策略：调查、研究、优化、评估，这四大策略可以很好地帮助用户设计出高效的优化方案。 PHP开发的网站优化一个网站最关键和棘手的是，如何提高整体的转化率，这是任何营销策略里最重要的方面之一，而提升网站转化率是网站综合运营实力的结果。今天，我就分
web开发里什么是HTML5的WebSocket？ naruto1990 Web html5 浏览器 socket
当前火起来的HTML5语言里面，很多学者们都还没有完全了解这语言的效果情况，我最喜欢的Web开发技术就是正迅速变得流行的 WebSocket API。WebSocket 提供了一个受欢迎的技术，以替代我们过去几年一直在用的Ajax技术。这个新的API提供了一个方法，从客户端使用简单的语法有效地推动消息到服务器。让我们看一看6个HTML5教程介绍里的 WebSocket API：它可用于客户端、服
Socket初步编程——简单实现群聊 Everyday都不同 socket 网络编程初步认识
初次接触到socket网络编程，也参考了网络上众前辈的文章。尝试自己也写了一下，记录下过程吧：服务端：（接收客户端消息并把它们打印出来） public class SocketServer { private List<Socket> socketList = new ArrayList<Socket>(); public s
面试：Hashtable与HashMap的区别（结合线程） toknowme
昨天去了某钱公司面试，面试过程中被问道 Hashtable与HashMap的区别？当时就是回答了一点，Hashtable是线程安全的，HashMap是线程不安全的，说白了，就是Hashtable是的同步的，HashMap不是同步的，需要额外的处理一下。今天就动手写了一个例子，直接看代码吧 package com.learn.lesson001; import java
MVC设计模式的总结 xp9802 设计模式 mvc 框架 IOC
随着Web应用的商业逻辑包含逐渐复杂的公式分析计算、决策支持等，使客户机越来越不堪重负，因此将系统的商业分离出来。单独形成一部分，这样三层结构产生了。其中‘层’是逻辑上的划分。三层体系结构是将整个系统划分为如图2.1所示的结构[3] （1）表现层（Presentation layer）：包含表示代码、用户交互GUI、数据验证。该层用于向客户端用户提供GUI交互，它允许用户