我是乖孩子真的

Hadoop学习笔记 | NJU 大数据实验课MapReduce 课程设计邮件分类实验报告

Github源码地址：https://github.com/courseralxy/MapReduce-Big-Data-Processing/tree/master/final%20project

文字版实验报告：

MapReduce大数据课程设计3：邮件自动分类

牛哥1 161220082 月哥2 161220085 圆哥3 161220083

1(南京大学计算机科学与技术系,南京 210023)

2(南京大学计算机科学与技术系,南京 210023)

3(南京大学计算机科学与技术系,南京 210023)

MapReduce Big Data Class Design: Email auto-classification

Brother Niu1 Brother Yue2 Brother Yuan3

1(Department of Computer Science and Technology, Nanjing University, Nanjing 210023, China)

+ Corresponding author: Llf: + 86-1xx-xxxxxxxx: [email protected]

2(Department of Computer Science and Technology, Nanjing University, Nanjing 210023, China)

+ Corresponding author: Lxy: + 86-1xx-xxxxxxxx, E-mail: [email protected]

3(Department of Computer Science and Technology, Nanjing University, Nanjing 210023, China)

+ Corresponding author: Lxy: +86-1xx-xxxxxxxx, E-mail: [email protected]

邮件自动分类任务简述
1. 电子邮件的起源

电子邮件产生于上世纪60年代，早期分时计算机的出现使基于计算机的邮件和消息传递成为可能，早期大型机和小型计算机的大多数开发人员们独立开发了许多功能类似但通常互相不兼容的邮件应用程序。许多美国大学都是ARPANET的一部分，ARPANET旨在实现系统之间的软件可移植性。在此情况下，出现了简单邮件传输协议SMTP。在20世纪80年代末和90年代初，政府开放系统互连概况（GOSIP）的一部分专有商业系统或X.400电子邮件系统占主导地位。二十世纪末互联网的诞生，使得SMTP，POP3和IMAP电子邮件协议成为标准。

早期的电子邮件系统要求作者和收件人同时在线，与即时消息一样。如今的电子邮件系统基于存储转发模型。服务器接受、转发、传递和存储消息。发件人与收件人不需要同时在线; 他们只需要短暂连接，发送或接收邮件即可。最早的电子邮件仅限于使用ASCII文本进行通信，通过多用途Internet邮件扩展（MIME），才得以发送例如图片和文档之类的多媒体介质。

1. 邮件自动分类的重要性

我们常说，技术是一把双刃剑，电子邮件的出现，极大地丰富了人们交流和联系的渠道，但随之出现的还有大量的垃圾邮件。当今时代，网民们在互联网上裸奔，黑产通过各类方式收集网民们的电子邮件账户，之后将其转卖给各类公司，这种交易的价格十分廉价，因此一笔信息交易的量级能够达到百万级别。公司在获取到大量邮箱账户后，便会向这些邮箱账户中频繁发送推广邮件，用户不堪其扰。这些电子牛皮癣极大影响网民心情，甚至还有可能掩埋住重要邮件。除了广告邮件，还有人盯上了网民的电脑数据，通过发送木马邮件和钓鱼邮件，在粗心的收件人的电脑中植入病毒，窃取个人数据，监控其网络流量，甚至盗取银行账户密码使收件人蒙受经济损失。除了以上两种最为常见的垃圾邮件形式以外，还有很多其他种类的新型垃圾邮件，因此垃圾邮件的分类十分重要。

伴随着电子邮件兴起的，还有一个叫做“电子邮件破产(email bankruptcy)”的名词，他是指用户收到了太多邮件无法一次读完，如此积压下去最终达到了人力不可逾越的数量，再也不可能全部读完。尽管这些邮件都是有用的邮件，但有用也是有级别的，相同的邮件对于不同的用户可能有不同的优先级，不同的邮件对相同的用户也有不同的优先级，如何能将邮件按照一定的标准，例如内容或者主题，自动进行归类，就成为了一个有价值的研究主题。

1. 邮件自动分类问题抽象

给定训练集是新闻邮件训练集，共有20种类别，每个类别都有自己的名称（文件夹名称），每个文件夹内有大量的邮件，邮件以文本形式呈现。因此本任务是一项文本分类任务，给定一段文本，判断其类别，类别共20种。

同一封邮件，其内容或许不仅仅是只属于某个类别，也可能属于多个类别。在实际应用场景中考虑到用户可能由于对于某种邮件有错误的认知，而去错误的分类文件夹中寻找，如果能将同一封邮件分到多个可能的邮箱，那么可以大大加快用户寻找到该邮件的速度。基于这个想法，我们提出了另外一种性能度量方式：前K类命中率。前K类命中率是指，将邮件属于所有类别的可能性大小进行排序，取可能性最大的K个，将该邮件同时分到这K个类别中，计算测试样例中前K个类别含有正确类别的比例。KNN作为一个经典的机器学习分类模型，恰好契合我们的前K类命中率的想法，并且KNN易于并行化实现，因此作为我们首选的分类算法。

由于数据集中每一封邮件都是一个长字符串，而且其长度不一，无法直接作为KNN的输入。即使采用一些方法对短文本进行补齐和截断，将字符串的Unicode码当作是数值输入也是毫无意义的，因此应当对短文本进行一定的处理，将处理后的数据作为机器学习算法的输入，也就是要对数据进行向量化。向量化比较好的一种方式是TF-IDF，产生one-hot编码，并且TF-IDF简单、高效、易并行。

为了更加客观地评价KNN最终的分类效果，我们使用朴素贝叶斯进行类比实验，并使用准确率（Accuracy）作为评估指标，看KNN的表现是否能够超过朴素贝叶斯。需要注意的是朴素贝叶斯用到的向量化并非TF-IDF，而是基于统计词频的CountVectorize模型。

邮件自动分类任务方法

这一节详细讲述了词频、TF-IDF、KNN、朴素贝叶斯的原理。

1. 词频

对文本进行向量化的一个直观的方法是使用字典统计词频。例如，“我爱你，中国”这句话中，包含“我”、“爱”、“你”和“中国”这四个词，这句话的词频就是“我”：1，“爱”：1，“你”：1，“中国”：1。而“世界是我们的，也是你们的，但终究是你们的”词频是“世界”：1，“是”：2，“我们”：1，“的”：3，“也”：1，“你们”：2，“但”：1，“终究”：1。

1. TF-IDF

仅仅通过词频的方式将文本转换成向量会出现一个问题，在长度长的短文本中，词频会比长度短的短文本高得多，但是这两条短文本表达的都是同样的意思。如果采用one-hot编码，这个词袋模型并不能考虑词与词之间的顺序，并且这个模型的假设是词与词相互独立，但一个句子是一个序列，前后词是相互影响的，除此以外，通过one-hot编码得到的样本特征矩阵是稀疏的，因为中文词库非常大，然后数据集又是短文本，因此每条数据的词量很少。

TF-IDF是information retrieval领域中常用的文本表示方法，由TF和IDF两部分构成。

TF为词的词频，计算方式如下

IDF逆文档频率。在一条短文本中，几个词出现的次数可能是相同的，但是它们各自对于这个句子的“重要性”是不一样的，即如果某个词比较少见，但是在一条文本中多次出现，那么它很可能就反映了这条文本的特征IDF就是要给予最常见的词（停用词等）最小的权重，给予较常见的词（如“中国”）较小的权重，给予少见的词较大的权重，这个权重就叫做Inverse Document Frequency(逆文档频率，缩写为IDF)，计算方式如下

两者相乘就得到了这个词向量化中的TF-IDF值，如下图所示

TF-IDF的原理可以说类似于信息学中的信息熵，TF-IDF值与该词在文章中出现的频率成正比，与该词在整个语料库中出现的次数成反比，因此可以很好地提取文本关键词，用于表示文本内容

1. K近邻 K Nearest Neighbor Classifier
  1. 概述

KNN是机器学习中一种常用的监督学习方法，其原理是给定测试样本，基于某种距离度量找出训练集中与测试样本最靠近的k个训练样本，然后基于这k个邻居的信息来进行预测。通常，在分类任务重可以使用投票法，即选择这k个样本中出现次数最多的类别标记作为预测结果；在回归任务中则可以使用平均法，即将这k个样本的实值输出标记的平均值作为预测结果。除以此外，还可以基于距离远近进行加权平均或加权投票，距离越近样本权重越大。

1. 1. 距离度量方式

以下有多种距离度量的方式，本次实验中采用的最适合文档分类问题的余弦距离。

1. 1. 1. 欧氏距离

欧氏距离是最为常见的距离度量方式，全称是欧几里得距离或欧几里得度量，指的是在欧几里得空间中，两点间的直线距离，也成为向量的自然长度，计算公式如下：

可见，欧式距离即两个向量差值的二范数

1. 1. 1. 曼哈顿距离

曼哈顿距离源于纽约繁华的曼哈顿街道，指在几何度量空间对距离进行度量，也成为棋盘距离，计算公式如下：

可见，曼哈顿距离即两个向量差值的一范数

1. 1. 1. 余弦距离

余弦距离也成为余弦相似度，是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。相比前面两种距离度量方式，余弦距离更加注重两个向量在方向上的差异，而非在距离或长度上，其计算公式如下：

1. 朴素贝叶斯
2. 概述

贝叶斯算法的核心基于著名的贝叶斯公式，它把计算“具有某特征的条件下属于某类的概率”转化为计算“属于某类的条件下具有某特征的概率”，即后验概率等于先验概率乘以调整因子。在朴素贝叶斯算法中，首先预估一个先验概率，然后加入实验结果，看这个实验到底是增强还是削弱了先验概率，由此得到更接近事实的后验概率。

朴素贝叶斯方法给予随机变量独立性假设，这种假设非常适合处理文本分类问题。以朴素贝叶斯的观点，句子中两词之间的关系是相互独立的，即一个词的特征向量中每个维度都是相互独立的。

朴素贝叶斯方法的主要流程如下：

训练数据生成训练样本集，即TF-IDF过程
对每个类别计算概率
对每个特征属性计算所有类别下的条件概率
对每个类别计算以上两者相乘的值
取4中最大的类别作为样本所属类别

1. 拉普拉斯修正

在训练集中，很多样本的取值可能并不在其中，但是这不并代表这种情况发生的概率为0，因为未被观测到，并不代表出现的概率为0 。在概率估计时，通常解决这个问题的方法是要进行平滑处理，常用拉普拉斯修正。

朴素贝叶斯中先验概率的计算公式为：

类的条件概率计算公式为：

经由拉普拉斯修正后，

先验概率计算公式变为：

类的条件概率计算公式变为：

1. 多项式模型

朴素贝叶斯常见有两种模型，多项式模型(multinomial model)即词频型和伯努利模型(Bernoulli model)即文档型。二者的计算粒度不一样，多项式模型以单词为粒度，伯努利模型以文件为粒度，因此二者的先验概率和类条件概率的计算方法都不同。邮件分类任务中通常多项式模型能取得更好的效果，本次实验中采用的即是多项式模型。

在多项式模型中，设某文档d=(t1,t2,…,tk)，tk是该文档中出现过的单词，允许重复。我们默认采用哪个拉普拉斯修正，则先验概率和类条件概率计算如下：

先验概率P(c) = 类c下单词总数 / 整个训练样本的单词总数

类条件概率P(tk|c)=(类c下单词tk在各个文档中出现过的次数之和 + 1) / (类c下单词总数 + |V|)

其中V是训练样本的单词表（即抽取单词，单词出现多次，只算一个），|V|则表示训练样本包含多少种单词。 P(tk|c)可以看作是单词tk在证明d属于类c上提供了多大的证据，而P(c)则可以认为是类别c在整体上占多大比例(有多大可能性)。

朴素贝叶斯模型进行预测的方法是计算不同类的后验概率Ppost，取其中最大者的类作为预测的类别。后验概率的计算方式如下：

由于P(X)的大小是固定不变的，因此在比较后验概率时，只比较上式的分子部分即可。

邮件自动分类任务技术细节
1. 数据预处理

数据预处理主要包括标点符号去除、停用词及数字去除和类别转化三部分。

1. 1. 标点去除

在使用StringTokenizer对输入value进行切分前，会先将句子中的标点符号去掉。标点符号只考虑了标准键盘上出现的中英文标点符号。考虑到总量并不算很多，就没有采用正则表达式进行匹配。程序在setup中首先将储存有这些标点符号的文件读入为一个ArrayList数组中，称为标点符号表。对于每一个输入value，使用String的replace方法，遍历标点符号表，对value.toString()结果执行replace(“<标点符号>”,” ”)

1. 1. 停用词去除

停用词表精选了英文中常见的800多个词汇，还包含0~9这是个数字。使用StringTokenizer对输入value进行切分以后，对于切分出的每个单词，判断其是否在停用词表中，如果在停用词表中，将这个词抛弃；只有不在停用词表中的词才会被map操作发射出去

1. 1. 类别转换

所有邮件按其归属的文件夹名来划分类，map发射出去的时候回以文件夹名来表示它属于的类。

1. 词频统计与TF-IDF值

TF值计算、IDF值计算和TF-IDF值计算分别由三个不同的Job组成。

1. 1. TF值计算
    1. Mapper

Mapper主要有setup、map和cleanup组成。在setup中，读入标点符号和常见词这两个停用词表，将value中的标点符号、数字和常见词进行去除。之后的map操作中，使用StringTokenizer将value切分成词汇，然后发射<文件名+词汇，1>，并对总词汇进行计数。cleanup中发射<文件名+”!”，总词数>。

1. 1. 1. Combiner

Combiner继承Reducer类，由reduce方法组成。因为”!”在 ASCII 码表中排在所有英文字母之前，因此Combine操作首先收到的就是总词数，然后对相同词汇的数量进行累加，之后除以总词数，就得到了词汇的TF值，发射<文件名+词汇，TF值>

1. 1. 1. Partitionr

Partitioner继承HashPartitioner类，重载了getPartition方法。由于key是文件名+词汇组成，因此同一个文件的不同词汇并不会被放到同一个Reducer上进行reduce，因此需要把文件名作为key进行Partition。直接取文件名，然后调用父类的getPartition方法，将key改为文件名，其他参数原封不动地传进去即可。

1. 1. 1. Reducer

Reducer主要有setup、map和cleanup组成。我们希望将同一个文件的词汇的TF值还写到同一个文件中，并且文件名还与原先文件名保持一致，因此输出的format采用了MultipleOutputs类，setup和cleanup就是用于MultipleOutput实例的初始化和清理。在Reduce中，调用MultipleOutputs类的write方法，将词汇及其TF值写入与原先文件同名但不同文件夹的中间结果文件中。

1. 1. 1. 类别

除了以上操作外，还需注明邮件所属类别。我们将邮件所述类别通过job的setProfileParams方法提前写入，然后将其加到文件名的前面，用#符号分隔开来。

1. 1. IDF值计算

IDF计算会读取所有文件，文件数量经由文件系统操作统计，之后通过job的setProfileParams方法提前写入，在map和reduce操作中统计词汇数量和计算IDF值。

1. 1. Mapper

Mapper只有一个map操作，发射<词汇，1>。

1. 1. Reducer

Reducer中对词汇数量进行累加，之后从Context取得文件总数计算词汇IDF值，然后将词汇及其IDF值写入IDF结果文件。除此以外，还可以加一个Combiner，把Mapper的结果先进行一次累加，减小数据传输量。

1. 1. TF-IDF值计算
    1. Mappper

Mapper由setup和map组成。setup中读取存放IDF计算结果的文件，将词汇与其IDF值分别存放于一个字符串数组和一个浮点数数组的相应位置。map操作中，读入TF文件，之后找到其IDF值进行计算，然后发射<词汇，词汇的TF-IDF值>

1. 1. 1. Reducer

Reduce操作与TF的job类似，也是按照文件名将TF-IDF向量写入。除了将文件中出现的TF-IDF值写入，没出现的词认为其TF-IDF值为0，也要写入文件。TF-IDF值的写入顺序与IDF中间结果文件的顺序相同，因此在最后的TF-IDF文件中，只有向量值，没有词汇，减小了数据量。也方便了后续的计算

1. KNN

KNN原理如2.4所述，此处不再赘述。KNN的计算仅需重写Mapper，核心就是计算距离，然后根据K值筛选。Map操作首先在setup方法中，将已经计算好的训练集文档的TF-IDF值读入内存。考虑到训练集的规模和文档向量的稀疏特征，采用hashmap储存。在map方法中，计算每一个训练集样本与测试样本之间的距离，根据预先设定的K值，始终保留K最近邻，保存在长度为K的数组中。在计算完所有训练集样本与该测试样本的距离后，采用投票法，根据K近邻中最多的类别，判断测试样本的类别，然后发射<测试样本文件名, 类别>

1. CountVectorize

CountVectorize是进行朴素贝叶斯之前的预处理步骤，分为Count、ListWords、Vectorize三个阶段。

1. 1. Count
  2. Mappper

Mapper主要有setup、map组成。在setup中，读入标点符号和常见词这两个停用词表，将value中的标点符号、数字和常见词进行去除。之后的map操作中，使用StringTokenizer将value切分成词汇，然后发射<文件名+词汇，1>，用以统计单个文件的词汇出现频数。

1. 1. Combiner & Partitioner

Combiner将相同词汇的频数加起来，Partitioner阶段将key拆分，只保留文件名，从而将相同键值的键值对发送到同一个reduce服务器上。

1. 1. Reducer

使用MUltipleOutputs类，将不同邮件的词汇统计存放到不同的文件中，输出的文件名由邮件的类和邮件本身的名字组成，即“类别#原文件名”，以便后续的步骤。输出的内容为<词汇, 频数>。

1. 1. ListWords
  2. Mappper

读取Count步骤的生成的训练集的文件，遇到一个词就发射<词，词频>。

1. 1. Reducer

将接收到的键值对中的值加起来，形成一个词出现的总次数，然后输出键值对<单词，次数>。

1. 1. Vectorize
  2. Mappper

首先在setup函数中把上一个步骤生成的wordlist加载，便于获得词汇的索引值写入向量。并且发送一个总词数和总词汇数键值对<”!”, wordcount: wordTypes>。

在map阶段，读取Count阶段生成的每一个文件，取得一个词在某一个邮件中的频数，在词汇表中找到这个词的索引值，然后发射<词所在文件，词#词的频数>。其中词所在的文件会标注出该邮件属于训练集还测试集。

对于训练集中未出现在词典中的词，将其直接抛弃不作为特征向量。

1. 1. Reducer

这里为了区分训练集向量和测试集向量，这里也使用了MultipleOutputs类来进行输出，同时也使用本身的context变量来输出到文件中。对于其余的键值对，因为相同的文件会被分配到同一个Reducer中，所以用一个vector来存放所有该文件的词向量；当属于其他文件的键值对到来时，就输出当前vector中的内容。

3.5朴素贝叶斯

5. 1. 训练
    1. Mappper

由于采用了多项式模型，在发射键值队时，除了要发送之外，还需要累加一个文件中的所有词汇的词频数，再发送。

1. 1. 1. Reducer

需要统计的信息有两种：某个类所有文件包含的单词总数、属于某个类的某个词在该类中出现的次数，因此依然采用MultipleOutputs进行输出。这里需要通过键值对中的键来区分是两种信息中的哪一种。无论是哪一种，在输出前都需要将他们收到的键值中的值累加起来再输出。这样就把模型的基本信息给输出了。

1. 1. 预测
    1. Mappper

和Knn一样，预测只需要重写Mapper。首先在setup步骤先读入需要的三个文件：vectorize步骤中生成的记录总词数和总词汇数的文件、训练模型步骤中生成的两个文件。

将输入的样本的特征提取出，然后依次计算它在每个类下的概率，选择概率最高的类，输出键值对<样本名字#概率值，预测类>。

1. 准确率（Accuracy）

本次实验中，我们采取准确率(Accuracy)这样一个经典的分类效果衡量指标对分类器的表现进行评估，准确率简单、高效，易于实现，其计算公式如下：

准确率实现在Mapper阶段时，对预测的结果进行判断。如果预测的类别和真正的类别相同，则发射；否则发射。在Reduce阶段统计T和F的数量，从而根据公式计算出准确率。

结果及实验对比
1. KNN（K=10）

首先在集群上进过了4小时左右的计算，得到TF-IDF表，然后进行KNN的训练和预测，K值默认为10。最终的预测结果截图如下：

进一步我们计算了预测结果的准确率：Accuracy=0.787。截图如下：

1. 朴素贝叶斯（采用拉普拉斯修正和多项式模型）

首先算出CountVectorize表，然后采用朴素贝叶斯进行训练和预测。预测结果截图如下：

朴素贝叶斯预测结果的准确率：Accuracy=0.614。截图如下：

讨论与改进
1. KNN的K值取用

KNN中K值的选取非常重要。如果当K的取值过小时，一旦有噪声得成分存在们将会对预测产生比较大影响，例如取K值为1时，一旦最近的一个点是噪声，那么就会出现偏差，K值的减小就意味着整体模型变得复杂，容易发生过拟合；如果K的值取的过大时，就相当于用较大邻域中的训练实例进行预测，学习的近似误差会增大。这时与输入目标点较远实例也会对预测起作用，使预测发生错误。K值的增大就意味着整体的模型变得简单；如果K==N的时候，那么就是取全部的实例，即为取实例中某分类下最多的点，就对预测没有什么实际的意义了；K的取值尽量要取奇数，以保证在计算结果最后会产生一个较多的类别，如果取偶数可能会产生相等的情况，不利于预测。

我们在实验中KNN的预测准确率偏低，可能是因为没有取到一个合适的K值。因此，我们做了一组实验，观察K值对准确率的影响。

K值	准确率
3	0.866
5	0.840
10	0.787
15	0.778

可见，在K值较小时，实验结果就有很大改进。这反映了在现实中存在很多不确定性，分类问题也不是非黑即白的。同一封邮件，其内容或许不仅仅是只属于某个类别，也可能属于多个类别，即一封邮件中包含了多个类别的信息。如果K值取得比较大，可能会有更多训练数据和邮件中次要的信息进行匹配，导致最终预测的准确率不升反降。从实验结果开看，K=3时，KNN的准确率最高，达到0.866，算得上是不错的预测表现。

1. 朴素贝叶斯的改进

实验中朴素贝叶斯的准确率只有0.614，显著低于朴素贝叶斯的平均表现。预测完成后，我们检查了朴素贝叶斯的预测文件，发现大部分测试样本的后验概率都是0，导致算法无法进行合理分类。究其原因，是因为文档中大部分词的词频都不高，最多的也不超过1000，然而词典的总词数是10万左右，使得词的类条件概率值非常接近0，最后的计算得到的后验概率有甚者达到10的-100次方级别。在数据如此小的情况下，计算机无法保持其精度，也就无法比较不同的后验概率来进行分类判别。

鉴于此种情况，我们在每一个类条件概率外加一层log，取其对数值。对数可以将非常接近0的数据映射到差异性比较大的大数上，从而回避了类条件概率趋于0而无法判别的问题。

以下是改进后朴素贝叶斯的预测结果截图：

改进后朴素贝叶斯结果的准确率：Accuracy=0.897。截图如下：

可以发现朴素贝叶斯的效果取得了非常大的提升，准确率接近0.9，甚至高于KNN。说明朴素贝叶斯确实是一个经典、高效的文档分类算法，在此类问题中表现非常优秀。

1. 词向量/文档向量与LSTM

尽管TF-IDF模型非常适合表示文本特征，但是它还是没有利用到词的顺序信息。对于这个问题，更为合适的一个做法是提取短文本每个词的词向量，之后将其补齐和截断到统一的长度，然后训练一个长短期记忆网络LSTM，这样既利用了词本身的信息，还利用了词之间的语序信息，毕竟LSTM生来就是为处理NLP任务的。鉴于时间关系，我们并没有实现这一部分代码。我们预测词向量模型的改进一定能进一步提高KNN的预测表现。

1. 结论

KNN和朴素贝叶斯都是非常优秀的文档分类算法，经过我们的改进后，这两者都有了不错的准确率。从结果来看，KNN的表现略微低于朴素贝叶斯，可能是因为词向量模型采用的是简单的TF-IDF，并没有充分利用文本中的语言信息。

KNN和朴素贝叶斯都非常适合用mapreduce的方式进行并行化，能在较短时间内完成对大量数据的处理，最终取得了不错的成果。

分工情况
1. 方法确定和问题讨论

一同完成

1. TD-IDF

圆哥：主体

牛哥：改进TF-IDF值的最终计算

月哥：提出TF-IDF向量归一化

1. CountVectorize

牛哥：主体

月哥：步骤优化（在vectorize中进行词汇、词数统计）

1. KNN和朴素贝叶斯

圆哥：KNN主体

月哥：KNN算法修正

牛哥：KNN内存优化，朴素贝叶斯。

1. 实验运行与集群操作

牛哥：将文件IO从本地操作改为HDFS操作

1. 报告书写

圆哥：引言，第1～2章、第3.1～3.3、5.3小节

牛哥：3.4、3.5小节

月哥：其他部分、校对

你可能感兴趣的:(算法,大数据实验,MapReduce,Hadoop,MapReduce,Hadoop,KNN,朴素贝叶斯,Naive,Bayes)

电力行业 | 抽水蓄能场景下，百万测点数据如何统一采集与接入？ DolphinDB智臾科技物联网 dolphindb 数据库抽水蓄能电力数据采集数据接入
在电力行业，抽水蓄能是目前最成熟、已经大规模化应用、兼顾发电和储能的一项技术。为了保障电站的平稳运行，借助物联网、大数据等技术，对电站各类运行设备进行实时采集，如机组振动、油压波动、瓦温变化等生产监测数据，已成为电站稳定运维的重要技术手段。在之前的文章储能业|低成本部署！DolphinDB打造抽水蓄能一体化解决方案-CSDN博客中，我们介绍了DolphinDB在抽水蓄能场景中的全链路解决方案。今天
C#哈希加密：原理、实现与应用阿蒙Armon C#工作中的应用 c#哈希算法开发语言
C#哈希加密：原理、实现与应用在当今数字化时代，数据安全是每个应用程序都必须重视的问题。哈希加密作为一种重要的加密技术，在密码存储、数据完整性验证、数字签名等领域发挥着关键作用。本文将深入探讨C#中哈希加密的原理、常用算法以及实际应用，并通过代码示例展示如何在C#中实现哈希加密。一、哈希加密基础哈希加密（也称为哈希函数或散列函数）是一种将任意长度的输入数据转换为固定长度输出的算法。这个固定长度的输
java 学习底层代码算法好学且牛逼的马 java
#33写算法题黑马的视频争取简单的过一遍要考试啦密码的写底层代码秘密的底层代码有点长啊看不懂难找了几个视频课看看吧想看中文版jdkapi吧算了慢慢看先把几个顶级父类给看会了objectsystemstringstringbuilder算法单路递归packagecom.itheima.Recursion;publicclasssingleRecursion{ publicstaticvoidma
稳定币技术全解：从货币锚定机制到区块链金融基础设施 Ashlee_guweng22346 游戏区块链金融架构人工智能自动化 java
引言：稳定币的技术定位根据国际清算银行（BIS）2025年定义：稳定币是以法定资产或算法机制维持价值稳定的区块链代币，其本质是传统金融与加密技术的接口层。核心价值：解决加密货币波动性问题→成为DeFi生态的计价基准与结算工具第一章技术原理：稳定币如何实现“稳定”？1.1锚定机制的三类技术路径graphTBA[稳定币类型]-->B[法币储备型]A-->C[加密资产抵押型]A-->D[算法调控型]B-
Java 集合list 手搓底层源码好学且牛逼的马算法
#32Java八股集合基础用法掌握速通小林不是很全老韩详细底层byd课程质量一般八股文听书算法题不会写byd密码的还没开始看双指针技巧秒杀七道链表题目|labuladong的算法笔记等等熬夜看笔记实现底层代码后面非常长但是也只写到了list完map和set明天写collection这段代码展示了Java集合框架的核心接口层次结构。`Collection`是整个集合框架的根接口，定义了集合操作的基本
SQLite 数据库在大数据分析中的应用潜力数据库管理艺术数据库 sqlite 数据分析 ai
SQLite数据库在大数据分析中的应用潜力关键词：SQLite、大数据分析、轻量级数据库、嵌入式数据库、数据仓库、OLAP、性能优化摘要：本文深入探讨了SQLite这一轻量级嵌入式数据库在大数据分析领域的应用潜力。我们将从SQLite的核心架构出发，分析其在大数据场景下的优势和限制，并通过实际案例展示如何通过优化策略和扩展技术使SQLite能够处理大规模数据集。文章包含性能对比测试、优化技巧和实际
操作系统基本概念与进程管理：从入门到精通阿贾克斯的黎明软考软考
目录操作系统基本概念与进程管理：从入门到精通一、常见操作系统与计算机系统层次结构二、操作系统的概念、功能与特征三、操作系统的发展与分类四、进程管理（一）进程的状态与状态转换（二）前驱图（三）进程同步与互斥机制（四）信号量机制与PV操作（五）PV操作实现前驱关系（六）死锁（七）银行家算法在计算机的世界里，操作系统就像是一位幕后的“大管家”，默默管理着计算机的各种资源，协调着各种程序的运行。今天，咱们
C++快速排序算法详解与实现小小的博客排序算法 c++算法排序算法 c++排序算法
快速排序（QuickSort）是一种高效的排序算法，由英国计算机科学家东尼·霍尔（TonyHoare）于1960年发明。本文将详细讲解快速排序算法的原理和实现，并通过C++语言展示其代码实现。1.快速排序算法原理快速排序算法的基本思想是分治法（DivideandConquer），其核心步骤如下：1.选择一个基准元素（pivot），通常选择序列中的第一个或最后一个元素。2.将序列分为两部分，一部分是
Spring Cloud Ribbon核心负载均衡算法详解代码的余温 spring cloud ribbon 负载均衡
Ribbon作为SpringCloud生态中的客户端负载均衡工具，提供多种动态负载均衡算法，根据后端服务状态智能分配请求。其核心算法及适用场景如下：一、Ribbon负载均衡算法算法名称工作原理引用来源轮询(RoundRobinRule)按服务列表顺序依次分发请求，实现均匀分摊负载随机(RandomRule)从可用服务列表中随机选择一个实例处理请求加权响应时间(WeightedResponseTim
后端技术：利用 MySQL 实现数据加密大厂资深架构师 Spring Boot 开发实战 mysql 数据库 ai
后端技术：利用MySQL实现数据加密关键词：MySQL数据加密、AES加密、数据库安全、数据保护、加密算法、密钥管理、SQL注入防御摘要：本文深入探讨如何在MySQL数据库中实现数据加密，保护敏感信息免受未授权访问。我们将从加密的基本原理出发，详细讲解MySQL支持的多种加密方式，包括AES、SHA等算法的实现方法。文章包含完整的代码示例和最佳实践，帮助开发者在实际项目中应用数据加密技术，同时讨论
【LeetCode】滑动窗口相关算法题在成都搬砖的鸭鸭 Golang刷LeetCode 算法 leetcode
目录1、介绍2、核心思想3、算法题【1】长度最小的子数组1、介绍滑动窗口算法是一种高效处理数组/字符串子序列化问题的技术，它通过维护一个动态的窗口来避免不必要的重复计算。2、核心思想1、窗口定义：使用两个指针表示当前考察的子序列2、窗口移动：右指针扩张，扩大窗口范围，包含新元素；左指针收缩，缩小窗口范围，排除旧元素3、状态维护：在窗口移动过程中维护关键状态信息3、算法题【1】长度最小的子数组Lee
快速排序（快排）实现及原理 hixiaoyang 排序算法算法 java
一、算法概述快速排序（QuickSort）是由TonyHoare在1960年提出的一种分治算法，平均时间复杂度为O(nlogn)，最坏情况下为O(n²)。它是目前实践中最高效的通用排序算法之一。核心思想：通过一趟排序将待排记录分隔成独立的两部分，其中一部分记录的关键字均比另一部分的关键字小，然后递归地对这两部分记录继续进行排序。二、算法原理1.基本步骤选择基准（pivot）：从数组中选择一个元素作
机器视觉_图像算法（六）——形状矩(Hu) 智能之心 #机器视觉_图像算法形状矩 opencv
图像形状矩：一个从一幅数字图形中计算出来的矩集，通常描述了该图像形状的全局特征，并提供了大量的关于该图像不同类型的几何特性信息，比如大小、位置、方向及形状等。一阶矩与形状有关，二阶矩显示曲线围绕直线平均值的扩展程度，三阶矩则是关于平均值的对称性的测量。由二阶矩和三阶矩可以导出一组共7个不变矩。而不变矩是图像的统计特性，满足平移、伸缩、旋转均不变的不变性，在图像识别领域得到了广泛的应用。一般由mom
重温经典第二弹（xdoj1175，xdoj1179） Owen_Q 搜索暴力枚举字符串
一转眼，记忆又来到了暑假。或许，这是一个这算是自己真正开始接触了解acm的一个时间点吧，各种算法数据结构，开始慢慢浮出水面。回顾当初，感慨万千。又找出了两道未ac之题，确实复杂度明显加强，思维性的进一步考验。Count思路：子串搜索问题，因为n和k大到2e5，因此，肯定是个单向处理不能回溯的问题，否则最坏n方的复杂度是难以接受的。对于单次搜索，考虑可以维护现有区间的元素，然后移位遍历向后搜索，对于
python循环语句
Python循环语句文章目录Python循环语句一、实验目的二、实验原理三、实验环境四、实验内容五、实验步骤1.While循环结构2.While无限循环3.For循环语法4.break语句和continue语句一、实验目的掌握循环结构的语法二、实验原理Python中的循环语句有for和while。Python循环语句的控制结构图如下所示：三、实验环境Python3.6以上PyCharm四、实验内容
Golang数据结构与算法：实现经典算法的Go版本 Golang编程笔记 golang 算法开发语言 ai
Golang数据结构与算法：实现经典算法的Go版本关键词：Golang、数据结构、算法、经典算法、Go实现摘要：本文将带领大家深入探索在Golang中实现经典算法。我们会先介绍一些基础的数据结构和算法概念，然后用生动的故事和例子来解释这些概念，接着给出核心概念之间的关系。通过详细的代码示例，展示如何在Go语言里实现这些经典算法，还会介绍它们的实际应用场景、相关工具和资源，探讨未来的发展趋势与挑战。
基于均值偏移算法的动态目标跟踪研究 Zoiny_楠算法均值算法目标跟踪
摘要：目标跟踪技术是计算机视觉领域中重要研究课题之一,在人类生活、军事侦察、工业生产、医疗诊断、交通管理等多方面,都有广泛的应用,研究目标跟踪对人类生活、工程应用等具有现实的指导意义。在基于视觉的目标跟踪算法中,经典的Mean-Shift算法以其理论科学有效、操作简单易实现,跟踪性能较好等优势,一直是众多学者研究的热点。可算法也存在着许多缺陷。例如目标模型中混有背景信息的干扰,给目标定位带来了偏差
目标跟踪存在问题以及解决方案选与握 #目标跟踪目标跟踪人工智能计算机视觉
3D跟踪一、数据特性引发的跟踪挑战1.点云稀疏性与远距离特征缺失问题表现：激光雷达点云密度随距离平方衰减（如100米外车辆点云数不足近距离的1/10），导致远距离目标几何特征（如车轮、车顶轮廓）不完整，跟踪时易因特征匹配失败导致ID丢失。典型案例：在高速公路场景中，200米外的卡车因点云稀疏（仅约50个点），跟踪算法难以区分其与大型货车的形状差异，导致轨迹跳跃或ID切换。技术方案：稀疏点云增强与特
AI原生应用领域反馈循环：助力应用持续进化 AI天才研究院计算 AI大模型企业级应用开发实战 AI人工智能与大数据 AI-native ai
AI原生应用领域反馈循环：助力应用持续进化关键词：AI原生应用、反馈循环、持续进化、数据驱动、用户体验摘要：本文围绕AI原生应用领域的反馈循环展开探讨。首先介绍了反馈循环在AI原生应用中的重要性，接着详细解释了反馈循环的核心概念及其相关要素。通过具体的算法原理和操作步骤展示了反馈循环如何在技术层面实现。以实际项目案例说明反馈循环在实际开发中的应用和效果。还探讨了反馈循环在不同场景下的应用，推荐了相
AI原生应用性能优化：混合推理的7个最佳实践 AI天才研究院计算 AI大模型企业级应用开发实战 AI人工智能与大数据 AI-native 性能优化 ai
AI原生应用性能优化：混合推理的7个最佳实践关键词：AI原生应用、性能优化、混合推理、最佳实践、推理效率摘要：本文主要探讨了AI原生应用性能优化中混合推理的相关内容。首先介绍了文章的背景、目的、预期读者和文档结构等信息，接着对混合推理的核心概念进行了通俗易懂的解释，并阐述了各核心概念之间的关系，给出了核心概念原理和架构的文本示意图以及Mermaid流程图。详细讲解了核心算法原理和具体操作步骤，用数
c++STL库与快速排序浪子小院基础精讲 c++算法开发语言数据结构
什么是STL库STL=StandardTemplateLibrary，标准模板库，是一系列软件的统称。从根本上说，STL是一些“容器”的集合，这些“容器”有list,vector,set,map等，STL也是算法和其他一些组件的集合。前面已经学习过的中sort函数、中string类都是STL的内容。STL库还有很多内容，比如：向量（vector）、栈（stack）、队列（queue）、优先队列（p
AI伦理与自动驾驶：当机器掌握方向盘时的道德抉择 AIGC应用创新大全 AI大模型与大数据技术 AI人工智能与大数据应用开发 MCP&Agent 云算力网络人工智能自动驾驶 unix ai
AI伦理与自动驾驶：当机器掌握方向盘时的道德抉择关键词：AI伦理、自动驾驶、道德算法、电车难题、责任归属、技术监管、人机协作摘要：本文深入探讨自动驾驶技术发展过程中面临的伦理挑战，从经典的"电车难题"出发，分析AI决策系统在生死抉择中的道德困境。我们将剖析自动驾驶的伦理框架设计原则，探讨技术实现方案，并通过代码示例展示伦理算法如何嵌入自动驾驶系统。文章还将讨论法律责任划分、社会接受度等现实问题，最
利用大数据领域Doris提升企业数据决策效率大数据洞察大数据网络 ai
利用大数据领域Doris提升企业数据决策效率关键词：大数据、Doris、企业数据决策、数据处理、效率提升摘要：本文围绕利用大数据领域的Doris来提升企业数据决策效率展开。首先介绍了背景，包括目的、预期读者、文档结构和相关术语。接着阐述了Doris的核心概念、架构以及与其他系统的联系。详细讲解了Doris的核心算法原理和具体操作步骤，并给出Python代码示例。同时介绍了相关的数学模型和公式。通过
燕山大学软件用户界面设计考题能运行就算成功经验分享
2024年考题，考前完全不知道考什么，趁着现在还记得，造福下后辈。全部是简答。1.描述下实用性和它的三个维度2.写出五个功能可见性的例子3.关键性模型Keystroke-LevelModel(KLM)字母的意思4.undo四个设计原则（笔记和翻译根本没有，看到时已经懵了）5.GUI三种设计方式6.瀑布模型为什么不适合ui设计后面是大题，跟写实验报告差不多，这次是个预定家政服务的题，写信息点描述中心
燕大《Python机器学习》实验报告：探索机器学习的奥秘温冰礼
燕大《Python机器学习》实验报告：探索机器学习的奥秘【下载地址】燕大Python机器学习实验报告下载这份实验报告是燕山大学软件工程专业的学生在进行机器学习实验时所编写的，内容详实，结构清晰，可以直接下载使用。报告中的实验数据和代码均经过验证，确保下载后可以直接应用于实际项目或作为学习参考项目地址:https://gitcode.com/Open-source-documentation-tut
Python 运用 Matplotlib 绘制动画图的流程 Python编程之道 Python人工智能与大数据 Python编程之道 python matplotlib 开发语言 ai
Python运用Matplotlib绘制动画图的流程关键词：Python、Matplotlib、动画图、绘制流程、动画原理摘要：本文详细介绍了使用Python的Matplotlib库绘制动画图的完整流程。从背景知识入手，阐述了Matplotlib动画绘制的目的和适用读者群体，接着深入剖析了核心概念，包括动画的基本原理和架构。通过核心算法原理的讲解和Python源代码示例，展示了如何实现动画绘制。同
什么是 Paxos和Raft MonkeyKing.sun paxos raft
Raft和Paxos是两种经典的分布式一致性算法（ConsensusAlgorithms），广泛应用于数据库、分布式系统、微服务架构中，用来确保在多个节点中即使有部分节点故障，系统仍然可以就“某一值”达成一致（即：分布式共识）。它们不是区块链专属，但在联盟链、私有链或数据库复制系统中常被用来替代PoW、PBFT等共识机制。一、什么是Paxos？定义：Paxos是一种保证在部分节点失效或网络延迟时，
什么是DPoS（Delegated Proof of Stake，委托权益证明） MonkeyKing.sun DPoS
DPoS（DelegatedProofofStake，委托权益证明）是一种基于PoS（权益证明）演进而来的共识算法，设计初衷是提高性能、增强治理效率、实现社区自治。一、什么是DPoS（委托权益证明）？DPoS是一种将记账权“委托给投票选出的代表节点”的共识机制。普通用户不直接参与出块，而是通过投票选出“代表人”代为记账和验证交易。可以理解为：“股东大会投票选董事会代表他们管理公司”。二、DPoS的
【图像处理入门】12. 综合项目与进阶：超分辨率、医学分割与工业检测小米玄戒Andrew 图像处理：从入门到专家图像处理人工智能深度学习算法 python 计算机视觉 CV
摘要本周将聚焦三个高价值的综合项目，打通传统算法与深度学习的技术壁垒。通过图像超分辨率重建对比传统方法与深度学习方案，掌握医学图像分割的U-Net实现，设计工业缺陷检测的完整流水线。每个项目均包含原理解析、代码实现与性能优化，帮助读者从“技术应用”迈向“系统设计”。一、项目1：图像超分辨率重建（从模糊到清晰的跨越）1.技术背景与核心指标超分辨率（SR）是通过算法将低分辨率（LR）图像恢复为高分辨率
OpenCV CUDA模块设备层-----线性插值函数log() 村北头的码农 OpenCV opencv 人工智能计算机视觉
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述该函数用于创建线性插值访问器，支持对GPU内存中的图像数据进行双线性插值采样。主要应用于图像缩放、旋转等几何变换中需要亚像素级精度的场景。为输入图像构造一个基于“双线性插值”的访问器对象LinearInterPtrSz，可以在CUDA核函数中按需访问缩放后的像素值
PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那