yhao浩

基于LR的新闻多分类（基于spark2.1.0, 附完整代码）

原创文章！转载请保留原始文章链接，谢谢！

环境：

Scala2.11.8 + Java1.8.0_112
Spark2.1.0 + HanLP1.3.2

完整项目代码见我的GitHub：https://github.com/yhao2014/ckoocML

（因为HanLP分词模型太大，未上传至项目中，需要的请从HanLP发布页下载，然后解压后将data目录整个放到ckoocML\dictionaries\hanlp\目录下即可）

注：GitHub上此部分代码已更改，进行了模块划分，主要分成了预处理类Preprocessor.scala和逻辑回归类LRClassifier.scala，以及基于LR分类的训练及测试LRClassTrainDemo.scala、LRClassPredictDemo.scala。但不影响本博文对LR多分类的实现和解读

主体流程

自从引进DataFrame之后，spark在ml方面，开始使用DataFrame作为RDD的上层封装，以屏蔽RDD层次的复杂操作，对应用开发者提供简单的DataFrame，以减少开发量。本文以最新的spark2.1.0版本为基础，构建从数据预处理、特征转换、模型训练、数据测试到模型评估的一整套处理流程。另外，经过综合考虑，本文分词方法选用HanLP分词工具（文档丰富、算法公开、代码开源，并且经测试分词效果比较好），数据使用的是从新闻网站爬取的新闻分类数据，数据格式如下：

说明：使用了4个分类的数据（文化、财经、军事和体育），每个分类使用了1000条数据，每行一条数据，有4个字段（分类、标题、日期和内容），使用"\u00EF"作分割符。

一、数据清洗转换

数据预处理步骤主要进行数据清洗、转换操作。主要代码如下：

首先从文件加载数据到RDD，然后按分割符进行切分。因为分类字段爬取下来时没有进行清洗，在这里我们需要将其分类提取出来，然后转换为spark上LR算法可以识别的Double形式，并按分类字段过滤掉未提取到分类或者分类不正确的脏数据，然后转换为DataFrame，并指定每个字段的字段名。

注意：这里必须要添加一行import spark.implicits._，否则不能引用到SparkSQL的toDF方法！

二、分词

在经过数据预处理之后，我们已经将数据转换为了我们想要的DataFrame格式，并且清洗掉了。接下来我们需要进行分词的操作，将新闻内容切分成一个个词语的形式，以便后续进行停用词去除以及转换为特征向量

这里我模仿spark的lm包下的StopWordsRemover类创建了Segmenter类，用于对数据进行分词，其内部调用了HanLP分词工具。（由于spark自带的StopWordsRemover等使用的闭包仅限于ml包，自定义的类无法调用，故只是采用了与StopWordsRemover类似的使用形式，内部结构并不相同，并且由于以上原因，Segmenter类没有继承Transformer类，故无法进行pipeline管道操作，此缺陷有待解决）

Segmenter类具体实现如下：

主要在transform方法中调用了HanLP相关的分词方法。注意，如果使用NShortSegment和CRFSegment，需要new相应的对象，这里我自己创建了MyNShortSegment和MyCRFSegment类，继承了HanLP中对应的类，并继承了Serializable特质（其实并没有做什么操作~）。主要是因为HanLP没有对它们实现序列化，直接在RDD中使用它们会报错。（当然你也可以对HanLP的源码进行修改，再重新打包。个人觉得比较麻烦，并且不易跟进HanLP发布进度，所以没去弄~）

此外，上面Segmenter代码的最后是使用DataFrame的join操作将原DataFrame与分词后的DataFrame进行了连接，与spark使用的schemaType元数据推断DataFrame结构的方式不同。

三、去除停用词

分词之后，我们需要对一些常用的无意义词（通常是语气词、连词等），如：“的”、“我们”、“是”等（统称为“停用词”）进行去除。因为这些词没有多大的意义，但是在自然语言中又经常使用，这些词不去掉会强烈的干扰我们对特征的抽取效果。（比如：在体育分类语料中，“的”共出现500次，“足球”共出现300次，那么谁更能代表体育这个分类呢？谁更应该作为特征被保留下来呢？）

去除停用词的操作我们直接调用ml包中的StopWordsRemover类：

由于spark的StopWordsRemover类中内置的停用词都是一些英文停用词，而我们在这里处理的是中文语料，故需要加载自己的停用词。这里我使用了HanLPdictionary目录下的stopwords.txt文件提供的停用词。（这里面都是一些基本停用词，如果对停用词要求比较高，可以在网上找几份停用词表进行合并，效果会更好一点）

有兴趣的同学可以进到transform方法中看一看，spark官方的去除停用词方法跟我们常用处理一样，将停用词转换成set，然后调用contains进行判断，然后过滤：

四、向量化

由于目前常用的分类、聚类等算法都是基于向量空间模型VSM（即将对象向量化为一个N维向量，映射成N维超空间中的一个点），VSM将数据转换为向量形式，便于对大规模数据进行矩阵操作等，也可以通过计算超空间中两个点之间的距离（一般是余弦距离）来计算两个向量之间的相似度。因此，我们需要将经过处理的语料转换为向量形式，这个过程叫做向量化。

这里我们也调用spark提供的向量化类CountVectorizer类进行向量化操作：

这里的vocabSize是词汇表大小，即转换为向量之后的向量维度。通过阅读fit方法（训练向量化模型，主要是计算vocabulary词汇表的过程），我们可以看到其逻辑也比较简单：wordcount计算词频 --> 计算文档频率 --> 按文档频率过滤-->取词频最大的vocabSize个词

从这里可以看出，所谓的训练CountVectorizer模型仅仅是对词频进行统计，计算出词频最大的vocabSize个词作为词汇表。下面我们继续看看transform方法：

transform方法也比较简单，将词汇表建立索引并转换为Map -->遍历并保留在词汇表中的词，及其词频 -->转换为稀疏向量形式

我们可以将向量化后的数据打印出来看看长什么样儿：

后面没有显示完，我们取第一条数据看看：

可以看到前面是标签，即类别序号，后面是一个稀疏向量，其元素分别代表：向量维度(2000)、特征索引数组(即词汇表中哪些索引号的词出现在该文档中)、词频数组(词汇表中索引词在该文档中出现的次数)，例：最后一个元素1975表示词汇表中第1975个词出现在该文档中，出现的次数是4

五、模型训练

在经过向量化后，数据就可以用来进行分类模型的训练了！这里我们先使用最常用的分类模型——逻辑回归LogisticRegression。spark上提供的LR模型可以实现多分类，正好适用于我们的语料。

下面是分类模型训练的代码:

在new一个LogisticRegression时，可以对其参数进行设置，这里大概跟大家说一下：

setMaxIter:设置最大迭代次数(默认100)，具体迭代过程可能会在不足最大迭代次数时停止(参照下一条)
setTol:设置容错(默认1E-6)，每次迭代会计算一个误差值，误差值会随着迭代次数的增加逐渐减小，如果误差值小于设置的容错值，则停止迭代优化
setRegParam:设置正则化项系数(默认0.0)，正则化项主要用于防止过拟合现象，因此，如果你的数据集比较小，特征维数又比较多时，易出现过拟合，此时可以考虑增大正则化项系数
setElasticNetParam:正则化范式比(默认0.0)，正则化一般有两种范式：L1(Lasso)和L2(Ridge)。L1一般用于特征的稀疏化，L2一般用于防止过拟合。这里的参数即设置L1范式的占比，默认0.0即只使用L2范式
setLabelCol:设置标签列(默认读取“label”列)
setFeaturesCol:设置特征列(默认读取“features”列)

还有一个参数是setWeightCol，即设置各特征的权重，默认值是将每个特征权重设置为1.0，这里我们使用默认值就好了，如果对特征有特殊要求，可考虑重新设置对应的权重（如将标题作为一项特征，并且标题重要性更高，可将标题这一特征的权重设置大一点）

注意：由于我们的数据稀疏性本来就很高了(2000维的向量只有少数维度有值)，因此切记不要把setElasticNetParam设置得过大！！因为setElasticNetParam越大表示L1正则所占比例越高，对向量稀疏化效果越好，而我们的向量本来就很稀疏了，再稀疏化特征基本都为0了，得到的分类效果跟随机分类没什么区别(不信的话可以把这个值设置大一点，然后把后面说到的预测结果的probability打印出来，可以看到在各类别上的概率差别不大)

关于参数的设置，一般根据语料特点和业务场景的不同有所不同，这是一个经验性的东西，没有一个固定的计算公式（所以对数据挖掘和算法工程师来说，调参是一件相当耗时并且头疼的问题）。我们这里暂时使用spark官方example里面的设置，后面再进行调优。

这里由于篇幅问题就不跟进去LR算法的源码了，有兴趣的同学可以自行走读源码。

开始训练时，spark默认会打印每次迭代的信息：

这里打印了每次迭代的步长(由算法内部自动设置)，以及每次迭代完后计算出的误差值，可以看到我们经过40次迭代后达到迭代次数上线，就停止迭代优化过程了。

刚才我们在代码中设置了打印前100个结果，可以看到console中有预测结果的输出：

可以看到效果还是蛮不错的！等等，怎么全分对了？不应该吧，往下面找找原来还是有些分错了：

不过从这些来看就算是分错了，在概率上和正确类别的概率相差也不是很大，可能是因为文章本身区分度就不太好吧！

六、模型估计

虽说模型看上去效果不错，但是我们也需要一个量化指标来衡量其效果：这个模型的准确率、召回率和F1值(这3个指标是评判模型预测能力常用的一组指标，没听过的可以先去了解一下)有多高呢？好在spark提供了用于多分类模型评估的类MulticlassClassificationEvaluator，我们就使用这个来测一测这个模型到底怎么样

具体代码如下：

这个类比较蛋疼的是每次必须设置参数setMetricName(默认返回f1值)以获取不同的评价指标，能不能一次性返回所有指标呢？通过看MulticlassClassificationEvaluator的源码，我们可以看到其实是可以的：

evaluate方法中的这个metrics实际上包含了所有的评价指标，但是头疼的是这东西并没有返回。不过！我们可以自己new这个东东来搞啊，于是自己写了以下代码：

运行结果如下：

运行了3次，结果都还不错，看来效果确实还可以。准确率基本能达到93%~94%的样子，这也是因为我们数据的类别区分度本身就比较好，如果选择的数据类别比较相近，分错的概率相对来说就比较大了。

整个测试的流程到这里基本结束了，一般数据挖掘的整体流程不外乎上面这些：数据清洗转换-->特征选择 -->向量化 -->模型选择与训练 -->模型测试 -->模型评估

但是！这仅仅是常规的处理流程，在使用算法的过程中，往往得到的结果并没有这么理想，这时我们需要对处理过程进行调优，接下来讲讲调优的事儿。

（本次测试的完整代码在最后面!）

================分割线 ====================

调优

下面我们将从以下几个方面来进行调优：

调整训练集大小
特征选择
模型调参

调整训练集大小

训练集的大小将直接决定我们模型的好坏。一般情况下，用于模型训练的训练集应当越大越好（打个比方，如果让你猜一个东西是什么，是不是给的提示越多，越容易才出来？），如果训练集过小，极易导致过拟合（即模型在训练数据上准确率特别高，几乎都可以分对，但是对于新数据，其预测的准确率并不是很高，这时可以称这个模型的泛化能力差。导致过拟合的原因是数据量太少，训练时模型把个别数据的局部特征当成了全局特征来处理，比如说：如果我们就给模型几片带锯齿边缘的树叶，它可能得到的结果是树叶都带锯齿边缘，那么如果给他一片光滑边缘的树叶，模型可能就把它识别成不是树叶）

因此我们首先尝试增大训练集看看效果会不会提升，这里我们将每个类别的数量从1000增加到2000，然后再运行一遍看看效果：

可以看到效果并没有得到提升，这也可能是由于准确率等本来就很高了，数据集的调整很难再有大的提升。其实，从我们选择的特征维数就可以估计，并不会产生过拟合现象（毕竟我们的维度相对于语料词数来说，还是比较少的）

特征选择

排除了过拟合，通过查看类别概率分布，发现每个文档在每个类别的概率相差不大，这意味着什么？可以猜测应该是我们的特征对样本数据的区分度不够，也就是说，使用目前选择的特征，无法很好地区分出哪些文档是属于哪个类别的！针对这种情况，我们先做以下两步操作：

过滤有效特征
增大特征维数
更改向量化方式

过滤有效特征

一般做特征选择时，都会尽量选择区分度大的特征，也就是容易从特征识别出是属于哪个类别（如从“足球”很容易看出应该是体育相关的文章）我们先把词汇表打印出来看看里面到底是些什么东西：

结果：

好吧！看来确实需要对词汇表做一些处理了，这里面都是些什么啊！我们可以做下面的操作：

过滤长度为1的词
过滤数字

代码实现如下：

结果：

分类结果：

感觉效果来说还不错，如果准确率本身不高的情况下，相信应该会有较大的提升！

增加特征维数

特征区分效果不好，会不会是特征数量太少呢？毕竟我们的语料是新闻长文本，每篇文档按200词计算，2000 * 4 *200 = 1600000，总共大于160万词，就算去除重复词、停用词，好歹10W应该是有的吧，我们此前设置词汇表大小才2000，会不会太小？我们试着把词汇表大小设置为5000看看效果怎么样：

看来效果果然有提升，同时，发现一个问题：多次运行得到的结果波动比较大，这个问题可以先思考一下，在下面我们进行模型调参的时候会讲到这个问题。

好了，我们再试试将特征增加到10000维看看效果：

可以看到各项指标还是有提高，我们再讲特征维度提高到15000：

看来特征维数我们设置为15000比10000的效果更好。下面我们为了节约时间直接将维度提升到50000试试：

可以看到准确率等反而出现了下降！

大家有时间还可以继续进行测试，其实可以发现随着维度的增加，准确率等先是不断的提高，然后反而会降低。降低就是因为产生了过拟合，特征数量太多，模型的泛化能力下降，此时就可以确定准确率最高时的特征维数比较合适。这里由于篇幅问题，15000~50000中间的就省略就不继续测试了。（注意，模型训练的时间会随着特征维度的增加大幅增加，这是因为中间进行向量计算时，其计算量会因为向量长度增加成几何增长，这也就是我们常说的“维度灾难”）

改进向量化方式

在上面流程中，我们使用了根据词频来选择向量的特征，这是一种常用的方法，但是还有另一种更常用的方法——TF-IDF，中文叫做“文档-逆文档频率”，这里的文档频率其实就是我们上面用到的词频，逆文档频率其实就是预料中文档的总数除以包含该词的文档数，然后再取对数，具体公式如下：

这里词频除以出现次数最多的词的词频是为了做标准化处理，消除不同文档长短带来的影响（也可以除以当前文档词的总数），而求逆文档频率的时候将包含词的文档数+1是为了做平滑处理，防止出现除零的情况。

使用TF-IDF与直接使用词频做特征选择最大的不同是TF-IDF选出来的词的区分度更高，因为TF-IDF越高的词，代表这个词更加为当前文档所独有，因此更能代表这篇文档的属性。

由于我们这里的各项指标都已经很高了，将TF改成TF-IDF效果不是很大，故不做此步骤的优化！如果你的分类准确率并不是很高，可以替换成TF-IDF做特征选择，效果应该会有所提升，TF-IDF在spark中也已经提供，具体使用可参考example中ml目录下的TfIdfExample.scala（注意，该示例中使用了HashingTF来提取词频，但是该过程没有生成我们上述的词汇表，也就是说我们不能针对词频提取的特征进行过滤等操作，推荐把此部分更换为我们上述提到的使用CountVectorizer来做词频计算，然后再使用IDF方法提取IDF值）

模型调参

我们这里使用到的LogisticRegression可以设置的参数在上面已经介绍过了，下面我们将针对这些参数进行调整，看看能否提高模型性能。

setMaxIter与setTol

这两个参数我们在上面也介绍过了，主要是用来控制模型迭代的次数。不知各位是否还记得，上面我们发现一个问题：使用40次迭代时，多次测试发现结果波动比较大，其实这个原因很明显：因为迭代次数不够，模型还没有收敛到最优，还处于波动状态，因此才会导致这个问题。如果我们设置迭代次数比较多，误差阈值比较小，这样虽然会延长模型训练的时间，但是训练处的模型会更加稳定，性能也会更优！

我们尝试设置setMaxIter=100，setTol=1E-7，看看结果怎么样（这里还是使用15000个特征，每个分类各2000篇文档）：

可以看到这次模型确实收敛了，而且各项指标来看确实有所提高！

大家还可以对setRegParam和setElasticNetParam进行测试，这两个参数是控制正则化的，用于减小过拟合现象，这里我们就不进行测试了（如果数据本来就稀疏的情况下，增大setElasticNetParam可能会导致准确率下降！原因我们在上面参数说明的时候已经解释过了）

================分割线 ====================

完整代码

package preprocess

importorg.apache.log4j.{Level, Logger}

importorg.apache.spark.ml.classification.LogisticRegression

importorg.apache.spark.ml.feature.{CountVectorizer, CountVectorizerModel,StopWordsRemover}

importorg.apache.spark.ml.util.Identifiable

importorg.apache.spark.mllib.evaluation.MulticlassMetrics

importorg.apache.spark.sql.{DataFrame, Row, SparkSession}

/**

* Created by yhao on 2017/2/11.

objectLRClassificationTest {

def main(args: Array[String]): Unit = {

Logger.getLogger("org").setLevel(Level.WARN)

// HanLP.Config.enableDebug()

val spark = SparkSession

.builder

.master("local[2]")

.appName("Segment Test")

.getOrCreate()

val filePath ="G:/test/classnews"

val stopwordPath ="dictionaries/hanlp/data/dictionary/stopwords.txt"

//数据清洗、转换

val textDF = clean(filePath, spark)

//分词

val segmenter = new Segmenter(spark)

.setSegmentType("StandardSegment")

.enableNature(false)

.setInputCol("content")

.setOutputCol("tokens")

val segDF = segmenter.transform(textDF)

//去除停用词

val stopwordArray =spark.sparkContext.textFile(stopwordPath).collect()

val remover = new StopWordsRemover()

.setStopWords(stopwordArray)

.setInputCol("tokens")

.setOutputCol("removed")

val removedDF = remover.transform(segDF)

//向量化

val vectorizer = new CountVectorizer()

.setVocabSize(15000)

.setInputCol("removed")

.setOutputCol("features")

val parentVecModel =vectorizer.fit(removedDF)

val numPattern = "[0-9]+".r

val vocabulary =parentVecModel.vocabulary.flatMap{term =>

if (term.length == 1 ||term.matches(numPattern.regex)) None else Some(term)

}

val vecModel = newCountVectorizerModel(Identifiable.randomUID("cntVec"), vocabulary)

.setInputCol("removed")

.setOutputCol("features")

val vectorDF =vecModel.transform(removedDF)

val Array(train, predict) =vectorDF.randomSplit(Array(0.7, 0.3))

//LR分类模型训练

train.persist()

val lr = new LogisticRegression()

.setMaxIter(100)

.setRegParam(0.2)

.setElasticNetParam(0.05)

.setLabelCol("label")

.setFeaturesCol("features")

.fit(train)

train.unpersist()

//LR预测

val predictions = lr.transform(predict)

// predictions.select("prediction","label", "probability").show(100, truncate = false)

//评估效果

val predictionsRDD =predictions.select("prediction", "label")

.rdd.

map { case Row(prediction: Double, label:Double) => (prediction, label) }

val metrics = newMulticlassMetrics(predictionsRDD)

val accuracy = metrics.accuracy

val weightedPrecision =metrics.weightedPrecision

val weightedRecall = metrics.weightedRecall

val f1 = metrics.weightedFMeasure

println("\n\n=========评估结果==========")

println(s"分类正确率：$accuracy")

println(s"\n加权准确率：$weightedPrecision")

println(s"加权召回率：$weightedRecall")

println(s"F1值：$f1")

spark.stop()

}

def clean(filePath: String, spark:SparkSession): DataFrame = {

import spark.implicits._

val textDF =spark.sparkContext.textFile(filePath).flatMap { line =>

val fields =line.split("\u00EF")

if (fields.length > 3) {

val categoryLine = fields(0)

val categories =categoryLine.split("\\|")

val category = categories.last

var label = -1.0

if (category.contains("文化"))label = 0.0

else if (category.contains("财经"))label = 1.0

else if (category.contains("军事"))label = 2.0

else if (category.contains("体育"))label = 3.0

else {}

val title = fields(1)

val time = fields(2)

val content = fields(3)

if (label > -1) Some(label, title,time, content) else None

} else None

}.toDF("label","title", "time", "content")

textDF

}

代码截图

你可能感兴趣的:(spark,机器学习)

机器学习——分类、回归、聚类、LASSO回归、Ridge回归（自用）代码的建筑师模型学习模型训练机器学习机器学习分类回归正则化项 LASSO Ridge 朴素
纠正自己的误区：机器学习是一个大范围，并不是一个小的方向，比如：线性回归预测、卷积神经网络和强化学都是机器学习算法在不同场景的应用。机器学习最为关键的是要有数据，也就是数据集名词解释：数据集中的一行叫一条样本或者实例，列名称为特征或者属性。样本的数量称为数据量，特征的数量称为特征维度机器学习常用库：Numpy和sklearn朴素的意思是特征的各条件都是相互独立的机器学习（模型、策略、算法）损失函数
量化交易系统中如何处理机器学习模型的训练和部署？ openwin_top 量化交易系统开发机器学习人工智能量化交易
microPythonPython最小内核源码解析NI-motion运动控制c语言示例代码解析python编程示例系列python编程示例系列二python的Web神器Streamlit如何应聘高薪职位量化交易系统中，机器学习模型的训练和部署需要遵循一套严密的流程，以确保模型的可靠性、性能和安全性。以下是详细描述以及相关的示例：1.数据收集和预处理数据收集在量化交易中，数据是最重要的资产。收集的数
spark explain如何使用 fzip Spark spark 执行计划
在Spark中，explain是分析SQL或DataFrame执行计划的核心工具，通过不同模式可展示查询优化和执行的详细信息，默认情况下，这个语句只提供关于物理计划的信息。以下是具体使用方法及不同模式的作用：1.explain的基本语法在Spark3.0及以上版本，explain支持多种模式参数，通过mode指定输出格式：#DataFrame调用方式df.explain(mode="simple"
【Spark】查询优化中分区（Partitioning）和分桶（Bucketing）是什么关系？什么时候应当分区，什么时候应当分桶？ petrel2015 spark 大数据分布式数据库
在学习Spark的过程中，分区和分桶乍一看很像，都能为了计算加速，但是仔细一想，一查还是有些差异的，甚至说差异很大。那么具体有什么差异点，有什么相同点。我做出了如下的整理，供大家参考，欢迎指正。相同点分区（Partitioning）和分桶（Bucketing）在很多方面具有相似性，它们都是用于优化大数据查询性能的技术数据划分的目的：优化查询性能分区和分桶的核心目标是通过将数据分割成更小的逻辑单元来
【深度学习与大模型基础】第7章-特征分解与奇异值分解 lynn-66 深度学习与大模型基础算法机器学习人工智能
一、特征分解特征分解（EigenDecomposition）是线性代数中的一种重要方法，广泛应用于计算机行业的多个领域，如机器学习、图像处理和数据分析等。特征分解将一个方阵分解为特征值和特征向量的形式，帮助我们理解矩阵的结构和性质。1.特征分解的定义对于一个n×n的方阵A，如果存在一个非零向量v和一个标量λ，使得：则称λ为矩阵A的特征值，v为对应的特征向量。特征分解将矩阵A分解为：其中：Q是由特征
【论文阅读】Persistent Homology Captures the Generalization of Neural Networks Without A Validation Set 开心星人论文阅读论文阅读
将神经网络表征为加权的无环图，直接根据模型的权重矩阵构造PD。计算相邻batch的权重矩阵PD之间的距离。比较同调收敛性与神经网络的验证精度变化趋势摘要机器学习从业者通常通过监控模型的某些指标来估计其泛化误差，并在训练数值收敛之前停止训练，以防止过拟合。通常，这种误差度量或任务相关的指标是通过一个验证集（holdoutset）来计算的。因为这些数据没有直接用于更新模型参数，通常假设模型在验证集上的
震惊！ “深度学习”都在学习什么扉间798 深度学习学习人工智能
常见的机器学习分类算法俗话说三个臭皮匠胜过诸葛亮这里面集成学习就是将单一的算法弱弱结合算法融合用投票给特征值加权重AdaBoost集成学习算法通过迭代训练一系列弱分类器，给予分类错误样本更高权重，使得后续弱分类器更关注这些样本，然后将这些弱分类器线性组合成强分类器，提高整体分类性能。（一）投票机制投票是一种直观且常用的算法融合策略。在多分类问题中，假设有多个分类器对同一数据进行分类判断。每个分类器
【论文阅读】Availability Attacks Create Shortcuts 开心星人论文阅读论文阅读
还得重复读这一篇论文，有些地方理解不够透彻可用性攻击通过在训练数据中添加难以察觉的扰动，使数据无法被机器学习算法利用，从而防止数据被未经授权地使用。例如，一家私人公司未经用户同意就收集了超过30亿张人脸图像，用于构建商业人脸识别模型。为解决这些担忧，许多数据投毒攻击被提出，以防止数据被未经授权的深度模型学习。它们通过在训练数据中添加难以察觉的扰动，使模型无法从数据中学习太多信息，从而导致模型在未见
机器学习 Day01人工智能概述山北雨夜漫步机器学习人工智能
1.什么样的程序适合在gpu上运行计算密集型的程序：此类程序主要运算集中在寄存器，寄存器读写速度快，而GPU拥有强大的计算能力，能高效处理大量的寄存器运算，因此适合在GPU上运行。像科学计算中的数值模拟、密码破解等场景的程序，都属于计算密集型，在GPU上运行可大幅提升运算速度。易于并行的程序：GPU采用SIMD架构，有众多核心，同一时间每个核心适合做相同的事。易于并行的程序能充分利用GPU这一特性
机器学习：让计算机学会思考的艺术平凡而伟大. 机器学习机器学习人工智能
目录什么是机器学习？机器学习的基本步骤常见的机器学习算法机器学习的实际应用如何入门机器学习？结语在当今数字化时代，机器学习（MachineLearning,ML）已经成为一个炙手可热的话题。从推荐系统到自动驾驶汽车，再到语音助手，机器学习的应用无处不在。然而，对于许多人来说，机器学习仍然是一个神秘而复杂的领域。本文将用通俗易懂的语言，带你走进机器学习的世界，了解它的基本原理和应用。什么是机器学习？
机器学习中的 K-均值聚类算法及其优缺点平凡而伟大. 机器学习机器学习算法均值算法
K-均值聚类是一种常用的无监督学习算法，用于将数据集中的样本分成K个簇。其基本原理是将所有样本点划分到K个簇使得簇内样本点之间的距离尽可能接近，而不同簇之间的距离尽可能远。算法流程如下：随机选择K个样本点作为初始的聚类中心。将每个样本点分配到与其最近的聚类中心所在的簇。更新每个簇的聚类中心为该簇所有样本点的平均值。重复第2步和第3步，直到聚类中心不再变化或者达到最大迭代次数。优点：简单且易于实现。
一文讲清楚深度学习和机器学习平凡而伟大. 机器学习人工智能深度学习机器学习人工智能
目录1.定义机器学习（MachineLearning,ML）深度学习（DeepLearning,DL）2.工作原理机器学习深度学习3.应用场景机器学习深度学习4.主要区别5.为什么选择深度学习？6.总结深度学习和机器学习是人工智能（AI）领域中两个密切相关但有所区别的概念。要清楚地解释它们之间的关系，我们可以从定义、工作原理、应用场景以及两者的主要区别等方面进行探讨。1.定义机器学习（Machin
pyspark学习rdd处理数据方法——学习记录亭午学习
python黑马程序员"""文件，按JSON字符串存储1.城市按销售额排名2.全部城市有哪些商品类别在售卖3.上海市有哪些商品类别在售卖"""frompysparkimportSparkConf,SparkContextimportosimportjsonos.environ['PYSPARK_PYTHON']=r"D:\anaconda\envs\py10\python.exe"#创建Spark
机器学习knnlearn1 XW-ABAP 机器学习机器学习人工智能
importmatplotlib.pyplotaspltimportnumpyasnpimportoperator#定义一个函数用于创建数据集defcreateDataSet():#定义特征矩阵，每个元素是一个二维坐标点，代表不同策略数据点的坐标group=np.array([[20,3],[15,5],[18,1],[5,17],[2,15],[3,20]])#定义每个数据点对应的标签，用于区分
基于 MySQL 和 Spring Boot 的在线论坛管理系统设计与实现城南|阿洋-计算机从小白到大神 mysql spring boot 数据库
markdownCopy✌全网粉丝20W+,csdn特邀作者、博客专家、CSDN[新星计划]导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、pyhton、机器学习技术领域和毕业项目实战✌哈喽兄弟们，好久不见哦～最近整理了一下之前写过的一些小项目/毕业设计。发现还是有很多存货的，想一想既然放在电脑里面也吃灰，那么还不如分享出去，没准还可以帮助到
零基础入门机器学习：用Scikit-learn实现鸢尾花分类藍海琴泉机器学习 scikit-learn 分类
适合人群：机器学习新手|数据分析爱好者|需快速展示案例的学生一、引言：为什么要学这个案例？目的：明确机器学习解决什么问题，建立学习信心。机器学习定义：让计算机从数据中自动学习规律（如分类鸢尾花品种）。为什么选鸢尾花数据集：数据量小、特征明确，适合教学演示。Scikit-learn优势：提供现成算法和工具，无需从头写数学公式。二、环境准备：5分钟快速上手目的：搭建可运行的代码环境，避免卡在工具安装环
机器学习--DBSCAN聚类算法详解 2201_75491841 机器学习算法聚类人工智能
目录引言1.什么是DBSCAN聚类？2.DBSCAN聚类算法的原理3.DBSCAN算法的核心概念3.1邻域（Neighborhood）3.2核心点（CorePoint）3.3直接密度可达（DirectlyDensity-Reachable）3.4密度可达（Density-Reachable）3.5密度相连（Density-Connected）4.DBSCAN算法的步骤5.DBSCAN算法的优缺点5
【机器学习】机器学习工程实战-第3章数据收集和准备腊肉芥末果机器学习工程实战机器学习人工智能
上一章：第2章项目开始前文章目录3.1关于数据的问题3.1.1数据是否可获得3.1.2数据是否相当大3.1.3数据是否可用3.1.4数据是否可理解3.1.5数据是否可靠3.2数据的常见问题3.2.1高成本3.2.2质量差3.2.3噪声（noise）3.2.4偏差（bias）3.2.5预测能力低（lowpredictivepower）3.2.6过时的样本3.2.7离群值3.2.8数据泄露/目标泄漏3
机器学习实战第一章机器学习基础 LuoY、 Machine Learning 机器学习算法人工智能
第一章机器学习1.1何谓机器学习1.2关键术语1.3机器学习的主要任务1.4如何选择合适的算法1.5开发机器学习应用程序的步骤1.6Python语言的优势1.1何谓机器学习 1、简单地说，机器学习就是把无序的数据转换成有用的信息； 2、机器学习能让我们自数据集中受启发，我们会利用计算机来彰显数据背后的真实含义； 3、机器学习横跨计算机科学、工程技术和统计学等多个学科，需要多学科的
数据挖掘实战-基于机器学习的垃圾邮件检测模型艾派森数据挖掘实战合集数据挖掘机器学习人工智能 python
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍
集成学习（随机森林） herry57 数学建模大数据随机森林集成学习
目录一、集成学习概念二、Bagging集成原理三、随机森林四、例子（商品分类）一、集成学习概念集成学习通过建⽴⼏个模型来解决单⼀预测问题。它的⼯作原理是⽣成多个分类器/模型，各⾃独⽴地学习和作出预测。这些预测最后结合成组合预测，因此优于任何⼀个单分类的做出预测。只要单分类器的表现不太差，集成学习的结果总是要好于单分类器的二、Bagging集成原理分类圆形和长方形三、随机森林在机器学习中，随机森林是
【机器学习】朴素贝叶斯入门：从零到垃圾邮件过滤实战吴师兄大模型 0基础实现机器学习入门到精通机器学习人工智能朴素贝叶斯深度学习 pytorch sklearn 开发语言
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
【机器学习】机器学习工程实战-第2章项目开始前腊肉芥末果机器学习工程实战机器学习人工智能
上一章：第1章概述文章目录2.1机器学习项目的优先级排序2.1.1机器学习的影响2.1.2机器学习的成本2.2估计机器学习项目的复杂度2.2.1未知因素2.2.2简化问题2.2.3非线性进展2.3确定机器学习项目的目标2.3.1模型能做什么2.3.2成功模型的属性2.4构建机器学习团队2.4.1两种文化2.4.2机器学习团队的成员2.5机器学习项目为何失败2.5.1缺乏有经验的人才2.5.2缺乏领
机器学习怎么做特征工程全栈你个大西瓜人工智能机器学习人工智能特征工程数据预处理特征变换特征降维特征构造
一、特征工程通俗解释特征工程就像厨师做菜前的食材处理：原始数据是“生肉和蔬菜”，特征工程是“切块、腌制、调料搭配”，目的是让机器学习模型（食客）更容易消化吸收，做出更好预测（品尝美味）。二、为什么要做特征工程？数据质量差：原始数据常有缺失、噪声、不一致问题（如年龄列混入“未知”）。模型限制：算法无法直接理解原始数据（如文本、日期需要数值化）。提升效果：好特征能显著提升模型性能（准确率提升10%~5
【机器学习】机器学习四大分类藓类少女机器学习机器学习分类人工智能
机器学习的方法主要可以分为四大类，根据学习方式和数据标注情况进行分类：1.监督学习（SupervisedLearning）特点：有标注数据（即训练数据有明确的输入(X)和输出(Y)）。学习目标是找到一个映射(f(X)\approxY)。适用于分类和回归问题。主要算法：分类（Classification）：逻辑回归（LogisticRegression）支持向量机（SVM）朴素贝叶斯（NaïveBa
数据湖Iceberg、Hudi和Paimon比较_数据湖框架对比(1) 2301_79098963 程序员知识图谱人工智能
4.Schema变更支持对比项ApacheIcebergApacheHudiApachePaimonSchemaEvolutionALLback-compatibleback-compatibleSelf-definedschemaobjectYESNO(spark-schema)NO（我理解，不准确）SchemaEvolution：指schema变更的支持情况，我的理解是hudi仅支持添加可选列
机器学习——KNN超参数练习AI两年半机器学习人工智能深度学习
sklearn.model_selection.GridSearchCV是scikit-learn中用于超参数调优的核心工具，通过结合交叉验证和网格搜索实现模型参数的自动化优化。以下是详细介绍：一、功能概述GridSearchCV在指定参数网格上穷举所有可能的超参数组合，通过交叉验证评估每组参数的性能，最终选择最优参数组合。其核心价值在于：自动化调参：替代手动参数调试，提升效率3。交叉验证支持：通
重要重要！！fisher矩阵是怎么计算和更新的，以及计算过程中参数的物理含义 ZhangJiQun&MXP 教学 2021 论文 2024大模型以及算力矩阵概率论线性代数 windows 微信机器学习
fisher矩阵是怎么计算和更新的，以及计算过程中参数的物理含义Fisher信息矩阵（FisherInformationMatrix,FIM）用于衡量模型参数估计的不确定性，其计算和更新在统计学、机器学习和优化中具有重要作用。以下是其计算和更新的关键步骤：一、Fisher矩阵的计算定义Fisher矩阵的元素表示对数似然函数关于参数的二阶导数的期望值的负数，即：Fi,j=−
Apache大数据旭哥优选大数据选题 Apache大数据旭大数据定制选题 java hadoop spark 开发语言 idea hive 数据库架构
定制旭哥服务，一对一，无中介包安装+答疑+售后态度和技术都很重要定制按需求做要求不高就实惠一点定制需提前沟通好怎么做，这样才能避免不必要的麻烦python、flask、Django、mapreduce、mysqljava、springboot、vue、echarts、hadoop、spark、hive、hbase、flink、SparkStreaming、kafka、flume、sqoop分析+推
景联文科技提供高质量文本标注服务，驱动AI技术发展景联文科技科技人工智能
文本标注是指在原始文本数据上添加标签的过程，这些标签可以用来指示特定的实体、关系、事件等信息，以帮助计算机理解和处理这些数据。文本标注是自然语言处理（NLP）领域的一个重要环节，它通过为文本的不同部分提供具体的含义和上下文信息，增强机器学习和深度学习模型对文本内容的理解能力。标注类型情感分析情感极性：确定文本表达的情感倾向，如正面、负面或中立。强度评估：衡量情感的强烈程度，从轻微到极端不等。命名实
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。