大数据之眸

Spark分布式机器学习源码分析：模型评估指标

Spark是一个极为优秀的大数据框架，在大数据批处理上基本无人能敌，流处理上也有一席之地，机器学习则是当前正火热AI人工智能的驱动引擎，在大数据场景下如何发挥AI技术成为优秀的大数据挖掘工程师必备技能。本文结合机器学习思想与Spark框架代码结构来实现分布式机器学习过程，希望与大家一起学习进步～

本文采用的组件版本为：Ubuntu 19.10、Jdk 1.8.0_241、Scala 2.11.12、Hadoop 3.2.1、Spark 2.4.5，老规矩先开启一系列Hadoop、Spark服务与Spark-shell窗口：

spark.mllib附带了许多机器学习算法，可用于学习数据并进行数据预测。将这些算法应用于构建机器学习模型时，需要根据某些标准评估模型的性能，具体取决于应用程序及其要求。spark.mllib还提供了一组度量标准，用于评估机器学习模型的性能。

特定的机器学习算法属于更广泛的机器学习应用程序类型，例如分类，回归，聚类等。这些类型中的每一种都有完善的性能评估指标，而此部分将详细介绍spark.mllib中当前可用的那些指标。

二分类

尽管分类算法有许多不同的类型，但是分类模型的评估都具有相似的原理。在监督分类问题中，每个数据点都存在真实输出和模型生成的预测输出。因此，可以将每个数据点的结果分配给以下四个类别之一：

真阳性（TP）-标签为阳性，预测也为阳性
真阴性（TN）-标签为负，预测也为负
假阳性（FP）-标签为负，但预测为正
假阴性（FN）-标签为阳性，但预测为阴性

这四个数字是大多数分类器评估指标的基础。考虑分类器评估时的基本要点是，单纯的准确性（即预测正确与否）通常不是一个好的指标。其原因是因为数据集可能高度不平衡。例如，如果模型被设计为从数据集中预测欺诈的模型，其中95％的数据点不是欺诈，而5％的数据点是欺诈，则无论输入如何，预测都不欺诈的朴素分类器将为95 ％准确。因此，通常会使用诸如精度和召回率之类的指标，因为它们考虑到了错误的类型。在大多数应用中，精度和查全率之间存在一些理想的平衡，可以通过将两者合并为一个度量标准（称为F度量）来捕获。

二分类

二分类器用于将给定数据集的元素分为两个可能的组（例如欺诈或非欺诈）之一，这是多类分类的一种特殊情况。大多数二元分类指标可以概括为多类分类指标。

重要的是要理解，许多分类模型实际上为每个类别输出“分数”（通常是概率的乘积），其中较高的分数表示较高的可能性。在二元情况下，模型可以输出每个类别的概率：P(Y=1|X)和P(Y=0|X)。在某些情况下，可能需要调整模型，以便仅在概率很高的情况下预测类别（例如，如果模型预测欺诈概率> 90%，则阻止信用卡交易），而不是简单地采用较高的概率）。因此，存在一个预测阈值，该阈值可根据模型输出的概率来确定预测类别。

调整预测阈值将改变模型的精度和召回率，这是模型优化的重要组成部分。为了可视化精度，召回率和其他指标如何随阈值变化，通常的做法是将竞争指标相互绘制，并按阈值进行参数设置。P-R曲线绘制（精确度，召回率）点以表示不同阈值，而接收器工作特性曲线或ROC曲线绘制（召回率，误报率）点。

多分类

以下代码段说明了如何加载样本数据集，如何在数据上训练二分类算法以及如何通过几种二分类评估指标评估算法的性能。

import org.apache.spark.mllib.classification.LogisticRegressionWithLBFGS
import org.apache.spark.mllib.evaluation.BinaryClassificationMetrics
import org.apache.spark.mllib.regression.LabeledPoint
import org.apache.spark.mllib.util.MLUtils
// 加载libsvm格式的训练数据
val data = MLUtils.loadLibSVMFile(sc, "data/mllib/sample_binary_classification_data.txt")
// 将数据分为训练（60％）和测试（40％）
val Array(training, test) = data.randomSplit(Array(0.6, 0.4), seed = 11L)
training.cache()
// 运行训练算法以建立模型
val model = new LogisticRegressionWithLBFGS().setNumClasses(2).run(training)
// 清除预测阈值，以便模型返回概率
model.clearThreshold
// 计算测试集上的原始分数
val predictionAndLabels = test.map { case LabeledPoint(label, features) =>
  val prediction = model.predict(features)
  (prediction, label)
}
// 实例化指标对象
val metrics = new BinaryClassificationMetrics(predictionAndLabels)
// 通过阈值预测精度
val precision = metrics.precisionByThreshold
precision.foreach { case (t, p) =>
  println(s"Threshold: $t, Precision: $p")
}
// 通过阈值预测召回率
val recall = metrics.recallByThreshold
recall.foreach { case (t, r) =>
  println(s"Threshold: $t, Recall: $r")
}
//  PR曲线
val PRC = metrics.pr
// F值
val f1Score = metrics.fMeasureByThreshold
f1Score.foreach { case (t, f) =>
  println(s"Threshold: $t, F-score: $f, Beta = 1")
}
val beta = 0.5
val fScore = metrics.fMeasureByThreshold(beta)
f1Score.foreach { case (t, f) =>
  println(s"Threshold: $t, F-score: $f, Beta = 0.5")
}
// AUPRC
val auPRC = metrics.areaUnderPR
println(s"Area under precision-recall curve = $auPRC")
// 计算在ROC和PR曲线中使用的阈值
val thresholds = precision.map(_._1)
// ROC曲线
val roc = metrics.roc
// AUROC
val auROC = metrics.areaUnderROC
println(s"Area under ROC = $auROC")

多分类

多分类描述了一个分类问题，其中每个数据点有M> 2个可能的标签（其中M = 2是二分类问题）。例如，将手写样本分类为具有10种可能类别的数字0到9。

对于多类别指标，肯定和否定的概念略有不同。预测和标签仍然可以是肯定的或否定的，但必须在特定类别的上下文中加以考虑。每个标签和预测采用多个类别之一的值，因此对于它们的特定类别而言，它们被认为是正的，而对于所有其他类别而言，它们都被认为是负的。因此，每当预测和标签匹配时，就会出现真阳性，而当预测和标签都不采用给定类的值时，就会出现真阴性。按照这种约定，给定的数据样本可能有多个真实的负数。从肯定标签和否定标签的先前定义中扩展假阴性和假阳性很简单。

与只有两个可能的标签的二分类相反，多类分类问题有很多可能的标签，因此引入了基于标签的度量的概念。准确性衡量所有标签的准确性-通过数据点的数量对任何类别进行正确预测（正确肯定）的次数。按标签的精度仅考虑一类，并根据标签出现在输出中的次数来衡量正确预测特定标签的时间。

定义类或标签，设置为，真实输出向量y由N个元素组成，多类预测算法生成N个元素的预测向量。对于本节，修改后的增量函数δ^(x)将被证明是有用的

多分类实例

以下代码段说明了如何加载样本数据集，如何在数据上训练多分类算法以及如何通过几种多类分类评估指标来评估算法的性能。

import org.apache.spark.mllib.classification.LogisticRegressionWithLBFGS
import org.apache.spark.mllib.evaluation.MulticlassMetrics
import org.apache.spark.mllib.regression.LabeledPoint
import org.apache.spark.mllib.util.MLUtils
val data = MLUtils.loadLibSVMFile(sc, "data/mllib/sample_multiclass_classification_data.txt")
val Array(training, test) = data.randomSplit(Array(0.6, 0.4), seed = 11L)
training.cache()
val model = new LogisticRegressionWithLBFGS().setNumClasses(3).run(training)
val predictionAndLabels = test.map { case LabeledPoint(label, features) =>
  val prediction = model.predict(features)
  (prediction, label)
}
val metrics = new MulticlassMetrics(predictionAndLabels)
// 混淆矩阵
println("Confusion matrix:")
println(metrics.confusionMatrix)
// 总体统计
val accuracy = metrics.accuracy
println("Summary Statistics")
println(s"Accuracy = $accuracy")
// 通过标签预测
val labels = metrics.labels
labels.foreach { l =>
  println(s"Precision($l) = " + metrics.precision(l))
}
// 通过标签计算召回率
labels.foreach { l =>
  println(s"Recall($l) = " + metrics.recall(l))
}
// 通过标签计算假阳性率
labels.foreach { l =>
  println(s"FPR($l) = " + metrics.falsePositiveRate(l))
}


// 通过标签计算F1
labels.foreach { l =>
  println(s"F1-Score($l) = " + metrics.fMeasure(l))
}
// 加权统计
println(s"Weighted precision: ${metrics.weightedPrecision}")
println(s"Weighted recall: ${metrics.weightedRecall}")
println(s"Weighted F1 score: ${metrics.weightedFMeasure}")
println(s"Weighted false positive rate: ${metrics.weightedFalsePositiveRate}")

多标签分类

多标签分类问题涉及将数据集中的每个样本映射到一组类标签。在这种类型的分类问题中，标签不是互斥的。例如，将一组新闻文章分类为主题时，一篇文章可能既是科学又是政治。

由于标签不是互斥的，因此预测和真实标签现在是标签集的向量，而不是标签的向量。因此，多标签度量将精度，召回率等基本概念扩展到集合操作上。例如，当给定类别的某个特定数据点存在于预测集中且该类别存在于真实标签集中时，则该类别为真阳性。

在这里，我们定义了N个文档的集合D：，将L0，L1，...，LN-1定义为标签集的族，并将P0，P1，...，PN-1定义为预测集的族，其中Li和Pi分别是标签集和预测集记录di。所有唯一标签的集合由

对集合A的指标函数IA（x）的以下定义将是必要的

多标签分类实例

以下代码段说明了如何评估多标签分类器的性能。这些示例将伪造的预测和标签数据用于多标签分类。

import org.apache.spark.mllib.evaluation.MultilabelMetrics
import org.apache.spark.rdd.RDD
val scoreAndLabels: RDD[(Array[Double], Array[Double])] = sc.parallelize(
  Seq((Array(0.0, 1.0), Array(0.0, 2.0)),
    (Array(0.0, 2.0), Array(0.0, 1.0)),
    (Array.empty[Double], Array(0.0)),
    (Array(2.0), Array(2.0)),
    (Array(2.0, 0.0), Array(2.0, 0.0)),
    (Array(0.0, 1.0, 2.0), Array(0.0, 1.0)),
    (Array(1.0), Array(1.0, 2.0))), 2)
val metrics = new MultilabelMetrics(scoreAndLabels)
println(s"Recall = ${metrics.recall}")
println(s"Precision = ${metrics.precision}")
println(s"F1 measure = ${metrics.f1Measure}")
println(s"Accuracy = ${metrics.accuracy}")
metrics.labels.foreach(label =>
  println(s"Class $label precision = ${metrics.precision(label)}"))
metrics.labels.foreach(label => println(s"Class $label recall = ${metrics.recall(label)}"))
metrics.labels.foreach(label => println(s"Class $label F1-score = ${metrics.f1Measure(label)}"))


println(s"Micro recall = ${metrics.microRecall}")
println(s"Micro precision = ${metrics.microPrecision}")
println(s"Micro F1 measure = ${metrics.microF1Measure}")
println(s"Hamming loss = ${metrics.hammingLoss}")
println(s"Subset accuracy = ${metrics.subsetAccuracy}")

排序算法

排名算法（通常被认为是推荐系统）的作用是根据一些训练数据向用户返回一组相关项目或文档。相关性的定义可能会有所不同，并且通常是特定于应用程序的。排名系统指标旨在量化这些排名或建议在各种情况下的有效性。一些度量将一组推荐的文档与一组相关文档的真实性进行比较，而其他度量可能会明确包含数字等级。

排名系统通常处理一组M个用户

每个用户（ui）都有一组Ni真实情况相关文档

并列出齐推荐文件，以降序排列

排名系统的目标是为每个用户生成最相关的文档集。集合的相关性和算法的有效性可以使用下面列出的指标进行衡量。

有必要定义一个函数，该函数提供了一个推荐文档和一组与地面事实相关的文档，并返回了该推荐文档的相关性得分。

排序算法实例

以下代码段说明了如何加载样本数据集，如何在数据上训练交替的最小二乘推荐模型以及如何通过几个排名指标评估推荐器的性能。下面提供了该方法的简要概述。

此映射表示未观察到的条目通常介于“正常”和“相当差”之间。在这个非正数权重的扩展世界中，0的语义“与从未交互过的相同”。

import org.apache.spark.mllib.evaluation.{RankingMetrics, RegressionMetrics}
import org.apache.spark.mllib.recommendation.{ALS, Rating}
// 读取收视率数据
val ratings = spark.read.textFile("data/mllib/sample_movielens_data.txt").rdd.map { line =>
  val fields = line.split("::")
  Rating(fields(0).toInt, fields(1).toInt, fields(2).toDouble - 2.5)
}.cache()
// 将等级映射为1或0，其中1表示应该推荐的电影
val binarizedRatings = ratings.map(r => Rating(r.user, r.product,
  if (r.rating > 0) 1.0 else 0.0)).cache()
// 汇总评分
val numRatings = ratings.count()
val numUsers = ratings.map(_.user).distinct().count()
val numMovies = ratings.map(_.product).distinct().count()
println(s"Got $numRatings ratings from $numUsers users on $numMovies movies.")
// 建立模型
val numIterations = 10
val rank = 10
val lambda = 0.01
val model = ALS.train(ratings, rank, numIterations, lambda)
// 定义一个函数以将等级从0缩放到1
def scaledRating(r: Rating): Rating = {
  val scaledRating = math.max(math.min(r.rating, 1.0), 0.0)
  Rating(r.user, r.product, scaledRating)
}
// 获取每个用户的排名前十的预测，然后从[0，1]开始缩放
val userRecommended = model.recommendProductsForUsers(10).map { case (user, recs) =>
  (user, recs.map(scaledRating))
}
// 假设用户评分3或更高（对应于1）的任何电影都是相关文档
// 与最相关的十大文件进行比较
val userMovies = binarizedRatings.groupBy(_.user)
val relevantDocuments = userMovies.join(userRecommended).map { case (user, (actual,
predictions)) =>
  (predictions.map(_.product), actual.filter(_.rating > 0.0).map(_.product).toArray)
}
// 实例化指标对象
val metrics = new RankingMetrics(relevantDocuments)
//精度
Array(1, 3, 5).foreach { k =>
  println(s"Precision at $k = ${metrics.precisionAt(k)}")
}
// 平均平均精度
println(s"Mean average precision = ${metrics.meanAveragePrecision}")
// 归一化折现累计收益
Array(1, 3, 5).foreach { k =>
  println(s"NDCG at $k = ${metrics.ndcgAt(k)}")
}
// 获取每个数据点的预测
val allPredictions = model.predict(ratings.map(r => (r.user, r.product))).map(r => ((r.user,
  r.product), r.rating))
val allRatings = ratings.map(r => ((r.user, r.product), r.rating))
val predictionsAndLabels = allPredictions.join(allRatings).map { case ((user, product),
(predicted, actual)) =>
  (predicted, actual)
}
// 使用回归指标获取RMSE
val regressionMetrics = new RegressionMetrics(predictionsAndLabels)
println(s"RMSE = ${regressionMetrics.rootMeanSquaredError}")
// 计算R方
println(s"R-squared = ${regressionMetrics.r2}")

回归算法评估

从多个自变量预测连续输出变量时，将使用回归分析。

以下代码段说明了如何加载样本数据集，在数据上训练线性回归算法以及如何通过多个回归指标评估算法的性能。

import org.apache.spark.mllib.evaluation.RegressionMetrics
import org.apache.spark.mllib.linalg.Vector
import org.apache.spark.mllib.regression.{LabeledPoint, LinearRegressionWithSGD}
// 加载数据
val data = spark
  .read.format("libsvm").load("data/mllib/sample_linear_regression_data.txt")
  .rdd.map(row => LabeledPoint(row.getDouble(0), row.get(1).asInstanceOf[Vector]))
  .cache()
// 建立模型
val numIterations = 100
val model = LinearRegressionWithSGD.train(data, numIterations)
// 获取预测
val valuesAndPreds = data.map{ point =>
  val prediction = model.predict(point.features)
  (prediction, point.label)
}
// 实例化指标对象
val metrics = new RegressionMetrics(valuesAndPreds)
// Squared error
println(s"MSE = ${metrics.meanSquaredError}")
println(s"RMSE = ${metrics.rootMeanSquaredError}")
// R-squared
println(s"R-squared = ${metrics.r2}")
// Mean absolute error
println(s"MAE = ${metrics.meanAbsoluteError}")
// Explained variance
println(s"Explained variance = ${metrics.explainedVariance}")

Spark模型评估指标以及源码分析的全部内容至此结束，有关Spark的基础文章可参考前文：

Spark分布式机器学习源码分析：矩阵向量

Spark分布式机器学习源码分析：基本统计

Spark分布式机器学习源码分析：线性模型

Spark分布式机器学习源码分析：朴素贝叶斯

Spark分布式机器学习源码分析：决策树模型

Spark分布式机器学习源码分析：集成树模型

Spark分布式机器学习源码分析：协同过滤

Spark分布式机器学习源码分析：K-means

Spark分布式机器学习源码分析：隐式狄利克雷分布

Spark分布式机器学习源码分析：奇异值分解与主成分分析

Spark分布式机器学习源码分析：特征提取与转换

Spark分布式机器学习源码分析：频繁模式挖掘

参考链接：

http://spark.apache.org/docs/latest/mllib-evaluation-metrics.html

历史推荐

“高频面经”之数据分析篇

“高频面经”之数据结构与算法篇

“高频面经”之大数据研发篇

“高频面经”之机器学习篇

“高频面经”之深度学习篇

爬虫实战：Selenium爬取京东商品

爬虫实战：豆瓣电影top250爬取

爬虫实战：Scrapy框架爬取QQ音乐

数据分析与挖掘

数据结构与算法

机器学习与大数据组件

欢迎关注，感谢“在看”，随缘稀罕~

一个赞，晚餐加鸡腿

Java线程池源码分析，深度解读努力的橙子go java 开发语言
前言本文将深入分析Java线程池的源码，包括线程池的创建、任务提交、工作线程的执行和线程池的关闭等过程。通过对线程池源码的解析，我们能够更好地理解线程池的原理和机制，为我们在实际开发中合理使用线程池提供指导。文章内容较长，建议找个安静的环境慢慢细读。线程池简介概念在传统的多线程编程中，每次需要执行任务时都会创建一个新的线程，任务执行完毕后再销毁该线程。这种方式存在一些问题，例如频繁创建和销毁线程会
【Java实战】高并发场景下账户金额操作的解决方案 .猫的树【Java实战】系列 Java并发编程分布式锁高并发解决方案原子操作数据库事务
文章目录前言：金融系统中的并发危机一、并发问题现场还原1.1问题代码示例1.2并发测试暴露问题1.3问题根源分析二、五大解决方案深度剖析2.1synchronized同步锁2.2ReentrantLock显式锁2.3CAS无锁编程（Atomic原子类）2.4数据库乐观锁2.5分布式锁（Redis实现）三、方案选型指南四、防踩坑指南总结前言：金融系统中的并发危机在支付系统、电商平台等金融场景中，账户
分布式 ID 生成方案对比：Snowflake、UUID、KSUID 该怎么选？田猿笔记知识集合 nodeJs 高级应用分布式 node.js
分布式ID生成方案对比：Snowflake、UUID、KSUID该怎么选？在分布式系统中，如何生成全局唯一ID是一个常见问题。不同的ID生成方案各有优缺点，本文将对比Snowflake、Sonyflake、UUIDv1/v4、XID、KSUID以及自定义ID，并给出Node.js实现示例，帮助你选择最适合的方案。1.为什么需要分布式ID？在单机系统中，可以使用数据库自增ID（如MySQL的AUTO
Python知识点：如何使用Nvidia Jetson与Python进行边缘计算杰哥在此 Python系列 python 边缘计算开发语言面试编程
开篇，先说一个好消息，截止到2025年1月1日前，翻到文末找到我，赠送定制版的开题报告和任务书，先到先得！过期不候！如何使用NvidiaJetson与Python进行边缘计算NvidiaJetson平台是专为边缘计算设计的一系列AI计算机，它们能够处理和分析来自物联网(IoT)设备和边缘节点的数据。这些设备小巧、节能且功能强大，非常适合用于执行机器学习、计算机视觉和自然语言处理等任务。Python
【分布式 ID】生成唯一 ID 的几种方式也无风雨晴工具分布式分布式 ID
文章目录1.什么是唯一ID2.UUID2.1优点2.2缺点3.数据库自增ID3.1优点3.2缺点4.利用redis来实现自增id4.1优点4.2缺点5.雪花算法5.1优点5.2缺点6.数据库号段6.1优点6.2缺点7.小结1.什么是唯一ID分布式ID是指在分布式系统中需要生成的全局唯一的标识符。比如在电商、物流等行业，每笔订单都需要一个唯一的订单ID。通过这个ID，商家可以跟踪订单的状态，包括下单
赋能低压分布式光伏“四可”建设，筑牢电网安全新防线 Amy18702111823 分布式
在“双碳”目标驱动下，分布式光伏正以前所未有的速度接入电网，尤其是低压（380V/220V）层面。然而，海量“绿电”的随机性、间歇性并网，犹如一把双刃剑——在带来清洁能源的同时，也给电网的安全稳定运行与可靠供电带来了严峻挑战。如何让这些分散的“毛细血管”变得“可观、可测、可调、可控”（四可），已成为电网企业和新能源管理者亟待解决的核心命题。“四可”落地：低压分布式光伏管理的硬核需求实现“四可”并非
Java分布式任务调度交响乐：用代码指挥千台服务器跳起精准的华尔兹墨夶 Java学习资料1 java 分布式服务器
一、架构设计：分布式任务调度的指挥系统1.1架构图（用文字构建你的想象）[调度中心]→[任务路由]→[执行器集群]↑↓││├─数据库存储─┤││└─监控告警─┘关键组件：调度中心：任务的"总指挥"，负责任务注册、调度、状态监控执行器集群：任务的"舞团"，每个节点都是潜在的表演者任务路由：动态分配任务的"交通调度系统"数据库存储：任务元数据的"记分牌"二、核心技术实现：分布式调度的魔法阵2.1XXL
Kafka消息轨迹追踪：分布式系统调试利器大数据洞察 kafka linq 分布式 ai
Kafka消息轨迹追踪：分布式系统调试利器关键词Kafka、消息轨迹追踪、分布式系统、调试、消息处理、事件溯源摘要本文聚焦于Kafka消息轨迹追踪这一分布式系统调试的关键技术。首先介绍Kafka消息轨迹追踪的概念基础，包括其在分布式系统中的背景、发展历史以及问题空间。接着阐述其理论框架，从第一性原理进行推导，并分析理论局限性和竞争范式。在架构设计方面，对系统进行分解，构建组件交互模型并可视化展示。
Dubbo 令牌验证：防止服务被非法调用 Java技术栈实战 dubbo 网络 ai
Dubbo令牌验证：防止服务被非法调用关键词：Dubbo、令牌验证、分布式服务、服务安全、非法调用防护摘要：在分布式系统中，服务暴露在网络中可能面临非法调用的风险。Dubbo作为国内最流行的分布式服务框架，提供了「令牌验证」这一轻量级安全机制，能有效阻止未授权服务的访问。本文将用「小区门禁卡」的生活化比喻，结合代码示例和实战案例，从原理到落地手把手教你掌握Dubbo令牌验证，彻底搞懂如何为服务调用
【redis】介绍和安装火龙谷 redis redis 数据库缓存
介绍Redis是一款高性能的开源内存数据库，核心采用键值对（Key-Value）存储模型。其最大优势在于数据完全基于内存操作，读写速度远超传统磁盘数据库（内存访问速度可达磁盘的数千倍，固态硬盘仍有显著差距）。支持丰富的数据结构（字符串、哈希、列表、集合等），并非简单存储单一值。提供持久化机制（RDB快照/AOF日志），确保重启后数据可恢复。具备主从复制、哨兵高可用、集群分片等分布式能力，扩展性强。
《论文阅读》GPT-3是否会产生移情对话？一种新的情境示例选择方法和用于生成同理心对话的自动评估度量 ICCL 2022 365JHWZGo 情感对话论文阅读 gpt-3 共情回复上下文学习提示学习大模型
《论文阅读》GPT-3是否会产生移情对话？一种新的情境示例选择方法和用于生成同理心对话的自动评估度量ICCL2022前言贡献PromptIn-contextlearningSITSMEMOSITSM新的自动指标实验前言亲身阅读感受分享，细节画图解释，再也不用担心看不懂论文啦~无抄袭，无复制，纯手工敲击键盘~今天为大家带来的是《DoesGPT-3GenerateEmpatheticDialogues
脑机新手指南（十五）speechBCI 项目新手入门指南（上）：项目概述、代码结构与环境搭建 Brduino脑机接口技术答疑脑机新手指南 python 脑机接口新手入门
一、引言在脑机接口（BCI）领域，语音相关的研究正不断取得突破。speechBCI项目为语音脑机接口的研究提供了一个优秀的开源代码库。该项目与前沿的学术研究、丰富的数据集以及具有挑战性的机器学习竞赛紧密相连。本指南将分上下两篇，详细引导新手深入了解和使用speechBCI项目。二、项目概述speechBCI项目不仅仅是一个代码集合，它背后有着深厚的学术背景和实际应用价值。它与一篇发表在[Natur
Docker：快速搭建 RabbitMQ 集群的技术指南拾荒的小海螺 DevOps docker rabbitmq 容器
1、简述RabbitMQ是目前最流行的开源消息中间件之一，广泛应用于解耦、异步通信、削峰填谷等场景。本篇博客将带你通过Docker快速搭建RabbitMQ集群，并展示SpringBoot集成的实践案例，助你高效入门RabbitMQ分布式消息系统。样例代码：https://gitee.com/lhdxhl/springboot-example.git2、搭建2.1准备工作首先安装Docker和Doc
Python程序设计第6章：函数和函数式编程若北辰 Python程序设计 python 开发语言
Python程序设计Python是全球范围内最受欢迎的编程语言之一，学好Python将对个人职业生涯产生很大的助力，Python在机器学习、深度学习、数据挖掘等领域应用极为广泛。在数据科学家/数据分析师、人工智能工程师、网络安全工程师、软件工程师/全栈工程师、自动化测试工程师等岗位，年入50万，很普遍，学好Python，高薪就业不是问题，因此推出Python程序设计系列文章：Python程序设计第
【多空三分天下】主图操盘系统指标技术使用分解及源代码选择不变炒股主图指标区块链短线指标通达信指标公式炒股指标
如上图，多空三分天下操盘系统主图指标，主要分为如上8大信号及技术功能。当日买比详细的比例数据实时的五档买卖数据总和以及买卖差三条操盘线及对应的当下价格波段操盘买卖信号-波段操作参考强势启动信号-实体红色K线标记+钱袋图标信号关注做多信号-实体紫色+文字“关注做多”提示信号操盘线高位转空三线合一，空头形成操盘线空头三线合一，转多头一线变三线如上图，震荡或短线空头行情，一条指标线，行情转多，一线变三线
买卖防线指标-通达信炒股软件指标-炒股技术分享-图文案例选择不变区块链
如上图，副图指标【买卖防线指标】，两条线，两种柱线，中间一条上色变化的虚线构成。青色线在上红柱出现做多，开始出现时是最佳进场点，中间的虚线出现紫色时参考区间持股，绿柱出现减仓或卖出，红线在零轴上时空仓或只做超短线（15分钟或30分钟级别行情）。（1）做多信号-短线上穿零轴如上图所示，在短线上穿零轴时出现红柱，进场做多。零轴时多空的分界线，然后跟踪短线的走势，上穿做多，下穿做空或空仓持币。（2）持股
什么是神经网络和机器学习？【云驻共创】一键难忘人工智能机器学习深度学习神经网络网络
什么是神经网络和机器学习？一.背景在当今数字化浪潮中，神经网络和机器学习已成为科技领域的中流砥柱。它们作为人工智能的支柱，推动了自动化、智能化和数据驱动决策的进步。然而，对于初学者和专业人士来说，理解神经网络和机器学习的本质是至关重要的。在本文中，我们将深入探讨这两个概念的内涵、工作原理以及彼此之间的联系。二.神经网络和机器学习简介神经网络和机器学习都是人工智能领域中的重要概念，它们通常用于解决各
python学智能算法（十五）|机器学习朴素贝叶斯方法进阶-CountVectorizer多文本处理西猫雷婶人工智能机器学习 python学习笔记机器学习 python 人工智能深度学习 scikit-learn
【1】引言前序学习进程中，已经学习CountVectorizer文本处理的简单技巧，先相关文章链接为：python学智能算法（十四）|机器学习朴素贝叶斯方法进阶-CountVectorizer文本处理简单测试-CSDN博客此次继续深入，研究多文本的综合处理。【2】代码测试首先相对于单文本测试，直接将文本改成多行文本：#引入必要的模块fromsklearn.feature_extraction.te
通达信版弘历软件指标_[转载]弘历软件指标源码 weixin_29475449 通达信版弘历软件指标
很多炒股的朋友都迷信指标公式，笔者以前也酷爱研究和钻研，现将收集和破译的弘历、首富软件指标与大家分享。炒股靠技术，只有潜心研究、细细钻研、慢慢体会才能终成正果。卖软件和炒股指标的如果真正的保证盈利为什么要卖给你呢？弘历软件指标：1.强势信号：说白了kdj(9.3.3)，j值上穿50和下穿50。懒得写！2.弘历太极：n1=9LC:=REF(CLOSE,1);RSI:=SMA(MAX(CLOSE-LC
通达信版弘历软件指标_弘历软件指标源码编程小族管通达信版弘历软件指标
很多炒股的朋友都迷信指标公式，笔者以前也酷爱研究和钻研，现将收集和破译的弘历、首富软件指标与大家分享。炒股靠技术，只有潜心研究、细细钻研、慢慢体会才能终成正果。卖软件和炒股指标的如果真正的保证盈利为什么要卖给你呢？弘历软件指标：1.强势信号：说白了kdj(9.3.3)，j值上穿50和下穿50。懒得写！2.弘历太极：n1=9LC:=REF(CLOSE,1);RSI:=SMA(MAX(CLOSE-LC
通达信稳定盈利多维度趋势分析系统 q125500612 通达信指标 java 前端通达信指标
指标用法说明核心功能本指标是一个综合性技术分析工具，通过多时间周期的均线系统、量价关系、超买超卖指标等多维度数据，提供趋势判断、买卖信号和极端行情预警功能。主要组成部分均线聚合系统：通过5日、10日、20日、30日均线的聚合程度分析市场趋势强度趋势动能指标：计算均线系统的变化率，判断趋势加速或减速量价分析模块：结合成交量与价格波动，识别底部和顶部区域极端行情预警：通过MACD和RSI等指标识别超买
python学智能算法（十六）|机器学习支持向量机简单示例西猫雷婶 python学习笔记人工智能机器学习机器学习 python 支持向量机人工智能深度学习
【1】引言前序学习了逻辑回归等算法，相关文章链接包括且不限于：python学智能算法（十）|机器学习逻辑回归（Logistic回归）_逻辑回归算法python-CSDN博客python学智能算法（十一）|机器学习逻辑回归深入（Logistic回归）_np.random.logistic()-CSDN博客今天在此基础上更进一步，学习支持向量机，为实现较好地理解，先解读一个简单算例。【2】代码解读【2
人工智能-基础篇-2-什么是机器学习？（ML，监督学习，半监督学习，零监督学习，强化学习，深度学习，机器学习步骤等） weisian151 人工智能人工智能机器学习学习
1、什么是机器学习？机器学习（MachineLearning,ML）是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析等数学理论。其核心目标是让计算机通过分析数据，自动学习规律并构建模型，从而对未知数据进行预测或决策，而无需依赖显式的程序指令。基本思想：通过数据驱动的方式，使系统能够从经验（数据）中改进性能，形成对数据模式的抽象化表达。基本概念：模型：模型是对现实世界现
2025 年最强 RPA 软件盘点天竺鼠不该去劝架人工智能
RPA（机器人流程自动化）软件成为了企业提升效率、降低成本的重要工具。以下是2025年一些顶尖的RPA软件盘点。国外RPA软件UiPath地位：全球RPA市场的领军者。功能特性：全能型平台，覆盖流程发现、自动化设计到机器人管理全生命周期。拥有易用的低代码设计器，便于快速上手；强大的AI集成，可实现机器学习和文档理解；能与ERP、CRM等系统无缝集成。适用场景：适用于金融、零售、制造业等需要处理复杂
12.Gin集成go-quartz GO兔 gin golang 开发语言
欢迎大家点赞，收藏，评论，转发，你们的支持是我最大的写作动力作者:GO兔博客:https://luckxgo.cn12.Gin集成go-quartz引言：当定时任务遇上分布式系统“为什么我的定时任务在生产环境执行了三次？”“多实例部署时，如何确保定时任务只执行一次？”如果你在分布式环境中使用过传统定时任务框架，一定遇到过这些头疼的问题。随着微服务架构的普及，单机定时任务已经无法满足需求——任务重复
《机器学习数学基础》补充资料：什么是随机变量 CS创新实验室机器学习数学基础机器学习人工智能数学概率
卓永鸿提供本文介绍什么是随机变量及为什么要发展此种概念。我们先来看这个问题：一个边长为aaa的正三角形，CCC为其外接圆，外接圆半径为RRR。若在圆内随机作一弦，则弦长lll大于aaa的概率为何？法1：随机半径法先拉出一条圆半径，然后随机在半径上取一点，再画出通过此点并垂直半径的弦。易知当弦心距小于R/2R/2R/2时，弦长lll大于aaa，故概率为1/21/21/2。法2：随机端点法在圆周上随机
33、探索云计算与安全：基础与挑战
探索云计算与安全：基础与挑战1.云计算简介云计算已经成为现代信息技术的重要组成部分，为企业和个人提供了灵活、高效、低成本的计算资源和服务。本文将深入探讨云计算的基本概念、发展历程、服务模型、部署模型以及面临的主要挑战。1.1云计算的历史与发展云计算的发展可以追溯到多个阶段，包括主机计算、集群计算、网格计算、分布式和并行计算、虚拟化、Web2.0、面向服务的计算（SOC）和实用计算。每个阶段都为云计
【2025/06/30】GitHub 今日热门项目 Albert_Lsk Github推荐 github
GitHub今日热门项目每日精选优质开源项目|发现优质开源项目，跟上技术发展趋势报告概览统计项数值说明报告日期2025-06-30(周一)GitHubTrending每日快照数据时间16:11:02实时爬取生成项目总数16个精选热门开源项目⭐总星数381.3K社区认可度指标今日热度+4.5K24小时新增关注数据洞察核心指标项目总览16个精选项目⭐社区认可381.3K总星标数今日热度4.5K新增关注
流量分发新思路：PCDN的实践与应用数据库
流量分发新思路：PCDN的实践与应用在数字化时代，宽带流量的快速增长对传统内容分发网络（CDN）提出了更高的要求。为应对这一挑战，PCDN（P2PCDN）作为一种新型流量分发技术，正在被广泛探索和应用。它通过整合边缘节点的闲置带宽资源，优化流量调度，提升分发效率，为宽带流量的高效利用提供了新思路。PCDN的核心优势PCDN的核心在于利用分布式节点进行内容分发，相比传统CDN，它能够更灵活地调度宽带
在浏览器中使用TensorFlow.js 魏铁锤chui tensorflow javascript 人工智能
TensorFlow.js简介介绍光学字符识别(OCR)是指能够从图像或文档中捕获文本元素，并将其转换为机器可读的文本格式的技术。如果您想了解更多关于这个主题的内容，本文是一个很好的介绍。TensorFlow.js是一个库，用于使用JavaScript开发和训练机器学习模型，并将其部署在浏览器中或Node.js上。您可以使用现有模型、转换PythonTensorFlow模型、使用迁移学习用您自己的
集合框架天子之骄 java 数据结构集合框架
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
Table Driven（表驱动）方法实例 bijian1013 java enum Table Driven 表驱动
实例一： /** * 驾驶人年龄段 * 保险行业，会对驾驶人的年龄做年龄段的区分判断 * 驾驶人年龄段：01-[18,25);02-[25,30);03-[30-35);04-[35,40);05-[40,45);06-[45,50);07-[50-55);08-[55,+∞) */ public class AgePeriodTest { //if...el
Jquery 总结 cuishikuan java jquery Ajax Web jquery方法
1.$.trim方法用于移除字符串头部和尾部多余的空格。如：$.trim(' Hello ') // Hello2.$.contains方法返回一个布尔值，表示某个DOM元素（第二个参数）是否为另一个DOM元素（第一个参数）的下级元素。如：$.contains(document.documentElement, document.body); 3.$
面向对象概念的提出麦田的设计者 java 面向对象面向过程
面向对象中，一切都是由对象展开的，组织代码，封装数据。在台湾面向对象被翻译为了面向物件编程，这充分说明了，这种编程强调实体。下面就结合编程语言的发展史，聊一聊面向过程和面向对象。 c语言由贝尔实
linux网口绑定被触发 linux
刚在一台IBM Xserver服务器上装了RedHat Linux Enterprise AS 4，为了提高网络的可靠性配置双网卡绑定。一、环境描述我的RedHat Linux Enterprise AS 4安装双口的Intel千兆网卡，通过ifconfig -a命令看到eth0和eth1两张网卡。二、双网卡绑定步骤： 2.1 修改/etc/sysconfig/network
XML基础语法肆无忌惮_ xml
一、什么是XML？ XML全称是Extensible Markup Language，可扩展标记语言。很类似HTML。XML的目的是传输数据而非显示数据。XML的标签没有被预定义，你需要自行定义标签。XML被设计为具有自我描述性。是W3C的推荐标准。二、为什么学习XML？用来解决程序间数据传输的格式问题做配置文件充当小型数据库三、XML与HTM
为网页添加自己喜欢的字体知了ing 字体秒表 css
@font-face { font-family: miaobiao;//定义字体名字 font-style: normal; font-weight: 400; src: url('font/DS-DIGI-e.eot');//字体文件 } 使用： <label style="font-size:18px;font-famil
redis范围查询应用-查找IP所在城市矮蛋蛋 redis
原文地址： http://www.tuicool.com/articles/BrURbqV 需求根据IP找到对应的城市原来的解决方案 oracle表（ip_country）：查询IP对应的城市： 1.把a.b.c.d这样格式的IP转为一个数字，例如为把210.21.224.34转为3524648994 2. select city from ip_
输入两个整数，计算百分比 alleni123 java
public static String getPercent(int x, int total){ double result=(x*1.0)/(total*1.0); System.out.println(result); DecimalFormat df1=new DecimalFormat("0.0000%");
百合——————>怎么学习计算机语言百合不是茶 java 移动开发
对于一个从没有接触过计算机语言的人来说，一上来就学面向对象，就算是心里上面接受的了，灵魂我觉得也应该是跟不上的，学不好是很正常的现象，计算机语言老师讲的再多，你在课堂上面跟着老师听的再多，我觉得你应该还是学不会的，最主要的原因是你根本没有想过该怎么来学习计算机编程语言，记得大一的时候金山网络公司在湖大招聘我们学校一个才来大学几天的被金山网络录取，一个刚到大学的就能够去和
linux下tomcat开机自启动 bijian1013 tomcat
方法一：修改Tomcat/bin/startup.sh 为: export JAVA_HOME=/home/java1.6.0_27 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:. export PATH=$JAVA_HOME/bin:$PATH export CATALINA_H
spring aop实例 bijian1013 java spring AOP
1.AdviceMethods.java package com.bijian.study.spring.aop.schema; public class AdviceMethods { public void preGreeting() { System.out.println("--how are you!--"); } } 2.beans.x
[Gson八]GsonBuilder序列化和反序列化选项enableComplexMapKeySerialization bit1129 serialization
enableComplexMapKeySerialization配置项的含义 Gson在序列化Map时，默认情况下，是调用Key的toString方法得到它的JSON字符串的Key，对于简单类型和字符串类型，这没有问题，但是对于复杂数据对象，如果对象没有覆写toString方法，那么默认的toString方法将得到这个对象的Hash地址。 GsonBuilder用于
【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题 bit1129 Stream
包括Spark Streaming在内的实时计算数据可靠性指的是三种级别： 1. At most once，数据最多只能接受一次，有可能接收不到 2. At least once, 数据至少接受一次，有可能重复接收 3. Exactly once 数据保证被处理并且只被处理一次，具体的多读几遍http://spark.apache.org/docs/lates
shell脚本批量检测端口是否被占用脚本 ronin47
#!/bin/bash cat ports |while read line do#nc -z -w 10 $line nc -z -w 2 $line 58422>/dev/null2>&1if[ $?-eq 0]then echo $line:ok else echo $line:fail fi done 这里的ports 既可以是文件
java-2.设计包含min函数的栈 bylijinnan java
具体思路参见：http://zhedahht.blog.163.com/blog/static/25411174200712895228171/ import java.util.ArrayList; import java.util.List; public class MinStack { //maybe we can use origin array rathe
Netty源码学习-ChannelHandler bylijinnan java netty
一般来说，“有状态”的ChannelHandler不应该是“共享”的，“无状态”的ChannelHandler则可“共享” 例如ObjectEncoder是“共享”的, 但 ObjectDecoder 不是因为每一次调用decode方法时，可能数据未接收完全（incomplete），它与上一次decode时接收到的数据“累计”起来才有可能是完整的数据，是“有状态”的 p
java生成随机数 cngolon java
方法一： /** * 生成随机数 * @author [email protected] * @return */ public synchronized static String getChargeSequenceNum(String pre){ StringBuffer sequenceNum = new StringBuffer(); Date dateTime = new D
POI读写海量数据 ctrain 海量数据
import java.io.FileOutputStream; import java.io.OutputStream; import org.apache.poi.xssf.streaming.SXSSFRow; import org.apache.poi.xssf.streaming.SXSSFSheet; import org.apache.poi.xssf.streaming
mysql 日期格式化date_format详细使用 daizj mysql date_format 日期格式转换日期格式化
日期转换函数的详细使用说明 DATE_FORMAT(date,format) Formats the date value according to the format string. The following specifiers may be used in the format string. The&n
一个程序员分享8年的开发经验 dcj3sjt126com 程序员
在中国有很多人都认为IT行为是吃青春饭的，如果过了30岁就很难有机会再发展下去!其实现实并不是这样子的，在下从事.NET及JAVA方面的开发的也有8年的时间了，在这里在下想凭借自己的亲身经历，与大家一起探讨一下。明确入行的目的很多人干IT这一行都冲着“收入高”这一点的，因为只要学会一点HTML, DIV+CSS，要做一个页面开发人员并不是一件难事，而且做一个页面开发人员更容
android欢迎界面淡入淡出效果 dcj3sjt126com android
很多Android应用一开始都会有一个欢迎界面，淡入淡出效果也是用得非常多的，下面来实现一下。主要代码如下： package com.myaibang.activity; import android.app.Activity;import android.content.Intent;import android.os.Bundle;import android.os.CountDown
linux 复习笔记之常见压缩命令 eksliang tar解压 linux系统常见压缩命令 linux压缩命令 tar压缩
转载请出自出处:http://eksliang.iteye.com/blog/2109693 linux中常见压缩文件的拓展名 *.gz gzip程序压缩的文件 *.bz2 bzip程序压缩的文件 *.tar tar程序打包的数据，没有经过压缩 *.tar.gz tar程序打包后，并经过gzip程序压缩 *.tar.bz2 tar程序打包后，并经过bzip程序压缩 *.zi
Android 应用程序发送shell命令 gqdy365 android
项目中需要直接在APP中通过发送shell指令来控制lcd灯，其实按理说应该是方案公司在调好lcd灯驱动之后直接通过service送接口上来给APP，APP调用就可以控制了，这是正规流程，但我们项目的方案商用的mtk方案，方案公司又没人会改，只调好了驱动，让应用程序自己实现灯的控制，这不蛋疼嘛！！！！发就发吧！一、关于shell指令：我们知道，shell指令是Linux里面带的
java 无损读取文本文件 hw1287789687 读取文件无损读取读取文本文件 charset
java 如何无损读取文本文件呢？以下是有损的 @Deprecated public static String getFullContent(File file, String charset) { BufferedReader reader = null; if (!file.exists()) { System.out.println("getFull
Firebase 相关文章索引 justjavac firebase
Awesome Firebase 最近谷歌收购Firebase的新闻又将Firebase拉入了人们的视野，于是我做了这个 github 项目。 Firebase 是一个数据同步的云服务，不同于 Dropbox 的「文件」，Firebase 同步的是「数据」，服务对象是网站开发者，帮助他们开发具有「实时」（Real-Time）特性的应用。开发者只需引用一个 API 库文件就可以使用标准 RE
C++学习重点 lx.asymmetric C++笔记
1.c++面向对象的三个特性：封装性，继承性以及多态性。 2.标识符的命名规则：由字母和下划线开头，同时由字母、数字或下划线组成；不能与系统关键字重名。 3.c++语言常量包括整型常量、浮点型常量、布尔常量、字符型常量和字符串性常量。 4.运算符按其功能开以分为六类：算术运算符、位运算符、关系运算符、逻辑运算符、赋值运算符和条件运算符。 &n
java bean和xml相互转换 q821424508 java bean xml xml和bean转换 java bean和xml转换
这几天在做微信公众号做的过程中想找个java bean转xml的工具，找了几个用着不知道是配置不好还是怎么回事，都会有一些问题，然后脑子一热谢了一个javabean和xml的转换的工具里，自己用着还行，虽然有一些约束吧，还是贴出来记录一下顺便你提一下下，这个转换工具支持属性为集合、数组和非基本属性的对象。 packag
C 语言初级位运算 1140566087 位运算 c
第十章位运算 1、位运算对象只能是整形或字符型数据，在VC6.0中int型数据占4个字节 2、位运算符：运算符作用 ~ 按位求反 << 左移 >> 右移 & 按位与 ^ 按位异或 | 按位或他们的优先级从高到低； 3、位运算符的运算功能： a、按位取反： ~01001101 = 101
14点睛Spring4.1-脚本编程 wiselyman spring4
14.1 Scripting脚本编程脚本语言和java这类静态的语言的主要区别是:脚本语言无需编译,源码直接可运行; 如果我们经常需要修改的某些代码,每一次我们至少要进行编译,打包,重新部署的操作,步骤相当麻烦; 如果我们的应用不允许重启,这在现实的情况中也是很常见的; 在spring中使用脚本编程给上述的应用场景提供了解决方案,即动态加载bean; spring支持脚本

Spark分布式机器学习源码分析：模型评估指标

你可能感兴趣的:(Spark分布式机器学习源码分析：模型评估指标)