zeIx_

阅读笔记6*：基于半监督学习的运动想象脑机接口研究

文章目录

论文信息
笔记
- 1.摘要
- 2.绪论
- - 2.1 BCI研究基础
  - - 2.1.1BCI概念与研究意义
    - 2.1.2BCI系统组成与分类
    - 2.1.3存在问题
  - 2.2 半监督学习研究背景
  - - 2.2.1模式识别
    - 2.2.2半监督学习
    - 2.2.3半监督学习分类研究现状
    - 2.2.4 半监督学习遇到的问题和挑战
- 3.运动想象EEG的特征提取方法研究
- - 3.1 基于运动想象的EEG
  - 3.2 EEG的预处理
  - - 3.2.1空间滤波
    - 3.2.2频率滤波
  - 3.3.3 EEG特征提取方法
- 4.参数选择的半监督算法研究
- - 4.1 自训练算法
  - 4.2参数选择的半监督算法
- 5.衍生 FLDA 的半监督算法研究
- - 5.1协同训练算法
  - 5.2 衍生 FLDA 的半监督算法
- 5.融合主动学习的半监督多分类研究
- - 5.1主动学习（Active Learning）研究
  - 5.2 三种分类器的样例选择策略
  - 5.3多任务分类
  - 5.4 融合主动学习的半监督学习
- 6.基于 SCSP 的 batch-mode 增量式顺序更新半监督算法研究
- - 6.1增量式半监督
  - 6.2 基于 SCSP 的 batch-mode 增量式顺序更新半监督算法

论文信息

题目：基于半监督学习的运动想象脑机接口研究
作者：谭学敏
单位:重庆大学电气工程
发表时间：2015.05

笔记

1.摘要

基于参数选择的自训练算法（STBMS），解决了运动想象 BCI 自训练中小样本无法利用交叉验证准确选择合适参数的问题。针对迭代过程噪声不断积累的问题，提出了一种置信度评估准则，去除未标记样本中易误标记的噪声样本，选择置信度高的样本添加到训练集中重新训练，提高了自训练的分类性能和信噪比
基于衍生FLDA（Fisher Linear Discriminant Analysis）的协同训练算法（CTBMFLDA），运用到运动想象的分类中。
用于运动想象 BCI 多分类的三种主动学习方法（ALNACD，ALSVMactive 和 ALEBS），探索了这三种主动学习的样例选择策略：最近平均聚类距离（Nearest Average-class Distance，NACD）,SVM 主动学习（SVMactive）和信息熵（Entropy-based Sampling,EBS）
提出了一个新的特征提取方法：分段选择共空间模式（Segmented Common Spatial Pattern,SCSP）。利用 SCSP 作为特征提取方法，提出了基于 SCSP 的batch-mode 增量式顺序更新半监督算法（BMSUST-SCSP），不仅节省了训练时间，而且为在线 BCI 的开发和应用提供了模型和框架。

2.绪论

2.1 BCI研究基础

2.1.1BCI概念与研究意义

脑机接口：在不依赖脑的正常输出通路（外围神经与肌肉组织）的情况下，建立起人脑与计算机或其他电子设备之间的直接通讯和控制。

BCI技术的理论意义在于：它的研究与开发过程不仅能够深入理解大脑认知模式、控制方式与信息流程，而且也能对大脑思维模式与意识的形成机制提供新的研究方法。

BCI技术主要应用于以下几个方面：

医疗领域
军事领域
娱乐与日常
可穿戴智能装备

2.1.2BCI系统组成与分类

1.信号采集
大部分都是在用EEG

2.信号预处理
信号预处理主要是对信号进行滤波和去噪，一个有效的预处理可以增强信噪比和提高 BCI 系统的性能。通常使用的预处理方法包括空间滤波、频率滤波、独立成份分析去除眼电、基线校正等。

3.信号处理
原始脑信号经过预处理以后，需要经过特征提取和信号分类将信号转换成对设备的控制命令。在 BCI 系统中，特征提取实际上也是为了提高信噪比，把需要的有用特征从噪声中突现出来，这些有用的特征是真正能够反应大脑真实意图的。提取到反应大脑意识的特征后，信号分类的主要任务是将这些特征进行分类识别。目前，用于 BCI 分类的方法很多，如线性判别分析、支持向量机、人工神经网络等。

4.输出控制

5.操作协议

根据以下三种不同的分类方式，BCI 系统可分为以下几类：

植入式BCI和非植入式BCI
自发式和诱发式
同步式和异步式

2.1.3存在问题

提高速度与精度
提高自适应性
减少训练时间与增强鲁棒性

2.2 半监督学习研究背景

2.2.1模式识别

模式识别是对感知信号的行为或物理现象进行解释和判别的过程，侧重于自动化和判读方面的研究。
模式识别过程主要包括数据的预处理、特征提取与选择、分类识别。

2.2.2半监督学习

在训练过程中，它除了使用少量的有标记样本，还利用了大量未标记样本的隐含信息。

半监督学习的基本思想是在有标记样本的帮助下建立假设模型，并使用模型预测未标记样本标签。

半监督学习基本假设

聚类假设

如果数据点在同一聚类中，它们很有可能具有相同的类别标记.这意味着决策边界应该位于数据较为稀疏的区域。

流形假设

不同于着重考虑整体特性的聚类假设，流形假
设着眼于局部特性，实际反映了决策函数的局部平滑性。在大量未标记样本的参与下，整个数据空间变得十分稠密，这有助于更加准确地刻画局部区域特性，增加了决策函数的局部平滑性

局部与全局一致性假设

邻近的数据很有可能属于同一类别，相同结构上的数据很有可能有相同的标签

2.2.3半监督学习分类研究现状

生成式模型算法

此算法利用聚类假设，在少量有标记样本周围聚类。算法使用生成式模式作为分类器，将未标记样本属于某一类别的概率作为一组缺乏的参数建模，再利用期望最大化EM（Expectation Maximization）算法进行标记和模型参数的估计。

基于图正则化框架的半监督算法

直接或间接地使用流形假设。该算法先利用训练样本（所有有标记和未标记样本）与某种相似度量建立一个图形，图中所对应的是所有训练样本，边表示样例间相似度，然后定义所需要优化的目标函数，最后利用正则化项（决策函数在图上的光滑性）求解最优模型参数

直推式向量机（Transductive Support Vector Machine，TSVM)

传统的归纳式向量机需要大量有标记的样本来训练SVM分类器。TSVM方法能够添加未标记样本中包含的特征信息到有标记的样本中，在不考虑模型泛化能力的前提下，使用拟合的分类器对测试样本进行优化，而且未标记样本对分类器进行拟合是一个渐进式递归过程

自训练算法

自训练算法首先利用少量有标记样本训练分类器，然后使用分类器为未标记样本分类，未标记样本中置信度高的样本与它们预测的标记一起，添加到有标记的样本中重新训练分类器，这个过程不停迭代直到满足停止条件

协同半训练算法

算法使用两个分类器进行协同训练，少量有标记样本训练出的分类器 1 从未标记样本中挑选置信度高的未标记样本预测其标签，并将这些样本交给分类器 2，少量有标记样本训练出的分类器2 从未标记样本中挑选置信度高的样本交给分类器 1，这个过程不断迭代直到满足停止条件。

2.2.4 半监督学习遇到的问题和挑战

如何去除噪声和提高信噪比
如何准确选择参数
如何在更真实条件下构建协同训练算法
如何融合其它机器学习方法到半监督学习中
如何为在线系统的开发和应用提供模型和框架

3.运动想象EEG的特征提取方法研究

3.1 基于运动想象的EEG

基于运动想象的生理基础：人在进行想象运动时能激活大脑的某些特定的功能区，对应的EEG会产生有规律且稳定的特征变化。当人在做实际或想象运动时大脑皮层的相关运动区域特定频率段振幅减小的这种现象称之为事件相关去同步化（Event-related Desynchronization，ERD）。当人在大脑静息或懒惰的情况下，特定频率段的振幅增加的这种现象称之为事件相关同步化（Event-related Synchronization，ERS）
ERD 与 ERS 现象都不是单独发生的。当人在做实际或想象左手运动时，ERD 现象将会出现在大脑右侧皮层的运动区域，即对应区域的特定μ频带的μ波（8～13Hz）和 β频带的β波(18～25Hz)的振幅会减小，而在大脑的左侧皮层的运动区域，将会出现 ERS 现象。当人在做实际或想象右手运动时，那么 ERD 现象将会出现在大脑左侧皮层的运动区域，ERS 现象则出现在大脑另一侧的运动区域。

3.2 EEG的预处理

预处理的目的是一定程度的去除噪声并且提高信噪比。主要方法包括空间滤波、频率滤波、去除眼电和基线校正。

3.2.1空间滤波

EEG 的噪声来源主要包括非脑电的伪迹（如心电、肌电、眼动等）和不需要的脑电成分（如视觉皮层的 alpha 信号等）。在采集受试者 EEG 的过程中，有用信号和噪声同时被采集，各导联的 EEG 弥散到整个头皮，造成噪声与所需信号的频段重叠，使得导联信号间有非常强的关联性。文献指出相邻两个导联的相关系数达到了 60%~70%。空间滤波对提高多通道 EEG 的信噪比起着非常重要的作用。空间滤波主要包括以下四种方法：耳突参考(Ear Reference，ER)、共同平均参考法(Common Average Reference，CAR)、小拉普拉斯参考(Small Laplacian reference)和大拉普拉斯参考(Large Laplacian reference)。

3.2.2频率滤波

频率滤波是一种通用的滤波方法，它对消除干扰信号、提高信噪比很有帮助。滤波器主要有 IIR 滤波器（无限长脉冲响应滤波器）和 FIR 滤波器（有限长脉冲响应滤波器）。

3.3.3 EEG特征提取方法

时频分析：将时间和频率分析结合起来能够有效地解决传统傅立叶变换全局性变化的局限性。
其主要思想是将一维时域信号映射到二维时-频平面上。
自回归模型（AR）： AR 非常适合对具有非平稳性的 EEG 进行功率谱估计

功率谱：功率谱是功率谱密度函数的简称，它定义为单位频带内的信号功率。它表示了信号功率随着频率的变化情况，即信号功率在频域的分布状况。功率谱表示了信号功率随着频率的变化关系

共空间模式（CSP）：是提取运动想象EEG特征最有效的算法之一。这一算法的成功主要归功于ERS/ERD的神经生理现象。

CSP 算法的目标是设计一个最优的空间滤波器来获取最佳的投影方向，使第一类方差最大化，而使另一类方差最小化，实现对两类任务协方差矩阵的同时对角化，最终使两类信号的区别最大。

滤波带宽共空间模式（FBCSP）

FBCSP 最主要的思想是使用切比雪夫 II 型滤波器对 EEG 经验选取的各个频带分别提取 CSP 特征，然后通过特征选择算法挑选出所有频带中信息量大的特征，这样能有效避免遗漏某个频率段的有用信息。

分段选择共空间模式（SCSP）

虽然 CSP 和 FBCSP 算法在提取运动想象 EEG 特征上取得了很好的效果，但是它们都没有充分考虑 EEG 中最有用的数据段，只是经验选取有用的数据段。如果数据段范围选择不当，很有可能加入无用信息或遗漏其它的有用信息，从而导致分类性能的急剧下降。

4.参数选择的半监督算法研究

交叉验证：在实际的训练中，训练的结果对于训练集的拟合程度通常还是挺好的（初始条件敏感），但是对于训练集之外的数据的拟合程度通常就不那么令人满意了。因此我们通常并不会把所有的数据集都拿来训练，而是分出一部分来（这一部分不参加训练）对训练集生成的参数进行测试，相对客观的判断这些参数对训练集之外的数据的符合程度。这种思想就称为交叉验证（Cross Validation）

4.1 自训练算法

自训练(Self-training)是经常应用到半监督分类中的一种算法，它分为迭代式自训练和增量式自训练。（增量式自训练在第6节）

在执行过程中，迭代式自训练算法首先利用少量已标记训练样本集 L 训练初始分类器 C，然后将训练好的分类器 C用来预测大量未标记样本集 U 中样本的类别，并且选取出置信度高的样本 S。最后，将预测出的置信度高的带标签样本 S 添加到已标记训练样本集 L 中，更新训练样本集 L，重新训练分类器 C。通过迭代的方式，不断更新训练集直到满足停止条件。

如果在迭代过程中，我们能够从未标记的样本集中找到置信度高的样本同时剔除置信度低的样本，那么更新的训练集的质量将会得到提高，训练出的分类器将会有更好的效果。

4.2参数选择的半监督算法

5.衍生 FLDA 的半监督算法研究

第三章我们介绍了自训练算法能提高运动想象 BCI 的分类精度，在本章中，我们证明了半监督分类的另一种算法:协同训练（Co-training），能够获得比自训练算法更好的分类性能。

提出了一种基于衍生 FLDA（Fisher Linear Discriminant Analysis，FLDA）分类器的协同训练算法(CTBMFLDA)，在更真实条件下构建了两个有明显差异性的分类器 FLDA1 和 FLDA2，分别为对方挑选置信度高的样本，进而提高协同训练算法对运动想象 BCI 的分类性能

5.1协同训练算法

该算法假设训练集拥有两个充分冗余的视图，这两个充分冗余视图的属性集需要同时满足以下两个条件：（1）两个数据集是相互独立的。（2）两个数据集都能够对同一问题充分描述。在执行标准协同训练的过程中，该算法首先分别在这两个充分冗余的视图上使用少量已标记训练样本集 L 训练分类器 h1和 h2,然后对大量未标记样本集 U 中的样本进行预测，并且分别从每个分类器的预测结果中选择置信度高的样本添加到另一分类器所对应的训练集中，扩大两个分类器所对应的训练集。算法的目的是两个分类器通过提供互相未知的信息给对方，同时提高两个分类器的表现。

协同训练算法的挑战：

难以满足充分冗余视图
选择分类器
确定评价函数

5.2 衍生 FLDA 的半监督算法

Fisher线性判别（Fisher Linear Discriminant Analysis，FLDA）

FLDA 考虑把 n 维空间的样本投影到一条直线上，即把 n 维样本压缩成一维。在一般情况下，n 维空间压缩成一维空间在数学上是容易办到的。FLDA 要解决的基本问题就是将样本尽可能地投影到某个方向，使得在这个方向的直线上分开的效果最好。即根据实际情况寻找一个判别准则函数，在这个函数的投影下使得投影后的样本在新的空间中类间离散度最大而类内离散度最小 .

我们构建 FLDA1 和 FLDA2 这两个分类器进行协同训练主要有以下原因：

FLDA1 和 FLDA2 是由 FLDA 分类器衍生得到的。FLDA 在 BCI 中是一种很流行的分类算法并且能够取得比较好的分类结果。Ahi 等人已经证明 FLDA 甚至能够获得与 SVM 差不多的分类结果，且计算复杂度比 SVM 低
FLDA1 和 FLDA2 分类器计算量小，实现简单，分类速度快，而且不需要使用交叉验证确定参数，进一步减少了计算的复杂程度。
FLDA1 分类器和 FLDA2 分类器的目标分别是最大化类间散度和最小化类内离散度，因此这两个分类器的差异是明显的。在协同训练中，如果不能满足两个充分冗余视图，那么维持分类器的差异性是非常重要的，否则协同训练算法将退化成自训练算法。但是即使分类器的差异很大，随着迭代的增加，两个分类器不断地相互学习，总是为对方提供自己预测的信息，不可避免地，两个分类器也会变得越来越相似.

5.融合主动学习的半监督多分类研究

5.1主动学习（Active Learning）研究

主动学习最终的目的是用尽可能少的标记样本训练分类性能最好的分类模型，主动学习框架主要由学习引擎和搜索引擎两部分组成。

学习引擎用于建立一个基准分类器，并且使用监督算法对已标记数据进行学习来提高分类性能。搜索引擎则使用样例选择策略对未标记样本进行评价，选择出不确定性大的样本，并交给专家人工标记。之所以选择不确定性大的样本是因为我们很难区分不确定性大的样本到底属于哪类，因此，它是最有用的样本，如果添加到原标记训练集中重新训练最有可能提高分类器的性能。学习引擎和搜索引擎交替运行多次后，基准分类器的性能得到提高。当满足迭代停止条件时，主动学习过程终止。

主动学习的形式化描述为：主动学习模型的 5 个变量是（G，Q，S，L，U）。首先，使用初始标记训练集 L 训练分类器 G，然后使用查询函数 Q 从未标记的样本池 U 中搜索不确定性大的样本，专家 S 负责对选择出的样本进行人工标记真实的标签。之后，将这些人工标记的样本加入到训练集 L 中重新训练新的分类器 G。这个过程不停地迭代直到满足停止条件。其实这里的查询函数就是指样例选择策略。主动学习过程如图 5.1。

在主动学习中，分类器能主动选择未标记数据中不确定性大的数据交给专家人工标记其真实的标签，并将这些数据添加到已标注的数据中重新训练分类器，在选择尽可能少数据的情况下获得尽可能高的分类率

主动学习解决了引入错误的分类信息到训练集的问题，成功的添加了不确定性大的数据到训练集中提高分类器的性能，但是却没有充分挖掘剩余未标记数据中的隐含信息。本章考虑将主动学习与半监督学习的思想结合起来，利用主动学习来选择未标记数据中不确定性大的数据并人工标注，再利用半监督学习来挖掘剩余未标记数据中置信度高的数据并赋于其预测标签，这对提高分类器的性能有重大的意义。

在主动学习过程中，应用了最近平均聚类距离（Nearest Average-class Distance，NACD），SVM 主动学习（SVMactive）和信息熵（Entropy-based Sampling，EBS）这三种样例选择策略来选择未标记数据中不确定性大的样本。这三种策略均是基于池的主动学习。

（这一章剩下的感觉对我目前的水平来说有点对牛弹琴）

5.2 三种分类器的样例选择策略

5.3多任务分类

5.4 融合主动学习的半监督学习

6.基于 SCSP 的 batch-mode 增量式顺序更新半监督算法研究

第三章描述了迭代式的半监督学习在运动想象 BCI 中的应用，本章根据第二章提出的 SCSP 特征提取算法，提出了一种基于 SCSP 的 batch-mode 增量式顺序更新半监督算法（BMSUST-SCSP），将未知大样本池划分成若干个子集（batch），依次对各子集的未标记样本进行选择

6.1增量式半监督

自训练是一种常用的半监督分类算法，分为迭代式和增量式自训练。

增量式自训练是指在第一次迭代中，利用少量初始已标记样本集 L 训练分类器 C，然后从未标记样本集 U 中挑选置信度高的部分样本 S1并添加到 L 中更新训练集（L+S1）来重新训练分类器 C。在第二次迭代中，更新的分类器重新选择剩余未标记样本集 U-S1中置信度高的部分样本 S2并重新添加到 L+S1中更新训练集为L+S1+S2，分类器 C 再次得到更新，未标记训练集中的样本继续减少为 U-S1-S2。这个过程不断迭代直到满足停止条件。

值得注意的是，对增量式自训练来说，训练集中的样本数量随着迭代的增加而增加，而未标记训练集中的样本在不断减少。而对于 3之前介绍的迭代式的自训练来说，在第 k(k>1)次迭代后，训练集中的样本数量并没有随着迭代的增加而增加，这是因为此时训练集是由两部分组成，第一部分是固定的初始已标记样本集 L，第二部分是分类器选择的未标记样本集 U中置信度高的样本，第二部分包括的样本是随着迭代的增加不断更新替代上一次迭代选择的样本,而不是在上一次迭代的训练样本上有所增加。

6.2 基于 SCSP 的 batch-mode 增量式顺序更新半监督算法

batch-mode增量式顺序更新半监督不同于传统的增量式半监督，传统的增量式半监督把未标记的样本看作一个样本池，每次迭代从未标记池中选择部分置信度高的样本更新分类器。而batch-mode 增量式顺序更新半监督则是将这个大样本池划分成若干个子集（batch），利用初始标训练集训练出的分类器选择第一个子集中置信度高的样本，将选择的样本用来扩展初始训练集并重新训练分类器，再选择下一个子集中置信度高样本以更新分类器，直到依次使用完所有子集。

假设两个原始数据集：已标记的初始训练集 DI和未标记的扩展训练集 DF，DI包含 N1个含标签的样本，DF包含 N2个不含标签的样本。

如何让AI真正理解你的意图（自适应Prompt实战指南） nine是个工程师大语言模型人工智能 prompt
目前的LLM模型，在理解用户意图方面，正在使用自适应Prompt技术，来提升模型的理解能力。目前使用deepseek推理模型能明显看到自适应的一个过程。前言：为什么你的AI总是"答非所问"？相信很多人都遇到过这样的情况：你问：“帮我写一个Python爬虫”AI答：给你一堆理论知识和完整教程（你只想要简单代码）你问：“推荐一部电影”AI答：推荐了《教父》（你想看轻松喜剧）你问：“解释一下机器学习”A
AI人工智能与机器学习的大数据融合应用 AI智能探索者人工智能机器学习大数据 ai
AI人工智能与机器学习的大数据融合应用关键词：AI人工智能、机器学习、大数据、融合应用、数据挖掘摘要：本文深入探讨了AI人工智能与机器学习在大数据融合应用方面的相关内容。首先介绍了研究的背景、目的、预期读者和文档结构，对核心术语进行了清晰定义。接着阐述了AI、机器学习和大数据的核心概念及相互联系，给出了形象的文本示意图和Mermaid流程图。详细讲解了核心算法原理，并通过Python源代码进行说明
AI人工智能遇上TensorFlow：技术融合新趋势 AI大模型应用之禅人工智能 tensorflow python ai
AI人工智能遇上TensorFlow：技术融合新趋势关键词：人工智能、TensorFlow、深度学习、神经网络、机器学习、技术融合、AI开发摘要：本文深入探讨了人工智能技术与TensorFlow框架的融合发展趋势。我们将从基础概念出发，详细分析TensorFlow在AI领域的核心优势，包括其架构设计、算法实现和实际应用。文章包含丰富的技术细节，如神经网络原理、TensorFlow核心算法实现、数学
如何使用Python控制笔记本电脑屏幕亮度？很酷的站长编程笔记电脑 python 开发语言
Python已成为世界上最受欢迎的编程语言之一，这要归功于它的简单性、多功能性和广泛的应用程序。凭借其广泛的库和框架，Python可用于从Web开发到机器学习以及介于两者之间的任何内容。在Python中，最流行的数据分析和操作库之一是Pandas，它提供了处理表格数据的强大工具。在本教程中，我们将使用Python和屏幕亮度控制库来探索如何控制笔记本电脑屏幕亮度。我们将向您展示如何使用Python通
10、量子神经网络：从理论到实践安检量子神经网络 PennyLane Qiskit
量子神经网络：从理论到实践1.量子神经网络简介量子神经网络（QuantumNeuralNetworks,QNNs）是量子计算与经典机器学习相
深度学习之迁移学习路溪非溪人工智能迁移学习机器学习
认识迁移学习迁移学习（TransferLearning）是机器学习中的一种重要技术，其核心思想是将在一个任务上学习到的知识（模型参数、特征表示等），迁移应用到另一个相关但不同的任务中，从而提升新任务的学习效率和性能，尤其是在新任务数据有限的情况下。一、迁移学习的核心动机传统机器学习通常要求为每个新任务收集大量标注数据并从头训练模型，但现实中面临以下挑战：数据稀缺：例如医疗影像分析（罕见疾病样本少）
【机器学习】解密计算机视觉：CNN、目标检测与图像识别核心技术（第25天）吴师兄大模型 0基础实现机器学习入门到精通机器学习计算机视觉 cnn 人工智能目标检测图像识别 pytorch
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
英伟达终为 CUDA 添加原生 Python 支持，他有什么目的？朱卫军 AI python 开发语言
CUDA原来只支持C/C++/Fortran，在2025的CES上宣布支持原生Python其实是不得已而为之，一方面现在Python的AI开发者数量过于庞大，达到数千万级别，而CUDA仅几百万，CUDA想扩大自己的用户圈子，只能拉Python入伙。另一方面，Python生态的计算库实在太强大，比如numpy，几乎垄断了数组计算，还有像scipy、keras等，已经成为机器学习的主流工具，CUDA必
Bongo-Cat-Crew:用Python打造动态音乐猫元楼
本文还有配套的精品资源，点击获取简介：在这个项目中，我们创建了一个将音乐、游戏和编程结合的创新体验，允许玩家通过动态猫声分类与节奏游戏OSU!互动。Python的使用使得音乐节奏识别、猫声分类逻辑和游戏接口交互成为可能。项目的核心包含了音乐节奏分析、游戏模式识别和猫声动画实现等技术要点，旨在为玩家提供独特的交互乐趣。1.Python在项目中的应用和角色1.1Python在IT行业中的普及Pytho
Python爬虫实战：爬取网易云音乐热评的完整教程 Python爬虫项目 python 爬虫开发语言能源 selenium
1.背景介绍：为什么爬网易云音乐热评？网易云音乐是中国最受欢迎的音乐平台之一，其用户活跃度极高。评论区往往蕴含丰富的情感表达和用户反馈，是音乐数据分析、情感分析、推荐算法等领域的宝贵数据源。爬取热评可以用于：歌曲口碑分析用户情绪挖掘热门歌曲趋势追踪机器学习训练数据准备但网易云音乐对评论接口进行了加密，直接请求很难成功。本文将帮你攻克这一难点。2.网易云音乐热评接口分析我们首先用浏览器开发者工具（C
【AI与数据管理】基于AI大模型的企业元数据管理方案暴躁小师兄数据学院人工智能 ai 语言模型
基于AI大模型的元数据关键解决方案元数据（metadata）是描述数据的数据，例如数据的来源、结构、类型和质量信息。它在数据管理、分析和应用中至关重要。随着人工智能（AI）大模型（如基于Transformer的模型）的发展，这些模型凭借其强大的自然语言处理、模式识别和生成能力，为元数据处理提供了高效、自动化的解决方案。下面，我将逐步解释基于AI大模型的元数据关键解决方案，帮助您理解核心方法、挑战和
Python编程菜鸟教程：从入门到精通的完全指南_python菜鸟教程 2401_89285717 python 开发语言
我们将介绍Python在数据科学、机器学习、Web开发等方面的应用，并带你了解Python社区和生态系统。基础入门Python安装：在官方网站下载安装包，根据不同操作系统进行安装。Mac用户可直接使用Homebrew进行安装Windows用户需下载安装包后进行手动安装Linux用户可使用apt-get或yum进行安装基础语法：Python是一种解释型语言，支持面向对象、函数式和面向过程等多种编程范
03 数据可视化的世界非常广阔，除了已提到的类型，还有许多更细分或前沿的可视化形式。晨曦543210 信息可视化人工智能
十五、机器学习与数据科学专用图表特征重要性图（FeatureImportancePlot）用途：展示机器学习模型中各特征对预测结果的贡献度。示例：随机森林模型中影响房价预测的关键因素。混淆矩阵热力图（ConfusionMatrixHeatmap）用途：分类模型性能评估，显示预测结果与真实标签的对比。示例：疾病诊断模型的真阳性/假阳性分布。学习曲线（LearningCurve）用途：分析模型训练过程
AI“大航海”时代：企业人力资源的AI-HR实践与效能提升策略
在数字化浪潮的推动下，人工智能（AI）正以前所未有的速度渗透各行各业，人力资源管理（HR）领域也不例外。AI技术的引入与应用落地，不仅提升HR管理效率，更在深层次上带来人力资源运作模式的变革。什么是AI-HR所谓AI-HR，是指将人工智能技术应用于人力资源管理，并通过机器学习、自然语言处理、数据挖掘等技术，优化招聘、培训、绩效评估、员工关系等人力资源各个业务模块。近年来，随着AI技术的成熟和普及，
2025 年机器学习工作流程的 7 个 AI 代理框架盖瑞理 AI Agent 人工智能
介绍机器学习从业者花费大量时间在重复性任务上：监控模型性能、重新训练流程、检查数据质量以及跟踪实验。虽然这些操作任务至关重要，但它们通常会占用团队60%到80%的时间，几乎没有留下任何创新和模型改进的空间。传统的自动化工具可以处理简单的、基于规则的工作流程，但它们难以应对机器学习操作所需的动态决策。何时应该根据性能漂移重新训练模型？当数据分布发生变化时，如何自动调整超参数？这些场景需要能够推理复杂
Python机器学习与深度学习：决策树、随机森林、XGBoost与LightGBM、迁移学习、循环神经网络、长短时记忆网络、时间卷积网络、自编码器、生成对抗网络、YOLO目标检测等 WangYan2022 机器学习/深度学习 Python 机器学习深度学习随机森林迁移学习
融合最新技术动态与实战经验，旨在系统提升以下能力：①掌握ChatGPT、DeepSeek等大语言模型在代码生成、模型调试、实验设计、论文撰写等方面的实际应用技巧②深入理解深度学习与经典机器学习算法的关联与差异，掌握其理论基础③熟练运用PyTorch实现各类深度学习模型，包括迁移学习、循环神经网络（RNN）、长短时记忆网络（LSTM）、时间卷积网络（TCN）、自编码器、生成对抗网络（GAN）、YOL
机器学习知识点复习上（保研、复试、面试）百面机器学习笔记
机器学习知识点复习上一、特征工程1.为什么需要对数值类型的特征做归一化？2.文本表示模型3.图像数据不足的处理方法二、模型评估1.常见的评估指标2.ROC曲线3.为什么在一些场景中要使用余弦相似度而不是欧氏距离？4.过拟合和欠拟合三、经典算法1.支持向量机SVM2.逻辑回归3.决策树四、降维1.主成分分析（PrinalComponentsAnalysis,PCA）降维中最经典的方法2.线性判别分析
脑机与AI：开启未来科技的双重引擎计算机学长人工智能人工智能脑机接口
脑机接口编程：现状与突破脑机接口编程，作为一门新兴的交叉学科领域，旨在建立大脑与计算机或其他外部设备之间的直接通信通道，通过对大脑信号的采集、处理和解读，实现大脑对外部设备的精准控制，以及外部设备对大脑的反馈刺激。这一技术的实现，依赖于多学科的深度融合，包括神经科学、电子工程、计算机科学等，其核心在于利用先进的算法和技术手段，将大脑的生物电信号转化为计算机能够识别和处理的数字信号。在当前的脑机接口
【PaddleOCR】快速集成 PP-OCRv5 的 Python 实战秘籍--- 实例化 OCR 对象的 predict() 方法介绍
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
NumPy：科学计算的超能引擎[特殊字符]（深入剖析+实战技巧）码海漫游者8 numpy 其他
文章目录为什么NumPy是Python科学计算的绝对核心？三维痛点直击ndarray：NumPy的核武器剖析内存布局揭秘（超级重要‼️）维度操作黑科技广播机制（Broadcasting）性能屠杀现场️高级技巧武装包️内存映射大文件爱因斯坦求和约定结构化数组真实世界应用场景图像处理机器学习数据预处理踩坑预警⚠️视图vs副本整数溢出性能压榨终极指南避免复制四法则终极加速方案你知道吗？就在你刷短视频的几
Python 机器学习实战：Scikit-learn 算法宝典，从线性回归到支持向量机清水白石008 python Python题库 python 机器学习算法
Python机器学习实战：Scikit-learn算法宝典，从线性回归到支持向量机引言各位Python工程师，大家好！欢迎来到激动人心的机器学习世界！在这个数据驱动的时代，机器学习已经渗透到我们生活的方方面面，从智能推荐系统到自动驾驶汽车，都离不开机器学习技术的支撑。作为一名Python开发者，掌握机器学习技能，无疑将为您的职业发展注入强大的动力，让您在人工智能浪潮中占据先机。Scikit-lea
Python机器学习入门必看！从原理到实战，手把手教你线性回归模型小张在编程 python 机器学习线性回归
引言在人工智能浪潮席卷全球的今天，机器学习（MachineLearning）早已不再是实验室的“黑科技”——打开购物APP的“猜你喜欢”、输入搜索词后的“相关推荐”、甚至天气预报中的温度预测，背后都有机器学习模型的身影。而在线性回归（LinearRegression）作为机器学习中最基础、最经典的监督学习模型，堪称机器学习的“敲门砖”。本文将从原理到实战，带你彻底掌握这一核心算法。一、机器学习的“
机器学习的数学基础-线性代数
本文用于复习并记录机器学习中的相关数学基础，仅供学习参考。很多总结和例子来源于mml项目（mml-book.github.io）十分感谢这本书的作者，PS：这本书目前没有中文版。线性代数线性方程组矩阵矩阵的加法与乘法矩阵加法矩阵乘法单位矩阵与标量相乘逆与转置逆转置解决线性方程组特解与通解高斯消元法初级变换应用：“-1”trick应用：求逆总结-如何解决线性方程组？向量空间群向量空间向量子空间线性独
【机器学习|学习笔记】随机森林（Random Forest, RF）详解，附代码。努力毕业的小土博^_^ 机器学习基础算法优质笔记1 机器学习学习笔记随机森林人工智能
【机器学习|学习笔记】随机森林（RandomForest,RF）详解，附代码。【机器学习|学习笔记】随机森林（RandomForest,RF）详解，附代码。文章目录【机器学习|学习笔记】随机森林（RandomForest,RF）详解，附代码。前言起源随机子空间法与Bagging的萌芽原理算法机制理论保障发展应用优缺点优点缺点Python实现示例（Scikit-learn）欢迎铁子们点赞、关注、收藏
LSA主题模型：基于奇异值分解的主题模型 AI天才研究院 AI人工智能与大数据 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LSA主题模型：基于奇异值分解的主题模型1.背景介绍主题模型是一种无监督的机器学习技术，用于发现大规模文本语料库中隐藏的语义结构。它能够自动识别文档集合中的主题，并根据这些主题对文档进行聚类和分类。主题模型在文本挖掘、信息检索、推荐系统等领域有着广泛的应用。LSA（LatentSemanticAnalysis）是一种经典的主题模型算法，基于奇异值分解（SVD）对词-文档矩阵进行分解，从而揭示词语和
【机器学习笔记 Ⅱ】9 模型评估巴伦是只猫机器学习机器学习笔记人工智能
评估机器学习模型是确保其在实际应用中有效性和可靠性的关键步骤。以下是系统化的评估方法，涵盖分类、回归、聚类等任务的评估指标和技术：一、分类模型评估1.基础指标2.高级指标ROC-AUC：通过绘制真正例率（TPR）vs假正例率（FPR）曲线下面积评估模型整体性能。AUC=1：完美分类；AUC=0.5：随机猜测。适用于二分类及多分类（OvR或OvO策略）。混淆矩阵：可视化模型在各类别上的具体错误（如将
【机器学习笔记 Ⅱ】7 多类分类巴伦是只猫机器学习机器学习笔记分类
1.多类分类（Multi-classClassification）定义多类分类是指目标变量（标签）有超过两个类别的分类任务。例如：手写数字识别：10个类别（0~9）。图像分类：区分猫、狗、鸟等。新闻主题分类：政治、经济、体育等。特点互斥性：每个样本仅属于一个类别（区别于多标签分类）。输出要求：模型需输出每个类别的概率分布，且概率之和为1。实现方式One-vs-Rest(OvR)：训练K个二分类器（
人工智能学习资源 Hemy08 人工智能学习
无机器学习基础：https://www.coursera.org/learn/machine-learning有机器学习基础：MachineYearning深度学习入门：https://www.coursera.org/learn/neural-networks-deep-learning
【机器学习笔记 Ⅱ】4 神经网络中的推理
推理（Inference）是神经网络在训练完成后利用学到的参数对新数据进行预测的过程。与训练阶段不同，推理阶段不计算梯度也不更新权重，仅执行前向传播。以下是其实现原理和代码示例的完整解析：1.推理的核心步骤加载训练好的模型参数（权重和偏置）。前向传播：输入数据逐层计算，得到输出。后处理：根据任务类型解析输出（如分类取概率最大值，回归直接输出）。2.代码实现（Python+NumPy）(1)定义模型
开源语音分离工具大比拼：人声 VS 背景音乐 ⚔️ - 获取干净训练语音 (数据截至 2025年4月17日)！！！小丁学Java python 人工智能
开源语音分离工具大比拼：人声VS背景音乐⚔️-获取干净训练语音(数据截至2025年4月17日)在音频处理，特别是机器学习训练数据的准备中，获取纯净的人声（去除背景音乐或噪声）是一个常见的痛点。幸运的是，开源社区提供了许多强大的工具来帮助我们完成这项任务！本文将盘点一系列GitHub上的开源语音分离项目，重点关注那些能有效分离“人物语音”和“背景音乐”的工具，并根据GitHub星标⭐（反映社区关注度
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f