Kilig*

模式识别与机器学习-无监督学习-降维

为什么要降维
维度选择
- 手工移除特征
- 过滤式选择
- 包裹式选择
- 嵌入式选择
维度抽取（线性模型）
- MDS
- PCA
- - 目标1：最小重构误差
  - 目标2：最大投影方差
- SVD
- 思考：为什么保留特征值大的？
维度抽取（非线性模型）
- KPCA
- 流形学习
- - ISOMAP
  - - 优点：
    - 缺点：
  - LLE
  - T-SNE

谨以此博客作为复习期间的记录

为什么要降维

消除冗余信息和噪声： 原始数据集可能包含大量冗余特征或噪声，这些特征可能对模型训练产生负面影响。通过降维，可以剔除不相关或冗余的特征，提高模型的泛化能力。
简化模型复杂度： 较高维度的数据会增加模型的复杂性和计算成本。降低数据维度可以减少模型训练和预测的时间，使得模型更加高效。
避免维度灾难： 在高维空间中，数据变得稀疏，样本间的距离变得很大，导致模型性能下降。降维有助于缓解维度灾难问题，提高模型的性能和准确性。
可视化和理解数据： 降维可以将高维数据映射到二维或三维空间，使其更易于可视化展示和理解。这有助于发现数据之间的潜在关系和模式。

降维方法主要分为两大类：特征选择和特征提取。特征选择是指直接选择重要特征，舍弃不重要的特征；而特征提取则是通过线性变换等数学方法，将原始特征映射到一个新的低维度空间。

维度选择

手工移除特征

以下这些特征可能需要手工移除。

质量差的特征（特征的缺失比例超过50%）
冗余的（multicollinearity/方差膨胀因子VIF）
不相关（文本挖掘中的停用词）

过滤式选择

过滤式选择（Filter Feature Selection）是一种常见的降维方法，其基本原理是在训练模型之前，通过对特征进行评估和排序，选择最具信息量的特征子集。它不依赖于任何特定的机器学习模型，而是根据特征本身的统计性质或相关性来进行特征选择。

以下是过滤式选择的一般步骤：

特征评估： 针对每个特征，使用统计方法进行评估，确定其与目标变量之间的相关性或信息量。常用的评估指标包括信息增益、方差、相关系数等。
特征排序： 对特征进行排序，按照其评估得分高低进行排列。通常，选择具有较高分数的特征作为最终的特征子集。
特征选择： 根据预先设定的阈值或选择前N个特征的方式，从排好序的特征列表中选择要保留的特征。这些特征将作为输入用于后续的模型训练。

过滤式选择的优点包括：

计算效率高： 在数据预处理阶段就完成了特征选择，避免了在模型训练中进行特征筛选的计算开销。
模型无关性： 不依赖于具体的机器学习模型，因此适用于各种算法和任务。
简单直观： 通常易于理解和实现。

然而，过滤式选择也存在一些限制：

忽略特征之间的关联性： 它只考虑单个特征与目标变量之间的关系，可能忽略了特征之间的复杂关联。
不考虑后续模型的性能： 选择特征时不考虑模型本身的性能，可能导致选择的特征并不是最优的，不能保证在后续模型中获得最佳性能。

包裹式选择

包裹式选择（Wrapper Feature Selection）是一种特征选择方法，与过滤式选择不同，它将特征选择看作是一个子集搜索问题，并使用特定的机器学习模型来评估每个特征子集的性能。这种方法依赖于所选模型的性能来评估特征子集的好坏。

基本上，包裹式选择的工作流程如下：

特征子集搜索： 从原始特征集合中生成不同的特征子集（组合），这些子集可能包含不同数量的特征。
模型训练和评估： 使用选定的机器学习模型对每个特征子集进行训练，并评估模型在验证集或交叉验证中的性能。
选择最佳特征子集： 根据模型性能选择最佳的特征子集作为最终的特征组合。
应用于测试集： 使用选定的特征子集对测试数据进行预测或分类。

包裹式选择的优点包括：

考虑特征之间的关联性： 通过搜索特征子集，能够考虑到特征之间的相互作用和关联。
最大化模型性能： 选择特征子集时直接使用模型评估性能，可以更好地适应所选择的机器学习模型。

然而，包裹式选择也存在一些缺点：

计算开销大： 由于需要训练多个模型来评估不同的特征子集，因此计算成本通常较高。
过度拟合风险： 在搜索特征子集时，可能会过度拟合训练集，导致所选择的特征子集在其他数据集上泛化能力较差。

常见的包裹式选择方法包括递归特征消除（Recursive Feature Elimination，RFE）和正向选择（Forward Selection）等。选择适当的包裹式方法需要根据数据集的大小、特征数量、计算资源和模型性能等因素进行权衡考虑。

嵌入式选择

嵌入式选择（Embedded Feature Selection）与过滤式选择和包裹式选择不同，它将特征选择与模型训练过程结合在一起，通过在模型训练过程中自动选择最佳特征。

在嵌入式选择中，特征选择过程与模型训练过程是紧密耦合的。它使用具有内置特征选择机制的机器学习算法，这些算法能够在训练过程中自动学习和选择最相关的特征。通常，这些方法会根据特征的权重或重要性来决定特征的贡献程度，并且会剔除对模型不重要的特征。

嵌入式选择的主要优点包括：

自动特征选择： 在模型训练过程中自动选择最优的特征，不需要额外的特征评估步骤。
结合模型优化： 能够充分利用模型自身的优化过程，提高了特征选择的准确性。
减少过拟合风险： 通过同时考虑特征和模型，可以减少过拟合的风险，提高模型的泛化能力。

一些典型的嵌入式选择方法包括：

Lasso回归（套索回归）： 使用L1正则化项来推动模型系数稀疏化，从而实现特征选择。
决策树和基于树的方法： 如随机森林、梯度提升树等，它们可以通过特征的重要性来进行特征选择。
支持向量机（SVM）： 在SVM中，支持向量和相关的特征对分类或回归任务具有重要性，因此可以用于特征选择。

维度抽取（线性模型）

MDS

多维尺度（Multidimensional Scaling，MDS）是一种经典的降维技术，用于将高维数据映射到低维空间。其主要目标是保持数据点之间的距离或相似性关系，以便在降维后的空间中尽可能地保留原始数据的结构和信息。

MDS可以分为两种类型：度量MDS和非度量MDS。

度量MDS（Metric MDS）： 在度量MDS中，尝试在低维空间中保持数据点之间的距离关系。这意味着，如果两个数据点在高维空间中距离较远，那么在低维空间中它们仍然应该保持一定的距离。常用的距离度量包括欧氏距离、曼哈顿距离等。
非度量MDS（Non-metric MDS）： 非度量MDS关注于保持数据点之间的相对顺序而不是具体的距离值。它基于数据点之间的相似性或相对关系来进行降维。这种方法在不知道准确距离值的情况下，尤其有用。

MDS的工作流程通常包括以下步骤：

计算相似性/距离矩阵： 根据原始高维数据计算数据点之间的距离或相似性，这可以是欧氏距离、相关系数、余弦相似度等。
降维： 在得到距离或相似性矩阵后，MDS算法将数据点映射到一个低维空间中，以保持尽可能多的原始数据点之间的距离或相似性关系。
优化过程： MDS通过迭代优化过程来调整数据点在低维空间中的位置，以最大程度地满足在高维空间中的相似性关系。

PCA

PCA的主要目标是通过线性变换将原始特征投影到一个新的特征空间，这个新的特征空间是原始特征的线性组合。PCA将数据的方差最大化，通过保留最大方差的特征来减少数据集的维度。

PCA的工作流程如下：

PCA的优点包括：

降低数据维度： 可以减少数据集的维度，提高计算效率。
保留主要信息： 保留数据中最重要的信息，最大程度地保持原始数据的方差。
去相关化： 通过主成分，去除原始数据特征之间的相关性。

然而，PCA也存在一些限制：

线性变换限制： PCA是基于线性变换的，可能无法捕捉数据中的非线性关系。
可能信息丢失： 低维空间中的特征是原始特征的线性组合，可能会导致一些信息丢失。

PCA有两个非常核心的思想，最小重构误差和最大投影方差，从这两个思想出发都可以推到得到PCA的形式。

目标1：最小重构误差

目标2：最大投影方差

SVD

奇异值分解（Singular Value Decomposition，SVD）是一种矩阵分解技术，可以将一个矩阵分解为三个矩阵的乘积，用于降低数据的维度和特征提取。对于给定的一个 $\times n$ 的矩阵 $A$ ，其SVD表示为：

$\Sigma V^T$

其中：

$U$ 是一个 $\times m$ 的正交矩阵，其列向量是 $AA^T$ 的特征向量。
$\Sigma$ 是一个 $\times n$ 的对角矩阵，其对角线上的元素称为奇异值，表示了矩阵 $A$ 的奇异值。
$V$ 是一个 $\times n$ 的正交矩阵，其列向量是 $A^TA$ 的特征向量。

对于矩阵 $A$ ，其奇异值分解可以用于降低维度。通常，通过保留最重要的奇异值（即最大的奇异值），可以获得一个低秩近似矩阵，从而实现降维。

具体进行SVD的计算步骤如下：

计算 $A^TA$ 或 $AA^T$ ： 首先，计算矩阵 $A$ 与其转置的乘积 $A^TA$ 或 $AA^T$ （取决于 $A$ 的大小）。
求解特征值与特征向量： 对于 $A^TA$ 或 $AA^T$ ，求解其特征值和特征向量。这些特征值和特征向量将用于后续步骤。
选择奇异值与奇异向量： 通过特征值和特征向量得到矩阵 $A$ 的奇异值和对应的左奇异向量和右奇异向量。
构建奇异值分解矩阵： 将奇异值按降序排列构建成对角矩阵 $\Sigma$ ，左奇异向量构成矩阵 $U$ ，右奇异向量构成矩阵 $V$ 。

下面是使用Python中NumPy库进行SVD分解的示例代码：

import numpy as np

# 假设有一个矩阵 A
A = np.array([[1, 2, 3], [4, 5, 6]])

# 进行SVD分解
U, S, VT = np.linalg.svd(A)

# U、S、VT分别为左奇异矩阵、奇异值对角矩阵、右奇异矩阵的转置
print("左奇异矩阵 U：")
print(U)
print("\n奇异值对角矩阵 S：")
print(np.diag(S))
print("\n右奇异矩阵的转置 VT：")
print(VT)

思考：为什么保留特征值大的？

在PCA降维或者SVD降维中，保留特征值（PCA）或奇异值（SVD）大的原因与信息量和方差的关系有关。

方差和信息量： 特征值（PCA）或奇异值（SVD）代表了数据在特征方向上的方差或重要性。较大的特征值或奇异值意味着数据在相应特征方向上的方差较大，即数据在这个方向上的变化程度较大。
信息捕获： 在降维过程中，保留较大的特征值或奇异值相当于保留了数据中方差较大的方向，即保留了最重要的特征或信息。这些方差大的方向代表了数据中最主要的变化模式或特征，因此保留它们有助于保持数据的重要信息。
维度压缩： 通过保留较大的特征值或奇异值，可以实现对数据的维度压缩，同时尽可能地保留了最重要的特征信息。这种降维方式可以减少数据中不重要的噪声或变化不明显的方向，从而更有效地表达数据的主要特征。

总的来说，特征值或奇异值越大，代表着数据在对应方向上的信息量越大，因此在降维时保留这些特征值或奇异值大的方向，可以更好地保留数据的主要特征和重要信息，有助于更有效地表示原始数据。

维度抽取（非线性模型）

上一部分的线性模型在遇到非线性降维情况时，往往效果没那么理想。就像下图这样。因此有必要使用一些非线性的降维方法来达到更好的效果。

KPCA

核主成分分析（Kernel Principal Component Analysis，KPCA）是主成分分析（PCA）的非线性扩展，它利用核技巧将非线性数据映射到高维空间，从而实现对非线性数据的降维。

原理如下：

非线性映射： 使用核技巧（如多项式核、高斯核等）将原始数据映射到一个更高维的特征空间，使得数据在该特征空间中可以更容易地被线性分离或线性表示。
PCA在高维空间： 在高维特征空间中，执行标准的PCA，寻找能够最大化数据方差的主成分。
降维： 选择最重要的主成分投影到原始空间中，从而实现对非线性数据的降维。

核函数在KPCA中起着关键作用，它们可以将数据隐式地映射到高维空间，而无需显式计算高维空间的特征向量。常用的核函数包括线性核、多项式核、高斯径向基函数（RBF）核等。选择适当的核函数对KPCA的性能和效果至关重要。

流形学习

为什么要有流形学习呢？原因如下图:

ISOMAP

优点：

保持数据流形结构： ISOMAP试图保持数据点之间的地理距离关系，能够更好地捕捉数据的非线性结构。
降维后保持拓扑结构： ISOMAP在降维过程中努力保持数据点之间的拓扑结构，使得在降维后仍能保持数据之间的相对距离关系。
适用于曲面结构数据： ISOMAP适用于处理具有曲面结构或复杂非线性结构的数据，如人脸图像、地理数据等。

缺点：

计算复杂度高： ISOMAP需要计算数据点之间的距离矩阵，因此在大规模数据集上的计算成本较高，随着数据量增加，计算复杂度呈二次增长。
对噪声敏感： ISOMAP对噪声和局部数据分布的变化较为敏感，可能受到异常点的影响。
依赖于距离计算： ISOMAP对于距离的计算十分关键，如果数据间的距离计算不准确或不恰当，会影响最终的降维效果。
维度灾难问题： ISOMAP在高维数据上也会受到维度灾难的影响，因为在高维空间中计算距离会受到维度的限制。

LLE

局部线性嵌入（Locally Linear Embedding，LLE）是一种非线性降维技术，用于将高维数据映射到一个低维空间，同时保持数据的局部线性结构。LLE的目标是在降维后保持邻近数据点之间的局部关系和流形结构。

LLE的主要思想是：对于每个数据点，通过局部线性组合近邻数据点来重构该点，从而保持局部关系不变。它具体的工作步骤如下：

近邻选择： 对于每个数据点，通过一定的近邻选择方式（如最近邻方法），找到其局部近邻数据点。
局部重构权重： 对于每个数据点，通过最小化其与邻近数据点的线性重构误差，计算得到一个权重系数，用于对其进行局部线性重构。（优化 $w$ ）
低维表示： 通过优化局部重构权重，将高维数据点映射到低维空间，并尽可能保持局部线性关系。(优化 $y$ )

T-SNE

T分布随机邻域嵌入（t-distributed Stochastic Neighbor Embedding，t-SNE）是一种流行的非线性降维和数据可视化技术，用于将高维数据映射到一个低维空间（通常是2维或3维），以便于观察和分析数据的结构。

t-SNE的主要目标是保持数据点之间的局部相似性关系，尤其是在高维空间中保持那些局部密集的数据点之间的相对距离关系，同时尽可能地降低那些在高维空间中相对较远的数据点之间的距离。这有助于在降维后更好地呈现数据点之间的固有结构。

t-SNE的工作原理可以简述如下：

构建相似性矩阵： 首先，t-SNE计算原始高维数据点之间的相似性，通常使用高斯核函数来衡量点与点之间的相似度。
降维： t-SNE通过优化的方式，尝试在低维空间中重建相似性矩阵，使得低维空间中的数据点能够尽可能地反映出高维空间中数据点的局部相似性关系。
梯度下降优化： t-SNE使用梯度下降或其他优化方法来最小化高维空间中的相似性矩阵与低维空间中的相似性矩阵之间的差异。

t-SNE的优点和特点包括：

保留局部结构： t-SNE注重保留数据点之间的局部结构，能够很好地展现数据集中密集和稀疏区域的差异。
可视化效果好： t-SNE在数据可视化方面效果很好，能够帮助人们更直观地观察数据的固有结构和聚类。
适用于高维数据： 对于高维数据集，t-SNE能够较好地将其映射到低维空间中，并保持数据结构的特性。

然而，t-SNE也有一些局限性：

计算复杂度高： t-SNE的计算复杂度较高，尤其是对于大规模数据集，运行时间较长。
随机性： t-SNE的结果可能会因初始化和参数设置而有所不同，不同的随机种子可能导致不同的降维结果。

t-SNE通常用于数据探索和可视化，有助于理解高维数据的内在结构，但在实际应用中需要考虑其计算成本和参数调优等问题。

潜入思维的海洋：SoftCoT++如何让语言模型更聪明步子哥智能涌现语言模型人工智能自然语言处理
在人工智能的浩瀚星空下，大型语言模型（LLMs）如同一颗颗璀璨的恒星，照亮了从文本生成到复杂推理的广阔领域。然而，这些模型在推理任务中往往像是在迷雾中航行——尽管它们能抵达目的地，却常常因为固定的思维路径而错过更优的航线。2025年5月，一篇题为《SoftCoT++:Test-TimeScalingwithSoftChain-of-ThoughtReasoning》的论文如同一盏明灯，照亮了如何让
BI+AI实战：我们如何用3秒完成车企供应链推演 qq_43696218 人工智能
一、BI+AI引领财务分析新纪元在财务数据分析领域，奥威BI+AI正以革命性的姿态颠覆传统。当金蝶、用友等工具仍深陷报表泥潭时，奥威BI+AI通过深度融合商业智能（BI）与人工智能（AI），实现了从滞后报表到实时洞察的飞跃。这不仅极大地提升了财务分析的效率，更为企业的战略决策提供了前所未有的精准支持。二、BI+AI的核心技术优势‌实时动态分析‌o奥威BI+AI摒弃了静态数据集，依托原始科目余额表实
初中学习机推荐：从功能、内容到用户体验的深度解析资讯分享周 ux 人工智能
在教育信息化持续深化的背景下,初中阶段的学习辅助设备正逐步成为家长和学生关注的重点。尤其在“双减”政策推动下,传统补习班的作用被削弱,越来越多家庭开始依赖智能学习工具来提升学习效率和自主性。其中,初中学习机因其集视频课程、AI辅导、错题整理、学习反馈等多功能于一体,成为当前市场热度最高的教育硬件之一。本文将围绕市场上主流的几款初中学习机进行客观分析,重点介绍简单一百、学而思、科大讯飞、作业帮四款产
DeepSeek-V3 通俗详解：从诞生到优势，以及与 GPT-4o 的对比码事漫谈 AI ai
前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站1.DeepSeek的前世今生1.1什么是DeepSeek？DeepSeek是一家专注于人工智能技术研发的公司，致力于打造高性能、低成本的AI模型。它的目标是让AI技术更加普惠，让更多人能够用上强大的AI工具。1.2DeepSeek-V3的诞生DeepSeek-V3是DeepSeek公司推出的最新一代A
企业级AI开发利器：Spring AI框架深度解析与实战_spring ai实战 AI大模型-海文人工智能 spring python 算法开发语言 java 机器学习
企业级AI开发利器：SpringAI框架深度解析与实战一、前言：Java生态的AI新纪元在人工智能技术爆发式发展的今天，Java开发者面临着一个新的挑战：如何将大语言模型（LLMs）和生成式AI（GenAI）无缝融入企业级应用。传统的Java生态缺乏统一的AI集成方案，开发者往往需要为不同AI供应商（如OpenAI、阿里云、HuggingFace）编写大量重复的接口适配代码，这不仅增加了开发成本，
linux mysql命令行操作
命令行,linux,命令行操作相关学习资料：https://edu.51cto.com/video/797.htmlhttps://edu.51cto.com/video/1400.htmlhttps://edu.51cto.com/video/3832.htmlLinuxMySQL命令行操作入门指南作为一名刚入行的开发者，掌握Linux系统下的MySQL命令行操作是一项基本技能。本文将带你一步步
【第15章】亿级电商平台订单系统-高可用架构设计 cherry5230 亿级流量架构设计与落地系统架构分布式架构中间件
1-1本章导学课程概述核心内容：订单系统高可用架构设计项目背景：年交易额200亿的B2B电商平台订单系统本章学习路径高可用概念解析设计原则学习七大架构设计方法论项目实战应用一、高可用核心概念定义与价值解析系统可靠性标准指标二、设计原则体系冗余设计故障自动转移服务降级策略监控预警机制三、七大高可用设计方法论<
Python编程：使用Opencv进行图像处理
【参考】https://github.com/opencv/opencv/tree/4.x/samples/pythonPython使用OpenCV进行图像处理OpenCV(OpenSourceComputerVisionLibrary)是一个开源的计算机视觉和机器学习软件库。下面将从基础到高阶介绍如何使用Python中的OpenCV进行图像处理。一、安装首先需要安装OpenCV库：pipinst
深度解析JavaScript 闭包 coding随想 JavaScript javascript 开发语言 ecmascript
深度解析JavaScript闭包引言：为什么闭包让人又爱又怕？在JavaScript的学习过程中，闭包（Closure）是一个绕不开的“坎”。很多开发者第一次接触闭包时，会感到一头雾水：“为什么函数能记住外部作用域的变量？”、“为什么闭包会导致内存泄漏？”。但另一方面，闭包又是JavaScript最强大的特性之一，它支撑着模块化开发、数据封装、异步编程等核心场景。本文将通过通俗的语言和生动的案例，
图扑软件智慧云展厅，开启数字化展馆新模式智慧园区可视化 5g 人工智能大数据安全云计算
随着疫情的影响以及新兴技术的不断发展，展会的发展形式也逐渐从线下转向线上。通过“云”上启动、云端互动、双线共频的形式开展。通过应用大数据、人工智能、沉浸式交互等多重技术手段，构建数据共享、信息互通、精准匹配的高精度“云展厅”，突破时空壁垒限制。图扑软件运用HT强大的渲染功能，数字孪生“云展位”，1:1复现实际展厅内部独特的结构造型和建筑特色。也可以第一人称视角漫游，模拟用户在展厅内的参观场景，在保
掌握Web3开发：从入门到精通夲奋亻Jay Web3 web3
掌握Web3开发是一个涉及多个步骤和学习阶段的过程。以下是一些关键的步骤和开发案例，以及它们在搜索结果中的索引编号：了解区块链基础：学习区块链的基本概念，如去中心化、加密技术、共识机制等[1]。学习智能合约：学习智能合约的工作原理和它们在区块链上的应用，特别是以太坊平台上的智能合约[1]。掌握Web3.js或Ethers.js：学习如何使用这些JavaScript库与智能合约交互、发送交易和监听事
Solidity/Rust 实战 —— Web3 开发者免费训练营（第23期） moonshotcommons 共学营 rust web3 开发语言
HackQuest第23期Solidity/Rust共学营即将开营！Solidity/Rust共学营信息清单8月13日-8月22日免费（成功结营的小伙伴还将获得专属周边）全程线上(会议具体时间入营后通知)️头部公链官方签发的学习证书主办社区:HackQuestHackQuest是一个充满活力的Web3开发者教育社区，我们的目标是培养下一代Web3开发者。目前，HackQuest组织的共学营已达22
Solidity/Rust 实战 —— Web3 开发者免费训练营（第16期） moonshotcommons 共学营 rust web3 开发语言
HackQuest第16期Solidity/Rust共学营即将开营！Solidity/Rust共学营信息清单6月11日-6月20日免费（成功结营的小伙伴还将获得专属周边）全程线上(会议具体时间入营后通知)️头部公链官方签发的学习证书关于HackQuestHackQuest是一个充满活力的Web3开发者教育社区，我们的目标是培养下一代Web3开发者。目前我们的产品仍处于内测阶段，我们计划招募小伙伴们
转行要趁早！网络安全行业人才缺口大，企业招聘需求正旺！
网络安全行业具有人才缺口大、岗位选择多、薪资待遇好、学历要求不高等优势，对于想要转行的人员来说，是一个非常不错的选择。人才缺口大网络安全攻防技术手段日新月异，特别是现在人工智能技术飞速发展，网络安全形势复杂严峻，人才重要性凸显。教育部《网络安全人才实战能力白皮书》数据显示，到2027年，我国网络安全人员缺口将达327万。近期发布的《2024年网络安全产业人才发展报告》中提到，沿用ISC2的人才缺口
API测试(一)：PortSwigger靶场笔记 h4ckb0ss 笔记网络安全 web安全
写在前面这篇文章是关于作者在学习PortSwigger的APITest类型漏洞时的记录和学习笔记使用到的工具为BurpSuitePro漏洞简介什么是apiAPI全称为ApplicationInterface，是应用程序对外提供功能的接口，现在主要有三种api风格，分别是JSON风格的api，RESTful风格的api以及Graphic风格的apiJSON风格请求获取用户信息POST/api/get
HTML页面设计——动态照片环
#前端开发##html超文本标记语言结构学习他的标签##css美化页面其实一部分的网站首页应用了照片环的原理，使得页面看起来更加美观，这里为大家分享一个简单的照片环编写。一、准备好以下素材：二、新建一个HTML文件，这里就取名“01-照片环”好了。三、现在开始编写具体内容，照片环说白了就是几个照片构成的所以body只要写就可以了，编写的时候注意图片的格式是.jpg、.png还是.gif(动态图)。
GO 语言学习之运算符号唯独不开心学习 go
算术运算符：二元的运算符：+-*/%四则运算没啥好说的，从小就开始学习，最后一个%表示求余数或者取模运算。packagemainimport"fmt"funcmain(){a:=1+2b:=a-1c:=a*bd:=c/ae:=c%3fmt.Println("a:=1+2的结果是：",a)fmt.Println("b:=a-1的结果是：",b)fmt.Println("c:=a*b的结果是：",c)
GO 语言学习之变量和常量唯独不开心 golang 学习开发语言
变量变量顾名思义，存储的内容是不确定，只有在执行赋值后那一刻是确定的，因为你也不知道赋值后会不会被修改。变量定义方式：var:=var(aint,b,c....)示例：packagemainimport"fmt"funcmain(){varaint//定义一个整型变量，默认是零值（整形的零值是0）b:=1//定义一个整型变量，并赋值为1fmt.Printf("a=%db=%d\n",a,b)//定
基于机器学习的智能文本分类技术研究与应用
在当今数字化时代，文本数据的爆炸式增长给信息管理和知识发现带来了巨大的挑战。从新闻文章、社交媒体帖子到企业文档和学术论文，海量的文本数据需要高效地分类和管理，以便用户能够快速找到所需信息。传统的文本分类方法主要依赖于人工规则和关键词匹配，这些方法不仅效率低下，而且难以应对复杂多变的文本内容。近年来，机器学习技术的快速发展为文本分类提供了一种高效、自动化的解决方案。一、机器学习在文本分类中的应用概述
《Python数据分析与挖掘实战》Chapter8中医证型关联规则挖掘笔记茫茫大地真干净机器学习 Python 数据挖掘
最近在学习《Python数据分析与挖掘实战》中的案例，写写自己的心得。代码分为两大部分：1.读取数据并进行聚类分析2.应用Apriori关联规则挖掘规律1.聚类部分函数分析：defprogrammer_1():datafile="C:/Users/longming/Desktop/chapter8/data/data.xls"processedfile="C:/Users/longming/Des
2025年6月 CANN Ascend C算子开发能力认证（中级）环境(ascend910b)与代码红目香薰华为Could API人工智能系列 c语言开发语言
前言证书开头，并且我要说明的是我一周多的时间，各种参考，各种学习，各种填坑，终于搞出来了。可以在证书上看到我是6月5日通过的，但是我开始的时候是在5月27日。真心的不容易，终于在6月5日当天搞定了AscendC::Div函数的使用，最终通过了考试。目录前言环境说明心得分享1、环境踩坑2、加载一个特殊的文件3、修改文件列表4、基础代码5、核心代码（密）6、给予权限总结环境说明我这里使用的是华为的Mo
GO语言学习之字符串和流程控制 cr7xin golang 学习开发语言
文章目录一.字符串1.1.1字符串转义符1.1.2多行字符串1.1.3字符串的常用操作1.2byte和rune类型1.2.1修改字符串1.2.2类型转换二.流程控制1.1ifelse(分支结构)1.1.1基本写法1.1.2特殊写法1.2for(循环结构)1.2.1for循环的基本格式1.2.2forrange(键值循环)1.3switchcase1.3.1基本格式1.3.2多个值在一个分支1.3.
【机器学习与数据挖掘实战 | 医疗】案例18：基于Apriori算法的中医证型关联规则分析 Francek Chen 机器学习与数据挖掘实战机器学习数据挖掘 Apriori python 关联规则人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈机器学习与数据挖掘实战⌋⌋⌋机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联和异常的过程，旨在提取有价值的信息和知识。机器学习为数据挖掘提供了强大的分析工具，而数据挖掘则是机器学习应用的重要领域，两者相辅相成，共同推动
小程序学习笔记：自定义组件创建、引用、应用场景及与页面的区别 you4580 小程序
在微信小程序开发中，自定义组件是一项极为实用的功能，它能有效提高代码的复用性，降低开发成本，提升开发效率。本文将深入剖析微信小程序自定义组件的各个关键方面，包括创建、引用、应用场景以及与页面的区别，并附上详细代码示例，帮助开发者全面掌握这一技术。一、自定义组件的创建创建自定义组件主要分为以下三个步骤：创建components文件夹：在项目根目录下，通过鼠标右键新建一个名为“components”的
TensorFlow Serving学习笔记3: 组件调用关系
一、整体架构TensorFlowServing采用模块化设计，核心组件包括：Servables：可服务对象（如模型、查找表）Managers：管理Servable生命周期（加载/卸载）Loaders：负责Servable的初始化状态管理Sources：提供新版本Servable的LoaderAspiredVersions：Servable的期望状态集合Core：连接所有组件的核心枢纽APIs：gR
构建四则运算解析器：字符串处理与计算逻辑实战大熊小清新
本文还有配套的精品资源，点击获取简介：四则运算解析器是将包含四则运算符号的字符串表达式转化为可执行计算的程序。它对编程初学者而言是理解编程逻辑和语法分析的基础。通过理解四则运算的优先级规则，实现输入处理、词法分析、语法分析和计算步骤，可以采用递归下降解析或堆栈解析等方法。本解析器的实现涉及字符串处理、数据结构的运用，有助于学习者掌握编程语言的底层工作方式，提升编程技能和问题解决能力。1.四则运算解
【Python深度学习】零基础掌握Pytorch Pooling layers nn.MaxPool方法 Mr数据杨 Python 深度学习 python 深度学习 pytorch
在深度学习的世界中，MaxPooling是一种关键的操作，用于降低数据的维度并保留重要特征。这就像是从一堆照片中挑选出最能代表某个场景的那张。PyTorch提供了多种MaxPooling层，包括nn.MaxPool1d、nn.MaxPool2d和nn.MaxPool3d，它们分别适用于不同维度的数据处理。如果处理的是声音信号（一维数据），就会用到nn.MaxPool1d。而处理图像（二维数据）时，
误差的回响：反向传播算法与神经网络的惊天逆转田园Coder 人工智能科普人工智能科普
当专家系统在20世纪80年代初期大放异彩，成为人工智能实用化的耀眼明星时，另一股曾经被宣判“死刑”的力量——连接主义（神经网络）——正在寒冬的冻土下悄然涌动，孕育着一场惊天动地的复苏。马文·明斯基和西摩·帕尔特在1969年《感知机》专著中那精准而冷酷的理论批判，如同沉重的封印，将多层神经网络的研究禁锢了近二十年。他们指出的核心死结——缺乏有效算法来训练具有隐藏层的网络——仿佛一道无法逾越的天堑。单
【Html实现“心形日出”（附效果+源代码）】| JavaScript面试题：解释一下异步编程中的回调函数、Promise和Async/Await的概念。它们有什么区别？追光者♂ html5 css3 心形日出前端特效 JS面试题 Promise Async/Await
风会带走你曾经存在过的证明。——虞姬作者主页：追光者♂个人简介：[1]计算机专业硕士研究生[2]2023年城市之星领跑者TOP1(哈尔滨)[3]2022年度博客之星人工智能领域TOP4[4]阿里云社区特邀专家博主[5]CSDN-人工智能领域优质创作者无限进步，一起追光！！！
CSS实标题现同心圆的缩放做一个暴躁的开发 css3 html
CSS实标题现同心圆的缩放最近学习了css动画效果，记录一下同心圆的缩放问题问题描述我先设置了两个div，外圈是class=“one”，内圈是class=“two”,代码如下：分别设置他们的div，给他们边框，并且设置成圆形.one{width:500px;height:500px;border:20pxsolidlightcoral;border-radius:50%;overflow:hidd
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S

模式识别与机器学习-无监督学习-降维

模式识别与机器学习-无监督学习-降维

为什么要降维

维度选择

手工移除特征

过滤式选择

包裹式选择

嵌入式选择

维度抽取（线性模型）

MDS

PCA

目标1：最小重构误差

目标2：最大投影方差

SVD

思考：为什么保留特征值大的？

维度抽取（非线性模型）

KPCA

流形学习

ISOMAP

优点：

缺点：

LLE

T-SNE

你可能感兴趣的:(机器学习,机器学习,学习,人工智能)