小天才才

【一起啃书】《机器学习》第十章降维与度量学习

文章目录

- 第十章降维与度量学习
- - 10.1 $k$ 近邻学习
  - 10.2 低维嵌入
  - 10.3 主成分分析
  - - 10.3.1 定义与步骤
    - 10.3.2 最近重构性与最大可分性
  - 10.4 核化线性降维
  - 10.5 流形学习
  - 10.6 度量学习

第十章降维与度量学习

10.1 $k$ 近邻学习

$k$ 近邻学习是一种常用的监督学习方法，其工作机制非常简单：给定测试样本，基于某种距离度量找出训练集中与其最靠近的 $k$ 个训练样本，然后基于这 $k$ 个“邻居”的信息来进行预测。

通常，在分类任务中可使用“投票法”，即选择这 $k$ 个样本中出现最多的类别标记作为预测结果；在回归任务中可使用“平均法”，即将这 $k$ 个样本的实值输出标记的平均值作为预测结果；还可基于距离远近进行加权平均或加权投票，距离越近的样本权重越大。

$k$ 近邻学习涉及到三个主要因素： $k$ 的大小，距离或相似度的度量，以及特征归一化。 $k$ 的大小决定了近邻范围和投票权重，距离或相似度的度量决定了如何判断两个实例之间的接近程度，特征归一化决定了各个特征对距离或相似度计算的影响。这些因素都需要根据具体问题和数据集来选择合适的方法和参数。

10.2 低维嵌入

$k$ 近邻学习是基于“密采样”假设——任意测试样本 $x$ 附近任意小的 $\delta$ 距离范围内总能找到一个训练样本，即训练样本的采样密度足够大。然而，这个假设在现实中很难满足，假设 $\delta=0.001$ ，就意味着至少要有1000个样本点平均分布在归一化后的属性取值范围内，才能保证任意测试样本在其附近的0.001距离范围内总能找到一个训练样本，而这只是属性维数为1的情况，如果属性维数更大不仅需要的样本数会变多，同时高维空间会给距离计算带来很大的困难。所以有时我们需要通过降维来缓解维数灾难，也就是通过某种数学变换将原始高维属性空间转变为一个低维“子空间”，在这个子空间中样本密度大幅提高，而距离计算也变得更为容易。

下面介绍一种多维缩放方法，Multiple Dimensional Scaling（MDS），多维缩放的原理是：给定样本两两间距离/不相似度，如何获得样本的表示，使得样本间距离/不相似度和给定的一致。从降维角度，就是低维空间的样本间距离/不相似度要和高维空间样本间距离/不相似度基本一致。

具体来说，多维缩放的过程可以分为以下几个步骤：

计算高维空间中样本之间的距离矩阵 $D$ ，其中 $D_{ij}$ 表示第 $i$ 个样本和第 $j$ 个样本之间的距离，通常为欧氏距离。这一步是为了获得样本之间的相似度或不相似度的信息，作为降维的依据。
对距离矩阵 $D$ 进行中心化处理，得到内积矩阵 $B$ ，其中 $B_{ij}$ 表示第 $i$ 个样本和第 $j$ 个样本之间的内积。中心化处理的公式为 $-\frac {1} {2}HDH$ ，其中 H 是中心化矩阵 $\frac {1} {n}11^T$ ， $I$ 是单位矩阵， $1$ 是全 $1$ 向量。这一步是为了消除样本的均值影响，使得样本在低维空间中也是零均值的，方便后续的特征值分解。
对内积矩阵 $B$ 进行特征值分解，得到 $V\Lambda V^T$ ，其中 $\Lambda$ 是对角矩阵，对角线上是特征值； $V$ 是特征向量矩阵，每一列是一个特征向量。这一步是为了找到样本在低维空间中的最优表示，即最大化样本间的方差。
取前 $d$ 个最大的特征值以及对应的特征向量，构成 $\Lambda_d$ 和 $V_d$ ，其中 $\Lambda_d$ 是 $d$ 阶对角矩阵， $V_d$ 是 $n * d$ 矩阵。这一步是为了选择合适的降维目标维度 $d$ ，并保留最重要的特征向量。
计算降维后的数据矩阵 $V_d \Lambda_d^{1/2}$ ，其中 $Z$ 是 $n * d$ 矩阵，每一行是一个样本在低维空间中的坐标。这一步是为了得到样本在低维空间中的具体坐标，使得样本间距离或相似度不变。

降维效果的评估方法可以分为两类：

一类是通过降至二维和三维，然后将数据进行可视化分析，这是一种定性的评价标准，比较主观，可以直观地看出降维后的数据是否保持了原始数据的结构和相似度。
另一类是通过比较降维前后学习器的性能进行评价，这是一种定量的评价标准，比较客观，可以用一些指标来衡量，如准确率、召回率、F1值等。这种方法可以反映出降维是否提高了学习器的效果和效率。

10.3 主成分分析

10.3.1 定义与步骤

主成分分析（PCA）是一种使用最广泛的数据降维算法，它的主要思想是将 $n$ 维特征映射到 $k$ 维上，这 $k$ 维是全新的正交特征，也被称为主成分，是在原有 $n$ 维特征的基础上重新构造出来的 $k$ 维特征。

PCA的数学定义是：一个正交化线性变换，把数据变换到一个新的坐标系统中，使得这一数据的任何投影的第一大方差在第一个坐标（称为第一主成分）上，第二大方差在第二个坐标（第二主成分）上，依次类推。

PCA的工作就是从原始的空间中顺序地找一组相互正交的坐标轴，新的坐标轴的选择与数据本身是密切相关的。其中，第一个新坐标轴选择是原始数据中方差最大的方向，第二个新坐标轴选取是与第一个坐标轴正交的平面中使得方差最大的，第三个轴是与第1,2个轴正交的平面中方差最大的。依次类推，可以得到 $n$ 个这样的坐标轴。通过这种方式获得的新的坐标轴，我们发现，大部分方差都包含在前面 $k$ 个坐标轴中，后面的坐标轴所含的方差几乎为0。于是，我们可以忽略余下的坐标轴，只保留前面 $k$ 个含有绝大部分方差的坐标轴。事实上，这相当于只保留包含绝大部分方差的维度特征，而忽略包含方差几乎为0的特征维度，实现对数据特征的降维处理。

为了得到这些包含最大差异性的主成分方向，我们需要对数据进行一些预处理和计算。具体步骤如下：

组织数据集：假设有 $m$ 个 $n$ 维数据样本组成一个 $m \times n$ 矩阵 $X$ 。
计算均值：对每一个特征求平均值，并将所有样本减去各自特征的平均值。
计算协方差矩阵：协方差矩阵是一个对称矩阵，它描述了不同特征之间的相关性。协方差矩阵可以通过样本矩阵乘以其转置除以样本数减一得到，即 $\frac{1}{{m - 1}}{\bf{W}}{{\bf{W}}^T}$ 。
求协方差矩阵的特征值和特征向量：协方差矩阵是一个实对称矩阵，它可以被正交对角化为 $QΣQ^{-1}$ 的形式，其中 $Q$ 是由特征向量组成的正交矩阵， $Σ$ 是由特征值组成的对角矩阵。
选择主成分：根据特征值从大到小排序，选择前 $k$ 个最大的特征值所对应的特征向量组成一个矩阵 $P$ 。
得到降维后的数据：将原始数据矩阵 $X$ 乘以 $P$ 得到降维后的数据矩阵 $Y$ 。

10.3.2 最近重构性与最大可分性

主成分分析的目的是找到一个低维的超平面，使得原始数据在这个超平面上的投影能够尽可能地保留原始数据的信息。这个信息可以从两个方面来衡量：最近重构性和最大可分性。

最近重构性：重构后的样本映射回原空间，与原样本的距离都足够的近。也就是说，PCA要求投影后的数据能够用最小的误差来近似原始数据。这个误差可以用样本点到投影超平面的距离来表示，因此，最近重构性可以转化为一个最小化距离平方和的优化问题。
最大可分性：样本在这个超平面上的投影尽可能分开。也就是说，PCA要求投影后的数据能够有最大的方差，以反映原始数据的差异性。这个方差可以用投影后数据的协方差矩阵来表示，因此，最大可分性可以转化为一个最大化协方差矩阵迹的优化问题。

假定数据样本进行了中心化，即 $\sum {{x_i}} = 0$ ，再假定投影变换后得到的新坐标系为 ${ {w_1},{w_2},...,{w_d}\}$ ，若丢弃新坐标系中的部分坐标，即将维度降低到 $d^{'} < d$ ，则样本点 $x_i$ 在低维坐标系中的投影是 ${z_i} = ({z_{i1}};{z_{i2}};...;{z_{id'}})$ ，其中 ${z_{ij}} = w_j^T{x_i}$ 是 $x_i$ 在低维坐标系下第 $j$ 维的坐标，如果基于 $z_i$ 来重构 $x_i$ ，则会得到 ${\overline x _i} = \sum\limits_{j = 1}^{d'} {{z_{ij}}{w_j}}$ 。

考虑整个训练集，原样本点 $x_i$ 与基于投影重构的样本点 ${\overline x _i}$ 之间的距离为
$\sum\limits_{i = 1}^m {\left\| {\sum\limits_{j = 1}^{d'} {{z_{ij}}{w_j} - {x_i}} } \right\|_2^2} = \sum\limits_{i = 1}^m {{z_i}^T{z_i} - 2\sum\limits_{i = 1}^m {{z_i}^T{{\bf{W}}^T}{x_i} + const} } \propto - tr({{\bf{W}}^T}(\sum\limits_{i = 1}^m {{x_i}{x_i}^T} ){\bf{W}})$
根据最近重构性，上述式子需要最小化，则得到了如下的结果，也是主成分分析的优化目标。
$\begin{aligned} \min\limits_{\bf{W}} &- tr({{\bf{W}}^T}{\bf{X}}{{\bf{X}}^T}{\bf{W}}) \\ s.t.&{{\bf{W}}^T}{\bf{W}} = {\bf{I}} \\ \end{aligned}$
根据最大可分性，若所有样本点的投影尽可能分开，则应该使投影后样本点的方差最大化，如下图所示。于是可以对协方差矩阵 ${\bf{X}}{{\bf{X}}^T}$ 进行特征值分解，将求得的特征值排序： ${\lambda _1} \geqslant {\lambda _2} \geqslant ... \geqslant {\lambda _d}$ ，再取前 $d^{'}$ 个特征值对应的特征向量构成 ${{\bf{W}}^*} = ({w_1},{w_2},...,{w_{d'}})$ ，这就是主成分分析的解。

10.4 核化线性降维

现实任务中可能需要非线性映射来找到恰当的低维嵌入，如下图所示，样本点从二维空间中的矩形区域采样后以S形曲面嵌入到三维空间，若直接使用线性降维方法对三维空间观察到的样本点进行降维，则将失去原本的低维结构。为了对“原本采样的”低维空间与降维后的低维空间加以区别，我们称前者为“本真”低维空间，而非线性降维的一种常用方法，是基于核技巧对线性降维方法进行“核化”。

10.5 流形学习

流形学习（manifold learning）是一种非线性降维技术，它基于这样一个假设：高维空间中的数据实际上是由一个低维流形映射到高维空间上的。流形是高维空间中的几何结构，可以看作是低维空间中曲线或曲面在高维空间中的推广。流形学习的目的是找到一个合适的映射函数，将高维空间中的数据投影到低维流形上，从而保留数据的内在结构和特征。流形学习有很多应用，例如数据可视化，数据压缩，数据生成，特征提取等。流形学习的典型算法有局部线性嵌入（LLE），拉普拉斯特征映射（LE），局部保持投影（LPP），等距映射（ISOMAP）等。

10.6 度量学习

度量学习是一种从数据中学习一种度量数据对象间距离的方法，它的目的是使得在学得的距离度量下，相似对象间的距离小，不相似对象间的距离大。度量学习可以用于数据分类，聚类，检索，可视化等任务。

深度度量学习是一种结合了深度学习和度量学习的方法，它可以从原始数据中自动地学习高质量的特征表示，并利用激活函数来捕捉数据的非线性特征。深度度量学习主要由三个方面组成：样本挖掘，模型结构和损失函数。样本挖掘是指从数据集中选择合适的样本对或三元组来训练模型，使得模型能够从难分辨的样本中学习更多的信息。模型结构是指使用深度神经网络来提取数据的特征向量，常见的模型结构有孪生网络和三元组网络²。损失函数是指定义模型优化的目标函数，常见的损失函数有对比损失，三元组损失，N-pair损失等。

普通算法——一维差分 ZZTC 算法算法
一维差分题目链接：https://www.acwing.com/problem/content/799/题目描述：输入一个长度为nnn的整数序列。接下来输入mmm个操作，每个操作包含三个整数l,r,c，l,r,c，l,r,c，表示将序列中[l,r][l,r][l,r]之间的每个数加上ccc。请你输出进行完所有操作后的序列。说明：差分是前缀和的逆运算，也就是构造一个bbb数组使aaa数组是bbb数组
Java实现计数排序算法详解及优化捕风捉你从0开始学算法 java 排序算法算法
引言计数排序（CountingSort）是一种线性时间复杂度的排序算法，特别适用于数据范围有限的情况。它通过统计每个元素出现的次数，然后按照次数排序，从而实现排序。本文将详细讲解如何使用Java实现计数排序算法，并结合图解和实例代码，帮助您全面理解这一高级排序算法。同时，我们还将探讨计数排序的优化方法，以进一步提高其性能。计数排序算法的原理计数排序通过统计每个元素出现的次数，然后利用这些计数值将元
二路归并排序算法 qq_26261861 排序算法算法数据结构
二路归并排序算法简单理解就是两两进行比较，然后把他们合并到一起。通俗理解就是去买衣服的时候，经常会货比三家，看了一个店选两件衣服，然后又去另外一个店选了同款的两件衣服。看价格排序，或者性价比排序一下，看哪个更便宜，或者性价比更高。二路归并排序关键点：相邻的两两进行比较，然后把他们合并在一起。相邻的两两最开始是单个元素，合并之后就会翻倍。二路归并排序的过程，需要先拆分元素，然后再合并。二路归并排序是
PyTorch 官方文档中文版本圣心 pytorch 机器学习
文档来源https://pytorch.cadn.net.cn大多数机器学习工作流都涉及处理数据、创建模型、优化模型参数，并保存经过训练的模型。本教程向您介绍完整的ML工作流在PyTorch中实现，并提供了用于了解有关每个概念的更多信息的链接。我们将使用FashionMNIST数据集来训练一个神经网络，该神经网络预测输入图像是否属于到以下类别之一：T恤/上衣、裤子、套头衫、连衣裙、外套、凉鞋、衬衫
基于 YOLOv8+PyQt5 的无人机红外目标检测系统：开启智能监测新时代人工智能教学实践人工智能 YOLO qt 无人机
基于YOLOv8+PyQt5的无人机红外目标检测系统：开启智能监测新时代【毕业与课程大作业参考】基于yolov8+pyqt5界面自适应的无人机红外目标检测系统demo.zip资源-CSDN文库在科技飞速发展的今天，无人机技术在各个领域的应用越来越广泛。为了提升无人机在复杂环境下的目标检测能力，结合先进的深度学习算法和图形用户界面开发技术，打造功能强大的无人机红外目标检测系统成为了研究热点。本文将详
光纤通信系统架构柠檬芭乐绿网络信息与通信
#学习笔记系统架构光纤通信系统是一种利用光作为载波，通过光纤作为传输媒介来传输信息的通信系统。传输系统基本组成：信号发射端、传输光纤、光纤放大器、接收端信号解调一、信号发射端信号发射端是光纤通信系统的起点，主要负责将电信号转换为光信号，以便在光纤中传输。其主要组成部分包括：光源：光源是光纤通信系统的起点，负责产生光信号。常用的光源有激光器（如半导体激光器LD、垂直腔面发射激光器VCSELs、光纤激
PYTHON 常用算法 33个 trust Tomorrow python 算法 python 排序算法
文章目录冒泡排序（BubbleSort）选择排序（SelectionSort）插入排序（InsertionSort）快速排序（QuickSort）归并排序（MergeSort）堆排序（HeapSort）计数排序（CountingSort）基数排序（RadixSort）桶排序（BucketSort）希尔排序（ShellSort）二分查找（BinarySearch）线性查找（LinearSearch）
为什么要有库 h^hh linux
库提供了基础功能，提高开发效率，平常写的printf，如果没有库也能写，比如现在你需要向显示器打印，向文件写入，向网络发送各种功能的时候，因为没有库了，所以printf需要你自己去实现，你想写一个链表逆置的算法，再把整个链表打印出来，你写的时候可能用了两个小时，其中一个半小时都在实现printf，剩下30分钟你再写链表，更夸张的是你以后再写任何方法的时候，只要想打印，你都得自己实现一个printf
Web性能优化-详细讲解与实用方法-MDN文档学习笔记 LoveEmiliaForever MDN前端入门文档前端性能优化学习笔记
Web性能优化查看更多学习笔记：GitHub：LoveEmiliaForeverMDN中文官网性能优良的网站能够提高访问者留存和用户满意度，减少客户端和服务器之间传输的数据量可降低各方的成本不同的业务目标和用户需求需要不同的性能度量，要提高网站性能，你需要了解用户体验、加载和渲染性能，以及如何将性能度量与业务指标结合起来什么是Web性能减少总体负载时间一般策略是使文件尽可能小，尽可能减少HTTP请
掌握无人机自主起飞：深入解析ROS2节点实现(Ardupilot+ROS2+Gazebo+Mavros仿真) xehuosh 无人机 python 机器人 linux 信息与通信开发语言
一：ROS2与MAVROSROS2是一个用于机器人软件开发的开源框架，它提供了一套丰富的工具和库，使得开发者能够快速构建复杂的机器人应用程序。ROS2可以通过Mavros插件包与无人机的飞行控制系统进行通信，实现了对无人机的精确控制。目前网上基于ROS2的Mavros教程极少，且几乎都是针对PX4固件的，这无疑增大了Arudupilot、ROS2和Mavros的学习困难。PX4官网的ROS1dem
Oracle PL/SQL 编程入门：第十八章批处理 SQL caifox菜狐狸 Oracle PL/SQL 编程入门 oracle sql 数据库批处理 FORALL FETCH Loop
欢迎来到OraclePL/SQL编程入门的第十八章！在这一章中，我们将深入探讨批处理SQL。通过学习FORALL语句、批处理集合以及如何在SQL中绑定集合，你将能够编写更加高效和强大的数据库操作代码。此外，我们还会介绍一些注意事项，并通过实际例子展示它们的用法。准备好迎接新的挑战了吗？让我们开始吧！第一节：FORALL语句FORALL语句用于批量执行DML（数据操作语言）语句，如INSERT、UP
单点登录SSO：概述与示例百宝门-SSO顾问单点登录(SSO)单点登录 sso 身份管理百宝门 oracle esso
原文是一个系列：http://www.cnblogs.com/baibaomen/p/sso.html，曾上博客园推荐榜首。建议看原文，此处排版全乱了。转载需注明原文链接。单点登录SSO概述本系列将由浅入深的，带大家掌握最新单点登录SSO方案选型，以及架构开发实战。系列将结合示例、源码以及演示视频，让大家能够直观、深入学习。文末附5个满足不同单点登录场景的gif动画演示。本系列后继文章会深入它们的
Nginx的负载均衡入眼皆含月 nginx 负载均衡运维
一、概述Nginx负载均衡是一种通过将客户端请求分发到多个后端服务器的技术，旨在提高系统的吞吐量、可用性和容错性。二、Nginx负载均衡工作原理Nginx作为反向代理服务器，接收客户端的请求，并根据配置的负载均衡算法将请求转发到后端服务器。其工作流程如下：客户端请求到达Nginx。Nginx根据配置的负载均衡策略选择后端服务器。Nginx将请求转发到选定的后端服务器。后端服务器处理请求并返回响应。
跟我一起学 Python 数据处理（六）：Python 数据类型深度剖析与容器初窥 lilye66 python 开发语言 tornado beautifulsoup pandas matplotlib
跟我一起学Python数据处理（六）：Python数据类型深度剖析与容器初窥在Python学习的漫漫长路中，我们已经成功迈出了几步，对其环境搭建和基础操作有了一定了解。接下来，让我们继续深入，探寻Python丰富的数据类型世界以及强大的数据容器，进一步挖掘Python在数据处理方面的潜力，一同在知识的海洋中破浪前行。一、整数与字符串的微妙差异及应用场景整数，在Python中如同数学世界里的整数一样
跟我一起学 Python 数据处理（三十一）：攻克 PDF 数据采集中的难题 lilye66 python pdf 数据库 beautifulsoup
跟我一起学Python数据处理（三十一）：攻克PDF数据采集中的难题在数据处理的征程中，我们不断探索与成长。本文继续以Python处理PDF数据为主题，深入剖析其中复杂问题的解决之道，旨在与大家携手提升Python数据处理能力，共同跨越重重难关。一、数据采集问题剖析在处理PDF文本数据时，常遭遇诸多棘手状况。如文中处理国家相关数据时，双行国家名称对应的数值采集出现错误。查看源数据发现，双行国家对应
跟我一起学 Python 数据处理（一）：入门篇 lilye66 python plotly numpy pandas matplotlib conda
跟我一起学Python数据处理（一）：入门篇在当今数字化时代，数据处理能力变得愈发关键。无论是从事新闻、分析工作，还是立志成为数据科学家，掌握数据处理技巧都能让我们从海量信息中提取有价值的内容，并以清晰、有说服力的方式呈现出来。Python作为一门强大且应用广泛的编程语言，在数据处理领域占据着重要地位。本文将开启Python数据处理的学习之旅，与大家一同探索其中的奥秘，共同进步。一、确定研究主题与
跟我一起学 Python 数据处理（四）：Python 基础环境深度剖析与工具安装 lilye66 python flask pandas scrapy beautifulsoup
跟我一起学Python数据处理（四）：Python基础环境深度剖析与工具安装在Python学习之旅中，我们已经迈出了搭建环境的关键第一步。今天，我们继续深入探索，让大家对Python基础环境有更透彻的理解，并顺利安装必备的工具，为后续高效的数据处理学习筑牢根基。一、Python提示符与系统提示符的奥秘当我们成功启动Python后，会看到>>>这个Python提示符，它就像是进入Python世界的大
C中面向对象的三大特征是什么？计算机学长大白 C java 算法 jvm c++
###C语言中面向对象的三大特征及其详细解释与示例####1.封装**定义**：封装是将对象的状态（成员变量）和行为（成员函数）封装在一起，通过访问修饰符对外部隐藏对象的内部实现细节。封装通过提供公共接口来控制对对象的访问，使得对象的状态只能通过定义的方法进行操作，从而实现了信息隐藏、提高了安全性，并降低了系统的复杂性。**关键字**：在C语言中，虽然没有直接的`public`、`protecte
Python数据处理(一)：处理 JSON、XML、CSV 三种格式数据 solocoder222 Python python 数据处理 CodeRiver
Python数据处理系列博客来啦！本系列将以《Python数据处理》这本书为基础，以书中每章一篇博客的形式带大家一起学习Python数据处理。书中有些地方讲的不太详细，我会查阅其他资料来补充，力争每篇博客都把知识点涵盖全且通俗易懂。这本书主要讲了如何用Python处理各种类型的文件，如JSON、XML、CSV、Excel、PDF等。后面几章还会讲数据清洗、网页抓取、自动化和规模化等使用技能。我也是
《苍穹外卖》项目学习记录-Day10订单状态定时处理蝴蝶不愿意学习 java
利用Cron表达式生成器生成Cron表达式1.处理超时订单查询订单表把超时的订单查询出来，也就是订单的状态为待付款，下单的时间已经超过了15分钟。//select*fromorderswherestatus=?andorder_timeupdateorderscancel_reason=#{cancelReason},rejection_reason=#{rejectionReason},canc
一文学会react+redux（模块化/同步/异步操作）青山绿水的蓝 web前端 react.js 前端 javascript
本文基于npxcreate-react-app创建太久没看react，闲来无事重新捡起做一点笔记，希望对部分vue的同行想学习redux起到一些帮助1.准备工作安装1.安装项目插件2.修改`package.json`中的scripts，将`react-scripts`替换为`craco`：3.craco.config.js根目录下创建或修改`craco.config.js`来配置Less以及@别名
python难学吗？python的就业前景到底怎么样？荆州克莱面试题汇总与解析 spring cloud spring boot spring 技术 css3
明确的说，python不难，入门很快，对于几乎是零基础的人是完全可以学会的。个人主要总结一下3点。第一，Python最大的功劳就是直接拉低了编程门槛和使用难度相比于C,C#,JAVA这些早轮子语言学习Python完全就是直接开车的节奏稍微努力一下，一周就能写出像样的东西第二，Python学习越来越普及目前Python课程已发展到儿童编程领域很多中小学开设Python教学，统一考试很多国外学校，比如
跟我一起学 Python 数据处理（十二）：CSV 数据的读取与处理 lilye66 python 数据库大数据 oracle sql mongodb postman
跟我一起学Python数据处理（十二）：CSV数据的读取与处理在数据处理的领域中，Python是一把强大的利器。我们开启这个系列的目的就是希望和大家一起在Python数据处理的道路上不断前行，共同成长。今天，我们将深入探讨Python中如何处理CSV数据，这是迈向高效数据处理的重要一步。一、CSV数据的基础知识CSV，即逗号分隔值（Comma-SeparatedValues），是一种极为常见的机器
c++ 算法之二分答案详解必胜的小铭 c++算法 c++算法开发语言
二分答案是c++之中一个简单而重要的算法，每一个OIer必备的基础算法，你知道它究竟是什么吗？目录一、简介1.定义2.时间复杂度二、核心代码三、例题1.跳石头1.题目描述2.解法2.进击的奶牛1.题目描述2.思路一、简介1.定义二分答案是一种二分搜索，二分搜索（英语：binarysearch），也称折半搜索（英语：half-intervalsearch）、对数搜索（英语：logarithmicse
基于深度学习的视觉检测小项目（十六）用户管理界面的组态深蓝海拓基于YOLO的视觉检测小项目深度学习人工智能 python pyqt qt
分组和权限：用户分为三个组，管理员、普通用户、访客。•管理员的权限和作业范围：添加和删除用户、更改所有用户的信息（用户名、登录密码、所在分组等）、查看和备份以及复制数据库；•普通用户的权限和作业范围：更改自己的用户名和密码、开展工作业务、查看数据库；•访客的权限和作业范围：查看数据库。用于用户管理的界面：既然用到了用户的管理，那么就必然涉及到用户列表的展示方式了。QT对于列表内容的展示方式有：QC
深度学习基因组学+机器学习单细胞分析，当下最火热研究方向！ qwmb919 人工智能深度学习机器学习 python
深度学习已经被广泛应用于基因组学研究中，利用已知的训练集对数据的类型和应答结果进行预测，深度学习，可以进行预测和降维分析。深度学习模型的能力更强且更灵活，在适当的训练数据下，深度学习可以在较少人工参与的情况下自动学习特征和规律。调控基因组学，变异检测，致病性评分成功应用。深度学习可以提高基因组数据的可解释性，并将基因组数据转化为可操作的临床信息。深度学习通过强大的深度神经网络模型从高维大数据中自动
向量语义（Vector Semantics）与表征学习（Representation Learning）详解苏西月学习人工智能
1.向量语义（VectorSemantics）与词嵌入（WordEmbeddings）向量语义的核心思想是用数学向量来表示单词的意义。传统的NLP方法（如基于规则的语言模型）需要人为定义单词的语义规则，而向量语义方法则通过分析单词在大量文本中的使用模式来学习其语义。关键词：词向量（WordRepresentations）：单词被表示为一个多维向量，每个维度对应于该单词的某种语义特征。分布式表示（D
《深入浅出HTTPS》读书笔记（7）：安全的密码学Hash算法 earthzhang2021 https http 网络协议网络 1024程序员节
密码学Hash算法除了常规Hash算法的特性，还应该具备下面三个特性。1）强抗碰撞性（CollisionResistance）如果两个不相同的值能够得到同样的摘要值，表示产生了Hash碰撞。密码学中，Hash算法必须具备强抗碰撞性，否则不应该使用。2）弱抗碰撞性（Secondpre-imageResistance）给定一个消息和这个消息对应的摘要值，很难找到一条不同的消息也具有相同的摘要值。如果某
【GO实战课】第三讲：电子商务网站（3）——架构和路由 earthzhang2021 GO语言编程入门 golang 架构开发语言
1.简介本课程将探讨电子商务网站的架构和路由，以及使用GO语言实现。在本课程中，我们将介绍如何设计一个可扩展、可靠和高性能的电子商务网站架构，并演示如何使用GO语言编写路由代码。本课程的目标是帮助学生理解电子商务网站的架构，并提供一个实际的项目，以便他们可以在实践中应用所学知识。通过完成本课程，学员将能够：理解电子商务网站的架构设计原则；掌握使用RESTfulAPI构建电子商务网站的基本知识；学习
《深入浅出HTTPS》读书笔记（5）：随机数 earthzhang2021 https 网络协议 http
密码学中随机数的用途非常大，其他密码学算法内部都会用到随机数。1）效率在软件或者密码学应用中需要大量的随机数，必须在很短的时间内生成随机数。2）随机性生成的随机数只要不存在统计学偏差，那么这个随机数就具备随机性（randomness）。3）不可预测性密码学中的随机数必须具备不可预测性，否则就会存在安全问题，当然非密码学应用使用具备随机性的随机数就足够了。4）不可重现性所谓不可重现性（unrepea
jquery实现的jsonp掉java后台知了ing java jsonp jquery
什么是JSONP？先说说JSONP是怎么产生的：其实网上关于JSONP的讲解有很多，但却千篇一律，而且云里雾里，对于很多刚接触的人来讲理解起来有些困难，小可不才，试着用自己的方式来阐释一下这个问题，看看是否有帮助。 1、一个众所周知的问题，Ajax直接请求普通文件存在跨域无权限访问的问题，甭管你是静态页面、动态网页、web服务、WCF，只要是跨域请求，一律不准； 2、
Struts2学习笔记 caoyong struts2
SSH : Spring + Struts2 + Hibernate 三层架构(表示层,业务逻辑层,数据访问层) MVC模式 (Model View Controller) 分层原则:单向依赖，接口耦合 1、Struts2 = Struts + Webwork 2、搭建struts2开发环境 a>、到www.apac
SpringMVC学习之后台往前台传值方法满城风雨近重阳 springMVC
springMVC控制器往前台传值的方法有以下几种： 1.ModelAndView 通过往ModelAndView中存放viewName：目标地址和attribute参数来实现传参： ModelAndView mv=new ModelAndView(); mv.setViewName="success
WebService存在的必要性？一炮送你回车库 webservice
做Java的经常在选择Webservice框架上徘徊很久，Axis Xfire Axis2 CXF ，他们只有一个功能，发布HTTP服务然后用XML做数据传输。是的，他们就做了两个功能，发布一个http服务让客户端或者浏览器连接，接收xml参数并发送xml结果。当在不同的平台间传输数据时，就需要一个都能解析的数据格式。但是为什么要使用xml呢？不能使json或者其他通用数据
js年份下拉框 3213213333332132 java web ee
<div id="divValue">test...</div>测试 //年份 <select id="year"></select> <script type="text/javascript"> window.onload =
简单链式调用的实现技术归来朝歌方法调用链式反应编程思想
在编程中，我们可以经常遇到这样一种场景：一个实例不断调用它自身的方法，像一条链条一样进行调用这样的调用你可能在Ajax中，在页面中添加标签： $("<p>").append($("<span>").text(list[i].name)).appendTo("#result"); 也可能在HQ
JAVA调用.net 发布的webservice 接口 darkranger webservice
/** * @Title: callInvoke * @Description: TODO(调用接口公共方法) * @param @param url 地址 * @param @param method 方法 * @param @param pama 参数 * @param @return * @param @throws BusinessException
Javascript模糊查找 | 第一章循环不能不重视。 aijuans Way
最近受我的朋友委托用js+HTML做一个像手册一样的程序，里面要有可展开的大纲，模糊查找等功能。我这个人说实在的懒，本来是不愿意的，但想起了父亲以前教我要给朋友搞好关系，再加上这也可以巩固自己的js技术，于是就开始开发这个程序，没想到却出了点小问题，我做的查找只能绝对查找。具体的js代码如下： function search(){ var arr=new Array("my
狼和羊，该怎么抉择 atongyeye 工作
狼和羊，该怎么抉择在做一个链家的小项目，只有我和另外一个同事两个人负责，各负责一部分接口，我的接口写完，并全部测联调试通过。所以工作就剩下一下细枝末节的，工作就轻松很多。每天会帮另一个同事测试一些功能点，协助他完成一些业务型不强的工作。今天早上到公司没多久，领导就在QQ上给我发信息，让我多协助同事测试，让我积极主动些，有点责任心等等，我听了这话，心里面立马凉半截，首先一个领导轻易说
读取android系统的联系人拨号百合不是茶 android sqlite数据库内容提供者系统服务的使用
联系人的姓名和号码是保存在不同的表中,不要一下子把号码查询来,我开始就是把姓名和电话同时查询出来的,导致系统非常的慢关键代码: 1, 使用javabean操作存储读取到的数据 package com.example.bean; /** * * @author Admini
ORACLE自定义异常 bijian1013 数据库自定义异常
实例： CREATE OR REPLACE PROCEDURE test_Exception ( ParameterA IN varchar2, ParameterB IN varchar2, ErrorCode OUT varchar2 --返回值,错误编码 ) AS /*以下是一些变量的定义*/ V1 NUMBER; V2 nvarc
查看端号使用情况征客丶 windows
一、查看端口在windows命令行窗口下执行： >netstat -aon|findstr "8080" 显示结果： TCP 127.0.0.1:80 0.0.0.0:0 &
【Spark二十】运行Spark Streaming的NetworkWordCount实例 bit1129 wordcount
Spark Streaming简介 NetworkWordCount代码 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with
Struts2 与 SpringMVC的比较 BlueSkator struts2 spring mvc
1. 机制：spring mvc的入口是servlet，而struts2是filter，这样就导致了二者的机制不同。 2. 性能：spring会稍微比struts快。spring mvc是基于方法的设计，而sturts是基于类，每次发一次请求都会实例一个action，每个action都会被注入属性，而spring基于方法，粒度更细，但要小心把握像在servlet控制数据一样。spring
Hibernate在更新时，是可以不用session的update方法的(转帖） BreakingBad Hibernate update
地址：http://blog.csdn.net/plpblue/article/details/9304459 public void synDevNameWithItil() {Session session = null;Transaction tr = null;try{session = HibernateUtil.getSession();tr = session.beginTran
读《研磨设计模式》-代码笔记-观察者模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; import java.util.Observable; import java.util.Observer; /** * “观
重置MySQL密码 chenhbc mysql 重置密码忘记密码
如果你也像我这么健忘，把MySQL的密码搞忘记了，经过下面几个步骤就可以重置了（以Windows为例，Linux/Unix类似）： 1、关闭MySQL服务 2、打开CMD，进入MySQL安装目录的bin目录下，以跳过权限检查的方式启动MySQL mysqld --skip-grant-tables 3、新开一个CMD窗口，进入MySQL mysql -uroot
再谈系统论，控制论和信息论 comsci 设计模式生物能源企业应用领域模型
再谈系统论，控制论和信息论偶然看
oracle moving window size与 AWR retention period关系 daizj oracle
转自： http://tomszrp.itpub.net/post/11835/494147 晚上在做11gR1的一个awrrpt报告时,顺便想调整一下AWR snapshot的保留时间,结果遇到了ORA-13541这样的错误.下面是这个问题的发生和解决过程. SQL> select * from v$version; BANNER -------------------
Python版B树 dieslrae python
话说以前的树都用java写的,最近发现python有点生疏了,于是用python写了个B树实现,B树在索引领域用得还是蛮多了,如果没记错mysql的默认索引好像就是B树... 首先是数据实体对象,很简单,只存放key,value class Entity(object): '''数据实体''' def __init__(self,key,value)
C语言冒泡排序 dcj3sjt126com 算法
代码示例： # include <stdio.h> //冒泡排序 void sort(int * a, int len) { int i, j, t; for (i=0; i<len-1; i++) { for (j=0; j<len-1-i; j++) { if (a[j] > a[j+1]) // >表示升序
自定义导航栏样式 dcj3sjt126com 自定义
-(void)setupAppAppearance { [[UILabel appearance] setFont:[UIFont fontWithName:@"FZLTHK—GBK1-0" size:20]]; [UIButton appearance].titleLabel.font =[UIFont fontWithName:@"FZLTH
11.性能优化-优化-JVM参数总结 frank1234 jvm参数性能优化
1.堆 -Xms --初始堆大小 -Xmx --最大堆大小 -Xmn --新生代大小 -Xss --线程栈大小 -XX:PermSize --永久代初始大小 -XX:MaxPermSize --永久代最大值 -XX:SurvivorRatio --新生代和suvivor比例,默认为8 -XX:TargetSurvivorRatio --survivor可使用
nginx日志分割 for linux HarborChung nginx linux 脚本
nginx日志分割 for linux 默认情况下，nginx是不分割访问日志的，久而久之，网站的日志文件将会越来越大，占用空间不说，如果有问题要查看网站的日志的话，庞大的文件也将很难打开，于是便有了下面的脚本使用方法，先将以下脚本保存为 cutlog.sh，放在/root 目录下，然后给予此脚本执行的权限复制代码代码如下: chmo
Spring4新特性——泛型限定式依赖注入 jinnianshilongnian spring spring4 泛型式依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
centOS安装GCC和G++ liuxihope centos gcc
Centos支持yum安装，安装软件一般格式为yum install .......，注意安装时要先成为root用户。按照这个思路，我想安装过程如下：安装gcc：yum install gcc 安装g++： yum install g++ 实际操作过程发现，只能有gcc安装成功，而g++安装失败，提示g++ command not found。上网查了一下，正确安装应该
第13章 Ajax进阶（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
How to determine BusinessObjects service pack and fix pack blueoxygen BO
http://bukhantsov.org/2011/08/how-to-determine-businessobjects-service-pack-and-fix-pack/ The table below is helpful. Reference BOE XI 3.x 12.0.0. y BOE XI 3.0 12.0. x. y BO
Oracle里的自增字段设置 tomcat_oracle oracle
　大家都知道吧，这很坑，尤其是用惯了mysql里的自增字段设置，结果oracle里面没有的。oh，no 　　我用的是12c版本的，它有一个新特性，可以这样设置自增序列，在创建表是，把id设置为自增序列 create table t ( id 　　　　 number generated by default as identity (start with 1 increment b
Spring Security（01）——初体验 yang_winnie spring Security
Spring Security（01）——初体验博客分类： spring Security Spring Security入门安全认证首先我们为Spring Security专门建立一个Spring的配置文件，该文件就专门用来作为Spring Security的配置

【一起啃书】《机器学习》第十章 降维与度量学习