Andrewings

西瓜书学习笔记——第十一章：特征选择与稀疏学习

第十一章：特征选择与稀疏学习

11.1 子集搜索与评价
- 子集搜索
- 特征子集评价
11.2 过滤式选择
- Relief的相关统计量
11.3 包裹式选择
- - 拉斯维加斯方法和蒙特卡罗方法：
11.4 嵌入式选择与L1正则化
11.5 稀疏表示与字典学习
- 稀疏性
11.6 压缩感知

11.1 子集搜索与评价

一般情况下，我们可以用很多属性/特征描述一个示例，而对于特定的学习任务，我们会发现已知的所有属性中，有些特征是与该学习任务的目标无关的（如预测一个人的收入，年龄/学历/专业可能很大程度上影响了收入，身高/体重这些外貌属性也有较小的可能性影响收入，但像是否是一个地地道道的吃货这种属性就八杆子打不着了），称之为无关特征，对当前学习任务有用的属性称之为相关特征。

我们只需要对学习任务有用的相关特征，特征选择便是从给定的特征集合中选出相关特征子集的过程。

显然，特征选择的过程同样也实现了降维的效果，也可以有效解决维数灾难的问题。具体而言：

降维从一定程度上起到了提炼优质低维属性和降噪的效果
特征选取直接剔除那些与学习任务无关的属性选取出最佳特征子集

要从初始的特征集合中选取一个包含所有重要信息的特征子集，若直接遍历所有特征子集，在维数过多时则会遭遇指数爆炸。可行的做法是产生一个候选子集，评价出它的好坏，基于评价结果产生下一个候选子集，再对其进行评价，…这个过程持续进行下去，直至无法找到更好的候选子集为止。这就极大地降低了复杂度。早期的特征选择常用方法涉及两个关键环节：

如何根据评价结果获取下一个候选特征子集？
如何评价候选特征子集的好坏？

子集搜索

书上介绍了贪心算法，分为三种策略：

前向搜索：初始将每个特征当做一个候选特征子集，然后从当前所有的候选子集中选择出最佳的特征子集；接着在上一轮选出的特征子集中添加一个新的特征，同样地选出最佳特征子集；最后直至选不出比上一轮更好的特征子集。
后向搜索：初始将所有特征作为一个候选特征子集；接着尝试去掉上一轮特征子集中的一个特征并选出当前最优的特征子集；最后直到选不出比上一轮更好的特征子集。
双向搜索：将前向搜索与后向搜索结合起来，即在每一轮中既有添加操作也有剔除操作。

以上的策略由于都基于贪心算法，故都是仅考虑了使本轮选定集最优，故有几率得不到全局最优解。遗憾的是，若不进行穷举，这样的问题无法避免。

特征子集评价

书中给出了一些想法及基于信息熵的方法。假设数据集的属性皆为离散属性，这样给定一个特征子集，便可以通过这个特征子集的取值将数据集合划分为V个子集。例如：A1={男,女}，A2={本科,硕士}就可以将原数据集划分为2*2=4个子集，其中每个子集的取值完全相同。这时我们就可以像决策树选择划分属性那样，通过计算信息增益来评价该属性子集的好坏。

信息增益Gain(A)越大，意味着特征子集A包含的有助于分类的特征越多。故对于每个候选特征子集，我们可以基于训练数据集D来计算其信息增益，以此作为评价准则。

以上，将特征子集搜索机制和子集评价机制相结合，即可得到特征选择方法。值得一提的是，若将前向搜索和信息熵相结合，则与ID3决策树算法非常相似。事实上，决策树可用于特征选择，树结点的划分属性所组成的集合就是选择出的特征子集。

常见的特征选择方法大致可分为三类：

过滤式(filter)：过滤式方法先对数据集进行特征选择，然后再训练学习器，特征选择过程与后续学习器无关。
包裹式(wrapper)：直接把最终将要使用的学习器的性能作为特征子集的评价准则。其目的就是为给定学习器选择最有利于其性能的特征子集。
嵌入式(embedding)：将特征选择过程与学习器的训练过程融为一体，两者在同一个优化过程中完成，即在学习器训练的过程中自动地进行了特征选择。

11.2 过滤式选择

过滤式方法先对数据集进行特征选择，然后再训练学习器，特征选择过程与后续学习器无关。

Relief(Relevant Features)是一种著名的过滤式特征选择方法，该方法设计了一个相关统计量，其每个分量分别对应于一个初始特征，而特征子集的重要性由子集中每个特征所对应的相关统计量分量之和决定。最终有两种方法选择特征：

指定一个阈值t，然后选择比t大的相关统计量分量所对应的特征即可
指定欲选取的特征个数k，然后选择相关统计量分量最大的k个特征

Relief的相关统计量

Relief的关键在于如何确定相关统计量。对于训练集的每个示例 $x_i$ ，Relief先在 $x_i$ 的同类样本中寻找其最近邻 $x_{i,nh}$ ，称为“猜中近邻”(near-hit)，再从 $x_i$ 的异类样本中寻找其最近邻 $x_{i,nm}$ ，称为“猜错近邻”(near-miss)。于是，相关统计量对应于特征 $j$ 的分量为：

直观上理解：对于near-hit，两者 $j$ 属性的距离越小越好，对于near-miss， $j$ 属性距离越大越好。

标准Relief算法只适用于二分类问题，后续产生的拓展变体Relief-F则解决了多分类问题。对于 $j$ 分量，新的计算公式为：

其中， $p_l$ 为第 $l$ 类样本在数据集D中的所占的比例

Relief-F先在第 $k$ 类的样本中寻找 $x_i$ 的最近邻示例near-hit，然后在第 $k$ 类之外的每个类中找到一个 $x_i$ 的最近邻near-miss，即只有一个near-hit，有多个near-miss

11.3 包裹式选择

与过滤式选择不同的是，包裹式选择直接把最终将要使用的学习器的性能作为特征子集的评价准则。其目的就是为给定学习器选择最有利于其性能的特征子集。

由于在每一轮迭代中都要训练学习器，因此在获得较好性能的同时也产生了较大的开销。包裹式特征选择比过滤式特征选择计算开销要大得多。书中主要介绍的是一种经典的包裹式特征选择方法：LVW，它在拉斯维加斯框架下使用随机策略来进行特征子集的搜索，并以最终分类器的误差为特征子集评价准则。

拉斯维加斯方法和蒙特卡罗方法：

以下引用于：文章链接

蒙特卡罗算法：采样越多，越近似最优解，一定会给出解，但给出的解不一定是正确解；
拉斯维加斯算法：采样越多，越有机会找到最优解，不一定会给出解，且给出的解一定是正确解。

举个例子，假如筐里有100个苹果，让我每次闭眼拿1个，挑出最大的。于是我随机拿1个，再随机拿1个跟它比，留下大的，再随机拿1个……我每拿一次，留下的苹果都至少不比上次的小。拿的次数越多，挑出的苹果就越大，但我除非拿100次，否则无法肯定挑出了最大的。这个挑苹果的算法，就属于蒙特卡罗算法——尽量找较好的，但不保证是最好的。

而拉斯维加斯算法，则是另一种情况。假如有一把锁，给我100把钥匙，只有1把是对的。于是我每次随机拿1把钥匙去试，打不开就再换1把。我试的次数越多，打开（正确解）的机会就越大，但在打开之前，那些错的钥匙都是没有用的。这个试钥匙的算法，就是拉斯维加斯的——尽量找最好的，但不保证能找到。

11.4 嵌入式选择与L1正则化

过滤式中特征选择与后续学习器完全分离，包裹式则是使用学习器作为特征选择的评价准则；嵌入式是一种将特征选择与学习器训练完全融合的特征选择方法，即将特征选择融入学习器的优化过程中。

在之前《经验风险与结构风险》中：经验风险指的是模型与训练数据的契合度，结构风险则是模型的复杂程度。机器学习的核心任务就是：在模型简单的基础上保证模型的契合度。例如：对于简单的线性回归模型，以平方误差为损失函数，则优化目标为：

岭回归就是加上了L2范数的最小二乘法，有效地解决了奇异矩阵、过拟合等诸多问题。

下面的嵌入式特征选择则是在损失函数后加上了L1范数：

注：正则化参数 $\lambda>0$

L1范数和L2范数正则化都有助于降低过拟合风险。
除此之外，L1范数比L2范数更易于获得稀疏解，即它求得的 $w$ 有更多零分量（原本最自然的是要使用L0范数，但是L0范数不连续，难以优化求解，因此使用L1范数来近似）

即采用L1范数比L2范数更易于得到稀疏解。 $w$ 取得稀疏解意味着初始的 $d$ 个特征中仅有对应着 $w$ 的非零分量的特征才会出现在最终的模型中。于是求解L1正则化的结果是得到了仅采用一部分特征的模型。（既最小化又降维，即学习器训练过程与特征选择过程融为一体）

换言之，基于L1正则化的学习方法就是一种嵌入式特征选择方法，其特征选择过程与学习器训练过程融为一体，同时完成。

总的来说：L1范数会趋向产生少量的特征，其他特征的权值都是0；L2会选择更多的特征，这些特征的权值都会接近于0。这样L1范数在特征选择上就十分有用，而L2范数则具备较强的控制过拟合能力。

L1正则化的求解可用近端梯度下降(PGD)来求解：

11.5 稀疏表示与字典学习

稀疏性

特征选择所考虑的问题是特征具有稀疏性，即矩阵中的许多列与当前学习任务无关，通过特征选择去除这些列，则学习器训练过程仅需在较小的矩阵上进行，学习任务的难度可能有所降低，涉及的计算和存储开销会减少，学得的模型可解释性也会提高。

另一种稀疏性可比喻为：每个文档作为一个样本，每一列为字典中的字，则这样形成的矩阵中，每行有大量的零元素，且对于每个文档样本，每列零元素出现的位置往往很不相同。

当样本具有这样的稀疏表达形式时，对学习任务来说有不少的好处。如线性支持向量机之所以能在文本数据上有很好的性能，恰是由于文本数据在使用上述的字频表示后具有高度的稀疏性，使大多数问题变得线性可分。

同时，由于稀疏矩阵有许多高效的存储方法，故并不会造成存储上的巨大负担。

于是，在一般的学习任务中，我们也可以学习出这样一个字典，使得普通稠密表达的样本找到合适的字典，将样本转化为合适的稀疏表示形式，简化任务，降低模型复杂度，我们称之为稀疏编码（sparse coding）或字典学习（dictionary learning）。

给定一个数据集，字典学习/稀疏编码指的便是通过一个字典将原数据转化为稀疏表示，因此最终的目标就是求得字典矩阵B及稀疏表示α，书中使用变量交替优化的策略能较好地求得解。

第一步：固定字典B，参照LASSO的解法求解下式，从而为每个样本 $x_i$ 找到相应的 $\alpha_i$ ：

第二步：以 $\alpha_i$ 为初值更新字典B，此时可将式(11.15)写为：

11.6 压缩感知

压缩感知关注的是通过欠采样信息来恢复全部信息。在实际问题中，为了方便传输和存储，我们一般将数字信息进行压缩，这样就有可能损失部分信息，如何根据已有的信息来重构出全部信号，这便是压缩感知的来历，压缩感知的前提是已知的信息具有稀疏表示。

压缩感知的背景：

你可能感兴趣的:(西瓜书学习笔记,特征选取,稀疏学习,特征工程)

[特殊字符] AlphaGo：“神之一手”背后的智能革命与人机博弈新纪元大千AI助手人工智能 Python #OTHER 人工智能算法数据挖掘机器学习 alphago google 围棋
从围棋棋盘到科学前沿的通用人工智能范式突破本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、核心定义与历史意义AlphaGo是由谷歌DeepMind团队开发的围棋人工智能程序，其里程碑意义在于：首破人类围棋壁垒：2016年以4:1击败世界冠军李世石九段，成为首个在完整对局中战胜人类顶尖棋手的AI。
隐马尔可夫模型（HMM）：观测背后的状态解码艺术大千AI助手人工智能 Python #OTHER 数据挖掘人工智能机器学习算法 HMM 马尔科夫概率论
本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、核心概念：双重随机过程隐马尔可夫模型（HiddenMarkovModel,HMM）是一种通过可观测序列推断隐含状态序列的概率图模型，包含两个核心随机过程：隐含状态链：不可观测的马尔可夫过程${q_t}$P(qt∣qt−1,qt−2,…,q1)=P(
PageRank：互联网的马尔可夫链平衡态大千AI助手人工智能 Python #OTHER 人工智能机器学习条件概率贝叶斯 PageRank 马尔科夫链 MC
本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！PageRank算法本质上是一个在网页图上定义的离散时间马尔可夫链（DTMC），其核心思想是将网页间的链接关系转化为状态转移概率。以下是详细分析：一、马尔可夫链的核心要素在PageRank中的体现马尔可夫链要素PageRank对应数学描述状态空间网页集
MCMC：高维概率采样的“随机游走”艺术大千AI助手人工智能 Python #OTHER 人工智能数据挖掘机器学习算法 MCMC 马尔科夫概率论
MCMC（马尔可夫链蒙特卡洛）是一种从复杂概率分布中高效采样的核心算法，它解决了传统采样方法在高维空间中的“维度灾难”问题。以下是其技术本质、关键算法及实践的深度解析：本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、MCMC要解决的核心问题目标：从目标分布(π(x)\pi(\mathbf{x})
量化价值投资中的深度学习技术：TensorFlow实战
量化价值投资中的深度学习技术：TensorFlow实战关键词：量化价值投资,深度学习,TensorFlow,股票预测,因子模型,LSTM神经网络,量化策略摘要：本文将带你走进"量化价值投资"与"深度学习"的交叉地带，用小学生都能听懂的语言解释复杂概念，再通过手把手的TensorFlow实战案例，教你如何用AI技术挖掘股票市场中的价值宝藏。我们会从传统价值投资的痛点出发，揭示深度学习如何像"超级分析
OpenWebUI(8)源码学习-后端utils/telemetry追踪遥测模块
目录目录结构说明`constants.py`核心作用：主要功能：示例代码片段：`exporters.py`核心作用：主要类：`LazyBatchSpanProcessor`特点：技术亮点：`instrumentors.py`核心作用：插桩对象包括：钩子函数（Hooks）：Instrumentor类：插桩流程：`setup.py`核心作用：主要功能：典型调用方式：✨总体架构与价值技术亮点总结✅开发建
S7-300 400与S7-200 SMART PLC以太网通讯（S7协议）资源文件介绍滑展妙Bernice
S7-300400与S7-200SMARTPLC以太网通讯（S7协议）资源文件介绍【下载地址】S7-300400与S7-200SMARTPLC以太网通讯S7协议资源文件介绍本资源文件详细解析了S7-300400与S7-200SMARTPLC通过以太网进行通讯的技术细节，涵盖硬件连接、软件配置及通讯调试等关键环节。通过学习，您将掌握S7协议在PLC通讯中的实际应用，提升自动化与电气工程领域的专业技能
ResNet：深度卷积神经网络的里程碑心想事“程” 小知识点 cnn 人工智能神经网络
一、引言在深度学习的发展历程中，深度卷积神经网络（CNN）不断演进，旨在提升对图像等数据的特征提取与分类能力。然而，随着网络层数的增加，传统CNN面临着梯度消失、梯度爆炸以及退化等棘手问题，训练变得愈发困难。2015年，由微软研究院提出的ResNet（ResidualNetworks，残差网络）横空出世，它以独特的残差学习思想，成功攻克了这些难题，在ImageNet竞赛中大放异彩，开创了深度神经网
Go - 项目收藏
1、谷歌官方维护了一个基于go语言的开源项目列表：https://github.com/golang/go/wiki/Projects2、[知乎网]有哪些值得学习的Go语言开源项目？3、[知乎用户：hackstoic]看过awesome-go项目，汇总了很多go开源项目。但是awesome-go收集了太全了，而且每个项目没有描述。因此我自己根据go语言中文社区提供的资料，还有互联网企业架构设计中的
视觉算法之卷积神经网络清风AI 深度学习算法详解及代码复现计算机视觉 cnn 神经网络深度学习 python 课程设计毕业设计
定义与特点卷积神经网络(ConvolutionalNeuralNetwork,CNN)是一种专为处理具有网格结构的数据而设计的深度学习模型。其独特的结构和功能使其在图像处理、语音识别等领域展现出卓越的性能:CNN的核心设计理念源于对生物视觉系统的模仿。通过模拟大脑皮层中视网膜和视觉皮层的层次化结构,CNN能够有效地捕捉图像中的局部特征并逐步抽象为高层语义信息。这种设计使得CNN特别擅长处理图像和音
卷积神经网络架构的演进：从AlexNet到EfficientNet t0_54manong 大数据与人工智能 cnn 架构人工智能个人开发
在过去的8.5年里，深度学习取得了飞速的进步。回溯到2012年，AlexNet在ImageNet上的Top-1准确率仅为63.3%，而如今，借助EfficientNet架构和师生训练法，我们已经能达到超过90%的准确率。本文将聚焦于卷积神经网络（CNN）架构的演变，深入探究其背后的基本原理。一些关键术语在深入了解各种架构之前，我们需要明确几个关键术语。更宽的网络意味着卷积层中有更多的特征图（滤波器
MacOS系统安装Docker（非常详细）从零基础入门到精通，看完这一篇就够了_mac安装docker 2501_90249219 docker eureka 容器
选择默认配置就行，Docker会自动设置一些大多数开发人员必要的配置。这里我们跳过就好。运行Docker在应用程序中找到Docker程序图标，点击以启动Docker，启动之后我们会发现右上角工具栏中多了一个小鲸鱼的图片，这个就是Docker啦~真的好可爱~Docker桌面应用程序打开后，就是首页的学习中心界面。通过小鲸鱼中的AboutDockerDesktop可以查看Docker的版本可以看到版本
【AI大模型】深入解析预训练：大模型时代的核心引擎我爱一条柴ya 学习AI记录深度学习人工智能 ai python AI编程算法
预训练已成为现代人工智能，尤其是自然语言处理和计算机视觉领域的基石技术。它彻底改变了模型开发范式，催生了BERT、GPT等革命性模型。本文将系统阐述预训练的核心概念、原理、方法、应用及挑战。一、预训练的本质：为何需要它？核心问题：数据标注的瓶颈监督学习依赖海量高质量标注数据，获取成本极高（时间、金钱、专业知识）。对于复杂任务（如理解语义、生成文本），标注难度呈指数级上升。标注数据稀缺导致模型泛化能
Python爬虫小白入门指南，成为大牛必须经历的三个阶段
学习任何一门技术，都应该带着目标去学习，目标就像一座灯塔，指引你前进，很多人学着学着就学放弃了，很大部分原因是没有明确目标，所以，一定要明确学习目的，在你准备学爬虫前，先问问自己为什么要学习爬虫。有些人是为了一份工作，有些人是为了好玩，也有些人是为了实现某个黑科技功能。不过可以肯定的是，学会了爬虫能给你的工作提供很多便利。小白入门必读作为零基础小白，大体上可分为三个阶段去实现。第一阶段是入门，掌握
语言模型 RLHF 实践指南（一）：策略网络、价值网络与 PPO 损失函数
在使用ProximalPolicyOptimization（PPO）对语言模型进行强化学习微调（如RLHF）时，大家经常会问：策略网络的动作概率是怎么来的？价值网络的得分是如何计算的？奖励从哪里来？损失函数怎么构建？微调后的旧轨迹还能用吗？这篇文章将以语言模型强化学习微调为例，结合实际实现和数学公式，深入解析PPO的关键计算流程。1️⃣策略网络：如何计算动作概率？策略网络πθ(a∣s)\pi_\t
Python通关秘籍之基础教程(一） Smile丶Life丶 Python 通关指南：从零基础到高手之路 python 开发语言后端
引言在编程的世界里，Python就像一位温和而强大的导师，它以简洁优雅的语法和强大的功能吸引着无数初学者和专业人士。无论你是想开发网站、分析数据、构建人工智能，还是仅仅想学习编程思维，Python都是你的理想选择。Python的魅力在于它的易读性和广泛的应用场景。它的代码就像英语句子一样自然，即使是完全没有编程经验的人也能快速上手。同时，Python拥有庞大的生态系统，从Web开发（Django、
Vue3 学习教程，从入门到精通，使用 VSCode 开发 Vue3 的详细指南（3）知识分享小能手前端开发 vue3 网页开发学习前端 javascript vue.js vue3 vue 前端框架
使用VSCode开发Vue3的详细指南本文将详细介绍如何使用VisualStudioCode(VSCode)开发Vue3项目，包括创建项目、打开项目、运行第一个入门程序，并涵盖关键的语法知识点及使用方法。每个知识点都将提供具体的案例代码，并附有详细注释。此外，还将提供一些入门案例，帮助您快速上手Vue3开发。目录准备工作创建Vue3项目在VSCode中打开Vue3项目运行第一个入门程序Vue3关键
Three.js引擎开发：Three.js动画系统实现_（9）.Three.js中的骨骼动画实现 chenlz2007 游戏开发 javascript nginx 开发语言 vr 性能优化 ecmascript 前端
Three.js中的骨骼动画实现在上一节中，我们介绍了如何在Three.js中加载和显示3D模型。接下来，我们将深入探讨如何在Three.js中实现骨骼动画。骨骼动画是一种高级的动画技术，它通过控制模型的骨骼来驱动模型的动画，广泛应用于虚拟角色的动画制作。在本节中，我们将学习如何在Three.js中实现骨骼动画，包括骨骼动画的基本原理、如何加载带有骨骼的模型、如何创建和控制动画混合器（Animat
突破性能瓶颈，几个高性能Python网络框架，高效实现网络应用
引言随着互联网和大数据时代的到来，高性能网络应用的需求日益增加。Python作为一种流行的编程语言，在高性能网络编程领域也具有广泛的应用。本文将深入探讨基于Python的几种高性能网络框架，分析它们各自的优势和适用场景，帮助开发者选择最适合自己需求的网络框架这里插播一条粉丝福利，如果你正在学习Python或者有计划学习Python，想要突破自我，对未来十分迷茫的，可以点击这里获取最新的Python
嵌入式学习-Day6 不想学习\？？! 学习
c语言day6模拟获取co2，pm2.5的数值，并对co2的浓度，pm2.5的浓度做出划分，详情划分在代码注释首先写写出模拟获取数值的函数，但是由于要对浓度划分，所以先枚举出来等级划分typedefenum{Excellent,//默认0往下递增Good,Average,Poor}QualityLevel;接着写出模拟获取co2函数（在这里用到了static关键字，静态函数能够确保只在co2的c文
嵌入式学习-Day8 不想学习\？？! 学习
c语言day8通过过指针来访问寄存器#defineGPIO_CTLO((uint32_t*)0x40012000)GPIO_CTLO=0XFFFFFFFF;0x40012000是一个十六进制数值，此时编译器不认为他是一个地址通过强制转换，让编译器认为他是一个地址，(uint32_t*)0x40012000此时可以将0x40012000理解为定义指针变量时，uint32_t*p中的p*（(uint3
新手向:实现验证码程序 nightunderblackcat Java新手开发语言 java maven spring intellij-idea spring boot spring cloud
本文将从零开始，通过一个简单的验证码程序。即使你没有任何编程基础，也能跟着这篇文章一步步学习。第一章：Java开发环境搭建1.1安装JDK要开始Java编程，首先需要安装Java开发工具包(JDK)。JDK是Java开发的核心，包含了运行Java程序所需的工具和库。访问Oracle官网下载适合你操作系统的JDK运行安装程序，按照提示完成安装配置环境变量（这一步很重要，确保你可以在任何目录下运行Ja
Linux守护进程不脱发的程序猿嵌入式Linux“望闻问切“linux 嵌入式
目录1、编写守护进程的步骤2、守护进程的使用和案例设计2.1、案例功能分析2.2、守护进程代码结构2.3、代码实现2.4、代码详解3、编译和运行守护进程4、检查守护进程5、停止守护进程守护进程（Daemon）是一种在后台运行的特殊进程，通常用于执行系统服务、管理任务或处理请求。它们具有几个显著的特征，使其在系统中扮演重要角色。主要特征：长期运行：守护进程通常在系统启动时启动，并会持续运行，直至系统
一文搞懂 Cursor 内部工作原理~ zz_jesse
介绍了Cursor，一个结合了AI技术的代码编辑器，它通过深度学习和语义索引的方式，提升了开发者的工作效率。Cursor通过与VSCode相似的界面和功能，以及自己的AI特性，实现了代码的智能化编辑和错误检查。译文从这开始～～你可能已经看到新闻：OpenAI正以高达30亿美元的价格收购Windsurf！与此同时，Cursor的母公司Anysphere也正在以90亿美元估值融资9亿美元！这对于代码生
MiniMind：3小时训练26MB微型语言模型，开源项目助力AI初学者快速入门 nine是个工程师关注人工智能语言模型开源
开发｜界面｜引擎｜交付｜副驾——重写全栈法则：AI原生的倍速造应用流来自全栈程序员nine的探索与实践，持续迭代中。欢迎关注评论私信交流~在大型语言模型(LLaMA、GPT等)日益流行的今天，一个名为MiniMind的开源项目正在AI学习圈内引起广泛关注。这个项目让初学者能够在3小时内从零开始训练出一个仅26.88MB大小的微型语言模型，体积仅为GPT-3的七千分之一，却完整覆盖了从数据处理到模型
如何让AI真正理解你的意图（自适应Prompt实战指南） nine是个工程师大语言模型人工智能 prompt
目前的LLM模型，在理解用户意图方面，正在使用自适应Prompt技术，来提升模型的理解能力。目前使用deepseek推理模型能明显看到自适应的一个过程。前言：为什么你的AI总是"答非所问"？相信很多人都遇到过这样的情况：你问：“帮我写一个Python爬虫”AI答：给你一堆理论知识和完整教程（你只想要简单代码）你问：“推荐一部电影”AI答：推荐了《教父》（你想看轻松喜剧）你问：“解释一下机器学习”A
如何创建Python工程目录九月恒心 Python python 自动测试
如何创建一个简单但是比较规范的python工程目录，本文是学习了LearnPythontheHardWay相关内容后做的一些笔记。安装python第三方包1.pipfromhttp://pypi.python.org/pypi/pip用于安装python第三方包的工具2.distributefromhttp://pypi.python.org/pypi/distribute已被弃用，是SetupT
AI人工智能与机器学习的大数据融合应用 AI智能探索者人工智能机器学习大数据 ai
AI人工智能与机器学习的大数据融合应用关键词：AI人工智能、机器学习、大数据、融合应用、数据挖掘摘要：本文深入探讨了AI人工智能与机器学习在大数据融合应用方面的相关内容。首先介绍了研究的背景、目的、预期读者和文档结构，对核心术语进行了清晰定义。接着阐述了AI、机器学习和大数据的核心概念及相互联系，给出了形象的文本示意图和Mermaid流程图。详细讲解了核心算法原理，并通过Python源代码进行说明
目标检测YOLO实战应用案例100讲-基于深度学习的自动驾驶目标检测算法研究（续）林聪木目标检测 YOLO 深度学习
目录基于双蓝图卷积的轻量化自动驾驶目标检测算法5.1引言5.2DarkNet53网络冗余性分析5.3双蓝图卷积网络5.4实验结果及分析基于深度学习的自动驾驶目标检测算法研究与应用传统的目标检测算法目标检测基线算法性能对比与选择相关理论和算法基础2.1引言2.2人工神经网络2.3FCOS目标检测算法2.4复杂交通场景下的目标检测难点与FCOS改进方案基于FCOS的目标检测算法改进3.1引言3.2Re
AI人工智能遇上TensorFlow：技术融合新趋势 AI大模型应用之禅人工智能 tensorflow python ai
AI人工智能遇上TensorFlow：技术融合新趋势关键词：人工智能、TensorFlow、深度学习、神经网络、机器学习、技术融合、AI开发摘要：本文深入探讨了人工智能技术与TensorFlow框架的融合发展趋势。我们将从基础概念出发，详细分析TensorFlow在AI领域的核心优势，包括其架构设计、算法实现和实际应用。文章包含丰富的技术细节，如神经网络原理、TensorFlow核心算法实现、数学
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他