飞桨PaddlePaddle

一文带你读懂非结构化稀疏模型压缩和推理优化技术

非结构化稀疏是一种常见的模型压缩策略。本文中，我们将分享一套基于飞桨（PaddlePaddle）的非结构化稀疏训练和推理的端到端系统，以及为保证训练精度与推理速度而做的优化策略。移动端实测 MobileNetV1，稀疏度 80%，精度损失小于 1%，FP32 和 INT8 模型推理加速 70% 和 60%；稀疏度 90%，精度损失 2.7%，FP32 和 INT8 加速 178% 和 132%。

背景

近些年，深度学习正在经历从学术研究领域到工业落地方面的快速转变。一个完备的深度学习落地流程包括：模型设计、模型训练与调优、模型压缩、推理部署，最终成为在各种设备上快速、精准运行的人工智能系统。考虑到终端设备计算能力的限制，如何将研发产出的大模型转变为可以轻便部署、快速推理的小模型，就变得尤为重要了。模型压缩可以从软硬结合以及算法角度解决该问题，例如，量化方法将 32bit 的数值精度降低为 16bit、8bit 甚至更低，从而加速计算效率和减少内存带宽使用；剪枝方法则通过直接将不重要的参数剪裁掉，减小模型体积和运算次数，也就是模型稀疏化策略。

常见的稀疏方式可分为结构化稀疏和非结构化稀疏。前者在某个特定维度（特征通道、卷积核等等）上对卷积、矩阵乘法做剪枝操作，然后生成一个更小的模型结构，这样可以复用已有的卷积、矩阵乘计算，无需特殊实现推理算子；后者以每一个参数为单元稀疏化，然而并不会改变参数矩阵的形状，只是变成了含有大量零值的稀疏矩阵，所以更依赖于推理库、硬件对于稀疏后矩阵运算的加速能力。从效果上看，结构化稀疏在较低稀疏度时，还能使模型获得一定的加速能力，但是在高稀疏度时往往会引入较大的精度损失；非结构化稀疏更能在高稀疏度时，可以达到几倍的推理加速，同时精度损失不大。

我们基于飞桨的训练、压缩和推理部署框架，实现了一套非结构化稀疏的端到端系统，并且包含了诸多优化技巧，从而达到了快速训练和推理的目的。本篇文档会侧重方法和实战经验介绍，包含非结构化稀疏的训练技巧、部署推理实现及其优化技巧的整体思路等，其中推理部分主要是针对移动端（ARM CPU）的优化和测试。

算法介绍

绝大多数模型压缩策略都是应用在一个训练好的模型上，通过 Fine-tune，最终在精度损失很小的情况下，达到压缩目的。非结构化稀疏需要在剪裁后的模型上，进行全量数据集的稀疏化训练过程。在飞桨模型压缩工具 PaddleSlim 中，我们实现了非结构化稀疏算法*，不仅支持对权重数据类型为 FP32 模型的稀疏，还支持获得 INT8 的稀疏权重。以下三点是保证训练时间、精度以及最终压缩效果的关键。

*（非结构化稀疏算法：https://github.com/PaddlePaddle/PaddleSlim/tree/develop/demo/unstructured_prune）

1. GMP 算法对稀疏化模型的性能提升

稀疏化训练包含剪裁模型和 Fine-tune 训练等步骤，但是如何合理的剪裁模型，以保证训练精度呢？这里以 50% 为目标稀疏度举例，讨论两种训练策略：

一步剪裁掉模型中 50% 的权重，然后固定这些权重为 0，对剩余 50% 的权重 Fine-tune。
分多步剪裁和训练，例如重复：稀疏度 +1%、Fine-tune 10 Steps 这样的过程，直到模型稀疏度达到 50%。

GMP（Gradual Magnitude Pruning*）就是一种分多步剪裁的训练策略，该方法有效提升了模型在大稀疏度下的收敛性能。区别于一步将模型剪裁到目标稀疏度，GMP 会将大的目标稀疏度拆分成很多个中间目标，通过逐步的训练和收敛完成训练。GMP 实际上是对随机梯度下降（SGD）的隐性正则特性*（Implicit regularization）或者显性的 L1、L2 正则项的适配。因为正则项会在训练过程中不断对不重要的权重做数值上的抑制，让这些权重的数值向 0 靠近，所以训练过程中，我们需要给正则留出调整稀疏化权重分布的时间，然后同时逐步调大稀疏度。

*（Gradual Magnitude Pruning

https://arxiv.org/abs/1506.02626）

*（隐性正特征：https://arxiv.org/abs/1811.00659）

总体来说，GMP 策略包含三个阶段：稳定阶段、剪裁训练阶段和调优阶段：

稳定阶段：该阶段的目标稀疏度保持为 0，且占用训练时间很少（1-2 Epochs足够），用于正式剪裁前的模型稳定。由于我们已经导入了充分收敛的预训练权重，所以也就无需稳定阶段了。实验测试下来，也是发现它的有无对稀疏模型精度的影响很小，所以不着重分析了。
剪裁阶段：该阶段中，稀疏度从某一个初始值（Initial ratio）按三次函数过程增加到最终值（Target ratio），且增加的幅度逐渐减小，用于稳定稀疏训练。同时，学习率在该过程中维持不变或者轻微下降。

调优阶段：该阶段中，稀疏度保持为最终值（Target ratio），学习率下降。

例如，对于一个需要 600000 步迭代的稀疏化训练过程，前 300000 步用于剪裁，稀疏度按照三次函数曲线减速上升；后 300000 步稀疏度维持不变。

消融实验验证 GMP 策略的收益如下：

从上表可以看到，加入 GMP 后，模型精度有 1.73% 的提升。除了实验结果的验证，算法上我们为什么相信 GMP 优于一步剪裁策略（上表第二行结果）呢？这基于我们实现的权重重要性的评判指标：权重的绝对值越大，权重越重要。同时，这个重要性规律只在权重绝对值很大时，才有比较明显的体现，所以一步剪裁很可能直接移除了某些重要权重（但是数值不大），导致了最终的精度损失。GMP 解决这个问题的依据是训练过程中，正则项（例如上述 SGD 带来的隐性正则特性，L1、L2显性正则等）对某些权重大小带来的抑制作用，可以让网络不断地去调整稀疏化权重的分布。

2.全局稀疏化与均匀稀疏化的讨论

稀疏策略上，另外一个重要的维度是如何将剪裁比例应用到不同层，比如，为使模型的整体稀疏度达到 50%，我们可以将所有权重一起排序，置零 50% （该方法称为 Global Sparsity），也可以对每一个权重矩阵分别排序然后置零 50%（该方法称为 Uniform Sparsity）。这两种做法虽然都能让模型稀疏度达到 50%，但是 Uniform Sparsity 额外保证了各个权重矩阵稀疏度均为 50%，Global Sparsity 可能会造成各个权重矩阵稀疏度不同的现象。具体矛盾如下：

Uniform Sparsity：结合推理实现（推理实现优化章节介绍），因为每一个权重矩阵稀疏度都是 50%，都能够获得加速效果，对于模型的整体加速比较明显；但同时考虑到一些层比较重要（例如特征提取的浅层），强行规定稀疏度 50% 的话，可能对于精度恢复不是很友好。
Global Sparsity：和 Uniform Sparsity 相对，Globel Sparsity 只保证了所有权重矩阵的平均稀疏度是 50%，所以潜在的会给重要的权重矩阵分配较低的稀疏度，所以精度恢复较好，但是由于某些层会存在 30% 甚至 10% 的稀疏度，使得推理速度变慢。

经过权衡和实验验证，我们推荐选取 Uniform Sparsity 的方案，以保证在精度损失允许范围内，获得显著加速性能。

3. 蒸馏对于 FP32 和 INT8 稀疏化模型的性能提升

蒸馏是一种非常有效的提升小模型精度并且加快收敛速度的方式，它具体是借助一个较大的预训练网络（Teacher network）来约束小网络（Student network）的训练收敛。根据任务的不同（视觉分类、视觉检测，语言学任务等等），我们可以设计不同的 Loss 完成蒸馏。更多介绍可以参照这篇论文综述：Knowledge Distillation: A Survey*。

*（Knowledge Distillation: A Survey：https://arxiv.org/abs/2006.05525)

经过工程实践，我们发现在稀疏化训练过程中，将稠密网络作为 Teacher，加入蒸馏 Loss，约束稀疏化网络，对于精度恢复和收敛速度提升可以起到明显的作用，具体而言，有如下两个特点：

收敛速度加快。在分类任务上（MobileNetV1-ImageNet），收敛所需 Epoch 数减少。
精度提升，尤其是 INT8 模型。同样在分类任务上（MobileNetV1-ImageNet），蒸馏 + PACT 量化训练甚至可以使稀疏 INT8 模型精度超过稠密 INT8 模型的精度。

蒸馏带来的收益情况如下（下表中均为 INT8 模型）：

推理实现与优化

由于非结构化稀疏并没有改变权重矩阵的形状，只是置零了一部分权重的数值，所以我们需要自定义一些逻辑，达到推理时跳过这些 0 的目的。在飞桨轻量化推理引擎 Paddle Lite 中，实现了稀疏的 1x1 卷积算子，达到推理加速的目的。而 1x1 卷积等价于矩阵乘法，下面的描述均称作稀疏矩阵乘法。概括来看，稀疏矩阵乘法的推理实现包括：权重矩阵的 CSR 数据格式准备、特征矩阵分块、计算核函数实现三个步骤，以下一一介绍。

1. CSR 数据格式准备

CSR（Compressed Sparse Row）/ CRS（Compressed Row Storage）代表一种稀疏矩阵的存储格式，其核心做法是只存储非零元素的数值和位置，以达到快速读取非零元素的目的。由此带来如下特点：

由于需要存储和读取非零元素的index，造成了一定的时间开销，所以 CSR 格式在达到一定的稀疏度时，才能带来显著的加速效果。
在大多数情况下，CSR 格式的存储都会降低矩阵的存储体积（INT8 的数据的低稀疏度矩阵除外）。

2. 稀疏矩阵乘法 :

矩阵分块

与稠密矩阵乘法的分块优化相同，在稀疏矩阵乘法中采用相同的优化技巧。在内存读取一个大矩阵时，为了方便预读取、读取与多线程操作，我们需要将大矩阵划分为若干符合内存大小的子块，从而加速推理速度。例如，对于两个矩阵相乘（权重矩阵和特征矩阵形状分别为 MxK，KxN），我们会在 N 这个维度上将权重矩阵拆分，优先拆分得到 Kx48 的子块（3.4 中说明优先选取 48 的原因），进行循环操作，不足 48 的部分拆分成 32、16、8、4、1等。

3.稀疏矩阵乘法 :

计算核函数

计算核函数解决了快速实现拆分后矩阵的乘法的问题。例如，上述矩阵拆分后，会生成 MxK 和 Kx48 两个矩阵的相乘问题，我们基于汇编语言实现了 FP32 和 INT8 数值精度下的核函数。

由于不涉及数值精度的转换，FP32 的 Kernel 计算逻辑相对直接，对于特征矩阵，如下图，我们在汇编语言下实现了与稀疏权重矩阵的乘法、与 Bias 的加法、以及激活函数操作。

而在汇编语言下，INT8 的计算核函数实现虽与 FP32 大体逻辑相似，但是很容易由于数值溢出带来一定的计算误差，所以如下图，我们需要额外注意将 INT8 的数据转换为 INT16 和 INT32 的中间格式进行运算。

4.速度优化实践

为了最大化寄存器使用率以及合理安排数据读取和处理的时间平衡，我们实践了如下策略。

汇编指令重排：指令重排通过减少寄存器之间的依赖，达到并行执行指令的效果。例如，避免将当前指令的目的寄存器作为下一条指令的源寄存器，从而充分利用多级流水线，使指令并行执行。
数据预读取：提前将下一次计算用到的数据从内存读取到缓存中，寄存器可以直接从缓存中加载数据，从而加快数据读取的速度。
对特征矩阵的 N 维度（即 HxW）进行分块操作:主要是为了降低 Cache miss，同时考虑到 ARMv8/ARMv7 提供的向量寄存器数目，我们最大选取了48，然后依次为32、16、8、4、1，从而加速推理计算。

5.加速效果

在精度损失在 1% 上下时，我们列举出 FP32 和 INT8 数值精度下 MobileNetV1, MobileNetV2 和 MobileNetV3 的加速情况如下：

对于FP32 的稀疏化 MobileNet 模型，较稠密 FP32 模型加速 50%~70%。
对于INT8 的稀疏化 MobileNet 模型，较稠密 FP32 模型加速 70%~130%；较稠密 INT8 模型加速 30%~60%。

非结构化稀疏展望

综上，我们已经基本实现了从稀疏化模型训练到推理部署这样一个端到端的能力。但是实际应用中我们需要解决精度与速度的矛盾：如何快速选定一个合适的稀疏度，达到精度基本无损，且有符合预期的加速收益。解决措施是根据硬件延迟表，通过查询/预估的方式，选定符合加速要求的稀疏度下限。

此外，在应用面角度，稀疏矩阵乘法在全连接层和卷积核为 1 的卷积操作证明了收益，应用场景包括：

移动端和嵌入式端应用广泛（小模型的1x1卷积耗时占比较大）
语言模型的全连接层耗时占比也较大

同时，为了进一步扩大应用场景，提升稀疏模型加速效果，我们也在探索非结构化稀疏能为 3x3、5x5 卷积计算的带来的加速效果。

引用

特别感谢以下优秀的工作对我们的启发：

[1] Elsen, Erich, et al. "Fast sparse convnets." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020. paper, code
[2] Gou, Jianping, et al. "Knowledge distillation: A survey." International Journal of Computer Vision 129.6 (2021): 1789-1819.
[3] Neuralmagic. "An Intro to Gradual Magnitude Pruning (GMP)." https://neuralmagic.com/blog/pruning-gmp/ 2020, Aug 10.
[4] Lei, Deren, et al. "Implicit regularization of stochastic gradient descent in natural language processing: Observations and implications." arXiv preprint arXiv:1811.00659 (2018).
[5] Han, Song, et al. "Learning both weights and connections for efficient neural networks." arXiv preprint arXiv:1506.02626 (2015).

关注公众号，获取更多技术内容~

用Python爬取网易云歌单 Avaricious_Bear python 开发语言
最近，博主喜欢上了听歌，但是又苦于找不到好音乐，于是就打算到网易云的歌单中逛逛本着“用技术改变生活”的想法，于是便想着写一个爬虫爬取网易云的歌单，并按播放量自动进行排序这篇文章，我们就来讲讲怎样爬取网易云歌单，并将歌单按播放量进行排序1、用requests爬取网易云歌单打开网易云音乐歌单首页，不难发现这是一个静态网页，而且格式很有规律，爬取起来应该十分简单按照以前的套路，很快就可以写完代码，无非就
基于Python的Twitter Card数据爬取与分析实战：从入门到精通 Python爬虫项目 python twitter dreamweaver 自动化开发语言宽度优先爬虫
摘要本文详细介绍了如何使用Python最新技术栈构建一个高效的TwitterCard数据爬虫系统。我们将从TwitterCard的基本概念讲起，逐步深入到爬虫架构设计、反爬策略应对、数据解析与存储等核心环节。文章包含完整的代码实现，使用Playwright+Asyncio的高性能爬取方案，以及数据分析与可视化的实战案例。通过本文，读者将掌握大规模社交媒体数据采集的关键技术，并能够将这些技术应用于实
Python爬虫实战：高效解析OpenGraph协议数据 Python爬虫项目 python 爬虫开发语言宽度优先音视频 json
OpenGraph协议简介OpenGraph协议是由Facebook于2010年推出的一种网页元数据标准，旨在使任何网页都能成为社交图中的丰富对象。通过在网页的部分添加特定的标签，网站所有者可以控制内容在社交媒体上分享时的呈现方式。OpenGraph协议的核心元数据包括：html这些标签不仅被Facebook使用，也被Twitter、LinkedIn、WhatsApp等主流社交平台广泛支持。据统计
Python高级数据类型：字典（Dictionary） PythonicCC python 开发语言
字典是Python中非常重要且实用的数据结构，本文将全面详细地介绍字典的所有知识点，从基础概念到高级用法，帮助初学者彻底掌握字典的使用。1.字典简介1.1为什么需要字典？假设我们需要存储公司员工的姓名、年龄、职务和工资信息。使用列表可以这样实现：staff_list=[["tom",20,"teacher",6000],["rose",18,"hr",5000],["jack",20,"行政",4
【小白记录python】——类（class）的简单解释 faderbic python 开发语言
目录什么是类类和函数的区别构建一个类什么是类在编程中，类（Class）是一种用户自定义的数据类型，它将数据（通常称为属性或成员变量）和对这些数据进行操作的函数（通常称为方法或成员函数）封装在一起，相比于一般的函数更方便调用，通俗来讲，类就是很多函数的集合，这些函数共用一个数据源。类可以被看作是创建对象的模板或蓝图。通过类，可以创建多个具有相同结构和行为的对象实例。以下是对类的几个关键特点的解释：数
从AWS MySQL数据库下载备份到S3的完整解决方案 AWS官方合作商数据库 aws mysql
本文将介绍两种主流方法将AWSRDSMySQL数据库备份下载到S3，适用于生产环境需求。方法一：通过RDS快照导出（AWS原生方案）适用场景：全量备份、大数据量、无需额外计算资源流程：创建数据库快照进入AWSRDS控制台→选择目标MySQL实例→点击"操作"→"拍摄快照"输入快照名称（如my-db-snapshot-2024）配置S3导出任务在RDS控制台左侧菜单选择快照→选择刚创建的快照点击"操
[NIPST AI]对抗性机器学习攻击和缓解的分类和术语 Anooyman 人工智能网络安全人工智能大语言模型网络安全安全
原文link：https://nvlpubs.nist.gov/nistpubs/ai/NIST.AI.100-2e2025.pdfIntroduction人工智能（AI）系统在过去几年中持续全球扩展。这些系统正在被众多国家开发并广泛部署于各自的经济体系中，人们在生活的许多领域都获得了更多使用AI系统的机会。本报告区分了两大类AI系统：预测型AI（PredictiveAI，PredAI）和生成型A
使用 Python 爬取网易云音乐歌单数据（完整教程） Python爬虫项目 python 开发语言 github selenium 爬虫
一、引言随着在线音乐平台的普及，网易云音乐（NetEaseCloudMusic）凭借其个性化的推荐算法和丰富的用户互动，吸引了大量用户。网易云音乐的歌单中包含了丰富的音乐数据，包括歌曲名、歌手、专辑、播放量、评论数等信息。通过爬取这些数据，可以对音乐流行趋势进行分析，挖掘音乐推荐策略，甚至训练个性化推荐模型。本教程将使用Python构建一个爬虫，解析网易云音乐的歌单接口，获取歌曲数据并进行数据分析
c#集合排序 zls365365 c#windows 开发语言
在C#中，集合排序是一种常见的操作，它可以帮助我们对集合中的元素进行排序。C#中提供了多种集合排序方法，包括Array.Sort、List.Sort、SortedList和SortedSet等。下面分别介绍一下这些集合排序方法的用法和注意事项：1.Array.SortArray.Sort是C#中的数组排序方法，可以对数组中的元素进行排序。Array.Sort方法可以使用默认的排序算法或者自定义的排
C# 代码（`Hashtable` 和 `SortedList`）张謹礧 c#哈希算法开发语言
一、Hashtable（哈希表）1.基本概念非泛型集合：存储键值对（object类型），通过哈希算法实现快速查找。线程安全：默认非线程安全，可通过Hashtable.Synchronized创建线程安全版本。键的唯一性：键必须唯一，且不可为null（值可为null）。2.创建与初始化//创建空的HashtableHashtablehashtable=newHashtable();//创建并初始化
用AI“看病”，靠谱吗？｜聊聊如何用Python生成个性化健康建议 Echo_Wish 前沿技术人工智能人工智能 python 开发语言
用AI“看病”，靠谱吗？｜聊聊如何用Python生成个性化健康建议说实话，健康这事儿，谁不关心？可问题是，现代人越来越不想“看病”，倒不是说我们不在乎身体，而是——太麻烦、太贵、太笼统！你可能遇到过这种情况：明明每天健身，还被体检报告说“轻度脂肪肝”；营养均衡，但血糖还是偏高；去医院，医生说“少吃多动”，这谁听了不头疼？问题就出在一个词上：“个性化”。好消息是，AI已经可以提供定制化的健康建议了，
人脸检测算法——SCRFD 海绵波波107 #计算机视觉算法计算机视觉
SCRFD算法核心解析1.算法定义与背景SCRFD（SampleandComputationRedistributionforEfficientFaceDetection）由JiaGuo等人于2021年在arXiv提出，是一种高效、高精度的人脸检测算法，其核心创新在于：双重重分配策略：样本重分配（SR）：动态增强关键训练阶段的样本数据。计算重分配（CR）：通过神经架构搜索（NAS）优化骨干网络（B
力扣经典算法篇-28-无重复字符的最长子串(左右指针 + Hash统计） weisian151 算法-力扣经典篇算法 leetcode 哈希算法
1、题干给定一个字符串s，请你找出其中不含有重复字符的最长子串的长度。示例1:输入:s=“abcabcbb”输出:3解释:因为无重复字符的最长子串是“abc”，所以其长度为3。示例2:输入:s=“bbbbb”输出:1解释:因为无重复字符的最长子串是“b”，所以其长度为1。示例3:输入:s=“pwwkew”输出:3解释:因为无重复字符的最长子串是“wke”，所以其长度为3。请注意，你的答案必须是子串
Python 单例模式几种实现方式 @MMiL PyBuild python matplotlib numpy pandas
文章目录1基础实现方式1.1模块导入法（推荐）1.2重写`__new__`方法2进阶实现方式2.1元类（Metaclass）控制2.2线程安全单例2.3单例装饰器3关键问题分析4实践建议各位老板好,单例模式确保一个类只有一个实例，并提供全局访问点。适用于日志记录、配置管理、数据库连接池等场景。以下是Python单例模式的5种实现方式：1基础实现方式1.1模块导入法（推荐）Python模块天然支持单
opencv、torch、torchvision、tensorflow的区别
一、框架定位与核心差异PyTorch动态计算图：实时构建计算图支持Python原生控制流（如循环/条件），调试便捷。学术主导：2025年工业部署份额24%，适合快速原型开发（如无人机自动驾驶、情绪识别）。TensorFlow静态计算图优化：预编译图结构提升部署效率支持动态图（Eager模式）兼顾灵活性。工业部署首选：市场份额38%，擅长边缘计算（YOLO部署）和大规模项目（工业自动化）-59）。O
Python简化常用技巧优雅的心情自动化测试 python 开发语言
文章目录一、列表表达式二、语法糖一、列表表达式Python为了简化程序的代码行数做了很多努力，其中最经典的就是列表表达式。比如我有如下函数，用来输出一个单词中的所有字符：defoutput_letter(letter):l=[]foriteminletter:l.append(item)returnlif__name__=="__main__":print(output_letter('kevin
Python 网络编程从入门到精通：架构、协议与 Socket 实现
Python网络编程从入门到精通：架构、协议与Socket实现网络编程是现代软件开发的核心技术之一，它允许不同设备上的程序通过网络进行通信和数据交换。本文将深入探讨网络编程的基础知识，包括软件架构设计模式、网络通信三要素、TCP与UDP协议的特点，以及Python中Socket编程的实现方法。一、软件架构设计模式1.C/S架构（Client/Server）C/S架构是最经典的网络应用架构，由客户端
python求基本勾股数_第一章：勾股数组（1）
毕达哥拉斯定理(即勾股定理)，它表明任一个直角三角形的两条直角边长的平方和等于斜边长的平方。用公式表示就是a^2+b^2=c^2第一个问题是，是否存在无穷多个勾股数组，即满足方程a^2+b^2=c^2的自然数三元组(a,b,c)。答案是“肯定的”。如果取勾股数组(a，b，c)，用整数d乘它，则得到新的勾股数组(da，db，dc)。这是成立的，因为(da)^2+(db)^2=d^2(a^2+b^2)
python flask restful_Flask应用示例1 - 通过Flask实现Restful服务 weixin_39548787 python flask restful
1，前言Python的强大，已经涉及到软件开发领域的方方面面。然而，Python入门容易，精确很难，需要深入研究。在Web方面同样如此，常用的PythonWeb框架，例如Django、Flask、Tornado等等，共计有100多种，各有优劣。本文以Flask为例，介绍Flask的Restful实现方式，主要实现对数据表的增删查改操作。2，需求在开发代码之前，需要提前明确URL请求、HTTP方法与
通俗易懂：什么是决策树？淦暴尼算法 python 决策树算法机器学习
1.引言：决策树就像“选择题”你是否曾经在生活中做过“选择题”？比如：今天要不要带伞？晚饭吃什么？该不该买那件心仪已久的商品？其实，我们的大脑经常会像“决策树”一样，通过一连串问题和判断，逐步缩小选择范围，最终做出决定。**决策树（DecisionTree）**就是这样一种模拟人类决策过程的机器学习模型。它通过“提问-分支-决策”的方式，把复杂问题拆解成一系列简单的判断，广泛应用于分类（如判断邮件
Python中几个有趣的语法糖 weixin_34368949 python
2019独角兽企业重金招聘Python工程师标准>>>withwith语句适用于对资源进行访问的场合，确保不管使用过程中是否发生异常都会执行必要的“清理”操作，释放资源，比如文件使用后自动关闭、线程中锁的自动获取和释放等。http://www.ibm.com/developerworks/cn/opensource/os-cn-pythonwith/fieldyield的好处是显而易见的，把一个函
java毕业设计-基于Javaweb的家常小菜烹饪学习管理系统的设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿刘 vue spring boot 毕业设计 java 课程设计学习
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费开题报告、任务书、全bao定制+
实用:python中的语法糖 Monkey_24 python Python学习记录语法糖 python if else yield from for in
案例一:for循环:foriin[1,2,3]:print(i)等价于:foriin[1,2,3]:print(i)案例二:yield生成器:foriin(lambdan:(yieldfromrange(n)))(3):print(i)等价于:deffn(n):foriinrange(n):yieldigt=fn(3)foriingt:print(i)案例三:ifelse判断(lambdan:pr
【工具篇】【从冷笑话到职场革命：Manus 100 问挑战人类认知极限】再见孙悟空_ AI 进阶之旅》【2025 AI工具合集】【2025 AI学习从零单排系列】Manus AI Manus manus邀请码 manus体验 Manus PPT Manus 对比 DeepSeek
一、基础认知篇1.Manus到底是什么？它是全球首款通用型AI智能体，简单来说就是能独立完成任务的数字助手。比如你让它分析股票，它不仅能给出报告，还能自动调用Python生成图表，甚至在你睡觉的时候还能在云端继续工作。2.名字“Manus”有什么含义？来自拉丁语“MensetManus”，直译是“心智与手”。官方解释是希望它既能思考又能行动，把人类的想法变成现实，就像有个AI助手帮你干活。3.谁开
python +pyautocad 在CAD中画一个线段带箭头默金…… AutoCAD python 前端数据库
python+pyautocad在CAD中画一个线段带箭头#!/usr/bin/envpython#-*-coding:utf-8-*-frompyautocadimportAutocad,APoint,aDoubleimportmathpyacad=Autocad(create_if_not_exists=True)pyacad.prompt("Hello!Autocadfrompyautoca
java毕业设计源码案例-基于ssm+协同过滤的个性化小说推荐系统设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等) 项目帮 springboot java 计算机毕设 java 课程设计开发语言
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
73. 矩阵置零 youzhihua
题目描述给定一个mxn的矩阵，如果一个元素为0，则将其所在行和列的所有元素都设为0。请使用原地算法。示例：输入:[[1,1,1],[1,0,1],[1,1,1]]输出:[[1,0,1],[0,0,0],[1,0,1]]暴力求解思路1.遍历数组中的每个元素，若这个元素等于0，则分别使用两个Set记录下这个元素的横坐标和纵坐标。2.遍历两个Set，将其中的行和列的值都置成0。3.由于题目要求的是原地法
碳中和碳交易骗局揭晓！第七届内部操盘群伍戈被骗黑幕曝光!血泪事迹令人惊心! 昌龙律法
如今大家生活好了，手里或多或少有点闲钱了。就开始想着怎么赚更多的钱！这也使得各种投资市场很火爆，无孔不入的骗子们又暗戳戳上线了，利用人们对赚钱的渴望，打着网络投资的旗号实施诈骗。随着“互联网+”的发展，万物皆可“数字经济”的“数字大数据”投资项目走入现实生活中。但是有不法分子就利用了这一“商机”，将数字投资变为新型找形式，并且利用洗脑话术，核心骗术仍然是高额返利，让人不知不觉掉进提前布局的“陷阱”
机器学习中的数据预处理：从入门到实践耐思nice～机器学习由浅入深-吴恩达机器学习人工智能
在当今的智能时代，机器学习已经渗透到我们生活的方方面面。比如我们常用的推荐系统，它能根据我们的浏览记录精准推送喜欢的商品或视频，这背后就离不开机器学习的支撑。而一个优秀的机器学习模型，离不开高质量的数据，数据预处理正是保证数据质量的关键环节，它就像烹饪前的食材处理，直接影响着最终“菜品”的口感，也就是模型的性能。今天，我们就来全面学习机器学习中数据预处理的关键步骤。一、数据预处理的重要性数据预处理
python 语法糖【不断更新】 linzch3 python python
1.得到a和b两个数的最大值solution:c=[b,a][a>b]测试：>>>a=1>>>b=2>>>c=[b,a][a>b]>>>c22.假设现在给定了一个list:a=[[1,2],[3,4,5],[6,7],[8],[9]]问如何将其转化成：[1,2,3,4,5,6,7,8,9]其实就是将所有数据都拿出来组成一个1*n的list。solution1:使用列表表达式>>>a=[[1,2],
xml解析小猪猪08 xml
1、DOM解析的步奏准备工作： 1.创建DocumentBuilderFactory的对象 2.创建DocumentBuilder对象 3.通过DocumentBuilder对象的parse(String fileName)方法解析xml文件 4.通过Document的getElem
每个开发人员都需要了解的一个SQL技巧 brotherlamp linux linux视频 linux教程 linux自学 linux资料
对于数据过滤而言CHECK约束已经算是相当不错了。然而它仍存在一些缺陷，比如说它们是应用到表上面的，但有的时候你可能希望指定一条约束，而它只在特定条件下才生效。使用SQL标准的WITH CHECK OPTION子句就能完成这点，至少Oracle和SQL Server都实现了这个功能。下面是实现方式： CREATE TABLE books ( id &
Quartz——CronTrigger触发器 eksliang quartz CronTrigger
转载请出自出处：http://eksliang.iteye.com/blog/2208295 一.概述 CronTrigger 能够提供比 SimpleTrigger 更有具体实际意义的调度方案，调度规则基于 Cron 表达式，CronTrigger 支持日历相关的重复时间间隔（比如每月第一个周一执行），而不是简单的周期时间间隔。二.Cron表达式介绍 1）Cron表达式规则表 Quartz
Informatica基础 18289753290 Informatica Monitor manager workflow Designer
1. 1）PowerCenter Designer：设计开发环境，定义源及目标数据结构；设计转换规则，生成ETL映射。 2）Workflow Manager：合理地实现复杂的ETL工作流，基于时间，事件的作业调度 3）Workflow Monitor：监控Workflow和Session运行情况，生成日志和报告 4）Repository Manager：
linux下为程序创建启动和关闭的的sh文件，scrapyd为例酷的飞上天空 scrapy
对于一些未提供service管理的程序每次启动和关闭都要加上全部路径，想到可以做一个简单的启动和关闭控制的文件下面以scrapy启动server为例，文件名为run.sh： #端口号，根据此端口号确定PID PORT=6800 #启动命令所在目录 HOME='/home/jmscra/scrapy/' #查询出监听了PORT端口
人--自私与无私永夜-极光
今天上毛概课,老师提出一个问题--人是自私的还是无私的,根源是什么? 从客观的角度来看,人有自私的行为,也有无私的
Ubuntu安装NS-3 环境脚本随便小屋 ubuntu
将附件下载下来之后解压，将解压后的文件ns3environment.sh复制到下载目录下（其实放在哪里都可以，就是为了和我下面的命令相统一）。输入命令： sudo ./ns3environment.sh >>result 这样系统就自动安装ns3的环境，运行的结果在result文件中，如果提示 com
创业的简单感受 aijuans 创业的简单感受
2009年11月9日我进入a公司实习，2012年4月26日，我离开a公司，开始自己的创业之旅。今天是2012年5月30日，我忽然很想谈谈自己创业一个月的感受。当初离开边锋时，我就对自己说：“自己选择的路，就是跪着也要把他走完”，我也做好了心理准备，准备迎接一次次的困难。我这次走出来，不管成败
如何经营自己的独立人脉 aoyouzi 如何经营自己的独立人脉
独立人脉不是父母、亲戚的人脉，而是自己主动投入构造的人脉圈。“放长线，钓大鱼”，先行投入才能产生后续产出。现在几乎做所有的事情都需要人脉。以银行柜员为例，需要拉储户，而其本质就是社会人脉，就是社交！很多人都说，人脉我不行，因为我爸不行、我妈不行、我姨不行、我舅不行……我谁谁谁都不行，怎么能建立人脉？我这里说的人脉，是你的独立人脉。以一个普通的银行柜员
JSP基础百合不是茶 jsp 注释隐式对象
1,JSP语句的声明 <%! 声明 %> 　　声明：这个就是提供java代码声明变量、方法等的场所。表达式 <%= 表达式 %> 　　这个相当于赋值，可以在页面上显示表达式的结果，程序代码段/小型指令　<% 程序代码片段 %> 2,JSP的注释
web.xml之session-config、mime-mapping bijian1013 java web.xml servlet session-config mime-mapping
session-config 1.定义： <session-config> <session-timeout>20</session-timeout> </session-config> 2.作用：用于定义整个WEB站点session的有效期限，单位是分钟。 mime-mapping 1.定义： <mime-m
互联网开放平台（1） Bill_chen 互联网 qq 新浪微博百度腾讯
现在各互联网公司都推出了自己的开放平台供用户创造自己的应用，互联网的开放技术欣欣向荣，自己总结如下： 1.淘宝开放平台(TOP) 网址：http://open.taobao.com/ 依赖淘宝强大的电子商务数据，将淘宝内部业务数据作为API开放出去，同时将外部ISV的应用引入进来。目前TOP的三条主线： TOP访问网站：open.taobao.com ISV后台：my.open.ta
【MongoDB学习笔记九】MongoDB索引 bit1129 mongodb
索引可以在任意列上建立索引索引的构造和使用与传统关系型数据库几乎一样,适用于Oracle的索引优化技巧也适用于Mongodb 使用索引可以加快查询,但同时会降低修改,插入等的性能内嵌文档照样可以建立使用索引测试数据 var p1 = { "name":"Jack", "age&q
JDBC常用API之外的总结白糖_ jdbc
做JAVA的人玩JDBC肯定已经很熟练了，像DriverManager、Connection、ResultSet、Statement这些基本类大家肯定很常用啦，我不赘述那些诸如注册JDBC驱动、创建连接、获取数据集的API了，在这我介绍一些写框架时常用的API，大家共同学习吧。 ResultSetMetaData获取ResultSet对象的元数据信息
apache VelocityEngine使用记录 bozch VelocityEngine
VelocityEngine是一个模板引擎，能够基于模板生成指定的文件代码。使用方法如下： VelocityEngine engine = new VelocityEngine();// 定义模板引擎 Properties properties = new Properties();// 模板引擎属
编程之美-快速找出故障机器 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; public class TheLostID { /*编程之美假设一个机器仅存储一个标号为ID的记录，假设机器总量在10亿以下且ID是小于10亿的整数，假设每份数据保存两个备份，这样就有两个机器存储了同样的数据。 1.假设在某个时间得到一个数据文件ID的列表，是
关于Java中redirect与forward的区别 chenbowen00 java servlet
在Servlet中两种实现： forward方式：request.getRequestDispatcher(“/somePage.jsp”).forward(request, response); redirect方式：response.sendRedirect(“/somePage.jsp”); forward是服务器内部重定向，程序收到请求后重新定向到另一个程序，客户机并不知
[信号与系统]人体最关键的两个信号节点 comsci 系统
如果把人体看做是一个带生物磁场的导体,那么这个导体有两个很重要的节点,第一个在头部,中医的名称叫做百汇穴, 另外一个节点在腰部,中医的名称叫做命门如果要保护自己的脑部磁场不受到外界有害信号的攻击,最简单的
oracle 存储过程执行权限 daizj oracle 存储过程权限执行者调用者
在数据库系统中存储过程是必不可少的利器，存储过程是预先编译好的为实现一个复杂功能的一段Sql语句集合。它的优点我就不多说了，说一下我碰到的问题吧。我在项目开发的过程中需要用存储过程来实现一个功能，其中涉及到判断一张表是否已经建立，没有建立就由存储过程来建立这张表。 CREATE OR REPLACE PROCEDURE TestProc IS fla
为mysql数据库建立索引 dengkane mysql 性能索引
前些时候，一位颇高级的程序员居然问我什么叫做索引，令我感到十分的惊奇，我想这绝不会是沧海一粟，因为有成千上万的开发者（可能大部分是使用MySQL的）都没有受过有关数据库的正规培训，尽管他们都为客户做过一些开发，但却对如何为数据库建立适当的索引所知较少，因此我起了写一篇相关文章的念头。最普通的情况，是为出现在where子句的字段建一个索引。为方便讲述，我们先建立一个如下的表。
学习C语言常见误区如何看懂一个程序如何掌握一个程序以及几个小题目示例 dcj3sjt126com c 算法
如果看懂一个程序，分三步 1、流程 2、每个语句的功能 3、试数如何学习一些小算法的程序尝试自己去编程解决它，大部分人都自己无法解决如果解决不了就看答案关键是把答案看懂，这个是要花很大的精力，也是我们学习的重点看懂之后尝试自己去修改程序，并且知道修改之后程序的不同输出结果的含义照着答案去敲调试错误
centos6.3安装php5.4报错 dcj3sjt126com centos6
报错内容如下: Resolving Dependencies --> Running transaction check ---> Package php54w.x86_64 0:5.4.38-1.w6 will be installed --> Processing Dependency: php54w-common(x86-64) = 5.4.38-1.w6 for
JSONP请求 flyer0126 jsonp
使用jsonp不能发起POST请求。 It is not possible to make a JSONP POST request. JSONP works by creating a <script> tag that executes Javascript from a different domain; it is not pos
Spring Security（03）——核心类简介 234390216 Authentication
核心类简介目录 1.1 Authentication 1.2 SecurityContextHolder 1.3 AuthenticationManager和AuthenticationProvider 1.3.1 &nb
在CentOS上部署JAVA服务 java--hhf java jdk centos Java服务
本文将介绍如何在CentOS上运行Java Web服务，其中将包括如何搭建JAVA运行环境、如何开启端口号、如何使得服务在命令执行窗口关闭后依旧运行第一步：卸载旧Linux自带的JDK ①查看本机JDK版本 java -version 结果如下 java version "1.6.0"
oracle、sqlserver、mysql常用函数对比[to_char、to_number、to_date] ldzyz007 oracle mysql SQL Server
oracle &n
记Protocol Oriented Programming in Swift of WWDC 2015 ningandjin protocol WWDC 2015 Swift2.0
其实最先朋友让我就这个题目写篇文章的时候，我是拒绝的，因为觉得苹果就是在炒冷饭，把已经流行了数十年的OOP中的“面向接口编程”还拿来讲，看完整个Session之后呢，虽然还是觉得在炒冷饭，但是毕竟还是加了蛋的，有些东西还是值得说说的。通常谈到面向接口编程，其主要作用是把系统设计和具体实现分离开，让系统的每个部分都可以在不影响别的部分的情况下，改变自身的具体实现。接口的设计就反映了系统
搭建 CentOS 6 服务器(15) - Keepalived、HAProxy、LVS rensanning keepalived
（一）Keepalived （1）安装 # cd /usr/local/src # wget http://www.keepalived.org/software/keepalived-1.2.15.tar.gz # tar zxvf keepalived-1.2.15.tar.gz # cd keepalived-1.2.15 # ./configure # make &a
ORACLE数据库SCN和时间的互相转换 tomcat_oracle oracle sql
SCN（System Change Number 简称 SCN）是当Oracle数据库更新后，由DBMS自动维护去累积递增的一个数字，可以理解成ORACLE数据库的时间戳，从ORACLE 10G开始，提供了函数可以实现SCN和时间进行相互转换；　　用途：在进行数据库的还原和利用数据库的闪回功能时，进行SCN和时间的转换就变的非常必要了；　　操作方法：　　1、通过dbms_f
Spring MVC 方法注解拦截器 xp9802 spring mvc
应用场景，在方法级别对本次调用进行鉴权，如api接口中有个用户唯一标示accessToken,对于有accessToken的每次请求可以在方法加一个拦截器，获得本次请求的用户，存放到request或者session域。 python中，之前在python flask中可以使用装饰器来对方法进行预处理，进行权限处理先看一个实例,使用@access_required拦截： ?

一文带你读懂非结构化稀疏模型压缩和推理优化技术

你可能感兴趣的:(大数据,算法,编程语言,python,机器学习)