暖焱

【深度学习】02-01-机器学习任务攻略-李宏毅老师21&22深度学习课程笔记

02-01-机器学习任务攻略

Framework of ML
General Guide
Large Loss on Training Data
- Solution 1 : Model Bias（Make Your Model Complex）
- Solution 2 ：Optimization Issue
- Which One?
- - Gaining the insights from comparison
  - Start from shallower networks (or other models)
  - Deeper Network
  - A Sample
Small Loss on Training Data
- Small Loss on Testing Data (Success)
- Large Loss on Testing Data
- - Overfitting
  - - Solution 1 : More Training Data
    - - Method 1 : Find More Training Data
      - Method 2 : Data Augmentation（More Training Data）
    - Solution 2 : Constrained Model
    - - Method 1 : Less parameters, sharing parameters
      - Method 2 : Less Features
      - Method 3 : Early Stopping
      - Method 4 : Regularization
      - Method 5 : Dropout
    - How to choose the best model?
    - - Good on Public set good, Poor on Private set（Wrong method）
      - Cross Validation
      - N-flod Cross Validation（how to split training set?）
  - Mismatch

Framework of ML

General Guide

如果Kaggle上的效果不好，可以按照如下流程进行优化。

Large Loss on Training Data

Solution 1 : Model Bias（Make Your Model Complex）

模型太过简单，大海捞针，但针不在海里。

Solution 2 ：Optimization Issue

梯度下降只能找到局部最优，找不到全局最优，大海捞针，针确实在海里，但是没有办法找到。

Which One?

Gaining the insights from comparison

模型在测试集上错误率很高，不能说一定是过拟合，需要看模型在训练集上的错误率。
如果在测试集上错误率高，但是在训练集上模型的错误率低，说明是过拟合问题。
如果在测试集和训练集上模型的错误率都高，说明是优化问题不是过拟合问题。

例如上图中，在测试集上56层的模型错误率比20层的模型错误率高，并且在训练集上56层的模型错误率比20层的模型错误率也高，这就不能说56层的模型过拟合，而是56层的模型优化没有做好。

Start from shallower networks (or other models)

看到一个从来没有做过的问题，也许可以先跑一些比较小的，比较浅的network，或甚至用一些，不是deep learning的方法，比如说 linear model，比如说support vector machine，support vector machine不知道是什么也没有关系，它们可能是比较容易做Optimize的，它们比较不会有optimization失败的问题。也就是这些model它会竭尽全力的，在它们的能力范围之内，找出一组最好的参数，它们比较不会有失败的问题，所以你可以先train一些，比较浅的model，或者是一些比较简单的model，先知道这些简单的model，到底可以得到什么样的loss。

Deeper Network

If deeper networks do not obtain smaller loss on training data, then there is optimization issue.

A Sample

举例来说，上次看到的观看人数预测的例子，在训练集上面，2017年到2020年的资料是训练集，一层的network，它的loss是0.28k，2层就降到0.18k，3层就降到0.14k，4层就降到0.10k。但是我测5层的时候结果变成0.34k，这是什么问题？

5层loss很大但4层loss很小，这显然不是model bias的问题，因为4层都可以做到0.10k了，5层应该可以做得更低（前4层一样，最后一层什么都不做），这个是optimization的problem，这个是optimization的时候做得不好，才造成这样子的问题。

那如果optimization做得不好的话，怎么办呢，这个下一节课，就会告诉大家要怎么办，你现在就知道怎么判断，现在如果你的training的loss大，到底是model bias还是optimization，如果model bias 那就把model变大，如果是optimization失败了，那就看等一下的课程怎么解这个问题。

问题：Optimization Issue 应该如何解决？

Small Loss on Training Data

Small Loss on Testing Data (Success)

It is correct that the loss is small on both the test set and the training set.

Large Loss on Testing Data

Overfitting

假设根据训练集和某一个很废的machine learning的方法，它找出了一个一无是处的function。这个function说，如果今天x当做输入的时候，我们就去比对这个x，有没有出现在训练集里面，如果x有出现在训练集里面，就把它对应的ŷ当做输出，如果x没有出现在训练集里面，就输出一个随机的值。那你可以想象这个function啥事也没有干，但虽然它是一个一无是处的function，它在training的data上，它的loss可是0呢。

把training的data，通通丢进这个function里面，它的输出跟训练集的level，是一模一样的，所以在training data上面，这个一无是处的function，它的loss可是0呢，可是在testing data上面，它的loss会变得很大，因为它其实什么都没有预测，这是一个比较极端的例子，在一般的状况下，也有可能发生类似的事情。

只给模型这三个点进行训练，在这三个点上面要让loss低，所以model的这个曲线会通过这三个点，但是其他没有训练集做为限制的地方，它就会有freestyle，所以model可以变成各式各样的function。

testing data 和 training data 不会一模一样，它们可能是从同一个distribution sample出来的。测试data是上图橙色的这些点，训练data是蓝色的这些点。用蓝色的这些点找出一个function以后，橘色的这些点上测试不一定会好，如果model它的自由度很大的话，它可以产生非常奇怪的曲线，导致训练集上的结果好，但是测试集上的loss很大。

问题：为什么这个比较有弹性的model就可能overfitting背后的数学原理是什么？

Solution 1 : More Training Data

Method 1 : Find More Training Data

Method 2 : Data Augmentation（More Training Data）

Data augmentation就是用一些自己对于这个问题的理解，自己创造出新的资料。举例来说在做影像辨识的时候，非常常做的一个招式是，假设训练集里面有某一张图片，把它左右翻转，或者是把它其中一块截出来放大等等，做左右翻转，资料就变成两倍。但是要注意一下data augmentation，不能够随便乱做，这个augment 要augment得有道理，在影像辨识里面很少看到有人把影像上下颠倒当作augmentation，因为这些图片都是合理的图片，把一张照片左右翻转，并不会影响到里面是什么样的东西，但把它颠倒那就很奇怪了，这可能不是一个训练集里面，可能不是真实世界会出现的影像。那如果给机器看这种奇怪的影像的话，它可能就会学到奇怪的东西，所以data augmentation要根据对资料的特性，对现在要处理的问题的理解，来选择合适的方式。

Solution 2 : Constrained Model

另外一个解法就是不要让你的模型，有那么大的弹性，给它一些限制。

举例来说，假设我们猜测出x跟y背后的关系，直接限制说model其实就是一条二次曲线，只是我们不明确的知道这二次曲线，里面的每一个参数长什么样。那你说你怎么会猜测出这样子的结果，你怎么会知道说，要用多constrain的model才会好呢？那这就取决于你对这个问题的理解，因为这种model是你自己设计的，到底model要多constrain多flexible结果才会好，那要看这个设计出不同的模型，你就会得出不同的结果。

那现在假设我们已经知道说，模型就是二次曲线，那你就会在选择function的时候有很大的限制，因为二次曲线来来去去就是那几个形状而已。所以当我们的训练集有限的时候，虽然说只给了三个点，但是因为我们能选择的function有限，你可能就会正好选到跟真正的distribution比较接近的function，然后在测试集上得到比较好的结果。

Method 1 : Less parameters, sharing parameters

给它比较少的参数。如果是deep learning的话，就给它比较少的神经元的数目，本来每层一千个神经元，改成一百个神经元之类的，或者是你可以让model共享参数，你可以让一些参数有一样的数值，那这个部分如果你没有很清楚的话，也没有关系，我们之后在讲CNN的时候会讲到这个部分，就是我们之前讲的network的架构，叫做fully-connected network，这其实是一个比较有弹性的架构，而CNN是一个比较有限制的架构。你可能会说CNN不是比较厉害吗，大家都说做影像就是要CNN，比较厉害的model，难道它比较没有弹性吗？没错，它是一种比较没有弹性的model，它厉害的地方在于它是针对影像的特性来限制模型的弹性，所以你今天fully-connected的network，可以找出来的function所形成的集合，其实是比较大的，CNN这个model所找出来的function，它形成的集合其实是比较小的，其实包含在fully-connected的network里面的。但是因为CNN给了比较大的限制，所以CNN在影像上，反而会做得比较好，那这个之后都还会再提到。

Method 2 : Less Features

另外一个就是用比较少的features。本来给三天的资料，改成用给两天的资料，其实结果就好了一些，那这个是一个招数。

Method 3 : Early Stopping

Method 4 : Regularization

Method 5 : Dropout

但是也不能给模型太多的限制。

问题：为什么不能给模型太多的限制呢？

假设我们现在给模型更大的限制说，我们假设我们的模型，一定是Linear的Model，一定是写成y=a+bx，那你的model它能够产生的function，就一定是一条直线。

今天给三个点（上图蓝色圆圈），没有任何一条直线可以同时通过这三个点，但是你只能找到一条直线，这条直线跟这些点比起来，它们的距离是比较近的，但是你没有办法找到任何一条直线同时通过这三个点，这个时候你的模型的限制就太大了，你在测试集上就不会得到好的结果。

但是这个不是overfitting，你又回到了model bias的问题，所以在这个情况下，这个投影片的case上你结果不好，并不是因为overfitting了，而是因为你给你模型太大的限制，大到你有了model bias的问题。所以你就会发现说，这边产生了一个矛盾的状况，今天你的模型的复杂程度越来越大，或让你的模型的弹性越来越大，但是什么叫做复杂的程度，什么叫做弹性，在今天这堂课里面，我们其实都没有给明确的定义，只给你一个概念上的叙述。那在下下周的课程里面，你会真的认识到什么叫做一个模型很复杂，什么叫做一个模型有弹性，怎么真的衡量一个模型的弹性，复杂的程度有多大，那今天我们先用直观的来了解。

问题：什么是模型的复杂度？如何衡量模型的复杂度？
问题：什么是模型的弹性？如何衡量模型的弹性？

所谓比较复杂是，它可以包含的function比较多，它的参数比较多，这个就是一个比较复杂的model。那一个比较复杂的model，如果你看它的training的loss，随着model越来越复杂，Training的loss可以越来越低，但是testing的时候呢，当model越来越复杂的时候，刚开始testing的loss会跟着下降，但是当复杂的程度，超过某一个程度以后，Testing的loss就会突然暴增了。

当你的model越来越复杂的时候，复杂到某一个程度，overfitting的状况就会出现，所以你在training的loss上面，可以得到比较好的结果，那在Testing的loss上面，你会得到比较大的loss，那我们当然期待说，我们可以选一个中庸的模型，不是太复杂的，也不是太简单的，刚刚好可以在训练集上，给我们最好的结果，给我们最低的loss，同时给我们最低的testing loss，怎么选出这样的model呢？

How to choose the best model?

Good on Public set good, Poor on Private set（Wrong method）

如上图，假设我们有三个模型，它们的复杂的程度不太一样，我不知道要选哪一个模型才会刚刚好，在测试集上得到最好的结果，因为你选太复杂的就overfitting，选太简单的有model bias的问题，那怎么选一个不偏不倚的，不知道怎么办？把这三个模型的结果都跑出来，然后上传到kaggle上面，你及时的知道了你的分数，看看哪个分数最低，那个模型显然就是最好的模型。但是并不建议你这么做，为什么不建议你这么做呢？

我们再把刚才那个极端的例子拿出来，假设现在有一群model都非常废，它们每一个model产生出来的都是一无是处的function，我们有一到一兆个model，它们会做的事情就是：训练集里面有的资料就把它记下来，训练集没看过的，就直接output随机的结果。那你现在有一兆个模型，把这些模型的结果通通上传到kaggle上面，得到一兆个分数，然后看这一兆的分数里面哪一个结果最好，你就觉得那个模型是最好的。那虽然说每一个模型在这个Testing data上面输出的结果都是随机的，但是你不断的随机，你总是会找到一个好的结果，所以也许编号五六七八九的那个模型，它找出来的function，正好在testing data上面就给你一个好的结果，那你就会很高兴觉得说，这个model编号五六七八九是个好model，这个好model得到一个好function。虽然它其实是随机的，但你不知道于是就选了这一个model，当作我们最后上传的结果，当作我最后要用在private testing set上的结果。但是如果你这样做，往往就会得到非常糟的结果，因为这个model毕竟是随机的，它恰好在public的testing set data上面得到一个好结果，但是它在private的testing set上可能仍然是随机的，并不代表在private set上有一个好的结果。

我们这个testing set分成public的set跟private的set，你在看分数的时候只看得到public的分数，private的分数要deadline以后才知道，但假设你在挑模型的时候，你完全看你在public set上面的（leaderboard上的分数）来选择你的模型的话，你可能碰到这个情况：你在public的leaderboard上面排前十，但是deadline一结束，你就心态就崩了这样，你就掉到三百名之外，而且我们这修课的人这么多，你搞不好会掉到一千名之外，也说不定。

问题：为什么要把testing的set分成public跟private呢？

假设所有的data都是public，就算是一个一无是处的Model，得到了一无是处的function，它也有可能在public的data上面，得到好的结果，如果只有public的testing set，没有private的testing set，那写一个程序，不断random产生输出就好，然后不断把random的输出，上传到kaggle，然后看什么时候，可以random出一个好的结果，那这个作业就结束了。这个显然没有意义，显然不是希望得到的。

Cross Validation

要把Training的资料分成两半，一部分叫作Training Set，一部分是Validation Set。

有90%的资料放在Training Set里面，有10%的资料被拿来做Validation Set，你在Training Set上训练出来的模型，在Validation Set上面去衡量它们的分数，根据这个分数去挑选结果，再把这个结果上传到Kaggle上面，去看看你得到的public的分数，那因为你在挑分数的时候，是用Validation Set来挑你的model，所以你的public的Testing Set的分数，就可以反应你的private Testing Set的分数，就比较不容易出现“在public上面结果很好，但是在private上面结果很差”的状况。

当你看到public的结果以后，你就会去想要调它，你看到你现在弄了一堆模型，然后用Validation Set检查一下，找了一个模型放到public set上以后，发现结果不好，你其实不太可能不根据这一个结果，去调整你的模型，但是假设这一个route做太多次，你根据public Testing Set上的结果去调整你的model太多次，你就又有可能fit在你的public Testing Set上面，然后在private Testing Set上面，得到差的结果，不过还好反正我们有限制上传的次数，所以这个route，你也没有办法走太多次，可以避免你太过fit在public的Testing Set上面的结果。

其实最好的做法就是直接挑Validation loss最小的model，就是你暂时不要对其进行优化，防止overfitting。那实际上你不太可能这么做，因为public set的结果你有看到，所以它对你的模型的选择可能还是会有些影响的，但是你要越少去看那个public Testing Set的结果越好。

N-flod Cross Validation（how to split training set?）

Mismatch

mismatch的原因跟overfitting其实不一样，一般的overfitting，你可以用搜集更多的资料来克服，但是mismatch意思是说，你今天的训练集跟测试集的分布是不一样的。

在训练集跟测试集分布是不一样的时候，你训练集增加其实也没有帮助了，那其实在多数的作业里面，我们不会遇到这种mismatch的问题，我们都有把题目设计好了，所以资料跟测试集它的分布差不多。

举例来说，以作业一的Covid19为例的话，假设我们今天资料在分训练集跟测试集的时候，我们说2020年的资料是训练集，2021年的资料是测试集，那mismatch的问题可能就很严重了，这个我们其实有试过了，做不起来，训练什么模型都会惨掉。因为2020年的资料跟2021年的资料，它们的背后的分布其实都是不一样，所以你拿2020年的资料来训练，在2021年的作业一的资料上，不可能预测正确。

在作业11会遇到mismatch的问题，作业十一就是针对mismatch的问题来设计的。

问题：如何判断是否mismatch？

要看自己对这个资料本身的理解了，你可能要对你的训练集跟测试集的产生方式有一些理解，你才能判断说，它是不是遇到了mismatch的状况。

Excel宏新手入门：开启高效数据处理之旅 CodeJourney. 算法人工智能数据库
Excel宏新手入门：开启高效数据处理之旅在数据处理和办公自动化领域，Excel是一款强大且应用广泛的工具。而Excel宏，作为其中一项极具价值的功能，能帮助用户自动执行重复性任务，大幅提升工作效率。对于Excel宏的新手而言，从基础开始学习并逐步掌握这一技能，将为日常工作带来极大便利。一、认识Excel宏：自动化办公的“魔法棒”Excel宏本质上是一组自动执行的操作指令集合，可类比为一个不知疲倦
麦萌短剧技术解构《我跑江湖那些年》：从“仇恨驱动型算法”到“多方安全计算的自我救赎” 短剧萌算法安全
《我跑江湖那些年》以慕青青的复仇与蜕变为主线，展现了分布式系统中的信任崩塌与对抗性博弈的模型优化。本文将从机器学习视角拆解这场“江湖算法”的技术隐喻，探讨如何在数据污染的困境中实现参数净化。1.初始训练集：暴力采样与特征空间坍缩慕青青（Agent_M）的成长环境可视为一个高偏差训练集：数据污染事件：村主任（Node_V）通过恶意共识算法（如嫉妒驱动的PoW机制），煽动村民（Sub_Nodes）对果
麦萌：《我们曾经有过家》深度解析 | 被至亲背刺后，首富如何用“系统性重构”逆风翻盘？短剧萌重构
剧情全解析：从“隐忍架构”到“复仇算法”的史诗级崩盘与逆袭1.系统初始化：首富的“降权模式”安城首富高志强为守护妻子李梦露的“平凡人生”，主动剥离财富与地位，化身能源厂普通职员。这一行为如同将分布式系统的核心节点降级为边缘服务——他默默为妻子铺路，助其从基层员工晋升至副厂长，甚至计划将能源厂最高控制权（厂长职位）移交给她。2.致命漏洞：情感协议的全面违约在权力交接的关键时刻（相当于系统升级前夜），
PyTorch 生态概览：为什么选择动态计算图框架？小诸葛IT课堂 pytorch 人工智能 python
一、PyTorch的核心价值PyTorch作为深度学习框架的后起之秀，通过动态计算图技术革新了传统的静态图模式。其核心优势体现在：动态灵活性：代码即模型，支持即时调试Python原生支持：无缝衔接Python生态高效的GPU加速：通过CUDA实现透明的硬件加速活跃的社区生态：GitHub贡献者超1.8万人，日均更新100+次二、动态计算图VS静态计算图对比#动态计算图示例（PyTorch）impo
学习pytorch 阿什么名字不会重复呢学习 pytorch 人工智能
学习PyTorch是一个很好的选择，尤其是如果你对深度学习和机器学习感兴趣。以下是一个详细的学习计划，可以帮助你系统地掌握PyTorch的基本概念和应用。学习计划概览学习周期：8周（每周约4-5小时）目标：掌握PyTorch基础，能够实现简单的深度学习模型。第1周：基础知识目标：了解深度学习的基础知识，掌握Python和NumPy基础。任务：学习Python基础（数据类型、控制流、函数、类）。资源
【机器学习-基础知识】统计和贝叶斯推断人类发明了工具 ML&DL学习分享机器学习概率论人工智能
1.概率论基本概念回顾1.概率分布定义：概率分布（ProbabilityDistribution）指的是随机变量所有可能取值及其对应概率的集合。它描述了一个随机变量可能取的所有值以及每个值被取到的概率。对于离散型随机变量，使用概率质量函数来描述。对于连续型随机变量，使用概率密度函数来描述。举例说明：投掷一颗六面骰子，每个面上的数字（1到6）都有相同的概率（1/6）出现，这就是一个简单的概率分布例子
AI驱动的代码重构与优化技术 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 ChatGPT java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
AI驱动的代码重构与优化技术概述什么是AI驱动的代码重构与优化？AI驱动的代码重构与优化技术，是指利用人工智能，特别是机器学习和深度学习的算法，对软件代码进行自动分析和改进的技术。这种技术能够通过学习大量的代码样本，识别出代码中的模式、问题和改进点，从而自动完成代码的重构和优化。重构的定义重构（Refactoring）是改进代码内部结构而不改变外部行为的过程。其目的通常是为了提高代码的可读性、可维
10-使用states stone5 actionscript button application flex encoding null
在FLEX术语里，state是视图改变的集，可叫作覆盖，它可以是增加或删除组件，改变属性和行为。每个Flex应用都有至少一个状态，叫basestate。使用Flexstate使你为应用容易地改变视图，在宏或微观级。使用state作屏幕是认为是宏观级的使用，使用state来管理层叠表单和组件的不同视图可认为是微观级的使用。你能创建states在application级和组件级，可用MXML或Acti
Python 基础知识整理笔记 chuanauc 笔记
闹麻了，因为各种原因，现在需要重新回顾一下Python，话不多说，开始吧1.Python是解释型语言&&Python与C++代码执行过程的区别：（1）C++源码（Source）：C++的源码文件是.cpp文件预处理（PreProcess）：生成.i文件预处理的操作有处理#include、#define等宏指令，编译（Compile）：将.cpp文件编译为.s文件，此时的.s文件是汇编文件，无法被C
Agent | 告别Token焦虑！LLaVA-Mini用一个视觉Token革新多模态大模型 SGG_CV paper agent python 人工智能
欢迎关注，获取最新人工智能动态和技术，有时会发布相关技术教程。也可留言想要跟踪哪些技术动态。往期Agent文章参考：Owl小白教程一键启动Manus开源|Owl最新版小白教程，一键启动，五大更新Owl技术解析：Manus开源复刻框架OWL，测评和使用教程来了！Manus核心技术：Manus|核心技术被曝光？你知道它使用了哪些工具吗？针对deepseek的api:Manus开源|owl针对使用dee
34个适合机械工程及自动化专业【论文选题】大数据蟒行探索者自动化运维
论文选题具有极其重要的意义，它直接关系到论文的质量、价值以及研究的可行性和顺利程度。选题明确了研究的具体领域和核心问题，就像给研究旅程设定了方向和目的地。例如，选择“人工智能在医疗影像诊断中的应用”这一选题，就确定了研究将聚焦于人工智能技术在医疗影像领域的应用问题，研究目标可能是提高影像诊断的准确性、效率等。清晰的方向和目标能让研究者在收集资料、设计研究方法等方面更具针对性，避免研究过程中的盲目性
人工智能技术篇*卷(三) code_stream #人工智能人工智能
接下来，我们在神经网络方面继续展开神经网络多层感知机（MLP）解决问题：多层感知机是一种基本的前馈神经网络，可用于解决分类和回归问题。它通过多个神经元层的非线性变换，能够学习复杂的非线性关系，对数据进行分类或预测连续值。例如，在手写数字识别中，它可以从数字图像的像素数据中学习到特征模式，从而判断该数字是0-9中的哪一个；在房价预测中，根据房屋的面积、房间数量等特征预测房价。案例：以手写数字识别为例
神经网络模型压缩&实例教程—非结构化剪枝程序先锋《python深度学习》笔记神经网络剪枝深度学习
目录1.导包&定义一个简单的网络2.获取网络需要剪枝的模块3.模块剪枝（核心）3.1随机剪枝weight3.2L1范数剪枝bias4.总结最先进的深度学习技术依赖于难以部署的过度参数化模型。相反，已知生物神经网络使用高效的稀疏连接。为了在不牺牲准确性的情况下减少内存、电池和硬件消耗，通过减少模型中的参数数量来确定压缩模型的最佳技术是很重要的。这反过来又允许您在设备上部署轻量级模型，并通过设备上的私
深度学习模型压缩：非结构化剪枝与结构化剪枝的定义与对比从零开始学习人工智能深度学习剪枝人工智能
****在深度学习中，模型压缩是优化模型性能、降低存储和计算成本的重要技术之一。其中，剪枝（Pruning）是最常用的方法之一。根据剪枝的粒度和目标，剪枝可以分为非结构化剪枝（UnstructuredPruning）和结构化剪枝（StructuredPruning）。本文将详细介绍这两种剪枝方法的定义，并通过对比帮助读者更好地理解它们的差异。1.非结构化剪枝（UnstructuredPruning
FX-C++可变参数 lucky1_1star C++c++windows 开发语言
1.C风格的可变参数（C-stylevariadicarguments）C++继承了C语言的可变参数机制，使用...语法。这种方式需要头文件中的宏来访问参数。示例：#include#includevoidprintNumbers(intcount,...){va_listargs;//定义一个va_list类型的变量va_start(args,count);//初始化args，count是最后一个
STM32智能小车的设计与实现 a1666137 stm32 嵌入式硬件单片机
一、引言随着科技的飞速发展，智能小车作为一种集机械、电子、计算机、传感器、人工智能等技术于一体的新型交通工具，已经广泛应用于科研、教育、娱乐等多个领域。STM32作为一款高性能、低功耗的微控制器，凭借其强大的功能和灵活的编程方式，成为智能小车设计的首选平台。本文将对基于STM32的智能小车的设计与实现进行详细介绍。二、智能小车系统概述基于STM32的智能小车系统主要由STM32微控制器、电机驱动模
从Manus爆红到OpenAI反击：AI Agent技术架构与实战解析大F的智能小课大模型理论和实战 DeepSeek技术解析和实战人工智能架构
大家好，我是大F，深耕AI算法十余年，互联网大厂技术岗。知行合一，不写水文，喜欢可关注，分享AI算法干货、技术心得。欢迎关注《大模型理论和实战》、《DeepSeek技术解析和实战》，一起探索技术的无限可能！1.引：一夜爆红的Manus与OpenAI的反击2025年3月6日凌晨，中国团队Monica推出的通用人工智能代理产品Manus横空出世。这款被称作"Agent界的DeepSeek时刻"的产品，
量子神经网络（Quantum Neural Network）：结合量子计算的 AI 新探索盼达思文体科创人工智能和深度学习量子计算人工智能神经网络
一、引言在当今科技飞速发展的时代，人工智能（AI）和量子计算成为了两个备受关注的领域。量子神经网络（QuantumNeuralNetwork，QNN）作为这两个领域的交叉点，正吸引着越来越多的研究兴趣。QNN试图将量子计算的强大能力与传统神经网络的学习能力相结合，为解决复杂的人工智能问题提供新的思路和方法。二、量子计算基础（一）量子比特（Qubit）量子比特是量子计算的基本信息单位，与传统的比特不
AI 革命再提速：从 Manus 封停到 OpenAI 开源，技术竞赛与伦理博弈下的产业变局 zhz5214 AI 人工智能开源智能体 ai AI编程 AI写作
2025年3月，人工智能领域迎来戏剧性转折。继DeepSeek以开源策略搅动市场后，新兴AI公司Manus的官方X账号因涉嫌关联加密货币诈骗被平台封禁，引发轩然大波。而在封禁事件发酵不到一周，OpenAI连夜发布AgentSDK与ResponsesAPI，以开源姿态强势回应。这场技术竞赛与伦理博弈交织的产业变局，正将AI革命推向新的临界点。一、技术突围与平台博弈：Manus事件的双重隐喻Manus
从剪枝到知识蒸馏：深度学习模型压缩与加速的多重策略一键难忘剪枝深度学习算法知识蒸馏
本文收录于专栏：精通AI实战千例专栏合集https://blog.csdn.net/weixin_52908342/category_11863492.html从基础到实践，深入学习。无论你是初学者还是经验丰富的老手，对于本专栏案例和项目实践都有参考学习意义。每一个案例都附带关键代码，详细讲解供大家学习，希望可以帮到大家。正在不断更新中文章目录从剪枝到知识蒸馏：深度学习模型压缩与加速的多重策略1.
PyTorch 模型剪枝实例教程一、非结构化剪枝小风_ 模型压缩与加速 pytorch pytorch 深度学习人工智能
目录1.导包&定义一个简单的网络2.获取网络需要剪枝的模块3.模块剪枝（核心）4.总结目前大部分最先进的（SOTA）深度学习技术虽然效果好，但由于其模型参数量和计算量过高，难以用于实际部署。而众所周知，生物神经网络使用高效的稀疏连接（生物大脑神经网络balabala啥的都是稀疏连接的），考虑到这一点，为了减少内存、容量和硬件消耗，同时又不牺牲模型预测的精度，在设备上部署轻量级模型，并通过私有的设备
优化深度学习模型：PyTorch中的模型剪枝技术详解代码之光_1980 深度学习 pytorch 剪枝
标题：优化深度学习模型：PyTorch中的模型剪枝技术详解在深度学习领域，模型剪枝是一种提高模型效率和性能的技术。通过剪枝，我们可以去除模型中的冗余权重，从而减少模型的复杂度和提高运算速度，同时保持或甚至提升模型的准确率。本文将详细介绍如何在PyTorch框架中实现模型剪枝，并提供相应的代码示例。1.模型剪枝的基本概念模型剪枝主要分为两种类型：结构化剪枝和非结构化剪枝。结构化剪枝通常指的是剪除整个
Dropout: 一种减少神经网络过拟合的技术冰蓝蓝自然语言处理神经网络人工智能深度学习
在深度学习中，过拟合是一个常见的问题，尤其是在模型复杂度较高或训练数据较少的情况下。过拟合意味着模型在训练数据上表现得很好，但在未见过的数据上表现不佳，即泛化能力差。为了解决这个问题，研究者们提出了多种正则化技术，其中之一就是Dropout。什么是Dropout？Dropout是一种正则化技术，由Hinton和他的学生在2012年提出。它通过在训练过程中随机“丢弃”（即暂时移除）网络中的一些神经元
模型保存与加载：PyTorch中的实践指南冰蓝蓝自然语言处理 pytorch 人工智能 python
在深度学习项目中，模型的保存和加载是一个至关重要的步骤。它不仅有助于在训练过程中保存进度，还可以在训练完成后部署模型。PyTorch提供了灵活的方式来保存和加载模型，本文将详细介绍这些方法。模型保存在PyTorch中，有两种主要的模型保存方法：保存整个模型和仅保存模型参数。保存整个模型保存整个模型意味着保存模型的结构和参数。这种方法简单直接，但文件体积较大，且依赖于模型的具体实现。importto
深度学习中的注意力机制：解锁智能模型的新视角冰蓝蓝深度学习深度学习人工智能
在人工智能的快速发展中，深度学习模型已经成为了处理复杂数据和任务的主力军。然而，随着数据量的激增和任务的复杂化，传统的深度学习模型面临着效率和性能的双重挑战。在这样的背景下，注意力机制（AttentionMechanism）应运而生，它不仅提升了模型的处理能力，还为深度学习领域带来了新的研究视角。什么是注意力机制？注意力机制是一种受人类视觉注意力启发的技术，它允许模型在处理大量信息时，能够动态地聚
torch.unsqueeze：灵活调整张量维度的利器冰蓝蓝 transformer transformer 深度学习
在深度学习框架PyTorch中，张量（Tensor）是最基本的数据结构，它类似于NumPy中的数组，但可以在GPU上运行。在日常的深度学习编程中，我们经常需要调整张量的维度以适应不同的操作和层。torch.unsqueeze函数就是PyTorch提供的一个非常有用的工具，用于在指定位置增加张量的维度。本文将详细介绍torch.unsqueeze的用法和一些实际应用场景。什么是torch.unsqu
【UVM基础】m_sequencer 和 p_sequencer 概念与区别（面试常问） MoorePlus 数字IC验证百宝箱经验分享面试数字IC 芯片验证 SV
文章目录1、基本概念m_sequencerp_sequencer2、解释m_seqeuncer和p_sequencer的区别？3、uvm_declare_p_sequencer宏做了哪几件事？参考1、基本概念m_sequencer类型是uvm_sequencer_base类型，定义在uvm_sequence_item类中，注意：类型很重要。可以理解为每个sequence中默认都有m_sequenc
机器学习Pandas_learn3 XW-ABAP 机器学习 pandas
frompandasimportDataFrameimportnumpypaints={"车名":["奥迪Q5L","哈弗H6","奔驰GLC"],"最低报价":[numpy.nan,9.80,numpy.nan],"最高报价":[49.80,23.10,58.78]}goods_in=DataFrame(paints,index=[1,2,3])print(goods_in)goods_in_n
如何使用MATLAB进行高效的GPU加速深度学习模型训练？百态老人 matlab 深度学习开发语言
要使用MATLAB进行高效的GPU加速深度学习模型训练，可以遵循以下步骤和策略：选择合适的GPU硬件：首先，确保您的计算机配备有支持CUDA的NVIDIAGPU，并且其计算能力至少为3.0或以上。可以通过gpuDevice命令检查GPU是否具备加速功能。安装必要的工具箱：确保安装了MATLAB的DeepLearningToolbox和ParallelComputingToolbox，这些工具箱提供
【技术解密】本地部署 DeepSeek-V3：完整指南海棠AI实验室 “智元启示录“-AI发展的深度思考与未来展望人工智能深度学习 DeepSeek
目录引言运行环境需求下载与安装推理部署总结参考资源引言随着人工智能的快速发展，开源大模型正逐步改变着技术生态。DeepSeek-V3作为最新的开源大模型之一，不仅提供了强大的推理能力，同时也支持本地部署，使开发者可以灵活地进行自定义优化。本文将详细介绍如何在本地部署DeepSeek-V3，涵盖系统要求、安装步骤、模型转换及不同推理框架的应用。1.运行环境需求1.1硬件要求✅NVIDIAGPU（支持
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟