一只工程狮

元学习概述（Meta-Learning）

转载自：凉爽的安迪-深度瞎学

一文入门元学习（Meta-Learning）

写在前面：迄今为止，本文应该是网上介绍【元学习（Meta-Learning）】最通俗易懂的文章了（保命），主要目的是想对自己对于元学习的内容和问题进行总结，同时为想要学习Meta-Learning的同学提供一下简单的入门。笔者挑选了经典的paper详读，看了李宏毅老师深度学习课程元学习部分，并附了MAML的代码。为了通俗易懂，我将数学推导和工程实践分开两篇文章进行介绍。如果看不懂，欢迎来捶我（）~~

如果大家觉得有帮助，可以帮忙点个赞或者收藏一下，这将是我继续分享的动力~

以下是本文的主要框架：

Introduction
Meta Learning实施——以MAML为例
Reptile
What's more

全文大约4000字，阅读完大概需要12分钟。

1. Introduction

通常在机器学习里，我们会使用某个场景的大量数据来训练模型；然而当场景发生改变，模型就需要重新训练。但是对于人类而言，一个小朋友成长过程中会见过许多物体的照片，某一天，当Ta（第一次）仅仅看了几张狗的照片，就可以很好地对狗和其他物体进行区分。

元学习Meta Learning，含义为学会学习，即learn to learn，就是带着这种对人类这种“学习能力”的期望诞生的。Meta Learning希望使得模型获取一种“学会学习”的能力，使其可以在获取已有“知识”的基础上快速学习新的任务，如：

让Alphago迅速学会下象棋
让一个猫咪图片分类器，迅速具有分类其他物体的能力

需要注意的是，虽然同样有“预训练”的意思在里面，但是元学习的内核区别于迁移学习（Transfer Learning），关于他们的区别，我会在下文进行阐述。

接下来，我们通过对比机器学习和元学习这两个概念的要素来加深对元学习这个概念的理解。

在机器学习中，训练单位是一条数据，通过数据来对模型进行优化；数据可以分为训练集、测试集和验证集。在元学习中，训练单位分层级了，第一层训练单位是任务，也就是说，元学习中要准备许多任务来进行学习，第二层训练单位才是每个任务对应的数据。

二者的目的都是找一个Function，只是两个Function的功能不同，要做的事情不一样。机器学习中的Function直接作用于特征和标签，去寻找特征与标签之间的关联；而元学习中的Function是用于寻找新的f，新的f才会应用于具体的任务。有种不同阶导数的感觉。又有种老千层饼的感觉，你看到我在第二层，你把我想象成第一层，而其实我在第五层。。。

2. Meta Learning实施——以MAML为例

我们先对比机器学习的过程来进一步理解元学习。如下图所示，机器学习的一般过程如下：

设计网络网络结构，如CNN、RNN等；
选定某个分布来初始化参数；（以上其实决定了初始的f的长相，选择不同的网络结构或参数相当于定义了不同的 f ）；
喂训练数据，根据选定的Loss Function计算Loss；
梯度下降，逐步更新；
得到最终的 f ；

其中，红色方框里的“配置”都是由人为设计的，我们又叫做“超参数“。Meta Learning中希望把这些配置，如网络结构，参数初始化，优化器等由机器自行设计（注：此处区别于AutoML，迁移学习（Transfer Learning）和终身学习（Life Long Learning）），使网络有更强的学习能力和表现。

上文已经提到，【元学习中要准备许多任务来进行学习，而每个任务又有各自的训练集和测试集】。我们结合一个具体的任务，来介绍元学习和MAML的实施过程。

有一个图像数据集叫Omniglot：https://github.com/brendenlake/omniglot。

Omniglot包含1623个不同的火星文字符，每个字符包含20个手写的case。这个任务是判断每个手写的case属于哪一个火星文字符。

如果我们要进行N-ways，K-shot（数据中包含N个字符类别，每个字符有K张图像）的一个图像分类任务。比如20-ways，1-shot分类的意思是说，要做一个20分类，但是每个分类下只有1张图像的任务。我们可以依据Omniglot构建很多N-ways，K-shot任务，这些任务将作为元学习的任务来源。构建的任务分为训练任务（Train Task），测试任务（Test Task）。特别地，每个任务包含自己的训练数据、测试数据，在元学习里，分别称为Support Set和Query Set。

MAML的目的是获取一组更好的模型初始化参数（即让模型自己学会初始化）。我们通过（许多）N-ways，K-shot的任务（训练任务）进行元学习的训练，使得模型学习到“先验知识”（初始化的参数）。这个“先验知识”在新的N-ways，K-shot任务上可以表现的更好。

接下来介绍MAML的算法流程：

当然，在“预训练”阶段，也可以sample出1个batch的几个任务，那么在更新meta网络时，要使用sample出所有任务的梯度之和。
注意：在MAML中， meta网络与子任务的网络结构必须完全相同。

这里面有几个小问题：

MAML的执行过程与model pretraining & transfer learning的区别是什么？
为何在meta网络赋值给具体训练任务（如任务m）后，要先更训练任务的参数，再计算梯度，更新meta网络？
在更新训练任务的网络时，只走了一步，然后更新meta网络。为什么是一步，可以是多步吗？

问题1：MAML的执行过程与model pretraining & transfer learning的区别是什么？

我们将meta learning与model pretraining的loss函数写出来。

注意这两个loss函数的区别：

meta learning的L来源于训练任务上网络的参数更新过一次后（该网络更新过一次以后，网络的参数与meta网络的参数已经有一些区别），然后使用Query Set计算的loss；
model pretraining的L来源于同一个model的参数（只有一个），使用训练数据计算的loss和梯度对model进行更新；如果有多个训练任务，我们可以将这个参数在很多任务上进行预训练，训练的所有梯度都会直接更新到model的参数上。

看一下二者的更新过程简图：

MAML是使用子任务的参数，第二次更新的gradient的方向来更新参数（所以左图，第一个蓝色箭头的方向与第二个绿色箭头的方向平行；左图第二个蓝色箭头的方向与第二个橘色箭头的方向平行）
而model pretraining是使用子任务第一步更新的gradient的方向来更新参数(子任务的梯度往哪个方向走，model的参数就往哪个方向走)。

从sense上直观理解：

model pretraining最小化当前的model（只有一个）在所有任务上的loss，所以model pretraining希望找到一个在所有任务（实际情况往往是大多数任务）上都表现较好的一个初始化参数，这个参数要在多数任务上当前表现较好。
meta learning最小化每一个子任务训练一步之后，第二次计算出的loss，用第二步的gradient更新meta网络，这代表了什么呢？子任务从【状态0】，到【状态1】，我们希望状态1的loss小，说明meta learning更care的是初始化参数未来的潜力。

一个关注当下，一个关注潜力。

如下图所示，model pretraining找到的参数 φ，在两个任务上当前的表现比较好（当下好，但训练之后不保证好）；
而MAML的参数 φ 在两个子任务当前的表现可能都不是很好，但是如果在两个子任务上继续训练下去，可能会达到各自任务的局部最优（潜力好）。

这里有一个toy example可以表现MAML的执行过程与model pretraining & transfer learning的区别。

训练任务：给定N个函数，y = asinx + b（通过给a和b不同的取值可以得到很多sin函数），从每个函数中sample出K个点，用sample出的K个点来预估最初的函数，即求解a和b的值。

训练过程：用这N个训练任务sample出的数据点分别通过MAML与model pretraining训练网络，得到预训练的参数。

如下图，用橘黄色的sin函数作为测试任务，三角形的点是测试任务中sample出的样本点，在测试任务中，我们希望用sample出的样本点还原橘黄色的线。

model pretraining的结果，在测试任务上，在finetuning之前，绿色线是一条水平线，finetuning之后还原的线基本还是一条水平线。因为在预训练的时候，有很多sin函数，model pretraining希望找到一个在所有任务上都效果较好的初始化结果，但是许多sin函数波峰和波谷重叠起来，基本就是一条水平线。用这个初始化的结果取finetuning，得到的结果仍然是水平线。
MAML的初始化结果是绿色的线，和橘黄色的线有差异。但是随着finetuning的进行，结果与橘黄色的线更加接近。

问题2：为何在meta网络赋值给具体训练任务（如任务m）后，要先更训练任务的参数，再计算梯度，更新meta网络？

这个问题其实在问题1中已经进行了回答，更新一步之后，避免了meta learning陷入了和model pretraining一样的训练模式，更重要的是，可以使得meta模型更关注参数的“潜力”。

问题3：在更新训练任务的网络时，只走了一步，然后更新meta网络。为什么是一步，可以是多步吗？

李宏毅老师的课程中提到：

只更新一次，速度比较快；因为meta learning中，子任务有很多，都更新很多次，训练时间比较久。
MAML希望得到的初始化参数在新的任务中finetuning的时候效果好。如果只更新一次，就可以在新任务上获取很好的表现。把这件事情当成目标，可以使得meta网络参数训练是很好（目标与需求一致）。
当初始化参数应用到具体的任务中时，也可以finetuning很多次。
Few-shot learning往往数据较少。

那么MAML中的训练任务的网络可以更新多次后，再更新meta网络吗？

我觉得可以。直观上感觉，更新次数决定了子任务对于meta网络的影响程度，我觉得这个步数可以作为一个参数来调。

另外，即将介绍的下一个网络——Reptile，也是对训练任务网络进行多次更新的。

3. Reptile

Reptile与MAML有点像，我们先看一下Reptile的训练简图：

Reptile的训练过程如下：

Reptile，每次sample出1个训练任务

Reptile，每次sample出1个batch训练任务

在Reptile中：

训练任务的网络可以更新多次
reptile不再像MAML一样计算梯度（因此带来了工程性能的提升），而是直接用一个参数 ϵ 乘以meta网络与训练任务的网络参数的差来更新meta网络参数
从效果上来看，Reptile效果与MAML基本持平

4. What's more

元学习入门部分的文章基本就分享到这里了~

从出发点上来看，元学习和model pretraining有点像，即，都是让网络具有一些先验知识。
从训练过程的设计来看，元学习更关注模型的潜力，而model pretraining更注重模型当下在多数情况下的表现，效果孰好孰坏很难直接判定。这大概也就是仰望天空和脚踏实地的区别hahaha
元学习除了可以初始化参数以外，还有一些设计可以帮助确定网络结构，如何更新参数等等这里有李宏毅老师的一个课程大家可以关注一下https://www.youtube.com/watch?v=c10nxBcSH14 。

最后的最后，求赞求收藏求关注~

参考文献

Finn C, Abbeel P, Levine S. Model-agnostic meta-learning for fast adaptation of deep networks[C]//Proceedings of the 34th International Conference on Machine Learning-Volume 70. JMLR. org, 2017: 1126-1135.
Nichol A, Schulman J. Reptile: a scalable metalearning algorithm[J]. arXiv preprint arXiv:1803.02999, 2018, 2: 2.
https://github.com/dragen1860/MAML-TensorFlow
https://www.youtube.com/watch?v=c10nxBcSH14
https://www.bilibili.com/video/BV1JE411g7XF?p=80

DeepSeek 10 分钟快速部署，告别卡顿，免费使用爱学习的小孩啦帮助贴~deepseek
DeepSeek总是卡顿那有什么办法可以稳定使用DeepSeek？一、注册使用硅基流动（SiliconFlow）硅基流动（SiliconFlow）是一款优秀的云服务平台，可提供多种大模型服务。近期它联合华为云推出了基于昇腾云的DeepSeek服务。特点：提供满血版R1的API和直接对话功能，新用户注册赠送2000万Tokens免费额度（能用好久！！足够日常点的使用了）作为集合顶尖大模型的一站式云服
快收藏，清华出品的DeepSeek:从入门到精通教程pdf 2501_90570130 人工智能 pdf
资源链接：https://pan.quark.cn/s/e9b7230b1538家人们，我刚看完这份清华的PPT，被DeepSeek狠狠惊艳到它功能太强大啦，写文案、生成代码不在话下，还能辅助决策、做数据分析，连诗歌故事创作都OK！清华专家还分享超多实用技巧，像避免AI幻觉、设计超棒提示语，全是干货AI如今无处不在，不用就真的要落后啦！这份PPT简直是AI入门神器，有它就能变身AI达人别犹豫，赶紧
清华DeepSeek从入门到精通系列PDF全五弹 2501_90737221 pdf 人工智能
资源链接：https://pan.quark.cn/s/e9b7230b1538宝子们，今天要给大家分享一套超级厉害的DeepSeek系列PDF，由清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室出品，从入门到精通，全方位带你玩转人工智能!DeepSeek从入门到精通(清华大学指南第一弹)这本PDF是DeepSeek的敲门砖，内容涵盖DeepSeek的基本概念、应用场景以及如何使用DeepSe
AI 进阶指南：携手DeepSeek从小白到行业先锋的跃迁之路轻口味大模型实战人工智能 deepseek 大模型
AI进阶指南：携手DeepSeek从小白到行业先锋的跃迁之路在当今数字化浪潮汹涌澎湃的时代，人工智能（AI）宛如一颗璀璨的明星，照亮了各个领域的创新与发展道路。然而，面对AI这一庞大而复杂的体系，许多人往往感到迷茫无措，不知自己处于何种水平，更不知如何迈向更高的层次。尤其是DeepSeek的出圈，AI的热度更加火爆。无论是普通用户还是AI从业者也变得很迷茫，不知如何应对AI的崛起。本文将依据AI应
科技快讯 | DeepSeek宣布开源DeepGEMM；多个团队开发AI论文反识别技术；OpenAI GPT 4.5现身Android测试版，即将发布最新科技快讯科技
DeepSeek宣布开源DeepGEMM财联社2月26日电，Deepseek于开源周第三天宣布开源DeepGEMM。DeepGEMM是一个专为简洁高效的FP8通用矩阵乘法（GEMM）设计的库，具有细粒度缩放功能，如DeepSeek-V3中所提出。它支持普通和混合专家（MoE）分组的GEMM。该库采用CUDA编写，在安装过程中无需编译，通过使用轻量级的即时编译（JIT）模块在运行时编译所有内核。FP
还在零散学AI？《DeepSeek》五版资料整合啾啾859 pdf
链接：https://pan.quark.cn/s/c9c795c32bed链接：https://pan.quark.cn/s/7e851bca2dc2
清华北大相继推出DeepSeek教学手册，手把手教你学习DeepSeek，从入门到精通。 AI小魔女学习 AIGC pdf
DeepSeek资料链接：https://pan.quark.cn/s/862e3c3fcdbf前段时间，清华大学推出重磅资料《DeepSeek：从入门到精通》发布首日，就冲上热搜，热度居高不下。作为一份面向大众公开免费的ai学习资料，其质量缺丝毫不输网上绝大多数付费教程。一时间，成为了广大ai爱好者内部互相推崇的“ai宝藏秘籍”。没过多久，北大也出品了自己的DeepSeek学习手册，AI时代正在
DeepSeek 资料大全 2501_90766946 pdf
链接：https://pan.quark.cn/s/1352425b0645链接：https://pan.quark.cn/s/3d4088555ca0链接：https://pan.quark.cn/s/df8ce3ea6f4e
量子位招聘 | DeepSeek帮我们改的招聘启事量子位
关注前沿科技量子位未来同事，你好~这是一则招聘帖。如果你与我们志同道合，对AI大模型、具身智能、终端硬件、AI新媒体编辑感兴趣，我们正在招聘这些领域的原创作者。以下岗位均为全职，工作地点：北京中关村。岗位面向：社招、应届毕业生，所有岗位均可实习——表现出色均可转正加分项：乐于探索AI新工具，善用AI新工具；拥有解读论文的能力，能深入浅出讲解原理；有写代码能力；量子位长期读者。加入我们，你可以获得：
云服务器部署DeepSeek Janus-Pro生成图片实战 deepseek
序本文主要研究一下如何在腾讯云HAI-GPU服务器上部署DeepSeekJanus-Pro来进行文本生成图片步骤选择带GPU的服务器到deepseek2025试用一下带GPU的服务器下载Janusgitclonehttps://github.com/deepseek-ai/Janus.git安装依赖cdJanuspipinstall-e.安装gradiopipinstallgradio安装torc
如何用 DeepSeek 进行卷积神经网络（CNN）的优化一碗黄焖鸡三碗米饭人工智能前沿与实践 cnn 人工智能神经网络机器学习深度学习
如何用DeepSeek进行卷积神经网络（CNN）的优化卷积神经网络（CNN）在计算机视觉任务中取得了巨大的成功，例如图像分类、目标检测和图像生成。然而，尽管CNN在这些任务中表现出色，它们通常需要大量的计算资源，并且在优化过程中可能会遇到一些挑战，如过拟合、训练速度慢、局部最优解等问题。为了更好地优化CNN模型，提高其性能和训练效率，DeepSeek提供了多种优化技术和工具，可以帮助我们系统地进行
Ollama 本地GUI客户端：为DeepSeek用户量身定制的智能模型管理与交互工具探客白泽 Python程序脚本交互 ai 深度学习 gpt-3 chatgpt 人工智能开源
Ollama本地GUI客户端：为DeepSeek用户量身定制的智能模型管理与交互工具相关资源文件已经打包成EXE文件，可双击直接运行程序，且文章末尾已附上相关源码，以供大家学习交流，博主主页还有更多Python相关程序案例，秉着开源精神的想法，望大家喜欢，点个关注不迷路！！！1.简介：在人工智能领域，如何高效地管理、下载和与模型进行交互是每个开发者面临的挑战。DeepSeek：Ollama本地客户
DeepSeek突袭公布成本利润率：545% 量子位
五连开源后，DeepSeek还有OneMoreThing！就在刚刚，DeepSeek官方亲自揭秘了DeepSeek-V3/R1推理系统。重点包括，优化吞吐量和延迟的方法：跨节点EP驱动的批量扩展计算与通信重叠负载均衡还公布了DeepSeek的在线服务数据统计：每个H800节点每秒有73.7k/14.8k个输入/输出token成本利润率545%更多细节，一起来看官方原文↓更大的吞吐，更低的延迟Dee
深度优化：如何用结构化提示词提升DeepSeek的响应质量
深度优化：如何用结构化提示词提升DeepSeek的响应质量一、提示词设计的核心原则角色定义法：明确AI的专家身份场景具象化：提供背景信息和目标说明格式结构化：使用分隔符划分内容模块二、基础提示词案例库1.编程辅助场景[角色]你是一位资深Python开发工程师，擅长编写可维护的工业级代码[任务]为电商系统设计优惠券核销模块[要求]1.使用Django框架实现2.包含防重复提交机制3.添加Redis缓
DeepSeek 接口详解
DeepSeek的火爆不仅是国家的骄傲，更是为AI普惠大众做出了重大贡献。就连AI.com的域名持有者也开始认可deepseek，从之前指向chatgpt.com变成指向chat.deepseek.com。我们不仅可以使用deepseek的免费聊天页面，也可以调用deepseek提供的接口，但是有伙伴可能会问，为什么调用deepseek的接口要使用openai的接口，难道是高级套壳？其实官方已经明
强化学习——基本概念 AI大模型探索者人工智能 ai 深度学习机器学习语言模型
何为强化学习机器学习的一大分支强化学习（ReinforcementLearning）是机器学习的一种，它通过与环境不断地交互，借助环境的反馈来调整自己的行为，使得累计回报最大。强化学习要解决的是决策问题——求取当前状态下最优行为或行为概率。强化学习包括智能体和环境两大对象，智能体是算法本身，环境是与智能体交互的外部。智能体（IntelligentAgent），在人工智能领域，智能体指一个可以观察周
DeepSeek R2要来了？“下一代推理王者”能否再掀AI浪潮？ that's boy 人工智能 chatgpt openai DeepSeek DeepSeek-R2 DeepSeek-R1 AI编程
DeepSeekR2要来了？“下一代推理王者”能否再掀AI浪潮？最近，AI圈内最火的话题，莫过于DeepSeek即将推出的R2模型了。继今年1月发布的R1推理模型大获成功之后，DeepSeek似乎并没有停下脚步，而是马不停蹄地投入到了R2的研发之中。更让人兴奋的是，根据多方消息，DeepSeek正在加速R2的推出计划，原本预计在5月初亮相的时间表，现在被提前到了“尽可能快的速度”！为什么DeepS
机器学习与深度学习资料 JasonDing1354 【Machine Learning】
《BriefHistoryofMachineLearning》介绍:这是一篇介绍机器学习历史的文章，介绍很全面，从感知机、神经网络、决策树、SVM、Adaboost到随机森林、DeepLearning.《DeepLearninginNeuralNetworks:AnOverview》介绍:这是瑞士人工智能实验室JurgenSchmidhuber写的最新版本《神经网络与深度学习综述》本综述的特点是以
本地大模型编程实战(09)自制聊天机器人(3) 火云牌神 AI编程实战 python langchain llama deepseek
文章目录准备自动裁剪聊天历史聊天机器人定义提示词模板定义state构建app测试流式输出总结代码本文将实现一个比较完善的聊天机器人的主要功能。包括：使用LangGraph构建聊天机器人自动裁剪聊天历史管理聊天会话的方法以流的方式输出回复我们将同时使用llama3.1和deepseek做演示。由于langchain可能对不同大模型支持程度不同以及其它限制，所以这个对比并不能说明哪个模型更好。准备在正
【探商宝】DeepSeek开源周第四弹：双向流水并行与专家负载均衡技术解析探熵科技数据分析人工智能
引言在千亿级大模型训练领域，计算资源利用率与通信效率是制约训练速度的核心瓶颈。DeepSeek开源周第四日重磅发布的DualPipe双向流水并行算法与EPLB专家并行负载均衡器（ExpertParallelismLoadBalancer），为解决这些难题提供了创新方案。本文将从技术原理、性能优势、应用场景三个维度深度解读这两项技术。一、DualPipe：重新定义流水线并行效率1.1传统流水线并行的
WGCLOUD可以支持信创操作系统吗
可以的比如麒麟、统信UOS、龙芯(mips)、深度deepin、凝思、龙蜥Anolis、EulerOS欧拉等操作系统，都可以正常部署使用WGCLOUD监控系统
CMU 10423 Generative AI：lec10（few-shot、提示工程、上下文学习） ⊙月 AI 人工智能学习 AIGC
文章目录1概述2摘录2.1zero-shot和few-shot一、Zero-shotLearning（零样本学习）特点：工作原理：优点：缺点：二、Few-shotLearning（少样本学习）特点：工作原理：优点：缺点：三、Zero-shot与Few-shotLearning的对比四、应用案例2.2Prompting（提示）一、Prompting（提示）的定义二、Prompting的原理三、Pro
揭秘DeepSeek信息差暴利玩法：普通人月入10万的7大野路子 skyksksksksks AI个人杂记人工智能机器学习深度学习神经网络自然语言处理
一、信息差赚钱的核心逻辑：你眼中的常识，是别人的知识盲区信息差生意的本质，就是利用认知不对称性收割红利。就像当年有人靠倒卖义乌小商品到三四线城市发家，如今在AI时代，DeepSeek的开源属性让技术唾手可得，但99%的人根本不知道如何用它赚钱。比如某电商平台上标价10万元的“本地部署教程”，实际上在GitHub就能找到免费代码；再比如某博主用DeepSeek生成《小红书爆款标题1000条》挂闲鱼卖
DeepSeek 助力 Vue3 开发：打造丝滑的悬浮按钮（Floating Action Button）宝码香车 #DeepSeek vue.js javascript ecmascript 前端 DeepSeek
前言：哈喽，大家好，今天给大家分享一篇文章！并提供具体代码帮助大家深入理解，彻底掌握！创作不易，如果能帮助到大家或者给大家一些灵感和启发，欢迎收藏+关注哦目录DeepSeek助力Vue3开发：打造丝滑的悬浮按钮（FloatingActionButton）前言页面效果指令输入属性定义1.外观相关2.位置相关3.交互相关4.动画相关事件定义其他think组件代码代码测试测试代码正常跑通，附其他基本代码
单卡挑战千亿模型！深度求索MoE架构实战指南：从理论到开源工具全解析小诸葛IT课堂架构
引言：为什么需要单GPU训练千亿参数模型？随着大模型参数规模突破千亿级别，训练成本与算力需求呈指数级增长。传统密集架构（DenseModel）在单卡训练中面临显存不足、计算效率低等问题。**混合专家模型（MixtureofExperts,MoE）**通过稀疏激活机制，成为突破单卡训练瓶颈的关键技术。本文将结合深度求索（DeepSeek）的MoE架构实战经验，详解如何用单个GPU训练千亿参数模型，并
host.docker.internal 及 host-gateway 知多少强哥之神 docker gateway 容器人工智能语言模型 deepseek
在开始本文之前，我们先看一下最近在使用界面工具进行与大模型交互时，我们一般会用到OpenWebUI，部署方式如下，具体要了解DeepSeek的本地化部署，可参见《本地使用CPU快速体验DeepSeekR1》。dockerrun-p3000:8080--rm--nameopen-webui\ --add-host=host.docker.internal:host-gateway\ -vopen-w
2月27日全球科技信息差：技术浪潮下的信息博弈与应对策略 eqwaak0 信息差开发语言人工智能开源软件科技
第一章信息差的定义与科技行业的特殊性**信息差（InformationAsymmetry）是经济学中的核心概念，指交易双方因信息获取能力或时效性差异导致的不平等博弈。在科技领域，这种不对称性尤为显著，原因在于：技术迭代速度快：例如量子计算、人工智能模型（如DeepSeekR2）的研发进展往往由少数企业或机构主导，公众与普通投资者难以实时掌握动态。行业专业壁垒高：生物技术（如CRISPR基因编辑）和
开源AI：驱动人工智能发展的新引擎萧十一郎@ 知识科普开源人工智能
目录一、引言1.1研究背景与目的1.2研究方法与数据来源1.3报告结构与内容概述二、AI开源概述2.1AI开源的定义与内涵2.2AI开源的发展历程2.3AI开源的现状与规模三、AI开源对技术创新的推动3.1促进技术交流与共享3.2降低技术研发成本3.3提高技术透明度与可解释性3.4案例分析：以DeepSeek为例四、AI开源对产业发展的影响4.1重塑产业竞争格局4.2加速产业应用落地4.3促进产业
大模型WebUI：Gradio全解12——LangChain原理、架构和组件（2）龙焰智能 langchain openai deepseek intergrations api reference 操作指南教程
大模型WebUI：Gradio全解12——LangChain原理、架构和组件（2）前言12.LangChain原理及agents构建GradioUI12.2学习资料12.2.1学习文档12.2.2用途示例12.2.3OpenAI和DeepSeek例程1.OpenAI示例2.DeepSeek例程参考文献前言本系列文章主要介绍WEB界面工具Gradio。Gradio是HuggingFace发布的简易W
将DeepSeek接入Excel实现交互式对话 VBAMatrix Excel矩阵 excel ai
引言将DeepSeek接入Excel，为你带来前所未有的交互体验！“哪里不懂，选中哪里”，然后直接在侧边栏对话框向DeepSeek发问，非常地方便！案例演示设置接入方式既可以通过本地部署的DeepSeek接入Excel，也可以通过Apikey访问DeepSeek接入Excel。设置接入方式演示视频将DeepSeek接入Excel实现交互式对话
[星球大战]阿纳金的背叛 comsci
本来杰迪圣殿的长老是不同意让阿纳金接受训练的......... 但是由于政治原因,长老会妥协了...这给邪恶的力量带来了机会所以......现代的地球联邦接受了这个教训...绝对不让某些年轻人进入学院
看懂它，你就可以任性的玩耍了！ aijuans JavaScript
javascript作为前端开发的标配技能，如果不掌握好它的三大特点：1.原型 2.作用域 3. 闭包 ,又怎么可以说你学好了这门语言呢？如果标配的技能都没有撑握好，怎么可以任性的玩耍呢？怎么验证自己学好了以上三个基本点呢，我找到一段不错的代码，稍加改动，如果能够读懂它，那么你就可以任性了。 function jClass(b
Java常用工具包 Jodd Kai_Ge java jodd
Jodd 是一个开源的 Java 工具集，包含一些实用的工具类和小型框架。简单，却很强大！写道 Jodd = Tools + IoC + MVC + DB + AOP + TX + JSON + HTML < 1.5 Mb Jodd 被分成众多模块，按需选择，其中工具类模块有： jodd-core &nb
SpringMvc下载 120153216 springMVC
@RequestMapping(value = WebUrlConstant.DOWNLOAD) public void download(HttpServletRequest request,HttpServletResponse response,String fileName) { OutputStream os = null; InputStream is = null;
Python 标准异常总结 2002wmj python
Python标准异常总结 AssertionError 断言语句（assert）失败 AttributeError 尝试访问未知的对象属性 EOFError 用户输入文件末尾标志EOF（Ctrl+d） FloatingPointError 浮点计算错误 GeneratorExit generator.close()方法被调用的时候 ImportError 导入模块失
SQL函数返回临时表结构的数据用于查询 357029540 SQL Server
这两天在做一个查询的SQL，这个SQL的一个条件是通过游标实现另外两张表查询出一个多条数据，这些数据都是INT类型，然后用IN条件进行查询，并且查询这两张表需要通过外部传入参数才能查询出所需数据，于是想到了用SQL函数返回值，并且也这样做了，由于是返回多条数据，所以把查询出来的INT类型值都拼接为了字符串，这时就遇到问题了，在查询SQL中因为条件是INT值，SQL函数的CAST和CONVERST都
java 时间格式化 | 比较大小| 时区个人笔记 7454103 java eclipse tomcat c MyEclipse
个人总结！不当之处多多包含！引用 1.0 如何设置 tomcat 的时区：位置：(catalina.bat---JAVA_OPTS 下面加上) set JAVA_OPT
时间获取Clander的用法 adminjun Clander 时间
/** * 得到几天前的时间 * @param d * @param day * @return */ public static Date getDateBefore(Date d,int day){ Calend
JVM初探与设置 aijuans java
JVM是Java Virtual Machine（Java虚拟机）的缩写，JVM是一种用于计算设备的规范，它是一个虚构出来的计算机，是通过在实际的计算机上仿真模拟各种计算机功能来实现的。Java虚拟机包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收堆和一个存储方法域。 JVM屏蔽了与具体操作系统平台相关的信息，使Java程序只需生成在Java虚拟机上运行的目标代码（字节码）,就可以在多种平台
SQL中ON和WHERE的区别 avords
SQL中ON和WHERE的区别数据库在通过连接两张或多张表来返回记录时，都会生成一张中间的临时表，然后再将这张临时表返回给用户。 www.2cto.com 在使用left jion时，on和where条件的区别如下： 1、 on条件是在生成临时表时使用的条件，它不管on中的条件是否为真，都会返回左边表中的记录。
说说自信 houxinyou 工作生活
自信的来源分为两种,一种是源于实力,一种源于头脑.实力是一个综合的评定,有自身的能力,能利用的资源等.比如我想去月亮上,要身体素质过硬,还要有飞船等等一系列的东西.这些都属于实力的一部分.而头脑不同,只要你头脑够简单就可以了!同样要上月亮上,你想,我一跳,1米,我多跳几下,跳个几年,应该就到了!什么?你说我会往下掉?你笨呀你!找个东西踩一下不就行了吗? 无论工作还
WEBLOGIC事务超时设置 bijian1013 weblogic jta 事务超时
系统中统计数据，由于调用统计过程，执行时间超过了weblogic设置的时间，提示如下错误：统计数据出错! 原因：The transaction is no longer active - status: 'Rolling Back. [Reason=weblogic.transaction.internal
两年已过去，再看该如何快速融入新团队 bingyingao java 互联网融入架构新团队
偶得的空闲，翻到了两年前的帖子该如何快速融入一个新团队，有所感触，就记下来，为下一个两年后的今天做参考。时隔两年半之后的今天，再来看当初的这个博客，别有一番滋味。而我已经于今年三月份离开了当初所在的团队，加入另外的一个项目组，2011年的这篇博客之后的时光，我很好的融入了那个团队，而直到现在和同事们关系都特别好。大家在短短一年半的时间离一起经历了一
【Spark七十七】Spark分析Nginx和Apache的access.log bit1129 apache
Spark分析Nginx和Apache的access.log，第一个问题是要对Nginx和Apache的access.log文件进行按行解析，按行解析就的方法是正则表达式： Nginx的access.log解析正则表达式 val PATTERN = """([^ ]*) ([^ ]*) ([^ ]*) (\\[.*\\]) (\&q
Erlang patch bookjovi erlang
Totally five patchs committed to erlang otp, just small patchs. IMO, erlang really is a interesting programming language, I really like its concurrency feature. but the functional programming style
log4j日志路径中加入日期 bro_feng java log4j
要用log4j使用记录日志，日志路径有每日的日期，文件大小5M新增文件。实现方式 log4j: <appender name="serviceLog" class="org.apache.log4j.RollingFileAppender"> <param name="Encoding" v
读《研磨设计模式》-代码笔记-桥接模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 个人觉得关于桥接模式的例子，蜡笔和毛笔这个例子是最贴切的：http://www.cnblogs.com/zhenyulu/articles/67016.html * 笔和颜色是可分离的，蜡笔把两者耦合在一起了：一支蜡笔只有一种
windows7下SVN和Eclipse插件安装 chenyu19891124 eclipse插件
今天花了一天时间弄SVN和Eclipse插件的安装，今天弄好了。svn插件和Eclipse整合有两种方式，一种是直接下载插件包，二种是通过Eclipse在线更新。由于之前Eclipse版本和svn插件版本有差别，始终是没装上。最后在网上找到了适合的版本。所用的环境系统：windows7JDK：1.7svn插件包版本：1.8.16Eclipse：3.7.2工具下载地址：Eclipse下在地址：htt
[转帖]工作流引擎设计思路 comsci 设计模式工作应用服务器 workflow 企业应用
作为国内的同行，我非常希望在流程设计方面和大家交流，刚发现篇好文(那么好的文章，现在才发现，可惜)，关于流程设计的一些原理，个人觉得本文站得高，看得远，比俺的文章有深度，转载如下 ================================================================================= 自开博以来不断有朋友来探讨工作流引擎该如何
Linux 查看内存，CPU及硬盘大小的方法 daizj linux cpu 内存硬盘大小
一、查看CPU信息的命令 [root@R4 ~]# cat /proc/cpuinfo |grep "model name" && cat /proc/cpuinfo |grep "physical id" model name : Intel(R) Xeon(R) CPU X5450 @ 3.00GHz model name :
linux 踢出在线用户 dongwei_6688 linux
两个步骤： 1.用w命令找到要踢出的用户，比如下面： [root@localhost ~]# w 18:16:55 up 39 days, 8:27, 3 users, load average: 0.03, 0.03, 0.00 USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT
放手吧,就像不曾拥有过一样 dcj3sjt126com
内容提要：静悠悠编著的《放手吧就像不曾拥有过一样》集结“全球华语世界最舒缓心灵”的精华故事，触碰生命最深层次的感动，献给全世界亿万读者。《放手吧就像不曾拥有过一样》的作者衷心地祝愿每一位读者都给自己一个重新出发的理由，将那些令你痛苦的、扛起的、背负的，一并都放下吧！把憔悴的面容换做一种清淡的微笑，把沉重的步伐调节成春天五线谱上的音符，让自己踏着轻快的节奏，在人生的海面上悠然漂荡，享受宁静与
php二进制安全的含义 dcj3sjt126com PHP
PHP里，有string的概念。 string里，每个字符的大小为byte（与PHP相比，Java的每个字符为Character，是UTF8字符，C语言的每个字符可以在编译时选择）。 byte里，有ASCII代码的字符，例如ABC，123，abc，也有一些特殊字符，例如回车，退格之类的。特殊字符很多是不能显示的。或者说，他们的显示方式没有标准，例如编码65到哪儿都是字母A，编码97到哪儿都是字符
Linux下禁用T440s，X240的一体化触摸板(touchpad) gashero linux ThinkPad 触摸板
自打1月买了Thinkpad T440s就一直很火大，其中最让人恼火的莫过于触摸板。 Thinkpad的经典就包括用了小红点(TrackPoint)。但是小红点只能定位，还是需要鼠标的左右键的。但是自打T440s等开始启用了一体化触摸板，不再有实体的按键了。问题是要是好用也行。实际使用中，触摸板一堆问题，比如定位有抖动，以及按键时会有飘逸。这就导致了单击经常就
graph_dfs hcx2013 Graph
package edu.xidian.graph; class MyStack { private final int SIZE = 20; private int[] st; private int top; public MyStack() { st = new int[SIZE]; top = -1; } public void push(i
Spring4.1新特性——Spring核心部分及其他 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
配置HiveServer2的安全策略之自定义用户名密码验证 liyonghui160com
具体从网上看 http://doc.mapr.com/display/MapR/Using+HiveServer2#UsingHiveServer2-ConfiguringCustomAuthentication LDAP Authentication using OpenLDAP Setting
一位30多的程序员生涯经验总结 pda158 编程工作生活咨询
1.客户在接触到产品之后，才会真正明白自己的需求。　　这是我在我的第一份工作上面学来的。只有当我们给客户展示产品的时候，他们才会意识到哪些是必须的。给出一个功能性原型设计远远比一张长长的文字表格要好。 2.只要有充足的时间，所有安全防御系统都将失败。　　安全防御现如今是全世界都在关注的大课题、大挑战。我们必须时时刻刻积极完善它，因为黑客只要有一次成功，就可以彻底打败你。 3.
分布式web服务架构的演变自由的奴隶 linux Web 应用服务器互联网
最开始，由于某些想法，于是在互联网上搭建了一个网站，这个时候甚至有可能主机都是租借的，但由于这篇文章我们只关注架构的演变历程，因此就假设这个时候已经是托管了一台主机，并且有一定的带宽了，这个时候由于网站具备了一定的特色，吸引了部分人访问，逐渐你发现系统的压力越来越高，响应速度越来越慢，而这个时候比较明显的是数据库和应用互相影响，应用出问题了，数据库也很容易出现问题，而数据库出问题的时候，应用也容易
初探Druid连接池之二——慢SQL日志记录 xingsan_zhang 日志连接池 druid 慢SQL
由于工作原因，这里先不说连接数据库部分的配置，后面会补上，直接进入慢SQL日志记录。 1.applicationContext.xml中增加如下配置： <bean abstract="true" id="mysql_database" class="com.alibaba.druid.pool.DruidDataSourc