智源社区

Yann LeCun最新文章：自监督学习的统一框架

作者：Yann LeCun、Ishan Misra

编译：梦佳、贾伟

Facebook 今天宣布了一项重大突破: Facebook 的自监督AI 模型 SEER 能够在没有人类帮助的情况下，从10亿张随机的、未标记的公共 Instagram 图片中学习，并且从这些信息中能够识别和分类照片中的主要对象，准确率达到84.2% ，比现有的自监督系统高出一个百分点。

Facebook AI 首席科学家 Yann Lecun 表示，希望人工智能能够像人类婴儿时期那样，通过观察前人的东西进行学习。

Facebook 在博客中写道: “ SEER 的表现表明，自监督学习能够在现实环境中胜任计算机视觉任务。这是一个重大突破，最终为未来更加灵活、准确和适应性更强的计算机视觉模型铺设了道路。”

由此，Yann LeCun和研究员 Ishan Misra撰文 Self-supervised learning: the dark matter of intelligence对自监督在NLP以及CV中的应用给出了框架性的解读。以下为全文内容。

近年来，人工智能领域，在开发人工智能系统方面取得了巨大进展，这些系统可以从大量精心标记的数据中学习。这种监督学习范式在训练专门的模型方面性能极好，在它们训练的任务上往往能够获得极高的性能表现。

但不幸的是，仅靠监督学习，人工智能领域难以走远。

监督学习在构建更智能的通用模型上存在本质上的瓶颈，例如处理多任务问题，或者通过大量存在的无标签数据学习新技能等。实际上，我们不可能对世界上一切事物都做标注；即使可以标注，但数量也可能并不足够，例如低资源语言翻译任务。

如果人工智能系统能够在训练数据集之外，对现实世界能够有更深入、更细致的理解，显然它们将更有用，最终也将使人工智能更接近人类层面的智能。

人类婴儿学习世界运作，主要是通过观察。我们会通过学习物体的持久性、重力等概念，从而形成关于世界上物体的广义预测模型。在随后的人生里，我们不断观察世界，然后对它进行作用，然而再观察作用的效果等等，通过反复尝试，从而建立假设，解释我们的行动如何能够改变我们的环境。

一种有效的假设是，人类和动物的生物智能，主要的成分是由关于世界的普遍知识或常识构成的，这种常识在生物智能中会被默认为自然而存在的背景。但对于人工智能来说，如何构建这种常识却一直是一个开放的挑战难题。在某种程度上，常识正是人工智能的暗物质。

常识可以帮助人们学习新技能，而无需为每项任务做大量的监督训练。

例如，我们只需要给小孩子看几张奶牛的图画，他们以后便可以轻松地识别出任何奶牛。相比之下，经过监督学习训练的人工智能系统，则需要许多奶牛的标注图像，即使这样，训练出的模型在一些特殊情况下，依然无法做出准确判断。

人类通过 20 个小时的练习，便能够学会驾驶汽车，但人类司机数千小时的数据却无法训练出一个很好的自动驾驶系统。

答案很简单：人类借助了他们以前获得的关于世界如何运作的背景知识。

我们如何让机器也能这样做呢？

我们认为，自我监督学习（self-supervised learning）是建立这种背景知识和近似人工智能系统中一种常识的最有前途的方法之一。

自我监督学习使人工智能系统能够从数量级更大的数据中学习，这对于识别和理解世界更微妙、更不常见的表示模式很重要。

长期以来，自我监督学习在推进自然语言处理（NLP）领域取得了巨大成功，包括 Collobert-Weston 2008 model，Word2Vec，GloVE，fastText 以及最近的BERT，RoBERTa，XLM-R等。通过这些方法训练的系统，会比以监督学习的方式训练的系统，性能要高得多。

我们最新的研究项目 SEER 利用 SwAV 和其他方法，在10亿张随机的未标记图像上预训练了一个大型网络，在各种视觉任务上获得了最高的精度。这一进展表明，在复杂的现实环境中，自监督学习也可以在 CV 任务中有出色表现。

在接下来的这篇文章中，我们将讲述，为什么自监督学习可能有助于解开智能暗物质，以及为什么它将是人工智能的下一个前沿。我们也将列出一些有前途的新方向，包括：在存在不确定性的情况下，基于能量的预测模型、联合嵌入方法、人工智能系统中用于自监督学习和推理的隐变量体系结构等。

自监督学习是一种预测学习

自监督学习从数据本身获得监督信号，通常会利用数据中的底层结构。自监督学习的一般技术是从任何未观察到的或隐藏的输入部分，预测观察到的或未隐藏的输入部分(或特性)。

例如，正如在 NLP 中常见的，我们可以隐藏句子的一部分，并从剩余的词中预测隐藏的词。

在视频中，我们也可以从当前帧（观测数据）中预测过去的或未来的帧(隐藏数据)。由于自监督学习利用数据本身的结构，它可以利用各种监督信号跨越共现形态(如视频和音频)或跨越大型数据集ーー所有这些都不需要依赖标签。

在自监督学习中，系统被训练为从可见的输入部分(绿色)预测隐藏的输入部分(灰色)。

因为自监督学习中涉及到监督信号，“自我监督学习”这个术语比以前使用的术语“无监督式学习学习”更为人们所接受。无监督式学习是一个定义不清且具有误导性的术语，这个词仿佛表明学习根本不需要任何监督。事实上，自监督学习并不是无监督的，因为这个过程使用的反馈信号远远多于标准的监督学习和强化学习的方法。

面向语言与视觉的自监督学习

自监督学习对 NLP 有着十分深远的影响。它允许我们在大规模未标记文本数据集上训练例如BERT、 RoBERTa、 XLM-R 等模型，并将这些模型应用于下游任务。这些模型在自监督阶段进行预训练，然后针对特定任务进行微调。

在自监督的预训练阶段，系统会显示一个短文本(通常是1000个词) ，其中一些词被遮挡或替换。训练之后，这个系统可以预测被遮挡或替换的词。在这个过程中，系统学会了表达文本的意思，这样它可以很好地填写出“正确的”词语，或者说在上下文中有正确表达含义的词语。

预测输入中缺失的部分是自监督学习预训练中一个比较标准的任务。要完成一个“ The (blank) chases the (blank) in The savanna”(xxx 在热带大草原上追逐着 xxx）这样的句子，系统必须知道狮子或猎豹可以追逐羚羊或角马；猫可以在厨房追逐老鼠，但却不是在热带大草原。作为训练的结果，系统学会了表达词的含义，词的句法角色，以及整个文本的意义。

然而，这些技术并不能很容易地扩展到新的领域，例如 CV领域。尽管早期的结果很有希望，自监督学习在计算机视觉方面还没有带来我们在 NLP 中看到的同样的改进(未来可能会有)。

主要原因是，在预测图像时要比预测文字时更难以表达不确定的事物。对于预测文字，如果无法准确预测被遮挡的词(是“狮子”还是“猎豹”？），系统可以将词汇表中所有可能的词与一个分数或概率联系起来。这样“ lion”、“ cheetah”或其他一些捕食者相关的词能够得分更高，而其他词的得分比较低。但图像却难以做到。

但是当我们预测视频中丢失的帧数或者图像中丢失的补丁时，我们不知道如何有效地表达不确定性。我们不可能列出所有可能的视频帧，并将其中的每一帧关联为一个分数，因为它们的数量是无穷尽的。这个问题限制了自监督学习在视觉方面的性能改进。但与此同时，新的自监督学习技术，例如 SwAV，正开始在视觉任务中打破SOTA记录。这在 SEER 系统中得到了最好的证明，该系统使用一个大型卷积网络，该网络利用十亿样本进行训练。

针对预测中的不确定性进行建模

为了更好地理解这一挑战，我们首先需要理解预测中的不确定性，以及与CV中相比，它是如何在 NLP 中建模的。

在 NLP 中，预测丢失的词，需要计算词汇表中每个可能的词的预测得分。尽管词表本身很大，预测一个缺失的词也会有一定程度的不确定性，但这问题不大，我们可以生成词表中所有可能的词的列表，以及该词在该位置出现的预估概率。

典型的机器学习系统可以将预测作为一个分类问题来处理，并使用一个巨大的所谓 softmax 层来计算每个结果的得分，这一层将原始得分转换为一个可能词的概率分布。使用这种技术，预测的不确定性，可以转化为对所有可能结果的概率分布，前提是可能结果的数量是有限的。

另一方面，在 CV 中，类似的任务是预测视频中的“缺失”帧、图像中的缺失补丁或语音信号中的缺失片段，这涉及到对高维连续物体的预测，而不是离散的结果。在给定视频片段之后，有无数可能的且合理的视频帧。

若想清晰表示所有可能的视频帧并将预测分数与它们关联起来，几乎是不可能的。事实上，我们可能永远没有技术来表示高维连续空间上合适的概率分布。

这似乎是一个棘手的问题。

自监督方法的统一观点

我们认为，可以使用基于能量的模型（energy-based model，EBM）作为自监督学习的统一框架。

能量模型是这样一个可训练系统：给定两个输入，x 和 y，告诉我们它们之间是多么不兼容。例如，x 是一个短视频片段，y 可以是另一个视频片段，机器会告诉我们 y 在多大程度上是 x 的好延续。为了表示 x 和 y 之间的不兼容性，机器会产生一个数字，称为能量。如果能量低，则认为 x 和 y 是相容的；如果能量高，则认为它们是不相容的。

基于能量的模型(EBM)用来衡量观测值 x 和预测值 y 之间的相容性。如果 x 和 y 是相容的，那么能量就是一个小数; 如果 x 和 y 是不相容的，那么能量就是一个大数。

训练一个能量模型包括两个部分: （1）向它展示兼容的 x 和 y 的样例，并训练它产生较低的能量；（2）找到一种方法，确保对于一个特定的 x，与 x 不兼容的 y ，相比与 x 兼容的 y，会有更高的能量。

第一种是简单的，第二种是困难所在。

对于图像识别，我们的模型采用两幅图像，x 和 y 作为输入。如果 x 和 y 是同一张图像的轻微变形，则训练出的模型会输出一个较低的能量。举例来说，x 可以是一张汽车的照片，y 可以是同一辆汽车在一天中不同时间或不同视角位置拍摄的照片。

联合嵌入，孪生神经网络

一个特别适合这样做的深度学习架构，是所谓的孪生神经网络或联合嵌入架构。这个想法可以追溯到20世纪90年代早期，以及2000年中期Geoff Hinton 实验室和 Yann LeCun 团队的论文。

在相当长的一段时间里，它相对来说都被忽视了。但自2019年底以来，这种方法得到了复兴。联合嵌入体系结构由同一网络的两个相同(或几乎相同)副本组成。一个网络输入 x，另一个网络输入y。网络会分别产生两个代表 x 和 y 的嵌入向量。

第三个模块，在头部联合这两个网络，计算一个能量，作为两个嵌入向量之间的距离。当给模型输入一个图像的两个变形图片时，网络的参数会做调整，使得输出的距离能够更接近。

这种方式可以确保网络能够产生几乎相同的表征/嵌入，不管输入对象原来是图像还是文本。

联合嵌入结构。位于顶部的函数 c 产生一个标量能量，用于测量由具有相同参数的两个同卵双生网络产生的表示向量(嵌入)之间的距离(w)。当 x 和 y 是同一图像的不同版本时，系统被训练为产生低能量，这迫使模型为两幅图像产生相似的嵌入向量。困难的部分是训练模型，以便为不同的图像产生高能量(即不同的嵌入)。

难点在于当 x 和 y 是不同的图像时，确保网络产生高能量，即不同的嵌入向量。如果没有特定的方法，这两个网络会忽略它们的输入，且总是产生相同的输出嵌入。这种现象被称为坍缩。当坍缩发生时，不匹配的 x 和 y 的能量并不比匹配的 x 和 y 的能量高。

有两类技术可以避免坍缩: 对比方法和正则化方法。

基于能量的对比自监督学习方法

对比方法的基本思想是构造不相容的 x - y 对，并调整模型的参数使得相应的输出能量较大。

用对比方法训练能量模型，包括同时从训练集中压缩兼容(x，y)对的能量(用蓝点表示) ，同时压缩以绿点表示的精心选择的(x，y)对的能量(用绿点表示)。在这个简单的例子中，x 和 y 都是标量，但在实际情况中，x 和 y 可能是一个具有数百万维度的图像或视频。找出不相容的x-y对，从而以适当的方式塑造能量，从计算上讲是具有挑战且昂贵的。

通过遮盖或替换某些输入词来训练 NLP 系统的方法属于对比法的范畴。但是它们没有采用联合嵌入结构。相反，它们使用一种预测结构，在这种结构中，模型直接为 y 生成预测。一开始是一段完整的文本 y，然后破坏它，例如通过遮盖一些词来生成观察 x。

破坏的输入会被输入到一个大型神经网络中进行训练，来重现原始文本 y。

将一个没有破坏的文本，重建为自身，这时为低重建错误；而将一个破坏的文本重建，这时或得到一个较大的重建错误。如果将重建错误解释为能量，它将具有所期望的特性: 正常的文本，能量较低；被破坏的文本，能量较高。

训练一个模型，对一个被损坏的输入进行恢复，这项技术被称为去噪自动编码器。虽然这个想法最早可以追溯到20世纪80年代，但2008年蒙特利尔大学Pascal Vincent等人重新提出这个模型，随后由Collobert 和 Weston把它引入到 NLP 当中，后通过谷歌发表的 BERT 论文流行起来。

掩码语言模型是去噪自动编码器的一个实例，本身就是对比自监督学习的一个实例。变量 y 是一个文本片段；x 是文本中某些词被屏蔽的版本。网络经过训练可以重构未被破坏的文本。

正如我们前面所指出的，这种类型的预测架构只能对给定的输入产生单个预测。因为模型必须能够预测多种可能的结果，所以预测不是一组词，而是一系列词汇表中每个缺失词位置的得分。

但是我们不能对图像使用这个技巧，因为我们不能枚举所有可能的图像。这个问题有解决办法吗？简单来说，答案是否定的。在这个方向上有很多有趣的想法，但是它们还没有产生和联合嵌入结构一样好的结果。一个有趣的途径是隐变量预测架构。

一种隐变量预测结构。给定一个观测值 x，该模型必须能够产生一组由图中 s 形带状符号的多重兼容预测。由于隐变量 z 在一个集合中变化，由一个灰色正方形表示，输出随着一组似是而非的预测而变化。

隐变量预测模型包含一个额外的输入变量(z)。它被称为latent，因为它的值从来没有被观察到。在一个训练好的模型中，当隐变量在给定集合中变化时，输出预测会随着与输入 x 相容的合理预测集合的变化而变化。

隐变量模型可以用对比方法进行训练。一个很好的例子就是生成对抗性网络(GAN)。鉴别器可以看作在计算一个能量，表明输入 y 是否看起来不错。生成器会产生对比样本，训练鉴别器会与高能量联系在一起。

但是对比方法有一个主要的问题: 它们训练起来效率很低。在图像这样的高维空间中，有许多方式可以使一个图像与另一个图像不同。找到一组能够涵盖它们与给定图像的所有不同方面的对比图像几乎是不可能的任务。

套用列夫 · 托尔斯泰的《安娜 · 卡列尼娜》中的一句话：“幸福的家庭都是相似的，不幸的家庭各有各的不同。”

这似乎适用于任何一类高维物体。

如果有可能确保不相容对的能量高于相容对的能量，而不明确去提高不相容对的能量，那会怎样呢？

基于能量的非对比自监督学习

应用于联合嵌入架构的非对比方法（Non-contrastive methods）可能是当前视觉自监督学习研究的热点。这一领域在很大程度上还是一篇荒芜，不过也包含了极大的希望。

非对比的联合嵌入方法包括DeeperCluster, ClusterFit, MoCo-v2, SwAV, SimSiam, Barlow Twins, DeepMind的BYOL等。它们使用各种技巧，如对相似图像的组进行计算虚拟目标嵌入(DeeperCluster, SwAV, SimSiam)，或通过架构或参数向量使两个联合嵌入架构略有不同(BYOL, MoCo)。Barlow Twins 尝试最小化嵌入向量各个分量之间的冗余。

也许从长远来看，一个更好的选择是，设计一种带有隐变量预测模型的非对比方法。这里主要的困难是，它们需要一种方法来最小化隐变量的容量。隐变量可以在其上变化的集合的体积，限制了使用低能量的输出的体积。通过最小化这个体积，我们就能自动地塑造能量。

这种方法的一个成功例子是变分自编码器(VAE)，它将隐变量“模糊化”，从而限制了其能力。但是，目前还没有研究表明VAE能够对下游的视觉任务产生良好的表征。

另一个成功的例子是稀疏建模，但它的使用仅限于简单的架构。似乎还没有比较完美的方法来限制隐变量的能力。

未来几年的挑战可能是，为基于能量的隐变量模型设计非对比方法，从而成功地生成图像、视频、语音和其他信号的好的表征，并在不需要大量标记数据的情况下在下游监督任务中获得最佳性能。

自监督学习应用于视觉的研究进展

最近，我们创建并开放了一个新的、具有10亿参数的自监督CV模型SEER，可以有效地处理复杂的高维图像数据。

SEER 基于应用于卷积网络架构（ConvNet）中的SwAV方法，可以从大量随机图像中训练，而不需要任何元数据或标注。ConvNet足够大，因此可以从这些庞大且复杂的数据中捕捉并学习每一个视觉概念。

在对10亿张随机的、未标注的，也没有做任何组织的instagram公开数据进行预训练，并对ImageNet进行有监督微调后，SEER的表现超过了目前最先进的自监督系统，在ImageNet上达到了84.2%的准确率。这些结果表明，我们可以将自监督学习范式迁移到计算机视觉当中。

Facebook如何用自监督学习

在Facebook，我们不仅通过基础的、开放的科学研究，在许多领域推进自监督学习技术，还将这种前沿工作应用到生产中，来提高我们产品内容理解系统的准确性，确保人们在我们平台上的安全。

自监督研究，就像我们预训练语言模型XLM，正在加速Facebook的一些重要应用——包括主动检测仇恨言论。我们已经部署了XLM-R，这是一个利用RoBERTa架构的模型，它可以改进我们在Facebook和Instagram上的多种语言的仇恨言论分类器。这将使那些即使训练数据很少的语言，对仇恨语音进行检测也成为了可能。

尽管要让这种方法帮助我们发现人工智能的暗物质还有很长的路要走，但近年来自监督的进步仍然让我们深受鼓舞。自监督是通往人类智力水平道路上的一步，但这一步背后肯定还有很多步骤。长期的成就，都是由一系列小的步伐累积出来的。这也是为什么我们致力于与更广泛的人工智能社区合作，来实现我们的目标，希望有一天，能够制造出具有人类智能水平的机器。我们的研究已经公开，并在顶级会议上发表；我们还组织了研讨会并发布了书籍，以帮助加速这一领域的研究。

你可能感兴趣的:(人工智能,大数据,编程语言,python,计算机视觉)

Python之pip的安装和使用详细教程叫我技术帝 Python python
我们都知道python有海量的第三方库或者说模块，这些库针对不同的应用，发挥不同的作用。我们在实际的项目中，或多或少的都要使用到第三方库，那么如何将他人的库加入到自己的项目中内呢？打个电话？大哥你好，想用下你那个库，麻烦给邮箱发个源码呗！显然这是个笑话。Python官方的PyPi仓库为我们提供了一个统一的代码托管仓库，所有的第三方库，甚至你自己写的开源模块，都可以发布到这里，让全世界的人分享下载。
python使用pip安装本地包-Python之pip使用详解|附第三方库安装总结 weixin_37988176
首先简单介绍下pip是什么？pip是python的第三方库管理器，可以根据所开发项目的需要，使用pip相关命令安装不同库。Pyhon3.4以后，pip都默认跟Python一块安装，pip在python安装目录中的位置如下：执行方法：运行【win+R】+cmd，执行pip，查看是否安装成功。（找不到命令，则需要手动添加到环境变量）python官方提供了一个pypi库（https://pypi.org
2024年09月中国电子学会青少年软件编程（Python）等级考试试卷（二级）答案 + 解析伶俐角少儿编程 python 少儿编程青少年编程等级考试中国电子学会青少年编程
青少年软件编程（Python）等级考试试卷（二级）分数：100题数：37点击前往在线模拟练习一、单选题(共25题，共50分)1.a=['甲','乙','丙','丁','子','丑']print(a[4])以上代码的输出是ÿ
Python pip download下载安装包到指定路径飘～～～～ python
一、Python第三方安装包下载pipdownload-dsave_pathpackages-d:后面接下载包路径(save_path)packages:安装包名称二、Python第三方安装包安装2.1whl包python-mpipinstallxxx.whl2.2tar.gz包tar-zxvfxxx.tar.gzcdxxxpythonsetup.pybuildpythonsetup.pyinst
【免费】中国电子学会2024年03月份青少年软件编程Python等级考试试卷二级真题(含答案) Lemon Liu 电子学会Python真题前端 javascript microsoft python 青少年编程
2024-03Python二级真题分数：100题数：37测试时长：60min一、单选题(共25题，共50分)1.期末考试结束了，全班的语文成绩都储存在列表score中，班主任老师请小明找到全班最高分，小明准备用Python来完成，以下哪个选项，可以获取最高分呢？（B）（2分）A.min(score)B.max(score)C.score.max()D.score.min()答案解析：max()函数
中国电子学会202309青少年软件编程（Python）等级考试试卷（二级）真题晴朗向上 python 考级编程开发语言 microsoft
青少年软件编程（Python）等级考试试卷（二级）分数：100题数：37一、单选题（共25题，每题2分，共50分）1、yyh = [2023, '杭州亚运会', ['拱宸桥', '玉琮''莲叶']]jxw = yyh[2][0]print(jxw[1] * 2)以上代码运行结果是？（）A.宸宸B.杭杭C.玉玉D.州州2、阿宝在学习Python语言编程，他写了一个程序可以实现输入月份数字就可以输出2
2024年9月中国电子学会青少年软件编程（Python）等级考试试卷（三级）答案 + 解析 Sinsa_SI python windows 开发语言电子学会等级考试
更多真题在线练习系统：历年真题在线练习系统一、单选题1、以下表达式的值为True的是？（）A.all('','1','2','3')B.any([])C.bool('abc')D.divmod(6,0)正确答案：C答案解析：A和B选项，False；D选项，报错；C选项，True。2、下列代码的运行结果是？（）l=list(map(float,(1,2,3,4)))print(l)A.[1,2,3,
2024年9月电子学会青少年软件编程Python等级考试（三级）真题试卷 No0d1es 青少年软件编程（Python）等级考试试卷 python 开发语言青少年编程电子学会三级
2024年9月青少年软件编程Python等级考试（三级）真题试卷选择题第1题单选题以下python表达式的值为True的是？（）A.all('','1','2','3')B.any([])C.bool('abc')D.divmod(6,0)第2题单选题下列python代码的运行结果是？（）l=list(map(float,(1,2,3,4)))print(l)A.[1,2,3,4]B.['1','
【mysql】mysql之主从部署以及介绍向往风的男子 DBA mysql 数据库
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》从问题中去学习k8s《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》
MySQL5.6主从复制最佳实践 weixin_34252090 数据库操作系统 python
2019独角兽企业重金招聘Python工程师标准>>>MySQL5.6主从复制最佳实践MySQL5.6主从复制的配置环境操作系统：CentOS-6.6-x86_64MySQL版本：mysql-5.6.26.tar.gz主节点IP：192.168.31.57主机名：edu-mysql-01从节点IP：192.168.31.59主机名：edu-mysql-02MySQL主从复制官方文档http://d
DeepSeek爆火，背后模型竟藏着这些秘密！ qq_23519469 ai
DeepSeek是什么来头最近，AI圈可是被一个名字刷爆了屏，那就是DeepSeek！它就像一颗横空出世的超级新星，在全球范围掀起了一阵狂热的追捧潮，这热度，简直了！大家都在疯狂讨论它，各种测评、对比层出不穷。它到底有啥过人之处，能让这么多人都为之疯狂？今天咱就来好好唠唠。DeepSeek，全称杭州深度求索人工智能基础技术研究有限公司，是一家专注于开发先进大语言模型（LLM）和相关技术的企业。它成
从0到1，带你快速上手Scala语言 qq_23519469 scala 开发语言后端
什么是ScalaScala，读作“skah-lah”，是“ScalableLanguage”的缩写，是一门多范式编程语言。它就像是编程世界里的“变形金刚”，融合了面向对象编程（OOP）和函数式编程（FP）的特性，这意味着开发者能在同一语言中，把面向对象的设计和函数式编程的抽象结合起来使用，超级灵活！它运行在Java虚拟机（JVM）上，能与现有的Java代码无缝集成。这就好比Scala是Java的“
一文搞懂大数据神器Spark，真的太牛了！ qq_23519469 大数据 spark 分布式
Spark是什么在如今这个大数据时代，数据量呈爆炸式增长，传统的数据处理方式已经难以满足需求。就拿电商平台来说，每天产生的交易数据、用户浏览数据、评论数据等，数量巨大且种类繁多。假如要对这些数据进行分析，比如分析用户的购买行为，找出最受欢迎的商品，预测未来的销售趋势等，用普通的单机处理方式，可能需要花费很长时间，甚至根本无法完成。这时，Spark就应运而生了。Spark是一个开源的、基于内存计算的
vs code配置python_如何在vscode里的python配置好matplotlib？,vscode配置python环境教程 weixin_39564151 vs code配置python
如何在vscode里的python配置好matplotlib？,vscode配置python环境教程vscode配置python环境教程2020-09-2015:14:33人已围观VScode配置Python环境“配置任务运行程序”遇到问题我建议尝试再把bug写出来，不能因为不一样就不继续首先需要VScodePython插件。打开Python任意脚可以直接拖入。点击左下角的扩展按钮，在弹出界面选择
TikTokenizer 开源项目教程邱纳巧Gillian
TikTokenizer开源项目教程tiktokenizerOnlineplaygroundforOpenAPItokenizers项目地址:https://gitcode.com/gh_mirrors/ti/tiktokenizer项目介绍TikTokenizer是一个基于Python的开源项目，旨在提供一个高效、灵活的文本分词工具。该项目利用先进的算法和数据结构，能够快速准确地对文本进行分词处
python类方法和类的实例化 Cachel wood 程序设计杂事 python 开发语言 mysql hive sql 机器学习数据库
文章目录类方法实例方法类方法静态方法特殊方法私有方法Python类的实例化1.调用`__new__`方法2.调用`__init__`方法3.返回实例对象总结类方法在Python里，类的自定义方法是类中用户自行定义的函数，这些方法能够实现特定的功能，并且可以访问和操作类的属性。下面详细介绍Python类中常见的自定义方法。实例方法定义：实例方法是类中最常见的方法，它的第一个参数通常是self，代表类
python 输入一行字符串删除其中所有大写字母后输出_Python练习题3.17删除字符 weixin_39624873 python 输入一行字符串删除其中所有大写字母后输出
输入一个字符串str，再输入要删除字符c，大小写不区分，将字符串str中出现的所有字符c删除。输入格式:在第一行中输入一行字符在第二行输入待删除的字符输出格式:在一行中输出删除后的字符串输入样例:在这里给出一组输入。例如：beee输出样例:在这里给出相应的输出。例如：result:b代码如下：#!/usr/bin/python#-*-coding:utf-8-*-s=input().strip()
AI人工智能代理工作流AI Agent WorkFlow：设计智能任务处理流程 AI天才研究院计算 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能代理工作流AIAgentWorkFlow：设计智能任务处理流程作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来在当今的数字化时代，随着数据量的爆炸式增长和复杂性的提升，传统的手动任务处理方式已经无法满足高效、准确的需求。人工智能技术的发展为自动化任务处理提供了新的可能性。AI人工智能代理（AIAgent）作为一
Telegram bot教程：通过BotFather设置Telegram bot的命令菜单鲲志说 Web3相关业界资讯 telegram bot 经验分享笔记 twitter Telegram Bot
最近在研究Telegrambot嘛，总有些小细节可以记录了，今天就记录一个通过BotFather设置Telegrambot的命令菜单功能➡️【好看的灵魂千篇一律，有趣的鲲志一百六七！】-欢迎认识我～～作者：鲲志说（公众号、B站同名，视频号：鲲志说996）科技博主：极星会星辉大使后端研发：java、go、python、TS，前电商、现web3主理人：COC杭州开发者社区主理人、周周黑客松杭州主理人、
Python,C++开发餐饮后厨环境远程管理APP Geeker-2025 python c++
开发一款用于**餐饮后厨环境远程管理**的App，结合Python和C++的优势，可以实现高效的后端数据处理、实时的环境监控以及用户友好的前端界面。以下是一个详细的开发方案，涵盖技术选型、功能模块、开发步骤等内容。##技术选型###后端（Python）-**编程语言**：Python-**Web框架**：Django或Flask-**数据库**：PostgreSQL或MySQL-**实时通信**：
清晰易懂的Python安装与配置教程 Tee xm python 开发语言
初学者也能看懂的Python安装与配置教程本教程将手把手教你安装Python，并配置国内镜像源和自定义依赖包缓存位置，即使你是零基础小白，也能轻松完成！一、准备工作操作系统：Windows10/11、macOS或Linux。下载工具：浏览器（推荐Chrome或Edge）。存储空间：至少预留500MB可用空间。二、安装Python1.下载Python访问Python官网下载页面：https://ww
双均线量化策略实战指南：基于 iTick 外汇API、股票API报价源的 Python 实现算法pythonai开发
在量化交易领域，iTick报价API凭借其强大的多市场覆盖能力，已成为专业交易员的首选数据解决方案。其外汇API支持全球主要货币对（如EURUSD、GBPUSD）的毫秒级行情推送，包含Bid/Ask深度报价和实时波动率数据；股票API则覆盖A股、港股及美股市场，提供Level-2逐笔成交和十档盘口信息。通过统一的RESTful接口，开发者可轻松获取标准化的OHLCV数据，实现外汇、股票等多资产策略
1.1PaddleTS_环境配置：一个易用的深度时序建模的Python库 pythonQA python paddlepaddle
PaddleTS是一个易用的深度时序建模的Python库，它基于飞桨深度学习框架PaddlePaddle，专注业界领先的深度模型，旨在为领域专家和行业用户提供可扩展的时序建模能力和便捷易用的用户体验。PaddleTS的主要特性包括：设计统一数据结构，实现对多样化时序数据的表达，支持单目标与多目标变量，支持多类型协变量封装基础模型功能，如数据加载、回调设置、损失函数、训练过程控制等公共方法，帮助开发
【大模型科普】AIGC技术发展与应用实践（一文读懂AIGC）人工智能
【专栏介绍】⌈⌈⌈人工智能与大模型应用⌋⌋⌋人工智能（AI）通过算法模拟人类智能，利用机器学习、深度学习等技术驱动医疗、金融等领域的智能化。大模型是千亿参数的深度神经网络（如ChatGPT），经海量数据训练后能完成文本生成、图像创作等复杂任务，显著提升效率，但面临算力消耗、数据偏见等挑战。当前正加速与教育、科研融合，未来需平衡技术创新与伦理风险，推动可持续发展。文章目录一、AIGC概述（一）什么是
Ada语言的数据结构与算法尤宸翎包罗万象 golang 开发语言后端
Ada语言的数据结构与算法引言在计算机科学的领域里，数据结构与算法是核心的组成部分，围绕着如何高效地存储和处理数据。这些概念不仅是程序设计的重要基础，也是提高程序性能的关键。Ada是一种强类型、结构化的编程语言，早在20世纪80年代就被设计用于军用和实时系统。由于其高可靠性和可维护性，Ada逐渐在航空航天、军事和其他需要高安全性的领域获得了广泛应用。本文将探讨Ada语言中的数据结构和算法，包括常见
蓝桥杯pythonB组备赛暴力执码蓝桥杯职场和发展
P1003[NOIP2011提高组]铺地毯题目描述为了准备一个独特的颁奖典礼，组织者在会场的一片矩形区域（可看做是平面直角坐标系的第一象限）铺上一些矩形地毯。一共有n张地毯，编号从1到n。现在将这些地毯按照编号从小到大的顺序平行于坐标轴先后铺设，后铺的地毯覆盖在前面已经铺好的地毯之上。地毯铺设完成后，组织者想知道覆盖地面某个点的最上面的那张地毯的编号。注意：在矩形地毯边界和四个顶点上的点也算被地毯
Halcon 和 opencv比有什么区别与优劣 yuanpan opencv 人工智能计算机视觉
Halcon和OpenCV都是机器视觉领域的重要工具，但它们的设计目标、功能特点和适用场景有所不同。以下是两者的详细对比：1.定位与目标用户Halcon：定位：商业机器视觉软件，专注于工业应用。目标用户：工业自动化、质量控制、机器人引导等领域的专业开发者。OpenCV：定位：开源计算机视觉库，适用于通用图像处理和计算机视觉任务。目标用户：学术研究、教育、初创公司以及需要低成本解决方案的开发者。2.
解决 Python 中 `cv2` 模块部分初始化导致的 `AttributeError` Leuanghing python 开发语言
解决Python中cv2模块部分初始化导致的AttributeError在Python开发中，尤其是使用OpenCV库进行图像处理时，可能会遇到一些令人困惑的错误。今天，我们就来探讨一个常见的错误：AttributeError:partiallyinitializedmodule'cv2'hasnoattribute'gapi_wip_gst_GStreamerPipeline'，并提供一个有效的
Julia语言的饼图尤宸翎包罗万象 golang 开发语言后端
Julia语言的饼图：全面剖析与实战指南引言在数据可视化的领域中，饼图作为一种经典的可视化工具，广泛用于展示各个分类在总体中的占比关系。尽管饼图在一些数据分析师中被视为相对简单和直观的图形，但它在实际运用中依然扮演着重要角色。本文将重点探讨如何使用Julia语言实现饼图的绘制，分析其背后的逻辑，并通过实例帮助读者掌握这一基本技能。Julia语言简介Julia是一种高性能、高级别的编程语言，适用于数
python 正则表达式的语法及使用主打Python 正则表达式 python 基础语法正则表达式 python
python正则表达式的语法及使用概念：按照程序员的指示，字符串里提取你要的数据。应用：爬虫清洗数据，匹配电话，匹配邮箱，匹配账号……最重要的就是（.*?）正则语法（元字符）1、？：前面的内容出现0-1次2、+：前面的内容出现1-多次3、*：前面的内容出现0-多次‘’’正则(Regular)：记住的点：1、(.？)2、re.findall()结果是一个列表3、用(.?)的是后，一定要复制，而不是手
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts