夕小瑶

OpenAI超级视频模型Sora技术报告解读，虚拟世界涌现了

昨天白天，「现实不存在了」开始全网刷屏。

「我们这么快就步入下一个时代了？Sora简直太炸裂了」。

「这就是电影制作的未来」！

谷歌的Gemini Pro 1.5还没出几个小时的风头，天一亮，全世界的聚光灯就集中在了OpenAI的Sora身上。

Sora一出，众视频模型臣服。

就在几小时后，OpenAI Sora的技术报告也发布了！

其中，「里程碑」也成为报告中的关键词。

报告地址：https://openai.com/research/video-generation-models-as-world-simulators

技术报告主要介绍了两个方面：

（1）如何将不同类型的视觉数据转化为统一的格式，以便于对生成模型进行大规模训练的方法；

（2）对Sora的能力和局限性的定性评价。

不过遗憾的是，报告不包括模型和实现细节。嗯，OpenAI还是那个「OpenAI」。

就连马斯克都被Sora生成效果震撼到，并表示「gg人类」。

打造虚拟世界模拟器

此前，OpenAI的研究者一直在探索的一个难题就是，究竟怎样在视频数据上，应用大规模训练的生成模型？

为此，研究者同时对对持续时间、分辨率和宽高比各不相同的视频和图片进行了训练，而这一过程正是基于文本条件的扩散模型。

他们采用了Transformer架构，这种架构能够处理视频和图片中时空片段的潜代码。

随之诞生的最强大模型Sora，也就具备了生成一分钟高质量视频的能力。

OpenAI研究者发现了令人惊喜的一点：扩展视频生成模型的规模，是构建模拟物理世界通用模拟器的非常有希望的方向。

也就是说，顺着这个方向发展，或许LLM真的能够成为世界模型！

Sora的独到之处在于哪里？

要知道，以前的许多研究，都是通过各种技术对视频数据进行生成模型建模，比如循环网络、生成对抗网络、自回归Transformer和扩散模型等方法。

它们往往只关注于特定类型的视觉数据、较短的视频或者固定尺寸的视频。

而Sora与它们不同，它是一种通用的视觉数据模型，能够生成各种持续时间、宽高比和分辨率的视频和图片，甚至长达一分钟的高清视频。

有网友表示，「Sora虽然有一些不完美之处（可以检测出来），例如从物理效果可以看出它是人工合成的。但是，它将会革命性地改变许多行业。

想象一下可以生成动态的、个性化的广告视频进行精准定位，这将是一个万亿美元的产业」！

为了验证SORA的效果，业界大佬Gabor Cselle把它和Pika、RunwayML和Stable Video进行了对比。

首先，他采用了与OpenAI示例中相同的Prompt。

结果显示，其他主流工具生成的视频都大约只有5秒钟，而SORA可以在一段长达17秒视频场景中，保持动作和画面一致性。

随后，他将SORA的起始画面用作参照，努力通过调整命令提示和控制相机动作，尝试使其他模型产出与SORA类似的效果。

相比之下，SORA在处理较长视频场景方面的表现显著更出色。

看到如此震撼的效果，也难怪业内人士都在感叹，SORA在AI视频制作领域确实具有革命性意义。

将视觉数据转化为patch

LLM之所以会成功，就是因为它们在互联网规模的数据上进行了训练，获得了广泛能力。

它成功的一大关键，就是使用了token，这样，文本的多种形态——代码、数学公式以及各种自然语言，就优雅地统一了起来。

OpenAI的研究者，正是从中找到了灵感。

该如何让视觉数据的生成模型继承token的这种优势？

注意，不同于LLM使用的文本token，Sora使用的是视觉patch。

此前已有研究表明，patch对视觉数据建模非常有效。

OpenAI研究者惊喜地发现，patch这种高度可扩展的有效表征形式，正适用于训练能处理多种类型视频和图片的生成模型。

从宏观角度来看，研究者首先将视频压缩到一个低维潜空间中，随后把这种表征分解为时空patch，这样就实现了从视频到patch的转换。

视频压缩网络

研究者开发了一个网络，来减少视觉数据的维度。

这个网络可以接受原始视频作为输入，并输出一个在时间上和空间上都进行了压缩的潜表征。

Sora在这个压缩后的潜空间中进行训练，之后用于生成视频。

另外，研究者还设计了一个对应的解码器模型，用于将生成的潜数据转换回像素空间。

潜空间patch

对于一个压缩后的输入视频，研究者提取看一系列空间patch，作为Transformer的token使用。

这个方案同样适用于图像，因为图像可以被视为只有一帧的视频。

基于patch的表征方法，研究者使得Sora能够处理不同分辨率、持续时间和纵横比的视频和图像。

在推理时，可以通过在一个合适大小的网格中适当排列随机初始化的patch，从而控制生成视频的大小。

因此，视频模型Sora是一个扩散模型；它能够接受带有噪声的patch（和条件信息，如文本提示）作为输入，随后被训练，来预测原始的「干净」patch。

重要的是，Sora是基于Transformer的扩散模型。在以往，Transformer在语言模型、计算机视觉和图像生成等多个领域，都表现出卓越的扩展能力。

令人惊喜的是，在这项工作中，研究者发现作为视频模型的扩散Transformer，也能有效地扩展。

下图展示了训练过程中使用固定种子和输入的视频样本比较。

随着训练计算资源的增加，样本质量显著提升。

视频的多样化表现

传统上，图像和视频的生成技术往往会将视频统一调整到一个标准尺寸，比如4秒钟、分辨率256x256的视频。

然而，OpenAI研究者发现，直接在视频的原始尺寸上进行训练，能带来诸多好处。

灵活的视频制作

Sora能够制作各种尺寸的视频，从宽屏的1920x1080到竖屏的1080x1920，应有尽有。

这也就意味着，Sora能够为各种设备制作适配屏幕比例的内容！

它还可以先以较低分辨率快速制作出视频原型，再用相同的模型制作出全分辨率的视频。

更优的画面表现

实验发现，直接在视频原始比例上训练，能够显著提升视频的画面表现和构图效果。

因此，研究者将Sora与另一个版本的模型进行了比较，后者会将所有训练视频裁剪为正方形，这是生成模型训练中的常见做法。

与之相比，Sora生成的视频（右侧）在画面构成上则有了明显的改进。

深入的语言理解

训练文本到视频的生成系统，需要大量配有文本说明的视频。

研究者采用了DALL·E 3中的重新标注技术，应用在了视频上。

首先，研究者训练了一个能生成详细描述的标注模型，然后用它为训练集中的所有视频，生成文本说明。

他们发现，使用详细的视频说明进行训练，不仅能提高文本的准确性，还能提升视频的整体质量。

类似于DALL·E 3，研究者也使用了GPT，把用户的简短提示转化为详细的说明，然后这些说明会被输入到视频模型中。

这样，Sora就能根据用户的具体要求，生成高质量、准确无误的视频。

图像和视频的多样化提示

虽然展示的案例，都是Sora将文本转换为视频的demo，但其实，Sora的能力不止于此。

它还可以接受图像或视频等其他形式的输入。

这就让Sora能够完成一系列图像和视频编辑任务，比如制作无缝循环视频、给静态图片添加动态、在时间线上扩展视频的长度等等。

为DALL·E图像赋予生命

Sora能够接受一张图像和文本提示，然后基于这些输入生成视频。

下面即是Sora基于DALL·E 2和DALL·E 3图像生成的视频。

一只戴贝雷帽和黑高领衫的柴犬

一家五口怪物的插画，采用了简洁明快的扁平设计风格。其中包括一只毛茸茸的棕色怪物，一只光滑的黑色怪物长着天线，还有一只绿色的带斑点怪物和一只小巧的带波点怪物，它们在一个欢快的场景中相互玩耍。

一张逼真的云朵照片，上面写着「SORA」。

在一个典雅古老的大厅内，一道巨浪滔天，正要破浪而下。两位冲浪者把握时机，巧妙地滑行在浪尖上。

视频时间线的灵活扩展

Sora不仅能生成视频，还能将视频沿时间线向前或向后扩展。

可以看到，demo中的视频都是从同一个视频片段开始，向时间线的过去延伸。尽管开头各不相同，但它们最终都汇聚于同一个结尾。

而通过这种方法，我们就能将视频向两个方向延伸，创造出一个无缝的循环视频。

图像的生成能力

同样，Sora也拥有生成图像的能力。

为此，研究者将高斯噪声patch排列在空间网格中，时间范围为一帧。

该模型可生成不同大小的图像，分辨率最高可达2048x2048像素。

左：一位女士在秋季的特写照片，细节丰富，背景模糊。

右：一个生机勃勃的珊瑚礁，居住着五颜六色的鱼类和海洋生物。

左：一幅数字绘画，描绘了一只幼年老虎在苹果树下，采用了精美的哑光画风。

右：一个被雪覆盖的山村，温馨的小屋和壮丽的北极光相映成趣，画面细腻逼真，采用了50mm f/1.2镜头拍摄。

视频风格和环境的变换

利用扩散模型，就能通过文本提示来编辑图像和视频。

在这里，研究者将一种名为SDEdit的技术应用于Sora，使其能够不需要任何先验样本，即可改变视频的风格和环境。

视频之间的无缝连接

另外，还可以利用Sora在两个不同的视频之间创建平滑的过渡效果，即使这两个视频的主题和场景完全不同。

在下面的demo中，中间的视频就实现了从左侧到右侧视频的平滑过渡。

一个是城堡，一个是雪中小屋，非常自然地融进一个画面中。

，时长00:20

，时长00:17

，时长

，时长00:17

涌现的模拟能力

随着大规模训练的深入，可以发现视频模型展现出了许多令人兴奋的新能力。

Sora利用这些能力，能够在不需要专门针对3D空间、物体等设置特定规则的情况下，就模拟出人类、动物以及自然环境的某些特征。

这些能力的出现，完全得益于模型规模的扩大。

3D空间的真实感

Sora能创造出带有动态视角变化的视频，让人物和场景元素在三维空间中的移动，看起来十分自然。

如下，一对情侣漫步在雪天中的东京，视频的生成和真实的运镜效果大差不差了。

再比如，Sora拥有更加辽阔的视野，生成山水风景与人徒步爬山的视频，有种无人机拍摄出的巨制赶脚。

视频的一致性和物体的持续存在

在生成长视频时，保持场景和物体随时间的连续性一直是个挑战。

Sora能够较好地处理这一问题，即便在物体被遮挡或离开画面时，也能保持其存在感。

下面例子中，窗台前的花斑狗，即便中途有多个路人经过，它的样子依旧保持一致。

例如，它可以在一个视频中多次展示同一个角色，而且角色的外观在整个视频中保持一致。

赛博风格的机器人，从前到后旋转一圈，都没有跳帧。

与世界的互动

甚至，Sora能模拟出影响世界状态的简单行为。

比如，画家画的樱花树，水彩纸上留下了持久的笔触。

又或是，人吃汉堡时留下的咬痕清晰可见，Sora的生成符合物理世界的规则。

数字世界的模拟

Sora不仅能模拟现实世界，还能够模拟数字世界，比如视频游戏。

以「Minecraft」为例，Sora能够在控制玩家角色的同时，以高度逼真的方式渲染游戏世界和动态变化。

而且，只需通过简单的提示，如提及「Minecraft」，Sora就能展现这些能力。

这些新能力显示出，持续扩大视频模型规模是一个极有希望的方向，让模型向着精准模拟物理世界和数字世界、以及其中的生物和物体的高级模拟器发展。

涌现的模拟能力

当然，作为一个模拟器，Sora目前还存在不少的局限。

比如，它虽然能模拟一些基础物理互动，比如玻璃的碎裂，但还不够精确。

模拟吃食物的过程，也并不总是能准确反映物体状态的改变。

在网站首页上，OpenAI详细列出了模型的常见问题，比如在长视频中出现的逻辑不连贯，或者物体会无缘无故地出现。

最后，OpenAI表示，Sora目前所展现出的能力，证明了不但提升视频模式的规模是一个令人振奋的方向。

沿这个方向走下去，或许有一天，世界模型就会应运而生。

网友：未来游戏动嘴做

OpenAI给出众多的官方演示，看得出Sora似乎可以为更逼真的游戏生成铺路——仅凭文字描述就能生成程序游戏。

这既令人兴奋，又令人恐惧。

FutureHouseSF的联合创始人猜测，「或许Sora可以模拟我的世界。也许下一代游戏机将是「Sora box」，游戏将以2-3段文字的形式发布」。

OpenAI技术人员Evan Morikawa称，「在OpenAI发布的Sora视频中，如下的视频让我大开眼界。通过经典渲染器渲染这个场景是非常困难的。Sora模拟物理的方式和我们不同。它肯定仍然会出错，但是我之前没有预测到它能做得这么逼真」。

有网友称，「人们没有把『每个人都会成为电影制作人』这句话当回事」。

我在15分钟内制作了这部20年代的预告片，使用了OpenAI Sora的片段，David Attenborough在Eleven Labs上的配音，并在iMovie上从YouTube上采样了一些自然音乐。

还有人称，「5年后，你将能够生成完全沉浸式的世界，并实时体验它们，「全息甲板」即将变成现实」！

有人甚至表示，自己完全被Sora的AI视频生成的出色效果惊呆了。

「它让现有的视频模型看起来像是愚蠢的玩具。每个人都将成为一名电影制作人」。

「新一代电影制作人即将与OpenAI的Sora一起涌现。再过10年，这将是一场有趣的比赛」！

「OpenAI的Sora暂不会取代好莱坞。它将为好莱坞以及个人电影制作者和内容创作者，带来巨大的推动力。

想象一下，只需3人团队，就能在一周内，完成一部120分钟的A级故事片的初稿创作和观众测试。这就是我们的目标」。

探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
cmd泛滥_与您的后泛滥同事见面：人工智能机器人 weixin_26644585 人工智能 leetcode
cmd泛滥Readytoswapyouroldcube-mateforadisembodiedAI?IPsoftCEOChetanDube,creatorofAIco-workerAMELIA,giveshistakeonthepost-COVIDofficelandscape.准备将您的旧立方体伙伴换成无形的AI？AIsoft同事AMELIA的创始人IPsoft首席执行官ChetanDube阐述
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
全自动解密解码神器 — Ciphey K'illCode python_模块 python vscode
Ciphey是一个使用自然语言处理和人工智能的全自动解密/解码/破解工具。简单地来讲，你只需要输入加密文本，它就能给你返回解密文本。就是这么牛逼。有了Ciphey，你根本不需要知道你的密文是哪种类型的加密，你只知道它是加密的，那么Ciphey就能在3秒甚至更短的时间内给你解密，返回你想要的大部分密文的答案。下面就给大家介绍Ciphey的实战使用教程。1.准备开始之前，你要确保Python和pip已
埃隆·马斯克表示特斯拉“没有必要”授权 xAI 模型喜好儿网人工智能 AIGC 马斯克
埃隆·马斯克近日在社交媒体上对《华尔街日报》的一篇报道进行了反驳。该报道指出，马斯克旗下的电动汽车公司特斯拉可能与人工智能初创公司xAI达成了一项收入分享协议，以便特斯拉能够使用xAI的人工智能模型。据称，这些模型将被集成到特斯拉的全自动驾驶（FSD）软件中，并可能用于开发特斯拉汽车的语音助手以及人形机器人擎天柱的软件。喜好儿网然而，马斯克否认了这一说法，他在社交媒体平台上表示，尽管特斯拉确实与x
Reflection 70B——HyperWrite推出的大型语言模型新加坡内哥谈技术语言模型人工智能自然语言处理
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/在AI技术飞速发展的过程中，我们已经见证了可以写作、编程，甚至创造艺术的模型问世。但有一
5条实操干货有效打造你的个人品牌长安行动派
这是ZerK的第46篇原创相信大家对个人品牌这个词已经不在陌生。尤其是在知识付费的年代，你的个人品牌，就是你的标签！在《深度工作》中说到，在未来有三种人会越来越贵第一种人:能与机器对话，操纵机器的人。人工智能时代的到来，机器毕竟部分取代人类。第二种人:IP，知识产权或者文学潜在财产就像有些网上课程一周卖出的钱和一个机构卖一年一样多。价值99元的课程，10万人购买，是很常见的。爱产出大概就是10万✖
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况 m0_57781768 python langchain 语言模型
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况在现代的人工智能开发中，大型语言模型（LLM）已经成为了不可或缺的工具，无论是用于自然语言处理、对话生成，还是其他复杂的文本生成任务。然而，随着这些模型的广泛应用，开发者面临的一个重要挑战是如何有效地追踪和管理Token的使用情况，特别是在生产环境中，Token的使用直接影响着API调用的成本
LangChain集成指南:如何利用多样化的AI提供商 aehrutktrjk 人工智能 langchain python
LangChain集成指南:如何利用多样化的AI提供商引言在人工智能和机器学习领域,LangChain已成为一个强大而灵活的框架,允许开发者轻松集成各种AI服务提供商。本文将深入探讨LangChain的集成能力,介绍如何利用不同的AI提供商来增强你的应用程序,并提供实用的代码示例。LangChain集成概览LangChain支持多种AI提供商的集成,这些集成可以分为两类:独立包集成:这些提供商有独
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构汤萌妮Margaret
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构scalable_agent项目地址:https://gitcode.com/gh_mirrors/sc/scalable_agent在当今的人工智能研究前沿，深度强化学习（DRL）因其在复杂任务中的卓越表现而备受瞩目。本文要介绍的是一个开源于GitHub的重量级项目：“ScalableDistributedDeep-RLwithImp
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
解锁企业潜能，Vatee万腾平台引领智能新纪元自媒体经济说其他
在数字化转型的浪潮中，企业正站在一个前所未有的十字路口，面对着前所未有的机遇与挑战。解锁企业内在潜能，实现跨越式发展，已成为众多企业的共同追求。而Vatee万腾平台，作为智能科技的先锋，正以其强大的智能赋能能力，引领企业步入一个全新的智能纪元。Vatee万腾平台，是一个集成了人工智能、大数据、云计算等前沿技术的综合性智能服务平台。它不仅仅是一个技术工具，更是企业转型升级的加速器，能够深入企业运营的
LiteBee Wing测评：走进中小学课堂，合适的编程无人机非常重要！ song_bcbd
“国务院在《新一代人工智能发展规划》中明确，要广泛开展人工智能科普活动，实施全民智能教育项目，要在中小学阶段设置人工智能相关课程，逐步推广编程教育，鼓励社会力量参与寓教于乐的编程教学软件、游戏的开发和推广，而且要进行人工智能竞赛。”作为从事创客教育多年的老师，感谢在这个大环境，让学生能够了解人工智能，接触到前沿科技，同时也鼓励更多学生学习编程，因为没有学编程，可能就会像现在的我们后悔以前没有学习好
释放“AI+”新质生产力，深算院如何“把大数据变小”？ YashanDB YashanDB 国产数据库数据库数据库大数据
近期，南都·湾财社推出《新质·中国造》栏目，深入千行百业，遍访湾区企业，解锁湾区新质生产力，共探高质量发展之道。本期对话深圳计算科学研究院YashanDB首席技术官陈志标，探讨国产数据库如何实现创新突围，抢抓数字经济时代的新机遇。以下是专访内容：如何应对AI时代所面临的算力挑战？南都·湾财社：数据、算力和算法是发展人工智能的三要素，深算院做了怎样的前瞻性布局？陈志标：今年，政府工作报告中首次提及开
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache

OpenAI超级视频模型Sora技术报告解读，虚拟世界涌现了

打造虚拟世界模拟器

将视觉数据转化为patch

视频压缩网络

潜空间patch

视频的多样化表现

灵活的视频制作

更优的画面表现

深入的语言理解

图像和视频的多样化提示

为DALL·E图像赋予生命

视频时间线的灵活扩展

图像的生成能力

视频风格和环境的变换

视频之间的无缝连接

涌现的模拟能力

3D空间的真实感

视频的一致性和物体的持续存在

与世界的互动

数字世界的模拟

涌现的模拟能力

网友：未来游戏动嘴做

你可能感兴趣的:(人工智能)