GoAI

文生视频：Sora模型报告总结

作为世界模拟器的视频生成模型

我们探索视频数据生成模型的大规模训练。具体来说，我们在可变持续时间、分辨率和宽高比的视频和图像上联合训练文本条件扩散模型。我们利用对视频和图像潜在代码的时空补丁进行操作的变压器架构。我们最大的模型 Sora 能够生成一分钟的高保真视频。我们的结果表明，扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。

总结：Sora包含了DALL·E 3 的recaption技术 + 图像/视频Patches + Transformers + Latent Diffusion + 原始数据分辨率训练

资源：查看 Sora 概览

视频生成, 索拉, 里程碑, 发布

Sora文生视频

本技术报告重点关注（1）我们将所有类型的视觉数据转化为统一表示的方法，从而能够大规模训练生成模型，以及（2）对 Sora 的能力和局限性进行定性评估。本报告不包含模型和实施细节。

许多先前的工作已经研究了使用各种方法对视频数据进行生成建模，包括循环网络、1 ,2 ,3生成对抗网络，4 ,5 ,6 ,7自回归变压器，8 ,9和扩散模型。10 ,11、12这些作品通常关注一小类视觉数据、较短的视频或固定大小的视频。Sora 是视觉数据的通用模型，它可以生成不同时长、长宽比和分辨率的视频和图像，最多可达一分钟的高清视频。

将视觉数据转化为补丁

我们从大型语言模型中获得灵感，这些模型通过互联网规模数据的训练来获得通用能力。13、14LLM 范式的成功部分归功于令牌的使用，这些令牌优雅地统一了文本代码、数学和各种自然语言的不同模式。在这项工作中，我们考虑视觉数据的生成模型如何继承这些好处。LLM 有文本标记，而 Sora 有视觉补丁。此前，补丁已被证明是视觉数据模型的有效表示。15 ,16 ,17、18我们发现补丁是一种高度可扩展且有效的表示形式，可用于在不同类型的视频和图像上训练生成模型。

在较高的层次上，我们首先将视频压缩到较低维的潜在空间，将视频转换为补丁，19然后将表示分解为时空补丁。

视频压缩网络

我们训练一个降低视觉数据维度的网络。20该网络将原始视频作为输入并输出在时间和空间上压缩的潜在表示。Sora 在这个压缩的潜在空间中接受训练并随后生成视频。我们还训练了相应的解码器模型，将生成的潜伏映射回像素空间。

时空潜在斑块

给定一个压缩的输入视频，我们提取一系列时空补丁，充当变压器令牌。该方案也适用于图像，因为图像只是具有单帧的视频。我们基于补丁的表示使 Sora 能够对不同分辨率、持续时间和长宽比的视频和图像进行训练。在推理时，我们可以通过在适当大小的网格中排列随机初始化的补丁来控制生成视频的大小。

用于视频生成的缩放变压器

Sora是一个扩散模型21、22、23、24、25; 给定输入噪声补丁（以及文本提示等调节信息），它被训练来预测原始的“干净”补丁。重要的是，Sora 是一个扩散变压器。26Transformer 在各个领域都表现出了卓越的扩展特性，包括语言建模、13、14计算机视觉，15 ,16 ,17、18和图像生成。27、28 ,29

在这项工作中，我们发现扩散变压器也可以有效地缩放为视频模型。下面，我们展示了训练过程中具有固定种子和输入的视频样本的比较。随着训练计算的增加，样本质量显着提高。

可变的持续时间、分辨率、宽高比

过去的图像和视频生成方法通常会将视频调整大小、裁剪或修剪为标准尺寸，例如，分辨率为 256x256 的 4 秒视频。我们发现，对原始大小的数据进行训练有几个好处。

采样灵活性

Sora 可以采样宽屏 1920x1080p 视频、垂直 1080x1920 视频以及介于两者之间的所有视频。这使得 Sora 可以直接以其原生宽高比为不同设备创建内容。它还使我们能够在以全分辨率生成之前快速以较低尺寸制作原型内容 - 所有这些都使用相同的模型。

改进的框架和构图

我们根据经验发现，以原始长宽比对视频进行训练可以改善构图和取景。我们将 Sora 与将所有训练视频裁剪为正方形的模型版本进行比较，这是训练生成模型时的常见做法。在方形作物（左）上训练的模型有时会生成仅部分可见主体的视频。相比之下，Sora（右）的视频取景有所改善。

语言理解

训练文本到视频生成系统需要大量带有相应文本字幕的视频。我们应用了 DALL·E 3 中引入的重新字幕技术30到视频。我们首先训练一个高度描述性的字幕生成器模型，然后使用它为训练集中的所有视频生成文本字幕。我们发现，对高度描述性视频字幕进行训练可以提高文本保真度以及视频的整体质量。

与 DALL·E 3 类似，我们还利用 GPT 将简短的用户提示转换为较长的详细字幕，然后发送到视频模型。这使得 Sora 能够生成准确遵循用户提示的高质量视频。

通过图像和视频进行提示

上面和我们的着陆页中的所有结果都显示文本到视频的示例。但 Sora 也可以通过其他输入进行提示，例如预先存在的图像或视频。此功能使 Sora 能够执行各种图像和视频编辑任务 - 创建完美的循环视频、动画静态图像、及时向前或向后扩展视频等。

DALL·E 图像动画

Sora 能够生成提供图像和提示作为输入的视频。下面我们展示基于DALL·E 2生成的示例视频31和达尔·E 330图片。

一只戴着贝雷帽和黑色高领毛衣的柴犬。

不同家族怪物的平面设计风格的怪物插图。该群体包括一个毛茸茸的棕色怪物、一个带有天线的光滑黑色怪物、一个有斑点的绿色怪物和一个小圆点怪物，所有怪物都在一个有趣的环境中互动。

写有“SORA”的现实云的图像。

在一座华丽的历史大厅里，巨大的浪潮达到顶峰并开始崩塌。两名冲浪者抓住时机，熟练地驾驭海浪。

扩展生成的视频

Sora 还能够在时间上向前或向后扩展视频。下面是四个视频，它们都是从生成的视频片段开始向后延伸的。因此，这四个视频的开头都不同，但所有四个视频的结局都是相同的。

我们可以使用此方法向前和向后扩展视频以产生无缝的无限循环。

视频到视频编辑

扩散模型启用了多种根据文本提示编辑图像和视频的方法。下面我们应用其中一种方法，SDEdit，32到索拉。这项技术使 Sora 能够零镜头地改变输入视频的风格和环境。

输入视频

将设置更改为茂密的丛林将场景更改为 1920 年代的旧校车。确保保持红色让它进入水下将视频设置更改为与山不同？也许是约书亚树？将视频放在有彩虹路的太空中保持视频不变，但将时间设为冬天以粘土动画风格制作以炭笔画的风格重新创作，确保是黑白的将设置更改为赛博朋克将视频更改为中世纪主题让它有恐龙以像素艺术风格重写视频

连接视频

我们还可以使用 Sora 在两个输入视频之间逐渐进行插值，从而在具有完全不同主题和场景构成的视频之间创建无缝过渡。在下面的示例中，中心的视频插值在左侧和右侧的相应视频之间。

图像生成能力

Sora 还能够生成图像。我们通过在时间范围为一帧的空间网格中排列高斯噪声块来实现这一点。该模型可以生成各种尺寸的图像，分辨率高达 2048x2048。

新兴的模拟功能

我们发现，视频模型在大规模训练时表现出许多有趣的新兴功能。这些功能使 Sora 能够模拟现实世界中人、动物和环境的某些方面。这些属性的出现对 3D、物体等没有任何明确的归纳偏差——它们纯粹是尺度现象。

3D 一致性。 Sora 可以生成带有动态摄像机运动的视频。随着摄像机的移动和旋转，人和场景元素在三维空间中一致移动。

远程相干性和物体持久性。 视频生成系统面临的一个重大挑战是在采样长视频时保持时间一致性。我们发现 Sora 通常（尽管并非总是）能够有效地对短期和长期依赖关系进行建模。例如，我们的模型可以保留人、动物和物体，即使它们被遮挡或离开框架。同样，它可以在单个样本中生成同一角色的多个镜头，并在整个视频中保持其外观。

与世界互动。 索拉有时可以用简单的方式模拟影响世界状况的动作。例如，画家可以在画布上留下新的笔触，并随着时间的推移而持续存在，或者一个人可以吃汉堡并留下咬痕。

模拟数字世界。 Sora 还能够模拟人工过程——一个例子是视频游戏。Sora 可以同时通过基本策略控制《我的世界》中的玩家，同时以高保真度渲染世界及其动态。这些能力可以通过用提及“我的世界”的标题提示 Sora 来零射击。

这些功能表明，视频模型的持续扩展是开发物理和数字世界以及生活在其中的物体、动物和人的高性能模拟器的一条有前途的道路。

讨论

Sora 目前作为模拟器表现出许多局限性。例如，它不能准确地模拟许多基本相互作用的物理过程，例如玻璃破碎。其他交互（例如吃食物）并不总是会产生对象状态的正确变化。我们在登陆页面中列举了模型的其他常见故障模式，例如长时间样本中出现的不连贯性或对象的自发出现。

我们相信，Sora 今天所拥有的能力表明，视频模型的持续扩展是开发物理和数字世界以及生活在其中的物体、动物和人的强大模拟器的一条有前途的道路。

参考

斯里瓦斯塔瓦、尼蒂什、埃尔曼·曼西莫夫和鲁斯兰·萨拉胡迪诺夫。“使用 lstms 进行视频表示的无监督学习。” 机器学习国际会议。PMLR，2015。↩︎
奇亚帕、西尔维娅等人。“循环环境模拟器。” arXiv 预印本 arXiv:1704.02254 (2017)。↩︎
哈，大卫和尤尔根·施米德胡贝尔。“世界模特。” arXiv 预印本 arXiv:1803.10122 (2018)。↩︎
冯德里克、卡尔、哈米德·皮尔西亚瓦什和安东尼奥·托拉尔巴。“生成具有场景动态的视频。” 神经信息处理系统的进展 29 (2016)。↩︎
图利亚科夫，谢尔盖，等人。“Mocogan：分解运动和内容以生成视频。” IEEE 计算机视觉和模式识别会议论文集。2018. ↩︎
克拉克、艾丹、杰夫·多纳休和凯伦·西蒙尼安。“复杂数据集上的对抗性视频生成。” arXiv 预印本 arXiv:1907.06571 (2019)。↩︎
布鲁克斯、蒂姆等人。“生成动态场景的长视频。” 神经信息处理系统的进展 35 (2022): 31769-31781。↩︎
严，威尔逊，等人。“Videogpt：使用 vq-vae 和 Transformer 生成视频。” arXiv 预印本 arXiv：2104.10157 (2021)。↩︎
吴晨飞，等。“女娲：神经视觉世界创建的视觉合成预训练。” 欧洲计算机视觉会议。Cham：施普林格自然瑞士，2022。↩︎
何乔纳森等人。“Imagen 视频：使用扩散模型生成高清视频。” arXiv 预印本 arXiv:2210.02303 (2022)。↩︎
布拉特曼、安德烈亚斯等人。“对齐你的潜在特征：高分辨率视频合成与潜在扩散模型。” IEEE/CVF 计算机视觉和模式识别会议论文集。2023.↩︎ _
古普塔、阿格里姆等人。“使用扩散模型生成逼真的视频。” arXiv 预印本 arXiv:2312.06662 (2023)。↩︎
瓦斯瓦尼、阿什什等人。“你所需要的就是注意力。” 神经信息处理系统的进展30 (2017)。↩︎ ↩︎
布朗、汤姆等人。“语言模型是小样本学习者。” 神经信息处理系统的进展33（2020）：1877-1901。↩︎ ↩︎
多索维茨基，阿列克谢，等人。“一张图像相当于 16x16 个单词：用于大规模图像识别的 Transformer。” arXiv 预印本 arXiv：2010.11929 (2020)。↩︎ ↩︎
阿纳布、阿努拉格等人。“Vivit：视频视觉转换器。” IEEE/CVF 计算机视觉国际会议论文集。2021. ↩︎ ↩︎
他，凯明，等人。“蒙面自动编码器是可扩展的视觉学习器。” IEEE/CVF 计算机视觉和模式识别会议论文集。2022. ↩︎ ↩︎
德加尼、穆斯塔法等人。“Patch n’Pack：NaViT，适用于任何宽高比和分辨率的视觉转换器。” arXiv 预印本 arXiv:2307.06304 (2023)。↩︎ ↩︎
罗姆巴赫、罗宾等人。“利用潜在扩散模型进行高分辨率图像合成。” IEEE/CVF 计算机视觉和模式识别会议论文集。2022.↩︎ _
Kingma、Diederik P. 和马克斯·威灵。“自动编码变分贝叶斯。” arXiv 预印本 arXiv:1312.6114 (2013)。↩︎
索尔-迪克斯坦、贾沙等人。“利用非平衡热力学进行深度无监督学习。” 机器学习国际会议。PMLR，2015。↩︎
何乔纳森、阿杰·贾恩和彼得·阿贝尔。“去噪扩散概率模型。” 神经信息处理系统的进展33（2020）：6840-6851。↩︎
尼科尔、亚历山大·奎因和普拉富拉·达里瓦尔。“改进的去噪扩散概率模型。” 国际机器学习会议。PMLR，2021。↩︎
达里瓦尔、普拉富拉和亚历山大·奎因·尼科尔。“扩散模型在图像合成方面击败了 GAN。” 神经信息处理系统的进展。2021.↩︎ _
卡拉斯、泰罗等人。“阐明基于扩散的生成模型的设计空间。” 神经信息处理系统的进展35 (2022): 26565-26577。↩︎
皮布尔斯、威廉和谢赛宁。“带有变压器的可扩展扩散模型。” IEEE/CVF 国际计算机视觉会议论文集。2023.↩︎ _
陈、马克等人。“从像素进行生成预训练。” 机器学习国际会议。PMLR，2020。↩︎
拉梅什、阿迪亚等人。“零镜头文本到图像生成。” 国际机器学习会议。PMLR，2021。↩︎
于家辉，等。“扩展自回归模型以生成内容丰富的文本到图像。” arXiv 预印本 arXiv:2206.10789 2.3 (2022): 5. ↩︎
贝特克、詹姆斯等人。“通过更好的字幕改进图像生成。” 计算机科学。https://cdn.openai.com/papers/dall-e-3。pdf 2.3 (2023): 8 ↩︎ ↩︎
拉梅什、阿迪亚等人。“具有剪辑潜在特征的分层文本条件图像生成。” arXiv 预印本 arXiv:2204.06125 1.2 (2022): 3. ↩︎
孟陈林，等。“Sdedit：使用随机微分方程引导图像合成和编辑。” arXiv 预印本 arXiv:2108.01073 (2021)。↩︎

成像光谱遥感技术中的AI革命：ChatGPT在遥感领域中的应用科研的力量人工智能 ChatGPT chatgpt 人工智能
课程将最新的人工智能技术与实际的遥感应用相结合，提供不仅是理论上的，而且是适用和可靠的工具和方法。无论你是经验丰富的研究人员还是好奇的从业者，本课程都将为分析和解释遥感数据开辟新的、有效的方法，使你的工作更具影响力和前沿性。遥感技术主要通过卫星和飞机从远处观察和测量我们的环境，是理解和监测地球物理、化学和生物系统的基石。ChatGPT是由OpenAI开发的最先进的语言模型，在理解和生成人类语言方面
解锁AI新世界：ModelGate携手Cherry Studio，开启智能之旅
解锁AI新世界：ModelGate携手CherryStudio，开启智能之旅在人工智能技术飞速发展的当下，我们的工作与生活正被AI深刻改变。你是否渴望拥有一个强大的工具，帮你轻松驾驭各类AI应用，提升效率与创造力？今天，就为大家介绍一对黄金搭档——ModelGate与CherryStudio，它们将带你进入AI应用的全新境界。CherryStudio堪称AI桌面生态的“集大成者”，是一款支持多家主
Laravel 阿里云 OSS 视频上传完整方案 phplavarel
一、环境准备1.1安装OSSSDKcomposerrequirealiyuncs/oss-sdk-php1.2环境配置在.env文件中添加：OSS_ACCESS_KEY_ID=你的AccessKeyIdOSS_ACCESS_KEY_SECRET=你的AccessKeySecretOSS_ENDPOINT=oss-cn-hangzhou.aliyuncs.comOSS_BUCKET=你的Bucket
为 Agentic AI 的黎明构建地基人工智能
在技术领域，我们常常被那些闪耀的、可见的成果所吸引。今天，这个焦点无疑是大语言模型技术。它们的流畅对话、惊人的创造力，让我们得以一窥未来的轮廓。然而，作为在企业一线构建、部署和维护复杂系统的实践者，我们深知，一个卓越的模型，本身并不能构成一个成功的企业级解决方案。它就像一座精心设计的摩天大楼的塔尖，倘若没有深植于地下的坚实地基，再璀璨的光芒也终将是昙花一现。真正的挑战，也是真正的价值所在，在于构建
Prompt Engineering 指南教程班磊闯Andrea
PromptEngineering指南教程Prompt-Engineering-Guidedair-ai/Prompt-Engineering-Guide:是一个用于指导对话人工智能开发的文档。适合用于学习对话人工智能开发和自然语言处理。特点是提供了详细的指南和参考资料，涵盖了多种对话人工智能技术和算法，并且可以自定义学习路径和行为。项目地址:https://gitcode.com/gh_mirr
SoK: A Critical Evaluation of Efficient Website Fingerprinting Defenses
2023攻击和防御模型防御评估准确度、精确度和召回率：使用准确率来评估攻击模型在多类别封闭世界设置中的性能，但在二进制开放世界设置中使用精确率和召回率防御策略：（1）增加虚拟流量、（2）增加流量延迟、（3）将流量从一个流移到另一个流固定速率发送流量F，随机抽样以添加填充R，修改流量以产生与目标流量样本或模式的碰撞C，将流量分成多个流S，使用对抗性扰动来欺骗机器学习模型AF：（1）（2）BuFLO,
数据结构：递归：汉诺塔问题（Tower of Hanoi） 95号闪电麦坤数据结构数据结构
目录问题描述第一性原理分析代码实现第一步：明确函数要干什么第二步：写好递归的“结束条件”第三步：写递归步骤递归调用树问题描述有三个柱子（A,B,C），上面有n个大小不等的圆盘，最开始所有圆盘按从大到小顺序堆在柱子A上。目标：将所有圆盘移动到柱子C，移动时要满足：一次只能移动一个盘子；任何时刻小盘子不能压在大盘子上。❓核心问题：如何将n个盘子从A移动到C，同时只用B做辅助，且不违反约束？第一性原理分
创意，创新，动手，懂我 waterHBO 创意来源编程创意
对于上面的聊天，请帮我写个文章来总结一下，这几个案例视频，分别讲了什么东西，启发启示是什么把新鲜新奇的地方，保存下来。语言简洁，凝练。不要啰嗦、不要重复。分结构，输出为md格式，请使用有序列表。其他要求：1语言幽默有趣，平易近人，有吸引力。2.用中文写。单独新建一个文件。3.请帮我分条理,看起来很清晰。AIApp创富三部曲：从灵感到现实的秘籍解析序言：你的下一个App，藏在浴缸、通勤路和与AI的对
AI人工智能 Agent：在节能减排中的应用 AI天才研究院 Agentic AI 实战 AI人工智能与大数据 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1全球气候变化与节能减排随着工业化进程的加速和人口的不断增长，全球气候变化问题日益严峻。温室气体排放导致的全球变暖、极端天气事件频发等问题，已经对人类的生存环境和社会经济发展造成了严重威胁。因此，节能减排已成为全球共识，各国政府和企业都在积极探索和实施各种节能减排措施。1.2人工智能技术的兴起近年来，人工智能（AI）技术发展迅猛，并在各个领域取得了显著成果。AI技术具有强大的数据分
提示技术系列——主动提示 AIGC包拥它提示技术人工智能 prompt python langchain
什么是提示技术？提示技术是实现提示工程目标的具体技术手段，是提示工程中的“工具库”。什么又是提示工程？提示工程是指通过设计、优化和迭代输入到大语言模型（LLM）的提示（Prompt），系统性提升模型输出质量（如相关性、准确性、可控性）的实践领域。它是一个覆盖全流程的方法论，包括：明确目标任务（如生成教学内容、问答、翻译）；设计提示结构（如指令、上下文、示例）；选择模型与参数（如温度、top_p）；
【iSAQB软件架构】C4模型
C4模型是一种分层架构可视化框架，由SimonBrown提出，用于清晰描述软件系统的静态结构。它通过四级抽象层逐步展开细节，有效平衡全面性与可读性，已成为现代软件架构文档的核心工具。以下是其核心分层及实践指南：C4模型四层结构详解1.系统上下文图（SystemContext）目标：界定系统边界，明确外部依赖元素：✅核心系统（1个）✅用户角色（如Customer,Admin）✅外部系统（支付网关、身
【ISAQB大纲解读】软件密集型系统的三大分类小马哥编程系统架构架构
软件密集型系统的类型划分为信息系统、嵌入式系统和移动系统，主要基于其应用场景、功能定位、硬件依赖程度及软件设计逻辑的显著差异。以下从三类系统的核心特征、典型场景及分类逻辑展开分析：一、软件密集型系统的定义与分类逻辑软件密集型系统指软件在系统功能实现中起决定性作用的系统，其分类本质上反映了不同场景下软件与硬件、业务需求的耦合方式。三类系统的划分依据包括：应用领域：商业办公、设备控制、移动交互等不同场
Python私有属性：隐藏数据的秘密武器有奇妙能力吗知识分享 Python python 开发语言
Python私有属性详解：为什么我们需要“隐藏”对象的数据？一、引言在面向对象编程中，封装（Encapsulation）是三大基本特性之一（另外两个是继承和多态）。而“私有属性”就是实现封装的重要手段之一。在Python中虽然不像Java或C++那样严格区分访问权限，但依然提供了一种机制来限制对类内部属性的直接访问。本文将带你深入了解：什么是私有属性？如何定义私有属性？私有属性的原理与注意事项使用
SOTA是什么意思？有奇妙能力吗 AI 知识分享自然语言处理人工智能 ai
最近看到一篇关于Transformer模型的论文，谷歌推出的BERT模型在11项NLP（naturallanguageprocessing）任务中夺得SOTA结果，引爆了整个NLP界。而Transformer是BERT取得成功的一个关键因素。谷歌的Transformer模型最早用于机器翻译任务，当时达到了SOTA效果。那么文中的SOTA效果，SOTA结果是什么意思呢?这里就来简单介绍一下定义：SO
SmartDV推出先进的H.264和H.265视频编码器和解码器IP 电子科技圈 h.264 h.265 音视频
向全球市场提供灵活、高度可配置、可定制的半导体设计知识产权（IP）和验证IP（VIP）的开发商SmartDV™Technologies近日宣布：公司现已提供即刻可用的H.264和H.265视频编码器和解码器IP解决方案。针对每一种技术，SmartDV都提供了所有三种配置的IP产品，包括H.264的基本配置（Baseline）、主流配置（Main）和高性能配置（High）版本，以及H.265的主流（
将h.264视频流封装成flv格式文件（二.开始动手） darkdragonking flv 264 flv h.264 rtmp c++windows
前面写了flv文件的解析，有h264裸流的话就开始封装吧。网上大多数都是用ffmeg库来做这个工作的，哎，学习资料少学不会，还是自己动手吧。封装前要先了解下h.264格式，只需要知道一点点就可以了，我看了h.264官方文档，我靠，3百多页，还全是中文，什么，是中文？既然是中文的我就勉强看下吧，我靠，看起来还很复杂的，果断不看了，不需要，也没时间，我又不做解码，这东西具体步骤资料又少，基本都是那一两
35岁被优化，想转行AI？华为HCIE-AI是“救命稻草”还是“天坑”？博睿谷IT99_ 人工智能华为华为认证职业规划
粉丝宝宝私信我：“姐，我今年35了，真卡在这个尴尬的年龄点上。屋漏偏逢连夜雨，公司最近人员调整，我...被优化了。对这个行业真的心灰意冷，想彻底转行。看网上华为AI认证的风刮得特别大，什么HCIE-AI听起来就很牛，说是大神级别？我这把年纪了，0基础转过去，这玩意儿到底靠不靠谱？值不值得我allin去考啊？求真实科普！”看到这条私信，心里挺不是滋味。35岁遭遇职业转折，迷茫和压力可想而知。关于华为
I2C子系统面试指南：基础原理、经典问答与答题技巧全解析嵌入式Jerry Linux+内核面试职场和发展 linux 服务器运维单片机 java
I2C子系统面试指南：基础原理、经典问答与答题技巧全解析关于本篇博文，B站视屏讲解链接，点击进入深度学习一、引言：为什么要深入掌握I2C子系统？在嵌入式、驱动开发、BSP移植、甚至AIoT行业，I2C几乎是绕不开的“基础功”。不管你是应聘Linux驱动开发、嵌入式软件工程师、SoC底层支持，还是BSP/系统调试，I2C的核心架构和调试经验都是面试高频关注点。掌握I2C子系统，关键不止是能写驱动，更
鸿蒙（影音娱乐类）APP开发——在线短视频流畅切换 CTrup HarmonyOS 鸿蒙开发移动开发 harmonyos 娱乐音视频移动开发鸿蒙开发组件化 ArkUI
往期推文全新看点鸿蒙（HarmonyOS）北向开发知识点记录~鸿蒙（OpenHarmony）南向开发保姆级知识点汇总~鸿蒙应用开发与鸿蒙系统开发哪个更有前景？嵌入式开发适不适合做鸿蒙南向开发？看完这篇你就了解了~对于大前端开发来说，转鸿蒙开发究竟是福还是祸？鸿蒙岗位需求突增！移动端、PC端、IoT到底该怎么选？记录一场鸿蒙开发岗位面试经历~持续更新中……简介为了帮助开发者解决在应用中在线短视频快速
CLIP之后，多模态模型将如何进化？三大技术路径解析老周聊AI AI大模型人工智能 MCP 机器学习神经网络深度学习 AI大模型大模型训练框架
多模态学习的革命：CLIP技术深度解析关注老周不迷路本文较长，建议点赞收藏以免遗失。由于文章篇幅有限，更多涨薪知识点，也可在主页查看最新AI大模型应用开发学习资料免费领取引言：多模态学习的时代来临在人工智能领域，多模态学习正成为最具前景的研究方向之一。传统AI系统通常专注于单一模态（如纯文本或纯图像），而人类认知的本质却是多模态的——我们通过视觉、听觉、触觉等多种感官协同理解世界。OpenAI于2
将实时流的 H.264（视频）与 G.711A（音频）封装成 MP4 文件张海森_168820 将 h264+AAC存为 mp4格式记录音视频
将实时流的H.264（视频）与G.711A（音频）封装成MP4文件✅一、明确的问题目标你有：实时接收到的H.264码流实时接收到的G.711A音频流你想要：把它们同步封装成MP4文件问题挑战MP4不直接支持G.711A编码（PCMA），需要转码为AAC。MP4v2只支持对**已编码的帧（H.264/AAC）**进行封装，不做编码或转码。你需要处理**音视频同步（PTS/DTS）**问题。✅方案一：
FFmpeg中TS与MP4格式的extradata差异详解码流怪侠音视频基础 ffmpeg MP4 TS 音视频 extradata 视频编解码实时音视频
在视频处理中，extradata是存储解码器初始化参数的核心元数据，直接影响视频能否正确解码。本文深入解析TS和MP4格式中extradata的结构差异、存储逻辑及FFmpeg处理方案。一、extradata的核心作用extradata是解码必需的参数集合，包含：H.264：SPS（序列参数集）、PPS（图像参数集）H.265：VPS（视频参数集）、SPS、PPS音频：采样率、声道数等配置其核心功
华为认证二选一：物联网 VS 人工智能，你的赛道在哪里？博睿谷IT99_ 物联网人工智能华为华为认证
一篇不讲情怀只讲干货的科普指南一、华为物联网&人工智能到底在搞什么？华为物联网（IoT）的核心是“万物互联”。通过传感器、通信技术（如NB-IoT/5G）、云计算平台（如OceanConnect），将物理设备（车、路灯、工厂机器）连入网络，实现数据采集、远程控制和智能决策。大白话就是：它让哑巴设备学会“说话”。华为人工智能（AI）的核心是“让机器学会思考”。聚焦大模型训练、部署与应用（如昇腾AI解
嵌入模型 vs 大语言模型：语义理解能力的本质区别与应用场景 chenkangck50 AI大模型语言模型人工智能机器学习
嵌入模型vs大语言模型：语义理解能力的本质区别与应用场景（实战视角）一句话总结嵌入模型的“理解”是向量表示和相似性匹配，适合做召回；大语言模型的“理解”是上下文+逻辑+世界知识综合判断，适合做分析与生成。重点是可以结合prompt和本身具有的知识两类模型的本质区别能力项嵌入模型（如BGE、SBERT）大语言模型（如GPT、GLM、DeepSeek）输出形式向量（如768维）自然语言文本（如答案、解
YUV420格式详解 lianghu666 嵌入式 Linux C/C++linux
以下从原理到实现逐步详解YUV420格式，结合Mermaid图表与C++代码，为音视频开发者提供系统指南。1.YUV420核心原理1.1采样结构与数据量原始像素Y分量全采样UV分量2x2降采样Y（亮度）：全分辨率存储（每个像素独立）U/V（色度）：每2x2像素共享一组UV值，水平和垂直分辨率减半数据量计算（8位深度）：//计算YUV420图像字节数inty_size=width*height;//
修饰符 Modifiers 翻滚吧键盘 vue 前端 javascript 开发语言
好的，我们来详细讲解Vue中的修饰符(Modifiers)。修饰符是以点（.）开头的特殊后缀，用于告知指令（如v-on或v-model）应该以某种特殊的方式来绑定。它们极大地简化了代码，让我们不必在方法中编写大量的事件处理逻辑。Vue的修饰符主要分为三大类：事件修饰符(EventModifiers)：用于v-on(简写为@)指令。v-model修饰符(v-modelModifiers)：用于v-m
小红书笔记详情API接口概述及JSON数据返回参考 Json_18179014480 API json 大数据数据库大数据 json
前言一、接口概述小红书笔记详情API接口是小红书开放平台提供的一项服务，允许开发者通过编程方式获取小红书上特定笔记的详细信息。该接口的核心功能包括：获取笔记内容：标题、正文、图片、视频等多媒体信息。用户互动数据：点赞数、评论数、收藏数、分享数等。作者信息：作者昵称、头像、粉丝数等。发布信息：发布时间、标签列表等。通过该接口，开发者可以构建内容分析工具、笔记推荐系统、数据爬虫等应用，帮助企业或个人进
网络延迟诊断与优化：从路由到应用层的全链路分析 Clownseven 网络智能路由器
更多云服务器知识，尽在hostol.com你有没有在日常工作中体验过网络延迟带来的焦虑？浏览器页面加载缓慢，API请求几秒钟不返回，甚至服务器上的某个微服务迟迟无法响应。每次点击刷新页面，你的心里是否已经准备好迎接各种负面反馈？网络延迟，简而言之，就是数据从源头传输到目的地所花的时间。你可能认为延迟只是一个小问题，可当延迟问题累积，可能就会变成让整个系统瘫痪的大隐患。我们每一个运维人员都清楚，任何
C#测试实战：从集成到端到端——代码级深度解析与工程化实践墨夶 C#学习资料 c#开发语言
——零侵入框架设计、自动化工具链与真实场景模拟为什么需要“测试金字塔”？在微服务架构下，C#应用的复杂性呈指数级增长。集成测试（IntegrationTesting）和端到端测试（E2ETesting）是保障系统稳定性的两大核心防线：集成测试：验证模块间协作，定位接口与依赖问题端到端测试：模拟真实用户场景，确保全链路流程无误本文通过代码实战，从依赖注入模拟到浏览器自动化，构建一个企业级测试框架，并
C#与MR的量子级交互：用代码构建会呼吸的混合现实界面，让UI消失在空气中！墨夶 C#学习资料 c#mr 交互
一、混合现实革命：MR界面设计的三大颠覆性原则1.1传统UI的终结与MR的崛起空间即界面：物理空间成为交互载体，告别屏幕束缚手势即语言：自然手势取代鼠标键盘，交互效率提升300%数据可视化革命：3D全息投影让抽象数据具象化案例：某汽车厂商用MR界面将发动机数据投影在真实引擎上，维修效率提升65%1.2C#在MR开发中的核心优势特性C#实现其他语言对比空间计算Unity+ARFoundation提供
java观察者模式 3213213333332132 java 设计模式游戏观察者模式
观察者模式——顾名思义，就是一个对象观察另一个对象，当被观察的对象发生变化时，观察者也会跟着变化。在日常中，我们配java环境变量时，设置一个JAVAHOME变量,这就是被观察者，使用了JAVAHOME变量的对象都是观察者，一旦JAVAHOME的路径改动，其他的也会跟着改动。这样的例子很多，我想用小时候玩的老鹰捉小鸡游戏来简单的描绘观察者模式。老鹰会变成观察者，母鸡和小鸡是
TFS RESTful API 模拟上传测试 ronin47
TFS RESTful API 模拟上传测试。　　细节参看这里：https://github.com/alibaba/nginx-tfs/blob/master/TFS_RESTful_API.markdown 模拟POST上传一个图片： curl --data-binary @/opt/tfs.png http
PHP常用设计模式单例, 工厂, 观察者, 责任链, 装饰, 策略,适配,桥接模式 dcj3sjt126com 设计模式 PHP
// 多态, 在JAVA中是这样用的, 其实在PHP当中可以自然消除, 因为参数是动态的, 你传什么过来都可以, 不限制类型, 直接调用类的方法 abstract class Tiger { public abstract function climb(); } class XTiger extends Tiger { public function climb()
hibernate 171815164 Hibernate
main,save Configuration conf =new Configuration().configure(); SessionFactory sf=conf.buildSessionFactory(); Session sess=sf.openSession(); Transaction tx=sess.beginTransaction(); News a=new
Ant实例分析 g21121 ant
下面是一个Ant构建文件的实例，通过这个实例我们可以很清楚的理顺构建一个项目的顺序及依赖关系，从而编写出更加合理的构建文件。下面是build.xml的代码： <?xml version="1
[简单]工作记录_接口返回405原因 53873039oycg 工作
最近调接口时候一直报错，错误信息是: responseCode:405 responseMsg:Method Not Allowed 接口请求方式Post.
关于java.lang.ClassNotFoundException 和 java.lang.NoClassDefFoundError 的区别程序员是怎么炼成的
真正完成类的加载工作是通过调用 defineClass来实现的；而启动类的加载过程是通过调用 loadClass来实现的；就是类加载器分为加载和定义 protected Class<?> findClass(String name) throws ClassNotFoundExcept
JDBC学习笔记-JDBC详细的操作流程 aijuans jdbc
所有的JDBC应用程序都具有下面的基本流程：　　1、加载数据库驱动并建立到数据库的连接。　　2、执行SQL语句。　　3、处理结果。　　4、从数据库断开连接释放资源。下面我们就来仔细看一看每一个步骤：其实按照上面所说每个阶段都可得单独拿出来写成一个独立的类方法文件。共别的应用来调用。 1、加载数据库驱动并建立到数据库的连接： Html代码 St
rome创建rss antonyup_2006 tomcat cms xml struts Opera
引用 1.RSS标准 RSS标准比较混乱，主要有以下3个系列 RSS 0.9x / 2.0 : RSS技术诞生于1999年的网景公司(Netscape)，其发布了一个0.9版本的规范。2001年，RSS技术标准的发展工作被Userland Software公司的戴夫温那(Dave Winer)所接手。陆续发布了0.9x的系列版本。当W3C小组发布RSS 1.0后，Dave W
html表格和表单基础百合不是茶 html 表格表单 meta 锚点
第一次用html来写东西,感觉压力山大,每次看见别人发的都是比较牛逼的再看看自己什么都还不会, html是一种标记语言,其实很简单都是固定的格式 _----------------------------------------表格和表单表格是html的重要组成部分,表格用在body里面的主要用法如下; <table> &
ibatis如何传入完整的sql语句 bijian1013 java sql ibatis
ibatis如何传入完整的sql语句？进一步说，String str ="select * from test_table"，我想把str传入ibatis中执行，是传递整条sql语句。解决办法： <
精通Oracle10编程SQL(14)开发动态SQL bijian1013 oracle 数据库 plsql
/* *开发动态SQL */ --使用EXECUTE IMMEDIATE处理DDL操作 CREATE OR REPLACE PROCEDURE drop_table(table_name varchar2) is sql_statement varchar2(100); begin sql_statement:='DROP TABLE '||table_name;
【Linux命令】Linux工作中常用命令 bit1129 linux命令
不断的总结工作中常用的Linux命令 1.查看端口被哪个进程占用通过这个命令可以得到占用8085端口的进程号，然后通过ps -ef|grep 进程号得到进程的详细信息 netstat -anp | grep 8085 察看进程ID对应的进程占用的端口号 netstat -anp | grep 进程ID &
优秀网站和文档收集白糖_ 网站
集成 Flex, Spring, Hibernate 构建应用程序性能测试工具-JMeter Hmtl5-IOCN网站 Oracle精简版教程网站鸟哥的linux私房菜 Jetty中文文档 50个jquery必备代码片段 swfobject.js检测flash版本号工具
angular.extend boyitech AngularJS angular.extend AngularJS API
angular.extend 复制src对象中的属性去dst对象中. 支持多个src对象. 如果你不想改变一个对象，你可以把dst设为空对象{}: var object = angular.extend({}, object1, object2). 注意: angular.extend不支持递归复制. 使用方法: angular.extend(dst, src); 参数:
java-谷歌面试题-设计方便提取中数的数据结构 bylijinnan java
网上找了一下这道题的解答，但都是提供思路，没有提供具体实现。其中使用大小堆这个思路看似简单，但实现起来要考虑很多。以下分别用排序数组和大小堆来实现。使用大小堆： import java.util.Arrays; public class MedianInHeap { /** * 题目：设计方便提取中数的数据结构 * 设计一个数据结构，其中包含两个函数，1.插
ajaxFileUpload 针对 ie jquery 1.7+不能使用问题修复版本 Chen.H ajaxFileUpload ie6 ie7 ie8 ie9
jQuery.extend({ handleError: function( s, xhr, status, e ) { // If a local callback was specified, fire it if ( s.error ) { s.error.call( s.context || s, xhr, status, e ); }
[机器人制造原则]机器人的电池和存储器必须可以替换 comsci 制造
机器人的身体随时随地可能被外来力量所破坏,但是如果机器人的存储器和电池可以更换,那么这个机器人的思维和记忆力就可以保存下来,即使身体受到伤害,在把存储器取下来安装到一个新的身体上之后,原有的性格和能力都可以继续维持..... 另外,如果一
Oracle Multitable INSERT 的用法 daizj oracle
转载Oracle笔记-Multitable INSERT 的用法 http://blog.chinaunix.net/uid-8504518-id-3310531.html 一、Insert基础用法语法： Insert Into 表名 (字段1,字段2,字段3...） Values (值1,
专访黑客历史学家George Dyson datamachine on
20世纪最具威力的两项发明——核弹和计算机出自同一时代、同一群年青人。可是，与大名鼎鼎的曼哈顿计划（第二次世界大战中美国原子弹研究计划）相比，计算机的起源显得默默无闻。出身计算机世家的历史学家George Dyson在其新书《图灵大教堂》（Turing’s Cathedral）中讲述了阿兰·图灵、约翰·冯·诺依曼等一帮子天才小子创造计算机及预见计算机未来
小学6年级英语单词背诵第一课 dcj3sjt126com english word
always 总是 rice 水稻，米饭 before 在...之前 live 生活，居住 usual 通常的 early 早的 begin 开始 month 月份 year 年 last 最后的 east 东方的 high 高的 far 远的 window 窗户 world 世界 than 比...更
在线IT教育和在线IT高端教育 dcj3sjt126com 教育
codecademy http://www.codecademy.com codeschool https://www.codeschool.com teamtreehouse http://teamtreehouse.com lynda http://www.lynda.com/ Coursera https://www.coursera.
Struts2 xml校验框架所定义的校验文件蕃薯耀 Struts2 xml校验 Struts2 xml校验框架 Struts2校验
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 15:54:59 星期六 http://fa
mac下安装rar和unrar命令 hanqunfeng mac
1.下载：http://www.rarlab.com/download.htm 选择 RAR 5.21 for Mac OS X 2.解压下载后的文件 tar -zxvf rarosx-5.2.1.tar 3.cd rar sudo install -c -o $USER unrar /bin #输入当前用户登录密码 sudo install -c -o $USER rar
三种将list转换为map的方法 jackyrong list
在本文中，介绍三种将list转换为map的方法： 1）传统方法假设有某个类如下 class Movie { private Integer rank; private String description; public Movie(Integer rank, String des
年轻程序员需要学习的5大经验 lampcy 工作 PHP 程序员
在过去的7年半时间里，我带过的软件实习生超过一打，也看到过数以百计的学生和毕业生的档案。我发现很多事情他们都需要学习。或许你会说，我说的不就是某种特定的技术、算法、数学，或者其他特定形式的知识吗？没错，这的确是需要学习的，但却并不是最重要的事情。他们需要学习的最重要的东西是“自我规范”。这些规范就是：尽可能地写出最简洁的代码；如果代码后期会因为改动而变得凌乱不堪就得重构；尽量删除没用的代码，并添加
评“女孩遭野蛮引产致终身不育 60万赔偿款1分未得”医腐深入骨髓 nannan408
先来看南方网的一则报道：再正常不过的结婚、生子，对于29岁的郑畅来说，却是一个永远也无法实现的梦想。从2010年到2015年，从24岁到29岁，一张张新旧不一的诊断书记录了她病情的同时，也清晰地记下了她人生的悲哀。　　粗暴手术让人发寒　　2010年7月，在酒店做服务员的郑畅发现自己怀孕了，可男朋友却联系不上。在没有和家人商量的情况下，她决定堕胎。　　12月5日，
使用jQuery为input输入框绑定回车键事件 VS 为a标签绑定click事件 Everyday都不同 jsp input 回车键绑定 click enter
假设如题所示的事件为同一个，必须先把该js函数抽离出来，该函数定义了监听的处理： function search() { //监听函数略...... } 为input框绑定回车事件，当用户在文本框中输入搜索关键字时，按回车键，即可触发search(): //回车绑定 $(".search").keydown(fun
EXT学习记录 tntxia ext
1. 准备（1）官网：http://www.sencha.com/ 里面有源代码和API文档下载。 EXT的域名已经从www.extjs.com改成了www.sencha.com ，但extjs这个域名会自动转到sencha上。（2）帮助文档：想要查看EXT的官方文档的话，可以去这里h
mybatis3的mapper文件报Referenced file contains errors xingguangsixian mybatis
最近使用mybatis.3.1.0时无意中碰到一个问题： The errors below were detected when validating the file "mybatis-3-mapper.dtd" via the file "account-mapper.xml". In most cases these errors can be d