LeeZhao@

【AIGC半月报】AIGC大模型启元：2024.06（下）

AIGC大模型启元：2024.06（下）

- (1) Gen-3
- (2) Open-Sora 1.2（Open-Sora再升级）
- (3) Claude 3.5 Sonnet（Claude升级）
- (4) ChatTTS v3（ChatTTS升级）
- (5) 盘古大模型5.0
- (6) Falcon2
- (7) Glyph-ByT5-v2（清华、北大+微软）
- (8) LLM Leaderboard v2（大语言模型评估框架）
- (9) 豆包MarsCode（字节跳动智能编程助手）
- (10) Gemma 2（Google升级Gemma）
- (11) Cambrian-1（LeCun和谢赛宁团队多模态模型）
- (12) 讯飞星火4.0（科大讯飞升级模型）
- (13) CriticGPT（OpenAI）

(1) Gen-3

2024.06.18 自从OpenAI公布了Sora，视频生成领域正式按下了行业加速键，许多国内外企业纷纷发力，不仅研究发布专门用于视频生成的垂直大模型，还将手里的技术封装成一个个人人能用的AIGC产品。
　　随着新玩家数量的剧增，这场视频生成领域的战争愈演愈烈，其中受到冲击最大的自然是老牌同类竞品模型，比如Pika、SDV、谷歌、Meta，还有刚发布第三代视频生成模型Gen-3 Alpha的Runway。
　　Runway深夜发布的各种演示视频展示出了电影级的画面细节，直接震惊了全体网友。Gen-3与之前的旗舰视频模型Gen-2相比，在模型生产速度和保真度方面有了重大提升，同时对生成视频的结构、风格和运动提供了细粒度的控制。
　　Runway表示，Gen-3 Alpha具有高保真视频、精细动作控制、逼真人物生成、多模态输入、专业创作工具、增强安全、高质量训练等特点。在这次模型的训练过程中，汇集了研究者、工程师和艺术家的集体智慧和努力。正是这种跨学科的协作精神，使得Gen-3 Alpha模型能够理解和表达多种风格和电影概念。
　　官方展示视频时长为10秒，人物生成中的人物面部细节和情感营造方面比较细腻，场景、风景生成中的元素、光影没有太大的违和感。友情提示，以下展示内容因为要转换为GIF，所以画质均有不同程度压缩，想看原视频的朋友可以去Runway官网复习下。

推荐文章： 视频大模型画饼哪家强？Gen-3演示效果绝杀Sora
体验地址： https://runwayml.com/blog/introducing-gen-3-alpha/

(2) Open-Sora 1.2（Open-Sora再升级）

2024.06.18 潞晨 Open-Sora 团队在 720p 高清文生视频质量和生成时长上实现了突破性进展，支持无缝产出任意风格的高质量短片，令人惊喜的是，他们选择再给开源社区带来亿点点震撼，继续全部开源。
　　通过他们的模型权重，能够生成各种酷炫的短片，比如海浪和海螺的亲密接触，还有那些深不可测的森林秘境。
　　在潞晨 Open-Sora 团队发布的这份技术报告中，他们深度剖析了本次模型训练的核心和关键。在上一个版本基础上，引入了视频压缩网络（Video Compression Network）、更优的扩散模型算法、更多的可控性，并利用更多的数据训练出了 1.1B 的扩散生成模型。
　　在这个"算力为王"的时代，我们深知视频模型训练的两大痛点：计算资源的巨大消耗与模型输出质量的高标准。潞晨 Open-Sora 团队以一种极简而有效的方案，成功地在成本和质量之间找到了平衡点。
　　Open-Sora 团队提出了一个创新的视频压缩网络（VAE），该网络在空间和时间两个维度上分别进行压缩。具体来说，他们首先在空间维度上进行了 8x8 倍的压缩，接着在时间维度上进一步压缩了 4 倍。通过这种创新的压缩策略，既避免了因抽帧而牺牲视频流畅度的弊端，又大幅降低了训练成本，实现了成本与质量的双重优化。

推荐文章：
开源模型潞晨 Open-Sora 大突破！
潞晨Open-Sora 1.2发布，16秒720p视频一键生成，质量更高训练成本更低
开源地址： https://github.com/hpcaitech/Open-Sora

(3) Claude 3.5 Sonnet（Claude升级）

2024.06.20 刚刚，被称为“OpenAI 最强竞对”的大模型公司 Anthropic 发布了 Claude 3.5 系列模型中的第一个版本——Claude 3.5 Sonnet。
　　Anthropic 在官方博客中表示，Claude 3.5 Sonnet 提高了智能化的行业标准，在各种评估中均优于 GPT-4o、Gemini 1.5 和 Llama-400b 等竞争对手模型和其上一代最智能的模型 Claude 3 Opus，速度和成本也与上一代中等模型 Claude 3 Sonnet 相当。
　　据介绍，Claude 3.5 Sonnet 的成本为 3 美元/百万输入 token，15 美元/百万输出 token，上下文窗口为 20 万 token。
　　现在，Claude 3.5 Sonnet 可在 Claude 网页版和 Claude iOS 应用程序上免费使用，而 Claude Pro 和 Team 计划的用户则可以更高的速率限制访问它，还可通过 Anthropic API、Amazon Bedrock 和 Vertex AI 使用。
　　Anthropic 表示，尽管 Claude 3.5 Sonnet 在智能方面有了飞跃，但红队评估认为，Claude 3.5 Sonnet 仍处于 ASL-2 级。

推荐文章： 刚刚，OpenAI最强竞对发布Claude 3.5 Sonnet，全面超越GPT-4o，重新定义交互方式
参考地址： https://www.anthropic.com/news/claude-3-5-sonnet

(4) ChatTTS v3（ChatTTS升级）

2024.06.22 ChatTTS增强版V3来啦！本次更新增加支持导入SRT、导入音色等功能。结合上次大家反馈的问题，修复了长文本、中英混读等问题。

推荐文章： ChatTTS增强版V3，长文本修复，中英混读，导入音色，批量SRT、TXT，代码开源
开源地址： https://github.com/CCmahua/ChatTTS-Enhanced

(5) 盘古大模型5.0

2024.06.22 华为开发者大会2024（HDC 2024）上，华为常务董事、华为云CEO张平安正式发布盘古大模型5.0，在全系列、多模态、强思维三个方面全新升级；张平安还分享了盘古大模型在自动驾驶、工业设计、建筑设计、具身智能、媒体生产和应用、高铁、钢铁、气象等领域的丰富创新应用和落地实践，持续深入行业解难题。
　　此外，华为诺亚方舟实验室主任姚骏、华为云CTO张宇昕分别就盘古大模型5.0技术解密和华为云全栈系统性创新发表主题演讲，详细解读华为云在AI领域的全栈创新优势。
　　全系列：盘古大模型5.0包含不同参数规格的模型，以适配不同的业务场景。十亿级参数的Pangu E系列可支撑手机、PC等端侧的智能应用；百亿级参数的Pangu P系列，适用于低时延、高效率的推理场景；千亿级参数的Pangu U系列适用于处理复杂任务；万亿级参数的Pangu S系列超级大模型能够帮助企业处理更为复杂的跨领域多任务。
　　多模态：盘古大模型5.0能够更好更精准地理解物理世界，包括文本、图片、视频、雷达、红外、遥感等更多模态。在图片和视频识别方面，可支持10K超高分辨率；在内容生成方面，采用业界首创的STCG（Spatio Temporal Controllable Generation，可控时空生成）技术，聚焦自动驾驶、工业制造、建筑等多个行业场景，可生成更加符合物理规律的多模态内容。

推荐文章： 【重磅】华为云盘古大模型5.0，正式发布！
开源地址： /

(6) Falcon2

2024.06.22 近年来，大型语言模型（LLM）领域蓬勃发展，不断涌现出新的模型和技术。其中，Meta 的 Llama 3 模型以其强大的性能和开源性，在业界引起了广泛关注。然而，来自阿联酋的技术创新研究所（TII）近日推出了新一代大模型 Falcon 2，其性能超越了 Llama 3，并展现出更多令人瞩目的亮点。
　　技术特点

Falcon 2 模型系列包含两个版本：Falcon 2 11B 和 Falcon 2 11B VLM。两者均经过 5.5 万亿 token 的训练，但展现出不同的功能特性。
Falcon 2 11B：高效易用，性能超越 Llama 3
Falcon 2 11B 模型拥有 110 亿个参数，在性能上超越了 Meta 的 Llama 3 8B 模型，并与 Google 的 Gemma 7B 模型性能相当。
Falcon 2 11B VLM：视觉语言模型，图像到文本转换

Falcon 2 11B VLM 是 TII 首个多模态模型，它具备了视觉语言模型 (VLM) 的能力，能够将视觉输入转换为文本输出。这意味着，模型不仅可以理解和生成文本，还能识别和解释图像，并将其转化为文字描述。这在图像理解、文档管理、内容生成等方面有着巨大的应用潜力。

推荐文章： Falcon2，110亿参数5.5万亿token，性能超越Llama 3
Huggingface模型地址： https://hf-mirror.com/tiiuae/falcon-11B
AI快站模型免费加速下载： https://aifasthub.com/models/tiiuae

(7) Glyph-ByT5-v2（清华、北大+微软）

2024.06.25 在 AI 领域，文生图技术已经取得了令人惊叹的进展，但如何将文字精准地融入图像，并支持多种语言，一直是研究人员面临的挑战。为了解决这一难题，清华大学、北京大学和微软亚洲研究院的研究人员合作推出了 Glyph-ByT5-v2，这是一个功能强大的定制多语言文本编码器，可以支持 10 种不同语言的精准视觉文本渲染。Glyph-ByT5-v2 的出现，为设计师、开发者以及普通用户提供了一个强大的工具，加速文生图技术的普及和应用，为更广泛的领域带来更智能、更便捷的设计体验。
技术特点
Glyph-ByT5-v2 采用了多项技术创新，使其在性能和功能上取得了重大突破：

多语言支持： Glyph-ByT5-v2 支持 10 种语言，包括英语、法语、西班牙语、德语、葡萄牙语、意大利语、俄语、中文、日语和韩语。为了实现这一目标，研究团队构建了包含 100 多万个字形文本对和 1000 万个图形设计图像文本对的多语言数据集，涵盖了上述 10 种语言。Glyph-ByT5-v2 的训练数据集规模远超其他多语言文生图模型，例如 AnyText 仅使用了 10,000 张图像来训练 5 种不同语言，这对于处理复杂的汉字、日文和韩文来说远远不够。
高质量数据集：为了构建高质量的多语言数据集，研究人员采用了基于翻译的方法。他们首先利用图形渲染器生成了高质量的英语字形文本数据集，然后将其转换为其他语言的字形文本和图像。为了确保不同语言之间字形图像和图形设计图像的质量一致，研究人员在转换过程中保持了字符数量的接近。
步骤感知偏好学习：为了提升视觉美学质量，Glyph-ByT5-v2 采用了最新的步骤感知偏好学习方法（Step-Aware Preference Optimization，SPO），对模型进行后训练优化。SPO 的核心思想是在模型训练过程中，根据人类对生成结果的偏好进行调整，从而提升模型的审美能力。研究团队发现，使用 SPO 对 SDXL 进行微调，能够显著提升生成图像的视觉美学效果。
区域式多头交叉注意力： Glyph-ByT5-v2 采用了区域式多头交叉注意力机制，可以更有效地将文本信息映射到图像空间中不同的位置，从而实现更精准的视觉文本渲染。它通过将图像分成多个区域，并针对不同的区域使用不同的文本编码器进行信息映射，从而提升文本渲染的精度和效率。

推荐文章： 清华、北大与微软推出Glyph-ByT5-v2，精准生成文字海报，支持10种语言，效果炸裂
Huggingface模型地址： https://huggingface.co/GlyphByT5/Glyph-SDXL-v2
AI快站模型免费加速下载： https://aifasthub.com/models/GlyphByT5

(8) LLM Leaderboard v2（大语言模型评估框架）

2024.06.26 评估和比较大语言模型 (LLMs) 是一项艰巨的任务。RLHF 团队在一年前就意识到了这一点，当时他们试图复现和比较多个已发布模型的结果。这几乎是不可能完成的任务：论文或营销发布中的得分缺乏可复现的代码，有时令人怀疑，大多数情况下只是通过优化的提示或评估设置来尽量提升模型表现。因此，他们决定创建一个地方，在完全相同的设置 (同样的问题，按相同的顺序提问等) 下评估参考模型，从而收集完全可复现和可比较的结果；Open LLM Leaderboard 就这样的背景下发布啦！
然而，随着排行榜的成功以及模型性能的不断提升，也带来了挑战。经过一年多的激烈使用和大量社区反馈后，我们认为是时候进行升级了！因此，我们推出了 Open LLM Leaderboard v2！
在过去的一年里，我们使用的基准测试已经被过度使用和饱和：

它们对模型来说变得太容易。例如，模型现在在 HellaSwag、MMLU 和 ARC 上达到了人类基准性能，这种现象被称为饱和。
一些较新的模型也表现出污染的迹象。这意味着这些模型可能在基准数据或与基准数据非常相似的数据上进行训练。因此，一些得分不再反映模型的一般性能，而是开始在某些评估数据集上过拟合，而不是反映所测试任务的一般性能。特别是 GSM8K 和 TruthfulQA，已包含在一些指令微调集中。
一些基准测试包含错误。例如，最近多个研究团队对 MMLU 进行了深入调查 (见MMLU-Redux和MMLU-Pro) ，发现了其响应中的错误并提出了新版本。另一个例子是 GSM8K 使用了特定的生成结束标记 ( ，这不公平地降低了许多冗长模型的表现。

因此，我们决定完全更换 Open LLM Leaderboard v2 的评估！

推荐文章： 更难、更好、更快、更强：LLM Leaderboard v2 现已发布
Huggingface模型地址： https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard

(9) 豆包MarsCode（字节跳动智能编程助手）

2024.06.27 近日，字节跳动发布了一款基于豆包大模型打造的智能开发工具——豆包MarsCode，面向国内开发者免费开放。豆包MarsCode编程助手具备以智能代码补全为代表的AI功能，支持多种编程语言以及主流的IDE，旨在提升开发效率与质量。
智能编程助手：代码补全与问题修复
豆包Marsode的编程助手功能通过智能代码补全帮助开发者更快地编写代码。它不仅支持单行代码补全，还能对整个函数提供编写建议。这意味着，无论是简单的代码片段还是复杂的函数，开发者都可以依赖豆包MarsCode进行高效的代码编写。
Cloud IDE：随时随地编程
豆包MarsCode不仅是一个编程助手，还包括一个原生的云端集成开发环境（Cloud IDE）。这个云端IDE内置AI编程助手和开箱即用的开发环境，无需配置复杂的开发环境，让开发者在浏览器中即可进行编程和调试。支持的编程语言和模板包括C、C++、C#、Go、JavaScript、Java、Node.js、Rust、TypeScript等，极大地减少了环境配置时间。
项目问答与灵感启发
在需求开发场景中，豆包MarsCode通过Chat提问功能，帮助开发者分析需求、熟悉代码、编写代码和调试代码。智能代码补全功能不仅可以帮助开发者更快地输入代码，还能通过不断提供代码建议，激发开发者的灵感。
单元测试与多轮自动修复
为了保障代码质量，豆包MarsCode提供了测试用例生成功能。只需在编程助手中触发test指令，即可生成函数的测试用例。此外，AI修复功能可以通过理解报错信息、调用栈的代码以及全局项目代码，直接给出针对性的修复建议。
开源项目学习与代码推荐
在开源项目学习场景中，豆包MarsCode提供了丰富的开发模板，使开发者无需运维本地环境即可快速进入项目。借助原生集成的AI能力，开发者可以更高效地理解和上手项目。

推荐文章： 字节跳动推出“豆包MarsCode”智能编程助手：国内开发者免费使用
体验地址： https://www.marscode.cn/

(10) Gemma 2（Google升级Gemma）

2024.06.28 Google 发布了最新的开放大语言模型 Gemma 2，共涉及4 个开源模型 (2 个基础模型和 2 个微调模型) 。
　　Gemma 2 是 Google 最新的开放大语言模型。它有两种规模：90 亿参数和 270 亿参数，分别具有基础 (预训练) 和指令调优版本。Gemma 基于 Google DeepMind 的 Gemini，拥有 8K Tokens 的上下文长度。
　　Gemma 2 与第一代有许多相似之处。它有 8192 Tokens 的上下文长度，并使用旋转位置嵌入 (RoPE)。与原始 Gemma 相比，Gemma 2 的主要进展有四点：

滑动窗口注意力: 交替使用滑动窗口和全二次注意力以提高生成质量。
Logit 软上限: 通过将 logits 缩放到固定范围来防止其过度增长，从而改进训练。
知识蒸馏: 利用较大的教师模型来训练较小的模型（适用于 90 亿模型）。
模型合并: 将两个或多个大语言模型合并成一个新的模型。

推荐文章： 开源真卷！Google开源Gemma 2大模型
模型地址： https://hf.co/collections/google/g-667d6600fd5220e7b967f315

(11) Cambrian-1（LeCun和谢赛宁团队多模态模型）

2024.06.27 近日，LeCun和谢赛宁团队推出了Cambrian-1，一项采用以视觉为中心的方法设计多模态大语言模型（MLLM）的研究，同时全面开源了模型权重、代码、数据集，以及详细的指令微调和评估方法。
　　谢赛宁刚刚发文表示，「世界不需要另一个MLLM与GPT-4V竞争。Cambrian在以视觉为核心的探索是独一无二的，这也是为什么，我认为是时候将重心从扩展大模型转移到增强视觉表征了」。

推荐文章： LeCun谢赛宁首发全新视觉多模态模型，等效1000张A100干翻GPT-4V
论文地址： https://arxiv.org/abs/2406.16860
开源代码： https://github.com/cambrian-mllm/cambrian

(12) 讯飞星火4.0（科大讯飞升级模型）

2024.06.27 科大讯飞正式对外发布讯飞星火大模型V4.0，以及在医疗、教育、商业等多个领域的人工智能应用。
　　随着新版本的发布，讯飞星火V4.0七大核心能力全面升级，在8个国际主流测试集中排名第一，整体超越GPT-4 Turbo，领先国内大模型。
　　刘庆峰称，当前，星火APP下载量已经达到了1.31亿，涌现出一批用户喜爱的应用助手。在星火大模型的加持下，部分场景下的智能硬件销量同比增长70%+，月均使用时次数超过4000万。
　　另外，星火V4.0大模型是基于全国首个国产万卡算力集群「飞星一号」训练而成，意味着完全自主可控。

推荐文章： 国产大模型新高度！讯飞星火4.0发布：整体超越GPT-4 Turbo，8个国际权威测试集测评第一
论文地址： /
开源代码： /

(13) CriticGPT（OpenAI）

2024.06.28 OpenAI在官网发布了，基于GPT-4的最新模型CriticGPT。
　　与以往模型不同的是，CriticGPT是一款面向开发人员的产品，可以增强RLHF（人类反馈强化学习）的效率培育出质量更好的训练数据。
　　所以，CriticGPT也被OpenAI称为“评论GPT”，主要用来审核ChatGPT输出的代码等内容，并解释内容到底错在哪里。例如，让ChatGPT用Python写一个函数，表示文件路径的字符串路径作为输入，并在“path”处返回文件的file对象。
　　ChatGPT很快就能给出完整代码，但是这段代码是有很大的安全漏洞，例如，使用“Startswitch（）”检查文件的绝对路径是否在目录中非常不安全。
　　因为，用户可以通过符号链接或类似地命名目录来利用此漏洞。而CriticGPT就是专门用来查找这种错误。

推荐文章： OpenAI发布CriticGPT模型，帮助人类找出ChatGPT错误
论文地址： https://cdn.openai.com/llm-critics-help-catch-llm-bugs-paper.pdf
开源代码： /

推荐文章：探索深度学习的不确定性边界 —— SDE-Net 开源项目解析史多苹Thomas
推荐文章：探索深度学习的不确定性边界——SDE-Net开源项目解析SDE-NetCodeforpaper:SDE-Net:EquippingDeepNeuralnetworkwithUncertaintyEstimates项目地址:https://gitcode.com/gh_mirrors/sd/SDE-Net在当今的人工智能领域，深度神经网络(DNN)已经成为推动技术创新的基石。然而，其预测的
【模型部署】如何在Linux中通过脚本文件部署模型满怀1015 人工智能 linux 网络人工只能模型部署
在Linux中，你可以将部署命令保存为可执行脚本文件，并通过终端直接调用。以下是几种常见且实用的方法：方法1：Shell脚本（推荐）步骤创建一个.sh文件（例如start_vllm.sh）：#!/bin/bashCUDA_VISIBLE_DEVICES=7\python-mvllm.entrypoints.openai.api_server\--served-model-nameQwen2-7B-
java方法：复制一个文件内容到另一个文件东方-教育技术博主 java 文件复制
importjava.io.FileNotFoundException;importjava.io.FileReader;importjava.io.FileWriter;importjava.io.IOException;publicclasscopyfile{publicstaticvoidmain(String[]args){StringsourceFile="E:/Workspaces/M
如果用于AI评课系统的话——五款智能体比较东方-教育技术博主人工智能应用人工智能
你目前的项目特点是：已经具备了课堂文本分析、大模型对话系统、课堂视频分析的技术模块；计划通过智能体调用你现有的Python分析脚本，实现数据分析、自动可视化，并与教师互动；更强调多智能体协作、流程灵活编排，以及循证研究的交互分析。因此，我们重点考量生态成熟度、流程编排能力、多智能体协作能力、易用性四个维度。下面逐个分析你提到的框架：智能体框架综合对比分析：框架生态成熟度多智能体能力流程编排能力易用
AI浪潮下编程范式革命：从智能工具到生态重构的全维度变革欧阳天羲人工智能重构 python
一、智能代码生成：从辅助工具到全流程开发伙伴1.1对话式编程成为主流2025年，对话式编程已从概念变为现实。GitHubCopilotX最新版本实现了自然语言到完整功能模块的直接转换，开发者只需通过语音或文本描述需求，即可获得生产级代码。以下是通过自然语言生成电商结算模块的示例：#用户输入："创建一个支持优惠券核销的电商结算系统，包含购物车管理、价格计算和支付接口"importdatetimefr
重构未来开发范式：如何引领 AIGS 时代的技术革命小爱想睡懒觉重构
一、AIGS革命：AI重塑企业软件系统的三大趋势行业灵魂拷问：当所有企业系统都需要实时调用大模型能力时，您的开发框架能否支撑百万级并发？在数据安全成为刚需的时代，如何实现AI功能的合规化、私有化部署？JBoltAI的未来宣言：技术演进路径：从AIGC到AIGS的跃迁图谱技术代际核心特征JBoltAI实践成果行业价值AIGC1.0单点内容生成支持文本/代码/图像生成，提供智能客服对话模板效率提升30
OpenAI技术路线急转：从TypeScript到Rust的Codex CLI重构内幕全栈陈序员 typescript rust 重构自然语言处理神经网络人工智能深度学习
目录前言：OpenAI的技术抉择引发业界思考CodexCLI：OpenAI的终端AI编程利器语言抉择的戏剧性反转：从TypeScript到RustRust重写的四大技术动因1.零依赖部署：消除环境配置痛点2.内存安全与沙箱隔离3.性能的全面碾压4.协议层的深度整合Rust的崛起：从系统编程到AI基础设施技术选型的平衡艺术：生产力vs性能对开发者生态的潜在影响结语：技术进化的永恒韵律前言：OpenA
【Java】已解决java.sql.SQLRecoverableException异常屿小夏 java 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
IT 行业深度洞察：从技术革命到产业重构的全景图谱 XQR.小白重构
摘要本文系统梳理IT行业的发展脉络，深入剖析云计算、人工智能、大数据、物联网等核心技术的演进逻辑与协同效应，揭示IT产业在数字化转型浪潮中的生态重构与价值创造。通过典型案例分析与数据支撑，探讨行业面临的技术挑战、伦理困境与全球化竞争格局，展望IT技术如何持续驱动社会变革与产业升级。全文结合2025年最新技术动态与市场趋势，为从业者、投资者与研究者提供兼具理论深度与实践指导的行业参考。目录摘要一、I
如何用Python实现基础的文生视频AI模型 AI学长带你学AI AI人工智能与大数据应用开发 AI应用开发高级指南 python 音视频人工智能 ai
如何用Python实现基础的文生视频AI模型关键词：文生视频、AI生成、扩散模型、多模态对齐、视频生成算法、Python实现、时间一致性摘要：本文系统讲解基于扩散模型的文生视频（Text-to-Video,T2V）AI模型的核心原理与Python实现方法。从技术背景到数学模型，从算法设计到项目实战，逐步拆解文本-视频跨模态对齐、时间序列建模、扩散生成等关键技术。通过PyTorch实现一个基础版文生
baigeiRSA--攻防世界 KD杜小帅密码学-RSA系列密码学 python 网络安全
下载看到附件：importlibnumfromCrypto.Utilimportnumberfromsecretimportflagsize=128e=65537p=number.getPrime(size)q=number.getPrime(size)n=p*qm=libnum.s2n(flag)c=pow(m,e,n)print('n=%d'%n)print('c=%d'%c)n=885030
【Linux】环境变量——干货讲解代码程序猿RIP Linux linux
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录一、环境变量核心概念1.什么是环境变量？2.环境变量的存储结构3.常见环境变量及作用二、环境变量管理命令1.查看环境变量2.设置环境变量3.删除环境变量4.变量操作技巧三、环境变量在编程中的应用1.C语言获取环境变量的三种方式方法1：main函数参数方法2：extern声明environ方法3：getenv获取特定变量2.环境
【jetson】Linux下nvidia Jetson烤机程序（CPU+GPU）
前言烤机程序用于把设备的使用率拉满，进行可靠性测试。这里主要贴一下cpu和gpu的烤机程序。cpu为arm64，gpu是orinnano的模组。烤机的jetson设备为如下，输入54v：reComputerMiniJ3011-IntelligentEdgeAIComputerwithNVIDIA®Jetson™Orin™Nano8GBCPU-burn终端安装测试工具:sudoaptinstalls
【大模型学习 | BLIP2原理】九年义务漏网鲨鱼人工智能深度学习语言模型多模态大模型
BLIP-2:BootstrappingLanguage-ImagePre-trainingwithFrozenImageEncodersandLargeLanguageModels目前（2023）的图文模型都是基于端到端训练方式，大规模的模型和数据集导致了在预训练过程需要的大量计算。作者提出一种从离线、梯度冻结的图像、语言模型中提升图文的预训练模型。为了联系两个不同模态预训练模型，作者提出一种使
Android 中函数实现多个返回值的几种方式
在编程中，函数通常只能返回一个值。但通过使用对象封装、Pair、Triple、数组、列表或Bundle方式，可以轻松地返回多个值。1、对象封装方式创建数据类来封装需要返回的多个值。dataclassResult(valcode:Int,valmessage:String)fungetMultiValues():Result{returnResult(1,"success")}//调用方式valre
【大模型学习 | BLIP原理】九年义务漏网鲨鱼 pytorch 人工智能深度学习大模型多模态
BLIP:BootstrappingLanguage-ImagePre-trainingforUnifiedVision-LanguageUnderstandingandGeneration作者指出，现有的视觉-语言预训练（Vision-LanguagePre-training,VLP）模型在语言理解与生成任务上难以同时取得优异表现：一方面，基于编码器（encoder-based）的模型在生成任务
使用vue-template-loader将模板编译成渲染函数的Webpack配置技巧前端布洛芬大白话前端八股 vue.js webpack 前端
大白话使用vue-template-loader将模板编译成渲染函数的Webpack配置技巧引言：被模板编译逼疯的周三下午你是否也经历过这样的场景：deadline前的周三下午，咖啡因已经失效，屏幕上却跳出Templatecompilationfailed的红色报错。Vue单文件组件（SFC）的.vue格式用腻了，想试试把模板抽成单独的.html文件，结果webpack配置直接给你脸色看。作为每天
高精度相机：工业自动化的“慧眼”，驱动智能制造新未来 lingling009 数码相机
在当今工业4.0时代，自动化技术的飞速发展正重塑制造业格局。作为工业视觉系统的核心组件，高精度相机扮演着“智慧之眼”的角色，帮助企业在复杂环境中实现精准识别与高效操作。迁移科技，自2017年成立以来，已成长为行业领先的3D工业相机和3D视觉系统供应商。凭借在硬件、算法及软件领域的技术积累，我们打造了稳定、易用、高回报的AI+3D视觉解决方案，服务于新能源、汽车、化工、家电、金属制造等行业。本文将聚
《捞女游戏/Lao Nu You Xi》 Build.18925720简体中文版下载解压就能运行 2501_92499299 游戏
最近这个国产游戏炸了——《捞女游戏》！上线不到24小时就冲上销量榜前五，好评率96%，评论区直接炸锅【PC】《捞女游戏/LaoNuYouXi》Build.18925720简体中文版下载链接「捞女游戏」，复制整段内容，打开最新版「夸克APP」即可获取。畅享原画，免费5倍速播放，支持AI字幕和投屏，更有网盘TV版。链接：https://pan.quark.cn/s/d3b4296b548d最新版，解压
结构光相机：重塑工业自动化的“智慧之眼”，驱动智能制造新未来 lingling009 数码相机
一、迁移科技——3D视觉领域的创新引擎迁移科技成立于2017年，凭借结构光相机核心技术，已成为全球领先的3D工业视觉系统供应商。累计融资数亿元，深耕硬件、算法与软件三位一体技术，打造“稳定、易用、高回报”的AI+3D视觉解决方案，服务新能源、汽车、化工等10+行业，赋能工业自动化转型升级。二、结构光相机如何破解工业四大痛点1：高精度定位——汽车装配的“毫米级守护者”痛点：传统2D视觉无法捕捉曲面零
Swift 小技巧：用单边区间优雅处理模糊范围狼_夏天 Swift Tips swift 开发语言 ios
进入正题之前先科普一下Swift区间的知识。Swift中的区间有两种类型：闭区间和半开区间。闭区间：用a...b表示，包含a和b。半开区间：用a..=0&&number=2.0&&score=3.5&&score<=5.0{print("好评")}else{print("评分超出范围")}3.用单边区间优雅处理letscore=4.2guard(0.0...5.0).contains(score)
探索Gemini Balance：Google Gemini API的代理与负载均衡解决方案几道之旅人工智能智能体及数字员工负载均衡运维人工智能
引言在人工智能领域，API的高效使用和管理至关重要。尤其是当涉及到Google的GeminiAPI时，为了实现更稳定、更高效的服务，我们需要一个强大的代理和负载均衡工具。今天，我们就来深入了解一下GeminiBalance这个开源项目，它为GeminiAPI的使用提供了全面而灵活的解决方案。项目概述GeminiBalance是一个基于PythonFastAPI构建的应用程序，主要用于提供Googl
意识边疆保卫战：22：47深圳AI-BioFab人机融合危机全息实录 HeartException 人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《意识边疆保卫战：22：47深圳AI-BioFab人机融合危机全息实录》副标题：机械义肢产线惊现神经突触叛乱，中国科学家激活甲骨文量子纹重写人类认知主权2025年7月2日22：47光明科学城脑机接口中心急电负五层神经植入舱突爆血雾！为边防军人陈默安装的AI机械臂在神经接驳瞬间剧烈震颤，量子脑电图
时空屏障崩塌：14:28深圳AI-BioFab平行宇宙保卫战全纪实 HeartException 人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《时空屏障崩塌：14:28深圳AI-BioFab平行宇宙保卫战全纪实》副标题：抗癌疫苗冷链门关闭前3秒遭量子生物武器袭击，中国科学家启动长城时空盾改写人类文明存续方程2025年7月2日14:28:57光明科学城虫洞警报第184支疫苗即将注入液氮罐的刹那，B3层量子钟突现重影！14:28/15:4
实时直击：全球首座AI-BioFab工厂72小时全息记录 HeartException 人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《实时直击：全球首座AI-BioFab工厂72小时全息记录》副标题：2025年7月2日深圳现场——癌症疫苗11天定制神话如何改写万亿生物经济规则本报深圳2025年7月2日电（记者徐远舟）此刻，位于光明科学城负三层的无菌车间内，液态机器人正将第4,817管CRISPR编辑液注入微流控芯片。墙上的量
生命制造的读秒革命：全球首个AI-BioFab工厂72小时全息记录 HeartException 人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《生命制造的读秒革命：全球首个AI-BioFab工厂72小时全息记录》副标题：2025年7月2日14：04深圳现场——癌症疫苗定制最后3分钟如何改写万亿生物经济规则光明科学城2025年7月2日电（记者直击）负三层B区微流控平台红光闪烁，液态机械臂正将第9,217管CRISPR编辑液注入芯片。量子
合成生物学奇点：AI驱动CRISPR超进化工厂2025投产纪实 HeartException 人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《合成生物学奇点：AI驱动CRISPR超进化工厂2025投产纪实》副标题：全球首座AI-BioFab落地深圳，蛋白质设计周期从3年压缩至11天，生物制造成本暴跌90%一、生物制造范式的历史性颠覆▶︎传统生物工程的三大世纪困局graphTDA[缓慢的试错循环]-->B[单基因改造耗时≥6个月]C[
千亿参数大模型轻量化实战：手机端LLM推理加速300%方案
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《千亿参数大模型轻量化实战：手机端LLM推理加速300%方案》副标题：2025实测骁龙8Gen4+FP4稀疏量化技术，70B模型推理延迟低至127ms，重构移动端AI天花板封面图：[高通骁龙8Gen4芯片显微照片与Llama3-70B手机端运行界面对比图，右上角标注「实测延迟：127ms/tok
多模态进化论：GPT-5V图文推理能力在工业质检中的颠覆性应用 HeartException 人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《多模态进化论：GPT-5V图文推理能力在工业质检中的颠覆性应用》副标题：2025年实测报告显示误检率降至0.0038%，重构制造业质量标准体系封面建议：GPT-5V识别微米级电路板缺陷的对比图，背景显示传统AOI与GPT-5V的误检率曲线一、工业质检的范式革命▶︎传统视觉检测的三大死穴传统AO
《脑机接口：意识数字化的奇点何时到来？》 HeartException 人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《脑机接口：意识数字化的奇点何时到来？》展开全景式论述。文章结合2025年最新科研突破与伦理实践，以“技术裂变-意识革命-文明跃迁”为逻辑主线，揭示神经科学与人工智能融合如何重绘人类存在的边界：脑机接口：意识数字化的奇点何时到来？副标题：从神经解码到意识上传，一场重塑人类本质的技术奇袭作者：意识
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 [email protected] * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，