工业甲酰苯胺

AI浪潮下，大模型如何在音视频领域运用与实践？

在AI技术发展如火如荼的当下，大模型的运用与实践在各行各业以千姿百态的形式展开。音视频技术在多场景、多行业的应用中，对于智能化和效果性能的体验优化有较为极致的要求。如何运用好人工智能提升算法能力，解决多场景业务中的具体问题，需要创新地探索大模型技术及其应用方式。本文由LiveVideoStackCon2023深圳站演讲《AI新范式下，阿里云视频云大模型算法实践》整理而成，演讲者为阿里云智能高级算法专家刘国栋，分享阿里云视频云的大模型算法实践。

《AI新范式下，阿里云视频云大模型算法实践》主题分享，包含如下四个部分：

01 音视频AI发展趋势与业务对AI算法的要求

首先我们看第一部分：音视频AI发展趋势与业务对AI算法的要求。

当下，音视频服务已广泛应用于互娱、广电传媒、教育、金融等各种行业，对场景的渗透也越来越深。这些行业、场景对智能化和体验的追求愈来愈高，同时用户希望用得起、更普惠。完成这样的目标，AI可以发挥重要作用，这已成为行业共识。

随着AIGC的发展，音视频领域的AI技术也呈现出了新的趋势，即对AI技术的通用性、理解能力、生成能力都提出了更高的要求。过去纯粹的定制小模型开发、单模态处理和预测范式有不少缺陷，触达到了能力上限，而目前音视频AI技术则走向了泛化能力非常强的预训练大模型、多模态信息融合、生成式等方向。还有值得提出的一点是AI Agent的能力，即要求AI有感知、决策、行动的能力，它目前已成为一个重要的研究方向。

当前，阿里云视频云的核心业务包括直播、点播、媒体服务、音视频通信，形成了完整的产品、解决方案阵列。这些业务、产品覆盖音视频从采集、生产、处理、媒资管理、传输与分发、播放与消费的全链路。

目前AI为音视频全链路的各环节提供了算法原子能力。举例来讲，在处理环节，我们开发了多个AI算法，在视频方面包括视频增强、视频修复、超分、插帧，HDR等；在音频方面包括智能降噪、语音增强、空间音频、影视音效等。这些AI算法都集成到产品中，提升了产品的竞争力。

当然，AI除了提供算法原子能力之外，也渗透到视频云的引擎层、调度层、业务层，进一步提升它们的智能化水平。

尽管AI已经大量融入业务，我们对业务做了深入分析后，还是发现了一些痛点问题。举例说明，云剪辑，很多时候还是需要指定剪辑模版，缺乏自动化，另外，获取高质量的素材也很难；在媒资管理中，视频检索的质量仍然存在不少提升空间。但同时，由于大模型、AIGC带来的巨大变革，我们认为解决这些业务痛点问题已成为可能。

我们总结出几点新趋势下视频云业务对AI算法的要求，包括追求效果性能上的极致体验，追求算法的泛化性、通用性，提升AI自主决策、规划处理链路的能力，以及降低开发、接入、使用的成本。

02 视频云大模型算法系统架构与关键技术

针对音视频业务对AI算法的更高要求，我们采用了大模型的技术，设计了一套基于视频云大模型算法开发的系统架构，并实践、提炼了一些关键技术，形成了一套较为通用的大模型算法落地业务场景的“方法论”。

我们先看下大模型时代来临前，是如何设计算法的。

多数情况下，我们采用小模型、传统算法或者两者结合的方法。其优点是：小模型、传统算法在算法开发、工程优化方面已相对比较成熟，小模型的训练资源占用少且训练速度快，部署容易，端侧落地性强。但是问题也比较突出，比如模型的泛化能力差，效果上限比较低，理解、生成能力比较差等。

而大模型出现后，它的通用性、泛化性、多模态能力、强大的理解和生成能力等都让我们惊叹不已，这些正是小模型和传统算法所欠缺的。用大模型技术去解决之前的算法问题，甚至重做一遍，提高算法效果的上限，我们认为这是比较可行的做法。

不过我们也发现了大模型的一些通病，比如对细粒度的问题还不能完美处理、容易出现幻觉现象、推理训练成本都比较高等。如果要在实际业务中应用大模型，这些问题都应该要尽量避免甚至解决。

那我们是如何推进大模型算法演进的呢？

首先，我们根据视频云的业务特点，设计和搭建了一套基于视频云大模型算法开发的系统架构。整个系统涵盖了分析、规划、推理、评价、训练与微调的全链路，并且是可进化、可决策的。

可决策主要体现在，系统会根据客户需求和自身的分析，结合视频云知识库及LLM做出决策，制定合适的处理链路和选择模型去完成任务。

可进化主要体现在两个方向，一方面，系统会通过推理、评价、训练不断迭代，完善模型；另一方面，知识库也是不断更新的，比如说好的解决方法和评价信息以及业务反馈、沉淀的数据等都会送入知识库，确保知识的新鲜度、准确度。

基于大模型算法系统框架，我们不断地在业务中实践、演进，提炼出一套通用的大模型算法开发的“方法论”，使其能高质量地解决业务中的实际问题。

第一，大小模型协同技术。

针对前面指出的大模型、小模型或传统算法各自存在的问题，我们提出几种大小模型、传统算法协同的方法，包括三者的串联、并联，用小模型特征引导大模型或者大模型引导小模型，以及它们的组合。目前，我们在实践中已经采用了大小模型协同的方法，比如实景抠图、声音克隆等算法，已经取得了比较好的效果。

第二，大模型微调。

目前音视频领域的大模型往往针对通用场景，在实际业务中效果不太好，当然这并不是讲这些模型完全不可用。在一些情况下，我们针对自己的业务场景，筛选出相对高质量的大模型，再结合我们的数据、知识库进行大模型的微调。

整个过程会涉及到训练数据的制作、微调的具体方法、幻觉和灾难性遗忘的应对、以及训练策略和效果评价方法等一系列问题。

我们在实践中主要采用了参数高效的微调方法，对调整哪些网络结构层也做了大量实验。训练策略上采用模型解耦，多步训练的策略。比如在视频搜索中，我们就采用了类似的方案，使得模型准确度有了大幅提升。

第三，大模型的训练优化。

大模型训练的计算量巨大，显存的占用也非常大，这导致训练周期很长，算法迭代速度很慢，影响算法的落地。

我们从IO、计算、存储等角度出发，实践了一些并行训练、显存优化的方法，包括多种并行，混合精度训练，梯度检测点等，以及采用Zero、Offload、Flashattention等工具。这些方法使得我们可以在一些性能不高的GPU上，如RTX3090/RTX4090/V100，完成多机多卡的训练，从而降低算法的开发周期。

第四，大模型压缩和推理优化。

实际业务对成本的要求是比较高的，我们希望在保证模型效果的前提下，尽量提升推理的性能。

实践中，我们对模型做了多轮的压缩，交替使用多种压缩方法，包括使用轻量的backbone，低秩分解，以及剪枝，知识蒸馏、量化等。比如在抠图中，我们采用多种压缩方式的组合，使模型大小有了显著下降，参数减少30%以上。

此外，我们也做了很多推理层面的优化，比如算子融合、算子优化、矩阵优化，显存优化，批处理优化等，并借助阿里云神龙团队的HRT推理引擎，使得大模型推理性能得到进一步提升。

03 视频云大模型算法典型实践案例

接下来介绍当前阿里云视频云在大模型方面的进展。在过去近一年的时间内，阿里云视频云在大模型方面做了深入探索，开发了多个算法，所做工作涉及音视频采集、生产、处理、媒资管理、传输分发、播放消费全链路的多个环节。

正如上图所示，在生产制作环节，我们开发实景抠图、声音克隆、文生图、图生图、AI作曲等多个基于大模型的算法；在媒资管理环节，开发了基于大模型的视频搜索、视频标签、视频概要等技术；在处理环节，我们开发了基于大模型的视频修复、语音增强等算法。

目前我们已经初步形成了较为完整的视频云大模型算法阵列。这些算法中很多都已集成进产品，并服务客户。在这里，我将从生产制作、媒资管理、处理方面分别介绍一项典型算法实践，即实景抠图、视频检索、视频修复。

实景抠图是一项非常重要的底层技术，它的应用面非常广，比如我们熟知的数字人制作、虚拟演播厅、影视特效、视频剪辑、视频会议等都会用到它。

阿里云视频云在抠图方面有多年的积累，已开发多种抠图算法，可以应对客户端、服务器等的不同需求，也已在多种业务场景落地。

这里重点介绍的是面向服务器的基于大模型的抠图技术。

一般情况下，想要得到高质量的抠图结果，都要采用搭建绿幕的方式。因为这种情况对光照、设备、去溢色等都有非常专业的要求，在一定程度上限制了绿幕抠图的应用范围。

而在实际业务中，往往需要对实景拍摄的视频，抠出前景来。由于拍摄环境多变、内容多种多样，用算法自动进行抠图实现难度比较大。

如何对实景视频实现高质量抠图呢？这涉及到算法选型的问题。

我们先看下小模型方法能否实现高质量抠图。经过深入调研，我们发现很多抠图效果好的方法都采用人工干预的方法，这种方式对单帧图像比较友好，但对于视频，往往处理耗时久，不太实用。而采用非交互式方式的抠图，鲁棒性则较差，往往只能较好地抠人像，难以在多场景推广。

大模型分割算法的出现，让我们看到了采用大模型提升抠图效果的可能性。以SAM为例，它的分割泛化能力非常强，分割质量高，对噪声、阴影等也能做到很好的处理。

我们希望借助大模型分割的能力来实现高质量的抠图。

我们提出了一种基于大模型的实景抠图方案。它能统一处理蓝绿幕与实景抠图，所以实际处理中不用再区分背景是蓝绿幕还是实景。此外，该方案不仅可以抠人像，还可以抠与人连带的附属物，并且抠图的质量都非常高。

它的整体流程如下：首先用户提供一些抠图所需的信息，这些信息以文本形式嵌入，然后输入图像与文本嵌入向量逐步经过目标检测、基于轻量化大模型的物体分割、基于小模型的抠图网络。

在这个框架中，模块是可插拔的，而且采用的是大小模型结合的方式。小模型会充分吸收大模型的信息，比如这里的抠图网络，它吸收来自分割模型的特征，提高了抠图的效果。

我们重点看下分割大模型是如何做到轻量化的。

首先选择一个各方面都表现比较好的基础大模型（泛化性好、分割准确度高、效果和性能平衡）。

接下来的工作是调整它，解决其适配业务场景的问题，使它在业务场景下表现得比较完美。这里会进行微调，我们设计了Adapter结构，实践中采用了MLP和低秩分解组合的形式。另外，Adapter的插入位置也进行了很多尝试。还有一点是训练数据的制作，以及数据配比等等都非常重要。

有了一个效果比较好的大模型，我们开始设计轻量化的大模型，这个模型采用轻量化的vit结构作为backbone，使用前面训练好的大模型对它进行蒸馏，使用剪枝等技术进行优化。

经过这些操作，轻量化模型的参数下降到基础大模型的2/3。在这个过程中，我们也沉淀了多个不同复杂度、不同抠图能力的模型，把它们的能力送到知识库中。实际业务使用时，决策中心会根据要求调用合适的模型。

除了算法层面的优化，我们还进行了一些工程侧的优化，主要包含三方面：

1、工程架构的优化，这里采用了CPU、GPU异步并行；

2、网络推理方面的优化，如使用推理框架HRT，采用fp16、int8推理；

3、传统算法模块的优化，如控制优化、循环优化、访存优化、线程优化等。

经过算法、工程两方面的优化，对于输入的1080p视频，我们在A10上实现了33fps的高质量抠图。

我们看下抠图的效果。对于输入图像，我们实现了抠人像、以及抠人像加桌子/化妆品/手机等附属物的效果。这个抠图质量还是比较高的，特别是发丝抠图效果非常细腻，人物、物体的抠图边缘都很精细。

另外，我们也开发了前背景和谐化的技术，解决了抠出的前景与被贴入背景在光照、对比度、色彩等方面不协调的问题。

在刚刚过去的云栖大会，我们也展示了一个抠图的应用，在开放环境中，实现异地多人实时连麦+虚拟背景的功能。右图是现场演示的图像。

我们再看下媒资管理中的视频搜索。它的应用也非常广，包括广电传媒、云导播、云盘管理、短视频内容推荐、视频监控等。

这里先介绍下传统的视频检索方法。

它通常采用小模型方法对视频内容进行识别，包括人脸识别、物体识别、Log识别、OCR、ASR等等，然后生成标签，这些标签是文本关键词形式的，且大部分是实体标签。这些标签都会送到数据库中。对于用户输入的查询语句，进行标签的查询，并返回对应视频的片段。

这里存在一个比较大的问题，即搜索往往是实体的搜索，而对于实体的动作、相互之间关系等很难检索到正确的视频，另外，搜索往往对查询词很敏感。

我们看到多模态表征技术将图像和文本映射到统一的高维空间中，实现了实体、实体关系等的高质量检索，并对文本中的同义词、近义词不敏感。这些典型的表征技术包括CLIP、BLIP技术等，还有针对中文的ChineseCLIP、TEAM等。但这些技术是针对单帧图像的，而我们的场景都是视频。那如何实现视频的检索？如何提升高维向量检索的时效性呢？

我们提出了一种基于嵌入模型的视频检索算法。

对于视频而言，同一个镜头，最好用同一个或少数几个embedding vector表示。这样做的好处是减少了embedding向量的数量，也就减少了存储的空间和检索的计算量，同时，由于是对镜头进行处理，表征的质量更高，检索的质量也就更高。我们通过三步达到这个目标：

1、首先，对视频内容分析，结合固定步长抽帧和自适应抽帧，初步过滤掉一些信息冗余的帧；

2、其次，采用相邻采样帧，进行时空维度的特征编码；

3、最后，对嵌入向量，从检索角度，进行多级聚类和量化。

经过这三个过程，在同一镜头内，得到的最终向量只有非常少数，大大降低了向量的存储空间，提升了检索的效率，而且也提高了检索质量。

这里我们设计了多帧的视觉编码器，采用微调、蒸馏等方法保证了它的效果，并实现了它与文本的对齐。

在前面方法的基础上，我们又提出了一种信息融合的视频检索算法。这里解决的问题是：

一是实现视觉+声音与文本间的检索，比如检索出小鸟在树上叫的视频片段，二是实现更细粒度的检索，比如某位名人在某个著名景点的活动。

针对这两个问题，我们分别设计了时空视听嵌入模块和关键实体识别模块，分别提取不同粒度的表征信息。在检索阶段，我们会分别对两种粒度的嵌入向量进行检索，再对二者的信息进行融合，最终实现更好的检索效果。

此算法发挥了不同模型优势，融合了多模态的信息，并提升了检索的适用范围。

我们再看下多模态融合是如何实现的。整个过程如上图所示。

它实现了同一场景视觉与听觉的特征融合，也实现了视听特征与文本的模态对齐。我们借鉴了ImageBind的方法，把音频、文本都对齐到了视觉空间。

目前，该功能已经集成进媒体服务产品中。这里展示了一些视频搜索的效果，我们可以看到新方法的一些效果，它对动作、时间、数量等都有比较好的检索能力。

最后看下处理方面的视频修复算法。视频修复的应用场景非常广泛，比如体育赛事、综艺节目、影视剧、纪录片、动漫、老歌MV等场景。

视频修复的维度非常多样，比如针对瑕疵、拍摄或制作中的噪声、细节、色彩等，都可以进行修复。这里讲的视频修复针对的是直播、点播等场景中，在制作、编辑、转码中引入的细节退化问题。如左图所示，我们能看到明显的细节退化，比如模糊、块效应、边缘锯齿等。

那用什么方法来解决细节退化呢？这里牵扯到算法选型的问题。

从我们之前积累的经验看，GAN方法对一些垂直领域的、退化不是非常严重的场景，可以有比较好的效果。但当片源或流的质量比较差时，GAN方法的细节恢复就显得不够了，而且此时生成的效果也不太自然。此外RealESRGAN的效果，一定程度上也印证了我们的结论。

我们发现，基于SD预训练模型的StableSR可以取得更好的细节生成效果，具体表现为：它对源质量适应性强，效果自然、稳定，细节恢复质量高。因此我们选择SD来应对这样的修复场景。

下面介绍我们的方案。该算法借鉴了StableSR的一些想法，网络层面也是由UNet和VAEFGAN组成的。我们结合业务场景进行深入的设计和调整，特别是针对badcase的处理做了大量工作。这里简单介绍几方面：

1、在训练数据方面，采用了离线和在线结合的数据降质模拟策略；

2、针对VAEGAN中编码器处理后有信息损失的问题，我们采用了编码器特征导引解码器的网络形式，并对他们进行联合微调；

3、在训练策略上，通过引入HR编码器特征，把扩散模型与VAEGAN解耦；

4、此外我们也采用了多阶段训练策略。

这里展示了SD修复的效果。从图中不难看出，新方法对人像和自然物都有很好的修复，比如，头发上的很多细节都恢复出来了，人的五官变得更清晰了，远处船上及绳索上的细节、建筑物的细节也恢复出来了。

04 音视频大模型的思考

关于音视频大模型的思考，这里介绍四个方面：

第一是端侧智能。随着终端芯片对大模型支持的力度越来越大，比如apple、高通等公司都发布了大模型终端芯片，大模型在端侧落地已是必然趋势。目前我们从端侧大模型设计、推理优化两方面入手，针对高端机型，进行了端侧大模型落地的探索。

第二是云端一体。从技术层面讲，需要解决两方面的问题，第一个是如何划分大模型云、端的计算负载，第二个是大模型的特征编码。

第三是模型的统一。这里重点强调两个统一，视觉模型backbone的统一、以及多模态encoder的统一。在有了统一的基座模型之后，可以针对业务场景对下游任务进行finetune。

第四是大模型的决策能力。我们希望大模型不仅能解决单点问题，还希望它有规划、行动的能力，也就是Agent的概念。现在在算法层面，我们已经做了一些工作，接下来我们希望用大模型来提升引擎、调度、业务层的智能化水平。

文章转载自：阿里云视频云

原文链接：https://www.cnblogs.com/VideoCloudTech/p/17901687.html

项目体验地址：引迈 - JNPF快速开发平台_低代码开发平台_零代码开发平台_流程设计器_表单引擎_工作流引擎_软件架构

你可能感兴趣的:(人工智能,音视频)

颠覆人机交互！多模态 AI Agents 大模型如何用 5 大模式开启智能新时代？
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】GPT多模态大模型与AIAgent智能体书籍本章配套视频课程【陈敬雷】文章目录GPT多模态大模型与AIAgent智能体系列七颠覆人机交互！多模态AIAgents大模型如何用5大模式开启智能新时代？一、从“单一感知”到“多模态融合”：A
实操 SpringBoot+MCP！清风孤客 spring boot 后端 java 人工智能
引言随着人工智能的飞速发展，大语言模型(LLM)正在革命性地重塑用户与软件的交互范式。想象一下这样的场景：用户无需钻研复杂的API文档或者在繁琐的表单间来回切换，只需通过自然语言直接与系统对话——“帮我查找所有2023年出版的图书”、“创建一个新用户叫张三，邮箱是[email protected]”。这种直观、流畅的交互方式不仅能显著降低新用户的学习曲线，更能大幅削减B端系统的培训成本和实施
如何学习智能体搭建
如何学习智能体搭建前言随着人工智能的发展，智能体（Agent）成为自动化、交互式应用和自主决策系统中的核心角色。本书将从零基础出发，系统讲解智能体的基本原理、常见框架、实战搭建与进阶技巧，帮助你快速上手并应用于实际项目。目录智能体基础认知智能体的核心组成主流智能体开发框架本地智能体与云端智能体选型智能体的任务自动化与插件集成智能体的知识检索与上下文管理智能体的多模态扩展智能体安全与可控性智能体实战
[特殊字符] AlphaGo：“神之一手”背后的智能革命与人机博弈新纪元大千AI助手人工智能 Python #OTHER 人工智能算法数据挖掘机器学习 alphago google 围棋
从围棋棋盘到科学前沿的通用人工智能范式突破本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、核心定义与历史意义AlphaGo是由谷歌DeepMind团队开发的围棋人工智能程序，其里程碑意义在于：首破人类围棋壁垒：2016年以4:1击败世界冠军李世石九段，成为首个在完整对局中战胜人类顶尖棋手的AI。
python视频工具包 ffmpeg 使用示例 pythonffmpeg
1.简介FFMPEG堪称自由软件中最完备的一套多媒体支持库，它几乎实现了所有当下常见的数据封装格式、多媒体传输协议以及音视频编解码器，提供了录制、转换以及流化音视频的完整解决方案。2.ffmpeg的常用方法将某文件下所有ts文件按顺序合并，转换成MP4格式存储：importffmpegdeftest2():ts_folder='path/ts_files/ceshi/'output_mp4="pa
【人工智能】Spring AI Alibaba，一个面向 Java 开发者的开源框架，它旨在简化将人工智能（AI）功能集成到应用程序中的过程。本本本添哥 A -AIGC 人工智能大模型人工智能 java spring
一、SpringAIAlibaba介绍SpringAIAlibaba是一个面向Java开发者的开源框架，它旨在简化将人工智能（AI）功能集成到应用程序中的过程。该项目基于SpringAI构建，并且是阿里云通义系列模型及服务在JavaAI应用开发领域的最佳实践。SpringAIAlibaba的目标是为开发者提供一套高层次的AIAPI抽象以及与云原生基础设施的深度集成方案，从而帮助他们快速构建智能应用
模型融合与人机协同：构建人机共生的智能未来 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍在科技日新月异的今天，人工智能（AI）已经成为了我们生活中不可或缺的一部分。从智能手机，到自动驾驶汽车，再到医疗诊断，AI的应用已经渗透到了我们生活的方方面面。然而，尽管AI的发展已经取得了显著的成就，但是我们仍然面临着一个重大的挑战：如何让AI系统更好地理解和适应人类的需求，以实现人机共生的智能未来。为了解决这个问题，越来越多的研究者开始探索模型融合和人机协同的方法。2.核心概念与联
vLLM 优化与调优：提升模型性能的关键策略强哥之神人工智能深度学习计算机视觉 deepseek 智能体 vllm
在当今人工智能领域，大语言模型（LLM）的应用日益广泛，而优化和调优这些模型的性能成为了至关重要的任务。vLLM作为一种高效的推理引擎，提供了多种策略来提升模型的性能。本文将深入探讨vLLMV1的优化与调优策略，帮助读者更好地理解和应用这些技术。抢占式调度（Preemption）由于Transformer架构的自回归特性，有时键值缓存（KVcache）空间不足以处理所有批量请求。在这种情况下，vL
Spring Data Neo4j 与后端人工智能算法的数据交互 AI大模型应用实战 spring neo4j 人工智能 ai
SpringDataNeo4j与后端人工智能算法的数据交互关键词：SpringDataNeo4j、图数据库、人工智能算法、数据交互、知识图谱、图神经网络、数据集成摘要：本文深入探讨了如何利用SpringDataNeo4j框架实现后端人工智能算法与图数据库的高效数据交互。文章首先介绍了图数据库和人工智能算法的基本概念，然后详细解析了SpringDataNeo4j的核心架构和原理。接着，通过实际代码示
【AI大模型】深入解析预训练：大模型时代的核心引擎我爱一条柴ya 学习AI记录深度学习人工智能 ai python AI编程算法
预训练已成为现代人工智能，尤其是自然语言处理和计算机视觉领域的基石技术。它彻底改变了模型开发范式，催生了BERT、GPT等革命性模型。本文将系统阐述预训练的核心概念、原理、方法、应用及挑战。一、预训练的本质：为何需要它？核心问题：数据标注的瓶颈监督学习依赖海量高质量标注数据，获取成本极高（时间、金钱、专业知识）。对于复杂任务（如理解语义、生成文本），标注难度呈指数级上升。标注数据稀缺导致模型泛化能
广州曼顿2P数字微断：保护电力设备的安全守护者 mdkk678 安全
在现代社会，电力设备的安全运行对各行各业至关重要。然而，电力系统中存在各种电压波动、过载和短路等问题，可能对设备造成损害。为了保护电力设备免受这些问题的影响，广州曼顿推出了2P数字微断器。本文将介绍这一创新产品的特点和优势，以及它对电力设备的保护作用。广州曼顿科技有限公司专注用户侧智慧数字电气产品研制，以及智慧电能服务大数据云平台建设。基于人工智能技术，大幅提升人触电时的生命安全保障，以及电气火灾
Python通关秘籍之基础教程(一） Smile丶Life丶 Python 通关指南：从零基础到高手之路 python 开发语言后端
引言在编程的世界里，Python就像一位温和而强大的导师，它以简洁优雅的语法和强大的功能吸引着无数初学者和专业人士。无论你是想开发网站、分析数据、构建人工智能，还是仅仅想学习编程思维，Python都是你的理想选择。Python的魅力在于它的易读性和广泛的应用场景。它的代码就像英语句子一样自然，即使是完全没有编程经验的人也能快速上手。同时，Python拥有庞大的生态系统，从Web开发（Django、
多模态大模型发展全景：从架构创新到应用突破陈敬雷-充电了么-CEO兼CTO python 大模型多模态大模型 AIGC 机器学习深度学习 DeepSeek
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】《GPT多模态大模型与AIAgent智能体》新出书籍配套视频【陈敬雷】推荐算法系统实战全系列精品课【陈敬雷】文章目录GPT多模态大模型系列四多模态大模型发展全景：从架构创新到应用突破更多技术内容总结GPT多模态大模型系列四多模态大模型
ollama v0.9.6版本发布详解：修复启动屏幕样式及新增工具名称参数支持福大大架构师每日一题文心一言vschatgpt ollama
作为近年来备受瞩目的开源对话式人工智能框架之一，ollama持续更新优化其产品，致力于为开发者带来更稳定、高效的使用体验。2025年7月8日，ollama发布了v0.9.6版本，这一版本在用户界面和API的可用性方面做出了重要改进，进一步增强了开发和集成的便捷性。本文将对ollamav0.9.6版本的更新内容进行全面解析，详细介绍新特性、修复的具体问题、应用示例及最佳实践，帮助开发者快速掌握和应用
AI人工智能与机器学习的大数据融合应用 AI智能探索者人工智能机器学习大数据 ai
AI人工智能与机器学习的大数据融合应用关键词：AI人工智能、机器学习、大数据、融合应用、数据挖掘摘要：本文深入探讨了AI人工智能与机器学习在大数据融合应用方面的相关内容。首先介绍了研究的背景、目的、预期读者和文档结构，对核心术语进行了清晰定义。接着阐述了AI、机器学习和大数据的核心概念及相互联系，给出了形象的文本示意图和Mermaid流程图。详细讲解了核心算法原理，并通过Python源代码进行说明
深入解读 Qwen3 技术报告（一）：引言小爷毛毛（卓寿杰）大模型AIGC 深度学习基础/原理人工智能自然语言处理 python 语言模型深度学习
重磅推荐专栏：《大模型AIGC》《课程大纲》《知识星球》本专栏致力于探索和讨论当今最前沿的技术趋势和应用领域，包括但不限于ChatGPT和StableDiffusion等。我们将深入研究大型模型的开发和应用，以及与之相关的人工智能生成内容（AIGC）技术。通过深入的技术解析和实践经验分享，旨在帮助读者更好地理解和应用这些领域的最新进展1.引言：迎接大型语言模型的新纪元我们正处在一个由人工智能（AI
AI人工智能遇上TensorFlow：技术融合新趋势 AI大模型应用之禅人工智能 tensorflow python ai
AI人工智能遇上TensorFlow：技术融合新趋势关键词：人工智能、TensorFlow、深度学习、神经网络、机器学习、技术融合、AI开发摘要：本文深入探讨了人工智能技术与TensorFlow框架的融合发展趋势。我们将从基础概念出发，详细分析TensorFlow在AI领域的核心优势，包括其架构设计、算法实现和实际应用。文章包含丰富的技术细节，如神经网络原理、TensorFlow核心算法实现、数学
边缘人工智能与医疗AI融合发展路径：技术融合与应用前景（上） Allen_Lyb 数智化医院2025 人工智能健康医疗算法
引言人工智能技术正以前所未有的速度改变着医疗保健领域，从辅助诊断到个性化治疗，AI应用的广度和深度不断拓展。在这一浪潮中，边缘人工智能（EdgeAI）作为一种新兴技术范式，正成为推动医疗AI创新的关键力量。边缘AI区别于传统的云计算模式，它将数据处理和AI模型部署在数据源头附近，实现快速响应和隐私保护。这种特性使其在医疗保健领域具有独特优势，特别是在实时监测、紧急响应和患者隐私保护等方面。边缘AI
4K超高清无缝切换与画面分割矩阵
格芬科技4K超高清无缝切换与画面分割矩阵技术解析格芬科技作为音视频传输与控制领域的领先企业，其4K超高清无缝切换与画面分割矩阵产品以高性能、高灵活性和高可靠性为核心优势，广泛应用于会议室、指挥中心、舞台演出、教育培训等场景。以下从产品特性、技术规格、应用场景及选型建议四个维度进行详细解析：一、核心产品与技术特性4K@60Hz超高清支持分辨率与刷新率：格芬科技矩阵产品（如GF-HDMI0404U、G
HDMI高清矩阵与无缝拼接矩阵 OEM定制控标 geffen08 TPHD141K vc-1 g711 es13
HDMI高清矩阵与无缝拼接矩阵：GEFFEN/GF-MIX系列介绍GEFFEN/GF-MIX系列矩阵是一款集成了高性能、高灵活性和高可靠性于一身的音视频处理设备，特别适用于需要高清视频信号切换、拼接和显示的场合。HDMI高清矩阵主要功能与特点：高清视频信号切换：GEFFEN/GF-MIX系列HDMI高清矩阵支持多路HDMI输入和多路HDMI输出，能够轻松实现高清视频信号之间的快速切换。无缝切换技术
[硬件接口]HDMI和DP 区别
DisplayPort和HDMI在FPGA应用场景的实现使用与区别概述DisplayPort（DP）和HDMI是两种主流的数字音视频接口，广泛应用于视频传输场景。在FPGA（现场可编程门阵列）应用中，DP和HDMI常用于视频处理、显示驱动和高带宽数据传输。本文档比较两者在FPGA实现中的使用方式、应用场景及主要区别，并以Markdown格式呈现。1.FPGA实现概述1.1DisplayPort在F
AI人工智能领域中AI作画的技术优势 AI大模型应用之禅人工智能 AI作画 ai
AI人工智能领域中AI作画的技术优势关键词：AI作画、技术优势、人工智能、艺术创作、图像生成摘要：本文深入探讨了AI人工智能领域中AI作画的技术优势。从背景介绍出发，阐述了AI作画的起源与发展，明确了文章的目的、范围、预期读者以及文档结构。接着详细分析了AI作画的核心概念，包括其原理和架构，并通过Mermaid流程图进行直观展示。对核心算法原理进行了深入剖析，结合Python代码示例进行讲解。同时
快速掌握Python编程基础张彦峰ZYF python
干货分享，感谢您的阅读！备注：本博客将自己初步学习Python的总结进行分享，希望大家通过本博客可以在短时间内快速掌握Python的基本程序编码能力，如有错误请留言指正，谢谢！（持续更新）一、快速了解Python和环境准备（一）Python快速介绍Python是一种简洁、强大、易读的编程语言，广泛应用于Web开发、数据分析、人工智能、自动化运维等领域。它由GuidovanRossum在1991年设
人工智能开源的大模型训练微调框架LLaMA-Factory
LLaMA-Factory是一个开源的大模型训练微调框架，具有模块化设计和多种高效的训练方法，能够满足不同用户的需求。用户可以通过命令行或Web界面进行操作，实现个性化的语言模型微调。LLaMA-Factory是一个专注于高效微调LLaMA系列模型的开源框架（GitHub项目地址：https://github.com/hiyouga/LLaMA-Factory）。它以极简配置、低资源消耗和对中文任
智慧城市大脑解决方案
智慧城市大脑背景与意义智慧城市大脑作为城市管理的创新模式，通过集成大数据、人工智能等技术，实现了对城市运行的全面感知与智能决策。它不仅提升了城市管理效率，还为市民带来了更加便捷、安全的生活体验。智慧城市大脑建设历程某城市作为智慧城市大脑的创新策源地，自2016年起便与阿里巴巴集团深度合作，投入巨资自主研发城市数据大脑“交通小脑”平台。该平台成功接入了大量视频和数据，实现了对道路和时间资源的再分配，
csdn-AI测评 Right.W 人工智能
一、你平时会使用这类AI工具吗？你对这类型的工具有什么看法？AI工具灵活、多样、能够回答各种问题，大为方便了人们日常学习、工作、生活的需要。目前很流行的chartgpt就是一款超火爆的ai工具，可以写论文、敲代码各种功能十分强大，为各个领域的数字化和智能化进程给予了很大帮助。但是人的智慧和意识是机器无法取代的，人类对人工智能不能过度依赖，人工智能只是改善生活、提高效率的工具而已。二、你可以花几分钟
智慧城市大脑：城市治理的新引擎 Fulima_cloud 智慧城市人工智能
在科技日新月异的今天，智慧城市的概念已经深入人心。而智慧城市大脑，作为智慧城市的中枢神经系统，运用大数据、云计算、物联网、人工智能等先进技术，构建的城市级智能化管理体系，正逐步成为提升城市治理能力、优化城市服务、推动城市可持续发展的重要力量。智慧城市大脑是什么，简而言之，是运用大数据、云计算、物联网、人工智能等先进技术，构建的城市级智能化管理体系。它如同城市的“智慧中枢”，通过对城市全域运行数据的
【亲测免费】探索AudioSlicer：智能音频分割工具秦贝仁Lincoln
探索AudioSlicer：智能音频分割工具去发现同类优质开源项目:https://gitcode.com/项目介绍AudioSlicer是一个基于Python的轻量级工具，专门用于切割.wav音频文件。它通过检测静音段将音频拆分成多个独立样本，并生成一个.json文件，详细记录了每个切片的时间范围。该项目灵感源自AndrewPhillipDoss的工作，现在正向着人工智能适应的方向发展，有望实现
人工智能怎么入门？零基础入门指南：从小白到AI实战者的第一步 OpenCV图像识别人工智能人工智能计算机视觉自然语言处理神经网络机器学习
人工智能（AI）是当今最具前景的科技领域之一。从聊天机器人到自动驾驶，从图像识别到语音翻译，AI正在以前所未有的速度改变世界。但对于初学者来说，一个最常见的问题是：“我没有基础，也不是学数学或计算机的，人工智能还能学吗？我该怎么入门？”答案是：可以学，而且你并不孤单。越来越多的人正在以“跨专业、转行、自学”的方式进入AI领域。关键是，你需要一个清晰的入门路径，理解应该先做什么、学什么、避开什么误区
深度学习基础与应用：从理论到实战创新工场
本文还有配套的精品资源，点击获取简介：深度学习是人工智能的核心分支，通过模拟人脑神经网络处理大量数据以执行复杂任务。Python因其简洁性和强大的库支持成为深度学习研究的首选语言。本文概述了深度学习基础概念、核心算法、Python框架，并假设了一个包含教程、示例代码、数据集、交互式学习环境、性能评估指标和进阶主题的“deep-learning-study-main”压缩包内容，旨在帮助学习者深入理
Java 并发包之线程池和原子计数 lijingyao8206 Java计数 ThreadPool 并发包 java线程池
对于大数据量关联的业务处理逻辑，比较直接的想法就是用JDK提供的并发包去解决多线程情况下的业务数据处理。线程池可以提供很好的管理线程的方式，并且可以提高线程利用率，并发包中的原子计数在多线程的情况下可以让我们避免去写一些同步代码。这里就先把jdk并发包中的线程池处理器ThreadPoolExecutor 以原子计数类AomicInteger 和倒数计时锁C
java编程思想抽象类和接口百合不是茶 java 抽象类接口
接口c++对接口和内部类只有简介的支持,但在java中有队这些类的直接支持 1 ,抽象类 : 如果一个类包含一个或多个抽象方法,该类必须限定为抽象类(否者编译器报错) 抽象方法 : 在方法中仅有声明而没有方法体 package com.wj.Interface;
[房地产与大数据]房地产数据挖掘系统 comsci 数据挖掘
随着一个关键核心技术的突破,我们已经是独立自主的开发某些先进模块,但是要完全实现,还需要一定的时间... 所以,除了代码工作以外,我们还需要关心一下非技术领域的事件..比如说房地产 &nb
数组队列总结沐刃青蛟数组队列
数组队列是一种大小可以改变，类型没有定死的类似数组的工具。不过与数组相比，它更具有灵活性。因为它不但不用担心越界问题，而且因为泛型（类似c++中模板的东西）的存在而支持各种类型。以下是数组队列的功能实现代码： import List.Student; public class
Oracle存储过程无法编译的解决方法 IT独行者 oracle 存储过程　
今天同事修改Oracle存储过程又导致2个过程无法被编译，流程规范上的东西，Dave 这里不多说，看看怎么解决问题。 1. 查看无效对象 XEZF@xezf(qs-xezf-db1)> select object_name,object_type,status from all_objects where status='IN
重装系统之后oracle恢复文强chu oracle
前几天正在使用电脑，没有暂停oracle的各种服务。突然win8.1系统奔溃，无法修复，开机时系统提示正在搜集错误信息，然后再开机，再提示的无限循环中。无耐我拿出系统u盘准备重装系统，没想到竟然无法从u盘引导成功。晚上到外面早了一家修电脑店，让人家给装了个系统，并且那哥们在我没反应过来的时候，直接把我的c盘给格式化了并且清理了注册表，再装系统。然后的结果就是我的oracl
python学习二（一些基础语法）小桔子 pthon 基础语法
紧接着把！昨天没看继续看django 官方教程，学了下python的基本语法与c类语言还是有些小差别： 1.ptyhon的源文件以UTF-8编码格式 2. / 除结果浮点型 // 除结果整形 % 除取余数 * 乘 ** 乘方 eg 5**2 结果是5的2次方25 _&
svn 常用命令 aichenglong SVN 版本回退
1 svn回退版本 1)在window中选择log,根据想要回退的内容,选择revert this version或revert chanages from this version 两者的区别: revert this version:表示回退到当前版本(该版本后的版本全部作废) revert chanages from this versio
某小公司面试归来 alafqq 面试
先填单子，还要写笔试题，我以时间为急，拒绝了它。。时间宝贵。老拿这些对付毕业生的东东来吓唬我。。面试官很刁难，问了几个问题，记录下； 1，包的范围。。。public,private,protect. --悲剧了 2，hashcode方法和equals方法的区别。谁覆盖谁.结果，他说我说反了。 3，最恶心的一道题，抽象类继承抽象类吗？（察，一般它都是被继承的啊） 4，stru
动态数组的存储速度比较集合框架百合不是茶集合框架
集合框架：自定义数据结构(增删改查等) package 数组; /** * 创建动态数组 * @author 百合 * */ public class ArrayDemo{ //定义一个数组来存放数据 String[] src = new String[0]; /** * 增加元素加入容器 * @param s要加入容器
用JS实现一个JS对象，对象里有两个属性一个方法 bijian1013 js对象
<html> <head> </head> <body> 用js代码实现一个js对象，对象里有两个属性，一个方法 </body> <script> var obj={a:'1234567',b:'bbbbbbbbbb',c:function(x){
探索JUnit4扩展：使用Rule bijian1013 java 单元测试 JUnit Rule
在上一篇文章中，讨论了使用Runner扩展JUnit4的方式，即直接修改Test Runner的实现(BlockJUnit4ClassRunner)。但这种方法显然不便于灵活地添加或删除扩展功能。下面将使用JUnit4.7才开始引入的扩展方式——Rule来实现相同的扩展功能。 1. Rule &n
[Gson一]非泛型POJO对象的反序列化 bit1129 POJO
当要将JSON数据串反序列化自身为非泛型的POJO时，使用Gson.fromJson(String, Class)方法。自身为非泛型的POJO的包括两种： 1. POJO对象不包含任何泛型的字段 2. POJO对象包含泛型字段，例如泛型集合或者泛型类 Data类 a.不是泛型类， b.Data中的集合List和Map都是泛型的 c.Data中不包含其它的POJO
【Kakfa五】Kafka Producer和Consumer基本使用 bit1129 kafka
0.Kafka服务器的配置一个Broker，一个Topic Topic中只有一个Partition（） 1. Producer： package kafka.examples.producers; import kafka.producer.KeyedMessage; import kafka.javaapi.producer.Producer; impor
lsyncd实时同步搭建指南——取代rsync+inotify ronin47
1. 几大实时同步工具比较 1.1 inotify + rsync 最近一直在寻求生产服务服务器上的同步替代方案，原先使用的是 inotify + rsync，但随着文件数量的增大到100W+，目录下的文件列表就达20M，在网络状况不佳或者限速的情况下，变更的文件可能10来个才几M，却因此要发送的文件列表就达20M，严重减低的带宽的使用效率以及同步效率；更为要紧的是，加入inotify
java-9. 判断整数序列是不是二元查找树的后序遍历结果 bylijinnan java
public class IsBinTreePostTraverse{ static boolean isBSTPostOrder(int[] a){ if(a==null){ return false; } /*1.只有一个结点时，肯定是查找树 *2.只有两个结点时，肯定是查找树。例如{5,6}对应的BST是 6 {6,5}对应的BST是
MySQL的sum函数返回的类型 bylijinnan java spring sql mysql jdbc
今天项目切换数据库时，出错访问数据库的代码大概是这样： String sql = "select sum(number) as sumNumberOfOneDay from tableName"; List<Map> rows = getJdbcTemplate().queryForList(sql); for (Map row : rows
java设计模式之单例模式 chicony java设计模式
在阎宏博士的《JAVA与模式》一书中开头是这样描述单例模式的：　　作为对象的创建模式，单例模式确保某一个类只有一个实例，而且自行实例化并向整个系统提供这个实例。这个类称为单例类。单例模式的结构　　单例模式的特点：单例类只能有一个实例。单例类必须自己创建自己的唯一实例。单例类必须给所有其他对象提供这一实例。　　饿汉式单例类 publ
javascript取当月最后一天 ctrain JavaScript
 <script language=javascript> var current = new Date(); var year = current.getYear(); var month = current.getMonth(); showMonthLastDay(year, mont
linux tune2fs命令详解 daizj linux tune2fs 查看系统文件块信息
一.简介： tune2fs是调整和查看ext2/ext3文件系统的文件系统参数，Windows下面如果出现意外断电死机情况，下次开机一般都会出现系统自检。Linux系统下面也有文件系统自检，而且是可以通过tune2fs命令，自行定义自检周期及方式。二.用法： Usage: tune2fs [-c max_mounts_count] [-e errors_behavior] [-g grou
做有中国特色的程序员 dcj3sjt126com 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有
Android：TextView属性大全 dcj3sjt126com textview
android:autoLink 设置是否当文本为URL链接/email/电话号码/map时，文本显示为可点击的链接。可选值(none/web/email/phone/map/all) android:autoText 如果设置，将自动执行输入值的拼写纠正。此处无效果，在显示输入法并输
tomcat虚拟目录安装及其配置 eksliang tomcat配置说明 tomca部署web应用 tomcat虚拟目录安装
转载请出自出处：http://eksliang.iteye.com/blog/2097184 1.-------------------------------------------tomcat 目录结构 config：存放tomcat的配置文件 temp ：存放tomcat跑起来后存放临时文件用的 work ：当第一次访问应用中的jsp
浅谈：APP有哪些常被黑客利用的安全漏洞 gg163 APP
首先，说到APP的安全漏洞，身为程序猿的大家应该不陌生；如果抛开安卓自身开源的问题的话，其主要产生的原因就是开发过程中疏忽或者代码不严谨引起的。但这些责任也不能怪在程序猿头上，有时会因为BOSS时间催得紧等很多可观原因。由国内移动应用安全检测团队爱内测（ineice.com）的CTO给我们浅谈关于Android 系统的开源设计以及生态环境。 1. 应用反编译漏洞：APK 包非常容易被反编译成可读
C#根据网址生成静态页面 hvt Web .net C#asp.net hovertree
HoverTree开源项目中HoverTreeWeb.HVTPanel的Index.aspx文件是后台管理的首页。包含生成留言板首页，以及显示用户名，退出等功能。根据网址生成页面的方法： bool CreateHtmlFile(string url, string path) { //http://keleyi.com/a/bjae/3d10wfax.htm stri
SVG 教程（一）天梯梦 svg
SVG 简介 SVG 是使用 XML 来描述二维图形和绘图程序的语言。学习之前应具备的基础知识：继续学习之前，你应该对以下内容有基本的了解： HTML XML 基础如果希望首先学习这些内容，请在本站的首页选择相应的教程。什么是SVG？ SVG 指可伸缩矢量图形 (Scalable Vector Graphics) SVG 用来定义用于网络的基于矢量
一个简单的java栈 luyulong java 数据结构栈
public class MyStack { private long[] arr; private int top; public MyStack() { arr = new long[10]; top = -1; } public MyStack(int maxsize) { arr = new long[maxsize]; top
基础数据结构和算法八：Binary search sunwinner Algorithm Binary search
Binary search needs an ordered array so that it can use array indexing to dramatically reduce the number of compares required for each search, using the classic and venerable binary search algori
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！刘星宇 c 面试
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！ 1.gets()函数问：请找出下面代码里的问题： #include<stdio.h> int main(void) { char buff[10]; memset(buff,0,sizeof(buff));
ITeye 7月技术图书有奖试读获奖名单公布 ITeye管理员活动 ITeye 试读
ITeye携手人民邮电出版社图灵教育共同举办的7月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 7月试读活动回顾： http://webmaster.iteye.com/blog/2092746 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《Java性能优化权威指南》