言有三

【前沿技术】浅析搜狗AI主播背后的核心技术

文章首发于微信公众号《有三AI》

今天是新专栏《前沿技术》，技术的更新迭代实在是太快了，我将在这个专栏给大家解读学术界/工业界最新的成果背后的技术原理，定位读者为对技术感兴趣的本行和外行。

这一个专栏将具有以下几个特点：

(1) 内容以科普为主，技术细节为辅。因为本专栏是为了让更多的人能够看懂，完成对新奇技术的了解，我不会在这里讲述过多技术细节，细节可以通过其他专栏获得。

(2) 暂定每周一篇，毕竟《有三AI》是技术学习平台，不是新闻信息平台。我们一直追求系统性，不太喜欢讲孤立的知识。

作者&编辑 | 言有三，微信Longlongtogo

今天主题是AI主播

人大二次会议正在召开中，对我们AI从业者来说，最大的技术新闻莫过于“AI主播”又现身了，再一次展现了搜狗的AI落地能力。上面就是声音和外形模仿新华社新媒体中心新闻主播屈萌的AI主播。

那些赞赏的话我们就不说了，下面就来简单剖析下其中的一些核心技术，真的只是简单剖析，笔者没有完整性参与过这类项目。

搜狗的这套系统据说只需要5～7分钟就可以学习到个人的音色，AI主播也只是需要录制一个半小时左右的数据，就实现了人类主播级别的语言流畅的新闻播报。

背后涉及了图像，语音，自然语言处理等技术的融合，下面分别进行简单介绍。

1 图像技术

首先来说一下图像技术，主要涵盖三维重建，表情合成，唇语合成等。

1、三维重建

首先要有一个与真人长得一摸一样的AI模型出来，然后才能在这个模型上进行渲染。要建立一个这样的模型，肯定是需要真人主播的主动参与的，目前的图像技术还不可能任意重建一个人的高精度3D模型。对于AI主播这样的应用场景，完全可以利用扫描仪进行真人的三维数据的采集完成建模。

既然说到了三维建模，那么就稍微展开一点讲。

什么是三维重建呢？广义上来说，是建立真实世界的三维模型。随着软硬件的成熟，在电影，游戏，安防，地图等领域，三维重建技术的应用越来越多。目前获取三维模型的方法主要包括三种，手工建模，仪器采集与基于图像的建模。

(1) 手工建模作为最早的三维建模手段，现在仍然是最广泛地在电影，动漫行业中应用。顶顶大名的3DMax就是典型代表，当然了，它需要专业人士来完成。

(2) 由于手工建模耗费大量的人力，三维成像仪器也得到了长期的研究和发展。基于结构光（structured light）和激光扫描技术的三维成像仪是其中的典型代表。这些基于仪器采集的三维模型，精度可达毫米级，是物体的真实三维数据，也正好用来为基于图像的建模方法提供评价数据库。由于仪器的成本太高，一般的用户是用不上了。

(3) 基于图像的建模技术（image based modeling），顾名思义，是指通过若干幅二维图像，来恢复图像或场景的三维结构，这些年得到了广泛的研究。

这里面具有研究意义的就是基于图像的三维重建方法了，由于问题复杂目前集中在人脸图像的三维重建，人脸三维重建方法非常多，有基于一个通用的人脸模型，然后在此基础上进行变形优化，会牵涉到一些模板匹配，插值等技术。有基于立体匹配（各种基于双目，多目立体视觉匹配）的方法，通过照相机模型与配准多幅图像，坐标系转换，获取真实的三维坐标，然后进行渲染。有采用一系列的人脸作为基，将人脸用这些基进行线性组合的方法，即Morphable models方法。

其中，能够融会贯通不同传统方法和深度学习方法的，就是3D Morphable Models系列方法，从传统方法研究到深度学习都用它。

它的思想就是一幅人脸可以由其他许多幅人脸加权相加而来，这些脸都叫“正交基”，学过线性代数的就很容易理解这个正交基的概念。我们所处的三维空间，每一点(x,y,z)实际上都是由三维空间三个方向的基量(1,0,0)，(0,1,0)，(0,0,1)加权相加所得，只是权重分别为x,y,z。

转换到三维空间，道理也一样。每一个三维的人脸，可以在一个数据库中的所有人脸组成的基向量空间中进行表示，而求解任意三维人脸的模型，实际上等价于求解各个基向量的系数的问题。

最原始的3DMM模型将每一张人脸表示为：

形状向量Shape Vector：S=(X1,Y1,Z1,X2,Y2,Z2,...,Yn,Zn)

纹理向量Texture Vector：T=(R1,G1,B1,R2,G2,B2,...,Rn,Bn)

一张任意的人脸，其等价的描述如下：

其中第一项Si，Ti是形状和纹理的平均值，而si，ti则都是Si，Ti减去各自平均值后的协方差矩阵的特征向量。基于3DMM的方法，都是在求解α，β这一些系数，当然现在还会有表情，光照等系数，但是原理都是通用的。简单原理就说到这里，我们以后会专门讲述。

人脸的三维建模有一些独特的特点。

(1) 预处理技术非常多，人脸检测与特征点定位，人脸配准等都是现在研究已经比较成熟的方法。利用现有的人脸识别与分割技术，可以缩小三维人脸重建过程中需要处理的图像区域，而在有了可靠的关键点位置信息的前提下，可以建立稀疏的匹配，大大提升模型处理的速度。

(2) 人脸共性多。正常人脸都是一个鼻子两只眼睛一个嘴巴两只耳朵，从上到下从左到右顺序都不变，所以可以首先建立人脸的参数化模型，实际上这也是很多方法所采用的思路。

人脸三维重建也有一些困难。

(1) 人脸生理结构和几何形状非常复杂，没有简单的数学曲面模型来拟合。

(2) 光照变化大。同一张脸放到不同的光照条件下，获取的图像灰度值可能大不一样的，这些都会影响深度信息的重建。

(3) 特征点和纹理不明显。图像处理最需要的就是明显的特征，而光滑的人脸除了特征关键点，很难在脸部提取稠密的有代表性的角点特征。这个特点，使得那些采用人脸配准然后求取三维坐标的方法面临着巨大的困难。

2、表情合成

前面说到了三维人脸的重建，人脸的整个三维模型可以剥离为表情，形状，纹理等各个维度。这里因为主播是一个限定场景的应用，形状，纹理的变动很小，而表情则是需要进行精确建模的，我们能感受到上面的这个主播在表情方面其实还有很多不逼真的地方。

表情合成，就是建立在上面的人脸重建的基础之上。如果以后谁能发布一个低成本的建立自己的3D形象的应用，那一定是解决了基于图像的三维重建问题，现在还没有。

表情合成采用的思路就是通过调整各个表情基向量的系数。

下面就是苹果的一套表情系数中的一个，表情包括的东西是很多的，眼睛鼻子嘴巴的动作都算，当然对于主播这样严肃的场景，基本上都是嘴唇动作为主。

将各种不同的表情进行叠加，就得到了基本的表情，在iphone X的表情生成功能的背后，就是这样的原理。它不需要非常精确的重建模型，只需要表情的系数比较准确即可。

3、唇语合成

可能有的小伙伴会问，这不是有表情驱动来做嘴唇动作了吗，唇语合成又是做什么的呢？一句话，需要做的更准。

首先要说一下唇语识别，所谓唇语识别，即通过图像识别捕捉人的嘴唇运动，曾经牛津大学人工智能实验室、谷歌 DeepMind 和加拿大高等研究院 (CIFAR) 联合发布了一篇很著名的唇语合成的文章LipNet，被ICLR拒掉的，想必大家还记得，当时怼得火药味十足。到现在唇语识别的技术很显然更进了一步，参考搜狗的知音。

没有唇语合成行不行？前面说了主播这样的应用基本上都是嘴唇动作，而表情合成的结果是针对整个面部的，唇语合成是专门针对嘴唇，而且跟文本内容、语音、发音方式等都有关系，不是一个单一的输入。

对于唇语合成，大家可以多关注一下学术界对奥巴马同志的关照，下面的就是同一段嘴唇动作在不同的视频上的合成，用的是纯语音的输入。

为什么选奥巴马？大家可以思考一下深度学习任务中最重要的是什么。

2 NLP与语音技术

1、语音合成

主播这里只需要单方面输出新闻，所以用到的NLP技术比不上聊天机器人微软小冰等需要的多，因为与语音合成的流程嵌套了，就放在一起说。

AI主播跟真人主播一样，读的都是事先写好的稿子，也就是从文字转换为语音，背后需要的就是语音合成技术(TTS，text to speech)，大家平常导航听的志玲姐姐的“准备出发，全程4公里，大约需要15分钟”，就是语音合成技术在我们身边最广泛的应用了。

如果你完全不懂语音合成，要想一个最简单的方案时会是怎样的呢？应该是这样。

比如如下视频就是这么做的。

（去微信公众号观看）

细节说起来，语音合成就是这样的一个流程：

(1) 建立数据集

录制一些语音作为语音库，要有成对的词和语音，搜狗的这个AI主播需要录制一个半小时的数据。录制这样的数据，要尽可能的覆盖语言中的元音、辅音、不同的音调，就像图像采数据集的时候要考虑不同的姿态，光照一样。

多提一句因为咱们粉丝多是CV领域的，在图像中的最小单位是像素，在语音中则是音素，音素分为元音和辅音，每一门语言中都需要元音和辅音。

元音是气流通过口腔而不受阻碍发出的音，英语中的a，e，i，o，u是元音字母。辅音也是有声音的，在学习的过程中更难一些，它是由气流在口腔或咽头受到阻碍而发出的，比如f，m等，读书时学习辅音总是有点别扭。

(2) 文本序列转换成音素序列

这一步主要是利用NLP技术对输入文本进行语言学分析，也就是大家熟悉的分词。比如“上海自来水来自海上”，分词之后应该是“上海自来水来自海上”，4个词语。

同时为了让生成的声音更加自然，还要分析文本的节奏、重音，实际情况更加复杂，还有各类数字、缩写、多音字等等，非专业所长就不说了。

(3) 合成声音

声音在时序上表示出来，就是一个波形。

1. 最早期也是最笨的方法，就是从语音库中寻找与第二步得到的音素一致的语音单元，将波形拼接起来变成波形序列。

2. 不过这样的方法对数据集的要求太高了，如果能有一个基本的语音特征库，配上参数权重进行调整，就可以实现更加灵活的合成，这就是第二类方法。将音素实时转换成语音参数，在语音库中进行匹配，再与第一类方法一样拼接生成语音。

搜狗这个，很大概率用的就是这种方法了。

3. 最后一种方法，就是大家最喜欢的端到端的方法了，最好是直接从输入的文本，输出最后的波形，所有的流程都交给模型。

管它什么任务，深度学习一把出，这就是现在大家的思路了。

有一些比较著名的模型，总结起来如下：

Tacotron从文本出发，输出频谱图，之后再用声码器将语谱图转换成波形。WaveNet则需要语言学特征作为输入，不能直接使用原始文本。Char2Wav直接输入字符进行合成，预测出声学参数，仍然需要声码器vococder。ClariNet则构建了一个从文本到波形、真正的端到端的语音合成模型。另外还有Deep Voice，包含了多个模块，虽然看起来是端到端的模型，不过每个部分分别训练。

语音合成的东西就这么多，另外，在其中还要用到情感迁移技术，实现个性化语音合成。

在这里也多提一句，给新手们扫个盲，就像图像有基本的属性如分辨率，梯度，声音也有三个基本属性。

响度，又称之为声强或音量，直观理解就是声音的大小，用分贝dB衡量。

音高，即声调，用频率来衡量，所谓男高音女高音就是指音高，而不是谁吼出的声音大谁就是高音。

音色，这就是由发声体自身的特质决定了，同样的内容，志玲姐姐说的跟蔡少芬说的肯定感觉不同，同样的音不同的乐器演奏也截然不同，原理上是由谐波频率+高频成分所决定。

3 多模态合成技术

最后一个难点就是如何将声音、唇动、表情在一条时间轴上匹配，保证三者的协调一致、连贯自然。这是一个视频生成的问题，需要用到多模态合成技术。

这是比较新的应用领域了，研究也不少，我们比较熟悉的包括视音频的多模态融合，图片和文本的多模态融合等，比如下图输入无声音的视频和语音进行驱动。

说到多模态合成就得说下多模态融合的分类，根据层级的不同分为对原始数据进行融合、对抽象的特征进行融合和对决策结果进行融合。

举个例子，如果我们想判断一个人对一部电影的真实情感，可以从它发表的评论，看电影时的表情和谈论该电影时的语调等几个方向一起联合判断，这样会比单独只通过一个维度更加准确。

人工智能如果想走的更远，各个领域技术之间的融合是必须的。这种融合不应该是在各自出高层识别的结果之后，而是应该在原始信号层次就开始融合，目前还是发展早期，懂得不多不瞎说了。

总结

咱公众号准备开通语音方向了，欢迎喜欢分享的朋友前来坐阵，多多益善。

真的很想知道，以后的生活到底会变成什么样子，我们的口号是“三人行必有AI”，预告一下本周日VIP会员见面会活动，限VIP参加或一次付费，不超过8人，我将分享如何学习深度学习等话题，欢迎前来，可加我微信(文章开头有)报名或者点击如下链接报名。

关于什么是VIP会员和季划，请参考。

创业第一天，有三AI扔出了深度学习的150多篇文章和10多个专栏

转载文章请后台联系

侵权必究

感谢各位看官的耐心阅读，不足之处希望多多指教。后续内容将会不定期奉上，欢迎大家关注有三公众号 有三AI！

不同行业的 AI 数据安全与合规实践：7 大核心要点全解析观熵人工智能 DeepSeek 私有化部署
不同行业的AI数据安全与合规实践：7大核心要点全解析关键词AI数据安全、行业合规、私有化部署、数据分类分级、国产大模型、隐私保护、DeepSeek部署摘要随着国产大模型在金融、医疗、政务、教育等关键领域的深入部署，AI系统对数据安全与行业合规提出了更高要求。本文结合DeepSeek私有化部署实战，系统梳理当前各行业主流的数据安全合规标准与落地策略，从数据分类分级、访问控制、审计追踪到敏感信息识别与
AI MCP教程之什么是 MCP？利用本地 LLM 、MCP、DeepSeek 集成构建您自己的 AI 驱动工具知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 mcp deepseek
介绍利用模型上下文协议(MCP)的工具吸引了我们的注意力—将AI变成触手可及的生产力引擎。它们巧妙、高效，让人难以抗拒。但如果您可以将这样的功能添加到自己的工具中，会怎么样呢？在本指南中，我将引导您构建一个具有本地运行的大型语言模型(LLM)和MCP集成的AI工具-让您以类似的方式自动执行利用MCP的工具您喜欢的任务。推荐文章《AnythingLLM教程系列之12AnythingLLM上的Olla
使用 Ollama 、 DeepSeek和QWEN的模型上下文协议 (MCP) ，使用本地 LLM 教程的 MCP 服务器知识大胖 NVIDIA GPU和大语言模型开发教程服务器运维人工智能 qwen2vl deepseek
简介模型上下文协议：MCP服务器据称是AI领域的下一个重大改变者，它将使AI代理变得比我们想象的更加先进。MCP或模型上下文协议由Anthropic去年发布，它可以帮助LLM连接软件并对其进行控制。但有一个问题大多数MCP服务器都与ClaudeAI兼容，尤其是ClaudeAI桌面应用程序，但它们有自己的限制。有没有办法我们可以使用本地LLM运行MCP服务器？是的，在这个特定的逐步详细教程中，我们将
12 个强大的 DeepSeek AI 提示将彻底改变您的日常生活知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek
内容写作的最佳提示让我们从写作开始吧。无论您是博主、学生还是社交媒体创作者，这些提示都将帮助您创作出精彩的内容。提示1：“扮演专业文案撰稿人，为[产品/服务]撰写引人注目的广告文案。文案应引人入胜、具有说服力，且字数不得超过100个字。”这使得ChatGPT的响应结构就像真实的广告文案一样。提示2：“以更具吸引力和说服力的方式重写此段落，同时保持含义不变：[插入文本]。”推荐文章《Neo4j上使用
使用 Deepseek Zero Coding Experience 创建类似飞扬的小鸟游戏知识大胖 NVIDIA GPU和大语言模型开发教程游戏 deepseek ollama janus pro
简介Flappybird在苹果商店推出后，每天大约能赚5000美元，但后来被苹果故意下架。现在我正尝试使用Deepseek制作这样一款游戏。技术在不断变化，编码知识也在不断变化，只需修改代码即可获得结果。让我们在Deepseek上试试这款游戏：推荐文章《如何在本地电脑上安装和使用DeepSeekR-1》权重1，DeepSeek《Nvidia系列之使用NVIDIAIsaacSim和ROS2的命令行控
24GB GPU 中的 DeepSeek R1：Unsloth AI 针对 671B 参数模型进行动态量化知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek ollama
简介最初的DeepSeekR1是一个拥有6710亿个参数的语言模型，UnslothAI团队对其进行了动态量化，将模型大小减少了80%（从720GB减少到131GB），同时保持了强大的性能。当添加模型卸载功能时，该模型可以在24GBVRAM下以低令牌/秒的推理速度运行。推荐文章《本地构建AI智能分析助手之01快速安装，使用PandasAI和Ollama进行数据分析，用自然语言向你公司的数据提问为决策
在 Obsidian 中本地使用 DeepSeek — 无需互联网！知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek
简介您是否想在Obsidian内免费使用类似于ChatGPT的本地LLM？如果是，那么本指南适合您！我将引导您完成在Obsidian中安装和使用DeepSeek-R1模型的确切步骤，这样您就可以在笔记中拥有一个由AI驱动的第二大脑。推荐文章《24GBGPU中的DeepSeekR1：UnslothAI针对671B参数模型进行动态量化》权重1，DeepSeek类《在RaspberryPi上运行语音识别
使用 DeepSeek R1 和 Ollama 开发 RAG 系统使用 DeepSeek R1 和 Ollama 构建强大的 RAG 系统。了解开发智能 AI 解决方案的设置过程、最佳实践和技巧。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek ollama
简介DeepSeekR1和Ollama提供了用于构建检索增强生成(RAG)系统的强大工具。本指南介绍了使用这些技术开发RAG应用程序的设置、实施和最佳实践。为什么RAG系统会改变游戏规则检索增强生成(RAG)系统结合了搜索和生成AI的优点，可实现精确且准确的情境感知响应。借助DeepSeekR1和Ollama等工具，创建RAG系统不再令人生畏。无论您是构建聊天机器人、知识助手还是AI驱动的搜索引擎
【实战AI】macbook M1 本地ollama运行deepseek 东方鲤鱼 chat AI macos ai llama AIGC chatgpt
由于deepseek官网或者Aapi调用会有网络延迟或不响应的情况，故在本地搭建部署；前提条件1.由于需要拉取开源镜像，受网络限制，部分资源在前提中会下载的更快！请自行；2.设备macbookM132G下载ollamaOllama是一款跨平台推理框架客户端（MacOS、Windows、Linux），专为无缝部署大型语言模型（LLM）（如Llama2、Mistral、Llava等）而设计。通过一键式
DeepSeek解读道德经第五十九章 cal_ 道德经道德经
一、原文与译文原文：治人事天，莫若啬。夫唯啬，是谓早服；早服谓之重积德；重积德则无不克；无不克则莫知其极；莫知其极，可以有国；有国之母，可以长久。是谓深根固柢，长生久视之道。译文：治理百姓侍奉天道，没有比珍爱能量更重要的。唯有珍惜能量，才叫早作准备；早作准备就是厚积德性；厚积德性则无往不胜；无往不胜则力量无穷；力量无穷便可守护国家；掌握治国根本，方能长久延续。这便是根深柢固、长生久存之道。二、核心
Golang面试题二（slice,map,chan） os-lee go高级 golang 开发语言后端
目录1.slice的底层实现1.结构体定义2.slice四种初始化方式3.底层函数2.Go语言当中数组和slice的区别是什么？1.长度不同2.函数传参不同3.计算长度方式不同3.slice的扩容机制，有什么注意点扩容机制总结4.扩容前后的Slice是否相同5.深拷贝和浅拷贝浅拷贝（ShallowCopy）深拷贝（DeepCopy）总结6.slice为什么不是线程安全的7.map底层实现8.map
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
Python桌面应用开发的未来——智能化工具与大模型赋能 IronwoodStag78
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！标题：Python桌面应用开发的未来——智能化工具与大模型赋能随着人工智能技术的飞速发展，传统软件开发模式正在被重新定义。Python作为一门功能强大且灵活的语言，在桌面应用开发领域一直占据重要地位。然而，面对日益复杂的用户需求和快速变化的技术环境，如何提升开发效率、降低开发门槛，成为开发者亟需解决的问题
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路一、医疗领域：AI驱动的精准诊疗与效率提升1.医学影像诊断AI算法通过深度学习技术，已实现对X光、CT、MRI等影像的快速分析，辅助医生检测癌症、骨折等疾病。例如，GoogleDeepMind的AI系统在乳腺癌筛查中，误检率比人类专家低9.4%；中国的推想医疗AI系统可在20秒内完成肺部CT扫描分析，为急诊救治争取黄金时间。2.药物研发传统药
强化学习之 DQN、Double DQN、PPO JNU freshman 强化学习强化学习
文章目录通俗理解DQNDoubleDQNPPO结合公式理解通俗理解DQN一个简单的比喻和分步解释来理解DQN（DeepQ-Network，深度Q网络），就像教小朋友学打游戏一样：先理解基础概念：Q学习（Q-Learning）想象你在教一只小狗玩电子游戏（比如打砖块）。小狗每做一个动作（比如“向左移动”或“发射球”），游戏会给出一个奖励（比如得分增加）或惩罚（比如球掉了）。小狗的目标是通过不断尝试，
数据不Ready，一切AI Ready都是伪命题
2025年随着DeepSeekR1通用大模型的爆火，企业级AI应用元年正式来临。“AIReady”这个词随之火了起来，但什么是AIReady？是有了大模型接口，就是Ready？是买了GPU服务器，就能跑出结果？显然不是。在袋鼠云看来，AIReady不等于模型Ready，而是数据Ready。没有可用、可控、可理解的数据，AI只能是空中楼阁。AIReady，首先是DataReady。别让AIReady
小诗《苦》赏析（“诗人”我/智普清言/DeepSeek）梦幻精灵_cq 笔记学习
苦有万千分好坏，人成百样须努力。笔记模板由python脚本于2025-07-1107:22:06创建，本篇笔记适合喜欢中文诗的coder翻阅。学习的细节是欢悦的历程博客的核心价值：在于输出思考与经验，而不仅仅是知识的简单复述。Python官网：这里，才python前沿。英文原版，原汁原味，才是寻根溯源的正统。地址：https://www.python.org/Free：大咖免费“圣
DeepSeek 驱动智能交通调度：从传统到智慧的跃迁之路奔跑吧邓邓子 DeepSeek 实战 DeepSeek 智能交通调度应用
目录一、引言二、DeepSeek技术概述2.1DeepSeek简介2.2核心技术原理2.3技术特点与优势三、智能交通调度现状与挑战3.1智能交通调度系统构成3.2现存问题与挑战四、DeepSeek在智能交通调度中的应用4.1交通流量预测与优化4.2智能信号灯控制4.3公交智能排班与调度4.4地铁智能运维与调度4.5交通枢纽智能管理4.6事故预防与应急响应五、应用案例分析5.1某省会城市交通优化案例
一文搞懂怎么入门大模型
在人工智能飞速发展的当下，大模型已然成为推动众多领域创新变革的核心力量。无论是在智能客服、内容创作，还是数据分析、科学研究等方面，大模型都展现出了令人瞩目的能力。对于渴望踏入大模型领域的初学者而言，构建一个系统且全面的入门路径至关重要。接下来，我们将以DeepSeek为例，详细阐述如何系统地入门大模型。一、理论基础：搭建认知框架在深入实践之前，理解大模型的基础理论是关键。大模型，通常指具有海量参数
Spring AI 项目实战（十五）：DeepSeek驱动的智能问诊系统实战-从0到1构建AI医疗问诊平台（附完整源码）程序员岳彬 SpringAI 人工智能 spring java ai 后端
智能问诊系列文章序号文章名称1SpringAI项目实战（一）：SpringAI核心模块入门2SpringAI项目实战（二）：SpringBoot+AI+DeepSeek深度实战（附完整源码）3
vue 侦听器watch 之深度监听 deep 以及 immediate 别来打扰我 vue综合基础知识 vue
FullName:{{person.fullname}}FirstName:exportdefault{data(){return{person:{firstname:‘Menghui‘,lastname:‘Jin‘,fullname:‘‘}}},watch:{person:{handler(n,o){this.person.fullname=n.firstname+‘‘+this.person.
Vue 中监测路由变化时，通常不需要开启深度监听（deep: true）咔咔咔索菲斯 vue.js javascript 前端
1.路由变化的本质：引用地址改变Vue路由的核心对象是$route（或通过useRoute()获取的路由对象），当路由发生变化（如跳转页面、参数改变）时，VueRouter会创建一个新的$route对象，而不是修改原有对象的属性。例如：从/home?id=1跳转到/home?id=2时，$route是一个全新的对象（引用地址改变），而非在原对象上修改query.id。这种情况下，普通监听（不开启d
使用Python进行机器学习入门指南软考和人工智能学堂 Python开发经验 python 机器学习开发语言
使用Python进行机器学习入门指南机器学习（MachineLearning）是人工智能（ArtificialIntelligence,AI）的一个重要分支，旨在通过算法和统计模型，使计算机系统能够自动从数据中学习和改进。Python作为机器学习领域的主流编程语言，提供了丰富的库和工具来实现各种机器学习任务。本文将介绍如何使用Python进行机器学习，包括基本概念、常用库以及一个实战项目示例。目录
少样本图学习（few-shot learning on graph）知识背景 so.far_away 网络空间安全学习机器学习人工智能
Few-ShotLearningonGraph少样本学习简介少样本图学习简介1.SupportSet和QuerySet（针对单个任务）（1）SupportSet（支持集）（2）QuerySet（查询集）2.BaseData和NovelData（针对整个数据集）（1）BaseData/Classes（基类数据）（2）NovelData/Classes（新类数据）少样本学习简介少样本学习（FSL）旨在
在IDEA中无缝接入DeepSeek：智能编程助手指南摆烂大大王 deepseek intellij-idea java ide deepseek AIGC
一、为什么要在IDEA中使用DeepSeek？DeepSeek作为先进的AI编程助手，能提供：智能代码补全与建议实时错误检测与修复方案代码解释与文档生成复杂算法实现建议多语言支持（Python/Java/JS等）二、接入前准备获取API密钥访问DeepSeek官网注册账号在控制台创建APIKey并保存IDEA环境要求IntelliJIDEA2020.3+安装HTTPClient插件（已内置）三、两
Building Apps with AI Tools: ChatGPT, Semantic Kernel, and Langchain 项目推荐滕娴殉
BuildingAppswithAITools:ChatGPT,SemanticKernel,andLangchain项目推荐building-apps-with-ai-tools-chatgpt-semantic-kernel-langchain-4469616ThisisacoderepositoryfortheLinkedInLearningcourseBuildingAppswithAIT
量子机器学习入门：从理论到实践
量子机器学习入门：从理论基石到实践路径元数据框架标题量子机器学习入门：从理论基石到实践路径——连接量子计算与人工智能的未来桥梁关键词量子计算；机器学习；量子算法；量子神经网络；Qiskit；PennyLane；量子变分算法摘要量子机器学习（QuantumMachineLearning,QML）是量子计算与机器学习的交叉领域，通过量子计算的叠加态、纠缠和并行性解决传统机器学习的计算瓶颈（如高维数据处
全球DeepFake攻防挑战赛&DataWhale AI 夏令营——图像赛道 czijin 人工智能 deep learning
全球DeepFake攻防挑战赛&DataWhaleAI夏令营——图像赛道赛题背景随着人工智能技术的迅猛发展，深度伪造技术（Deepfake）正成为数字世界中的一把双刃剑。这项技术不仅为创意内容的生成提供了新的可能性，同时也对数字安全构成了前所未有的挑战。Deepfake技术可以通过人工智能算法生成高度逼真的图像、视频和音频内容，这些内容看起来与真实的毫无二致。然而，这也意味着虚假信息、欺诈行为和隐
量子计算突破：8比特扩散模型实现指数级加速晨曦543210 人工智能
目录一、量子扩散模型（QuantumDiffusion）二、DNA存储生成（Biological-GAN）三、光子计算加速四、神经形态生成五、引力场渲染六、分子级生成七、星际生成网络八、元生成系统极限挑战方向一、量子扩散模型（QuantumDiffusion）量子线路模拟经典扩散过程fromqiskitimportQuantumCircuitfromqiskit_machine_learning.
AI让我焦虑，可有解药？大虫小呓人工智能 AIGC
被AI相关的信息搞焦虑了？这波以生成式人工智能为核心的生产力变革浪潮，从23年开始短短的两年时间里一浪接一浪的奔涌而来，从ChatGPT、AGI，到多模态大模型、Agent、Cursor，到DeepSeek、Manus，到近期的MCP协议、A2A协议等各种新概念、应用或工具的信息接连不断的往我们的脑子冲进来。就像被连续扇耳光，上一个还没反应过来下一个又来了，被扇得脑袋瓜子嗡嗡的！我发现一个普遍的现
Js函数返回值 _wy_ js return
一、返回控制与函数结果，语法为：return 表达式;作用: 结束函数执行，返回调用函数，而且把表达式的值作为函数的结果二、返回控制语法为：return;作用: 结束函数执行，返回调用函数，而且把undefined作为函数的结果在大多数情况下,为事件处理函数返回false,可以防止默认的事件行为.例如,默认情况下点击一个<a>元素,页面会跳转到该元素href属性
MySQL 的 char 与 varchar bylijinnan mysql
今天发现，create table 时，MySQL 4.1有时会把 char 自动转换成 varchar 测试举例： CREATE TABLE `varcharLessThan4` ( `lastName` varchar(3) ) ; mysql> desc varcharLessThan4; +----------+---------+------+-
Quartz——TriggerListener和JobListener eksliang TriggerListener JobListener quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208624 一.概述 listener是一个监听器对象，用于监听scheduler中发生的事件，然后执行相应的操作；你可能已经猜到了，TriggerListeners接受与trigger相关的事件，JobListeners接受与jobs相关的事件。二.JobListener监听器 j
oracle层次查询 18289753290 oracle；层次查询；树查询
.oracle层次查询(connect by) oracle的emp表中包含了一列mgr指出谁是雇员的经理，由于经理也是雇员，所以经理的信息也存储在emp表中。这样emp表就是一个自引用表，表中的mgr列是一个自引用列，它指向emp表中的empno列，mgr表示一个员工的管理者， select empno,mgr,ename,sal from e
通过反射把map中的属性赋值到实体类bean对象中酷的飞上天空 javaee 泛型类型转换
使用过struts2后感觉最方便的就是这个框架能自动把表单的参数赋值到action里面的对象中但现在主要使用Spring框架的MVC，虽然也有@ModelAttribute可以使用但是明显感觉不方便。好吧，那就自己再造一个轮子吧。原理都知道，就是利用反射进行字段的赋值，下面贴代码主要类如下： import java.lang.reflect.Field; imp
SAP HANA数据存储：传统硬盘的瓶颈问题蓝儿唯美 HANA
SAPHANA平台有各种各样的应用场景，这也意味着客户的实施方法有许多种选择，关键是如何挑选最适合他们需求的实施方案。在《Implementing SAP HANA》这本书中，介绍了SAP平台在现实场景中的运作原理，并给出了实施建议和成功案例供参考。本系列文章节选自《Implementing SAP HANA》，介绍了行存储和列存储的各自特点，以及SAP HANA的数据存储方式如何提升空间压
Java Socket 多线程实现文件传输随便小屋 java socket
高级操作系统作业，让用Socket实现文件传输，有些代码也是在网上找的，写的不好，如果大家能用就用上。客户端类： package edu.logic.client; import java.io.BufferedInputStream; import java.io.Buffered
java初学者路径 aijuans java
学习Java有没有什么捷径?要想学好Java，首先要知道Java的大致分类。自从Sun推出Java以来，就力图使之无所不包，所以Java发展到现在，按应用来分主要分为三大块：J2SE,J2ME和J2EE,这也就是Sun ONE(Open Net Environment)体系。J2SE就是Java2的标准版，主要用于桌面应用软件的编程；J2ME主要应用于嵌入是系统开发，如手机和PDA的编程；J2EE
APP推广 aoyouzi APP 推广
一，免费篇 1，APP推荐类网站自主推荐最美应用、酷安网、DEMO8、木蚂蚁发现频道等,如果产品独特新颖，还能获取最美应用的评测推荐。PS：推荐简单。只要产品有趣好玩，用户会自主分享传播。例如足迹APP在最美应用推荐一次，几天用户暴增将服务器击垮。 2，各大应用商店首发合作老实盯着排期，多给应用市场官方负责人献殷勤。 3，论坛贴吧推广百度知道，百度贴吧，猫扑论坛，天涯社区，豆瓣（
JSP转发与重定向百合不是茶 jsp servlet Java Web jsp转发
在servlet和jsp中我们经常需要请求,这时就需要用到转发和重定向; 转发包括;forward和include 例子;forwrad转发; 将请求装法给reg.html页面关键代码; req.getRequestDispatcher("reg.html
web.xml之jsp-config bijian1013 java web.xml servlet jsp-config
1.作用：主要用于设定JSP页面的相关配置。 2.常见定义： <jsp-config> <taglib> <taglib-uri>URI(定义TLD文件的URI,JSP页面的tablib命令可以经由此URI获取到TLD文件)</tablib-uri> <taglib-location> TLD文件所在的位置
JSF2.2 ViewScoped Using CDI sunjing CDI JSF 2.2 ViewScoped
JSF 2.0 introduced annotation @ViewScoped; A bean annotated with this scope maintained its state as long as the user stays on the same view(reloads or navigation - no intervening views). One problem w
【分布式数据一致性二】Zookeeper数据读写一致性 bit1129 zookeeper
很多文档说Zookeeper是强一致性保证，事实不然。关于一致性模型请参考http://bit1129.iteye.com/blog/2155336 Zookeeper的数据同步协议 Zookeeper采用称为Quorum Based Protocol的数据同步协议。假如Zookeeper集群有N台Zookeeper服务器(N通常取奇数，3台能够满足数据可靠性同时
Java开发笔记白糖_ java开发
1、Map<key,value>的remove方法只能识别相同类型的key值 Map<Integer,String> map = new HashMap<Integer,String>(); map.put(1,"a"); map.put(2,"b"); map.put(3,"c"
图片黑色阴影 bozch 图片
.event{ padding:0; width:460px; min-width: 460px; border:0px solid #e4e4e4; height: 350px; min-heig
编程之美-饮料供货-动态规划 bylijinnan 动态规划
import java.util.Arrays; import java.util.Random; public class BeverageSupply { /** * 编程之美饮料供货 * 设Opt（V’，i）表示从i到n-1种饮料中，总容量为V’的方案中，满意度之和的最大值。 * 那么递归式就应该是：Opt（V’，i）=max{ k * Hi+Op
ajax大参数（大数据）提交性能分析 chenbowen00 Web Ajax 框架浏览器 prototype
近期在项目中发现如下一个问题项目中有个提交现场事件的功能，该功能主要是在web客户端保存现场数据（主要有截屏，终端日志等信息）然后提交到服务器上方便我们分析定位问题。客户在使用该功能的过程中反应点击提交后反应很慢，大概要等10到20秒的时间浏览器才能操作，期间页面不响应事件。根据客户描述分析了下的代码流程，很简单，主要通过OCX控件截屏，在将前端的日志等文件使用OCX控件打包，在将之转换为
[宇宙与天文]在太空采矿,在太空建造 comsci
我们在太空进行工业活动...但是不太可能把太空工业产品又运回到地面上进行加工,而一般是在哪里开采,就在哪里加工,太空的微重力环境,可能会使我们的工业产品的制造尺度非常巨大.... 地球上制造的最大工业机器是超级油轮和航空母舰,再大些就会遇到困难了,但是在空间船坞中,制造的最大工业机器,可能就没
ORACLE中CONSTRAINT的四对属性 daizj oracle CONSTRAINT
ORACLE中CONSTRAINT的四对属性 summary:在data migrate时,某些表的约束总是困扰着我们,让我们的migratet举步维艰,如何利用约束本身的属性来处理这些问题呢?本文详细介绍了约束的四对属性: Deferrable/not deferrable, Deferred/immediate, enalbe/disable, validate/novalidate,以及如
Gradle入门教程 dengkane gradle
一、寻找gradle的历程一开始的时候，我们只有一个工程，所有要用到的jar包都放到工程目录下面，时间长了，工程越来越大，使用到的jar包也越来越多，难以理解jar之间的依赖关系。再后来我们把旧的工程拆分到不同的工程里，靠ide来管理工程之间的依赖关系，各工程下的jar包依赖是杂乱的。一段时间后，我们发现用ide来管理项程很不方便，比如不方便脱离ide自动构建，于是我们写自己的ant脚本。再后
C语言简单循环示例 dcj3sjt126com c
# include <stdio.h> int main(void) { int i; int count = 0; int sum = 0; float avg; for (i=1; i<=100; i++) { if (i%2==0) { count++; sum += i; } } avg
presentModalViewController 的动画效果 dcj3sjt126com controller
系统自带(四种效果)： presentModalViewController模态的动画效果设置： [cpp] view plain copy UIViewController *detailViewController = [[UIViewController al
java 二分查找 shuizhaosi888 二分查找 java二分查找
需求：在排好顺序的一串数字中，找到数字T 一般解法：从左到右扫描数据，其运行花费线性时间O(N)。然而这个算法并没有用到该表已经排序的事实。 /** * * @param array * 顺序数组 * @param t * 要查找对象 * @return */ public stati
Spring Security（07）——缓存UserDetails 234390216 ehcache 缓存 Spring Security
Spring Security提供了一个实现了可以缓存UserDetails的UserDetailsService实现类，CachingUserDetailsService。该类的构造接收一个用于真正加载UserDetails的UserDetailsService实现类。当需要加载UserDetails时，其首先会从缓存中获取，如果缓存中没
Dozer 深层次复制 jayluns VO maven po
最近在做项目上遇到了一些小问题，因为架构在做设计的时候web前段展示用到了vo层，而在后台进行与数据库层操作的时候用到的是Po层。这样在业务层返回vo到控制层，每一次都需要从po-->转化到vo层，用到BeanUtils.copyProperties(source, target)只能复制简单的属性，因为实体类都配置了hibernate那些关联关系，所以它满足不了现在的需求，但后发现还有个很
CSS规范整理（摘自懒人图库） a409435341 html UI css 浏览器
刚没事闲着在网上瞎逛，找了一篇CSS规范整理，粗略看了一下后还蛮有一定的道理，并自问是否有这样的规范，这也是初入前端开发的人一个很好的规范吧。一、文件规范 1、文件均归档至约定的目录中。具体要求通过豆瓣的CSS规范进行讲解：所有的CSS分为两大类：通用类和业务类。通用的CSS文件，放在如下目录中：基本样式库 /css/core
C++动态链接库创建与使用你不认识的休道人 C++dll
一、创建动态链接库 1.新建工程test中选择”MFC [dll]”dll类型选择第二项"Regular DLL With MFC shared linked"，完成 2.在test.h中添加 extern “C” 返回类型 _declspec(dllexport)函数名(参数列表); 3.在test.cpp中最后写 extern “C” 返回类型 _decls
Android代码混淆之ProGuard rensanning ProGuard
Android应用的Java代码，通过反编译apk文件（dex2jar、apktool）很容易得到源代码，所以在release版本的apk中一定要混淆一下一些关键的Java源码。 ProGuard是一个开源的Java代码混淆器（obfuscation）。ADT r8开始它被默认集成到了Android SDK中。官网： http://proguard.sourceforge.net/
程序员在编程中遇到的奇葩弱智问题 tomcat_oracle jquery 编程 ide
　　现在收集一下：　　排名不分先后，按照发言顺序来的。 1、Jquery插件一个通用函数一直报错，尤其是很明显是存在的函数，很有可能就是你没有引入jquery。。。或者版本不对 2、调试半天没变化：不在同一个文件中调试。这个很可怕，我们很多时候会备份好几个项目，改完发现改错了。有个群友说的好：在汤匙
解决maven-dependency-plugin (goals "copy-dependencies","unpack") is not supported xp9802 dependency
解决办法：在plugins之前添加如下pluginManagement，二者前后顺序如下： [html] view plain copy <build> <pluginManagement

【前沿技术】浅析搜狗AI主播背后的核心技术

1 图像技术

2 NLP与语音技术

3 多模态合成技术

你可能感兴趣的:(deep,learning)