AITIME论道

【PhD Debate - 14】将科幻照进现实——元宇宙数字人的当下与未来

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

2023年1月11日，PhD Debate-14特别邀请了来自上海交通大学博士生马子阳、香港科技大学博士生范杰森、埃因霍温理工大学博士生尹路、马里兰大学博士生乔怿凌、香港科技大学博士生徐昊作为嘉宾，与大家一起聊了聊元宇宙数字人的当下与未来。

你眼中的数字人、元宇宙、AIGC是什么？

马子阳：不同人眼中有不同视角，这些概念在投资圈、工业上和学术上可能有不同的解读。在我看来数字人其实就是虚拟的“人”，代替真人进行直播、带货、与人交互，提高生产力。元宇宙是一个平台。AIGC究竟能做什么？我觉得AIGC本质上也是提高生产力，比如生成式大模型用于辅助设计，并非代替人而是提升生产的效率。

范杰森：我认为元宇宙是过去大量技术的结合，是为了沉浸式的互联网体验。中国从有互联网开始到之后的变化，今天便是沉浸式的3D体验时代，元宇宙便是这个时代的概称。提到数字人，我更愿意把元宇宙相关的技术模块划分为人、场景和物体三块，这三块当然是不可分割、相辅相成的。数字人，指的就是元宇宙中的“人”。无论是虚拟偶像还是现在的一些虚拟直播或是电影中的数字人，都是为了实现在元宇宙中我们这样一个人和人之间的数字分身交互。AIGC这个概念，我觉得是从22年下半年开始，这个概念爆火。我认为AIGC是元宇宙和数字人之中不可缺少的一部分。

尹路：对于我来说，数字人可能并不是一个3D形式。比如siri一类的语音助手刚出来的时候可能并没有一个3D的形象，我们要怎么定义数字人呢？是在有3D形象出现的时候才是数字人呢？还是只要其能够以人类交互的形式为我们提供反馈和帮助才作为数字人？我最早接触数字人是一个日本的虚拟歌唱偶像，可能在提高生产效率以外也有一些其他应用的地方。AIGC最近也是很好，ChatGPT可以生成很多很多的内容，不止是文字交互。或是帮我们修改一些代码，也能够帮助我们生成一些文章、论文之类的。

乔怿凌：元宇宙是一个比较大的框架，也是之前一些经典技术的结合。由于人在我们世界是很重要的，数字人也是围绕人体建立的数字孪生。整个过程包括人体的数据采集、建模、仿真和实时的感知与追踪。我觉得AIGC是基于大数据所有learning-based生成的技术，可以生成各种各样的技术以及为元宇宙生成一些素材等等。

徐昊：我可能会从另一个角度来看待这个问题，当年的AR、VR和现在的元宇宙，都是人们对下一代互联网的美好想象。我们会不断地发明一些词来描述对未来的想象，但是下一代互联网究竟是什么样子？——是没有被清晰定义出来的。但现在可以肯定的是，下一代互联为一定是3D的。至于元宇宙未来是什么样子？还需要在座的各位一起去创造。数字人是什么呢？我想类比一下图像。大家都知道，deep-learning的很重要转折点是ImageNet，李飞飞在做ImageNet时选择了图像分类作为她的任务。其实对于图像这件事情来讲，有着非常多的不同任务去做，语义分割、语义检测等等。李飞飞选择了图像分类来做，她们觉得图像分类是让机器去理解图像的一个core-task，如果这个task能够完成，我们就很有希望去解决机器视觉或者是图像理解的问题。因此，我想类比一下，数字人相比于元宇宙是ImageNet相比于图像理解。如果我们可以围绕着数字人相关诉求解决这些问题的话，那么元宇宙的基础可能就做好了。很多很多我们对未来的想象都是有人参与的，有人参与的情况下可能是各种各样功能化和社交化的。所有这些诉求都是与人相关的，如果这些问题都可以搞定，那么元宇宙的基础大概也就ok了。

数字人技术能做什么？

有哪些比较受关注的实际应用和任务？

马子阳：数字人能做什么？我是做语音多模态和大模型的。其中一个任务就是语音驱动的数字人，比如驱动3D，或是2D的数字人。数字人当然还有许多其他能做的方向，如直播电商等沉浸式体验。对于比较受关注的实际应用和任务，我发现单目动捕，在视觉驱动的模式下仍和传感器驱动的模式下存在一定差距，这可能是比较关注的实际应用和任务。此外可能会需要去跑渲染，那么越高质量的数字人生成肯定是需要越高的计算代价。做CG的同学可能会需要去思考，如何将这个计算代价降下来。我觉得这些都是比较实际的东西。

范杰森：对于这个问题，我想从两个角度来回答。一方面是商业的角度，另一方面是学术和技术的角度。从商业的角度来看，数字人能做的还是很多的。以个人做创业公司的经历来看，存在两个较大的应用。一是做虚拟主播，真人驱动下的虚拟主播。这个应用其实还是非常有价值和前景的。然后，我们也有通过数字人做一些虚拟的客服或是虚拟的直播带货工作。这些都是已经落地的商业化场景，很多大的央企、国企也都在通过数字人技术做一些他们的虚拟接待工作，也都是很有落地前景的。另外从教育的场景来说，也有不少的相关机构都在用数字人来替代真人，进行一对一的授课。从学术研究的角度来说，我比较想用清华大学刘烨斌老师对数字人技术的分类进行阐述，其实虚拟人相关的学术技术可以分为三个方向：一个方向是驱动，一个方向是生成，一个方向是重建。我自身做了很多和驱动相关的工作，即单目动捕。也就是说我的美术同学捏出来一个实际的虚拟人，我希望这个虚拟人能够动起来、驱动它。在传统领域来说，大家都是使用动捕服。在前沿领域，大家都是使用视觉算法来实现驱动。另外就是生成，这就和AIGC比较相关了，即我们去生成和虚拟人相关的运动序列。在重建这个点，我们可以理解为是做数字分身的一个关键步骤。虚拟人或是数字人的制作可以分为两种，一种是靠美术师手捏一个形象出来，当然费用也比较昂贵。另一种就是通过深度学习技术、人工智能技术实时生成一个虚拟人，这个虚拟人可以是1：1的复刻，涉及到了重建技术。这时的虚拟人不仅仅是一个3D模型，还需要是可驱动的。所以说，数字人技术可以做的很多，受关注的实际应用和任务也是很多的，是一个很广的领域。这个领域也需要更多的有识之士加入到这个领域，把现有的东西都做好，真正做到商业化落地以及在学术上有相当的影响力。

尹路：我理解的数字人最终目标，应该是人能做的，数字人都能做；人做不了的，数字人也可以帮我们做。在生活中，我们也可以看到许多数字人的应用场景。比如在提高生产力方面，如教育来代替真人、虚拟客服、虚拟助手等等。这些在人类从事的一些重复性比较多且不需要在现场的工作，都可以用数字人来代替。

乔怿凌：数字人能做什么？如虚拟会议、亚马逊的试衣服等等。以试衣服为例，首先就要给人体建模，看看人们穿衣服是否合身。另外，数字人还可以帮助人们在一些虚拟的场景中进行训练、实习，毕竟一些训练或实习在实际场景中的代价过高甚至是危险。

徐昊：我想引用一个马斯克的观点，有一个说法是全社会的人均GDP乘以总人口，看起来约束整个经济规模的就是总人口。虚拟人技术可以创造出更多的人，然后靠着更多的人来创造出更大的经济规模，那么对于人们的生活也是极为有益的。

数字人技术有哪些新的技术及特点？

数字人技术面临哪些挑战？

马子阳：要从两个方面来看。一方面从需求的角度，之前没有的现在有了。比如语音数字人目前是很多公司都想落地的一个东西。另一方面从新的研究角度，是指之前有的，但是我们现在研究的更多了。比如数字人火了之后大家更加关注渲染的效率问题。这也算是已有技术的新热点。对于面临的挑战，我想到的就是单目动捕的流畅度问题，也是我在线下实际体验而发现的问题。

范杰森：元宇宙也好，数字人也好，涉及到的技术都是早已存在的技术，只是元宇宙、数字人的出现将这些技术统一起来了。我们愿意将数字人技术分成驱动、生成和重建三个部分。每个部分都会有一些新的技术，当然也会面临一些新的挑战。比如驱动，这一领域最终的就是动作捕捉。对于一些传统的问题，如人体姿态估计，基本上都是一个人体的关键节点估计。对于这些任务来说，其包含的都只是人体的身体部分，但是实质上如果我们要去驱动数字人，可能更会关注虚拟人的手或脸部。这也就引出了全身动捕这一概念。然而当下这个任务实现起来相当困难，尽管相当有商业价值。从重建的角度来说，涉及到的新技术都是一些跟3D重建等高度相关的前沿技术。其面临的挑战自然是如何将一个虚拟人1比1的刻画出来，这都是我们未来面临的挑战。如何将这些技术真正做到商业化落地，而且不出错和效果好，都是需要我们目前深入研究的一些点。

尹路：之前我在做的更多是模型效率的问题，我觉得特别是在我们用到深度学习模型的时候，往往在学术界更多考虑的是performance效果是否好，但是在数字人落地的时候思考的却是花费的成本是否很贵。我们不仅要考虑模型表现好不好，也要看是否要更多的设备、内存之类的。我们也思考能否将模型压缩技术、模型剪枝技术和数字人更好的结合一些，帮助数字人更好的表现。在伦理层面，我们也会担心若是当数字人仿真出来的结果越来越像真人，会不会有一些不法分子做出一些不太好的事情。

乔怿凌：我觉得和人体相关的技术有很多特点，这些特点也带来了很多挑战。对于图形学来说，不同的部位也有着不同的参数化模型。要是想要模拟出一个真的数字人，就要把所有部分考虑到，如面部、头发等等。毕竟人体的不同部位相差很大，要做好一个完全的人是非常难的。从机器学习角度，数据是一个难题。人体相关数据的采集难度是很大的，而且还涉及到隐私问题。同时，还要构建采集这些数据的环境，设备同样十分昂贵，高质量的人体数据数据库也不是很多。

徐昊：我觉得和虚拟人有关的技术大体可以分为两部分，一部分是CV，一部分是CG。在计算机视觉领域，有很多工作是可以落地被使用到产品商业化场景中去的。我们为了让数字人看起来更真实，我们一定会使用现代计算机图形学的知识，如基于物理的渲染或动画模拟等等。我发现CV和CG这两拨还是比较割裂的，如在做人体驱动的时候可以让CV输出人体的3D关键点并将其给到实时渲染引擎。我们可以让引擎来做从3D关键点到旋转角的操作工作；另一种选择是让CV将所有工作都做掉，这同样是一种挑战。如今的计算机图形学主要是用网格体来作为3D的一种表达，但是我们如今看到的CV结果大部分都不是基于此作为工作，这也就意味着我们需要在CV领域结合基于计算机图形学的mesh表达。我所能想到的结果就是CV和CG领域在进行某种程度的融合。

数字人技术在学术界和工业界的差异与关联？

马子阳：我首先想到的就是IP的问题，因为我们在做科研的时候是没有考虑到IP问题的，但是工业界的情况不太一样。工业界对IP的看重是很高的，因为不同的IP都需要做不同的精细化设计，同时涉及到很多方面。至于技术方面，每一个技术都是从工业界的需求来的，我们将其进行扩展成为科学问题并进行解决。

范杰森：我觉得数字人技术非常广泛，因此在学术界和工业界之间的差异是非常大的。举个例子，我们在做数字人的时候，单目动捕系统中存在这样一个环节——做一个面部的捕捉。在做面部捕捉的时候，能想到的一个操作方式便是做一个系数的回归。在人脸表情的重建过程中，我们认为当前表情的人脸可以由一些基础表情基去加权求和得到的。就是说人在做某个表情的时候，若是想完全复现出这个表情来，你需要去捕捉相关系数并加权求和得到人脸。在学术界的计算机视觉领域，大家更关注的是matric的accuracy准确率。但是指标的设置是否合理是有待商榷的，有的工作会把有的指标刷的非常高，关节点的误差也会非常小，这些算法也会导致人体的姿态捕捉非常不符合人体运动学。这些差异还有待工业界和学术界在未来紧密合作，共同克服这个差异。

尹路：不仅是数字人技术，很多深度学习工作在学术界在意的是performance。在工业界，更在意实际情况下的应用落地。一般来说，学术界的理论是会领跑工业界的。很多理论都是由知名的大学实验室提出之后，再由工业界去做进一步的改善。深度学习技术或是数字人技术会用到很多数据，可能工业界在数据方面会更加充足。

乔怿凌：从我自己理解来说，差异主要集中在两个方面——scaleability和robustness。学术界中的数字人是偏CG方面的工作，对scaleability还没有太多的要求，把人重建或者驱动、仿真的比较好就够了。但是如果到用户的层面，光是支持成百上千到万的需求，要求也比较高，到工业界落地大概是不行的。对于robustness，我们实验室发paper会找一些很好的数据，但是在工业界落地就要应对各种各样的环境，数据采集的质量可能会很低。

徐昊：我觉得在对人的建模上，早年间从CV的角度看人体的姿态识别，我们就会把人定义成一个skeleton，在人的全身上下定义一些关键的key point，并用图的方式联系起来，形成一个skeleton。我们只要恢复这个skeleton在2D或者3D空间中的位置，就认为我们做好了人体姿态估计这件事。2015年之后，有研究提出对人体重新做了一个建模，用mesh网格体的方式建了一个人体的通用模型出来。这样，我们就可以恢复人的表面，而不仅仅是skeleton。基于这个工作，后续很多机构也做了很多的工作。但是在进行商业化落地的过程中，工业界做虚拟人的时候又高了一个档次。因为我们在实际应用中都希望这个人栩栩如生，看起来真实，动起来也真实。也许，人体相关的下一个突破在于能否基于当前已有的工作，放到新的人体标准模型上来做到目前无法做到的工作。

数字人技术的未来？

马子阳：对于数字人的未来，我们目前其实做的东西都比较独立，做数字人的在做数字人，做人机交互的在做人机交互。需要一起把沉浸式交互做起来。像现在的远程手术，就是一个比较重要的事情，可以提高非常大的生产力，释放更大的能量。

范杰森：我刚刚下载了网上一位做直播带货的女主播视频，并建立了思维导图。如果我们要用虚拟人做出一个一模一样的出来，都需要什么技术呢？对于数字人的未来，虚拟人背后有真人驱动的并不是数字人的未来。数字人的未来一定是一个AI-Driven的数字人。我希望未来的数字人语言风格不是生硬的，可以生动的发出像真人主播一样搞笑且带有情绪的声音，同时还能根据用户的实时评论去对话、调侃和开玩笑。当然，这些说起来简单，但背后涉及的技术起码是10个以上的ChatGPT。我认为，未来这个技术一定能实现，而且也是必须要实现的。现在还是属于虚拟人的早期版本，在未来技术走向成熟的过程中，我们不知道这条路怎么走，但可以肯定是最终形态——一定是结合元宇宙、AIGC，有场景，有互动。这也是未来10年甚至更短时间内可以预见到的数字人未来。

尹路：可以预见的是，数字人技术和云宇宙在我们生活中的应用也会日趋扩大，让每个人都能应用得到。刚刚提到目前一些虚拟人的背后是真人在驱动，AIGC的加入可能会在今后加上3D渲染，使其表现更像真人，这也可能是下一步数字人的未来。

乔怿凌：我能想象的未来就是数字人和真人真假难辨，一个比较近的未来就是把数字人的仿真、建模渲染好，这就已经很不容易了。另一方面，解决这些问题怎么办也是未来需要思考的问题。是从纯CV等方向加入，还是从其他方向更好的感知、渲染人和世界的交互？人们还是需要看一下哪条路会走得更好一点。

徐昊：我想分两个角度来看这个问题，从工业界或商业化角度来看，一个新的技术落地到社会中总是有顺序的。比如新的技术可能会先应用在军事领域来加强国家的竞争力。逐渐从军事到娱乐，娱乐也是一个受众广泛的领域。大家也会在未来的一两年内看到更多的虚拟偶像出现在公共媒体上。之后是会趋向于功能化，如虚拟的客服和销售，这件事我们自己也在做。而从学术的角度来看，我们应该会看到数字人通过AI领域中鼎鼎大名的图灵测试，或者可以先说是一定时间内通过图灵测试。然后我们慢慢延长时间，当时间到无限大，我们就可以默认数字人通过了图灵测试。这样的数字人也许会很快出现。

提

醒

点击“阅读原文”，即可观看本场精彩回放

往期精彩

关注我们，记得星标

关于AI TIME

AI TIME源起于2019年，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，加强思想碰撞，链接全球AI学者、行业专家和爱好者，希望以辩论的形式，探讨人工智能和人类未来之间的矛盾，探索人工智能领域的未来。

迄今为止，AI TIME已经邀请了900多位海内外讲者，举办了逾450场活动，超500万人次观看。

我知道你

在看

哦

点击 阅读原文 查看回放！

计算机视觉产品推荐,个性化推荐:人工智能中的计算机视觉、NLP自然语言处理和个性化推荐系统哪个前景更好一些？...
这个问题直接回答的话可能还是有着很强的个人观点，所以不如先向你介绍一些这几个领域目前的研究现状和应用情况(不再具体介绍其中原理)你自己可以斟酌一下哪方面更适合自己个性化推荐。一．所谓计算机视觉，是指使用计算机及相关设备对生物视觉的一种模拟个性化推荐。它的主要任务就是通过对采集的图片或视频进行处理以获得相应场景的三维信息，就像人类和许多其他类生物每天所做的那样[1]。现在人工智能的计算机视觉主要研究
AI如何塑造下一代网络安全防御体系 weishi122 web安全人工智能网络人工智能网络安全威胁检测行为分析漏洞挖掘
AI如何塑造下一代网络安全防御体系随着网络威胁日益复杂化，传统安全措施已难以应对。人工智能(AI)正通过创新解决方案重塑网络安全格局。本文将探讨AI如何推动网络安全革命，并分析实施过程中的关键挑战。日益严峻的威胁形势到2025年，网络犯罪预计将造成全球10.5万亿美元损失。传统防御手段已无法应对快速演变的威胁，这正是AI发挥关键作用的领域。人工智能：新一代数字卫士AI能实时分析海量数据，在威胁发生
【国内超大型智能算力中心建设白皮书 2024】 AI大模型 lose and dream 人工智能开源 git 开源软件 github gitlab 开放原子
文末有福利！智算中心建设通过领先的体系架构设计，以算力基建化为主体、以算法基建化为引领、以服务智件化为依托，以设施绿色化为支撑，从基建、硬件、软件、算法、服务等全环节开展关键技术落地与应用。一、体系架构（一）总体架构图8智算中心总体架构智能算力中心建设白皮书，重点围绕基础、支撑、功能和目标四大部分，创新性地提出了智算中心总体架构。其中，基础部分是支撑智算中心建设与应用的先进人工智能理论和计算架构；
高并发解决方案：SpringBoot+Redis分布式缓存实战 fanxbl957 Web 缓存 spring boot redis
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人高并发解决方案：SpringBoot
SpringBoot缓存技术全解析：Redis+Caffeine二级缓存架构 fanxbl957 Web 缓存 spring boot redis
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot缓存技术全解析：
米信使股票群诈骗真相！郑洪盛国浩盟国一带一路项目就是资金盘不要被骗了！不成功不收费
讲述:郑洪盛国浩盟国慈善投票被骗无法出金真相！套路太深教你该如何避！！骗子引诱人上当方式很简单：先给你一点甜头尝尝，一开始入金能正常提现，也能赚一点，但当投入更多钱时，你发现你的运气开始变差了。所以，荐股类骗局最大的迷惑性是：给受害人一种假象，你是投资亏损的，而不是被骗的！广大市民对此要提高警惕，如果是还没有投资，千万不要抱有侥幸心理，一定要及时远离！一定不要打草惊蛇低碳项目数字体育，人工智能ai
实现大语言模型与应用的无缝对接 meslog 技术分享语言模型 microsoft 人工智能
在当今人工智能快速发展的时代，大语言模型（LLMs）已经成为众多应用的核心驱动力。然而，如何让这些强大的模型与各种数据源和工具进行有效集成，仍然是一个挑战。ModelContextProtocol（MCP）正是为解决这一问题而设计的开放协议，它标准化了应用程序如何向大语言模型提供上下文信息。本文将介绍MCP的基本概念，并通过C#SDK展示如何实现客户端和服务器端的交互。什么是MCP？ModelCo
解决引入TransXNet模块后显存爆炸问题的全面指南 pk_xz123456 算法大数据 python 机器人数据挖掘深度学习
解决引入TransXNet模块后显存爆炸问题的全面指南前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。1.问题背景与现状分析1.1MF-PSN和TransXNet项目概述MF-PSN（Multi-FeaturePyramidStereoNetwork）是一个基于金字塔特征的多特征立体匹配网络，它通过构建多层次的特征金字塔来处理不同尺度的立体匹配问题
人工智能时代下的数据新职业：新兴工作岗位版图研究司南锤 economics 人工智能
目录摘要第一章：AI驱动的数据价值链重构1.1从“沉睡金矿”到“流动的血液”：数据作为核心经济资产的激活1.2知识的新经济学：零边际成本革命1.3AI作为新的“操作系统”：重塑产业竞争格局第二章：基石层：数据准备与质量保障中的角色2.1数据标注与标签领导力：数据标注经理/主管2.2“地面真实”的守护者：AI数据质量专家第三章：技术核心层：构建AI与机器学习全生命周期的工程角色3.1AI生产线架构师
【机器学习】探索未来科技的前沿：人工智能、机器学习与大模型 AIGC零基础入门小白 AI大模型大模型教程人工智能机器学习科技 AI大模型 AIGC AI教程大模型教程
文章目录引言一、人工智能：从概念到现实1.1人工智能的定义1.2人工智能的发展历史1.3人工智能的分类1.4人工智能的应用二、机器学习：人工智能的核心技术2.1机器学习的定义2.2机器学习的分类2.3机器学习的实现原理2.4机器学习的应用2.5机器学习的示例代码2.6解释代码三、大模型：推动AI前沿发展的关键技术3.1大模型的定义3.2大模型的发展历程3.3深度学习与神经网络3.4大模型的优势与挑
现代人工智能综合分类：大模型时代的架构、模态与生态系统司南锤 economics 人工智能分类数据挖掘
目录引言：人工智能的第四次浪潮与新分类的必要性第一节：大型模型范式的基础支柱1.1规模化假说：算力、数据与算法的三位一体1.2“涌现能力”之谜：当“更多”变为“不同”1.3自监督学习（SSL）革命第二节：大型模型的技术分类学2.1Transformer：现代人工智能的架构基石2.2架构分化：一种功能性分类2.3提升效率与规模：专家混合模型（MoE）2.4超越Transformer：下一代架构的探索
人工智能入门指南：从基础概念到实际应用
前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。https://www.captainbed.cn/north文章目录1.**人工智能的基本概念**1.1什么是人工智能？1.2人工智能的分类2.**人工智能的核心技术**2.1机器学习（MachineLearning）2.1.1机器学习的类型2.1.2机器学习流程2.2深度学习（DeepLearni
Sequential Thinking：AI深度思考的新范式及其与CoT、ReAct的对比分析码字的字节人工智能 Sequential CoT ReAct
引言：AI深度思考的演进与SequentialThinking的崛起在人工智能技术快速发展的今天，AI模型的思考能力正经历着从简单应答到深度推理的革命性转变。这一演进过程不仅反映了技术本身的进步，更体现了人类对机器智能认知边界的持续探索。早期的大语言模型虽然能够生成流畅的文本，但在处理复杂问题时往往表现出"浅思考"的局限性——答案可能看似合理，却缺乏严谨的推理过程和系统性考量。例如，2022年的一
算法工程师必看！个性化信息流推荐算法系统的架构设计与优化实战指南
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】GPT多模态大模型与AIAgent智能体书籍本章配套视频课程【陈敬雷】推荐算法系统实战全系列精品课【陈敬雷】文章目录推荐算法系统系列二算法工程师必看！个性化信息流推荐算法系统的架构设计与优化实战指南更多技术内容总结推荐算法系统系列二算
【DL经典回顾】激活函数大汇总（四）（Softmax & Softplus附代码和详细公式）夺命猪头 python 机器学习人工智能神经网络 numpy
激活函数大汇总（四）（Softmax&Softplus附代码和详细公式）更多激活函数见激活函数大汇总列表一、引言欢迎来到我们深入探索神经网络核心组成部分——激活函数的系列博客。在人工智能的世界里，激活函数扮演着不可或缺的角色，它们决定着神经元的输出，并且影响着网络的学习能力与表现力。鉴于激活函数的重要性和多样性，我们将通过几篇文章的形式，本篇详细介绍两种激活函数，旨在帮助读者深入了解各种激活函数的
基于NanoDet的健身姿势纠正系统开发 YOLO实战营人工智能 NanoDet 深度学习计算机视觉 ui
1.引言在现代健身行业中，正确的运动姿势至关重要，不仅能提升训练效果，还能预防运动损伤。尤其是在进行一些高强度的力量训练时，如深蹲、俯卧撑等，错误的姿势可能导致肌肉不平衡或关节损伤。传统的健身姿势纠正方式依赖教练的人工指导，但随着人工智能技术的发展，使用计算机视觉和深度学习技术来进行姿势纠正，逐渐成为一种高效且可扩展的解决方案。本文将详细介绍如何基于NanoDet（一个轻量化目标检测模型）开发一个
Spring AI 概述与功能简介 drebander AI 编程 spring 人工智能 java
SpringAI是一个由Spring团队开发的开源框架，旨在为人工智能（AI）和机器学习（ML）提供一个成熟且高效的开发平台。它将Spring生态系统的设计理念应用于AI开发，尤其强调模块化、可移植性以及简洁的集成。SpringAI提供了丰富的功能，涵盖从AI模型的调用到与数据库的集成等多个方面，帮助开发者构建和管理AI驱动的应用程序。1.SpringAI背景SpringAI的背景源于Spring
Spring AI从入门到精通：构建智能Spring应用的全面指南 java干货仓库 Spring 八股文汇总大模型 spring 人工智能 java
随着人工智能技术的快速发展，将大语言模型（LLM）与企业应用集成已成为趋势。SpringAI作为Spring官方推出的AI集成框架，为开发者提供了便捷、标准化的方式来构建智能应用。本文将从基础概念到高级应用，全面介绍SpringAI的核心功能与实践技巧。一、SpringAI概述1.1什么是SpringAI？SpringAI是VMware于2023年推出的开源框架，旨在简化大语言模型（LLM）与Sp
基于用户画像的商品推荐系统 Dush32 机器学习人工智能 python 推荐算法
随着人工智能和大数据技术的进步，产品推荐系统成为了现代广告与电商平台中不可或缺的部分。通过深度挖掘用户的行为数据，能够为广告主提供精准的用户画像，从而更高效地推荐相关产品，提升购买转化率。本项目基于科大讯飞AI营销云大赛的赛题，目的是利用用户画像进行产品推荐，预测用户是否会购买相应商品。我们使用了机器学习的二分类模型，通过分析用户的性别、年龄、常驻地、机型等信息，来判断用户的付费行为。项目目标：本
对话新希望CDO李旭昶：立足核心诉求，积极拥抱人工智能
“转型焕新，希望无限。”整理|王娴编辑|云舒出品｜极新4月12日，在「2024飞书先进生产力峰会|成都站」活动中，新希望首席数字官李旭昶先生做了主题为“转型焕新，希望无限”的分享。上次见他是4个月前，当时我们聊了1个多小时，内容涉及数字化转型、人工智能、管理、技术商业等话题。今天顺着他分享的内容，将这篇对话分享出来。随着信息科技的发展，我国传统企业在过去几年中逐步进行数字化转型，利用先进的科学技术
飞算科技：以创新科技引领数字化变革，旗下飞算 JavaAI 成开发利器飞算JavaAI开发助手科技
作为国家级高新技术企业，飞算科技专注于自主创新，在数字科技领域持续深耕，用前沿技术为各行业客户赋能，助力其实现数字化转型升级的飞跃。飞算科技凭借深厚的技术积累，将互联网科技、大数据、人工智能等技术与实际应用紧密融合。公司组建了一支由行业资深专家和技术精英构成的团队，他们在相关领域积累了多年实践经验，深刻理解不同行业客户在数字化进程中面临的痛点与挑战。基于这些洞察，飞算科技推出了一系列具有创新性和实
Rust+ChatBoxAI：实战
ChatboxAIChatboxAI是一款基于人工智能技术的智能助手工具，旨在通过自然语言交互帮助用户完成多种任务。以下是其核心功能与特点：功能概述多模型支持：可连接OpenAI、Claude、Gemini等主流大语言模型，用户能自由切换不同AI服务。本地运行：支持离线使用，数据隐私性较强，适合敏感信息处理场景。跨平台兼容：提供Windows、macOS和Linux客户端，同步支持移动端应用。核心
【Java架构师的未来与趋势】架构学院 Java成神之路-架构师进阶 java 开发语言
Java架构师的未来与趋势引言Java作为企业级应用开发的主力军，已经走过了25年的历程。在这四分之一个世纪中，Java生态系统经历了从Applet到企业级应用，从单体架构到微服务，从本地部署到云原生的巨大转变。今天，Java架构师正站在新一轮技术变革的十字路口——人工智能、云计算、低代码、边缘计算等新兴技术正深刻重塑软件架构的形态和架构师的角色。据JetBrains《2023Java开发者调查》
生成式人工智能实战 | 像素卷积神经网络（PixelCNN）盼小辉丶生成式人工智能实战150讲深度学习生成模型 aigc
生成式人工智能实战|像素卷积神经网络0.前言1.PixelCNN工作原理1.1掩码卷积层1.2残差块2.PixelCNN分析3.使用混合分布改进PixelCNN3.1模型构建3.2模型训练0.前言像素卷积神经网络(PixelConvolutionalNeuralNetwork,PixelCNN)是于2016年提出的一种图像生成模型，其根据前面的像素预测下一个像素的概率来逐像素地生成图像，模型可以通
最全2025年AI开发工具深度对比分析：程序员的智能编程助手全指南最新功能、定价策略、使用体验和适用场景 Cursor、GitHub Copilot、Claude 4、Claude Code wei佳人工智能 ai AI编程 webstorm idea vscode
2025年AI开发工具深度对比分析：程序员的智能编程助手全指南引言(不想看文字可直接看后面图表对比）随着人工智能技术的飞速发展，AI编程助手已经从概念走向现实，成为现代软件开发不可或缺的工具。2025年上半年，AI编程工具市场迎来了前所未有的变革，各大厂商纷纷推出革命性功能，从简单的代码补全演进为能够理解完整项目上下文的智能编程代理。据最新市场研究显示，全球AI代码工具市场在2024年达到67亿美
Postman + Newman + Jenkins 接口自动化测试 Thomas Kant 自动化测试 postman newman jenkins allure
亲爱的技术爱好者们，热烈欢迎来到Kant2048的博客！我是ThomasKant，很开心能在CSDN上与你们相遇～本博客的精华专栏：【自动化测试】【测试经验】【人工智能】【Python】Postman
无人值守人工智能智慧系统数据分析：深度洞察与未来展望呆码科技人工智能数据分析数据挖掘
无人值守人工智能智慧系统数据分析：深度洞察与未来展望随着科技的飞速发展，人工智能（AI）技术已逐渐渗透到社会经济的各个领域，其中无人值守人工智能智慧系统作为AI技术应用的前沿阵地，正引领着一场深刻的行业变革。这类系统通过集成高级算法、大数据分析、物联网（IoT）及云计算等先进技术，实现了对复杂环境的自主监控、智能决策与高效管理，极大地提升了运营效率，降低了人力成本，并开启了数据驱动决策的新纪元。本
论“人工智能生命体”站在那个高度？（之二）中國龍在廣州人工智能-智能体-具身智能人工智能
第一部分：人工智能生命体人工智能生命体，提及的是《人工智能生命体新启点》一书，原文附后，本文中以本书代表。《人工智能生命体新启点》一书，是在现今科学技术发展，从人工智能、智能体、具身智能等大环境下，形成的一种全新理念的理论指导，以此发展出具有自我意识的人工智能生命体，拥有现代科技并以生命体的形式出现，具备类人类般的思想活动，更好的体现与融入人类的社会环境；具有自我意识的智能生命体就如人类的拥有大脑
医疗AI与融合数据库的整合：挑战、架构与未来展望（上） Allen_Lyb 数智化教程（第二期）人工智能数据库架构
引言随着人工智能（AI）在医疗健康领域的广泛应用，数据已成为医疗AI发展的核心驱动力。然而，医疗数据具有极度的异构性（包括结构化电子病历、医学影像向量、基因组JSON/图结构、传感器时序等），传统数据架构难以高效整合。因数据孤岛、复杂ETL流程以及昂贵维护成本，医疗AI平台通常难以充分发挥价值。融合数据库（ConvergedDatabase/多模态一体化数据库）通过支持SQL、JSON、图、向量、
一文看懂：马斯克旗下人工智能公司 xAI 正式推出的Grok 4，Grok 4 如何开启 “多智能体内生化” 的 AI 新范式，重塑多模态大模型与 AI Agent 未来陈敬雷-充电了么-CEO兼CTO 《GPT多模态大模型与AI Agent智能体》新书内容人工智能 gpt agi chatgpt 大模型 deep learning 神经网络
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】GPT多模态大模型与AIAgent智能体书籍本章配套视频课程【陈敬雷】文章目录GPT多模态大模型与AIAgent智能体系列二十六一文看懂：马斯克旗下人工智能公司xAI正式推出的Grok4，Grok4如何开启“多智能体内生化”的AI新范
Java 并发包之线程池和原子计数 lijingyao8206 Java计数 ThreadPool 并发包 java线程池
对于大数据量关联的业务处理逻辑，比较直接的想法就是用JDK提供的并发包去解决多线程情况下的业务数据处理。线程池可以提供很好的管理线程的方式，并且可以提高线程利用率，并发包中的原子计数在多线程的情况下可以让我们避免去写一些同步代码。这里就先把jdk并发包中的线程池处理器ThreadPoolExecutor 以原子计数类AomicInteger 和倒数计时锁C
java编程思想抽象类和接口百合不是茶 java 抽象类接口
接口c++对接口和内部类只有简介的支持,但在java中有队这些类的直接支持 1 ,抽象类 : 如果一个类包含一个或多个抽象方法,该类必须限定为抽象类(否者编译器报错) 抽象方法 : 在方法中仅有声明而没有方法体 package com.wj.Interface;
[房地产与大数据]房地产数据挖掘系统 comsci 数据挖掘
随着一个关键核心技术的突破,我们已经是独立自主的开发某些先进模块,但是要完全实现,还需要一定的时间... 所以,除了代码工作以外,我们还需要关心一下非技术领域的事件..比如说房地产 &nb
数组队列总结沐刃青蛟数组队列
数组队列是一种大小可以改变，类型没有定死的类似数组的工具。不过与数组相比，它更具有灵活性。因为它不但不用担心越界问题，而且因为泛型（类似c++中模板的东西）的存在而支持各种类型。以下是数组队列的功能实现代码： import List.Student; public class
Oracle存储过程无法编译的解决方法 IT独行者 oracle 存储过程　
今天同事修改Oracle存储过程又导致2个过程无法被编译，流程规范上的东西，Dave 这里不多说，看看怎么解决问题。 1. 查看无效对象 XEZF@xezf(qs-xezf-db1)> select object_name,object_type,status from all_objects where status='IN
重装系统之后oracle恢复文强chu oracle
前几天正在使用电脑，没有暂停oracle的各种服务。突然win8.1系统奔溃，无法修复，开机时系统提示正在搜集错误信息，然后再开机，再提示的无限循环中。无耐我拿出系统u盘准备重装系统，没想到竟然无法从u盘引导成功。晚上到外面早了一家修电脑店，让人家给装了个系统，并且那哥们在我没反应过来的时候，直接把我的c盘给格式化了并且清理了注册表，再装系统。然后的结果就是我的oracl
python学习二（一些基础语法）小桔子 pthon 基础语法
紧接着把！昨天没看继续看django 官方教程，学了下python的基本语法与c类语言还是有些小差别： 1.ptyhon的源文件以UTF-8编码格式 2. / 除结果浮点型 // 除结果整形 % 除取余数 * 乘 ** 乘方 eg 5**2 结果是5的2次方25 _&
svn 常用命令 aichenglong SVN 版本回退
1 svn回退版本 1)在window中选择log,根据想要回退的内容,选择revert this version或revert chanages from this version 两者的区别: revert this version:表示回退到当前版本(该版本后的版本全部作废) revert chanages from this versio
某小公司面试归来 alafqq 面试
先填单子，还要写笔试题，我以时间为急，拒绝了它。。时间宝贵。老拿这些对付毕业生的东东来吓唬我。。面试官很刁难，问了几个问题，记录下； 1，包的范围。。。public,private,protect. --悲剧了 2，hashcode方法和equals方法的区别。谁覆盖谁.结果，他说我说反了。 3，最恶心的一道题，抽象类继承抽象类吗？（察，一般它都是被继承的啊） 4，stru
动态数组的存储速度比较集合框架百合不是茶集合框架
集合框架：自定义数据结构(增删改查等) package 数组; /** * 创建动态数组 * @author 百合 * */ public class ArrayDemo{ //定义一个数组来存放数据 String[] src = new String[0]; /** * 增加元素加入容器 * @param s要加入容器
用JS实现一个JS对象，对象里有两个属性一个方法 bijian1013 js对象
<html> <head> </head> <body> 用js代码实现一个js对象，对象里有两个属性，一个方法 </body> <script> var obj={a:'1234567',b:'bbbbbbbbbb',c:function(x){
探索JUnit4扩展：使用Rule bijian1013 java 单元测试 JUnit Rule
在上一篇文章中，讨论了使用Runner扩展JUnit4的方式，即直接修改Test Runner的实现(BlockJUnit4ClassRunner)。但这种方法显然不便于灵活地添加或删除扩展功能。下面将使用JUnit4.7才开始引入的扩展方式——Rule来实现相同的扩展功能。 1. Rule &n
[Gson一]非泛型POJO对象的反序列化 bit1129 POJO
当要将JSON数据串反序列化自身为非泛型的POJO时，使用Gson.fromJson(String, Class)方法。自身为非泛型的POJO的包括两种： 1. POJO对象不包含任何泛型的字段 2. POJO对象包含泛型字段，例如泛型集合或者泛型类 Data类 a.不是泛型类， b.Data中的集合List和Map都是泛型的 c.Data中不包含其它的POJO
【Kakfa五】Kafka Producer和Consumer基本使用 bit1129 kafka
0.Kafka服务器的配置一个Broker，一个Topic Topic中只有一个Partition（） 1. Producer： package kafka.examples.producers; import kafka.producer.KeyedMessage; import kafka.javaapi.producer.Producer; impor
lsyncd实时同步搭建指南——取代rsync+inotify ronin47
1. 几大实时同步工具比较 1.1 inotify + rsync 最近一直在寻求生产服务服务器上的同步替代方案，原先使用的是 inotify + rsync，但随着文件数量的增大到100W+，目录下的文件列表就达20M，在网络状况不佳或者限速的情况下，变更的文件可能10来个才几M，却因此要发送的文件列表就达20M，严重减低的带宽的使用效率以及同步效率；更为要紧的是，加入inotify
java-9. 判断整数序列是不是二元查找树的后序遍历结果 bylijinnan java
public class IsBinTreePostTraverse{ static boolean isBSTPostOrder(int[] a){ if(a==null){ return false; } /*1.只有一个结点时，肯定是查找树 *2.只有两个结点时，肯定是查找树。例如{5,6}对应的BST是 6 {6,5}对应的BST是
MySQL的sum函数返回的类型 bylijinnan java spring sql mysql jdbc
今天项目切换数据库时，出错访问数据库的代码大概是这样： String sql = "select sum(number) as sumNumberOfOneDay from tableName"; List<Map> rows = getJdbcTemplate().queryForList(sql); for (Map row : rows
java设计模式之单例模式 chicony java设计模式
在阎宏博士的《JAVA与模式》一书中开头是这样描述单例模式的：　　作为对象的创建模式，单例模式确保某一个类只有一个实例，而且自行实例化并向整个系统提供这个实例。这个类称为单例类。单例模式的结构　　单例模式的特点：单例类只能有一个实例。单例类必须自己创建自己的唯一实例。单例类必须给所有其他对象提供这一实例。　　饿汉式单例类 publ
javascript取当月最后一天 ctrain JavaScript
 <script language=javascript> var current = new Date(); var year = current.getYear(); var month = current.getMonth(); showMonthLastDay(year, mont
linux tune2fs命令详解 daizj linux tune2fs 查看系统文件块信息
一.简介： tune2fs是调整和查看ext2/ext3文件系统的文件系统参数，Windows下面如果出现意外断电死机情况，下次开机一般都会出现系统自检。Linux系统下面也有文件系统自检，而且是可以通过tune2fs命令，自行定义自检周期及方式。二.用法： Usage: tune2fs [-c max_mounts_count] [-e errors_behavior] [-g grou
做有中国特色的程序员 dcj3sjt126com 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有
Android：TextView属性大全 dcj3sjt126com textview
android:autoLink 设置是否当文本为URL链接/email/电话号码/map时，文本显示为可点击的链接。可选值(none/web/email/phone/map/all) android:autoText 如果设置，将自动执行输入值的拼写纠正。此处无效果，在显示输入法并输
tomcat虚拟目录安装及其配置 eksliang tomcat配置说明 tomca部署web应用 tomcat虚拟目录安装
转载请出自出处：http://eksliang.iteye.com/blog/2097184 1.-------------------------------------------tomcat 目录结构 config：存放tomcat的配置文件 temp ：存放tomcat跑起来后存放临时文件用的 work ：当第一次访问应用中的jsp
浅谈：APP有哪些常被黑客利用的安全漏洞 gg163 APP
首先，说到APP的安全漏洞，身为程序猿的大家应该不陌生；如果抛开安卓自身开源的问题的话，其主要产生的原因就是开发过程中疏忽或者代码不严谨引起的。但这些责任也不能怪在程序猿头上，有时会因为BOSS时间催得紧等很多可观原因。由国内移动应用安全检测团队爱内测（ineice.com）的CTO给我们浅谈关于Android 系统的开源设计以及生态环境。 1. 应用反编译漏洞：APK 包非常容易被反编译成可读
C#根据网址生成静态页面 hvt Web .net C#asp.net hovertree
HoverTree开源项目中HoverTreeWeb.HVTPanel的Index.aspx文件是后台管理的首页。包含生成留言板首页，以及显示用户名，退出等功能。根据网址生成页面的方法： bool CreateHtmlFile(string url, string path) { //http://keleyi.com/a/bjae/3d10wfax.htm stri
SVG 教程（一）天梯梦 svg
SVG 简介 SVG 是使用 XML 来描述二维图形和绘图程序的语言。学习之前应具备的基础知识：继续学习之前，你应该对以下内容有基本的了解： HTML XML 基础如果希望首先学习这些内容，请在本站的首页选择相应的教程。什么是SVG？ SVG 指可伸缩矢量图形 (Scalable Vector Graphics) SVG 用来定义用于网络的基于矢量
一个简单的java栈 luyulong java 数据结构栈
public class MyStack { private long[] arr; private int top; public MyStack() { arr = new long[10]; top = -1; } public MyStack(int maxsize) { arr = new long[maxsize]; top
基础数据结构和算法八：Binary search sunwinner Algorithm Binary search
Binary search needs an ordered array so that it can use array indexing to dramatically reduce the number of compares required for each search, using the classic and venerable binary search algori
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！刘星宇 c 面试
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！ 1.gets()函数问：请找出下面代码里的问题： #include<stdio.h> int main(void) { char buff[10]; memset(buff,0,sizeof(buff));
ITeye 7月技术图书有奖试读获奖名单公布 ITeye管理员活动 ITeye 试读
ITeye携手人民邮电出版社图灵教育共同举办的7月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 7月试读活动回顾： http://webmaster.iteye.com/blog/2092746 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《Java性能优化权威指南》

【PhD Debate - 14】将科幻照进现实——元宇宙数字人的当下与未来

你可能感兴趣的:(人工智能)