Coding的叶子

2023年AIGC发展回顾与展望

2023年是人工智能内容生成（AIGC）技术飞速发展的一年。从年初ChatGPT一炮打响，大家纷纷加入到大模型研究之中。期间Midjourney和Stable Diffusion AI绘画技术持续火热，基于AIGC类的应用也如雨后春笋般遍地开花。万众瞩目的OpenAI GPT4.5则推迟到了今年。

图1 AIGC（来自RdFast AI生成）

人工智能生成内容 (AIGC) 标志着一个变革时代的到来，它利用机器学习以有限的人力输入来创建或更改内容。这一趋势跨越了各种媒体形式——文本、图像、电影和音频等，在媒体制作、分发和接收方面引入了新的创新方式。AIGC 不仅仅局限于内容自动化；它还增强了人类的创造力，提供了一系列内容定制的机会。

本文将从以下六个部分简要回顾20203年AIGC人工智能技术发展情况，并且很多最新的人工智能技术都可以在乐乐感知学堂公众号和RdFast智能创作机器人小程序中免费无限使用，这样大家可以大致对各种技术有一个比较直观的认识。根据自己的理解，用户可以确定新的算法模型研究方向或者应用研究方向，进而在人工智能时代充分发挥自己的想象力和创造力。

（1）AI文本生成

（2）AI绘画生成

（3）AI音频生成

（4）AI视频生成

（5）AI三维生成

（6）展望：AGI

1 AI文本生成

AI文本生成技术是指根据用户需求生成特定任务下的文案，包括营销文案、营销邮件、文章撰写、润色、翻译、校对、总结、编辑、代码生成、角色扮演、工具助手等等，大大提升文案创作或编辑人员的工作效率。相比于普通聊天机器人而言，AI文本生成内容更加专业，很多时候可以代替人工完成一些初步工作。

图2 宣传文案示例效果

AI文本生成技术的典型代表是OpenAI的ChatGPT，其可谓是从年初火到年尾，目前热度仍然不减。其技术和使用效果也在不断进行迭代更新。其技术基础年初时为GPT3，后陆续更新推出GPT3.5、GPT4和GPTs（基于ChatGPT的定制化场景应用），GPT4.5则推迟到了今年。其API上下文的长度也由4K扩展到16K、32K、64K。微软也于2月8日凌晨推出了由OpenAI提供技术支持的新版搜索引擎必应和Edge浏览器，整合了ChatGPT的最新技术（即GPT-4），并且接入到Newbing当中。

图3 ChatGPT

Anthropic公司随后推出Claude，并且一直被称为“ChatGPT唯一的竞争对手”。Anthropic 的创始团队成员，大多为 OpenAI 的早期及核心员工，深度参与过OpenAI的多项课题，比如GPT-3、神经网络里的多模态神经元、引入人类偏好的强化学习等。今年11月22日发布的Claude 2.1支持20万个Token，不仅是Claude 2.0的两倍，也已超越OpenAI GPT-4 Turbo的12.8万个Token，相当于15万个文本或是500页的文件。

图4 Claude

5月11日 Google I/O 开发者大会发布大语言模型 PaLM2（Pathways Language Model 2），称在部分任务上超越 GPT-4。作为人工智能界的带头大哥，Google在该领域的风头今年一直没能超过OpenAI。12月6日，谷歌CEO桑达尔・皮查伊官宣Gemini 1.0版正式上线。据说Gemini有万亿参数，训练动用的算力是GPT-4的五倍。另外，在这年底冲刺阶段，微软于12月13日发布27亿参数的语言模型Phi-2，据称可与规模大25倍的大模型相媲美，该模型目前已加入Azure AI Studio。

图5 Gemini

全球很多其它企业或单位也紧随其后，不断推出自己的文本生成大模型。LLaMA（Large Language Model Meta AI），由 Meta AI 发布的一个开源且高效的大型基础语言模型，共有 7B、13B、33B、65B（650 亿）四种版本。其数据集来源都是公开数据集，无任何定制数据集，保证了其工作与开源兼容和可复现，整个训练数据集在 token 化之后大约包含 1.4T 的 token。LLaMA因为源码泄露引来了大量开发者的关注，早期大模型研发工作有很大一部分都是基于LLaMA进行微调的。例如LLaMA（羊驼）、Vicuna（小羊驼）等。

国内AI文本生成大模型主要有清华智谱AI的ChatGLM、百度的文言一心、科大讯飞的星火认知大模型、百川大模型、阿里的通义千问、零一万物的Yi系列大模型等。据说国内的“百模大战”已升级成“两百模大战”，据不完全统计，今年1-7月国内共发布了64个大模型，截至目前叫得出名字的国产大模型已接近200家。其中，ChatGLM是国内最早开源的模型之一，早在今年3月份就已经发布，从ChatGLM发展到ChatGLM2和ChatGLM3。相关的开源生态也做得非常完善，例如微调、C++加速、模型量化以及移动端部署等等。

图6 部分大模型评测对比

ChatGPT类大模型训练框架主要有DeepSpeed、Colossal-AI等，这些框架均支持分布式和强化学习训练。类似Chat GLM等开源大模型也提供了微调方式。另外，OpenAI也提供了模型微调API接口，目前支持到GPT3.5。模型训练微调和训练的应用之一是能够得到自定义知识库，根据知识库进行问答。目前，根据知识库问答主要包括两种方案。

一种是对知识库进行向量化，根据用户问题去命中知识库，然后将命中的知识库和用户问题合并到prompt提示词中，然后输入到大模型。这种方法比较方便，但是每次输入到模型的上下文内容会很长，而且模型运行或者API调用成本会随着内容增加而增加。该方法虽然省去了模型训练成本，但是调用成本会增加。

另一种方式是根据已有知识库训练或微调大模型，让模型本身掌握当前知识。那么模型使用时只需要输入问题或者任务内容，无需将知识库加入到输入。这种做法会降低调用成本，但需要增加模型训练成本。第二种方法应该更加有效，但是难度会偏大，包括数据制作和模型训练等。

2 AI绘画生成

2022年，Midjourney的一幅AI绘画《太空歌剧院》诞生让AIGC绘画变得流行起来。与此同时，Stability.ai和Jasper.ai（元宇宙和数字媒体工具开发商）在当前市场环境下完成了大规模融资，估值分别为10亿美元和15亿美元。这两件事的叠加起到了催化剂的作用，点燃了市场对AIGC的热情。AI绘画实际上从OpenAI的DALLE 2开始就在AI圈流行起来，但真正流行是从开源版本的出现开始的。

图7 太空歌剧院

最早出现在大众面前的Disco Diffusion（Midjourney的前身）主要被插画师和AI工具爱好者使用。他们的目标是创建一个开源和共创的模型，最终将人工智能生成的图像推向普通人。Stability.ai的模型Stable Diffusion可以理解为DALLE 2的开源版本，用户不仅可以直接使用官网部署的Dream Studio直接生成图片，还可以基于开源模型创建自己的定制模型。

可以说，Stability AI彻底降低了AI生成图像的门槛。稳定扩散各渠道日活跃用户已超过1000万，面向消费者的梦想工作室已获得超过150万用户。Stable Diffusion的开源也极大促进了AI绘画市场发展。

图8 stable diffusion

今年2月份ControlNet正式发布开源版本，它可以与Stable Diffusion结合实现可控的AI绘画设计，从而进一步推动了该方向上的发展。例如，发布之初，我们看到大量的基于ControlNet和Stable Diffusion的AI室内装修设计样例或风格迁移设计样例。

图9 ControlNet室内设计

7月初，Stable Diffusion发布了XL版及两个模型，当时仅有个别图形界面工具支持，如ComfyUI，操作不便，且很多常用插件无法使用。而目前ControlNet也已支持XL版Stable Diffusion。XL版本相比与之前版本，绘画质量和分辨率都有明显提升，相当于由512分辨率提升到1024。

相比与Stable Diffusion，Midjourney和DALL并未开源，需要付费使用。从当前现状来看，Midjourney表现效果最佳。Stable Diffusion灵活可控，开源模型和资料较多。DALL-E2发布较早，绘画效果一般。但今年9月份左右Dall-E3发布，并且集成到了ChatGPT之中，效果比较不错，生成的图片清晰度都有非常大的提升。目前，OpenAI也单独提供了DALL-E3的调用接口。12月13日，谷歌Deepmind推出人工智能图像生成器Imagen 2，号称是DALL-E3的最强竞品。据介绍，Imagen 2可以生成迄今为止所有Google模型中质量最高、最逼真的图像，同时严格遵循用户提示。

图10 Imagen 2（prompt: “The robin flew from his swinging spray of ivy on to the top of the wall and he opened his beak and sang a loud, lovely trill, merely to show off. Nothing in the world is quite as adorably lovely as a robin when he shows off – and they are nearly always doing it”）

除了基于扩散模型之外，基于生成式对抗网络（GAN）的DragGAN在今年五月中旬也引起了广泛关注。它可实现运动监督和精确点跟踪，对像素进行精确控制，从而编辑动物、汽车、人类、风景等多种类别的姿态、形状、表情和布局。

图11 DragGAN

图像生成领域正处于探索大量应用场景的阶段。包括绘画软件集成（PhotoShop等）、办公软件（Office、WPS等）、设计工作室、游戏角色设计、室内设计、建筑设计等。

3 AI音频生成

随着AI文本生成和AI绘画生成在2023年爆火，AI音频生成技术也引起了巨大关注。大家都很期待AI音频生成模型引爆音乐行业。这项技术的出现不仅是为了简化音乐创作流程，更是为了提升音乐创作的深度和广度，为创作者和用户带来更多可能性和选择。然而，目前其热度和成熟度还远没有达到前两者的程度。这里简要介绍目前比较热门的三个模型，我将持续关注该领域的发展，并第一时间发布更新通知。

谷歌在今年1月份首次公开MusicLM技术背后的模型。MusicLM是一种文本为条件的音频生成模型，其主要目标是生成高保真度的音乐。它采用层次化的序列到序列方法，可以生成几分钟长且一致的音乐片段。谷歌实验表明，MusicLM 在音频质量和对文本描述的遵守方面都优于以前的系统。现在，GitHub上已经开源了Pytorch版本的MusicLM，用户可以自行部署和体验。

https://google-research.github.io/seanet/musiclm/examples/audio_samples/rich-descriptions/arcade/audio.wav

图12 MusicLM示例 https://google-research.github.io/seanet/musiclm/examples/

今年8月2日Meta facebookresearch 正式开源一款名为AudioCraft的AI音频和音乐生成工具。该工具声称可以直接从文本描述和参考音乐生成高质量的音频和音乐。AudioCraft包含MusicGen、AudioGen和EnCodec三个模型，分别实现音乐生成、音频生成和自定义音频模型构建。其效果可以直接在Hugging Face网页上体验，或者根据GitHub上的开源程序部署到本地进行体验。

https://dl.fbaipublicfiles.com/audiocraft/webpage/public/assets/audios/musicgen_mono/sample_001.mp3

图13 AudioCraft示例https://audiocraft.metademolab.com/musicgen.html

同样在今年8月份，AudioLDM 2论文和模型程序也开源了。它是一个基于文本生成音频的模型，能够快速生成高质量的音频，包括节奏、音效和基本对话。该模型引入了一种通用的音频表示法称为 "音频语言"（LOA）。在生成过程中，它使用GPT-2模型将任何模态转化为LOA，并使用以LOA为条件的潜在扩散模型进行自监督音频生成学习。论文中实验表明，在文本到音频、文本到音乐和文本到语音等主要基准上，与以前的方法相比，其性能达到了最新水平。

https://audioldm.github.io/audioldm2/demos/ttm_headline_nine_audio/A_catchy_trap_beat_with_EDM_Synthesizers_in_the_mix,_creating_a_unique_electronic_sound_with_ethereal_quality.flac

图14 AudioLDM 2 示例https://audioldm.github.io/audioldm2/

以上三个音频模型效果都可以在线或离线体验，但一般对提示词描述需要非常准确或者比较专业。这一点没有AI文本和AI绘画使用起来方便。另一方面，生成时间也会明显增加，通常需要几分钟之久，而AI文本可以采用流式方式实时输出，AI绘画一般也不到1分钟。其次，生成的内容强项在于乐器或英文相关，生成歌曲类或者中文内容比较困难。这些问题也是目前AI音频生成尚未在互联网上掀起热潮的一部分原因。根据当前AI技术的发展趋势，预计明年AI音频设计会有所突破。

4 AI视频生成

视频时代，视频在流量吸引、内容传播、广告营销等方面展现出了强大的能力。随着底层技术不断拓展能力，AIGC的应用自然也从文本、图像发展到了视频领域。技术门槛和市场空间更高的视频生成成为创业者和投资机构关注的焦点。真正的文本转视频生成最早是谷歌在2022年4月发布的，但当时的画面效果并不是很好，比如视频的清晰度、流畅度都比较低。

AIGC在视频编辑中的应用主要分为两类：

第一类是视频属性的编辑，如视频质量恢复、删除画面中特定主体、自动添加具体内容、自动美化、视频特效等。Runway公司从图片剪辑的角度切入视频剪辑；而Descript公司则从声音剪辑的角度切入视频剪辑。切入点不同，但目的都是为了提高内容创作者的工作效率，让他们更专注于创意的产生。

第二类是视频自动编辑。与上面提到的生成不同，自动编辑的逻辑是寻找并合成符合条件的素材。从某种程度上来说，它是自动生成的一个过渡方案。。目前，很多视频编辑或应用软件（如剪映）等都支持一键成片或根据文字脚本生成视频。更进一步的做法是，用户先根据AI文本或绘画设计出原始视频脚本或图片素材，然后导入视频生成软件完成视频创作。

以视频生成头部公司Runway为例，我们简单感受一下AI视频生成在今年的发展速度。Gen-2是Runway公司最初于2023年3月推出，允许用户输入文本提示生成四秒长视频。8月，该公司添加了一个选项，可以将 Gen-2 中人工智能生成的视频延长至 18 秒。9月，Runway 进一步更新 Gen-2，推出了统称为“导演模式”的新功能，允许用户在 Runway AI 生成的视频中选择“摄像机”运动的方向和强度/速度。11月，Runway 宣布发布 Gen-2 更新，为视频结果的保真度和一致性带来重大改进。Runway在12月12日晚间宣布，他们目前的Gen-2等视频生成系统可以视为早期通用世界模型的一种体现，对于物理和运动有着一定程度的理解，但在处理复杂的摄像机或物体运动等问题上仍存在挑战。为了构建更为通用的世界模型，Runway正在进行多项公开研究，其中包括生成环境地图、在环境中的导航和互动、捕捉世界和居民的动态，以及建立更逼真的人类行为模型等方面的研究。

图15 Runway Gen-2 视频gif

Google一直在探索人工智能（AI）的各种应用，其中之一就是AI视频生成。就在ChatGPT刷屏之际，谷歌AI生成的一段视频突然爆火，一时分走不少讨论度。背后的AI模型名为Phenaki。只需提供一段提示词，这个文本转视频（Text-to-Video）模型就能生成长达两分钟的视频。今年10月份，Github上也开源了Pytorch版本的Phenaki模型。

图16 谷歌Phenaki 视频gif

李飞飞携斯坦福联袂谷歌，12月12日正式推出了用于生成逼真视频的扩散模型W.A.L.T，据说效果媲美Gen-2比肩Pika。团队在已建立的视频（UCF-101 和 Kinetics-600）和图像（ImageNet）生成基准测试上实现了SOTA，而无需使用无分类器指导。而且其团队还训练了三个模型的级联，用于文本到视频的生成任务，包括一个基本的潜在视频扩散模型和两个视频超分辨率扩散模型，以每秒8帧的速度，生成512 x 896分辨率的视频。

图17 W.A.L.T 视频gif

在今年最后十几天里，谷歌于本月20日提出的视频生成大模型上线，再次获得了人们的关注。这款名为VideoPoet的大语言模型，被人们认为是革命性的zero-shot视频生成工具。它不仅能够以文字生成视频、以图像生成视频，还能根据需要进行风格迁移，根据文本指令的提示进行交互式视频编辑，可这能会给视频剪辑工作带来非常大的变革。

图18 VideoPoet 视频gif https://sites.research.google/videopoet/

AI视频生成比文本、绘画和语音更加复杂，所需要的算力也更大。因而，这种领域不太适合个人用户去对模型进行部署或优化。大部分用户主要是使用相关的软件工具和平台。可以看到，AI头部公司很少开源AI视频生成模型。

5 AI三维生成

相比2D内容的制作，3D内容的成本更高，制作周期更长。随着Diffusion模型和NeRF模型的发展，AI在3D内容生成的应用中迎来了快速发展。3D建模是一个近130亿的市场规模，3D场景的生成可以应用于游戏、VRAR和元宇宙。

去年发布的3D生成模型有谷歌、加州大学伯克利分校的DreamFusion、OpenAI的Point-E、苹果的GAUDI和英伟达的GET3D等。GET3D目前已经开源。AI三维模型生成主要包括两种类型。一种是完全基于文本，另一种则是基于文本和输入点云。其中，Point-E支持同时输入文本和点云。

今年3月份英伟达发布了Magic 3D，属于文本到图像扩散模型。它可以根据文本提示创建高质量的 3D 网格模型。Magic3D 采用两阶段过程：它使用低分辨率扩散创建粗略模型，然后系统使用稀疏 3D 哈希网格结构，并通过高效的可微渲染器进一步优化，以创建最终输出。Magic3D 可以在 40 分钟内创建高质量的 3D 网格模型。

2023 年8月香港中文大学、上海人工智能实验室、浙江大学发布的PointLLM 旨在帮助PaLM和Llama等大型语言模型理解3D数据。人工智能研究人员可以在其数据集中充分利用点云（代表 3D 形状或对象的数据点）。

8月底，字节跳动和加州大学圣地亚哥分校的研究人员开发了一种扩散模型MVDream，可以根据文本输入生成高质量的3D渲染。MVDream可以生成模型的多个视图，这些视图是几何一致的多视图图像。用户可使用 DreamBooth3D 等工具对该模型进行微调，以实现个性化3D生成。

图19 MVDream 3D模型生成

Scenario 是一家创建和设计游戏内 3D 资产的公司。用户可以通过视频拍摄现实生活中的3D物体，然后在游戏中生成相应的模型。场景拥有大量游戏内3D资产数据。在稳定扩散的基础上，Scenario针对游戏开发者和游戏设计者推出了AIGC工具，专注于生成各种游戏资产。

同时，随着NeRF模型的发展，3D建模在室内设计领域的应用迎来了快速发展。只需要几张内饰照片，即可利用NeRF模型快速生成3D内饰造型，并可通过文字指令切换整体风格。随着这项技术的进一步发展，41亿美元的室内设计软件市场或将迎来洗牌。

虽然AI三维生成技术目前已经得到了很大发展，但是应用并不广泛，技术仍然存在局限性。文本和二维图像的结构化数据非常庞大，这也给大模型提供了很好的前提条件。而三维数据目前仍然是比较缺乏的，三维数据采集场景也相当有限。整体来看，三维领域的数据集主要集中在无人驾驶和室内模型上，因而场景是相当局限的。这也导致了很多模型在一些专用数据集和场景下取得不错效果，而扩展性和泛化性则受到了限制。

6 展望：AGI

AIGC 对媒体技术的影响是深远而广泛的。然而，这个新领域也面临着一系列挑战，特别是在道德、监管和就业领域。平衡AIGC能力的利用与这些问题的管理对于媒体技术的道德进步至关重要。当我们踏上这一新征程时，人类创造力和人工智能之间的伙伴关系将继续重塑我们的故事以及我们分享故事的方式。

知识型、创意型岗位的从业者受AIGC影响最直接，主要包括营销人员、销售人员、作家、图像工作者、视频工作者等。AIGC的生成形式可以包括基于素材的部分生成、基于指令的全自主生成生成和生成优化。在内容上，除了文本、图像、音频、视频等常见的显性内容外，还包括行为逻辑、训练数据、算法策略等非显性内容。理想情况下，几乎所有职业都可以通过人工智能得到改善。

AIGC是人工智能生成内容，这只是人工智能技术快速发展的一个部分。更多模态的融合，更加智能的系统会是未来长期发展的方向。人工通用智能（AGI）代表着人类迈向智能革命的巅峰。随着科技的迅猛发展，我们正站在一种新型智能的边缘，这种智能将重新定义我们与技术互动的方式，并彻底改变我们生活、工作和社会的本质。

AGI指的是能够像人类一样执行各种智力任务的人工智能系统。这种智能系统不仅能够在特定领域内表现出色，还能够适应和学习新的任务和环境，具有类似人类智能的广泛适应性和推理能力。AGI是追求在多个领域都能表现出类似于人类智能的全面智能水平。今年下半年另一个热门AI概念“AI Agent”正是该领域的一个技术体现。另一方面，GPT系列模型也在通往AGI之中，预计明年更有更多高版本的GPT模型发布。

图20 AGI https://atlasiko.com/blog/ai/what-is-artificial-general-intelligence/

AGI代表着智能技术的新纪元。虽然它的出现带来了许多挑战，但也为人类带来了前所未有的机遇。我们需要积极拥抱这一变革，同时确保智能技术的发展是符合道德、可持续和人类利益的。只有这样，我们才能实现一个更加智能、更加包容和繁荣的未来。AGI的到来并不是一个偶然事件，而是人类智慧和技术进步的必然结果。让我们共同迎接这一智能时代的到来，并以智慧和责任引领未来的发展道路。

最后，我们将跟踪最新的人工智能AIGC发展，并且会在乐乐感知学堂公众号和RdFast智能创作机器人小程序中及时提供最新技术体验，欢迎大家关注。文中内容仅供参考，欢迎指正。

金庸续书《西毒欧阳锋大传》承接射雕三部曲，是査良居士的代表作青莓时代
在以写金庸武侠续作而成名的小说作家群体中，查良居士的名字不可不提。他的“金庸著名人物传记系列”，许多金庸武侠爱好者都看过。江湖传言，此系列已经与金庸的射雕三部曲系列构成了奇妙的血缘关系。金庸著名人物传记系列更有人言：读查良不读金庸不行，读金庸不读查良不完美！接下来，青莓时代就带大家一起走进查良居士的“金庸著名人物传记系列”，看看它究竟写了什么内容，到底写得怎么样。旧武侠书在这里，欢迎一起交流！十五
Android UI 组件系列（五）：CheckBox、RadioButton 与 Switch 控件详解
博客专栏：Android初级入门UI组件与布局源码：通过网盘分享的文件：Android入门布局及UI相关案例链接:https://pan.baidu.com/s/1EOuDUKJndMISolieFSvXXg?pwd=4k9n提取码:4k9n引言在Android开发中，用户与应用的交互往往离不开各种“选择”操作，例如：注册表单中选择兴趣爱好（可多选）设置界面中切换通知、Wi-Fi开关（开/关状态）
具身智能：从理论到实践的跨越
具身智能（EmbodiedAI）的概念起源与发展是一个跨越半个多世纪的学术探索历程，其核心思想在不同学科的交叉碰撞中逐渐成型。以下从理论源头、技术奠基、术语演进三个维度展开解析，揭示这一概念的学术脉络与产业价值：一、理论源头：从图灵的哲学构想到认知科学的具身化转向1.图灵的"感官机器"设想（1950年）在人工智能奠基性论文《计算机器与智能》中，图灵提出了两种智能发展路径：抽象计算路径：如国际象棋等
聊聊artemis的SlowConsumerReaperRunnable go4it
序本文主要研究一下artemis的SlowConsumerReaperRunnableSlowConsumerPolicyactivemq-artemis-2.11.0/artemis-server/src/main/java/org/apache/activemq/artemis/core/settings/impl/SlowConsumerPolicy.javapublicenumSlowCo
PyCharm高效入门指南：从零开始掌握Python开发利器软考和人工智能学堂 Python开发经验强化学习 PyCharm
引言PyCharm是JetBrains公司推出的一款强大的Python集成开发环境(IDE)，被全球数百万Python开发者所青睐。无论你是Python初学者还是经验丰富的开发者，掌握PyCharm都能显著提升你的开发效率。本文将带你从零开始，全面了解PyCharm的核心功能和使用技巧。1.PyCharm的安装与配置1.1下载与安装首先访问JetBrains官网下载PyCharm。PyCharm有
深圳市十大无创亲子鉴定中心大全(附2024年9月汇总鉴定) 中量亲鉴生物
深圳哪里可以做无创亲子鉴定？在深圳市盐田区盐梅路的国权基因可以做无创亲子鉴定咨询。为了帮助市民更好地了解和选择深圳的无创亲子鉴定机构，我们提供2024年最新的深圳无创亲子鉴定中心名录。本文将详细介绍这些鉴定中心的地址、工作时间、业务范围，以及选择适合自己的鉴定机构等信息，以助您在需要时能轻松找到合适的无创亲子鉴定服务。1、深圳市第二人民医院（福田区）地址：深圳市福田区笋岗西路2、北京中医药大学深圳
家庭服务具身智能机器人体系架构
硬件方面：差速移动机器人+六轴协作机械臂，软件方面选择ROS系统：底盘控制move_group，机械臂操纵MoveIt，大模型方面采用VLM+LLM：（1）视觉语言模型（VLM），用来实现环境理解与指令解析，候选模型为LLaVA和Qwen-VL。微调VLM需要2~4周，工作量主要是准备环境数据和标注期望输出。（2）大语言模型（LLM），用来实现任务分解与技能调用，候选工具有LangChain（任务
开源模型应用落地-qwen模型小试-Qwen2.5-7B-Instruct-玩转ollama（一）开源技术探险家开源模型-实际应用落地 #深度学习自然语言处理语言模型
一、前言在AI大模型百花齐放的时代，很多人都对新兴技术充满了热情，都想尝试一下。然而，实际上要入门AI技术的门槛非常高。除了需要高端设备，还需要面临复杂的部署和安装过程，这让很多人望而却步。在这样的背景下，Ollama的出现为广大开发者和爱好者提供了一条便捷的道路，极大地降低了应用机器学习的门槛。Ollama的优势在于其极致的简化。通过这个平台，用户可以轻松下载、运行和管理各种机器学习模型，而无需
android tabLayout 切换fragment fragment生命周期 mmsx Android 常用开发技术 android tab TabLayout fragment
1、TabLayout与Fragment结合使用的常见方式通常会使用FragmentPagerAdapter或FragmentStatePagerAdapter与ViewPager配合，再将TabLayout与ViewPager关联，实现通过TabLayout切换Fragment。以下是布局文件示例activity_main.xml：
【MoodVine】DeepSeek聊天持久化（2）：Spring AI + Redis实现对话记忆管理一只鱼吖【西瓜和晚霞】MoodVine spring redis java
在上一篇文章中，我们介绍了如何引入SpringAI，本文将深入探讨如何实现聊天记录的持久化存储。一、初始方案：内存存储的局限性在项目初期，我们使用简单的内存存储实现聊天记录管理：创建ChatController@RestController@RequestMapping("/chat")publicclassChatController{privatefinalOllamaChatModeloll
互相学习似水年华平
今晚受群内班主任的邀请，和大家分享我的学习心得。在晚上的分享会上，我听到了分享姐妹在讲述她们的故事，我不禁感叹，姐妹们的生活都是非常自律、人生有着清晰的目标。主播100课程班姐妹分享她每天早上如何练声，以及练声小技巧。蜕变100课程班姐妹分享她如何通过学习，制定人生的小目标、大目标以及终级目标。形象管理课程姐妹分享如何通过合理搭配穿衣打扮来提升自己的自信心。我和大家分享的是通过学习情商课，让我知道
C练题笔记之：牛客-HJ012.字符串反转
题目：描述接受一个只包含小写字母的字符串，然后输出该字符串反转后的字符串。（字符串长度不超过1000）输入描述：输入一行，为一个只包含小写字母的字符串。输出描述：输出该字符串反转后的字符串。示例1输入：abcd复制输出：dcba结果：解题思路：获取字符串，用双指针，一头一尾开始交换，直至到中间。代码：#include#includeintmain(){charstr[1024]={};scanf(
十大广告赚钱平台APP排行榜：一天收益50元天花板软件曝光清风导师
十大广告赚钱平台APP排行榜，实测2024年看广告一天50元收益是真的还是骗局?最近小编发现很多赚钱副业项目开始返璞归真，简单说就是随着管理的越来越严格，现在一些新模式或者特别火爆的玩法会比较低调，反而是老玩法旧瓶装新酒优化升级了许多，比如广告赚钱类型，很多人过去印象并不好，不过现在甚至有些软件可以做到日赚50+的利润，确实是另外眼前一亮。广告赚钱日赚50+是真的吗?实事求是的评级，在过去几年广告
阿里云大模型ACP认证模拟考试（五）
考试重要提示：答题开始即开始计时，中途不可暂停，如超时则自动提交。本次考试共计100道题目，试卷总分100分，通过考试的成绩为80分及以上。请务必在120分钟内完成交卷，由于考试过程不可暂停，请您提前规划好个人时间，若未能在规定时间内交卷，本次考试成绩将判定无效。在开始答题前，系统会进行严格的身份验证流程。届时，请您准备好身份证，拍摄并上传身份证的人像面照片，同时按照系统的指引，开启摄像头完成面部
牛客 - 倒置字符串(java)
题目解题思路解题代码题链接题目解题思路解题代码importjava.util.*;publicclassMain{//定义翻转字符数组的方法publicstaticvoidreverse(char[]arr,intstart,intend){while(start
安全居住判断五个要点。独孤派
【找房子前考虑居住环境是否安全~】五点因素判断一个居住环境是否安全,需考虑这五点因素很多人在外打拼就面临租房的问题,租房要考虑的最重要的一点就是安全。要获得一个安全的居住环境,从选房开始就要仔细把关。判断一个居住环境是否安全,就要考虑到这五点因素。一、当地新闻输入该小区路段名、小区、片区名等,看看是否有发生过违法犯罪的新闻,甚至交通事故新闻也要留意,因为有的路段晚上通行的大货车、运渣车较多,或路灯
牛客网 - 倒置字符串 Boomni_Sun C /C++牛客网题集倒置字符串牛客网 C
题目链接：点击打开链接题目大意：将一句话的单词进行倒置，标点不倒置。比如Ilikebeijing.经过函数后变为：beijing.likeI解题思路：略。AC代码#include#include#definemem(a,b)memset(a,b,sizeofa);#defineINF0x3f3f3f3fusingnamespacestd;typedeflonglongll;intmain(){ve
可转债投资之——小盘可转债大秀大长腿蛙声叫叫一家亲
“感觉许久没提可转债了，这段时间确实没啥好说的，可转债价格跟随正股不断下跌，可转债等权指数从3月初冲高后持续回落，这几天稍微企稳。最近有个特别值得一提的现象，就是许多小规模转债，特别是次新小规模转债，轮番轰炸暴涨，天天秀着20cm、30cm的大长腿，看着让人眼馋。先说说蛙哥最近的可转债持仓情况，截至发文前，今年可转债亏损3.78%，仓位上升到80.68%。整体趋势是亏损仍在缓慢小幅加大，仓位却在上
牛客-游游的水果大礼包小张0.0 OJ算法题题目心得动态规划算法
1.题目描述2.题目链接游游的水果大礼包_牛客题霸_牛客网3.代码解答publicclassMain{publicstaticvoidmain(String[]args){Scannerin=newScanner(System.in);longn=in.nextInt();longm=in.nextInt();longa=in.nextInt();longb=in.nextInt();longre
【大模型记忆实战Demo】基于SpringAIAlibaba通过内存和Redis两种方式实现多轮记忆对话 Sao_E redis 数据库缓存 ai 语言模型
文章目录多轮对话记忆管理——基于Memory的对话记忆基于内存存储历史对话基于Redis存储历史对话多轮对话记忆管理——基于Memory的对话记忆SpringAIAlibaba共实现了三种方式：基于内存的方式基于jdbc（数据库）的方式基于redis的方式下文主要演示基于内存和redis的方式基于内存存储历史对话代码首先定义大模型的角色，一个旅游规划师设置增强拦截器接着接口传入prompt和cha
牛客-倒置字符串小张0.0 OJ算法题题目心得算法 leetcode 动态规划
1.题目描述2.题目链接倒置字符串_牛客题霸_牛客网3.代码解答importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannerscanner=newScanner(System.in);Strings=scanner.nextLine();//按空格分割单词（处理多个连续空格的情况，split("
中原焦点团队分享网初31期李丽坚持第26天 2021.11.6 遇见_afaf
创造成功经验——让孩子重获信心1.相信一个小小的改变会带来大变化，达到滴水穿石的效果。就像平时我们所说的多米诺骨牌效应一样，我们要关注的就是孩子那一点点的成功经验，让他不断的增加体验，就会有大的变化。2.“再保证”指的是我们对孩子表达：不管发生什么事，我都会爱你这个人，也许你的行为需要修正，但我不会因为你的行为不喜欢你。让孩子感受到不管发生什么事儿，父母永远都爱他，不管发生什么事儿，父母永远都会陪
179.我们的情绪为何总被他人左右韩峰财商觉醒
《我的情绪为何总被他人左右》作者阿尔伯特埃利斯是20世纪美国著名的心理学家理性情绪行为疗法之父。他在美国心理学界的十大应用心理学家排行榜上排名第二，超过了弗洛伊德，他在心理学方面的研究成果被小布什、克林顿、希拉里等一些美国政要倍为推崇。这些内容能帮助我们解决生活中、工作中的心理和情绪问题，能够帮助很多人走出那种情绪困扰。财务自由之路的主题里为什么讲开心理学的内容呢？实际上很多人在追求财务自由的路上
10分钟搞定 MinIO 单节点多磁盘部署！打造稳定高可用对象存储【二】
MinIO是一个**高性能、开源的对象存储系统**，主要用于存储非结构化数据（如图片、视频、文档、备份等），与AmazonS3完全兼容。它被广泛用于云原生应用、大数据分析、AI模型存储、容器平台（如Kubernetes）等场景。MinIO支持多种部署模式，其中：单节点单磁盘（Single-NodeSingle-Drive）模式适用于开发测试、小规模应用或资源受限的场景。它的部署简单，不依赖集群、分
淘宝客服招聘在家兼职?十大适合孕妇的小生意日常购物小技巧
淘宝客服招聘在家兼职?十大适合孕妇的小生意随着互联网的普及，越来越多的孕妇选择在家创业，既能照顾宝宝，又能实现经济收入。本文为您推荐十大适合孕妇的小生意，让您在家轻松赚钱。一、淘宝客服兼职淘宝客服兼职是孕妇在家创业的不错选择。只需具备一定的沟通能力和责任心，就能在家为客户提供优质的售后服务。此外，淘宝客服兼职时间灵活，可以根据孕妇的身体状况和宝宝作息进行调整。至于我为何用这款氧券app，当然是氧券
【Anaconda】Conda 虚拟环境打包迁移教程 Kaydeon conda python 人工智能 pytorch
Conda虚拟环境打包迁移教程本文介绍如何使用conda-pack将Conda虚拟环境打包，并在另一台电脑上快速迁移、部署。0.安装conda-packconda-pack并非Conda默认自带工具，首次使用前必须手动安装。以下两种安装方式任选其一即可：✅方法A：使用Conda安装condainstall-cconda-forgeconda-pack✅方法B：使用pip安装pipinstallco
刀神传说：第87章梁秀篇（1）刀神传说
两个月后。“此身合是诗人未？细雨骑驴入剑门。”剑门关天下奇险，双翼插天，群峰环立，真是“剑阁峥嵘而崔嵬，一夫当关，万夫莫开。”出剑门。梁秀、阮闲、刘零、山滔四人走在古柏夹道上。刘零开口道：“山老爷，刀神李流水据说武功天下第一，我不服！”山滔眼神茫然，抚着稀稀疏疏的白须，有气无力道：“为啥不服？”刘零大声道：“江湖中卧虎藏龙，学武之人千千万万，难道他都比试过？”阮闲附和：“真人不露相，露相不真人。我
重磅！TDengine 入选 2024 中国物联网创新产品榜
在全球数字化浪潮和#AI技术驱动下，#物联网产业正经历新一轮革新升级。面对跨境合规、本地化需求多样、技术标准差异等挑战，如何以更高效、更智能的方式推动#物联网数据价值释放，成为行业共同关注的课题。近日，在2025中国物联网企业出海与创新发展峰会暨“2024物联之星”年度榜单颁奖典礼上，#TDengine凭借在#时序数据管理领域的持续突破，荣登“2024年度中国物联网行业创新产品榜”。作为物联网领域
OEC 刷机Armbain 25.05后配置说明
DHCP调整为固定IPnano/etc/netplan/00-default-use-network-manager.yaml#AddedbyArmbian##Reference:https://netplan.readthedocs.io/en/stable/netplan-yaml/##LetNetworkManagermanagealldevicesonthissystem.#Anydevi
PD分离技术分析老兵发新帖人工智能
PD分离中的“PD”指的是大语言模型（LLM）推理过程中的两个核心阶段：Prefill（预填充）和Decode（解码）。这两个阶段在计算特性和资源需求上存在显著差异，分离部署可优化整体性能。以下是详细解析：一、PD的具体含义Prefill（预填充阶段）任务：处理用户输入的整个提示（Prompt），为所有Token生成初始的键值缓存（KVCache）和隐藏状态（HiddenStates）。特性：计算
矩阵求逆（JAVA）利用伴随矩阵 qiuwanchi 利用伴随矩阵求逆矩阵
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(利用伴随矩阵) * @author 邱万迟
单例（Singleton）模式 aoyouzi 单例模式 Singleton
3.1 概述如果要保证系统里一个类最多只能存在一个实例时，我们就需要单例模式。这种情况在我们应用中经常碰到，例如缓存池，数据库连接池，线程池，一些应用服务实例等。在多线程环境中，为了保证实例的唯一性其实并不简单，这章将和读者一起探讨如何实现单例模式。 3.2
[开源与自主研发]就算可以轻易获得外部技术支持,自己也必须研发 comsci 开源
现在国内有大量的信息技术产品，都是通过盗版，免费下载，开源，附送等方式从国外的开发者那里获得的。。。。。。虽然这种情况带来了国内信息产业的短暂繁荣，也促进了电子商务和互联网产业的快速发展，但是实际上，我们应该清醒的看到，这些产业的核心力量是被国外的
页面有两个frame,怎样点击一个的链接改变另一个的内容 Array_06 UI XHTML
<a src="地址" targets="这里写你要操作的Frame的名字" />搜索然后你点击连接以后你的新页面就会显示在你设置的Frame名字的框那里 targerts="",就是你要填写目标的显示页面位置 ===================== 例如： <frame src=&
Struts2实现单个/多个文件上传和下载 oloz 文件上传 struts
struts2单文件上传：步骤01:jsp页面  　　<form action="fileUplo
推荐10个在线logo设计网站 362217990 logo
在线设计Logo网站。 1、http://flickr.nosv.org（这个太简单） 2、http://www.logomaker.com/?source=1.5770.1 3、http://www.simwebsol.com/ImageTool 4、http://www.logogenerator.com/logo.php?nal=1&tpl_catlist[]=2 5、ht
jsp上传文件香水浓 jsp fileupload
1. jsp上传 Notice： 1. form表单 method 属性必须设置为 POST 方法，不能使用 GET 方法 2. form表单 enctype 属性需要设置为 multipart/form-data 3. form表单 action 属性需要设置为提交到后台处理文件上传的jsp文件地址或者servlet地址。例如 uploadFile.jsp 程序文件用来处理上传的文
我的架构经验系列文章 - 前端架构 agevs JavaScript Web 框架 UI jQuer
框架层面：近几年前端发展很快，前端之所以叫前端因为前端是已经可以独立成为一种职业了，js也不再是十年前的玩具了，以前富客户端RIA的应用可能会用flash/flex或是silverlight，现在可以使用js来完成大部分的功能，因此js作为一门前端的支撑语言也不仅仅是进行的简单的编码，越来越多框架性的东西出现了。越来越多的开发模式转变为后端只是吐json的数据源，而前端做所有UI的事情。MVCMV
android ksoap2 中把XML(DataSet) 当做参数传递 aijuans android
我的android app中需要发送webservice ，于是我使用了 ksop2 进行发送，在测试过程中不是很顺利,不能正常工作.我的web service 请求格式如下 [html] view plain copy <Envelope xmlns="http://schemas.
使用Spring进行统一日志管理 + 统一异常管理 baalwolf spring
统一日志和异常管理配置好后，SSH项目中，代码以往散落的log.info() 和 try..catch..finally 再也不见踪影！统一日志异常实现类： [java] view plain copy package com.pilelot.web.util; impor
Android SDK 国内镜像 BigBird2012 android sdk
一、镜像地址： 1、东软信息学院的 Android SDK 镜像，比配置代理下载快多了。配置地址， http://mirrors.neusoft.edu.cn/configurations.we#android 2、北京化工大学的： IPV4:ubuntu.buct.edu.cn IPV4:ubuntu.buct.cn IPV6:ubuntu.buct6.edu.cn
HTML无害化和Sanitize模块 bijian1013 JavaScript AngularJS Linky Sanitize
一.ng-bind-html、ng-bind-html-unsafe AngularJS非常注重安全方面的问题，它会尽一切可能把大多数攻击手段最小化。其中一个攻击手段是向你的web页面里注入不安全的HTML，然后利用它触发跨站攻击或者注入攻击。考虑这样一个例子，假设我们有一个变量存
[Maven学习笔记二]Maven命令 bit1129 maven
mvn compile compile编译命令将src/main/java和src/main/resources中的代码和配置文件编译到target/classes中，不会对src/test/java中的测试类进行编译 MVN编译使用 maven-resources-plugin:2.6:resources maven-compiler-plugin:2.5.1:compile &nbs
【Java命令二】jhat bit1129 Java命令
jhat用于分析使用jmap dump的文件，，可以将堆中的对象以html的形式显示出来，包括对象的数量，大小等等，并支持对象查询语言。 jhat默认开启监听端口7000的HTTP服务，jhat是Java Heap Analysis Tool的缩写 1. 用法： [hadoop@hadoop bin]$ jhat -help Usage: jhat [-stack <bool&g
JBoss 5.1.0 GA:Error installing to Instantiated: name=AttachmentStore state=Desc ronin47
进到类似目录 server/default/conf/bootstrap，打开文件 profile.xml找到： Xml代码<bean name="AttachmentStore" class="org.jboss.system.server.profileservice.repository.AbstractAtta
写给初学者的6条网页设计安全配色指南 brotherlamp UI ui自学 ui视频 ui教程 ui资料
网页设计中最基本的原则之一是，不管你花多长时间创造一个华丽的设计，其最终的角色都是这场秀中真正的明星——内容的衬托我仍然清楚地记得我最早的一次美术课，那时我还是一个小小的、对凡事都充满渴望的孩子，我摆放出一大堆漂亮的彩色颜料。我仍然记得当我第一次看到原色与另一种颜色混合变成第二种颜色时的那种兴奋，并且我想，既然两种颜色能创造出一种全新的美丽色彩，那所有颜色
有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。写一个函数实现。复杂度是什么。 bylijinnan java 算法面试
import java.util.Random; import java.util.Set; import java.util.TreeSet; /** * http://weibo.com/1915548291/z7HtOF4sx * #面试题#有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。 * 写一个函数实现。复杂度是什么
struts2获得request、session、application方式 chiangfai application
1、与Servlet API解耦的访问方式。 a.Struts2对HttpServletRequest、HttpSession、ServletContext进行了封装，构造了三个Map对象来替代这三种对象要获取这三个Map对象，使用ActionContext类。 -----> package pro.action; import java.util.Map; imp
改变python的默认语言设置 chenchao051 python
import sys sys.getdefaultencoding() 可以测试出默认语言，要改变的话，需要在python lib的site-packages文件夹下新建： sitecustomize.py，这个文件比较特殊，会在python启动时来加载，所以就可以在里面写上： import sys sys.setdefaultencoding('utf-8') &n
mysql导入数据load data infile用法 daizj mysql 导入数据
我们常常导入数据！mysql有一个高效导入方法，那就是load data infile 下面来看案例说明基本语法： load data [low_priority] [local] infile 'file_name txt' [replace | ignore] into table tbl_name [fields [terminated by't'] [OPTI
phpexcel导入excel表到数据库简单入门示例 dcj3sjt126com PHP Excel
跟导出相对应的，同一个数据表，也是将phpexcel类放在class目录下，将Excel表格中的内容读取出来放到数据库中 <?php error_reporting(E_ALL); set_time_limit(0); ?> <html> <head> <meta http-equiv="Content-Type"
22岁到72岁的男人对女人的要求 dcj3sjt126com
22岁男人对女人的要求是：一，美丽，二，性感，三，有份具品味的职业，四，极有耐性，善解人意，五，该聪明的时候聪明，六，作小鸟依人状时尽量自然，七，怎样穿都好看，八，懂得适当地撒娇，九，虽作惊喜反应，但看起来自然，十，上了床就是个无条件荡妇。 32岁的男人对女人的要求，略作修定，是：一，入得厨房，进得睡房，二，不必服侍皇太后，三，不介意浪漫蜡烛配盒饭，四，听多过说，五，不再傻笑，六，懂得独
Spring和HIbernate对DDM设计的支持 e200702084 DAO 设计模式 spring Hibernate 领域模型
A：数据访问对象 DAO和资源库在领域驱动设计中都很重要。DAO是关系型数据库和应用之间的契约。它封装了Web应用中的数据库CRUD操作细节。另一方面，资源库是一个独立的抽象，它与DAO进行交互，并提供到领域模型的“业务接口”。资源库使用领域的通用语言，处理所有必要的DAO，并使用领域理解的语言提供对领域模型的数据访问服务。
NoSql 数据库的特性比较 geeksun NoSQL
Redis 是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。目前由VMware主持开发工作。 1. 数据模型作为Key-value型数据库，Redis也提供了键（Key）和值（Value）的映射关系。除了常规的数值或字符串，Redis的键值还可以是以下形式之一： Lists （列表） Sets
使用 Nginx Upload Module 实现上传文件功能 hongtoushizi nginx
转载自： http://www.tuicool.com/wx/aUrAzm 普通网站在实现文件上传功能的时候，一般是使用Python，Java等后端程序实现，比较麻烦。Nginx有一个Upload模块，可以非常简单的实现文件上传功能。此模块的原理是先把用户上传的文件保存到临时文件，然后在交由后台页面处理，并且把文件的原名，上传后的名称，文件类型，文件大小set到页面。下
spring-boot-web-ui及thymeleaf基本使用 jishiweili spring thymeleaf
视图控制层代码demo如下： @Controller @RequestMapping("/") public class MessageController { private final MessageRepository messageRepository; @Autowired public MessageController(Mes
数据源架构模式之活动记录 home198979 PHP 架构活动记录数据映射
hello!架构一、概念活动记录（Active Record）：一个对象，它包装数据库表或视图中某一行，封装数据库访问，并在这些数据上增加了领域逻辑。对象既有数据又有行为。活动记录使用直截了当的方法，把数据访问逻辑置于领域对象中。二、实现简单活动记录活动记录在php许多框架中都有应用，如cakephp。 <?php /** * 行数据入口类 *
Linux Shell脚本之自动修改IP pda158 linux centos Debian 脚本
作为一名 Linux SA，日常运维中很多地方都会用到脚本，而服务器的ip一般采用静态ip或者MAC绑定，当然后者比较操作起来相对繁琐，而前者我们可以设置主机名、ip信息、网关等配置。修改成特定的主机名在维护和管理方面也比较方便。如下脚本用途为：修改ip和主机名等相关信息，可以根据实际需求修改，举一反三！ #!/bin/sh #auto Change ip netmask ga
开发环境搭建独浮云 eclipse jdk tomcat
最近在开发过程中，经常出现MyEclipse内存溢出等错误，需要重启的情况，好麻烦。对于一般的JAVA+TOMCAT项目开发，其实没有必要使用重量级的MyEclipse，使用eclipse就足够了。尤其是开发机器硬件配置一般的人。 &n