新缸中之脑

用合成数据训练车辆姿态估计神经网络

我们的客户希望开发一款应用程序，引导用户通过 AR 指南和自动照片拍摄来拍摄更高质量的汽车照片。本文重点介绍构建汽车姿态估计组件的技术。在应用程序中，用户被引导站在与汽车一定的角度和距离，以标准化的方式捕捉最好的照片。当用户处于正确位置时，会自动拍摄高分辨率照片。

推荐：用 NSDT编辑器快速搭建可编程3D场景

我们需要一种方法来大致了解用户在 3D 空间中相对于他们正在拍摄的汽车的站立位置。由于这是一个原型应用程序，我们只有几周的时间来提出可行的解决方案。我们还限制了对特定车型的识别，以缩短开发时间。

项目的目标和限制如下：

构建可行解决方案的时间很短
大致实时的汽车姿态估计（< 150 ms）
将范围限制为具有不同颜色/选项的特定车型
应用程序应拍摄高质量的照片

1、在构建之前的尝试

希望为 3D 物体姿态估计找到一个快速的现成解决方案，我们测试了几种方法。

1.1 Apple ARKit 3d 物体识别

ARKit 物体识别 — 物体扫描应用

ARKit 包含用于扫描和识别 ARKit 中的刚性 3D 对象的 API。这对我们来说似乎很理想；实时且内置于 ARKit 中，这将使该功能的开发时间缩短为零。我们这里主要关心的是识别不同的汽车颜色。为了测试 ARKit 对此的处理效果，我们购买了一辆具有几种不同颜色的小型模型车。

测试用模型车

我们扫描一种颜色，然后在类似的颜色上进行测试（即扫描白色，在浅蓝色上进行测试。）在某些情况下，识别确实有效。它并不完美，但也许如果我们扫描一些基色，这将提供足够的不变性来识别我们可能期望看到的汽车的任何颜色。

下一步是在真车上进行尝试。事实证明，真正的汽车的行为有点不同。即使在同一辆车上进行扫描和测试也是不可靠的。有时，识别出的汽车会以某种方式稍微旋转/平移。我们的猜测是，汽车上的高反光油漆工作使得基于特征的扫描和识别很难发挥作用（Apple 在其文档中特别提到反光物体不适合 3D 识别。）

1.2 第三方 SDK

我们测试了其他一些 SDK，并得到了与 ARKit 类似的结果。一些库需要特定的“初始化模板”或用户需要匹配的位置才能启动 3D 对象跟踪。这并不理想，因为我们想要引导用户到某些位置，因此识别需要从各种角度/位置进行。

1.3 照片质量

ARKit 和我们尝试的 SDK 的另一个缺点是使用它们时拍摄的照片的质量和分辨率。使用 ARKit 时可捕获的最高分辨率为 1920x1440。使用 ARKit 时，对焦点和曝光的控制也非常有限。由于该应用程序主要用于拍摄高质量的汽车照片，因此除了大图像分辨率之外，我们还希望对焦点和曝光进行精细控制。

2、构建基于神经网络的姿态估计器

人体姿态估计

鉴于我们使用第三方解决方案不成功，再加上照片质量限制，我们决定考虑构建自己的解决方案，与 Apple 的 AVFoundation 相机 API 一起使用。我们选择神经网络解决方案，因为它们是姿势估计的最先进技术，并且有很多开源项目和研究可供利用。

2.1 姿态估计方法

给定图像，我们如何预测图像中物体的 3D 姿态？一种常见的方法涉及预测对象规范模型上一组已知点的图像位置。例如，给定一张汽车照片，图像中的左侧前灯在哪里？有了足够的这些预测，我们就可以估计原始汽车模型相对于拍照相机的 3D 姿态。

2.2 网络架构

如今，神经网络在各种任务上都表现出了令人印象深刻的准确性，而且由于网络架构的改进和更快的设备，神经网络也能够在移动设备上实时运行。

最近我们研究了一些基于 CPM 和堆叠沙漏架构的实时移动身体姿势估计项目。

PoseEstimationForMobile：github
PoseEstimation-CoreML：github

这些项目包含许多有用的信息，可用于在移动平台上训练和运行你自己的姿势估计器。

他们使用的 CPM 网络有一个 MobileNetV2 基础，并为 14 个身体部位（左肘、右膝等）输出一个 2d 热图：

不同身体部位的热图

从这里，我们基本上可以获取每个关键点层的最大激活位置，然后使用 OpenCV 的 SolvePnP 方法估计 3d 汽车姿势。这是我们在真实汽车照片上运行的最终神经网络的可视化，以及估计的 3D 姿势。由于输出热图的分辨率有限，这并不是一个完美的选择。我们的模型输出分辨率为 192x192 的热图，因此单次传递的准确度是有限的。

模型的最终输出

3、其他方法和资源

我们采用 CPM 来快速启动和运行，但还有其他方法可以解决这个问题。另一种基于关键点的方法是直接将 2d 关键点输出为 x,y 坐标列表。这确实限制了我们对单一汽车的估计，但对于我们的用例来说这是可以的。

灵感来自Hart Woolery 的关于手部姿势估计的帖子中，我们测试了简单地在 MobileNet 之上添加一些密集层，最终输出一组 1x28 的 x,y 关键点位置。令人惊讶的是，这个开箱即用的效果非常好。如果有更多时间，我们可能会进一步探索该网络，因为它比我们选择的 CPM 模型稍快。

如果您只是在寻找人体姿势估计，请查看Jameson Toole最近的关于 fritz.ai 人体姿势估计器的文章。

另一种方法是网络直接输出汽车的位姿参数，而不是通过中间的 2d 关键点（参见 BoxCars 、 MultiBin ）。由于时间紧迫，我们没有严格评估我们可以采取的每一个方向——但这些其他方法似乎完全有效。

4、查找汽车数据集

选择网络架构后，下一步是找到可用于训练它的数据集。

用于身体姿势估计的数据集并不缺乏（COCO、DensePose、MPII、身体姿势数据集概述），但带注释的汽车数据不太常见。存在一些数据集（Apollo、PASCAL 3d+），但每个数据集似乎都有其自己的局限性。大多数数据集都是针对自动驾驶汽车的，因此来自街道上行驶的汽车视角的图像存在很大的偏差——这与我们期望网络处理的图像有很大不同。

PASCAL 3D 具有 3D 汽车模型标注，但这些汽车通常是从互联网照片中收集的更旧的模型。由于我们提前知道了汽车模型，因此没有必要对数千个其他模型进行训练（尽管我们希望有更多时间扩展我们的网络以识别更多汽车模型。）最后，一些数据集具有非商业许可限制。鉴于这些缺点，我们探索了合成数据，将其作为直接根据我们预期的测试环境定制数据的方法。

5、创建合成汽车数据集

Unity 编辑器截图

当生成许多机器学习方法所需的大量训练数据不可能或不切实际时，合成数据就会派上用场。感谢视频游戏行业，我们可以利用 Unity 或 Unreal 等图形引擎进行渲染，并使用最初为游戏开发的 3D 资源。虽然我们还无法获得光线追踪方法的渲染质量，但示例代码的速度和数量以及免费/廉价的资源使其非常有吸引力。 Unity 是我们的选择，因为我们有更多的经验，而且时间也是一个因素。

使用 Unity 合成数据的示例

Unity 甚至发布了一个方便的演示项目，其中包含一些有关合成数据的常见需求。我们最近还就使用 SceneKit 为 AR 足球比赛训练脚部分割网络进行了简短的演讲。

6、查找车辆模型

幸运的是，有很多高质量的 3D 汽车模型。对于非常高质量的模型，您可能需要支付几百美元（请参阅 squir ），但是可以直接从 Unity 资产商店获得许多便宜或免费的模型：

https://assetstore.unity.com/categories/3d/vehicles/land

我们收集了大约 10 个形状与我们的目标模型相似的汽车模型，以及我们正在测试的确切汽车的两个变体。

如果你手头有目标对象的3D模型，但是需要转换成3D游戏引擎需要的格式，那么可以直接使用 NSDT 3DConvert 这个强大的在线3D格式转换工具，无需本地安装任何软件：

https://3dconvert.nsdt.cloud

7、数据标注

模型准备好后，下一步就是标注我们正在训练网络识别的关键点。由于身体姿势网络有 14 个关键点，这似乎是一个合理的起点，因为它将减少对现有训练流程的任何修改。此步骤需要创建 14 个空游戏对象并为每个车辆模型定位它们：

车辆的14个关键点

通过命名每个关键点游戏对象（例如 left_back_wheel ），在渲染过程中，我们可以在保存标注数据时简单地在汽车游戏对象中搜索每个关键点。我们还选择使用深度测试来存储该视点的关键点是否被遮挡，但这最终并没有在训练中使用。

8、在数据集中创建变体

对合成数据进行训练时的一个大问题是模型是否能够推广到现实世界的图像。这是一个活跃且不断发展的研究领域，有许多有趣的方法。 Apple 的机器学习团队发布了一篇有趣的文章，介绍如何使用 GAN 提高合成眼睛图像的真实感。我们选择的方法称为域随机化。通过在训练数据分布中创建大量变化，模型应该概括为目标（现实世界）分布，而无需任何微调。

为了实现这一目标，我们尝试在渲染图像之前尽可能多地随机化场景的各个方面。前面的一个主要问题是网络将学会拾取 3D 汽车模型上的一些小细节，而这些细节不能推广到真实汽车的照片。有一个经常被提及（可能不真实）的轶事是关于研究人员训练坦克探测器，该探测器只是了解训练集中的坦克在一天中的什么时间被拍照。无论这个例子是否正确，当你的训练和测试集来自不同的分布时，需要注意确保转移到新数据。

8.1 车辆变体

对于每种汽车模型，我们花了一些时间在车身上创建可编写脚本的小细节变化。例如油漆反射率、车牌位置和编号、车窗色调、汽车轮辋样式和位置以及其他一些内容。我们还沿着汽车的局部轴稍微缩放了汽车本身。

仅车身变体的渲染图

不同的轮胎选择

8.2 环境/背景变化

最初，我们开始构建和购买一些包含建筑物和真实 3D 结构的场景。事实证明，寻找高质量的逼真场景非常困难，而且成本高昂且耗时。幸运的是，我们发现了一个很棒的网站，hdrihaven.com，它提供了非常高分辨率的免费环境地图。这些本质上是 360 HDR 全景图，在几何体后面进行渲染，并可以为场景中的对象提供照明和反射。我们还通过渲染脚本以参数方式改变反射和曝光强度。

来自 HDRI Haven 的环境贴图

除了天空盒之外，我们还创建了一个简单的平面作为汽车下方的地板。在地板上应用不同的材料并偶尔将它们隐藏在一起可以提供很多视觉多样性：

场景和灯光变化

8.3 后期处理效果

Unity 有一个名为“后期处理栈”的功能，它基本上是 3D 场景的 Instagram 滤镜。这些效果可能包括模糊、颜色分级等。你可以通过包管理器或资源商店将其添加到场景中，具体取决于Unity 版本。

除了内置的后期处理栈之外，我们还从资产商店下载了另一组名为 SC Post Effects Pack 的滤镜，价格为 25 美元。以下是一些仅改变后处理滤镜组合的渲染：

后期处理滤波器的变化

影响是微妙的，可能很难发现。这里看到的一些是景深、噪点、云阴影、环境光遮挡、边缘高光、色调偏移和黑条。对于每一个，我们还随机调整参数以获得更多变化。

8.4 把它们整合在一起

应用所有的变化，我们最终得到像这样的图像：

启用所有变体的渲染

尽管这些看起来不像真实的街道场景，但背景和照明的多种变化应该迫使网络捕捉到所有照片中保持不变的汽车特征。如果我们只使用街道场景，我们的检测器可能会将街道场景的各个方面纳入其特征中；期望某些阴影和照明特征始终伴随着汽车本身。

9、创建小型验证数据集

用Python编写的标注工具

我们对数据集偏差的担忧导致我们使用 3D 关键点手动标注一些汽车的实际图像。手动逐一标注 14 个关键点相当耗时 - 特别是对于被遮挡的关键点。

为了加快速度，我们构建了一个非常基本的 wxPython 应用程序，只需要为每个图像标记几个关键点。为此，我们使用 OpenCV 的 SolvePnP 来拟合给定这些初始关键点的 3D 汽车模型，然后将其他关键点投影到图像中。

标注完成后，我们使用 imgaug 库应用随机图像增强。值得庆幸的是，imgaug 支持将 2d 关键点与图像一起变换，因此你不必手动变换点位置。增强后，我们有大约 1500 张图像来验证我们的网络。

10、合成数据有效吗？

对于我们的一小部分已知汽车模型的用例，我们对第一轮的结果非常满意。我们的假设是我们需要将更多真实图像纳入训练中，或者更多地依赖迁移学习，但我们最终不需要这样做。即使在相当广泛的汽车上进行测试，仍然可以得到合理的结果

正如你在这个视频中看到的那样。 3D 模型拟合不适用于其他汽车形状，因为我们将刚性 3D 对象拟合到另一辆不同尺寸的汽车上。有关于在给定关键点上拟合灵活的参数化汽车模型的文献，因此我们可能会研究更通用的汽车检测器。

11、实现代码

我们的计划是，如果我们有时间清理管线并在更多车型上进行徐连，则将发布管线的某些方面。

现在，我们已经提供了一个演示 iOS 应用程序的代码，该应用程序使用 ARKit 显示估计的汽车姿势。请记住，该模型是在固定视点范围和汽车模型上进行训练的。

原文链接：合成数据训练车辆姿态估计 — BimAnt

【优秀文章】7月优秀文章推荐
优秀文章智能自主运动体与人工智能技术——环境感知、SLAM定位、路径规划、运动控制、多智能体协同作者：fpga和matlabC++之红黑树认识与实现作者：zzh_zao【手把手带你刷好题】–C语言基础编程题(十)作者：草莓熊Lotso飞算JavaAI：从“码农”到“代码指挥官”的终极进化论作者：可涵不会debug前端网页开发学习（HTML+CSS+JS）有这一篇就够！作者：一颗小谷粒
蛋白质结构预测/功能注释/交互识别/按需设计，中国海洋大学张树刚团队直击蛋白质智能计算核心任务 hyperai
蛋白质作为生命活动的主要承担者，在人体生理功能中扮演关键角色。然而传统研究面临结构解析成本高昂、功能注释严重滞后、新型蛋白质设计效率低下等挑战。近年来，生命科学对蛋白质复杂特性解析的需求日益迫切，大数据、深度学习、多模态计算等技术的突破性发展，为构建蛋白质智能计算体系提供了全新的发展契机。蛋白质智能计算体系的构建，使得蛋白质在大规模功能注释、交互预测及三维结构建模等领域取得显著成果，为药物发现与生
【心灵鸡汤】深度学习技能形成树：从零基础到AI专家的成长路径全解析智算菩萨人工智能深度学习
引言：技能树的生长哲学在这个人工智能浪潮汹涌的时代，深度学习犹如一棵参天大树，其根系深深扎入数学与计算科学的沃土，主干挺拔地承载着机器学习的核心理念，而枝叶则繁茂地延伸至计算机视觉、自然语言处理、强化学习等各个应用领域。对于初入此领域的新手而言，理解这棵技能树的生长规律，掌握其形成过程中的关键节点和发展阶段，将直接决定其在人工智能道路上能够走多远、攀多高。技能树的概念源于游戏设计，但在学习深度学习
MongoDB + Voyage AI 详解：重塑数据库与AI的协同范式 csdn_tom_168 NoSQL 数据库 mongodb 人工智能 AI
MongoDB+VoyageAI详解：重塑数据库与AI的协同范式2025年2月，MongoDB官方宣布收购VoyageAI，这一举措标志着数据库与人工智能技术的深度融合迈入新阶段。通过整合VoyageAI的先进AI检索与嵌入模型能力，MongoDB旨在重新定义AI时代的数据库架构，为企业构建智能应用提供端到端的数据基础设施。一、收购背景与技术战略1.行业趋势驱动AI数据挑战：随着生成式AI与大语言
HarmonyOS5.0仓颉引擎与盘古大模型：个性化作业批改系统架构设计与实现 H老师带你学鸿蒙系统架构 HarmonyOS5.0 鸿蒙华为仓颉教育
人工智能与边缘计算的融合正在重塑教育评价体系。本文将展示如何基于HarmonyOS5.0仓颉并发引擎和盘古大模型，构建新一代智能作业批改系统。系统架构全景graphTDA[学生端设备]-->|提交作业|B[仓颉边缘处理]B-->C[盘古大模型分析]C-->D[个性化反馈生成]D-->E[学生终端]D-->F[教师仪表盘]subgraphHarmonyOS分布式系统B-->|设备协同|G[教室平板集
反向传播神经网络极简入门自信哥
单个神经元神经网络是多个“神经元”（感知机）的带权级联，神经网络算法可以提供非线性的复杂模型，它有两个参数：权值矩阵{Wl}和偏置向量{bl}，不同于感知机的单一向量形式，{Wl}是复数个矩阵，{bl}是复数个向量，其中的元素分别属于单个层，而每个层的组成单元，就是神经元。神经元神经网络是由多个“神经元”（感知机）组成的，每个神经元图示如下：这其实就是一个单层感知机，其输入是由和+1组成的向量，其
1.线性神经网络--线性回归温柔济沧海深度学习神经网络线性回归 python
1.1从零实现线性回归importrandomimporttorch#fromd2limporttorchasd2limportmatplotlib.pyplotaspltdeftrain_data_make(batch_size,X,y):num_examples=len(X)idx=list(range(num_examples))#生成0-999random.shuffle(idx)#样本需
阿里云瑶池数据库 Data Agent for Meta 正式发布，让 AI 更懂你的业务！数据库观点资讯人工智能
背景随着生成式人工智能（GenerativeAI）从概念验证迈向规模化商业落地，AIAgent已成为企业核心业务流程的重要组成部分。然而，当模型调用日益便捷时，核心痛点已不再是模型本身，而是集中在一个关键要素上：数据。AIAgent的落地瓶颈已从技术能力转向高质量、高相关性、安全合规的数据供给。企业面临的核心挑战在于：数据孤岛导致知识库分散，通用大模型难以理解专业业务传统数据管理依赖人工开发维护，
【TVM 教程】如何处理 TVM 报错
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/运行TVM时，可能会遇到如下报错：---------------------------------------------------------------AnerroroccurredduringtheexecutionofTVM.F
【PaddleOCR】OCR文本检测与文本识别数据集整理，持续更新......
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
跨平台ZeroMQ：在Rust中使用zmq库的完整指南涵树_fx 架构设计 Rust 实战 rust 开发语言后端
“消息就像神经元间的电信号，而ZeroMQ就是那个让系统思考的神经网络”——某个深夜调试zmq的程序员当你需要轻量级、高性能的进程间通信时，ZeroMQ就像代码世界里的瑞士军刀。今天我们一起探索如何在Rust生态中使用这把利器，感受它如何在不同操作系统间架起通信的桥梁。安装ZeroMQ：三大操作系统的通关秘籍Linux(Debian/Ubuntu)sudoaptupdatesudoaptinsta
多模态大模型的技术应用与未来展望：重构AI交互范式的新引擎 zhaoyi_he 重构人工智能
一、引言：为什么多模态是AI发展的下一场革命？过去十年，深度学习推动了计算机视觉和自然语言处理的飞跃，但两者的发展路径长期割裂。随着生成式AI和大模型时代的到来，**多模态大模型（MultimodalFoundationModels）**以统一的建模方式处理图像、文本、音频、视频等多源数据，重塑了“感知-认知-决策”链条，为AGI迈出关键一步。OpenAI的GPT-4o、Google的Gemini
使用 C++ 实现 MFCC 特征提取与说话人识别系统 whoarethenext c++开发语言 mfcc 语音识别
使用C++实现MFCC特征提取与说话人识别系统在音频处理和人工智能领域，C++凭借其卓越的性能和对硬件的底层控制能力，在实时音频分析、嵌入式设备和高性能计算场景中占据着不可或缺的地位。本文将引导你了解如何使用C++库计算核心的音频特征——梅尔频率倒谱系数(MFCCs)，并进一步利用这些特征构建一个说话人识别（声纹识别）系统。Part1:在C/C++中计算MFCCs直接从零开始实现MFCC的所有计算
ImportError: /nvidia/cusparse/lib/libcusparse.so.12: undefined symbol: __nvJitLinkComplete_12_4 爱编程的喵喵 Python基础课程 python ImportError torch nvJitLink 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了ImportError:/home/
【机器学习笔记Ⅰ】13 正则化代价函数
正则化代价函数（RegularizedCostFunction）详解正则化代价函数是机器学习中用于防止模型过拟合的核心技术，通过在原始代价函数中添加惩罚项，约束模型参数的大小，从而提高泛化能力。以下是系统化的解析：1.为什么需要正则化？过拟合问题：当模型过于复杂（如高阶多项式回归、深度神经网络）时，可能完美拟合训练数据但泛化性能差。解决方案：在代价函数中增加对参数的惩罚，抑制不重要的特征权重。2.
【机器学习&深度学习】多分类评估策略一叶千舟深度学习【理论】深度学习【应用必备常识】大数据人工智能
目录前言一、多分类3大策略✅宏平均（MacroAverage）✅加权平均（WeightedAverage）✅微平均（MicroAverage）二、类比理解2.1宏平均（MacroAverage）2.1.1计算方式2.1.2适合场景2.1.3宏平均不适用的场景2.1.4宏平均一般用在哪些指标上？2.1.5怎么看macroavg指标？2.1.6宏平均值低说明了什么？2.1.7从宏平均指标中定位模型短板
网络安全相关专业总结（非常详细）零基础入门到精通，收藏这一篇就够了网络安全工程师教学兼职副业黑客技术网络安全 web安全安全人工智能网络运维
一、网络工程专业专业内涵网络工程是指按计划进行的以工程化的思想、方式、方法，设计、研发和解决网络系统问题的工程，一般指计算机网络系统的开发与构建。该专业培养具备计算机科学与技术学科理论基础，掌握网络技术领域专业知识和基本技能，在计算机、网络及人工智能领域的工程实践和应用方面受到良好训练，具有深厚通信背景、可持续发展、能力较强的高水平工程技术人才。学生可在计算机软硬件系统、互联网、移动互联网及新一代
大语言模型应用指南：ReAct 框架 AI大模型应用实战 java python javascript kotlin golang 架构人工智能
大语言模型应用指南：ReAct框架关键词：大语言模型,ReAct框架,自然语言处理(NLP),模型融合,多模态学习,深度学习,深度学习框架1.背景介绍1.1问题由来近年来，深度学习技术在自然语言处理(NLP)领域取得了显著进展。尤其是大语言模型(LargeLanguageModels,LLMs)，如BERT、GPT系列等，通过在大规模无标签数据上进行预训练，获得了强大的语言理解和生成能力。然而，预
PyTorch 的 torch.nn 模块学习
torch.nn是PyTorch中专门用于构建和训练神经网络的模块。它的整体架构分为几个主要部分，每部分的原理、要点和使用场景如下：1.nn.Module原理和要点：nn.Module是所有神经网络组件的基类。任何神经网络模型都应该继承nn.Module，并实现其forward方法。使用场景：用于定义和管理神经网络模型，包括层、损失函数和自定义的前向传播逻辑。主要API和使用场景：__init__
大语言模型原理基础与前沿基于语言反馈进行微调 AI天才研究院计算 AI大模型企业级应用开发实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理基础与前沿基于语言反馈进行微调作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习技术的飞速发展，自然语言处理（NLP）领域取得了显著的进展。大语言模型（LargeLanguageModels，LLMs）如GPT-3、BERT等在各项NLP任务上取得了令人瞩目的成绩。然而，如何进一步提高大语言模型的理
《北京市加快推动“人工智能+医药健康“创新发展行动计划（2025-2027年）》深度解读
引言随着新一轮科技革命和产业变革的深入推进，人工智能技术与医药健康的深度融合已成为全球科技创新的重要方向。北京市于2025年7月正式发布《北京市加快推动"人工智能+医药健康"创新发展行动计划（2025-2027年）》，旨在充分发挥北京在人工智能技术策源、头部医疗资源汇聚、健康数据高度富集等方面的突出优势，构建形成"人工智能+医药健康"创新和应用并举的产业生态体系，打造具有国际影响力的创新策源地、应
李宏毅2025《机器学习》第四讲-Transformer架构的演进
Transformer架构的演进与替代方案：从RNN到Mamba的技术思辨Transformer作为当前AI领域的标准架构，其设计并非凭空而来，也并非没有缺点。本次讨论的核心便是：新兴的架构，如MAMA，是如何针对Transformer的弱点进行改进，并试图提供一个更优的解决方案的。要理解架构的演进，我们必须首先明确一个核心原则：每一种神经网络架构，都有其存在的技术理由。CNN（卷积神经网络）：为
「源力觉醒创作者计划」_文心大模型开源：开启 AI 新时代的大门小黄编程快乐屋人工智能
在人工智能的浩瀚星空中，大模型技术宛如一颗璀璨的巨星，照亮了无数行业前行的道路。自诞生以来，大模型凭借其强大的语言理解与生成能力，引发了全球范围内的技术变革与创新浪潮。百度宣布于6月30日开源文心大模型4.5系列，这一消息如同一颗重磅炸弹，在AI领域掀起了惊涛骇浪，其影响之深远，意义之重大，足以改写行业的发展轨迹。百度这次放大招，直接把文心大模型4.5开源了，这操作就像往国内AI圈子里空投了一个超
四种微调技术详解：SFT 监督微调、LoRA 微调、P-tuning v2、Freeze 监督微调方法
当谈到人工智能大语言模型的微调技术时，我们进入了一个令人兴奋的领域。这些大型预训练模型，如GPT-3、BERT和T5，拥有卓越的自然语言处理能力，但要使它们在特定任务上表现出色，就需要进行微调，以使其适应特定的数据和任务需求。在这篇文章中，我们将深入探讨四种不同的人工智能大语言模型微调技术：SFT监督微调、LoRA微调方法、P-tuningv2微调方法和Freeze监督微调方法。第一部分：SFT监
2023年搜索领域的技术认证与职业发展指南搜索引擎技术搜索引擎 ai
2023年搜索领域的技术认证与职业发展指南关键词搜索领域、技术认证、职业发展、搜索引擎技术、人工智能搜索摘要本指南旨在为搜索领域的从业者和有志于进入该领域的人士提供全面的技术认证与职业发展参考。首先介绍搜索领域的概念基础，包括其历史发展和关键问题。接着阐述相关理论框架，分析不同认证背后的原理。架构设计部分展示搜索系统的组成与交互。实现机制探讨算法复杂度和代码优化。实际应用部分给出实施和部署策略。高
探索AI人工智能医疗NLP实体识别系统的架构设计 AI学长带你学AI 人工智能自然语言处理 easyui ai
探索AI人工智能医疗NLP实体识别系统的架构设计关键词：人工智能、医疗NLP、实体识别、系统架构、深度学习、自然语言处理、医疗信息化摘要：本文将深入探讨医疗领域NLP实体识别系统的架构设计。我们将从基础概念出发，逐步解析医疗文本处理的特殊性，详细介绍实体识别技术的核心原理，并通过实际案例展示如何构建一个高效可靠的医疗实体识别系统。文章还将探讨当前技术面临的挑战和未来发展方向，为医疗AI领域的从业者
AI智能体原理及实践：从概念到落地的全链路解析 you的日常人工智能大语言模型人工智能机器学习深度学习神经网络自然语言处理
AI智能体正从实验室走向现实世界，成为连接人类与数字世界的桥梁。它代表了人工智能技术从"知"到"行"的质变，是能自主感知环境、制定决策、执行任务并持续学习的软件系统。在2025年，AI智能体已渗透到智能家居、企业服务、医疗健康、教育和内容创作等领域，展现出强大的生产力与创造力。然而，其发展也伴随着技术挑战、伦理困境和安全风险，需要从架构设计到落地应用的全链条思考与平衡。一、AI智能体的核心定义与技
人工智能动画展示人类的特征 AGI大模型与大数据研究院 AI大模型应用开发实战 java python javascript kotlin golang 架构人工智能
人工智能，动画，人类特征，情感识别，行为模拟，机器学习，深度学习，自然语言处理1.背景介绍人工智能（AI）技术近年来发展迅速，已渗透到生活的方方面面。从智能语音助手到自动驾驶汽车，AI正在改变着我们的世界。然而，尽管AI技术取得了令人瞩目的成就，但它仍然难以完全模拟人类的复杂行为和特征。人类的特征是多方面的，包括情感、认知、社交和创造力等。这些特征是人类区别于其他生物的重要标志，也是人类社会文明发
深度学习篇---简单果实分类网络
下面我将提供一个使用Python从零实现果实分类模型的完整流程，包括数据准备、模型构建、训练和部署，不依赖任何深度学习框架，仅使用NumPy进行数值计算。1.数据准备与预处理首先需要准备果实图像数据集，将其分为好果和坏果两类，并进行预处理：importosimportnumpyasnpfromPILimportImagefromsklearn.model_selectionimporttrain_
Python深度学习：3步实现AI人脸识别，效果堪比专业软件！小筱在线 python 人工智能 python 深度学习
引言：AI人脸识别的时代已经到来在当今数字化时代，人脸识别技术已经从科幻电影走进了我们的日常生活。从手机解锁到机场安检，从银行身份验证到智能门禁系统，这项技术正以前所未有的速度改变着我们的生活方式。而令人振奋的是，借助Python和深度学习技术，普通人也能构建出专业级的人脸识别系统。本文将带领您通过三个关键步骤，使用Python深度学习技术实现一个准确率高达99%的人脸识别系统。这个系统不仅原理简
微信开发者验证接口开发 362217990 微信开发者 token 验证
微信开发者接口验证。 Token，自己随便定义，与微信填写一致就可以了。根据微信接入指南描述 http://mp.weixin.qq.com/wiki/17/2d4265491f12608cd170a95559800f2d.html 第一步：填写服务器配置第二步：验证服务器地址的有效性第三步：依据接口文档实现业务逻辑这里主要讲第二步验证服务器有效性。建一个
一个小编程题-类似约瑟夫环问题 BrokenDreams 编程
今天群友出了一题：一个数列,把第一个元素删除,然后把第二个元素放到数列的最后,依次操作下去,直到把数列中所有的数都删除,要求依次打印出这个过程中删除的数。 &
linux复习笔记之bash shell (5) 关于减号-的作用 eksliang linux关于减号“-”的含义 linux关于减号“-”的用途 linux关于“-”的含义 linux关于减号的含义
转载请出自出处： http://eksliang.iteye.com/blog/2105677 管道命令在bash的连续处理程序中是相当重要的，尤其在使用到前一个命令的studout（标准输出）作为这次的stdin（标准输入）时，就显得太重要了，某些命令需要用到文件名，例如上篇文档的的切割命令（split）、还有
Unix(3) 18289753290 unix ksh
1)若该变量需要在其他子进程执行，则可用"$变量名称"或${变量}累加内容什么是子进程？在我目前这个shell情况下，去打开一个新的shell，新的那个shell就是子进程。一般状态下，父进程的自定义变量是无法在子进程内使用的，但通过export将变量变成环境变量后就能够在子进程里面应用了。 2)条件判断： &&代表and ||代表or&nbs
关于ListView中性能优化中图片加载问题酷的飞上天空 ListView
ListView的性能优化网上很多信息，但是涉及到异步加载图片问题就会出现问题。具体参看上篇文章http://314858770.iteye.com/admin/blogs/1217594 如果每次都重新inflate一个新的View出来肯定会造成性能损失严重，可能会出现listview滚动是很卡的情况，还会出现内存溢出。现在想出一个方法就是每次都添加一个标识，然后设置图
德国总理默多克：给国人的一堂“震撼教育”课永夜-极光教育
http://bbs.voc.com.cn/topic-2443617-1-1.html德国总理默多克：给国人的一堂“震撼教育”课　安吉拉—默克尔，一位经历过社会主义的东德人，她利用自己的博客，发表一番来华前的谈话，该说的话，都在上面说了，全世界想看想传播——去看看默克尔总理的博客吧！　　德国总理默克尔以她的低调、朴素、谦和、平易近人等品格给国人留下了深刻印象。她以实际行动为中国人上了一堂
关于Java继承的一个小问题。。。随便小屋 java
今天看Java 编程思想的时候遇见一个问题，运行的结果和自己想想的完全不一样。先把代码贴出来！ //CanFight接口 interface Canfight { void fight(); } //ActionCharacter类 class ActionCharacter { public void fight() { System.out.pr
23种基本的设计模式 aijuans 设计模式
Abstract Factory：提供一个创建一系列相关或相互依赖对象的接口，而无需指定它们具体的类。　　Adapter：将一个类的接口转换成客户希望的另外一个接口。A d a p t e r模式使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。　　Bridge：将抽象部分与它的实现部分分离，使它们都可以独立地变化。　　Builder：将一个复杂对象的构建与它的表示分离，使得同
《周鸿祎自述：我的互联网方法论》读书笔记 aoyouzi 读书笔记
从用户的角度来看,能解决问题的产品才是好产品,能方便/快速地解决问题的产品,就是一流产品. 商业模式不是赚钱模式一款产品免费获得海量用户后,它的边际成本趋于0,然后再通过广告或者增值服务的方式赚钱,实际上就是创造了新的价值链. 商业模式的基础是用户,木有用户,任何商业模式都是浮云.商业模式的核心是产品,本质是通过产品为用户创造价值. 商业模式还包括寻找需求
JavaScript动态改变样式访问技术百合不是茶 JavaScript style属性 ClassName属性
一:style属性格式: HTML元素.style.样式属性="值"; 创建菜单:在html标签中创建或者在head标签中用数组创建 <html> <head> <title>style改变样式</title> </head> &l
jQuery的deferred对象详解 bijian1013 jquery deferred对象
jQuery的开发速度很快，几乎每半年一个大版本，每两个月一个小版本。每个版本都会引入一些新功能，从jQuery 1.5.0版本开始引入的一个新功能----deferred对象。 &nb
淘宝开放平台TOP Bill_chen C++c 物流 C#
淘宝网开放平台首页：http://open.taobao.com/ 淘宝开放平台是淘宝TOP团队的产品，TOP即TaoBao Open Platform，是淘宝合作伙伴开发、发布、交易其服务的平台。支撑TOP的三条主线为： 1.开放数据和业务流程 * 以API数据形式开放商品、交易、物流等业务； &
【大型网站架构一】大型网站架构概述 bit1129 网站架构
大型互联网特点面对海量用户、海量数据大型互联网架构的关键指标高并发高性能高可用高可扩展性线性伸缩性安全性大型互联网技术要点前端优化 CDN缓存反向代理 KV缓存消息系统分布式存储 NoSQL数据库搜索监控安全想到的问题： 1.对于订单系统这种事务型系统，如
eclipse插件hibernate tools安装白糖_ Hibernate
eclipse helios(3.6)版 1.启动eclipse 2.选择 Help > Install New Software...> 3.添加如下地址： http://download.jboss.org/jbosstools/updates/stable/helios/ 4.选择性安装：hibernate tools在All Jboss tool
Jquery easyui Form表单提交注意事项 bozch jquery easyui
jquery easyui对表单的提交进行了封装，提交的方式采用的是ajax的方式，在开发的时候应该注意的事项如下： 1、在定义form标签的时候，要将method属性设置成post或者get，特别是进行大字段的文本信息提交的时候，要将method设置成post方式提交，否则页面会抛出跨域访问等异常。所以这个要
Trie tree(字典树)的Java实现及其应用-统计以某字符串为前缀的单词的数量 bylijinnan java实现
import java.util.LinkedList; public class CaseInsensitiveTrie { /** 字典树的Java实现。实现了插入、查询以及深度优先遍历。 Trie tree's java implementation.(Insert,Search,DFS) Problem Description Igna
html css 鼠标形状样式汇总 chenbowen00 html css
css鼠标手型cursor中hand与pointer Example：CSS鼠标手型效果 <a href="#" style="cursor:hand">CSS鼠标手型效果</a><br/> Example：CSS鼠标手型效果 <a href="#" style=&qu
[IT与投资]IT投资的几个原则 comsci it
无论是想在电商,软件,硬件还是互联网领域投资,都需要大量资金,虽然各个国家政府在媒体上都给予大家承诺,既要让市场的流动性宽松,又要保持经济的高速增长....但是,事实上,整个市场和社会对于真正的资金投入是非常渴望的,也就是说,表面上看起来,市场很活跃,但是投入的资金并不是很充足的......
oracle with语句详解 daizj oracle with with as
oracle with语句详解转在oracle中，select 查询语句，可以使用with,就是一个子查询，oracle 会把子查询的结果放到临时表中，可以反复使用例子:注意，这是sql语句，不是pl/sql语句，可以直接放到jdbc执行的 ----------------------------------------------------------------
hbase的简单操作 deng520159 数据库 hbase
近期公司用hbase来存储日志,然后再来分析 ,把hbase开发经常要用的命令找了出来. 用ssh登陆安装hbase那台linux后用hbase shell进行hbase命令控制台! 表的管理 1）查看有哪些表 hbase(main)> list 2）创建表 # 语法：create <table>, {NAME => <family&g
C语言scanf继续学习、算术运算符学习和逻辑运算符 dcj3sjt126com c
/* 2013年3月11日20:37:32 地点：北京潘家园功能：完成用户格式化输入多个值目的：学习scanf函数的使用 */ # include <stdio.h> int main(void) { int i, j, k; printf("please input three number:\n"); //提示用
2015越来越好 dcj3sjt126com 歌曲
越来越好房子大了电话小了感觉越来越好假期多了收入高了工作越来越好商品精了价格活了心情越来越好天更蓝了水更清了环境越来越好活得有奔头人会步步高想做到你要努力去做到幸福的笑容天天挂眉梢越来越好婆媳和了家庭暖了生活越来越好孩子高了懂事多了学习越来越好朋友多了心相通了大家越来越好道路宽了心气顺了日子越来越好活的有精神人就不显
java.sql.SQLException: Value '0000-00-00' can not be represented as java.sql.Tim feiteyizu mysql
数据表中有记录的time字段（属性为timestamp）其值为：“0000-00-00 00:00:00” 程序使用select 语句从中取数据时出现以下异常： java.sql.SQLException:Value '0000-00-00' can not be represented as java.sql.Date java.sql.SQLException: Valu
Ehcache（07）——Ehcache对并发的支持 234390216 并发 ehcache 锁 ReadLock WriteLock
Ehcache对并发的支持在高并发的情况下，使用Ehcache缓存时，由于并发的读与写，我们读的数据有可能是错误的，我们写的数据也有可能意外的被覆盖。所幸的是Ehcache为我们提供了针对于缓存元素Key的Read（读）、Write（写）锁。当一个线程获取了某一Key的Read锁之后，其它线程获取针对于同
mysql中blob,text字段的合成索引 jackyrong mysql
在mysql中，原来有一个叫合成索引的，可以提高blob,text字段的效率性能，但只能用在精确查询，核心是增加一个列，然后可以用md5进行散列，用散列值查找则速度快比如： create table abc(id varchar(10),context blog,hash_value varchar(40)); insert into abc(1,rep
逻辑运算与移位运算 latty 位运算逻辑运算
源码：正数的补码与原码相同例+7 源码：00000111 补码：00000111 （用8位二进制表示一个数）负数的补码：符号位为1，其余位为该数绝对值的原码按位取反；然后整个数加1。 -7 源码： 10000111 ，其绝对值为00000111 取反加一：11111001 为-7补码已知一个数的补码，求原码的操作分两种情况：
利用XSD 验证XML文件 newerdragon java xml xsd
XSD文件（XML Schema 语言也称作 XML Schema 定义（XML Schema Definition，XSD）。具体使用方法和定义请参看： http://www.w3school.com.cn/schema/index.asp java自jdk1.5以上新增了SchemaFactory类可以实现对XSD验证的支持，使用起来也很方便。以下代码可用在J
搭建 CentOS 6 服务器(12) - Samba rensanning centos
（1）安装 # yum -y install samba Installed: samba.i686 0:3.6.9-169.el6_5 # pdbedit -a rensn new password:123456 retype new password:123456 …… （2）Home文件夹 # mkdir /etc
Learn Nodejs 01 toknowme nodejs
（1）下载nodejs https://nodejs.org/download/ 选择相应的版本进行下载（2）安装nodejs 安装的方式比较多，请baidu下我这边下载的是“node-v0.12.7-linux-x64.tar.gz”这个版本（1）上传服务器（2）解压 tar -zxvf node-v0.12.
jquery控制自动刷新的代码举例 xp9802 jquery
1、html内容部分复制代码代码示例: <div id='log_reload'> <select name="id_s" size="1"> <option value='2'>-2s-</option> <option value='3'>-3s-</option