Tom Hardy

自动驾驶中的深度学习

点击上方“计算机视觉工坊”，选择“星标”

干货第一时间送达

最早使用神经网络来检测车道线，分割地面和驾驶的自动驾驶汽车叫 ALVINN，创建于1989年。

Autonomous Land Vehicle In a Neural Network

天哪！神经网络早在1989年就已经被使用了！这种方法还是端到端的: 神经网络接收输入的一个图像，然后输出一个方向盘转向角度。

到了2021年，情况更加疯狂: 深度学习已经接管了自动驾驶的主要分支领域。

在本文中，我将向你展示深度学习是如何应用的，以及具体在哪里使用。

为了达到这个目的，下面介绍自动驾驶的所有4大支柱，并解释如何使用深度学习。

简而言之:

在 感知（Perception） 中, 你发现周围的环境和障碍。
在 定位（Localization） 中, 你在世界中确定了自己的位置，精度在 1-3 cm。
在 规划（Planning） 中, 你利用感知和定位，确定了从 A 到 B 的轨迹。
在 控制（Control） 中, 你产生方向盘转向角度和加速度值来沿着轨迹行进。

在本文中，你将学习到如何在所有4个模块中实现深度学习，以及如果希望从事自动驾驶汽车的工作，你需要学习哪些技能才能成为深度学习工程师。

>> 感知中的深度学习

来源：Nvidia Drive Labs

感知是自主驾驶的第一个支柱，正如你所想的那样，其中涉及到大量的深度学习。每一个学习深度学习课程的学生都会听过“深度学习用于自动驾驶汽车寻找障碍物或车道线”。这些应用属于感知。

感知通常使用3种传感器:

摄像头（Camera）
激光雷达（LiDAR/Light Detection and Ranging）
雷达（RADAR/Radio Detection and Ranging）

摄像头检测

在下面的图表中，我展示了最重要的用例，它们是如何实现的，以及如何自学来实现它们。

标淡黄色的地方, 你可以看到如何用传统技术来解决任务。
标深黄色的地方, 你可以看到如何用深度学习来解决任务。
标蓝色的地方, 是推荐的在线课程，如果你想学习的话。

计算机视觉中的深度学习

正如你所看到的，计算机视觉需要大量的深度学习来完成检测任务。

在车道线检测和分割中，我们使用深度学习超过了传统技术，因为它们更快更有效。像 LaneNet 这样的算法在车道线提取的研究领域相当流行。

2D 目标检测也是感知的核心。 像 YOLO 或 SSD 这样的算法已经得到了很好的解释，并且在这个领域非常流行。它们会不断更新，用新的代替，但 idea 是相似的。

最后，很多摄像头配置是双目的（Stereo）。 拥有立体信息有助于我们建立所谓的伪激光雷达（Pseudo-LiDAR）。我们可以完全模拟甚至有时取代激光雷达，因此可以用摄像头（2D 传感器）进行 3D 感知。

因此我们过去使用传统的计算机视觉实现块匹配（Block Matching），现在转向了深度学习。

激光雷达检测

首先，基于 RANSAC 算法、3D 聚类、 KD树和其他非监督式学习技术的传统方法仍然是许多机器人应用的首选。

然而，这些将被更快更安全的深度学习方法所取代。 为什么？因为这些简单的算法不能分类，也不能分开识别靠得很近的两个人。学习式的方法在这里更合适。

苹果公司（VoxelNet）、 UBER ATG 公司（PIXOR and Fast and Furious）、 nuTonomy 公司（PointPillars）和牛津大学（RANDLANET）等都发布了很多 3D 目标检测论文。

在他们的核心，我们会发现如 3D CNNs 或 PointNet等技术。这些都是 3D 深度学习的基础。

近年来，利用深层神经网络进行激光雷达检测的技术正在蓬勃发展。这是自动驾驶汽车研究中最活跃的领域之一。

雷达检测

雷达是一种非常成熟的传感器。它已经有100多年的历史了，说它不需要深度学习来提高效率并不可耻。几十年前我们就能够利用雷达来测量障碍物的速度了。事实上，如果你最近收到一张超速罚单，那就是因为雷达。

深度学习算法开始在雷达系统中出现了，例如论文 《Centric 3D Obstacle Detection》 或 《RADAR Region Proposal Network》。但这似乎仍然是很早期的研究。

传感器融合

感知的最后一部分是传感器融合。

为了使检测“确定”，我们包括了所谓的冗余。这个想法很简单: 我们合并来自传感器的数据，然后检查它们是否传递了相同的信息。

对于一家使用全部3种传感器的公司来说，有3种合并方法:

合并摄像头和激光雷达
合并摄像头和雷达
合并激光雷达与雷达

这里有一张图，展示了我们在传感器融合中使用的所有深度学习方法。

传感器融合中的深度学习

早期和后期融合需要区分清楚。

早期融合（Early Fusion） 是指融合原始数据, 如激光雷达点云和图像像素。
后期融合（Late Fusion） 是指融合检测的输出, 如 2D 和 3D 边界框。

有趣的是，深度学习的适用性或多或少取决于所使用的传感器。

对于激光雷达摄像头融合，可以应用不少传统的方法。但是深度学习非常适合这个过程。既然我们很好的用深度学习处理了摄像头和激光雷达，那么用它来融合这两者就不难理解了。

由于雷达没有使用大量的深度学习，它更加复杂，你会发现很多经典方法，包括卡尔曼滤波器，IOU 匹配和跟踪。

同样，你开始看到深度学习在传感器融合中的影响。这门学科通常是非常传统的，使用了大量的机器人技术和贝叶斯过滤。它倾向于使用计算机视觉特征检测器而不是 CNN，现在，它正在转变成一个深度学习的学科。

>> 定位中的深度学习

定位就是寻找车辆自己在世界中的位置。我们首先想到的是使用 GPS，但是你会发现它可能非常不准确，并且可能不能每次都完美地工作，例如当天气阴沉的时候。最后，GPS 精确到 1-2 米，而我们的目标是 1-3 厘米。

这个问题创造了一个我们称之为定位的大领域。

根据算法的选择，我们有很多定位的方法:

知道地图和初始位置的情况：

想象你在纽约，第五大道（我想念旅行了...????）。想象一下你有一张纽约的地图。从理论上讲，你只需要数一数你在街上走了多少步，就能知道10分钟步行后你会在哪里。这是第一种情况，你有地图(纽约)和你的位置。

知道地图，但不知道最初位置的情况：

现在想象一下，你仍然在纽约，但是你被绑架了，被蒙住了眼睛，被安置在其他地方。你需要用你的眼睛和地图知识来确定你的位置。当你认出一些熟悉的东西，比如帝国大厦，你就会知道你在哪里！

因此，这两种都依赖于所谓的地标（landmark）检测。我们想要探测我们知道的东西在地图的哪里。

定位中的深度学习

为此，我们使用扩展卡尔曼滤波器（Extended Kalman Filters）和粒子滤波器（Particle Filters）。

正如你所注意到的，我们也在使用里程计（Odometry，车轮转动了多少）、GPS、GPS-RTK（一种更好的 GPS）和 UWB (使用物理设备进行三边测量)。

如果你正在找哪里是深度学习，这里的地标检测，正是在感知阶段获得的。

既不知道地图也不知道初始位置的情况：

现在想象一下，你被绑架了，被蒙上了眼睛，放在纽约的某个地方，但是你没有地图。

这就是所谓的即时定位与地图构建（Simultaneous Localization And Mapping/SLAM）：你需要同时定位和建立你周围环境的地图。

SLAM 领域最初使用了大量的贝叶斯滤波器，比如卡尔曼滤波器和粒子滤波器，但是一种叫做视觉里程计（ Visual Odometry）的东西目前正在蓬勃发展。

这个想法是使用传感器，如摄像头，或双目摄像头，以重建环境，生成一个地图。这是一张 SLAM 思维导图。

SLAM中的深度学习

正如你所看到的，有很多深度学习的东西涉及到建图和定位...... 但这个领域主要不是用深度学习。如果你想成为一名定位工程师，对机器人技术和传统技术的了解要比深度学习重要得多。

>> 规划中的深度学习

规划是无人驾驶汽车的大脑。从障碍物预测到轨迹生成。其核心是决策制定。

我们可以将规划世界分为三个步骤:

高层/全局规划（High-Level/Global Planning） —— 规划从 A 到 B 的路线。
行为规划（Behavioral Planning） —— 预测其他障碍，并作出决策。
路径/本地规划（Path/Local Planning） —— 避开障碍物，创建一个轨迹。

在自动驾驶汽车中使用深度学习，最好的方法是进行感知......第二好的方法是通过规划。

高层规划

第一件事是编写一条从 A 到 B 的路线，就像谷歌地图。为此，我们将不得不使用图搜索算法，如 Dijkstra，A* ，DFS，BFS，...。

通常使用 A* 。

但是你也可以在这里找到很多深度强化学习: 这就是所谓的概率规划。

规划中的深度学习

行为规划

这一步骤包括两个子步骤:

预测
决策

在预测中，我们希望利用时间信息和数据关联来了解未来的障碍物在哪里。有基于学习的方法，如高斯混合模型（Gaussian Mixture Models）的意图预测和卡尔曼滤波器方法。

决策是另外一回事。我们要么手动输入一些规则并创建一个有限状态机，要么使用强化学习方法。

路径规划

要了解在地图上你应该去哪里，全局规划足够了。但是，比如有一辆车挡住了路，那该怎么办？如果交通灯是红色的怎么办？如果车流很慢呢？我们需要做点什么，比如改变轨迹，或者停车。

正在应用的算法很多，如快速探索随机树（RRT），RRT* ，概率路图(PRM) ，PRM* 等。

在规划中，如果我们要使用深度学习，大多数情况下可以在预测中使用，或者使用强化学习方法进行路径规划。

>> 控制和其他应用中的深度学习

控制

控制，正如在介绍中所说的，是关于跟随生成的轨迹生成一个转向角度和加速度值。

当我在为了写这篇文章进行搜索的时候，刚开始我想“在控制中没有深度学习”，我错了。

事实证明，深度强化学习已经开始出现同时在规划和控制中，而且是和 ALVINN 一样的端到端的方法。

其他应用

自动驾驶的四大支柱多少都用到了深度学习。然而，还有很多其他地方可以应用深度学习。

可解释的 AI，GAN 产生合成数据集，主动学习得到半自动标注，等等。

总结

如果你已经读到了这里，恭喜你! 你现在比10分钟前更懂自动驾驶汽车了！

正如你所看到的，深度学习在自动驾驶的很多领域都有很好的应用，而且它正出现在更多的其他领域。

原文： https://becominghuman.ai/deep-learning-algorithms-in-self-driving-cars-14b13a895068

本文仅做学术分享，如有侵权，请联系删文。

下载1

在「计算机视觉工坊」公众号后台回复：深度学习，即可下载深度学习算法、3D深度学习、深度学习框架、目标检测、GAN等相关内容近30本pdf书籍。

下载2

在「计算机视觉工坊」公众号后台回复：计算机视觉，即可下载计算机视觉相关17本pdf书籍，包含计算机视觉算法、Python视觉实战、Opencv3.0学习等。

下载3

在「计算机视觉工坊」公众号后台回复：SLAM，即可下载独家SLAM相关视频课程，包含视觉SLAM、激光SLAM精品课程。

重磅！计算机视觉工坊-学习交流群已成立
扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群，目前主要有ORB-SLAM系列源码学习、3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群，请扫描下面微信号加群，备注：”研究方向+学校/公司+昵称“，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。
▲长按加微信群或投稿
▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、orb-slam3等视频课程）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近2000星球成员为创造更好的AI世界共同进步，知识星球入口：
学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题
觉得有用，麻烦给个赞和在看~

如何安全使用人工智能大模型
人工智能大模型的安全漏洞在推送，你只要有不一样的解决方案他就会通过学习学会，在别人讨论相同问题时，就会作为解决问题的推荐方案。这种机制是没办法防的。鉴于此我们只能采取如下措施:1.绝对本地部署，就是部署好以后断网，因为你使用时他还是会手机数据往后台传送，我本地部署的大模型在推理时看性能，网络也是有数据流的。也不知道在交换什么。2.既然搞不清楚那就彻底不相信，断网。那么我们要加快进度，快速完成任务，
PyTorch生成式人工智能（18）——循环神经网络详解与实现盼小辉丶 pytorch rnn 自然语言处理
PyTorch生成式人工智能（18）——循环神经网络详解与实现0.前言1.文本生成的挑战2.循环神经网络2.1文本数据2.2循环神经网络原理3.长短期记忆网络3.自然语言处理基础3.1分词3.2词嵌入3.3词嵌入在自然语言处理中的应用小结系列链接0.前言我们已经学习了如何生成数字和图像等内容。从本节开始，我们将主要聚焦于文本生成。人类语言极其复杂且充满细微差别，不仅仅涉及语法和词汇的理解，还包括上
【人工智能99问】卷积神经网络（CNN）的结构和原理是什么？(10/99)
文章目录卷积神经网络（CNN）的结构及原理一、CNN的核心结构1.输入层（InputLayer）2.卷积层（ConvolutionalLayer）2.卷积层的核心机制：局部感受野与权值共享3.池化层（PoolingLayer）4.全连接层（FullyConnectedLayer）5.输出层（OutputLayer）6.辅助层二、CNN的工作原理三、CNN的使用场景1.计算机视觉（最核心场景）2.其
Deep Multi-scale Convolutional Neural Network for Dynamic Scene Deblurring 论文阅读钟屿论文阅读计算机视觉人工智能
用于动态场景去模糊的深度多尺度卷积神经网络摘要针对一般动态场景的非均匀盲去模糊是一个具有挑战性的计算机视觉问题，因为模糊不仅来源于多个物体运动，还来源于相机抖动和场景深度变化。为了去除这些复杂的运动模糊，传统的基于能量优化的方法依赖于简单的假设，例如模糊核是部分均匀或局部线性的。此外，最近的基于机器学习的方法也依赖于在这些假设下生成的合成模糊数据集。这使得传统的去模糊方法在模糊核难以近似或参数化的
基于Paillier同态加密算法的金融数据安全共享机制研究【附数据】
金融数据分析与建模专家金融科研助手|论文指导|模型构建✨专业领域：金融数据处理与分析量化交易策略研究金融风险建模投资组合优化金融预测模型开发深度学习在金融中的应用擅长工具：Python/R/MATLAB量化分析机器学习模型构建金融时间序列分析蒙特卡洛模拟风险度量模型金融论文指导内容：金融数据挖掘与处理量化策略开发与回测投资组合构建与优化金融风险评估模型期刊论文✅具体问题可以私信或查看文章底部二维码
吴恩达机器学习cs229-学习笔记-更新中是娜个二叉树！机器学习学习笔记
吴恩达机器学习cs22901基础概念语言：Matlab/python监督学习定义：获取一组数据集拟合数据从X到Y的映射回归问题：预测的Y是连续的，Y是实数分类问题：分类指的是Y取离散值，输出是离散的两组，正示例和负示例，把所有样本推到这条直线上，用0，1，标识逻辑回归算法，拟合直线区分正，负示例处理相对大量特征的回归算法或者分类算法支持向量机算法：它使用的不是1,2,3,10个输入特征，而是使用无
YOLOv8实现手写数字识别系统：从MNIST到实时摄像头检测
在深度学习领域，手写数字识别是一个经典问题，也是入门计算机视觉的重要案例。本文将介绍一个基于YOLOv8和MNIST数据集的手写数字识别系统，该系统不仅能识别静态图像中的数字，还能通过摄像头实时检测手写数字。个人博客：YOLOv8实现手写数字识别系统：从MNIST到实时摄像头检测-iDing's博客项目概述这个项目结合了传统的MNIST数据集和现代的目标检测算法YOLOv8，实现了以下功能：将MN
「日拱一码」033 机器学习——严格划分胖达不服输「日拱一码」机器学习人工智能严格划分组划分
目录简单随机划分（train_test_split）分组划分（GroupSplitting）简单分组划分(GroupSplitting)分层分组划分(StratifiedGroupSplitting)交叉验证法（Cross-Validation）分组K折交叉验证（GroupKFold）留一组法（LeaveOneGroupOut）简单随机划分（train_test_split）简单随机分组通过随机分
基于深度学习的手写数字和符号识别系统：YOLOv5/v6/v7/v8/v10模型实现与UI界面集成 YOLO实战营深度学习 YOLO ui 人工智能目标检测计算机视觉
1.引言随着人工智能和深度学习技术的发展，手写数字和符号识别已经成为计算机视觉领域的重要研究方向。手写识别在很多实际应用中扮演着关键角色，例如邮政编码识别、表单自动处理和智能教育系统等。传统的手写识别方法通常依赖于复杂的特征工程，而深度学习则能够自动从数据中学习到特征，极大地提高了识别精度和速度。本文将介绍如何构建一个基于YOLO系列模型（YOLOv5、YOLOv6、YOLOv7、YOLOv8、Y
【人工智能艺术革命：科技灵感与艺术创新的交融纪元】陈辰学长人工智能科技
【人工智能艺术革命：科技灵感与艺术创新的交融纪元】在21世纪的科技浪潮中，人工智能（AI）作为一股不可忽视的力量，正以前所未有的速度渗透并重塑着我们的生活、工作乃至艺术创作领域。其中，AI绘画作为科技与艺术深度融合的产物，不仅挑战了传统艺术的边界，更开启了一个充满无限想象与可能的新时代。本文将从AI绘画的定义与发展历程、技术原理、对艺术创作的影响、面临的挑战与机遇以及未来展望等多个维度，深入探讨这
从零开始：搭建你的人工智能开发环境人工智能教程人工智能 YOLO 机器学习 transformer 线性回归动态规划排序算法
前言在人工智能和机器学习的旅程中，一个稳定且高效的开发环境是成功的关键第一步。无论是初学者还是经验丰富的开发者，一个配置良好的开发环境都能大大提高工作效率，减少遇到的问题。本文将从零开始，逐步指导你如何搭建一个完整的人工智能开发环境，包括操作系统选择、Python安装、常用库的配置以及开发工具的选择。一、选择合适的操作系统（一）主流操作系统介绍在搭建人工智能开发环境时，首先需要选择一个合适的操作系
骗局揭露：光远投研会马光远，环境排放3.0被骗不靠谱！不可信！真相震惊！易星辰分享普法
关于曝光网上光远投研会马光远在炒股群推荐智慧农业中粮仓平台骗局的文章，其内容主要揭示了近期频发的一种投资诈骗手段。以下是该骗局的主要特点和步骤：为什么明明跟老师对过视频，确认是本人，怎么还会被骗了?你有没有想过一个名人大咖怎么会有时间给你们一对一视频，其次我来给大家揭露一下，这个套路AI换脸骗局是一种利用人工智能技术，通过替换视频中的人脸来伪造身份或进行诈骗的行为。你的账户“余额”是真的吗？为什么
【Grafana】Prometheus指标可视化Grafana，手把手教你如何自定义图形景天科技苑 grafana prometheus prometheus可视化 grafana自定义图形手撕grafana 自定义监控图形
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，前后端开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，数据分析，Django，fastapi，flask等框架，云原生k8s，Prometheu
SpringBoot单元测试全攻略：MockMVC+Testcontainers+覆盖率分析 fanxbl957 Web spring boot 单元测试后端
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot单元测试全攻略：
AI作画：AI人工智能激发艺术创作灵感 AGI大模型与大数据研究院 AI作画人工智能 ai
AI作画：AI人工智能激发艺术创作灵感关键词：AI作画、生成艺术、深度学习、神经网络、艺术创作、人工智能、创意工具摘要：本文深入探讨AI作画技术如何激发艺术创作灵感。我们将从基础概念出发，解释AI如何"学习"艺术风格并生成新作品，分析核心技术原理，提供实际应用案例，并展望这一领域的未来发展趋势。通过通俗易懂的讲解和实际代码示例，帮助读者理解这项融合科技与艺术的创新技术。背景介绍目的和范围本文旨在向
【中国电信运营商MBOSS】 flyair_China 数据分析
一、中国电信运营商MBOSS1.1中国四大电信运营商MBOSS1.1.1背景传统运营商系统存在"业务-运维-管理"功能混杂的痛点，导致：-业务响应速度慢（新套餐上线需跨多部门）-运维效率低下（故障定位平均耗时超2小时）-管理决策滞后（经营数据统计延迟达24小时）通过域划分可实现：✅功能解耦：各域专注核心职责✅数据贯通：跨域信息实时交互✅敏捷迭代：单个系统升级不影响全局域"角色定位"域分类服务对象核
最大高仿服装市场，3分钟讲解攻略及经验天坛众
中国最大的高仿服装市场有几个比较典型的代表，分别是：拿货微信:377267298(手表、鞋子包包服装首饰皮带等)1.义乌中国小商品城：位于浙江省义乌市，是世界上最大的小商品市场之一，其中包括了大量的服装产品。2.广州白马服装市场：位于广州市，是全国著名的女装批发市场，以高品质和中高端市场定位著称。3.杭州四季青服装市场：位于杭州市，是中国最大的服装批发市场之一，以女装批发为主。4.即墨服装市场：位
uniapp相关地图 API调用 cherishSpring uniapp uni-app apache 服务器
目录一、注意事项：manifest.json需增加配置二、获取用户收货地址[uni.chooseAddress]三、获取当前的地理位置、速度[uni.getLocation]四、打开地图选择位置、查看位置(导航)[uni.chooseLocation][uni.openLocation]五、使用腾讯地图逆地址解析接口实现城市自动定位回显一、注意事项：manifest.json需增加配置"mp-we
基于机器学习的加密货币资金费率预测与套利策略云梦量化科技 python
一、资金费率机制解析永续合约的资金费率是加密货币衍生品市场独有的机制，旨在使永续合约价格锚定现货价格。资金费率每8小时结算一次，结算时多空双方互相支付资金费用：费率为正时，多头支付给空头；费率为负时，空头支付给多头。此机制既促使永续合约价格回归现货价格，也反映市场多空情绪。某安永续合约资金费率计算公式通常为：资金费率 F = 平均溢价指数 P + Clamp(综合利率 I − 溢价指数 P, +0
加入公会做直播有风险吗，谈谈我的感受糖葫芦不甜
成为一名主播似乎成了一条充满魅力的道路。而在这个过程中，加入公会成为了不少主播的选择，它既能提供资源支持，又能加速成长，但同时，也伴随着一系列的风险与挑战。作为一名有过此经历的人，我想谈谈我的感受。免费加入，一对一指导扶持↓公会的最大优势在于其资源整合能力。从专业培训、内容策划到营销推广，公会能为主播提供全方位的支持。这不仅能够帮助主播快速提升专业技能，还能通过精准定位和有效推广，扩大其影响力和粉
从文本到语音：使用 ElevenLabs 和 FFmpeg 实现语音合成与播放曦紫沐语音模型 ffmpeg ElevenLabs 语音合成
摘要在当今的人工智能时代，语音合成技术正变得越来越普及。ElevenLabs是一个强大的语音合成平台，能够生成高质量的语音音频。本文将详细介绍如何结合Python、ElevenLabsAPI和FFmpeg工具集，实现从文本到语音的转换，并通过ffplay播放生成的音频文件。同时，我们将解决常见的问题，如ffplay未找到或音频无法播放等。1.引言随着人工智能技术的发展，语音合成（Text-to-S
Mybatis学习之简介（一） PP东数据库 Java mybatis 学习 oracle
一、MyBatis特性MyBatis是一个半自动的ORM（ObjectRelationMapping）框架。（ORM，对象关系型映射，用于在面向对象编程语言和关系型数据库之间建立映射关系）。MyBatis虽然自动化程度相对较低但是灵活性相对较高。Mybatis简化了与数据库的连接过程，因为其内部封装了JDBC的链接过程，所以无需手动建立和管理连接，这使得开发者能够专注于业务逻辑的实现。Mybati
DK遇见未来：机器人祖爸
人工智能、AI、机械设计、BigData……这些听起来就很高端的专业究竟是什么？这些前沿学科相遇又会碰撞出什么？机器人，将这些前沿领域结合在一起越来越多的融入到我们的工作与生活中可问题来了机器人究竟是什么呢？又该如何给孩子讲机器人呢？这本《DK遇见未来：机器人》完美解决您的烦恼最新数据、系统知识、精美插图可以说这是一本儿童机器人大百科让孩子在这里遇见未来在讲读版视频中与您共同思考未来社会中机器人与
ORACLE 11g 使用ROWNUM完美解决ORA-00600 内部错误代码有点智慧
分享一下我老师大神的人工智能教程！零基础，通俗易懂！http://blog.csdn.net/jiangjunshow也欢迎大家转载本篇文章。分享知识，造福人民，实现我们中华民族伟大复兴！1，ORA-00600：内部错误代码Oracle从11.2.0.1升级到11.2.0.4，开发人员报告说一个job运行失败，调试有报错信息，ORA-00600:内部错误代码，参数：[rwoirw:checkret
Kimi-Audio：最佳音LLM, 如何免费使用 Kimi-Audio AI 模型？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 kimi
简介继DeepSeek之后，字节跳动（现名MoonShotAI，又名Kimi）也在生成式人工智能领域加速发展，并发布了自己的音频模型Kimi-Audio，据说是迄今为止最好的音频模型。推荐文章《NvidiaGPU入门教程之02ubuntu安装A100显卡驱动(含8步快速浓缩教程)》权重2，安装A100显卡驱动《本地大模型知识库OpenWebUI系列之如何解决知识库上传文件故障Extractedco
Python就业薪资好不好，学Python工作机会多吗？ Python小辰
Python就业薪资好不好？学Python工作机会多吗？人工智能时代的来临让Python崭露头角，各大企业纷纷加大对相关人才的招聘力度吸引了很多人入行学习Python。近年来Python开发发展迅猛，吸引了很多科技公司入驻，且看小编的分析。Python薪资好不好?数据是最有力的答案。职友集统计数据显示，全国Python工程师的平均月资达19160，其中20-30K的工程师数量超过了四成。来自智联招
机器人-组成结构-感知 - 决策 - 执行具身智能-查布嘎具身智能机器人人工智能
目录一、感知系统内部传感器：外部传感器：二、智能决策系统机器学习家族1.1机器学习2.1深度学习2.2深度学习模型(主要属于监督/强化学习范畴，但结构通用)：3.1监督学习3.2监督学习模型4.1半监督学习4.2无/半监督学习模型：5.1无监督学习5.2生成模型(可属于监督/无监督)：6.1强化学习7.1其他学习三、控制系统（运控）①对应小脑和脊柱一、感知系统①对应人体的五官。由具有不同功能的各种
机器学习入门（五）：线性回归—从模型函数到目标函数米饭超人
从数据反推公式假设我们获得了这样一张表格，上面列举了美国纽约若干程序员职位的年薪：enterimagedescriptionhere大家可以看到，表格中列举了职位、经验、技能、国家和城市几项特征。除了经验一项，其他都是一样的。不同的经验（工作年限），薪水不同。而且看起来，工作年头越多，工资也就越高。那么我们把Experience与Salary抽取出来，用x和y来分别指代它们。enterimaged
AI驱动的电路仿真革命：从物理模型到智能学习的范式转移
AI驱动的电路仿真革命：从物理模型到智能学习的范式转移人工智能正颠覆传统电路仿真方法，本文将深入解析AI在电路建模、优化与故障诊断中的前沿应用，揭示智能仿真如何提升10倍效率并突破物理限制。一、AI电路仿真的数学基础1.1图神经网络建模电路拓扑电路可抽象为图结构G=(V,E)G=(V,E)G=(V,E)：VVV：节点（电子元件）EEE：边（连接关系）图卷积网络(GCN)更新公式：H(l+1)=σ(
MCP协议技术解析：AI时代的通信基础设施革命
MCP协议技术解析：AI时代的通信基础设施革命在AI从工具演变为协作伙伴的进程中，MCP协议正在成为连接智能体与现实世界的“数字神经系统”。当前人工智能技术正经历从孤立模型向生态系统协作的关键转型，而通信协议作为AI能力的“连接器”，其设计直接决定了智能系统的边界与效率。MCP协议（ModelContextProtocol）作为新一代AI通信基础设施，正在开发者社区引发一场静默革命。本文将从技术原
Js函数返回值 _wy_ js return
一、返回控制与函数结果，语法为：return 表达式;作用: 结束函数执行，返回调用函数，而且把表达式的值作为函数的结果二、返回控制语法为：return;作用: 结束函数执行，返回调用函数，而且把undefined作为函数的结果在大多数情况下,为事件处理函数返回false,可以防止默认的事件行为.例如,默认情况下点击一个<a>元素,页面会跳转到该元素href属性
MySQL 的 char 与 varchar bylijinnan mysql
今天发现，create table 时，MySQL 4.1有时会把 char 自动转换成 varchar 测试举例： CREATE TABLE `varcharLessThan4` ( `lastName` varchar(3) ) ; mysql> desc varcharLessThan4; +----------+---------+------+-
Quartz——TriggerListener和JobListener eksliang TriggerListener JobListener quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208624 一.概述 listener是一个监听器对象，用于监听scheduler中发生的事件，然后执行相应的操作；你可能已经猜到了，TriggerListeners接受与trigger相关的事件，JobListeners接受与jobs相关的事件。二.JobListener监听器 j
oracle层次查询 18289753290 oracle；层次查询；树查询
.oracle层次查询(connect by) oracle的emp表中包含了一列mgr指出谁是雇员的经理，由于经理也是雇员，所以经理的信息也存储在emp表中。这样emp表就是一个自引用表，表中的mgr列是一个自引用列，它指向emp表中的empno列，mgr表示一个员工的管理者， select empno,mgr,ename,sal from e
通过反射把map中的属性赋值到实体类bean对象中酷的飞上天空 javaee 泛型类型转换
使用过struts2后感觉最方便的就是这个框架能自动把表单的参数赋值到action里面的对象中但现在主要使用Spring框架的MVC，虽然也有@ModelAttribute可以使用但是明显感觉不方便。好吧，那就自己再造一个轮子吧。原理都知道，就是利用反射进行字段的赋值，下面贴代码主要类如下： import java.lang.reflect.Field; imp
SAP HANA数据存储：传统硬盘的瓶颈问题蓝儿唯美 HANA
SAPHANA平台有各种各样的应用场景，这也意味着客户的实施方法有许多种选择，关键是如何挑选最适合他们需求的实施方案。在《Implementing SAP HANA》这本书中，介绍了SAP平台在现实场景中的运作原理，并给出了实施建议和成功案例供参考。本系列文章节选自《Implementing SAP HANA》，介绍了行存储和列存储的各自特点，以及SAP HANA的数据存储方式如何提升空间压
Java Socket 多线程实现文件传输随便小屋 java socket
高级操作系统作业，让用Socket实现文件传输，有些代码也是在网上找的，写的不好，如果大家能用就用上。客户端类： package edu.logic.client; import java.io.BufferedInputStream; import java.io.Buffered
java初学者路径 aijuans java
学习Java有没有什么捷径?要想学好Java，首先要知道Java的大致分类。自从Sun推出Java以来，就力图使之无所不包，所以Java发展到现在，按应用来分主要分为三大块：J2SE,J2ME和J2EE,这也就是Sun ONE(Open Net Environment)体系。J2SE就是Java2的标准版，主要用于桌面应用软件的编程；J2ME主要应用于嵌入是系统开发，如手机和PDA的编程；J2EE
APP推广 aoyouzi APP 推广
一，免费篇 1，APP推荐类网站自主推荐最美应用、酷安网、DEMO8、木蚂蚁发现频道等,如果产品独特新颖，还能获取最美应用的评测推荐。PS：推荐简单。只要产品有趣好玩，用户会自主分享传播。例如足迹APP在最美应用推荐一次，几天用户暴增将服务器击垮。 2，各大应用商店首发合作老实盯着排期，多给应用市场官方负责人献殷勤。 3，论坛贴吧推广百度知道，百度贴吧，猫扑论坛，天涯社区，豆瓣（
JSP转发与重定向百合不是茶 jsp servlet Java Web jsp转发
在servlet和jsp中我们经常需要请求,这时就需要用到转发和重定向; 转发包括;forward和include 例子;forwrad转发; 将请求装法给reg.html页面关键代码; req.getRequestDispatcher("reg.html
web.xml之jsp-config bijian1013 java web.xml servlet jsp-config
1.作用：主要用于设定JSP页面的相关配置。 2.常见定义： <jsp-config> <taglib> <taglib-uri>URI(定义TLD文件的URI,JSP页面的tablib命令可以经由此URI获取到TLD文件)</tablib-uri> <taglib-location> TLD文件所在的位置
JSF2.2 ViewScoped Using CDI sunjing CDI JSF 2.2 ViewScoped
JSF 2.0 introduced annotation @ViewScoped; A bean annotated with this scope maintained its state as long as the user stays on the same view(reloads or navigation - no intervening views). One problem w
【分布式数据一致性二】Zookeeper数据读写一致性 bit1129 zookeeper
很多文档说Zookeeper是强一致性保证，事实不然。关于一致性模型请参考http://bit1129.iteye.com/blog/2155336 Zookeeper的数据同步协议 Zookeeper采用称为Quorum Based Protocol的数据同步协议。假如Zookeeper集群有N台Zookeeper服务器(N通常取奇数，3台能够满足数据可靠性同时
Java开发笔记白糖_ java开发
1、Map<key,value>的remove方法只能识别相同类型的key值 Map<Integer,String> map = new HashMap<Integer,String>(); map.put(1,"a"); map.put(2,"b"); map.put(3,"c"
图片黑色阴影 bozch 图片
.event{ padding:0; width:460px; min-width: 460px; border:0px solid #e4e4e4; height: 350px; min-heig
编程之美-饮料供货-动态规划 bylijinnan 动态规划
import java.util.Arrays; import java.util.Random; public class BeverageSupply { /** * 编程之美饮料供货 * 设Opt（V’，i）表示从i到n-1种饮料中，总容量为V’的方案中，满意度之和的最大值。 * 那么递归式就应该是：Opt（V’，i）=max{ k * Hi+Op
ajax大参数（大数据）提交性能分析 chenbowen00 Web Ajax 框架浏览器 prototype
近期在项目中发现如下一个问题项目中有个提交现场事件的功能，该功能主要是在web客户端保存现场数据（主要有截屏，终端日志等信息）然后提交到服务器上方便我们分析定位问题。客户在使用该功能的过程中反应点击提交后反应很慢，大概要等10到20秒的时间浏览器才能操作，期间页面不响应事件。根据客户描述分析了下的代码流程，很简单，主要通过OCX控件截屏，在将前端的日志等文件使用OCX控件打包，在将之转换为
[宇宙与天文]在太空采矿,在太空建造 comsci
我们在太空进行工业活动...但是不太可能把太空工业产品又运回到地面上进行加工,而一般是在哪里开采,就在哪里加工,太空的微重力环境,可能会使我们的工业产品的制造尺度非常巨大.... 地球上制造的最大工业机器是超级油轮和航空母舰,再大些就会遇到困难了,但是在空间船坞中,制造的最大工业机器,可能就没
ORACLE中CONSTRAINT的四对属性 daizj oracle CONSTRAINT
ORACLE中CONSTRAINT的四对属性 summary:在data migrate时,某些表的约束总是困扰着我们,让我们的migratet举步维艰,如何利用约束本身的属性来处理这些问题呢?本文详细介绍了约束的四对属性: Deferrable/not deferrable, Deferred/immediate, enalbe/disable, validate/novalidate,以及如
Gradle入门教程 dengkane gradle
一、寻找gradle的历程一开始的时候，我们只有一个工程，所有要用到的jar包都放到工程目录下面，时间长了，工程越来越大，使用到的jar包也越来越多，难以理解jar之间的依赖关系。再后来我们把旧的工程拆分到不同的工程里，靠ide来管理工程之间的依赖关系，各工程下的jar包依赖是杂乱的。一段时间后，我们发现用ide来管理项程很不方便，比如不方便脱离ide自动构建，于是我们写自己的ant脚本。再后
C语言简单循环示例 dcj3sjt126com c
# include <stdio.h> int main(void) { int i; int count = 0; int sum = 0; float avg; for (i=1; i<=100; i++) { if (i%2==0) { count++; sum += i; } } avg
presentModalViewController 的动画效果 dcj3sjt126com controller
系统自带(四种效果)： presentModalViewController模态的动画效果设置： [cpp] view plain copy UIViewController *detailViewController = [[UIViewController al
java 二分查找 shuizhaosi888 二分查找 java二分查找
需求：在排好顺序的一串数字中，找到数字T 一般解法：从左到右扫描数据，其运行花费线性时间O(N)。然而这个算法并没有用到该表已经排序的事实。 /** * * @param array * 顺序数组 * @param t * 要查找对象 * @return */ public stati
Spring Security（07）——缓存UserDetails 234390216 ehcache 缓存 Spring Security
Spring Security提供了一个实现了可以缓存UserDetails的UserDetailsService实现类，CachingUserDetailsService。该类的构造接收一个用于真正加载UserDetails的UserDetailsService实现类。当需要加载UserDetails时，其首先会从缓存中获取，如果缓存中没
Dozer 深层次复制 jayluns VO maven po
最近在做项目上遇到了一些小问题，因为架构在做设计的时候web前段展示用到了vo层，而在后台进行与数据库层操作的时候用到的是Po层。这样在业务层返回vo到控制层，每一次都需要从po-->转化到vo层，用到BeanUtils.copyProperties(source, target)只能复制简单的属性，因为实体类都配置了hibernate那些关联关系，所以它满足不了现在的需求，但后发现还有个很
CSS规范整理（摘自懒人图库） a409435341 html UI css 浏览器
刚没事闲着在网上瞎逛，找了一篇CSS规范整理，粗略看了一下后还蛮有一定的道理，并自问是否有这样的规范，这也是初入前端开发的人一个很好的规范吧。一、文件规范 1、文件均归档至约定的目录中。具体要求通过豆瓣的CSS规范进行讲解：所有的CSS分为两大类：通用类和业务类。通用的CSS文件，放在如下目录中：基本样式库 /css/core
C++动态链接库创建与使用你不认识的休道人 C++dll
一、创建动态链接库 1.新建工程test中选择”MFC [dll]”dll类型选择第二项"Regular DLL With MFC shared linked"，完成 2.在test.h中添加 extern “C” 返回类型 _declspec(dllexport)函数名(参数列表); 3.在test.cpp中最后写 extern “C” 返回类型 _decls
Android代码混淆之ProGuard rensanning ProGuard
Android应用的Java代码，通过反编译apk文件（dex2jar、apktool）很容易得到源代码，所以在release版本的apk中一定要混淆一下一些关键的Java源码。 ProGuard是一个开源的Java代码混淆器（obfuscation）。ADT r8开始它被默认集成到了Android SDK中。官网： http://proguard.sourceforge.net/
程序员在编程中遇到的奇葩弱智问题 tomcat_oracle jquery 编程 ide
　　现在收集一下：　　排名不分先后，按照发言顺序来的。 1、Jquery插件一个通用函数一直报错，尤其是很明显是存在的函数，很有可能就是你没有引入jquery。。。或者版本不对 2、调试半天没变化：不在同一个文件中调试。这个很可怕，我们很多时候会备份好几个项目，改完发现改错了。有个群友说的好：在汤匙
解决maven-dependency-plugin (goals "copy-dependencies","unpack") is not supported xp9802 dependency
解决办法：在plugins之前添加如下pluginManagement，二者前后顺序如下： [html] view plain copy <build> <pluginManagement