学渣在路上

Objects as Points 论文精读

对象作为点

摘要

目标检测在图像中将检测对象定义为一个与坐标轴对齐的框。大多数成功的对象检测器都会列举几乎详尽的潜在对象位置列表，并对每个位置进行分类。这是浪费的、低效的，并且需要额外的后处理。在本文中，我们采用了不同的方法。我们将一个对象建模为一个点——它的边界框的中心点。我们的检测器使用关键点估计来找到中心点并回归到所有其他对象属性，例如大小、3D 位置、方向，甚至姿势。我们基于中心点的方法 CenterNet 比相应的基于边界框的检测器具有端到端的可微分、更简单、更快且更准确。 CenterNet 在 MS COCO 数据集上实现了最佳速度-准确度权衡，142 FPS 时 AP 为 28.1%，52 FPS 时 AP 为 37.4%，多尺度测试时 1.4 FPS 时 AP 为 45.1%。我们使用相同的方法来估计 KITTI 基准中的 3D 边界框和 COCO 关键点数据集上的人体姿势。我们的方法与复杂的多阶段方法具有竞争力并实时运行。

图一实时探测器COCO验证的速度-精度权衡。拟议的CenterNet优于一系列最先进的算法

一、简介

目标检测为许多视觉任务提供支持，例如实例分割 [7,21,32]、姿势估计 [3,15,39]、跟踪 [24,27] 和动作识别 [5]。目标检测有很多扩展应用，例如：监控 [57]、自动驾驶 [53] 和视觉问题解析 [1]。当前的对象检测器通过一个紧密包围对象的轴对齐边界框来表示每个对象[18,19,33,43,46]。然后，他们将对象检测简化为大量潜在对象边界框的图像分类。对于每个边界框，分类器确定图像内容是特定对象还是背景。Onestage 检测器 [33, 43] 在图像上滑动可能的边界框（称为锚点）的复杂排列，并直接对它们进行分类，而无需指定框内容。两阶段检测器 [18, 19, 46] 重新计算每个潜在框的图像特征，然后对这些特征进行分类。后处理，即非极大值抑制，然后通过计算边界框 IoU 去除同一实例的重复检测。这种后处理很难区分和训练[23]，因此大多数当前的检测器都不是端到端可训练的。尽管如此，在过去的五年中[19]，这个想法已经取得了很好的经验成功[12,21,25,26,31,35,47,48,56,62,63]。然而，基于滑动窗口的对象检测器有点浪费，因为它们需要枚举所有可能的对象位置和尺寸。

在本文中，我们提供了一种更简单、更有效的替代方案。我们通过边界框中心的一个点来表示对象（参见图 2）。然后直接从中心位置的图像特征回归其他属性，例如对象大小、尺寸、3D 范围、方向和姿势。目标检测是一个标准的关键点估计问题[3,39,60]。我们只需将输入图像输入到生成热图的全卷积网络 [37,40]。此热图中的峰值对应于对象中心。每个峰值的图像特征预测物体边界框的高度和权重。该模型使用标准的密集监督学习进行训练 [39,60]。推理是单个网络前向传递，没有用于后处理的非极大值抑制。

我们的方法是通用的，可以轻松扩展到其他任务。我们通过预测每个中心点的额外输出来提供 3D 对象检测 [17] 和多人人体姿态估计 [4] 的实验（见图 4）。对于 3D 边界框估计，我们回归到对象绝对深度、3D 边界框尺寸和对象方向 [38]。对于人体姿态估计，我们将 2D 关节位置视为距中心的偏移量，并在中心点位置直接回归到它们。

我们方法的简单性使其能够以非常高的速度运行 CenterNet（图 1）。使用简单的 Resnet18 和上卷积层 [55]，我们的网络以 142 FPS 的速度运行，具有 28.1% 的 COCO 边界框 AP。通过精心设计的关键点检测网络 DLA34 [58]，我们的网络以 52 FPS 的速度实现了 37.4% 的 COCO AP。配备最先进的关键点估计网络、Hourglass-104 [30,40] 和多尺度测试，我们的网络以 1.4 FPS 的速度实现了 45.1% 的 COCO AP。在 3D 边界框估计和人体姿态估计方面，我们以更高的推理速度与最先进的技术竞争。

图二我们将对象建模为其边界框的中心点。边界框大小和其他对象属性是从中心的关键点特征推断出来的。最好以彩色观看。

二、相关工作

通过区域分类进行对象检测

第一个成功的深度对象检测器之一RCNN [19]，从大量候选区域 [52] 中枚举对象位置，对其进行裁剪，并使用深度网络对每个对象进行分类。 Fast-RCNN [18] 改为裁剪图像特征，以节省计算量。然而，这两种方法都依赖于缓慢的低级区域提议方法。

使用隐式anchors进行对象检测

Faster RCNN [46] 在检测网络中生成区域提议。它对低分辨率图像网格周围的固定形状边界框（锚）进行采样，并将每个边界框分类为“前景”或“非前景”。 anchors区域与任何真是区域的IOU大于0.7，认为是正样本，小于0.3认为是负样本，负责忽略。每个生成的区域再次被分类[18]。将提议分类器更改为多类分类构成了一级检测器的基础。对一级检测器的一些改进包括anchors形状先验[44、45]、不同的特征分辨率[36]以及不同样本之间的损失重新加权[33]。

我们的方法与基于anchors的 onestage 方法密切相关 [33,36,43]。中心点可以看作是一个与形状无关的anchors（见图 3）。但是，有一些重要的区别。首先，我们的 CenterNet 仅根据位置分配“anchors”，而不是框重叠 [18]。我们没有用于前景和背景分类的手动阈值 [18]。其次，我们每个对象只有一个正“锚”，因此不需要非极大值抑制（NMS）[2]。我们只是在关键点热图中提取局部峰值 [4,39]。第三，与传统的目标检测器 [21,22]（输出步幅为 16）相比，CenterNet 使用更大的输出分辨率（输出步幅为 4）。这消除了对多个anchors的需要 [47]。

通过关键点估计进行对象检测

我们不是第一个使用关键点估计进行对象检测的人。CornerNet [30] 检测两个边界框角作为关键点，而 ExtremeNet [61] 检测所有对象的顶部、左侧、底部、最右侧和中心点。这两种方法都建立在与我们的 CenterNet 相同的稳健关键点估计网络上。然而，它们需要在关键点检测之后进行组合分组阶段，这会显着减慢每个算法的速度。另一方面，我们的 CenterNet 只需为每个对象提取一个中心点，而无需分组或后处理。

单目3D物体检测

3D 边界框估计为自动驾驶提供动力 [17]。Deep3Dbox [38] 使用慢速 RCNN [19] 风格框架，首先检测 2D 对象 [46]，然后将每个对象输入 3D 估计网络。3D RCNN [29] 为 Faster-RCNN [46] 添加了一个额外的头部，然后是 3D 投影。 Deep Manta [6] 使用经过许多任务训练的从粗到细的 Faster-RCNN [46]。我们的方法类似于 Deep3Dbox [38] 或 3DRCNN [29] 的单阶段版本。因此，CenterNet 比竞争方法更简单、更快。

a)基于标准anchors的检测。anchors在与任何对象的重叠 IoU > 0.7 时计为正样本，在重叠 IoU < 0.3 时计为负样本，否则将被忽略。

b)基于中心点的检测。中心像素被分配给对象。附近点的负损失减少。对象大小已回归。

图三基于锚的检测器 (a) 和我们的中心点检测器 (b) 之间的差异。最好在屏幕上观看。

三、初步工作

令 I ∈ R W×H×3 ，I为宽度为 W 和高度为 H 的输入图像。我们的目标是生成一个关键点热图 ^ Y ∈ [0,1] W R × H R ×C ，其中 R 是输出步幅，C 是关键点类型的数量。关键点类型包括人体姿态估计中的 C = 17 个人体关节 [4,55]，或目标检测中的 C = 80 (COCO数据集)个对象类别 [30,61]。我们在文献 [4,40,42] 中使用 R = 4 的默认输出步幅。输出步幅通过因子 R 对输出预测进行下采样。预测 ^ Y x,y,c = 1 对应于检测到的关键点，而 ^ Y x,y,c = 0 是背景。我们使用几种不同的全卷积编解码网络从图像I预测ˆY：叠加沙漏网络[30,40]，上卷积残差网络（ResNet）[22,55]，和深层聚合（DLA）

我们按照 Law 和 Deng [30] 训练关键点预测网络。对于 c 类的每个地面实况关键点 p ∈ R 2，我们计算一个低分辨率等效项 ∼ p = b p R c。然后，我们使用高斯核

，其中 σ p 是对象尺寸自适应标准差 [30]。如果同一类的两个高斯重叠，我们取元素最大值[4]。训练目标是具有焦点损失的减少惩罚的像素逻辑回归 [33]：

其中 α 和 β 是焦点损失的超参数 [33]，N 是图像 I 中关键点的数量。选择 N 的归一化以将所有正焦点损失实例归一化为 1。我们使用 α = 2 和在我们所有的实验中，β = 4，遵循 Law 和 Deng [30]。

为了恢复由输出步幅引起的离散化误差，我们额外预测了一个局部偏移 ^ O ∈ R W R × H R ×2，对于每个中心点。所有类 c 共享相同的偏移量预测。使用 L1 损失训练偏移量

监督仅作用于关键点位置 ~ p，所有其他位置都被忽略。

在下一节中，我们将展示如何将此关键点估计器扩展到通用目标检测器。

图 4：我们网络针对不同任务的输出：顶部用于对象检测，中间用于 3D 对象检测，底部：用于姿势估计。所有模态都由一个共同的主干产生，具有不同的 3 × 3 和 1 × 1 输出卷积，由 ReLU 分隔。括号中的数字表示输出通道。详见第 4 节。

四、对象作为点

令 (x (k) 1 ,y (k) 1 ,x (k) 2 ,y (k) 2 ) 为类别 c k 的对象 k 的边界框。它的中心点位于 p k = ( x (k) 1 +x (k) 2 2 , y (k) 1 +y (k) 2 2 )。我们使用我们的关键点估计器 ^ Y 来预测所有中心点。此外，我们回归到每个对象 k 的对象大小 s k = (x (k) 2 - x (k) 1 ,y (k) 2 - y (k) 1 )。为了限制计算负担，我们对所有对象类别使用单个大小预测 ^ S ∈ R W R × H R ×2。我们在中心点使用 L1 损失，类似于目标 2：

我们不对比例进行归一化，直接使用原始像素坐标。我们改为按常数 λ size 缩放损失。总体训练目标是

除非另有说明，否则我们在所有实验中设置 λ size = 0.1 和 λ off = 1。我们使用单个网络来预测关键点 ^ Y 、偏移 ^ O 和大小 ^ S。网络在每个位置预测总共 C + 4 个输出。所有输出共享一个通用卷积骨干网络。对于每种模态，主干的特征然后通过一个单独的 3 × 3 卷积、ReLU 和另一个 1 × 1 卷积。图 4 显示了网络输出的概览。第 5 节和补充材料包含额外的架构细节。

从点到边界框

在推理时，我们首先独立地提取每个类别的热图中的峰值。我们检测所有值大于或等于其 8 个连接邻居的响应，并保留前 100 个峰值。设 ^ P c 是 n 个检测到的中心点的集合 ^ P = {(^ x i , ^ y i )} n i=1 类 c。每个关键点位置由整数坐标 (x i ,y i ) 给出。我们使用关键点值 ^ Y x i y i c 作为其检测置信度的度量，并在位置生成一个边界框

其中 (δ^ x i ,δ^ y i ) = ^ O ^ x i ,^ y i 是偏移预测， (^ w i , ^ h i ) = ^ S ^ x i ,^ y i 是大小预测。所有输出都是直接从关键点估计产生的，不需要基于 IoU 的非极大值抑制 (NMS) 或其他后处理。峰值关键点提取可作为 NMS 的充分替代方案，并且可以使用 3 × 3 最大池化操作在设备上有效实现。

4.1 3D检测

3D 检测估计每个对象的 3D 边界框，并且每个中心点需要三个附加属性：深度、3D 维度和方向。我们为每个人添加一个单独的头。深度 d 是每个中心点的单个标量。然而，深度很难直接回归。我们改为使用 Eigen 等人的输出变换。 [13] 和 d = 1/σ( ^ d) - 1，其中 σ 是 sigmoid 函数。我们将深度计算为关键点估计器的附加输出通道 ^ D ∈ [0,1] W R × H R。它再次使用由 ReLU 分隔的两个卷积层。与以前的模式不同，它在输出层使用反 sigmoidal 变换。在 S 形变换之后，我们使用原始深度域中的 L1 损失来训练深度估计器。

对象的 3D 维度是三个标量。我们使用单独的 head ^ Γ ∈ R W R × H R ×3 和 L1 损失直接回归到它们的绝对值（以米为单位）。

默认情况下，方向是单个标量。但是，它可能很难回归。我们关注 Mousavian 等人。 [38]并将方向表示为两个带有in-bin回归的bin。具体来说，使用 8 个标量对方向进行编码，每个 bin 有 4 个标量。对于一个 bin，两个标量用于 softmax 分类，其余两个标量回归到每个 bin 内的一个角度。有关这些损失的详细信息，请参阅补充。

4.2. 人体姿态估计

人体姿态估计旨在为图像中的每个人体实例估计 k 个 2D 人体关节位置（对于 COCO，k = 17）。我们将姿势视为中心点的 k × 2 维属性，并通过到中心点的偏移量对每个关键点进行参数化。我们直接回归到jointoffsets(inpixels) ^ J ∈ R W R × H R ×k×2，损失L1。我们通过掩盖损失来忽略不可见的关键点。这导致了一个基于回归的单阶段多人人体姿势估计器，类似于慢速 RCNN 版本的对应物 Toshev 等人。 [51] 和孙等人。 [49]。

为了细化关键点，我们使用标准的自下而上的多人体姿态估计 [4,39,41] 进一步估计 k 个人体关节热图 ^ Φ ∈ R W R × H R ×k。我们用焦点损失和局部像素偏移来训练人类关节热图，类似于本3节中讨论的中心检测。

然后，我们将初始预测捕捉到此热图上最近检测到的关键点。在这里，我们的中心偏移作为一个分组提示，将单个关键点检测分配给他们最近的人实例。具体来说，让 (^ x, ^ y) 为检测到的中心点。我们首先回归到所有关节位置 l j = (^ x, ^ y) + ^ J ^ x^ yj 对于 j ∈ 1...k。我们还从对应的热图中提取所有关键点位置 L j = { ∼ l ji } n j i=1，每个关节类型 j 的置信度 > 0.1。然后，我们将每个回归位置 l j 分配给其最近的检测到的关键点 argmin l∈L j (l−l j ) 2 ，仅考虑检测对象边界框内的联合检测。

五、实施细节

我们用 4 种架构进行实验：ResNet-18、ResNet101 [55]、DLA-34 [58] 和 Hourglass-104 [30]。我们使用可变形卷积层 [12] 修改 ResNets 和 DLA-34，并按原样使用 Hourglass 网络。

Hourglass

沙漏网络 [30, 40] 将输入下采样 4 倍，然后是两个顺序沙漏模块。每个沙漏模块都是一个具有跳跃连接的对称 5 层上下卷积网络。这个网络非常大，但通常会产生最佳的关键点估计性能。

ResNet

肖等人 [55] 用三个上卷积网络增强标准残差网络 [22]，以允许更高分辨率的输出（输出步幅 4）。我们首先将三个上采样层的通道分别更改为 256,128,64，以节省计算量。然后，我们分别在通道 256、128、64 的每个上卷积之前添加一个 3 × 3 可变形卷积层。上卷积核被初始化为双线性插值。有关详细的架构图，请参阅补充。

DLA

深层聚合（DLA）[58]是一个具有分层跳跃连接的图像分类网络。我们利用 DLA 的完全卷积上采样版本进行密集预测，它使用迭代深度聚合来对称地增加特征图分辨率。我们使用从较低层到输出的可变形卷积 [63] 来增加跳跃连接。具体来说，我们在每个上采样层用 3×3 可变形卷积替换原始卷积。有关详细的架构图，请参阅补充。

我们在每个输出头之前添加一个 3 × 3 卷积层，256 通道。最后的 1 × 1 卷积然后产生所需的输出。我们在补充材料中提供了更多细节。

训练

我们在 512 × 512 的输入分辨率上进行训练。这为所有模型产生了 128×128 的输出分辨率。我们使用随机翻转、随机缩放（在 0.6 到 1.3 之间）、裁剪和颜色抖动作为数据增强，并使用 Adam [28] 来优化整体目标。我们不使用增强来训练 3D 估计分支，因为裁剪或缩放会改变 3D 测量值。对于残差网络和 DLA-34，我们使用 128 的批量大小（在 8 个 GPU 上）和 5e-4 的学习率进行 140 个 epoch 的训练，学习率分别在 90 和 120 个 epoch 下降了 10 倍（遵循 [55 ]）。对于 Hourglass-104，我们遵循ExtremeNet [61] 并使用批量大小 29（在 5 个 GPU 上，主 GPU 批量大小为 4）和学习率 2.5e-4 进行 50 个时期，在 40 时期下降 10 倍学习率 . 对于检测，我们微调了 ExtremeNet [61] 中的 Hourglass-104 以节省计算量。 Resnet101 和 DLA-34 的下采样层使用 ImageNet 预训练初始化，上采样层随机初始化。 Resnet-101 和 DLA-34 在 8 个 TITAN-V GPU 上训练需要 2.5 天，而 Hourglass-104 需要 5 天。

推理

我们使用三个级别的测试增强：无增强、翻转增强、翻转和多尺度（0.5、0.75、1、1.25、1.5）。对于翻转，我们在解码边界框之前平均网络输出。对于多尺度，我们使用 NMS 来合并结果。这些增强会产生不同的速度-准确度权衡，如下一节所示

论文地址

https://arxiv.org/abs/1904.07850

代码

https://github.com/xingyizhou/CenterNet

个人理解

这个位置总结一下个人对于有anchors和无anchors的一些理解

有anchors

什么是anchors呢？？个人理解就是图像进来经过一系列的卷积，得到很多的特征层，特征层上的每一个点都能够在一定程度上代表原始图像上一块区域的特征，因此只要你选的特征层上的点够多，你就能穷举出原始图像中想要识别出来的目标框，这种将可能的目标框穷举的这种方式就是anchors的核心思想，由于目标尺寸不同呀，可能设计了不同的anchors尺寸，由于目标的大小不同呀，可能在不同的特征图上布置anchors，虽然不同的检测方法anchors的细节不太一样。这种穷举预选框，然后对全部预选框进行分类，然后将分类出来的预选框进非极大值抑制得到最终结果，是整个深度学习有anchors目标检测的核心

以SSD为例吧，个人觉得SSD算是有anchors里第一篇基本思想都出来了的文章

SSD里，当图像进来之后，会进行一系列的卷积，然后在第4、7、8、9、10、11六个特征层上布置anchors，然后将全部的anchors进行分类，再将同一个类别相近的框进行非极大值抑制。整体思路就是穷举、分类、挑最好的。

本文

centernet能做很多事，以目标检测为例

目标检测经过一顿卷，同时得到三个特征图，一个热力图用来定位目标中心点，一个偏置图用来精调中心点坐标，一个尺寸图用来定义目标框宽高，以COCO数据集80个类别，输入图像512*512为例，最后生成的三个特征图尺寸缩放4倍。因此第一个特征图尺寸为1*80*128*128，80对应类别，在特征图上的坐标对应中心点的大致坐标；第二个特征图尺寸为1*160*128*128，160为80个类别*(x,y)两个方向的偏置；第三个特征图尺寸为1*160*128*128，160为80个类别*(w,h)；

centernet你说他没有anchors吧，确实是没用anchors，但是他的第一个特征图加上第三个特征图，出来的结果不就类似于anchors，第二个特征图类似进行回归位置的矫正。这个思想真是牛呀

细节说明

损失函数

针对公式4，λ size = 0.1 和 λ off = 1，最后三个特征图，在损失加和的时候三者的系数还不一样，其中wh的损失系数只有其他两者的十分之一，这点在论文后面有描述，作者通过实验发现这个系数设成0.1会更好一些

网络结构

resdcn34

《三十岁，一切刚刚开始》读书笔记Day02/25 设绘喵爱读书April
第一章：三十岁轨迹1-2三十岁，真正的人生才刚刚开始•人和人不能用生理年龄来区分，更不能十年、十年地来划分。•见过很多二十多岁却从不学习的年轻人，也见过六十多岁还在路上奔波的长者，前者已经老了，后者依旧年轻。所以，人到底什么时候才算变老了呢？答案是，不学习的时候，不进步的时候。•有两种方式可以让人减缓衰老：第一，寻找一个伟大的目标，用一生完成。第二，做一件持续升值的事情，直到永远。•这两种减缓衰老
想象篇盗墓笔记 zy呵呵呵
（2）克凌来到穿越门面前，穿越门对克凌说：“这位男士，请问你想去哪儿？”“我要到一百年以前，去盗墓！”“呵呵，去盗墓啊！提醒你，那里非常危险哦！”“没事，我不怕！”“好的，现在开始穿越之旅，坐稳点！”一眨眼，就来到1918年，克凌看了看周围，自己在街上，非常吵闹。克凌来到一家饭店，要了盘瓜子，在吃起来，听着其他人谈话。“听说要来个人，要开拍卖会。”“真的吗？”“听说那是个财主！”“那东西是恶龙的蛋
阅读记录（54）｜拆书稿拟定主题方式初十一
阅读目的/碎片出处碎片出处：阅读分享三十九：《拆书稿的经典结构，如何拟定一个主题点？》-笔记内链：阅读目的：了解拆书稿的提炼主题的方式，在读书时应用提炼知识点，总结成个人思想读后收获/感受要点一：干货类书籍拆书结构：话题引入+书的名字+作者观点+提出问题+作者解决办法+总结收尾开头用相关热点或者是生活痛点进行引入，读书化做已用，要先思考哪些点能解决自己的哪方面的问题自然而然地引出书的名字，表明这本
看一个广告赚1元的软件，手机上用这个方法一天挣50以上配音就业圈
高效利用移动平台，智慧创收新途径：探索日入五十元的广告浏览应用在数字时代的浪潮中，创新技术正以前所未有的方式改变着我们的生活方式与经济模式。兼职副业推荐公众号，配音新手圈，声优配音圈，新配音兼职圈，配音就业圈，鼎音副业，有声新手圈，每天更新各种远程工作与在线兼职，职位包括：写手、程序开发、剪辑、设计、翻译、配音、无门槛、插画、翻译、等等。。。每日更新兼职。1、配音新手圈这是一个公众号配音新手圈里面
百年百部图画书阅读打卡Day11：《河马幼儿园》囡啵萬的中央哆
今天我们要分享的是21本中年代最为久远的一本《河马幼儿园》，这部作品早在1922年就问世了，由我国著名的作家、学者、翻译家郑振铎老师在他创办的我国最早的儿童期刊《儿童世界》上连载。这组故事原名叫作《河马幼稚园》，由于“幼稚园”是1922年使用的旧称，所以将标题和内文中的“幼稚园”改为“幼儿园”。这本作品是由郑振铎先生创作的。他是福建长乐人，中国现代著名作家、文学评论家、文学史家、艺术史家、翻译家、
《金文成〈中庸〉学习笔记399。2020-2-22》金吾生
《金文成〈中庸〉学习笔记399。2020-2-22》今天是庚子年戊寅月乙未日，正月廿九，2020年2月22日星期六。【唯天下至诚，为能尽其性；能尽其性，则能尽人之性；能尽人之性，则能尽物之性；能尽物之性，则可以赞天地之化育；可以赞天地之化育，则可以与天地参矣。】上一节，船山讲到诚与性的关系，诚是第二性的，性是第一性的，该怎么理解呢？船山说：“诚者性之撰也，性者诚之所丽也”，意思是说，不能简单地将诚
python笔记day1 w的狗子啊
01.Holleword1.pycharm快捷键ctrl+/----添加或者取消注释ctrl+s----保存ctrl+c----复制ctrl+v----粘贴ctrl+n----新建ctrl+f----搜索ctrl+r----替换ctrl+z----撤销ctrl+shift+z-----反撤销ctrl+a----全选2.注意事项在程序中涉及到的所有和语法相关的符号，都是在英文输入法下对应的符号。实际
从文本到语音：使用 ElevenLabs 和 FFmpeg 实现语音合成与播放曦紫沐语音模型 ffmpeg ElevenLabs 语音合成
摘要在当今的人工智能时代，语音合成技术正变得越来越普及。ElevenLabs是一个强大的语音合成平台，能够生成高质量的语音音频。本文将详细介绍如何结合Python、ElevenLabsAPI和FFmpeg工具集，实现从文本到语音的转换，并通过ffplay播放生成的音频文件。同时，我们将解决常见的问题，如ffplay未找到或音频无法播放等。1.引言随着人工智能技术的发展，语音合成（Text-to-S
DK遇见未来：机器人祖爸
人工智能、AI、机械设计、BigData……这些听起来就很高端的专业究竟是什么？这些前沿学科相遇又会碰撞出什么？机器人，将这些前沿领域结合在一起越来越多的融入到我们的工作与生活中可问题来了机器人究竟是什么呢？又该如何给孩子讲机器人呢？这本《DK遇见未来：机器人》完美解决您的烦恼最新数据、系统知识、精美插图可以说这是一本儿童机器人大百科让孩子在这里遇见未来在讲读版视频中与您共同思考未来社会中机器人与
怎样学习2.0（也就是怎样实现自己的梦想）？希望是终结版 gjf05_05 初学者综合 google 百度
2$*******************************************************************324.怎样学习？41.前期：整体规划与局部规划52.中期：提出问题与解决问题与同行交流！63.后期:笔记（总结）。7******************************8解释1.整体规划:了解怎样实现梦想?9(也就是实现梦想大致应该做些什么？也就是把梦
ORACLE 11g 使用ROWNUM完美解决ORA-00600 内部错误代码有点智慧
分享一下我老师大神的人工智能教程！零基础，通俗易懂！http://blog.csdn.net/jiangjunshow也欢迎大家转载本篇文章。分享知识，造福人民，实现我们中华民族伟大复兴！1，ORA-00600：内部错误代码Oracle从11.2.0.1升级到11.2.0.4，开发人员报告说一个job运行失败，调试有报错信息，ORA-00600:内部错误代码，参数：[rwoirw:checkret
Kimi-Audio：最佳音LLM, 如何免费使用 Kimi-Audio AI 模型？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 kimi
简介继DeepSeek之后，字节跳动（现名MoonShotAI，又名Kimi）也在生成式人工智能领域加速发展，并发布了自己的音频模型Kimi-Audio，据说是迄今为止最好的音频模型。推荐文章《NvidiaGPU入门教程之02ubuntu安装A100显卡驱动(含8步快速浓缩教程)》权重2，安装A100显卡驱动《本地大模型知识库OpenWebUI系列之如何解决知识库上传文件故障Extractedco
Python就业薪资好不好，学Python工作机会多吗？ Python小辰
Python就业薪资好不好？学Python工作机会多吗？人工智能时代的来临让Python崭露头角，各大企业纷纷加大对相关人才的招聘力度吸引了很多人入行学习Python。近年来Python开发发展迅猛，吸引了很多科技公司入驻，且看小编的分析。Python薪资好不好?数据是最有力的答案。职友集统计数据显示，全国Python工程师的平均月资达19160，其中20-30K的工程师数量超过了四成。来自智联招
数据库学习笔记——14组合查询 Love零O
本课学习如何利用UNION操作符将多条SELECT语句组合成一个结果集。1组合查询多数SQL查询只包含从一个或多个表中返回数据的单条SELECT语句。但是，SQL也允许执行多个查询（多条SELECT语句），并将结果作为一个查询结果集返回。这些组合查询通常称为并（UNION）或复合查询（compoundquery）。主要有两种情况需要使用组合查询：在一个查询中从不同的表返回结构数据；对一个表执行多个
反躬自省：用手中的笔让世界变得更美好的文学家——读《品格之路》笔记（2021年11月22日）敏于事而慎于言
今天阅读了本书第九章内容，主题为：反躬自省——用手中的笔让世界变得更美好的文学家。这一章的主人公是塞缪尔·约翰逊——英国作家、文学评论家和诗人，最让他得以扬名的是他用九年的时间编著而成的《英语大辞典》。婴儿期就由于感染淋巴结核导致一只眼睛永久失明，另一只眼睛弱视，一只耳朵失聪。后来，天花又使他变得丑陋无比。这就是作者开篇对塞缪尔.约翰逊的描写。用这幅形象来映衬他后期通过艰难成长而取得的了不起的成就
Jetson平台编译Tengine space01 AIoT Jetson 人工智能深度学习计算机视觉
1.Tengine简介Tengine于2017年在GitHub（https://github.com/OAID/Tengine）开源，是OPENAILAB（开放智能）推出的自主知识产权的边缘AI计算框架，致力于解决AIoT产业链碎片化问题，加速AI产业化落地。Tengine兼容多种操作系统和深度学习算法框架，简化和加速面向场景的AI算法在嵌入式边缘设备上快速迁移，以及实际应用部署落地，可以十倍提升
机器人-组成结构-感知 - 决策 - 执行具身智能-查布嘎具身智能机器人人工智能
目录一、感知系统内部传感器：外部传感器：二、智能决策系统机器学习家族1.1机器学习2.1深度学习2.2深度学习模型(主要属于监督/强化学习范畴，但结构通用)：3.1监督学习3.2监督学习模型4.1半监督学习4.2无/半监督学习模型：5.1无监督学习5.2生成模型(可属于监督/无监督)：6.1强化学习7.1其他学习三、控制系统（运控）①对应小脑和脊柱一、感知系统①对应人体的五官。由具有不同功能的各种
深度学习篇---矩阵 Atticus-Orion 嵌入式知识篇上位机知识篇嵌入式硬件篇深度学习矩阵人工智能
在机械臂解算、深度学习网络等硬件和软件领域中，矩阵运算作为核心数学工具，承担着数据表示、变换、映射和优化的关键作用。以下从具体领域出发，详细总结涉及的矩阵运算及对应的核心知识：一、机械臂解算领域机械臂解算（运动学、动力学分析）的核心是描述“关节空间”与“操作空间”的映射关系，矩阵运算用于精准刻画坐标系转换、运动传递和力/力矩分析。1.运动学解算（正/逆运动学）核心目标：通过矩阵描述关节角度与末端执
【乳腺超声、乳腺钼靶、宫颈癌、CT骨折】等项目数据调研，及相关参考内容整理汇总钱多多先森人工智能（AI）医学影像深度学习乳腺钼靶乳腺超声宫颈癌
文章目录一、乳腺超声内容整理1.1、数据集1.2、可以参考的论文1.3、可以参考的GitHub代码1.4、可以参考的博客1.5、简单任务需求二、宫颈癌风险智能诊断2.1、数据集2.2、KFB读取文件显示三、乳腺钼靶3.1、数据集3.2、拍摄方式：3.3、拍摄和观察视图3.4、DDSM标注文件解析四、CT骨折4.1、数据集五、总结本博客是一个笔记类的记录文档，主要是记录了在调研各个项目的过程中，遇到
5商学习笔记爱英思谭523
【Jocelyn1月25日习得小结:】1.知识划重点(R):快速学习：如何用20小时，快速学习？2.我的理解(I):润总这个快速学习，跟李笑来老师的最小必要知识很类似，都是通过快速掌握入门的知识，完成从0到1的跨越。时间越快，掌握大概知识越多进门就越快。3.我的相关经验或经历(A1):复述其实是帮助自己去理解概念的绝佳方式。自己带课这几年，对于教材中的概念从浅入深的学习和理解，跟我面对无数个不一样
2022-04-18团练笔记（第三次）花火喜珠
昨天上午团练摸打滚爬三小时，不觉得累，难道是我体能有增？今天左右臀部，后腰，大臂酸疼，看样子老师还是加了些量，不过还不够过瘾！因为，课后我又步行四十分钟回家了。挑战了一个一直以来很惧怕的动作，有一点点心得，还是比较怕。慢慢来吧。左右侧后翻需要做出分解慢动作。横线组合地面旋转一圈半，一直是摸鱼混过去的，需要多练练。改掉耸肩毛病，动作再舒展一些。呼吸带动动作，听着容易，看老师做的也容易，为啥自己做起来
7个正规的一单一结打字录入赚钱软件app平台推荐配音新手圈
在寻找-以下是七个值得推荐的正规平台，它们不仅提供了丰富的打字录入任务，还确保了用户能够即时获得报酬。兼职副业推荐公众号，配音新手圈，声优配音圈，新配音兼职圈，配音就业圈，鼎音副业，有声新手圈，每天更新各种远程工作与在线兼职，职位包括：写手、程序开发、剪辑、设计、翻译、配音、无门槛、插画、翻译、等等。。。每日更新兼职。1、配音新手圈这是一个公众号配音新手圈里面每天更新配音任务，都是适合没有基础的人
AI驱动的电路仿真革命：从物理模型到智能学习的范式转移
AI驱动的电路仿真革命：从物理模型到智能学习的范式转移人工智能正颠覆传统电路仿真方法，本文将深入解析AI在电路建模、优化与故障诊断中的前沿应用，揭示智能仿真如何提升10倍效率并突破物理限制。一、AI电路仿真的数学基础1.1图神经网络建模电路拓扑电路可抽象为图结构G=(V,E)G=(V,E)G=(V,E)：VVV：节点（电子元件）EEE：边（连接关系）图卷积网络(GCN)更新公式：H(l+1)=σ(
MCP协议技术解析：AI时代的通信基础设施革命
MCP协议技术解析：AI时代的通信基础设施革命在AI从工具演变为协作伙伴的进程中，MCP协议正在成为连接智能体与现实世界的“数字神经系统”。当前人工智能技术正经历从孤立模型向生态系统协作的关键转型，而通信协议作为AI能力的“连接器”，其设计直接决定了智能系统的边界与效率。MCP协议（ModelContextProtocol）作为新一代AI通信基础设施，正在开发者社区引发一场静默革命。本文将从技术原
2023-08-27 每天都微笑
20230827《会痛的不是爱》273笔记及摘抄笔记及摘抄1我们来到世间，就是为了做自己。经历体验，合作创造属于自己独特的生活与功课。尽管信任笃定，安心欢喜的做自己吧。因为这是我们来此，你我他终究要做的。不必比较评判，无需预设强求，我们都尽管做好自己。2一个人，不能控制另外一个人，也因此不能推动另外一个人。每个人都只能自己推动自己，所以应当给别人一些空间。3学习真实、自由、负责任地做自己，并通过同
GENERALIST REWARD MODELS: FOUND INSIDE LARGELANGUAGE MODELS 樱花的浪漫大模型与智能体对抗生成网络与动作识别强化学习语言模型人工智能自然语言处理深度学习机器学习计算机视觉
GeneralistRewardModels:FoundInsideLargeLanguageModelshttps://arxiv.org/pdf/2506.232351.概述将大型语言模型（LLMs）与复杂的人类价值观（如乐于助人和诚实）对齐，仍然是人工智能发展中的一个核心挑战。这项任务的主要范式是来自人类反馈的强化学习（RLHF）[Christianoetal.,2017;Baietal.,
这个冬天格外的冷，格外的长（第十一章）麦芒律师
看似平静地回到家，她躲到房间里，还是往外瞄了瞄，其实黑漆漆的，啥也看不到。小心翼翼地从包里慢慢抽出那个笔记本，凑近煤油灯，用手反复摩挲着光滑的封面，晃一晃，反射出晶莹剔透的光，太阳下肯定更漂亮。她谨慎地翻开封面，第一页有一行蓝色钢笔字，字体刚劲有力：好好学习，好好生活！她双手轻轻地抚摸着这几个字，眼泪不受控制地往外涌，她赶紧用袖口抹去，不然会落到本子上，可是为什么越抹越多呢？婆婆催着睡觉，她吹灭了
淘宝优惠券app排名前十(最受欢迎的10款省钱优惠劵app) 直返APP淘宝优惠券
随着网购的普及，越来越多的人开始寻找各种省钱的方法。其中，使用淘宝优惠券APP就是一种非常受欢迎的省钱方式。在这篇文章中，我们将为你介绍淘宝优惠券APP排名前十的app，帮助你省钱购物。月入十万必看！都在挣钱！推荐几个月入几千到几万的靠谱副业项目！（公众号：善士思维笔记）一、直返直返的口号是“返利就用直返”，它强调没有上级赚差价，直接为用户提供商家和消费者之间的综合优惠券返利平台。用户可以在直返上
Python深度学习实践：LSTM与GRU在序列数据预测中的应用 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python深度学习实践：LSTM与GRU在序列数据预测中的应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来序列数据预测是机器学习领域的一个重要研究方向，涉及时间序列分析、自然语言处理、语音识别等多个领域。序列数据具有时间依赖性，即序列中每个元素都受到前面元素的影响。传统的机器学习算法难以捕捉这种时间依赖性，而深度学习
初探机器学习与力学研究的交叉领域 faderbic 机器学习人工智能深度学习
目录关于如何踏入机器学习领域机器学习与力学研究的交叉方向1.使用机器学习加速有限元求解2.结合有限元计算和机器学习预测复杂材料结构与力学性能的关系3.结构健康检测4.疲劳寿命预测总结关于如何踏入机器学习领域因为我本科的专业是力学，所以当我开始关注机器学习领域时，首先考虑的是机器学习和力学的交叉领域。对于很多对人工智能感兴趣的朋友，想加入人工智能的潮流却不知道从何学起，我提供一个思路，我认为将自己学
Spring4.1新特性——综述 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Schema与数据类型优化 annan211 数据结构 mysql
目前商城的数据库设计真是一塌糊涂，表堆叠让人不忍直视，无脑的架构师，说了也不听。在数据库设计之初，就应该仔细揣摩可能会有哪些查询，有没有更复杂的查询，而不是仅仅突出很表面的业务需求，这样做会让你的数据库性能成倍提高，当然，丑陋的架构师是不会这样去考虑问题的。选择优化的数据类型 1 更小的通常更好更小的数据类型通常更快，因为他们占用更少的磁盘、内存和cpu缓存，
第一节 HTML概要学习 chenke html Web css
第一节 HTML概要学习 1. 什么是HTML HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写，它规定了自己的语法规则，用来表示比“文本”更丰富的意义，比如图片，表格，链接等。浏览器（IE,FireFox等）软件知道HTML语言的语法，可以用来查看HTML文档。目前互联网上的绝大部分网页都是使用HTML编写的。打开记事本输入一下内
MyEclipse里部分习惯的更改 Array_06 eclipse
继续补充中---------------------- 1.更改自己合适快捷键windows-->prefences-->java-->editor-->Content Assist--> Activation triggers for java的右侧“.”就可以改变常用的快捷键选中 Text
近一个月的面试总结 cugfy 面试
本文是在学习中的总结，欢迎转载但请注明出处：http://blog.csdn.net/pistolove/article/details/46753275 前言打算换个工作，近一个月面试了不少的公司，下面将一些面试经验和思考分享给大家。另外校招也快要开始了，为在校的学生提供一些经验供参考，希望都能找到满意的工作。
HTML5一个小迷宫游戏 357029540 html5
通过《HTML5游戏开发》摘抄了一个小迷宫游戏，感觉还不错，可以画画，写字，把摘抄的代码放上来分享下，喜欢的同学可以拿来玩玩！ <html> <head> <title>创建运行迷宫</title> <script type="text/javascript"
10步教你上传githib数据张亚雄 git
官方的教学还有其他博客里教的都是给懂的人说得，对已我们这样对我大菜鸟只能这么来锻炼，下面先不玩什么深奥的，先暂时用着10步干净利索。等玩顺溜了再用其他的方法。操作过程（查看本目录下有哪些文件NO.1）ls （跳转到子目录NO.2）cd+空格+目录（继续NO.3）ls （匹配到子目录NO.4）cd+ 目录首写字母+tab键+（首写字母“直到你所用文件根就不再按TAB键了”）（查看文件
MongoDB常用操作命令大全 adminjun mongodb 操作命令
成功启动MongoDB后，再打开一个命令行窗口输入mongo，就可以进行数据库的一些操作。输入help可以看到基本操作命令，只是MongoDB没有创建数据库的命令，但有类似的命令如：如果你想创建一个“myTest”的数据库，先运行use myTest命令，之后就做一些操作（如：db.createCollection('user')）,这样就可以创建一个名叫“myTest”的数据库。一
bat调用jar包并传入多个参数 aijuans
下面的主程序是通过eclipse写的： 1.在Main函数接收bat文件传递的参数（String[] args）如： String ip =args[0]; String user=args[1]; &nbs
Java中对类的主动引用和被动引用 ayaoxinchao java 主动引用对类的引用被动引用类初始化
在Java代码中，有些类看上去初始化了，但其实没有。例如定义一定长度某一类型的数组，看上去数组中所有的元素已经被初始化，实际上一个都没有。对于类的初始化，虚拟机规范严格规定了只有对该类进行主动引用时，才会触发。而除此之外的所有引用方式称之为对类的被动引用，不会触发类的初始化。虚拟机规范严格地规定了有且仅有四种情况是对类的主动引用，即必须立即对类进行初始化。四种情况如下：1.遇到ne
导出数据库提示 outfile disabled BigBird2012 mysql
在windows控制台下，登陆mysql，备份数据库： mysql>mysqldump -u root -p test test > D:\test.sql 使用命令 mysqldump 格式如下： mysqldump -u root -p *** DBNAME > E:\\test.sql。注意：执行该命令的时候不要进入mysql的控制台再使用，这样会报
Javascript 中的 && 和 || bijian1013 JavaScript &&||
准备两个对象用于下面的讨论 var alice = { name: "alice", toString: function () { return this.name; } } var smith = { name: "smith",
[Zookeeper学习笔记之四]Zookeeper Client Library会话重建 bit1129 zookeeper
为了说明问题，先来看个简单的示例代码： package com.tom.zookeeper.book; import com.tom.Host; import org.apache.zookeeper.WatchedEvent; import org.apache.zookeeper.ZooKeeper; import org.apache.zookeeper.Wat
【Scala十一】Scala核心五：case模式匹配 bit1129 scala
package spark.examples.scala.grammars.caseclasses object CaseClass_Test00 { def simpleMatch(arg: Any) = arg match { case v: Int => "This is an Int" case v: (Int, String)
运维的一些面试题 yuxianhua linux
1、Linux挂载Winodws共享文件夹 mount -t cifs //1.1.1.254/ok /var/tmp/share/ -o username=administrator,password=yourpass 或 mount -t cifs -o username=xxx,password=xxxx //1.1.1.1/a /win
Java lang包-Boolean BrokenDreams boolean
Boolean类是Java中基本类型boolean的包装类。这个类比较简单，直接看源代码吧。 public final class Boolean implements java.io.Serializable,
读《研磨设计模式》-代码笔记-命令模式-Command bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.List; /** * GOF 在《设计模式》一书中阐述命令模式的意图：“将一个请求封装
matlab下GPU编程笔记 cherishLC matlab
不多说，直接上代码 gpuDevice % 查看系统中的gpu,,其中的DeviceSupported会给出matlab支持的GPU个数。 g=gpuDevice(1); %会清空 GPU 1中的所有数据,,将GPU1 设为当前GPU reset(g) %也可以清空GPU中数据。 a=1; a=gpuArray(a); %将a从CPU移到GPU中 onGP
SVN安装过程 crabdave SVN
SVN安装过程 subversion-1.6.12 ./configure --prefix=/usr/local/subversion --with-apxs=/usr/local/apache2/bin/apxs --with-apr=/usr/local/apr --with-apr-util=/usr/local/apr --with-openssl=/
sql　行列转换 daizj sql 行列转换行转列列转行
行转列的思想是通过case when 来实现列转行的思想是通过union all 来实现下面具体例子：假设有张学生成绩表(tb)如下: Name Subject Result 张三语文　　74 张三数学　　83 张三物理　　93 李四语文　　74 李四数学　　84 李四物理　　94 */ /* 想变成姓名 &
MySQL--主从配置 dcj3sjt126com mysql
linux下的mysql主从配置：说明：由于MySQL不同版本之间的(二进制日志)binlog格式可能会不一样，因此最好的搭配组合是Master的MySQL版本和Slave的版本相同或者更低， Master的版本肯定不能高于Slave版本。（版本向下兼容） mysql1 : 192.168.100.1 //master mysq
关于yii 数据库添加新字段之后model类的修改 dcj3sjt126com Model
rules: array('新字段','safe','on'=>'search') 1、array('新字段', 'safe')//这个如果是要用户输入的话，要加一下， 2、array('新字段', 'numerical'),//如果是数字的话 3、array('新字段', 'length', 'max'=>100),//如果是文本 1、2、3适当的最少要加一条，新字段才会被
sublime text3 中文乱码解决 dyy_gusi Sublime Text
sublime text3中文乱码解决原因：缺少转换为UTF-8的插件目的：安装ConvertToUTF8插件包第一步：安装能自动安装插件的插件，百度“Codecs33”，然后按照步骤可以得到以下一段代码： import urllib.request,os,hashlib; h = 'eb2297e1a458f27d836c04bb0cbaf282' + 'd0e7a30980927
概念了解：CGI，FastCGI，PHP-CGI与PHP-FPM geeksun PHP
CGI CGI全称是“公共网关接口”(Common Gateway Interface)，HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具，其程序须运行在网络服务器上。 CGI可以用任何一种语言编写，只要这种语言具有标准输入、输出和环境变量。如php,perl,tcl等。 FastCGI FastCGI像是一个常驻(long-live)型的CGI，它可以一直执行着，只要激活后，不
Git push 报错 "error: failed to push some refs to " 解决 hongtoushizi git
Git push 报错 "error: failed to push some refs to " . 此问题出现的原因是：由于远程仓库中代码版本与本地不一致冲突导致的。由于我在第一次git pull --rebase 代码后，准备push的时候，有别人往线上又提交了代码。所以出现此问题。解决方案： 1： git pull 2：
第四章 Lua模块开发 jinnianshilongnian nginx lua
在实际开发中，不可能把所有代码写到一个大而全的lua文件中，需要进行分模块开发；而且模块化是高性能Lua应用的关键。使用require第一次导入模块后，所有Nginx 进程全局共享模块的数据和代码，每个Worker进程需要时会得到此模块的一个副本（Copy-On-Write），即模块可以认为是每Worker进程共享而不是每Nginx Server共享；另外注意之前我们使用init_by_lua中初
java.lang.reflect.Proxy liyonghui160com
1.简介 Proxy 提供用于创建动态代理类和实例的静态方法（1）动态代理类的属性代理类是公共的、最终的，而不是抽象的未指定代理类的非限定名称。但是，以字符串 "$Proxy" 开头的类名空间应该为代理类保留代理类扩展 java.lang.reflect.Proxy 代理类会按同一顺序准确地实现其创建时指定的接口
Java中getResourceAsStream的用法 pda158 java
1.Java中的getResourceAsStream有以下几种： 1. Class.getResourceAsStream(String path) ： path 不以’/'开头时默认是从此类所在的包下取资源，以’/'开头则是从ClassPath根下获取。其只是通过path构造一个绝对路径，最终还是由ClassLoader获取资源。　　2. Class.getClassLoader.get
spring 包官方下载地址（非maven） sinnk spring
SPRING官方网站改版后，建议都是通过 Maven和Gradle下载，对不使用Maven和Gradle开发项目的，下载就非常麻烦，下给出Spring Framework jar官方直接下载路径: http://repo.springsource.org/libs-release-local/org/springframework/spring/ s
Oracle学习笔记(7) 开发PLSQL子程序和包 vipbooks oracle sql 编程
哈哈，清明节放假回去了一下，真是太好了，回家的感觉真好啊！现在又开始出差之旅了，又好久没有来了，今天继续Oracle的学习！这是第七章的学习笔记，学习完第六章的动态SQL之后，开始要学习子程序和包的使用了……，希望大家能多给俺一些支持啊！编程时使用的工具是PLSQL