亚索不能玩

基于草图的图像检索-Awesome-Sketch-Based-Applications 论文笔记

Awesome-Sketch-Based-Applications 论文笔记

项目地址：https://github.com/MarkMoHR/Awesome-Sketch-Based-Applications

文章目录

Awesome-Sketch-Based-Applications 论文笔记
Sketch Based 3D Shape Retrieval
- 2015CVPR-Sketch-based 3D Shape Retrieval using Convolutional Neural Networks
- - 采用联合 CNN 网络进行度量学习
  - 损失函数 -- 度量距离函数
- 2016AAAI-Learning Cross-Domain Neural Networks for Sketch-Based 3D Shape Retrieval
- - 特定类别的神经网络 Category-Specific Neural Networks
  - 跨域神经网络设计 Cross-Domain Neural Networks
  - 金字塔跨域神经网络设计 Pyramid Cross-Domain Neural Networks
- 2017AAAI-Deep Correlated Metric Learning for Sketch-based 3D Shape Retrieval
- - 深度相关性度量学习 DCML (Deep Correlated Metric Learning)
  - 特征提取
  - 学习两种深度非线性变换
- 2017CVPR-Learning Barycentric Representations of 3D Shapes for Sketch-based 3D ShapeRetrieval
- - Wasserstein 距离 & Wasserstein 重心
  - 使用多视图投影的 Wasserstein 重心来描述3D图形的特征
  - 利用 Wasserstein 重心进行跨域匹配
- 2018ECCV-Deep Cross-modality Adaptation via Semantics Preserving Adversarial Learning for Sketch-based 3D Shape Retrieval
- - 基于保留语义对抗学习的深层跨模态适应模型
  - 重要性感知特征学习 Importance-Aware Feature Learning
  - 基于对抗学习的跨模态转换 Cross-modality Transformation based on Adversarial Learning
  - 最优化方法 Optimization
- 2018ACMMM-Unsupervised Learning of 3D Model Reconstruction from Hand-Drawn Sketches
- - 基于手绘草图三维模型重建的无监督学习 Unsupervised Learning of 3D Model Reconstruction from Hand-Drawn Sketches
  - 在合成图像域内嵌入手绘草图
  - 从共享的隐藏向量空间中检索渲染的图像
  - 用于具有池化层的对象重建的 3D-GANS
- 2020ICME-Cross-Modal Guidance Network For Sketch-Based 3d Shape Retrieval
- - 跨模态引导网络 Cross-modal Guidance Network (CGN)
  - 引导损失函数
- 2020CVIU-Open Cross-Domain Visual Search
- - 开放跨域视觉搜索 Open Cross-Domain Visual Search
- 2018ECCV-Generative Domain-Migration Hashing for Sketch-to-Image Retrieval
- - 生成域迁移的哈希算法 Generative Domain-Migration Hashing
  - 生成域迁移的哈希算法 Generative Domain-Migration Hashing

Sketch Based 3D Shape Retrieval

2015CVPR-Sketch-based 3D Shape Retrieval using Convolutional Neural Networks

@inproceedings{2015Sketch,
  title={Sketch-based 3D Shape Retrieval using Convolutional Neural Networks},
  author={ Wang, F.  and  Kang, L.  and  Li, Y. },
  booktitle={2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)},
  year={2015},
}

采用联合 CNN 网络进行度量学习

传统方法

两阶段法：找到3D模型的最佳视角，用这些最佳视角对应的2D投影来跟手绘草图做匹配，即将由2D到3D的检索转化为由2D到2D的检索
本文方法

对整个数据集使用预定义的视点，并采用两个 Siamese CNN 网络(分别用于视图和草图)进行度量学习(相似度学习，Metric Learning)

损失函数 – 度量距离函数

$\mathcal{L}(s_{1},s_{2},v_{1},v_{2},y)=L(s_{1},s_{2},y)+L(v_{1},v_{2},y)+L(s_{1},v_{1},y)\tag{1}$

式(1)中， $L (\cdot, \cdot, \cdot)$ 定义为
$L(s_{1},s_{2},y)=(1-y) \alpha D^2_{w} + y \beta e^{ \gamma D_{w}}\tag{2}$
式(2)中， $y$ 代表标签； $D_{w}=||f(s_{1};w_{1})-f(s_{2};w_{2})$ 代表距离；设置 $\alpha=\frac{1}{C_{p}}$ ， $\beta=C_{n}$ ， $\gamma=\frac{-2.77}{C_{n}}$ ，其中 $C_{p}=0.2$ ， $C_{n}=10$ 是常数

损失函数由三个部分组成：草图相似度(the similarity of $s k e t c h e s$ )、视图相似度(the similarity of views)和跨域相似度(the cross domain similarity)

2016AAAI-Learning Cross-Domain Neural Networks for Sketch-Based 3D Shape Retrieval

@inproceedings{2016Learning,
  title={Learning Cross-Domain Neural Networks for Sketch-Based 3D Shape Retrieval.},
  author={ Fan, Z.  and  Jin, X.  and F Yi},
  booktitle={Aaai},
  year={2016},
}

特定类别的神经网络 Category-Specific Neural Networks

为来自同一类的实例设置相同的目标向量，对目标层实施区分性约束

跨域神经网络设计 Cross-Domain Neural Networks

特征表示：2D-ScSPM，3D-LD-SIFT
对于草图和3D图，联合学习 CDNN 的目标函数为：
$\begin{aligned} \underset { \boldsymbol { W } _ { \boldsymbol { s } } , \boldsymbol { b } _ { \boldsymbol { s } } } { \arg \min } \frac { 1 } { P _ { s } } & \sum _ { i = 1 } ^ { P _ { s } } \left\| \hat { \boldsymbol { x } } _ { s } ^ { i } - h _ { \boldsymbol { W } _ { \boldsymbol { s } } , \boldsymbol { b } _ { \boldsymbol { s } } } \left( \boldsymbol { x } _ { \boldsymbol { s } } ^ { i } \right) \right\| _ { 2 } ^ { 2 } + \lambda \sum _ { l = 1 } ^ { L } \left\| \boldsymbol { W } _ { \boldsymbol { s } } ^ { l } \right\| _ { F } ^ { 2 } \end{aligned}$

$\underset { \boldsymbol { W } _ { \boldsymbol { m } } , \boldsymbol { b } _ { m } } { \arg \min } \frac { 1 } { P _ { m } } \sum _ { j = 1 } ^ { P _ { m } } \left\| \hat { \boldsymbol { x } } _ { m } ^ { j } - h _ { \boldsymbol { W } _ { \boldsymbol { m } } , \boldsymbol { b } _ { \boldsymbol { m } } } \left( \boldsymbol { x } _ { \boldsymbol { m } } ^ { j } \right) \right\| _ { 2 } ^ { 2 } + \lambda \sum _ { l = 1 } ^ { L } \left\| \boldsymbol { W } _ { \boldsymbol { m } } ^ { l } \right\| _ { F } ^ { 2 } \\ \text { s.t. } \quad \hat { \boldsymbol { x } } _ { m } ^ { i } = \hat { \boldsymbol { x } } _ { m } ^ { j } = \hat { \boldsymbol { x } } _ { s } ^ { i } = \hat { \boldsymbol { x } } _ { s } ^ { j } \\ \text { if } \quad q \left( \boldsymbol { x } _ { m } ^ { i } \right) = q \left( \boldsymbol { x } _ { m } ^ { j } \right) = q \left( \boldsymbol { x } _ { s } ^ { i } \right) = q \left( \boldsymbol { x } _ { s } ^ { j } \right) \tag{3}$

可以将最优化式(3)的过程看作是分别优化2D和3D的两个网络的过程

金字塔跨域神经网络设计 Pyramid Cross-Domain Neural Networks

目的：草图降噪，缓解草图不完整、不连续性带来的麻烦
遵循 ScSPM 框架来构建草图的层次表示。从草图图像的 16 × 16 的块中提取SIFT特征，并在约束投影系数稀疏性的同时投影到 1024 维的映射中。对 3 层稀疏编码使用最大池化，将草图图像分为 1 × 1、2 × 2 和 4 × 4 的 patches。替换了直接连接池化的结果与输入的全局 (1 × 1 + 2 × 2 + 4 × 4) × 1024 = 21504 维特征到神经网络中(即 CDNN 方法)，采用了提取每个金字塔层的汇总结果，并特别训练了在该层描述草图特征和3D特征之间的联系的 CDNN 模型。当草图和3D图形特征通过 PCDNN 时，提取每个金字塔网络隐含层的值，分别作为草图和3D形状的最终表示(如红色虚线矩形所示)
对目标函数进行了一系列优化
检索：定义 $\hat { \boldsymbol { Y } } _ { q }$ 为编码查询特征， $\hat { \boldsymbol { Y } } _ { s }$ 为编码3D图形特征。为根据输入的草图查询对应的3D图形，使用式(4)计算两个特征之间的欧式距离。然后，对矩阵 $D^{’}$ 每一行进行升序排序， $D^{'}_{ij}$ 的值越低，则说明对应的 $\hat { \boldsymbol { Y } } ^ { j } _ { s }$ 和 $\hat { \boldsymbol { Y } } ^ { i } _ { q }$ 匹配度越高
$\prime } \left( \hat { \boldsymbol { Y } } _ { q } , \hat { \boldsymbol { Y } } _ { s } \right) = \sqrt { \left( \hat { \boldsymbol { Y } } _ { q } ^ { i } - \hat { \boldsymbol { Y } } _ { s } ^ { j } \right) ^ { 2 } } \tag{4}$

2017AAAI-Deep Correlated Metric Learning for Sketch-based 3D Shape Retrieval

@article{2018Deep,
  title={Deep Correlated Holistic Metric Learning for Sketch-Based 3D Shape Retrieval},
  author={ Dai, G.  and  Jin, X.  and  Fan, Z.  and  Yi, F. },
  journal={IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society},
  volume={27},
  number={7},
  pages={3374},
  year={2018},
}

深度相关性度量学习 DCML (Deep Correlated Metric Learning)

DCML包括草图域(源域网络，SDN)和3D图形域(目标域网络，TDN)，用同相同的 loss 联合训练两个不同的深度神经网络(每个域一个)，学习两个深度非线性转换，将两个域的特征映射到一个非线性特征空间。所提出的 loss 包括对抗损失 discriminative loss 和相关性损失 correlation loss，目的是增加每个域内特征的判别性以及不同域之间的相关性。在转移空间中，对抗损失使深度转换特征的类内距离最小化，相关性损失使深度转换特征的类间距离最大化，每个域内至少有一个预定义的边缘，而相关损失则集中于使不同域之间的分布差异最小化

特征提取

2D草图：采用 CNN，在 Sketch 数据集上 AlexNet 微调，提取了“fc7”层的特征，维度为 4096
3D图形：先提取 3D-SIFT，然后用 LLC 编码，得到全局形状描述符

学习两种深度非线性变换

保证了每个领域内特征的辨别和不同领域间特征分布的一致性

1、激活函数
$\begin{array} { l } a _ { k + 1 } ^ { i , s } = \sigma \left( W _ { k } ^ { s } a _ { k } ^ { i , s } + b _ { k } ^ { s } \right) = \sigma \left( r _ { k + 1 } ^ { i , s } \right) \\ a _ { k + 1 } ^ { j , t } = \sigma \left( W _ { k } ^ { t } a _ { k } ^ { j , t } + b _ { k } ^ { t } \right) = \sigma \left( r _ { k + 1 } ^ { j , t } \right) \end{array} \tag{5}$
2、非线性变换函数
$\left( x _ { i } \right) = a _ { K _ { s } } ^ { i , s } \quad f ^ { t } \left( y _ { j } \right) = a _ { K _ { t } } ^ { j , t } \tag{6}$
3、损失函数
$\alpha L ^ { d } + ( 1 - \alpha ) L ^ { c } + \lambda \left( \left\| W ^ { s } \right\| _ { F } ^ { 2 } + \left\| W ^ { t } \right\| _ { F } ^ { 2 } \right) \tag{7}$
其中， $L^d$ 为对抗损失，在每个域内预先设定边界 $h$ ，使深度变化特征类内距离最小、类间距离最大； $L^c$ 是相关性损失，用于优化跨域距离，以弱化域间数据表达方式不一致的影响

损失函数的每一项都是可微的，因此 DCML 网络可以通过随机梯度下降算法的反向传播来进行优化

对抗损失 Discrimination term
$L^{d}=L^{d}_{s}+L^{d}_{t} \tag{8}$
其中， $L^{d}_{s}$ 和 $L^{d}_{t}$ 分别代表源域和目标域的对抗损失。对抗损失由同类内正例间两两的欧式距离之和以及同类负例间两两的 hinge loss 之和组成，hinge loss 的初始间隔为 $h$

在源域：
$\begin{array} { l } L _ { s } ^ { d } = \sum _ { \left( x _ { i } , x _ { j } \right) \in P ^ { s } } d _ { + } ^ { s } \left( x _ { i } , x _ { j } \right) + \sum _ { \left( x _ { i } , x _ { j } \right) \in N ^ { s } } d _ { - } ^ { s } \left( x _ { i } , x _ { j } \right) \\ d _ { + } ^ { s } \left( x _ { i } , x _ { j } \right) = \left\| f ^ { s } \left( x _ { i } \right) - f ^ { s } \left( x _ { j } \right) \right\| _ { 2 } ^ { 2 } \\ d _ { - } ^ { s } \left( x _ { i } , x _ { j } \right) = \max \left\{ 0 , h - \left\| f ^ { s } \left( x _ { i } \right) - f ^ { s } \left( x _ { j } \right) \right\| _ { 2 } ^ { 2 } \right\} \end{array} \tag{9}$
在目标域：
$\begin{array} { l } L _ { t } ^ { d } = \sum _ { \left( y _ { i } , y _ { j } \right) \in P ^ { t } } d _ { + } ^ { t } \left( y _ { i } , y _ { j } \right) + \sum _ { \left( y _ { i } , y _ { j } \right) \in N ^ { t } } d _ { - } ^ { t } \left( y _ { i } , y _ { j } \right) \\ d _ { + } ^ { t } \left( y _ { i } , y _ { j } \right) = \left\| f ^ { t } \left( y _ { i } \right) - f ^ { t } \left( y _ { j } \right) \right\| _ { 2 } ^ { 2 } \\ d _ { - } ^ { t } \left( y _ { i } , y _ { j } \right) = \max \left\{ 0 , h - \left\| f ^ { t } \left( y _ { i } \right) - f ^ { t } \left( y _ { j } \right) \right\| _ { 2 } ^ { 2 } \right\} \end{array} \tag{10}$
相关性损失 Correlation term
$\\ L _ { 1 } ^ { c } = \sum _ { \left( x _ { i } , y _ { j } \right) \in P ^ { c } } d _ { + } ^ { c } \left( x _ { i } , y _ { j } \right) + \sum _ { \left( x _ { i } , y _ { j } \right) \in N ^ { c } } d _ { - } ^ { c } \left( x _ { i } , y _ { j } \right) \\ L _ { 2 } ^ { c } = \sum _ { c ^ { s } , c ^ { t } \forall x _ { i } , x _ { j } \in c ^ { s } \atop \forall y _ { i } , y _ { j } \in c ^ { t } } R \left( x _ { i } , x _ { j } , y _ { i } , y _ { j } \right) - \sum _ { c ^ { s } , d ^ { t } } ^ { c \neq d } \sum _ { \forall x _ { i } , x _ { j } \in c ^ { s } } R \left( x _ { i } , x _ { j } , y _ { i } , y _ { j } \right) \tag{11}$
其中， $L^{c}_{1}$ 以 $h$ 为阈值，直接最小化跨域正例对的间距，同时最大化跨域负例对的间距，仅可能地使两个域的数据分布相似。 $P^{c}$ 和 $N^{c}$ 分别代表跨域的正例对和负例对的集合； $d$ 的定义如下：
$\begin{array} { l } d _ { + } ^ { c } \left( x _ { i } , y _ { j } \right) = \left\| f ^ { s } \left( x _ { i } \right) - f ^ { t } \left( y _ { j } \right) \right\| _ { 2 } ^ { 2 } \\ d _ { - } ^ { c } \left( x _ { i } , y _ { j } \right) = \max \left\{ 0 , h - \left\| f ^ { s } \left( x _ { i } \right) - f ^ { t } \left( y _ { j } \right) \right\| _ { 2 } ^ { 2 } \right\} \end{array} \tag{12}$
$L^{c}_{2}$ 进一步保证跨域数据的分布一致性。 $c^{s}$ 和 $c^{t}$ 分别代表来自源域和目标域的分类为 $c$ 的样本集合；当两个样本来自同一个类时， $R$ 应该取最小值，否则 $R$ 应取最大值。 $R$ 的定义如下：
$\left( x _ { i } , x _ { j } , y _ { i } , y _ { j } \right) = \left( \sqrt { \left\| f ^ { s } \left( x _ { i } \right) - f ^ { s } \left( x _ { j } \right) \right\| _ { 2 } ^ { 2 } } - \right. \left. \sqrt { \left\| f ^ { t } \left( y _ { i } \right) - f ^ { t } \left( y _ { j } \right) \right\| _ { 2 } ^ { 2 } } \right) ^ { 2 } \tag{13}$

2017CVPR-Learning Barycentric Representations of 3D Shapes for Sketch-based 3D ShapeRetrieval

@inproceedings{2017Learning,
  title={Learning Barycentric Representations of 3D Shapes for Sketch-Based 3D Shape Retrieval},
  author={ Jin, X.  and  Dai, G.  and  Fan, Z.  and  Yi, F. },
  booktitle={2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)},
  year={2017},
}

Wasserstein 距离 & Wasserstein 重心

Wasserstein 距离

特点：Wasserstein 距离可以描述不同概率分布之间的几何特性，不仅告诉我们两个分布之间的距离，而且能够告诉我们它们具体如何不一样，即如何从一个分布转化为另一个分布

又称 Earth Mover’s Distance，具体定义可参考：

【数学】Wasserstein Distance

Wasserstein GAN and the Kantorovich-Rubinstein Duality

Notes on Optimal Transport
Wasserstein 重心

使用多视图投影的 Wasserstein 重心来描述3D图形的特征

使用 Wasserstein 重心从多个视图投影的特征空间来表征3D形状，作为一种非线性操作可以捕获结构的深层特征

均匀地缩放每个3D图形，并将形状的质心放置在球坐标系的原点。将 $V$ 个虚拟摄像机均匀地放置在3D形状周围，就可以获得 $V$ 个渲染视图。对于每个视图，将3D图形渲染为一个投影的灰度图像。一旦得到3D形状的二维投影，就可以提取二维投影的深度 CNN 特征。本文使用了 AlexNet 作为 CNN 的特征，它由五个卷积层和三个完全连接的层组成。对于每个投影，使用 ReLU 非线性激活函数后的最后一个全连通层作为深度特征，其特征大小为 4096

利用 Wasserstein 重心进行跨域匹配

提取了二维投影的深度 CNN 特征。计算深度 CNN 特征的 Wasserstein 重心来表示3D形状。利用全连通层的度量网络，设计了一个判别损失来学习草图和形状特征，用于跨域检索

损失函数：
$\left( \hat { \boldsymbol { \theta } } _ { 1 } , \hat { \boldsymbol { \theta } } _ { 2 } \right) = \operatorname { argmin } _ { \boldsymbol { \theta } _ { 1 } , \boldsymbol { \theta } _ { 2 } } \frac { 1 } { \sum n _ { j } } \sum _ { j = 1 } ^ { n _ { 2 } } \sum _ { i \in c ( j ) } \left\| \boldsymbol { z } _ { j } ^ { 2 } - \boldsymbol { z } _ { i } ^ { 1 } \right\| _ { 2 } ^ { 2 } + \\ \frac { 1 } { \sum m _ { j } } \sum _ { j = 1 } ^ { n _ { 2 } } \sum _ { i \notin c ( j ) } \max \left( 0 , \alpha - \left\| \boldsymbol { z } _ { j } ^ { 2 } - \boldsymbol { z } _ { i } ^ { 1 } \right\| _ { 2 } ^ { 2 } \right) + \beta _ { 1 } L _ { 1 } + \beta _ { 2 } L _ { 2 } \tag{14}$
其中， $\theta_{1}={W_{1},b_{1}}$ 和 $\theta_{2}={W_{2},b_{2}}$ 是视图和草图网络的权重和偏移量， $z^{1}_{i}$ 和 $z^{2}_{j}$ 分别是视图网络和草图网络的输出， $n_{j}$ 和 $m_{j}$ 分别是草图的正负例样本数。 $L_{1}$ 和 $L_{2}$ 是正则项， $\beta_{1}$ 和 $\beta_{2}$ 是正则化参数。在式(14)中，前两项使跨域特征对之间的类内距离最小，类间距离最大。正则化项分别使3D形状特征和草图特征的类内散点最小和类间散点最大

2018ECCV-Deep Cross-modality Adaptation via Semantics Preserving Adversarial Learning for Sketch-based 3D Shape Retrieval

@inproceedings{2018Deep,
  title={Deep Cross-modality Adaptation via Semantics Preserving Adversarial Learning for Sketch-based 3D Shape Retrieval},
  author={ Chen, J.  and  Fang, Y. },
  booktitle={Springer, Cham},
  year={2018},
}

基于保留语义对抗学习的深层跨模态适应模型

分别采用两个度量网络，在两个深度卷积神经网络(CNNs)的基础上，基于重要性感知度量学习方法学习特定模态的判别特征
明确引入了一种跨模态转换网络来补偿两种模态之间的差异，该网络可以将二维草图的特征转移到三维形状的特征空间
开发了一种基于对抗学习的方法来训练转换模型，通过同时增强两种模式数据分布之间的整体相关性，并通过最小化跨模态平均差异项来缓解局部语义差异

重要性感知特征学习 Importance-Aware Feature Learning

定义特征向量：
$\mathbf { Z } ^ { m } = \left\{ \mathbf { z } _ { 1,1 } ^ { m } , \cdots , \mathbf { z } _ { 1 , K } ^ { m } , \cdots , \mathbf { z } _ { C , 1 } ^ { m } , \cdots , \mathbf { z } _ { C , K } ^ { m } \right\} \tag{15}$
其中， $\in { \{ 1,2 \} }$ ， $i = 1, \cdot \cdot \cdot, C$ ， $j = 1, \cdot \cdot \cdot, K$ ， $\mathbf { z } _ { i , j } ^ { 1 } = f _ { \text {metric } } ^ { 1 } \left( f _ { \text {CNN } } ^ { 1 } \left( I _ { i , j } ^ { 1 } \right) \right) , \mathbf { z } _ { i , j } ^ { 2 } = f _ { \text {metric } } ^ { 2 } \left( f _ { \text {CNN } } ^ { 2 } \left( \mathbf { I } _ { i , j } ^ { 2 } \right) \right)$

损失函数：
$\left( \left\{ \boldsymbol { \theta } _ { \mathbf { C N N } } ^ { m } , \boldsymbol { \theta } _ { \mathbf { m e t r i c } } ^ { m } ; \mathbf { Z } ^ { m } \right) \right. = \sum _ { i } ^ { C } \sum _ { j = 1 } ^ { K } \max \left( 0 , \eta - \left[ \left\| \mathbf { z } _ { i , j } ^ { m } - \mathbf { z } _ { i ^ { * } , n ^ { * } } ^ { m } \right\| _ { 2 } - \left\| \mathbf { z } _ { i , j } ^ { m } - \mathbf { z } _ { i , p ^ { * } } ^ { m } \right\| _ { 2 } \right] \right) \tag{16}$
其中 $\eta>0$ 为常数，而
$\begin{aligned} \mathbf { Z } _ { i ^ { * } , n ^ { * } } ^ { m } = \mathop{argmin}_{ i ^ { \prime } \in \{ 1 , \cdots , C \} , y _ { i } ^ { \prime } \neq y _ { i } , n \in \{ 1 , \cdots , K \} } \end{aligned} \left\| \mathbf { z } _ { i , j } ^ { m } - \mathbf { Z } _ { i ^ { \prime } , n } ^ { m } \right\| _ { 2 }$

$\mathbf { z } _ { i , p ^ { * } } ^ { m } = \underset { p \in \{ 1 , \cdots , K \} , p \neq j } { \operatorname { argmax } } \left\| \mathbf { z } _ { i , j } ^ { m } - \mathbf { z } _ { i , p } ^ { m } \right\| _ { 2 } \tag{17}$

${ Z } _ { i ^ { * } , p ^ { * } } ^ { m }$ 和 ${ Z } _ { i ^ { * } , n ^ { * } } ^ { m }$ 是 ${ z } _ { i , j } ^ { m }$ 的最难区分的同类样本 hardest positive samples 和最难区分的异类样本 hardest negative samples，它们在训练时都应给予较高的重要性权重，同时强制他们与语义一致，这样可以更好地学习判别特征

最小化式(16)的损失函数，等价于让最小类间间距比最大类内间距大出一个阈值 $\eta$ 。这样就能训练 CNN 网络和度量网络来让为每个模态生成判别特征

基于对抗学习的跨模态转换 Cross-modality Transformation based on Adversarial Learning

设 $Z^{t}$ 是由 $z^{1}$ 转换得来的特征，其包括以下两个要求：

保留语义 semantics preserving，即保持小的类内距离和大的类间距离
拥有关于 $\{ Z^{2}_{i,j} \}$ 的相关数据分布 correlated data distribution with $\{ Z^{2}_{i,j} \}$ ，即拥有学习到的3D图形的特征

如图所示，模型使用了两个模块来保证上述的两个要求：

语义保留模块 Semantics Preserving Term

使用式(16)和式(17)所示的损失函数来保证小的类内距离和大的类间距离
跨模态相关项增强模块 Cross-modality Correlation Enhancement Term

使用GANs，训练生成器 $G$ 从噪声向量 $v$ 的数据分布 $p_{x}(x)$ 中采样，训练判别器 $D$ 来区分 $G$ 生成的数据和来自 $p_{x}(x)$ 的真实数据。
在该模型中，GANs 的目标函数即为：
$\min _ { f _ { \text {trans } } } \max _ { D } E _ { \mathbf { z } ^ { 2 } \sim p ^ { 2 } \left( \mathbf { z } ^ { 2 } \right) } \left[ \log \left( D \left( \mathbf { z } ^ { \mathbf { 2 } } \right) \right) \right] + E _ { \mathbf { z } ^ { 1 } \sim p ^ { 1 } \left( \mathbf { z } ^ { 1 } \right) } \left[ \log \left( 1 - D \left( f _ { \text {trans } } \left( \mathbf { z } ^ { \mathbf { 1 } } \right) \right) \right) \right] \tag{18}$
其中， $p^{1}(z^{1}),p^{2}(z^{2})$ 和 $p^{t}(z^{t})$ 分别是学习到的草图特征的分布、3D图形的特征分布和转换数据后的特征分布。当式(8)达到全局平衡时，有 $\mathbf { t } } \left( \mathbf { z } ^ { \mathbf { t } } \right) = p ^ { \mathbf { t } } \left( f _ { \text {trans } } \left( \mathbf { z } ^ { \mathbf { 1 } } \right) \right) = p ^ { \mathbf { 2 } } \left( \mathbf { z } ^ { \mathbf { 2 } } \right)$ ，即转换数据 $z^{t}$ 和3D图形 $z^{2}$ 拥有相同的数据分布。因此，将减少跨模态数据的差异

损失函数为：
$\left. L _ { G } = E _ { \mathbf { z } ^ { 1 } \sim p ^ { 1 } \left( \mathbf { z } ^ { 1 } \right) } \left[ \log \left( 1 - D \left( \mathbf { z } ^ { \mathbf { t } } \right) \right) \right) \right] \tag{19}$

$\mathbf { z } ^ { 2 } \sim p ^ { 2 } \left( \mathbf { z } ^ { 2 } \right) } \left[ \log \left( D \left( \mathbf { z } ^ { 2 } \right) \right) \right] - E _ { \mathbf { z } ^ { 1 } \sim p ^ { 1 } \left( \mathbf { z } ^ { 1 } \right) } \left[ \log \left( 1 - D \left( \mathbf { z } ^ { \mathbf { t } } \right) \right) \right] \tag{20}$

$\sum _ { y } \left\| E _ { \mathbf { z } ^ { \mathbf { t } } \sim p ^ { \mathbf { t } } \left( \mathbf { z } ^ { \mathbf { t } } \mid y \right) } \left[ \mathbf { z } ^ { \mathbf { t } } \right] - E _ { \mathbf { z } ^ { 2 } \sim p ^ { 2 } \left( \mathbf { z } ^ { 2 } \mid y \right) } \left[ \mathbf { z } ^ { \mathbf { 2 } } \right] \right\| _ { 2 } \tag{21}$

$L_{G}$ 和 $L_{D}$ 可以令 GANs 减少草图的变换特征和3D模型特征的分布之间的差异， $L_{CMD}$ 补充考虑了跨模态的语义结构，可以使得从草图得到的 $y$ 类平均特征向量接近于从3D形状得到的同类平均特征向量

汇总上述所有损失函数，最终的转换模块 $f_{trans}$ 的损失函数为：
$\left( \boldsymbol { \theta } _ { \text {trans } } \right) = L _ { S e P } + \left( L _ { G } + L _ { C M D } \right) \tag{22}$

最优化方法 Optimization

使用 Adam 随机梯度下降法作为全程的优化器
使用式(16)中的 $L^{m}_{IAML}$ 预训练草图和3D图形的 CNN 度量网络
通过最小化式(19)和式(20)的 $L_{T}$ 和 $L_{D}$ 预训练跨模态转换网络
通过最小化 $L^{1}_{IAML}$ 、 $L^{2}_{IAML}$ 、 $L_{T}$ 和 $L_{D}$ 分别更新 $\{ \theta^{1}_{CNN},\theta^{1}_{metric} \}$ 、 $\{ \theta^{2}_{CNN},\theta^{2}_{metric} \}$ 、 $\theta_{trans}$ 和对抗判别器 $D$

2018ACMMM-Unsupervised Learning of 3D Model Reconstruction from Hand-Drawn Sketches

@inproceedings{wang2018unsupervised,
  title={Unsupervised learning of 3d model reconstruction from hand-drawn sketches},
  author={Wang, Lingjing and Qian, Cheng and Wang, Jifei and Fang, Yi},
  booktitle={Proceedings of the 26th ACM international conference on Multimedia},
  pages={1820--1828},
  year={2018}
}

基于手绘草图三维模型重建的无监督学习 Unsupervised Learning of 3D Model Reconstruction from Hand-Drawn Sketches

通过带有对抗损失的自动编码器训练一个适应网络，将未配对的2D渲染图像域与手绘草图域嵌入到共享的隐藏向量空间
从嵌入的隐藏空间中，对于每个测试草图图像，从训练的3D数据集中检索几个(例如5个)最近的邻居，作为3D生成对抗网络的先验知识

在合成图像域内嵌入手绘草图

生成器 $G_{2D}$ 的损失函数：
$\begin{aligned} L _ { G _ { 2 D } } \left( x , v ^ { \prime } \mid \theta _ { G _ { 2 D } } \right) & = \left( 1 - \phi _ { 2 D } \right) \left[ L _ { R E C _ { 2 D } } ( x ) + L _ { R E C _ { 2 D } } \left( v ^ { \prime } \right) \right] \left. + \phi _ { 2 D } L _ { A D V _ { 2 D } } \left( T _ { 1 } ^ { \prime } T _ { 1 } ( x ) \right) \right) \end{aligned}$
其中， $\phi _ { 2 D }$ 是用于平衡2D重构损失和2D对抗损失的超参数， $T_{1}$ 和 $T^{\prime}_{1}$ 分别为编码器和解码器

2D重构损失为：
$\left( v \mid \theta _ { G _ { 2 D } } \right) = \left\| T _ { 1 } ^ { \prime } T _ { 1 } ( v ) - v \right\| _ { 1 } , \forall v \in I \cup I _ { V } \tag{23}$
2D对抗损失为：
$\left( v \mid \theta _ { D _ { 2 D } } \right) = \left\| v - D _ { 2 D } ( v ) \right\| _ { 1 } , \forall v \in T _ { 1 } ^ { \prime } T _ { 1 } ( I ) \cup T _ { 1 } ^ { \prime } T _ { 1 } \left( I _ { V } \right) \tag{24}$

从共享的隐藏向量空间中检索渲染的图像

从训练集中的所有特征向量 $z_{v^{ \prime }_{j,k}}$ 中找到特征向量 $z_{x_{i}}$ 的几个邻居，即在嵌入后从渲染的图像中找到草图图像的邻居，距离使用欧氏距离
检索 $K$ 个最近邻居(本文中为 5 个) $z_{v^{ \prime }_{j,k}}$ ，分别对应在空间 $I_{V}$ 中的渲染图像 $v^{ \prime }_{j,k}$ ，然后定位他们在空间 $V$ 中对应的3D对象 $v_{j}$

用于具有池化层的对象重建的 3D-GANS

生成器 $G_{3D}$

自编码器 $T_{2}$ ：拥有 200 维的瓶颈层，将 $32 \times 32 \times 32$ 维的3D对象编码转换为 200 维的特征向量

池化层：生成器 $G_{3D}$ 将 $K$ 个选取的3D对象考虑为一个整体来看待，将每个对象乘以权重得到特征向量 $w={\sum}^{K}_{i=1}w_{i}z_{v_{i}}$ (例如 $K = 5$ 时，权重分别为 $0.5, 0.4, 0.3, 0.2, 0.1$ ，保证了最近邻可以得到更高的关注同时又不会丢失其他邻居的信息)

解码器 $T^{ \prime }_{2}$ ：将 200 维的特征向量还原回 $32 \times 32 \times 32$ 维的3D对象。将池化后的特征向量 $w$ 输入解码器 $T^{ \prime }_{2}$ 将得到重建的3D对象 $v_{OUT}$
判别器 $D_{3D}$

区分3D输出对象是否跟真实的3D空间 $V$ 内的对象高度相似，若是则将其判定为"true"，否则认为其是由池化后的特征向量 $w$ 生成的，将其判定为"false"

生成器和判别器的损失函数为：
$\left( v _ { O U T } , v \mid \theta _ { G _ { 3 D } } \right) = \left( 1 - \phi _ { 3 D } \right) \left[ L _ { R E C _ { 3 D } } \left( v _ { O U T } \right) + L _ { R E C _ { 3 D } } ( v ) \right] + \phi _ { 3 D } L _ { A D V _ { 3 D } } \left( v _ { O U T } \right) \tag{25}$

$\left( v _ { O U T } , v \mid \theta _ { D _ { 3 D } } \right) = L _ { A D V _ { 3 D } } ( v ) - k _ { 3 D _ { t } } L _ { A D V _ { 3 D } } \left( T _ { 2 } ^ { \prime } T _ { 2 } \left( v _ { O U T } \right) \right) \tag{26}$

3D重构损失为：
$\left( v \mid \theta _ { G _ { 3 D } } \right) = \left\| T _ { 2 } ^ { \prime } \left( T _ { 2 } ( v ) \right) - v \right\| _ { 1 } \tag{27}$
3D对抗损失为：
$\left( v \mid \theta _ { D _ { 3 D } } \right) = \left\| v - D _ { 3 D } ( v ) \right\| _ { 1 } \tag{28}$

2020ICME-Cross-Modal Guidance Network For Sketch-Based 3d Shape Retrieval

@inproceedings{dai2020cross,
  title={Cross-Modal Guidance Network For Sketch-Based 3d Shape Retrieval},
  author={Dai, Weidong and Liang, Shuang},
  booktitle={2020 IEEE International Conference on Multimedia and Expo (ICME)},
  pages={1--6},
  year={2020},
  organization={IEEE}
}

跨模态引导网络 Cross-modal Guidance Network (CGN)

训练教师网络学习3D图形特征，在预学习的特征空间的引导下，学生网络学习得到将草图特征转换到3D特征的映射
第一步：采用多视点方法提取特征，将3D图形渲染为 $V$ 视图，然后通过 CNN-2，各个CNN-2共享相同的参数，然后用平均池化融合 CNN-2 输出的特征，用 AM-softmax作为网络的损失函数。AM-softmax 可以增大类间余弦距离，减小类内余弦距离。训练完成后，3D训练数据经过 FCN-2后提取特征，得到预学习的3D形状特征空间，最后通过计算同一类特征的平均值得到类中心
第二步：在3D图形预学习类中心的引导下，学生网络(即转换网络)，在引导损失函数的监督下，将草图特征转换到预学习的特征空间

引导损失函数

将草图的特征转换到预学习的3D图形特征空间，同时需要确保草图特征与具有相同语义信息的类中心对齐

损失函数：
${L}_{G}={L}_{c}-\lambda \mathrm{L}_{a} \tag{29}$

$L_{c}$ 是同一类中草图特征与预学习的3D图形类中心的余弦距离，即

${L}_{\mathrm{c}}=\frac{1}{M}\sum_{i=1}^{M}\frac{\mathrm{f}_{i}\cdot \mathrm{c}_{y^{i}}}{\Vert \mathrm{f}_{i}||_{2}\Vert \mathrm{c}_{y^{i}}\Vert_{2}} \tag{30}$

$L_{a}$ 是草图特征与其他3D图形类中心的余弦距离之和，即

${L}_{\mathrm{a}}=\frac{1}{M}\sum_{i=1}^{M}\sum_{j=1,j\neq y^{i}}^{N}\frac{\mathrm{f}_{i}\cdot \mathrm{c}_{j}}{\Vert \mathrm{f}_{i}||_{2}\Vert \mathrm{c}_{j}\Vert_{2}}\tag{31}$

$\lambda$ 是平衡 $L_{c}$ 和 $L_{a}$ 的超参数， $M$ 是 mini-batch 的大小， $N$ 是类别数量， $f_{i}$ 表示草图特征向量， $y_{i}$ 表示第 $i$ 个样本的标签， ${ c_{1},c_{2},c_{N} \}$ 是预学习的3D图形的类中心向量

如下图，引导损失函数旨在将草图的特征向同类3D图形的类中心聚类，同时使特征远离不同类的中心，实现了跨模态的语义对齐，减少了2D草图和3D图形之间的跨模态差异

2020CVIU-Open Cross-Domain Visual Search

@article{2020Open,
  title={Open cross-domain visual search},
  author={ Thong, W.  and  Mettes, P.  and  Snoek, Cgm },
  journal={Computer Vision and Image Understanding},
  pages={103045},
  year={2020},
}

开放跨域视觉搜索 Open Cross-Domain Visual Search

可以输入任意域的数据，同时查询任意域的数据

为每个模态设计一个转换函数，将草图 sketch、自然图像 image 和3D图形的特征全部转移到一个共享的语义空间，在语义空间内执行原型学习 Prototype learning (有点像聚类)

对于一些 unseen 的类别，也可以有高于 baseline 的测试结果，即零次学习 zero-shot learning 任务也可以有不错的结果

如下图，绿色星星代表输入的查询：

a）理想情况下，查询的邻居仅与同一类别的实例接近
b）在现实中，变异性 variability 在语义空间中引起了噪声。因此，查询也可能会丢失到其他类别的样本中
c）通过改进查询表示来解决这种变异性：拉近查询与其最近邻的距离来修正结果

2018ECCV-Generative Domain-Migration Hashing for Sketch-to-Image Retrieval

@article{2018Generative,
  title={Generative Domain-Migration Hashing for Sketch-to-Image Retrieval},
  author={ Zhang, J.  and  Shen, F.  and  Liu, L.  and  Zhu, F.  and  Yu, M.  and  Shao, L.  and  Shen, H. T.  and  Gool, L. V. },
  journal={Springer, Cham},
  year={2018},
}

生成域迁移的哈希算法 Generative Domain-Migration Hashing

从由草图迁移过来的自然图像中生成哈希代码

生成器 $G_{I}$ 和 $G_{S}$ ：两个并行的生成 CNNs 网络，分别完成从草图到自然图像和从自然图像到草图的生成工作
判别器 $D_{S}$ 和 $D_{I}$ ：分别判定生成的自然图像和草图与真实样本的差异
哈希网络 $H$ ：将由判别器生成的草图和图像转换为二进制的哈希编码，并且可以基于带掩码的真实图像 $(I\odot mask)$ 和生成的图像 $G_{I}(S)$ 进行训练
损失函数：基于三元组损失

@article{2018Generative,
  title={Generative Domain-Migration Hashing for Sketch-to-Image Retrieval},
  author={ Zhang, J.  and  Shen, F.  and  Liu, L.  and  Zhu, F.  and  Yu, M.  and  Shao, L.  and  Shen, H. T.  and  Gool, L. V. },
  journal={Springer, Cham},
  year={2018},
}

生成域迁移的哈希算法 Generative Domain-Migration Hashing

从由草图迁移过来的自然图像中生成哈希代码

生成器 $G_{I}$ 和 $G_{S}$ ：两个并行的生成 CNNs 网络，分别完成从草图到自然图像和从自然图像到草图的生成工作
判别器 $D_{S}$ 和 $D_{I}$ ：分别判定生成的自然图像和草图与真实样本的差异
哈希网络 $H$ ：将由判别器生成的草图和图像转换为二进制的哈希编码，并且可以基于带掩码的真实图像 $(I\odot mask)$ 和生成的图像 $G_{I}(S)$ 进行训练
损失函数：基于三元组损失

你可能感兴趣的:(sketch,计算机视觉,github,深度学习,神经网络)

PyTorch 深度学习实战（8）：Transformer 与机器翻译（基于本地中英文文本文件）进取星辰 PyTorch 深度学习实战深度学习 pytorch transformer
在上一篇文章中，我们探讨了循环神经网络（RNN）及其在文本分类中的应用。本文将介绍Transformer模型的基本原理，并使用PyTorch和HuggingFace的transformers库实现一个简单的机器翻译模型。我们将基于本地的中英文文本文件进行实战演练。一、Transformer基础Transformer是一种基于自注意力机制（Self-Attention）的神经网络架构，由Vaswan
3d虚拟试衣 VTON 2025 AI算法网奇 aigc与数字人人工智能计算机视觉
目录3D虚拟试衣VTON2025vton360IdmvtonCatVTON3D虚拟试衣VTON2025vton360GitHub-scnuhealthy/VTON360IdmvtonGitHub-yisol/IDM-VTON:[ECCV2024]IDM-VTON:ImprovingDiffusionModelsforAuthenticVirtualTry-onintheWildCatVTONden
人工智能 - SpatialLM：三维空间理解的开源大语言模型天机️灵韵人工智能 #VLA 具身智能语言模型人工智能自然语言处理
项目概述SpatialLM是由杭州群核科技（“杭州六小龙”之一）于GTC2025大会上开源的三维空间理解大语言模型。该项目旨在通过多模态数据处理能力，将非结构化的三维几何数据（如点云、视频）转化为机器可读的结构化场景描述，为机器人导航、建筑设计、AR/VR等领域提供高层次的语义理解支持。项目官网：SpatialLMhttps://manycore-research.github.io/Spatia
deepseek本地部署+数据投喂 showker ai
1、安装ollama2、安装可视化界面https://github.com/open-webui/open-webui启动open-webuiserve3、安装deepseek-r1,1.5b版本ollamarundeepseek-r1:1.5b4、ollama里选择model-deepseek-r1,1.5b
使用LangChain和中文羊驼2.0搭建离线版的ChatPDF 大模型常客 langchain 人工智能 ai agi 经验分享笔记
本文的目标是搭建一个离线版本的ChatPDF（支持中英文），让你随心地与你想要阅读的PDF对话，借助大语言模型提升获取知识的效率。除此之外，你还可以：了解使用LangChain完整的流程。学习基于向量搜索和Prompt实现一个文档问答机器人的方法原理。了解如何使用llama.cpp量化大模型的方法。了解如何使用深度学习中常用的向量数据库。为了让更多的同学看懂，我会尽量写的小白一点。如果你是有经验的
Linux系统增加用户用于深度学习不要绝望总会慢慢变强视觉大作战 linux 运维服务器深度学习人工智能
首先是为自己创建一个新用户名sudouseradd-mnewuser#增加一个newuser用户sudopasswdnewuser#为newuser用户设置密码sunewuser#切换到newuser用户如何切换用户界面的Bashsudochsh-s/bin/zshluoshiyong#配置zshsudochsh-s/bin/bashluoshiyong#配置bash如何使用Anaconda环境创
大模型算法岗面试题(含答案) X.Cristiano LLM 大模型人工智能
一、基础篇目前主流的开源模型体系有哪些？Transformer体系：由Google提出的Transformer模型及其变体，如BERT、GPT等。PyTorchLightning：一个基于PyTorch的轻量级深度学习框架，用于快速原型设计和实验。TensorFlowModelGarden：TensorFlow官方提供的一系列预训练模型和模型架构。HuggingFaceTransformers：一
《深入浅出LLM基础篇》（四）：主流大模型介绍 GoAI 深入浅出AI 深入浅出LLM 自然语言处理NLP 大模型 LLM 人工智能 llama chatglm
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接✨专栏介
AI在个性化广告创意生成中的应用杭州大厂Java程序媛 DeepSeek R1 &AI人工智能与大数据人工智能 ai
AI在个性化广告创意生成中的应用关键词：AI、个性化广告创意生成、用户画像、深度学习、自然语言处理、计算机视觉摘要：本文深入探讨了AI在个性化广告创意生成中的应用。首先介绍了相关背景，包括目的范围、预期读者等内容。接着阐述了核心概念及联系，详细讲解了核心算法原理与操作步骤，并通过数学模型和公式进行理论支持。通过项目实战展示了代码实现与分析，探讨了实际应用场景。还推荐了学习工具和资源，最后总结了未来
使用go实现导入Rxcel数据到数据库并渲染到页面上远游客0713 golang 数据库开发语言
github.com/360EntSecGroup-Skylar/excelizegithub.com/tealeg/xlsx可以使用以上两个库代码如下：//jsonResult返回JSON格式的结果func(c*TemplateController)jsonResult(codeint,msgstring,datainterface{}){c.Data["json"]=map[string]in
【github】github访问速度太慢问题 comochris 笔记分享 git github
【windows】修改本地电脑系统hosts文件C:\Windows\System32\drivers\etc，【Linux】vi/etc/hosts直接在最后加入以下代码，对应IP可以在网站https://www.ipaddress.com/中找到：140.82.112.3github.com151.101.184.133assets-cdn.github.com151.101.185.194g
Python3 MySQL 数据库连接化茧成蝶007 python mysql 数据库 python shell 脚本
PyMySQL安装在使用PyMySQL之前，我们需要确保PyMySQL已安装。PyMySQL下载地址：https://github.com/PyMySQL/PyMySQL。如果还未安装，我们可以使用以下命令安装最新版的PyMySQL：$pipinstallPyMySQL如果你的系统不支持pip命令，可以使用以下方式安装：1、使用git命令下载安装包安装(你也可以手动下载)：$gitclonehtt
go-carbon v2.6.0 重大版本更新，轻量级、语义化、对开发者友好的 golang 时间处理库
carbon是一个轻量级、语义化、对开发者友好的Golang时间处理库，提供了对时间穿越、时间差值、时间极值、时间判断、星座、星座、农历、儒略日/简化儒略日、波斯历/伊朗历的支持。carbon目前已捐赠给dromara开源组织，已被awesome-go收录，并获得gitee2024年最有价值项目（GVP）和gitcode2024年度G-Star项目，如果您觉得不错，请给个star吧github.c
AI编程神器巅峰对决！Cursor、Windsurf、Trae谁将取代Copilot？实测结果颠覆认知！程序员
引言随着AI技术的爆发式发展，AI编程工具正在重塑软件开发流程。GitHubCopilot作为先驱者长期占据市场主导地位，但新一代工具如Cursor、Windsurf和Trae正以颠覆性创新发起挑战。本文基于多维度实测数据，深度解析三款工具的核心竞争力，揭示AI编程工具的格局演变趋势。工具定位与核心技术1.Cursor：智能化的全能助手基于VSCode生态深度改造，Cursor融合GPT-4和Cl
写给孩子和极客的趣味数学 --“自动驾驶背后的数学” 专栏导读赛卡自动驾驶背后的数学自动驾驶人工智能机器学习 python 学习 pytorch numpy
专栏链接：自动驾驶背后的数学一、专栏逻辑图谱深度学习进阶视觉感知与多传感器融合基础工具与决策流程10.激活函数解析6.视觉坐标变换体系7.视觉优化与融合8.全流程解析2.传感器数据到控制指令的函数嵌套1.10岁孩子就能读懂自动驾驶背后的数学密码3.特征提取中的线性变换与非线性激活4.多模态传感器融合建模5.坐标映射与数据融合概述9.坐标映射轻快版PiDay趣味开篇基础工具与决策流程视觉感知与多传感
神经网络解决非线性二分类欣然～神经网络分类人工智能
这份Python代码实现了一个简单的神经网络，用于解决复杂的非线性二分类问题。具体步骤包含生成数据集、定义神经网络模型、训练模型、测试模型以及可视化决策边界。依赖库说明pythonimportnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.datasetsimportmake_moonsfromsklearn.model_selectionimpo
Elasticsearch 入门到精通-Ansj分词器的安装和使用王stone elasticsearch elasticsearch 大数据 big data
一、版本和对应关系pluginelasticsearch7.6.27.6.27.7.07.7.07.7.17.7.17.8.07.8.07.8.17.8.17.9.07.9.07.9.17.9.17.9.27.9.27.9.37.9.3二、安装步骤1、下载安装ES对应PluginRelease版本a.GitHub-NLPchina/elasticsearch-analysis-ansjb.解压el
基于powerlevel10k的mac terminal，速度超快(无需oh-my-zsh) 帅气的风系统
ZSH安装一般mac最新的系统都自带zsh命令，只需chsh-s/bin/zsh切换到zsh命令环境，这个环境对bash命令兼容，如果你之前配置过bash的环境，可以在~/.zshrc里面添加，最好是配置完terminal的主题后加，因为后面会覆盖你的zshrc文件。没有安装zsh命令的话，只需要brewinstallzshpowerlevel10k安装打开此链接github，进入到库里面，按照安
labelimg 设置颜色多边形框 AI算法网奇 python宝典 java 开发语言
目录支持多边形框，线段，圆标签ok键：labelimg颜色画虚线支持多边形框，线段，圆优点，修改不用切换，自动切换修改模式GitHub-jacke121/Labelimg_polygon:labelimgfordrawingpolygon标签ok键：defvalidate(self):try:ifself.edit.text().trimmed():self.accept()exceptAttri
Celery+Redis：高效实现Python分布式任务队列与异步处理船长@Quant Python 金融科技 python redis 分布式
Celery+Redis：高效实现Python分布式任务队列与异步处理Celery是一个简单、灵活且可靠的分布式任务队列，专注于实时处理和任务调度。它能够高效处理大量消息，广泛应用于Python项目中，适用于发送电子邮件、数据清洗等耗时任务。Celery有广泛的用户与贡献者社区，Github地址https://github.com/celery/celery。sendtasktobrokerbyc
ai-by-hand-excel: 用 Excel 手搓各种 AI 算法和模型小众AI AI开源人工智能 excel 算法
GitHub：https://github.com/ImagineAILab/ai-by-hand-excel更多AI开源软件：发现分享好用的AI工具、AI开源软件、AI模型、AI变现-小众AI通过Excel的形式实现并演示人工智能与深度学习的核心算法和概念，让初学者可以动手操作并理解AI的运行原理，包括矩阵乘法、MLP、RNN、Transformer、ResNet等，以独特且浅显易懂的形式，降低
YOLO编程：开启计算机视觉的神奇之门大雨淅淅编程语言目标跟踪人工智能计算机视觉
目录一、从神奇的AI应用说起二、YOLO是什么三、YOLO的独特优势（一）速度为王（二）精度可靠（三）部署便捷四、YOLO的工作流程揭秘（一）图像分割与网格划分（二）目标预测与数据输出（三）结果筛选与最终确定五、YOLO编程实践（一）准备工作（二）模型训练（三）模型推理六、YOLO的应用领域大放异彩（一）安防监控（二）自动驾驶（三）工业检测（四）无人机领域七、总结与展望一、从神奇的AI应用说起在科
机顶盒EPG开发《进阶篇一》 weixin_30363817 javascript ViewUI
【框架】?STBTV端全栈解决方案。Android、Linux、电信、移动、广电平台https://shitaozhang.github.io/【文档】EPG的全业务解决方案，拥有最新的ES6\ES7API、Preact、Mobx而无需考虑其兼容性。同时包含所有常规功能、业务最佳实践示例转载于:https://www.cnblogs.com/menu/p/7500432.html
CI/CD(六) helm部署ingress-nginx（阿里云） qq_41369135 ci/cd nginx 阿里云 helm ingress-nginx
零、修改iptable为ipvs（可选）修改kube-proxy配置：kubectleditcmkube-proxy-nkube-system#将mode字段改为"ipvs"重启kube-proxy：kubectldeletepod-lk8s-app=kube-proxy-nkube-system验证IPVS状态：ipvsadm-Ln#查看负载均衡规则一、github下载最新的包（4.12.0）R
模型量化的原因和方法潇湘馆记人工智能算法
优化模型参数以适应有限内存环境为了使具有大量参数（例如Llama3.1的4050亿个参数）的大型语言模型在合理内存的设备上高效运行，需要对模型进行一系列优化。这包括理解参数的概念、采用量化技术、剪枝、稀疏表示等方法。参数的概念权重(Weights)定义：权重是连接输入特征与输出预测之间的系数。在神经网络中，每个神经元与其前一层神经元之间的连接都有一个对应的权重。作用：权重决定了输入数据对最终输出的
【iframe结合pdf.js实现pdf的预览/下载及打印功能】 AmyGeng123 vue javascript 前端 vue.js
iframe结合pdf.js实现pdf的预览/下载及打印1.[下载pdf.js](http://mozilla.github.io/pdf.js/getting_started/#download)2.将下载好的文件中的build和web拷贝到vue项目的public文件夹下3.直接在项目中使用4.温馨提示:最终效果1.下载pdf.js2.将下载好的文件中的build和web拷贝到vue项目的pu
版本控制GIT的使用木子0204 git
在GitCode上进行代码提交的步骤与在GitHub或其他Git托管平台上提交代码的步骤类似。以下是一个基本的流程：1.安装Git如果你还没有安装Git，首先需要在你的计算机上安装Git。你可以从Git官方网站下载并安装适合你操作系统的版本。2.配置Git安装完成后，你需要配置你的用户名和邮箱地址，这些信息会与你的提交记录关联。gitconfig--globaluser.name"你的用户名"gi
MediaPipe：实时多媒体处理框架 KsClang 机器学习-深度学习
MediaPipe是一个开源的实时多媒体处理框架，用于构建基于机器学习的应用程序。它提供了一套工具和库，使开发者能够轻松地处理和分析视频、音频和图像数据。MediaPipe具有高度可扩展性和灵活性，适用于各种应用领域，包括计算机视觉、增强现实、虚拟现实和音频处理等。MediaPipe的特点实时性能：MediaPipe专注于实时应用程序，它能够以低延迟的方式处理多媒体数据。通过充分利用硬件加速和并行
MediaPipe实时机器学习框架 EngineerSuTao 机器学习人工智能
MediaPipeMediaPipe是Google推出的一个实时机器学习框架，主要用于手势识别、人体姿态追踪、人脸检测等计算机视觉任务。✅跨平台支持（可在PC、Android、iOS上运行）✅轻量级（可在移动设备上实时运行）✅无需深度学习背景（简单调用API就能实现复杂的AI视觉任务）MediaPipe能做什么？模块作用应用场景Hands手部关键点检测（21关键点）手势识别、手语翻译、虚拟鼠标Po
OneFlow深度学习框架介绍技术探秘者人工智能 oneflow
目录第一章：OneFlow深度学习框架引言1.1深度学习框架的重要性1.2OneFlow框架的诞生背景1.3本章内容概要第二章：OneFlow框架基础2.1OneFlow框架的安装与配置2.1.1环境准备2.1.2安装OneFlow框架Linux系统安装Windows系统安装MacOS系统安装2.1.3配置OneFlow框架2.2OneFlow框架的核心概念2.2.1张量（Tensor）2.2.2
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本