论文笔记：PolarMask: Single Shot Instance Segmentation with Polar Representation

这是CVPR2020 oral的一阶段实例分割的文章。
基于点来出框还是基于特征区域来出框是划分一阶段和二阶段最重要的依据。
论文PDF：https://arxiv.org/pdf/1909.13226.pdf
代码：github.com/xieenze/PolarMask.

摘要

本文通过实例中心分类和极坐标中的密集距离回归，将实例分割问题表述为实例轮廓的预测。另外，本文采用有效的方法来处理采样高质量中心实例和优化密集距离回归，显著提高性能，简化训练过程。

必要知识

1.mAP值的计算
P：precision，即准确率；也就是所有被识别出来的本类物体中，真正的这类物体所占的比例。
R：recall，即召回率。也就是被正确识别出来的本类物体个数与测试集中所有真实本类物体的个数的比值。
Precision-recall 曲线：即以precision和recall作为纵、横轴坐标的二维曲线。改变识别阈值，使得系统依次能够识别前K张图片，阈值的变化同时会导致Precision与Recall值发生变化，从而得到曲线。
AP: Average Precision，就是Precision-recall 曲线下面的面积，通常来说一个越好的分类器，AP值越高。
mAP：Mean Average Precision，是多个类别AP的平均值。这个mean的意思是对每个类的AP再求平均，得到的就是mAP的值，mAP的大小一定在[0,1]区间，越大越好。该指标是目标检测算法中最重要的一个。

COCO中说的AP是AP[.50:.05:.95]，也就是IOU_T设置为0.5,0.55,0.60,0.65……0.95，算十个APx，然后再求平均，得到的就是AP（COCO里的AP就是mAP）。官方解释如下：

2.mask掩码
第一步建立与原图一样大小的mask图像，并将所有像素初始化为0，因此全图成了一张全黑色图。
第二步将mask图中的r1区域的所有像素值设置为255,也就是整个ROI区域变成了白色。

mask其实就是位图啊，来选择哪个像素允许拷贝，哪个像素不允许拷贝。如果mask像素的值是非0的，我就拷贝它，否则不拷贝。得到的感兴趣的区域是白色的，表明感兴趣区域的像素都是非0，而非感兴趣区域都是黑色。一旦原图与mask图进行与运算后，得到的结果图只留下原始图感兴趣区域的图像了。
3.Smooth L1 Loss

在 x 较小时，对 x 的梯度也会变小，而在 x 很大时，对 x 的梯度的绝对值达到上限 1，也不会太大以至于破坏网络参数。 smooth L1 完美地避开了 L1 和 L2 损失的缺陷。（当 x 增大时 L2 损失对 x 的导数也增大。这就导致训练初期，预测值与 groud truth 差异过于大时，损失函数对预测值的梯度十分大，训练不稳定。L1 对 x 的导数为常数。这就导致训练后期，预测值与 ground truth 差异很小时， L1 损失对预测值的导数的绝对值仍然为 1，而 learning rate 如果不变，损失函数将在稳定值附近波动，难以继续收敛以达到更高度。）
4.全卷积网络
简单来说就是把CNN最后的全连接层换成卷积层，输出的是一张已经Label好的图片，主要好处是支持不同大小的输入。采用反卷积层对最后一个卷积层的feature map进行上采样, 使它恢复到输入图像相同的尺寸，从而可以对每个像素都产生了一个预测, 同时保留了原始输入图像中的空间信息, 最后在上采样的特征图上进行逐像素分类。

5.COCO数据集
起源于微软于2014年出资标注的Microsoft COCO数据集，COCO数据集是一个大型的、丰富的物体检测，分割和字幕数据集。这个数据集以scene understanding为目标，主要从复杂的日常场景中截取，图像中的目标通过精确的分割进行位置的标定。图像包括91类目标，328,000个影像和2,500,000个label。虽然比ImageNet和SUN类别少，但是每一类的图像多，这有利于获得更多的每类中位于某种特定场景的能力，对比PASCAL VOC，其有更多类和图像。
6.随机剪裁（random crop）
在深度学习的训练时将图片的随机剪裁已经成为很普遍的数据扩充（data augmentation）方法，随机剪裁（缩写为：IRC）不但提高了模型精度，也增强了模型稳定性。
7.边际成本（marginal cost）
每增加一次数据量（batch_size大小、图片大小、Region Proposal个数等等），所造成的计算总成本（time cost 或 memory cost）的增量。
8.多尺度训练
多尺度训练对全卷积网络有效，一般设置几种不同尺度的图片，训练时每隔一定iterations随机选取一种尺度训练。这样训练出来的模型鲁棒性强，其可以接受任意大小的图片作为输入，使用尺度小的图片测试速度会快些，但准确度低，用尺度大的图片测试速度慢，但是准确度高。
9.Mask R-CNN（看看里面添加mask分支的思想）
10.Mask Scoring R-CNN（添加mask-IoU分支的具体内容和作用）
11.flops分析
Flops:floatingpointoperationspersecond的缩写,指的是每秒浮点运算次数,理解为计算速度。是一个衡量硬件性能的指标。用来衡量算法/模型的复杂度。其实也就是模型进行参数运算的次数。
GFLOPS (gigaFLOPS) 等于每秒10亿 (=10^9) 次的浮点运算

1.介绍

本文设计了一种基于极坐标表示的实例分割方法，通过寻找物体的轮廓来建模，优点如下：
（1）极坐标的原点可以看作是物体的中心。
（2）从原点开始，轮廓点由距离和角度决定。
（3）角度是自然定向的，连接起来很方便指向一个完整的轮廓。
换句话说，基于极坐标系的方式已经将固定角度设为先验，网络只需回归固定角度的长度即可，简化了问题的难度。笛卡尔表示可能表现类似于前两个的属性。然而，它缺乏第三条属性的优势。如图，本文采用的是图d，Mask RCNN采用的是图b.

PolarMask可以看作是FCOS的推广。换句话说，FCOS是PolarMask的一个特例，因为bounding box可以看作是最简单的只有4个方向的mask.
本文主要贡献：
（1）将实例分割转换为两个并行任务：实例中心点分类和密集距离回归。
（2）提出了极坐标IoU损失和极坐标中心，用来优化high-quality正样本采样和dense distance regression的损失函数优化。结果表明，相比于标准的损失，比如光滑的L1损失，本文提出的极坐标IoU损失可以大大地简化优化过程，大大提高准确率。同时，极坐标中心改善了FCOS中最初的“中心”思想，从而进一步提高了性能。
（3）第一次证明了实例分割在网络设计和计算复杂度上可以与anchor free的物体检测一样简单。没有使用任何trick(多尺度训练，延长训练时间等)，PolarMask 在ResNext 101的配置下在coco test-dev上取得了32.9的mAP。

2.相关工作

1.二阶段实例分割
二阶段实例分割通常先检测边界框，再在每个边界框的区域内执行分割。
Mask R-CNN建立在Faster R-CNN上，只需添加一个额外的掩码分支，并使用RoI-Align代替RoI-Pooling就提高了精度。
Mask Scoring R-CNN通过添加mask-IoU分支，从分类分数中重新计算掩码的置信度，从而使网络预测掩码的和groundtruth的IoU。
上述方法通常由两个步骤组成，首先检测边界框，然后在每个边界框中分类。他们可以达到最先进的性能，但往往是缓慢的
2.一阶段实例分割
TensorMask研究了密集滑动窗口实例分割的范式，使用结构化的4D张量在空间域上表示掩码。
我们的PolarMask直接用简单灵活的两个平行分支的方法来模拟实例分割：对实例中心每个像素进行分类，并回归质量中心和等高线之间的密集分布的射线。与上述方法相比， PolarMask最显著的优点是简单有效。

3.本文方法

3.1 架构

PolarMask是一个简单、统一的网络，由骨干网络、特征金字塔网络和两三个 task-specific heads（这句怎么翻译？）组成，取决于是否预测边界框。骨干网络和特征金字塔网络的设置与FCOS相同。虽然有许多更强的候选组件，但我们将这些设置与FCOS保持一致，以显示我们的实例建模方法的有效性和简便性。

3.2 Polar Mask分割

极坐标表示
因为射线条数给定后，射线的夹角固定，只需要预测射线的长度。因此，我们将实例分割转化为实例中心分类和极坐标中的密集距离回归。
Mass Center重心
实例的中心有许多选择，例如box中心或重心。重心下降的速度更快，但是对于目标是圆环的情况，重心在实例外。我们暂时不考虑。
Center Samples中心采样
定义采样正像素的区域为从重心到左侧、顶部、右侧和底部的特征映射的1.5×步长。因此，每个实例在重心附近有大约9∼16个像素作为中心示例。这有两个优点:
（1）将正样本的数量从1增加到9∼16，可以在很大程度上避免正负样本的不平衡。然而，在训练分类分支时仍然需要focal loss。
（2）重心可能不是实例的最佳中心样本。更多的候选点使得能够自动找到一个实例的最佳中心。
Distance Regression
给定一个中心样本(X_C，Y_C)和实例的轮廓点，可以很容易地计算n条射线的长度{d₁，d₂，…，d_n}。对于一些特殊的情况：
（1）如果一条射线与实例轮廓有多个交点，则直接选择长度最大的一条。
（2）如果一条射线从掩模的中心开始，在某些角度上与实例的轮廓没有交点，我们将其回归目标设定为最小值ε （例如，ε=10^-6）。
（3）如果射线和轮廓之间的交点像素坐标不是整数，则我们可以使用插值方法（例如线性插值）来估计其回归目标。

在回归分支的训练中。首先，PolarMask中的mask分支实际上是一个密集的距离回归任务，因为每个训练示例都有n条射线（例如n = 36）。这可能会导致回归损失和分类损失之间的不平衡。第二，例如，它的n射线是相关的，应该整体上进行训练，而不是被视为一组独立的回归示例。因此，我们提出了Polar IoU损耗。在3.4中介绍。

Mask Assembling:
在推断过程中，网络输出分类和中心，我们将中心与分类相乘得到最终的置信度得分。将置信度分数设为0.05后，我们最多只能根据每个FPN级别的前一千最高得分预测来组装mask。合并来自所有级别的最高预测，并应用阈值为0.5的非极大值抑制（NMS）产生最终结果。接下来介绍mask的组装过程和简单的非极大值抑制过程。
给定一个中心样本（x_c，y_c）和n条射线的长度{d₁，d₂，…，d_n），我们可以使用以下公式计算每个相应轮廓点的坐标：
从0度开始，轮廓点如图3所示，它们被一个接一个地连接，最后组装出一个完整的轮廓以及mask。

我们应用非极大值抑制删除多余的mask。为了加快这一过程，我们计算了mask的最小边界框，然后根据框的IoU应用NMS。我们验证了这种简化的后处理不会对最终的蒙版性能产生负面影响。

3.3 Polar Centerness

引入中心可以抑制低质量的检测对象，而无需引入任何超参数，并且已证明在目标边界框检测中有效。但是，直接将其传输到我们的系统可能不是最优的，因为它是为边界框设计的，我们关心的是mask的预测。

给定集合{d₁，d₂，… ，d_n}表示一个实例的n条射线的长度，其中dmax和dmin是集合的最大值和最小值。则Polar Centerness为：
具体来说，我们添加了一个与分类分支平行的单层分支，以预测某个位置的极心，如图2所示。这是一种简单但有效的策略，可以对点进行重新加权，从而使dmin和dmax越近，权重较高的点被分配。实验表明，极心可以提高精度，尤其是在更严格的定位指标（例如AP75）下。

3.4 Polar IoU Loss:

极坐标分割方法将实例分割的任务转换为一组回归问题。在目标检测和分割领域中，大多数采用smooth-l1 loss和IoU loss监督回归问题。但是，smooth-l1 loss忽略了相同对象的样本之间的相关性，因此导致定位精度较低。然而，IoU loss会从整体上考虑优化，并直接优化关注指标。然而，计算预测mask的IoU及其基本情况很难实现并行计算。在这项工作中，我们推导了一种简单有效的算法，可基于极坐标表示来计算mask IoU，并实现有竞争性的性能，如图5所示。
在极坐标系中，mask IoU的计算如下（即计算出了mask和GT的IOU）：
其中回归目标d和预测d∗是射线的长度，角度为θ。然后将其转换为离散形式。
当N接近无穷大时，离散形式等于连续形式。我们假设线是均匀发射的，所以∆θ =2π/N，这进一步简化了表达式。凭实验观察到，如果将平方形式丢弃并简化为以下形式，对性能几乎没有影响（±0.1 mAP的差别）：
Polar IoU Loss是Polar IoU的二进制交叉熵（BCE）Loss。由于最佳IoU始终为1，Loss实际上是Polar IoU的负对数：

Polar IoU Loss具有两个有利的特性：（1）可微分，能够实现反向传播；并且很容易实现并行计算，从而促进了快速的训练过程。（2）整体预测回归目标。与我们的实验中显示的“ smooth-1”Loss相比，它大大提高了整体性能。（3）另外，Polar IoU Loss能够自动保持分类损失与密集距离预测的回归损失之间的平衡。这条将在后面实验中对其进行详细讨论。

4.实验部分

我们在COCO基准上提供实例分割的结果。按照常规做法，我们使用8万训练图像集和验证图像集的35K子集（trainval35k）的联合进行训练，并报告在剩余5K 验证图片集（minival）的消融情况。
我们还将在test-dev上比较结果。除非另有说明，否则我们采用1x训练策略（1x代表12epoch的COCO训练），单尺度训练和测试图像短边为800。
Training Details：
在消融研究中（思想是控制变量法），将ResNet-50-FPN 用作我们的骨干网络，并使用与FCOS 相同的超参数。具体来说，我们的网络使用随机梯度下降（SGD）进行了90K次迭代训练，初始学习率为0.01，并且有16个图像的小批量。在迭代60K和80K时，学习率分别降低了10倍。
权重衰减和动量分别设置为0.0001和0.9。我们使用ImageNet 上预先训练的权重来初始化骨干网络。调整输入图像的大小，使其短边为800，长边小于或等于1333。

4.1. 消融研究

上限验证（是否能够精准的描述mask）：
关于PolarMask的第一个问题是它可能无法精确地描绘mask。在本节中，我们证明此担心是没有必需的。在这里，当所有射线回归到等于ground truth的距离时，我们将PolarMask的上限验证为预测的mask和ground truth的IoU。图7显示了对不同射线数量的验证结果。

可以看到，当线的数量增加时，IoU接近完美（90％以上），这表明Polar Segmentation能够很好地建模mask 。因此，不必关注PolarMask的上限。同样，使用重心比以边界框中心为实例的中心更为合理。
射线数量：
它在PolarMask的整个系统中起着根本性的作用。从表a和图7中可以看出，更多的射线呈现出更高的上限和更好的AP。

例如，与18射线相比，36射线使AP改善1.5％。另外，太多的射线（72射线）会使性能饱和，因为它已经很好地描绘了mask的轮廓，射线数量不再是限制性能的主要因素。

Polar IoU Loss vs. Smooth-l1 Loss
我们在架构中测试了Polar IoU Loss和Smooth-l1 Loss。我们注意到，Smooth-l1 Loss的回归损失明显大于分类损失，因为我们的体系结构是密集距离预测的任务。为了解决不平衡问题，我们在Smooth-l1损失中选择不同的因子α来回归损失。实验结果示于表b。

我们的Polar IoU Loss达到了27.7％的AP，而没有平衡回归损失和分类损失。相比之下，Smooth-l1损失的最佳设置达到25.1％AP，差距为2.6％AP，表明Polar IoU损失比Smooth-l1损失更有效地训练心和轮廓之间的距离回归任务。

我们假设差距可能来自两个方面。首先，Smooth-l1损耗可能需要更多的超参数搜索才能获得更好的性能，与Polar IoU loss相比，这很耗时。其次，Polar IoU损失可以预测一个实例作为一个整体的所有射线，这要优于Smooth-l1损失。

在图6中，我们分别比较了使用Smooth l1损耗和Polar IoU loss的一些结果。 Smooth-l1 Loss的结果表明它缺乏对整个对象水平的监督。 PolarMask展示了更平滑，更精确的轮廓。
Polar Centerness vs. Cartesian Centerness:

比较实验如表c。极坐标中心总体提高AP 1.4％。特别是，AP75和APL分别大幅提高了2.3％和2.6％。我们解释如下。一方面，低质量的mask会对IoU产生更多负面影响。另一方面，大实例在最大和最小射线长度之间存在较大差异的可能性更大，这正是极坐标中心致力于解决的问题。

Box Branch:
大多数以前的实例分割方法都需要边界框来定位目标区域，然后对对象内部的像素进行分割。相比之下，PolarMask可以直接输出mask而无需边界框。在本节中，我们测试附加边界框是否可以帮助改善mask的AP，如下所示。如果射线到达边界框之外，则射线在边界处被切断。从表d中，我们可以看到边界框对模板预测的性能影响不大。

因此，为了简化和提高速度，在PolarMask中没有使用边界框预测。

Backbone Architecture：
表e显示了PolarMask在不同网络主干上的结果。可以看出，由更深层次的高级设计网络提取的更好的功能可以按预期提高性能。
Speed vs. Accuracy :

较大的图像尺寸会以较低的推理速度产生较高的精度。表f显示了由较短图像侧定义的不同输入图像比例的速度/精度的权衡。在V100上得到了FPS。它表明PolarMask具有很强的潜力，只需简单修改即可开发为实时实例分割应用程序。（注意，这里考虑整个模型推断的时间，包括所有后处理过程）

4.2 Comparison to state-of-the-art ：

我们在COCO数据集上评估PolarMask，并将测试开发结果与包括一阶段和两阶段模型在内的最新方法进行比较，如表2所示。PolarMask输出如图8所示。
PolarMask无需任何花哨的技巧，就可以通过更复杂的一步法获得竞争性性能。由于我们的目的是设计概念上简单灵活的mask预测模块，因此许多改进方法例如多尺度训练和更长的训练时间，不在本工作范围之内。我们认为，YOLACT和PolarMask的差距来自更多的训练迭代和数据扩充。如果将这些方法应用于PolarMask，则可以轻松提高性能。此外，TensorMask和PolarMask的差距是由张量双锥体和对齐表示引起的。考虑到这些方法既耗时又耗费内存，因此我们不将其插入PolarMask。

5.Conclusion ：

PolarMask是一种具有两个平行分支的一阶段无锚实例分割方法：对实例的质心进行分类，并对质心和轮廓周围的采样位置之间的密集射线进行回归。与以前通常将mask预测解决为空间布局中的二进制分类的先前工作不同，PolarMask提出了极坐标表示并将mask预测转换为密集距离回归。
PolarMask的设计几乎与一阶段物体检测一样简单，干净，从而可忽略不计的计算开销。我们希望所提出的PolarMask框架可以作为一阶段实例分割任务的基础和强大的基准。

【笔记】扩散模型（七）：Latent Diffusion Models（Stable Diffusion）论文解读与代码实现 LittleNyima Diffusion Models 笔记 stable diffusion AIGC 人工智能
论文链接：High-ResolutionImageSynthesiswithLatentDiffusionModels官方实现：CompVis/latent-diffusion、CompVis/stable-diffusion这一篇文章的内容是LatentDiffusionModels（LDM），也就是大名鼎鼎的StableDiffusion。先前的扩散模型一直面临的比较大的问题是采样空间太大，学
《深入浅出多模态》（九）多模态经典模型：MiniGPT-v2、MiniGPT5 GoAI 深入浅出多模态深入浅出AI 多模态 vllm LLM 大模型 stable diffusion
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接✨专栏介绍：</
人脸识别算法MTCNN论文解读纸上得来终觉浅～图像处理 paper阅读人脸识别 mtcnn
论文名称：JointFaceDetectionandAlignmentusingMulti-taskCascadedConvolutionalNetworks论文地址：https://www.lao-wang.com/wp-content/uploads/2017/07/1604.02878.pdf1、MTCNN原理MTCNN，Multi-taskconvolutionalneuralnetwor
NL2SQL进阶系列(5)：论文解读业界前沿方案（DIN-SQL、C3-SQL、DAIL-SQL、SQL-PaLM）、新一代数据集BIRD-SQL解读汀、人工智能 LLM工业级落地实践 copilot 人工智能 NL2SQL LLM 自然语言处理 NL2DSL Text2SQL
NL2SQL进阶系列(5)：论文解读业界前沿方案（DIN-SQL、C3-SQL、DAIL-SQL）、新一代数据集BIRD-SQL解读NL2SQL基础系列(1)：业界顶尖排行榜、权威测评数据集及LLM大模型（SpidervsBIRD）全面对比优劣分析[Text2SQL、Text2DSL]NL2SQL基础系列(2)：主流大模型与微调方法精选集，Text2SQL经典算法技术回顾七年发展脉络梳理NL2SQ
图形学论文笔记 Jozky86 图形学图形学笔记
文章目录PBD：XPBD：shapematchingPBD：【深入浅出NvidiaFleX】(1)PositionBasedDynamics最简化的PBD(基于位置的动力学)算法详解-论文原理讲解和太极代码最简化的PBD(基于位置的动力学)算法详解-论文原理讲解和太极代码XPBD：基于XPBD的物理模拟一条龙：公式推导+代码+文字讲解（纯自制）【论文精读】XPBD基于位置的动力学XPBD论文解读(
【论文解读】Macroblock Level Rate Control for Low Delay H.264/AVC based Video Communication Codec Conductor 论文解读 #x264 h.264 x264 音视频码率控制视频编解码 AVC
级别：IEEE时间：2015作者：MinGao等机构：哈尔滨工业大学下载：MacroblockLevelRateControlforLowDelayH.264/AVCbasedVideoCommunication摘要算法目的：提出了一种针对低延迟H.264/AVC视频通信的宏块（MB）级别速率控制算法。算法基础：基于ρ域速率模型，该模型涉及量化后零变换系数的百分比（ρ）。关键技术：使用指数模型来描
论文解读：从Dijkstra的On-the-Fly到Go的三色标记算法，并行垃圾回收的起源 liuwill 计算机科学算法后端论文阅读
我们经常听到关于垃圾回收的说法是，某种垃圾回收算法是一种特定语言特有的，容易理解成，垃圾回收的算法跟特定编程语言是绑定的，但是仔细想想，垃圾回收器是一种分配和管理内存的机制或者程序，内存管理跟语言本身是没有必然联系的，只是语言运行时实现时的一种策略选择。更严格来说的，其实不仅仅是垃圾回收策略，一些语言的语法特性，也不是某种语言专属，语言的实现者完全可以通过组合，自己选择自己偏好的策略，发明更多的语
机器人建图算法2.1从栅格占据地图到ESDF地图 RuiH.AI 机器人建图算法学习算法
机器人建图算法2.1从栅格占据地图到ESDF地图前言论文解读示意图说明伪代码说明算法流程总结前言最基础的地图是占据栅格地图Occupancymap，每个格子标明了该位置是否被物体占据。然而对于规划和避障而言，地图中的占据信息是不够的，还需要障碍距离、方向等信息。TSDF和ESDF地图弥补了这个缺陷。IROS2010:ImprovedupdatingofEuclideandistancemapsan
知识图谱最新权威综述论文解读：实体发现 ngl567
上期我们介绍了2020年知识图谱最新权威综述论文《ASurveyonKnowledgeGraphs:Representation,AcquisitionandApplications》的知识图谱补全部分，本期我们将一起学习这篇论文的实体发现部分。论文地址：https://arxiv.org/pdf/2002.00388.pdfarxiv.org1实体发现本节将基于实体的知识获取区分为若干细分任务，
这个论文解读 agent 比GPT-4 还要牛！强烈推荐！夕小瑶人工智能自然语言处理 transformer chatgpt 深度学习神经网络
已经2024年了，该出现一个论文解读AIAgent了。但是目前市面上哪怕最强的GPT-4来做论文解读也是不行，所以我们顺手做了这样一个agent，因为——我们公司的算法同学也需要刷论文啊喂=，=而且我们也经常人工写论文解读嘛，所以干脆就顺手做一个得了，不求赚钱，但求有点用。真正尝试过用gpt去刷论文、写论文解读的小伙伴，一定深有体验——费劲。其他agents也没有能搞定的，所以我们就索性做了个，传
《生产调度优化》专栏导读 Lins号丹生产调度优化生产调度优化
文章分类生产调度优化问题入门相关问题求解调度问题求解效率探讨相关论文解读生产调度优化问题入门文章包含重点简述生产车间调度优化问题两种常用的FJSP模型解析FJSP问题的标准测试数据集的Python代码解析FJSP标准测试数据代码相关问题求解文章求解器问题类型【作业车间调度JSP】通过python调用PuLP线性规划库求解PuLP（开源）作业车间调度JSP【作业车间调度JSP】通过PuLP调用COP
【ChatIE】论文解读：Zero-Shot Information Extraction via Chatting with ChatGPT Bigcrab__ 神经网络 Tensorflow chatgpt 人工智能深度学习
文章目录介绍ChatIEEntity-RelationTripleExtration(RE)NamedEntityRecognition(NER)EventExtraction(EE)实验结果结论论文：Zero-ShotInformationExtractionviaChattingwithChatGPT作者：XiangWei,XingyuCui,NingCheng,XiaobinWang,Xin
FaE：基于符号知识的适应性和可解释的神经记忆 NLP论文解读
©原创作者|朱林论文解读：FactsasExperts:AdaptableandInterpretableNeuralMemoryoverSymbolicKnowledge论文作者：GoogleResearch论文地址：https://arxiv.org/abs/2007.00849收录会议：NAACL202101介绍大规模语言模型，如BERT、Transformer等是现代自然语言建模的核心，其
论文解读：知识图谱融入预训练模型 NLP论文解读深度学习机器学习人工智能自然语言处理知识图谱
©NLP论文解读原创•作者|疯狂的Max背景及动机以BERT为基础的预训练模型在各项NLP任务获得巨大的成功，与此同时，如何在泛化的预训练模型基础上融入某些特定领域的知识图谱以获得在特定领域内让模型有更优秀的表现，这一课题也一直备受关注。然而大部分之前的将知识图谱融入预训练模型的工作都是将知识图谱的知识转化为知识导向的训练任务，通过更新整个模型的参数来进行训练，来实现知识图谱的融入。这种方法虽然可
知识增广的预训练语言模型K-BERT：将知识图谱作为训练语料 NLP论文解读知识图谱语言模型 bert
©原创作者|杨健论文标题：K-BERT:EnablingLanguageRepresentationwithKnowledgeGraph收录会议：AAAI论文链接：https://ojs.aaai.org/index.php/AAAI/article/view/5681项目地址：https://github.com/autoliuweijie/K-BERT01背景论述笔者在前面的论文解读中提到过E
HybridA* 论文解读 Big David 自动驾驶规划系列论文阅读笔记 Hybrid A*论文阅读混合Astar
本文旨在对原论文进行翻译，对混合A*有一个大概的理解论文题目：PracticalSearchTechniquesinPathPlanningforAutonomousDriving1摘要本文描述了一个实用的路径规划算法，无人驾驶汽车在未知的环境中，障碍物通过机器人的传感器实时检测产生平滑的路径。这项工作的动机和实验验证了在2007年DARPA城市挑战赛，机器人必须在停车场自主导航。本文的方法有两个
论文解读《Zero-Shot Category-Level Object Pose Estimation》类别级6D位姿估计 ZYLer_ 6D位姿估计人工智能计算机视觉
论文：《Zero-ShotCategory-LevelObjectPoseEstimation》该文整体感觉不难，处理流程比较新颖，可以重点参考。Code：https://github.com/applied-ai-lab/zero-shot-pose（48star）摘要：解决问题：实例级姿态估计的问题。=>**零样本（也就是预测未见过的物体（没有该实例的数据标记和CAD模型），类别级）**预测来
论文解读《Gen6D: Generalizable Model-Free 6-DoF Object Pose Estimation from RGB Images》小样本6D位姿估计 ZYLer_ 6D位姿估计机器学习人工智能计算机视觉 3d 深度学习
论文：《Gen6D:GeneralizableModel-Free6-DoFObjectPoseEstimationfromRGBImages》Code：https://github.com/liuyuan-pal/gen6d（469star）摘要：现有的可推广姿态估计器要么需要高质量的对象模型，要么在测试时需要额外的深度图或对象掩码，这大大限制了其应用范围。为了满足实际应用中的需求，我们认为姿态
论文解读《EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose 》 ZYLer_ 6D位姿估计计算机视觉人工智能 3d
论文：《EPro-PnP:GeneralizedEnd-to-EndProbabilisticPerspective-n-PointsforMonocularObjectPoseEstimation》Code：https://github.com/tjiiv-cprg/epro-pnp（909star）作者的视频简单介绍：https://www.bilibili.com/video/BV13T41
VLM 系列——Llava1.6——论文解读 TigerZ* AIGC算法人工智能 AIGC 深度学习计算机视觉
一、概述1、是什么Llava1.6是llava1.5的升级暂时还没有论文等，是一个多模态视觉-文本大语言模型，可以完成：图像描述、视觉问答、根据图片写代码（HTML、JS、CSS），潜在可以完成单个目标的视觉定位、名画名人等识别（问答、描述）。支持单幅图片输入（可以作为第一个或第二个输入），多轮文本对话。本文基于CLIP的视觉编码器，以及多个版本语言解码器，使用最简单的两层FC构成MLP映射视觉特
VLM （MLLM）系列——论文解读总结 TigerZ* AIGC算法深度学习人工智能计算机视觉 AIGC 图像处理算法
建议以下几篇都看一下吧，因为这几篇相对出发点都有新意，并且也都在同期的思南评测中有排名。CLIP*数据：用了4亿的互联网自有图文对数据。*模型：由一个视觉编码器、一个文本编码器*训练：一阶段预训练，在32768的batchsize下做的对比学习。中文CLIP*数据：由LAION5B等构成一个2亿的图文对数据。*模型：整体和CLIP类似，由一个视觉编码器、一个文本编码器。*训练：两阶段预训练，权重来
VLM 系列——MoE-LLaVa——论文解读 TigerZ* AIGC算法深度学习人工智能 AIGC 计算机视觉 transformer
一、概述1、是什么moe-Llava是Llava1.5的改进全称《MoE-LLaVA:MixtureofExpertsforLargeVision-LanguageModels》，是一个多模态视觉-文本大语言模型，可以完成：图像描述、视觉问答，潜在可以完成单个目标的视觉定位、名画名人等识别（问答、描述），未知是否能偶根据图片写代码（HTML、JS、CSS）。支持单幅图片输入（可以作为第一个或第二个
VLM 系列——LLaVA-MoLE——论文解读 TigerZ* AIGC算法深度学习人工智能 AIGC transformer 计算机视觉
一、概述1、是什么Llava-MoLE是Llava1.5的改进全称《LLaVA-MoLE:SparseMixtureofLoRAExpertsforMitigatingDataConflictsinInstructionFinetuningMLLMs》，是一个多模态视觉-文本大语言模型，可以完成：图像描述、视觉问答，潜在可以完成单个目标的视觉定位、名画名人等识别（问答、描述），未知是否能偶根据图片
【论文解读】Document-Level Relation Extraction with Adaptive Focal Loss and Knowledge Distillation Queen_sy 深度学习人工智能
目录1Introduction1Docre任务比句子级任务更具挑战性：2现有的Docre方法：3现有的Docre方法存在三个局限性2Methodology1使用轴向注意力模块作为特征提取器：2第二，提出适应性焦距损失3第三用知识蒸馏相关知识类别不平衡问题长尾类分布交叉熵损失和二元交叉熵损失二元交叉熵损失定义为知识蒸馏全文翻译https://baijiahao.baidu.com/s?id=1737
知识增强的预训练模型简介 NLP论文解读
©NLP论文解读原创•作者|杨健专栏系列概览该专栏主要介绍自然语言处理领域目前比较前沿的领域—知识增强的预训练语言模型。通过解读该主题具备代表性的论文以及对应的代码，为大家揭示当前最新的发展状况。为了能够和大家更好的分享自己的收获，笔者将遵循下面几个原则。1、理论讲解尽量深入浅出，通过举例子或者大白话讲解论文，而非仅针对原文翻译。2、针对论文中一些重要的术语，适时的做出解释。3、理论和实践相结合，
AAAI 2020「自然语言处理（NLP）论文解读」文本简化要素分析 Shu灬下雨天
来源：AINLPer微信公众号编辑:ShuYini校稿:ShuYini时间:2020-2-17TILE:DiscourseLevelFactorsforSentenceDeletioninTextSimpliﬁcation.Contributor:俄亥俄州立大学Paper:https://arxiv.org/abs/1911.10384v1Code:None文章摘要文本简化需要对相关的句子
论文笔记-Generative Adversarial Nets 升不上三段的大鱼
论文链接：https://papers.nips.cc/paper/2014/file/5ca3e9b122f61f8f06494c97b1afccf3-Paper.pdf论文解读：https://www.bilibili.com/video/BV1rb4y187vD?share_source=copy_web一句话总结：提出了生成模型框架GAN，包括一个生成模型G和一个判别模型D，用有监督的损失
「论文搬运」王亦洲课题组 CVPR 2021 入选论文解读：时间序列疾病预测的因果隐马尔可夫模型 Sternstunden 论文计算机视觉人工智能深度学习 cvpr
本文是对发表于计算机视觉和模式识别领域的顶级会议CVPR2021的论文“CausalHiddenMarkovModelforTimeSeriesDiseaseForecasting（时间序列疾病预测的因果隐马尔可夫模型）”的解读。该论文由北京大学王亦洲课题组与深睿医疗等单位合作，针对时间序列疾病预测的问题，提出了因果隐马尔可夫模型描述疾病的动态发展过程，并使用基于VAE的变分框架进行学习。通过对图
EMNLP 2023精选：Text-to-SQL任务的前沿进展（下篇）——Findings论文解读 Q同学的nlp笔记 sql 人工智能 nlp 自然语言处理深度学习语言模型论文阅读
导语本文记录了今年的自然语言处理国际顶级会议EMNLP2023中接收的所有与Text-to-SQL相关（通过搜索标题关键词查找得到，可能不全）的论文，共计12篇，包含5篇正会论文和7篇Findings论文，以下是对这些论文的略读，某几篇也有详细的笔记（见链接）。由于篇数过多，分为两篇博客记录，本篇为第二篇，主要记录Findings论文：序号类型标题1MainBenchmarkingandImpro
2018年美国大学生数学建模竞赛B题优秀论文解读校苑数模
2018年美赛B题优秀论文解读校苑数模校苑数模今天2018年美赛B题赛题2018MCMProblemB:HowManyLanguages?Background:Therearecurrentlyabout6,900languagesspokenonEarth.Abouthalftheworld’spopulationclaimoneofthefollowingtenlanguages(inorde
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D