Blue20

CVPR2018论文笔记（四）PPFNet_Part4

本周主要读（yì）了第五部分Results的内容。

5.Results##

（1）Setup

Our input encoding uses a 17-point neighborhood to compute the normals for the entire scene, using the well accepted plane fitting [18]. For each fragment, we anchor 2048 sample points distributed with spatial uniformity. These sample points act as keypoints and within their 30cm vicinity, they form the patch, from which we compute the local PPF encoding. Similarly, we down-sample the points within each patch to 1024 to facilitate the training as well as to increase the robustness of features to various point density and missing part. For occasional patches with insufficient points in the defined neighborhood, we randomly repeat points to ensure identical patch size. PPFNet extracts compact descriptors of dimension 64.
我们的输入编码利用由17个点的邻域作为整个场景来计算法线，利用公认的平面拟合。对于每个片段，我们锚定2048个具有分布均匀性的样本点。这些样本点作为关键点，并且在它们的30cm附近形成贴片，从中我们计算局部PPF编码。类似地，我们降采样每个贴片的点为1024，以便训练，同样增强特征对各种点密度和确实部分的鲁棒性。对于包含定义的邻域中点不足的偶然的贴片，我们随机重复点来确保相同的贴片大小。PPFNet提取64维度紧凑的描述符。
PPFNet is implemented in the popular Tensorflow [1]. The initialization uses random weights and ADAM [25] optimizer minimizes the loss. Our network operates simultaneously on all 2048 patches. Learning rate is set at 0.001 and exponentially decayed after every 10 epochs until 0.00001. Due to the hardware constraints, we use a batch size of 2 fragment pairs per iteration, containing 8192 local patches from 4 fragments already. This generates 2×20482 combinations for the network per batch.
PPFNet是在流行的Tensorflow中实现的。初始化利用随机宽度和ADAM优化程序缩小损失。我们同时在全部2048个贴片上运行网络。学习率设置为0.001并且以指数方式在每10历元衰减为0.00001。由于硬件条件的限制，我们每次迭代使用2个片段对的批处理大小，包含来自4个片段的8129个局部贴片。这就使每批网络产生2×2048x2048个组合。

（2）Real Datasets

We concentrate on real sets rather than synthetic ones and therefore our evaluations are against the diverse 3DMatch RGBD benchmark [48], in which 62 different real-world scenes retrieved from the pool of datasets Analysis-by-Synthesis [42], 7-Scenes [38], SUN3D [46], RGB-D Scenes v.2 [27] and Halber et [15]. This collection is split into 2 subsets, 54 for training and validation, 8 for testing. The dataset typically includes indoor scenes like living rooms, offices, bedrooms, tabletops, and restrooms. See [48] for details. As our input consists of only point geometry, we solely use the fragment reconstructions captured by Kinect sensor and not the color.
我们专注于真实的集合而不是合成集合，因此我们的评估是针对不同的3DMatch RGBD基准，其中从数据集Analysis-by-Synthesis [42], 7-Scenes [38], SUN3D [46], RGB-D Scenes v.2 [27] ,Halber et [15]的池中检索了62个不同的真实世界场景。这些集合分为2个子集，54个用来训练和验证，8个用来测试。数据集通常包括室内场景比如客厅、办公室、我是、桌面和洗手间。详情参考[48]。因为我们的输入只包括点几何，我们只通过Kinect传感器捕获片段进行重建，而不使用颜色特征。

（3）Can PPFNet outperform the baselines on real data?

We evaluate our method against hand-crafted baselines of Spin Images [21], SHOT [37], FPFH [34], USC [41], as well as 3DMatch [48], the state of the art deep learning based 3D local feature descriptor, the vanilla PointNet [30] and CGF [23], a hybrid hand-crafted and deep descriptor designed for compactness. To set the experiments more fair, we also show a version of 3DMatch, where we use 2048 local patches per fragment instead of 5K, the same as in our method, denoted as 3DMatch-2K. We use the provided pretrained weights of CGF [23]. We keep the local patch size same for all methods. Our evaluation data consists of fragments from 7-scenes [38] and SUN3D [46] datasets. We begin by showing comparisons without applying RANSAC to prune the false matches. We believe that this can show the true quality of the correspondence estimator. Inspired by [23], we accredit recall as a more effective measure for this experiment, as the precision can always be improved by better corresponding pruning [5, 4]. Our evaluation metric directly computes the recall by averaging the number of matched fragments across the datasets:
我们针对Spin Images [21], SHOT [37], FPFH [34], USC [41], 3DMatch [48] ,基于3D局部特征描述符的深度学习技术发展水平，基本的PointNet和CGF的手工基准线来评估我们的方法，设计一个混合手工和深度描述符用来使得描述符变得紧凑。为了让实验变得更公平，我们同样展示了一个3DMatch的版本，其中每个片段我们用2048个局部贴片而不是5000个，这和我们的3DMatch-2K的方法相同。我们使用CGF[23]所提供的预训练权值。我们让所有方法保持相同的局部贴片大小。我们的评估数据来自7-scenes和SUN3D数据集。我们通过显示比较来开始，而不是应用RANSAC减少错误匹配。我们相信，这可以显示对应估计的真实质量。受到[23]的启发，我们认可召回率作为本次实验更有效的方式，因为通过更好的对应减少总可以提升精度。我们的评估度量直接通过平均数据集中匹配片段的数目来计算召回率：

where M is the number of ground truth matching fragment pairs, having at least 30% overlap with each other under ground-truth transformation T and τ1 = 10cm. (i, j) denotes an element of the found correspondence set Ω. x and y respectively come from the first and second fragment under matching. The inlier ratio is set as τ2 = 0.05. As seen from Tab. 1, PPFNet outperforms all the hand crafted counterparts in mean recall. It also shows consistent advantage over 3DMatch-2K, using an equal amount of patches. Finally and remarkably, we are able to show ∼ 2.7% improvement on mean recall over the original 3DMatch, using only ∼ 40% of the keypoints for matching. The performance boost from 3DMatch-2K to 3DMatch also indicates that having more keypoints is advantageous for matching.
其中，M是地面真实匹配片段对的真实数量，和彼此地面真值变换T和τ1 = 10cm下有至少30%的重叠。(i, j)表示找到的对应集合Ω中的一个元素。x 和 y分别来自于匹配下的第一个和第二个片段。内径比设置为τ2 = 0.05。正如表1中所看到的，PPFNet在平均召回率上优于所有手工选择的同类方法。它同样显示比3DMatch-2K更具有相容的优势，利用相等数量的蹄片。最后也是值得注意的是，相比于原始的3DMatch，我们在平均召回率上可以显示大约2.7%的提升，仅用40%的关键点进行比配。从3DMatch-2K到3DMatch的性能提升也表明，有更多的关键点对于匹配也是有益的。

表1 我们在RANSAC之前对三维匹配基准进行的评估。
【RANSAC】关于RANSAC算法的介绍https://www.cnblogs.com/weizc/p/5257496.html。

Our method expectedly outperforms both vanilla PointNet and CGF by 15%. We show in Tab. 2 that adding more samples brings benefit, but only up to a certain level (< 5K). For PPFNet, adding more samples also increases the global context and thus, following the advent in hardware, we have the potential to further widen the performance gap over 3DMatch, by simply using more local patches. To show that we do not cherry-pick τ2 but get gains, we also plot the recall computed with the same metric for different inlier ratios in Fig. 6(a). There, for the practical choices of τ2, PPFNet persistently remains above all others.
我们的方法预期优于基本的PointNet和CGF15%。我们在表2中显示增加更多的样本会带来益处，但是仅达到一定水平（<5K）。对PPFNet，增加更多的样本，也会增加全局背景，因此，随着硬件的出现，我们有可能通过单纯地使用更多的局部贴片进一步扩大与3DMatch的性能差距。为了显示上述内容我们没有优选τ2但是得到连续的收益，我们也在图6中画出了为不同的内径比采用相同度量计算召回率。在这里，对于τ2的实际选择，PPFNet始终保持在其他之上。

样本越大，召回率越高

（4）Application to geometric registration

Similar to [48], we now use PPFNet in a broader context of transformation estimation. To do so, we plug all descriptors into the well established RANSAC based matching pipeline, in which the transformation between fragments is estimated by running a maximum of 50,000 RANSAC iterations on the initial correspondence set. We then transform the source cloud to the target by estimated 3D pose and compute the point-to-point error. This is a well established error metric [48]. Tab. 3 tabulates the results on the real datasets. Overall, PPFNet is again the top performer, while showing higher recall on a majority of the scenes and on the average. It is noteworthy that we always use 2048 patches, while allowing 3DMatch to use its original setting, 5K. Even so, we could get better recall on more than half of the scenes. When we feed 3DMatch 2048 patches, to be on par with our sampling level, PPFNet dominates performance-wise on most scenes with higher average accuracy.
和[48]类似，我们现在在一个变换估计的更广泛背景中利用PPFNet。这样做，我们将所有描述符添加到已建立的基于匹配流程的基于匹配流程的RANSAC中，其中，通过在初始对应集上运行一个最大值为50,000 的RANSAC迭代器来估计片段之间的转换。然后，我们通过估计的3D姿态转变源点云到目标点云中，并且计算点对点误差。这是一个公认的误差度量。表3列出真实数据集上的结果。总的来说，PPFNet又一次作为最突出表现者，同时在大多数场景和平均水平上表现出更高的召回率。值得注意的是，我们总是利用2048个贴片，同时允许3DMatch使用其原始设置5K。即使这样，我们还是可以更好得复现超过一半的场景。当我们给3DMatch提供2048个贴片时，为了与我们的采样水平相当，PPFNet在大多数场景中以更高的平均精度在大多数场景中占据优势地位。

（5）Robustness to point density

Changes in point density, a.k.a. sparsity, is an important concern for point clouds, as it can change with sensor resolution or distance for 3D scanners. This motivates us to evaluate our algorithm against others in varying sparsity levels. We gradually decrease point density on the evaluation data and record the accuracy. Fig. 6(b) shows the significant advantage of PPFNet, especially under severe loss of density (only 6.5% of points kept). Such robustness is achieved due to the PointNet back end and the robust point pair features.
点密度的改变，即稀疏性，对点云来说是一个重要的关注点，因为它可以随着传感器的分辨率或者3D扫描仪的距离而改变。这就促使我们针对其他不同稀疏水平中评估我们的算法。我们在评价数据上逐渐降低点密度，并记录精度。图6(b)显示PPFNet的显著优点，特别是在严重的密度损失下（仅保持6.5%的点）。这样的鲁棒性是以PointNet后端和鲁棒点对特征实现的。

（6）How fast is PPFNet?

We found PPFNet to be lightning fast in inference and very quick in data preparation since we consume a very raw representation of data. Majority of our runtime is spent in the normal computation and this is done only once for the whole fragment. The PPF extraction is carried out within the neighborhoods of only 2048 sample points. Tab. 4 shows the average running times of different methods and ours on an NVIDIA TitanX Pascal GPU supported by an Intel Core i7 3.2GhZ 8 core CPU. Such dramatic speed-up in inference is enabled by the parallelPointNet backend and our simultaneous correspondence estimation during inference for all patches. Currently, to prepare the input for the network, we only use CPU, leaving GPU idle for more work. This part can be easily implemented on GPU to gain even further speed boosts.
自从我们消耗非常原始的点云数据表示，我们发现PPFNet的推理速度非常快，数据准备速度也非常快。我们的大部分运行时间都花费在一般的计算中，在整个片段中只完成一次。PPF提取仅在2048个采样点的邻域进行。表4显示在由Intel Core i7 3.2GhZ 8核心CPU支持的NVIDIA TitanX Pascal GPU上，不同方法和我们的方法的平均运行时间。并行PointNet后端和针对所有贴片的推理期间，我们同时进行的对应估计使得推理的这种显著加速成为可能。目前，为了准备网络的输入，我们只用到了CPU，让GPU空闲更多的工作。这部分可以很容易得在GPU 上实现，以获得更进一步的速度提升。

5.1. Ablation Study

（1）N-tuple loss

We train and test our network with 3 different losses: contrastive (pair) [14], triplet [17] and our N-tuple loss on the same dataset with identical network configuration. Inter-distance distribution of correspondent pairs and non-correspondent pairs are recorded for the train/validation data respectively. Empirical results in Fig. 7 show that the theoretical advantage of our loss immediately transfers to practice: Features learned by N-tuple are better separable, i.e. non-pairs are more distant in the embedding space and pairs enjoy a lower standard deviation.N-tuples loss repels non-pairs further in comparison to contrastive and triplet losses because of its better knowledge of global correspondence relationships. Our N-tuple loss is general and thus we strongly encourage the application also to other domains such as pose estimation [44].
我们在具有相同网络配置的相同数据上训练和测试我们包含三种不同的损失网络：contrastive (pair) [14], triplet [17]和N元组损失。分别为训练、验证数据记录对应对和非对应对之间的间距。图7的实验证明结果表明我们损失的理论优势迅速转移到了实践中：通过N元组学习的特征具有更好的分离性，即在嵌入空间中，不成对的距离更远，成对的有较低的标准偏差。同contrastive和triplet 损失方法相比，N元组损失更排斥非配对的点，因为它更了解全局的对应关系。我们的N元组损失是普遍适用的，因此我们强烈鼓励把它同样应用到其他领域，比如姿态估计[44]。

（2）How useful is global context for local feature extraction?

We argue that local features are dependent on the context. A corner belonging to a dining table should not share the similar local features of a picture frame hanging on the wall. A table is generally not supposed to be attached vertically on the wall. To assess the returns obtained from adding global context, we simply remove the global feature concatenation, keep the rest of the settings unaltered, and re-train and test on two subsets of pairs of fragments. Our results are shown in Tab. 5, where injecting global information into local features improves the matching by 18% in training and 7% in validation set as opposed to our baseline version of Vanilla PointNet •, which is free of global context and PPFs. Such significance indicates that global features aid discrimination and are valid cues also for local descriptors.
我们认为局部特征依赖于环境。属于餐桌的角落不应该同挂在墙上的相框中图片的类似局部特征相共享。桌子通常不应该垂直地贴在墙上。为了评估从添加的全局环境中获取的回报，我们简单地移除全局特征联系，保存余下的设置不变，并在片段的点对的子集上重新训练和测试。我们的结果在表5中显示，将全局信息注入到局部特征中，同我们的基线版本的基础PointNet比，在训练过程中提升18%的匹配度，和7%的验证集匹配度，后者不受全局背景和PPFs的影响。

（3）What does adding PPF bring?

We now run a similar experiment and train two versions of our network, with/without incorporating PPF into the input. The contribution is tabulated in Tab. 5. There, a gain of 1% in training and 5% in validation is achieved, justifying that inclusion of PPF increases the discriminative power of the final features. While being a significant jump, this is not the only benefit of adding PPF. Note that our input representation is composed of 33% rotation-invariant and 66% variant representations. This is already advantageous to the state of the art, where rotation handling is completely left to the network to learn from data. We hypothesize that an input guidance of PPF would aid the network to be more tolerant to rigid transformations. To test this, we gradually rotate fragments around z-axis to 180° with a step size of 30° and then match the fragment to the non-rotated one.
我们现在运行一个类似的实验，并且将我们的网络训练为两个版本，将PPF合并到输入中和不将PPF合并。相关贡献在表5中列出。表中显示，在训练中获得1%的增益，在验证中获得5%的增益，这就证明了包含PPF会增加对最终特征的辨别能力。虽然这是一个重大的飞跃，但这不仅仅是添加PPF的唯一好处。请注意，我们的输入表示是由33%的旋转不变量和66%的变量组成。这对现有技术是有利的，其中旋转处理完全留给网络以从数据中学习。我们假设PPF的输入引导将有助于增加网络对刚性变换的宽容度。为了测试这一点，我们逐渐地绕z轴旋转片段到180°，步长为30°，然后将片段与没有旋转的片段匹配。

As we can observe from Tab. 6, with PPFs, the feature is more robust to rotation and the ratio in matching performance of two networks opens as rotation increases. In accordance, we also show a visualization of the descriptors at Fig. 9 under small and large rotations. To assign each descriptor an RGB color, we use PCA projection from high dimensional feature space to 3D color space by learning a linear map [23]. It is qualitatively apparent that PPF can strengthen the robustness towards rotations. All in all, with PPFs we gain both accuracy and robustness to rigid transformation, the best of seemingly contradicting worlds. It is noteworthy that using only PPF introduces full invariance besides the invariance to permutations and renders the task very difficult to learn for our current network. We leave this as a future challenge. A major limitation of PPFNet is quadratic memory footprint, limiting the number of used patches to 2K on our hardware. This is, for instance, why we cannot outperform 3DMatch on fragments of Home-2. With upcoming GPUs, we expect to reach beyond 5K, the point of saturation.
正如我们可以从表6中观察到的，对于PPFs，特征对旋转来说更有鲁棒性，随着旋转的增加，两个网络的匹配表现率也随之增加。此外，我们还在图9中展示了在小和大的旋转下描述符的可视化。为了给每个描述符分配RGB颜色，我们通过学习线性映射[23]，采用从高维特征空间到3D色彩空间的PCA投影。PPF可以定量明显地增强对旋转的鲁棒性。总而言之，通过PPFs，我们不仅获得了刚性变换的精确性和鲁棒性，在看似矛盾的事物中最好的选择。值得注意的是，除了对排序的不变性外，仅适用PPF还引入了完全不变性，并且对于我们当前的网络来说，使得任务非常难以学习。我们将视其为未来的挑战。PPFNet的一个主要局限性是二次内存的占用空间，将我们硬件上使用贴片的数量限制为2K。这就是我们为什么不能在Home-2的片段上胜过3DMatch的原因。随着即将到来的GPU，我们预计饱和点的数目将达到超过5K。

图9.正如图中所示，包含PPF使得网络对旋转的变化更具有鲁棒性，为了一个完全不变的特征，预期每一行的外观保持一致。

Conclusion

We have presented PPFNet, a new 3D descriptor tailored for point cloud input. By generalizing the contrastive loss to N-tuple loss to fully utilize available correspondence relatioships and retargeting the training pipeline, we have shown how to learn a globally aware 3D descriptor, which outperforms the state of the art not only in terms of recall but also speed. Features learned from our PPFNet is more capable of dealing with some challenging scenarios, as shown in Fig. 8. Furthermore, we have shown that designing our network suitable for set-input such as point pair features are advantageous in developing invariance properties. Future work will target memory bottleneck and solving the more general rigid graph matching problem.
我们已经提出了PPFNet，一个新的适合于点云输入的3D描述符。通过将对比度损失推广到N元组损失以充分利用可获得的对应关系，并且对训练流程进行重新定向，我们已经展示了如何学习一个全局感知的3D描述符，该描述符不仅在召回率方面而且在速度方面都优于现有技术。正如图8中所示，从我们的PPFNet中学习特征更有能力处理包含挑战的场景。此外，我们还展示了，我们的网络设计为适用于像点对特征的点集输入对开发的不变性是有利的。未来的工作将针对内存瓶颈和解决更普遍的刚性图形匹配问题。

标红的部分都是现阶段不是很拿捏得准的地方，以便后续更改。

论文笔记—NDT-Transformer: Large-Scale 3D Point Cloud Localization using the Normal Distribution Transfor 入门打工人笔记 slam 定位算法
论文笔记—NDT-Transformer:Large-Scale3DPointCloudLocalizationusingtheNormalDistributionTransformRepresentation文章摘要~~~~~~~在GPS挑战的环境中，自动驾驶对基于3D点云的地点识别有很高的要求，并且是基于激光雷达的SLAM系统的重要组成部分（即闭环检测）。本文提出了一种名为NDT-Transf
[论文笔记]Circle Loss: A Unified Perspective of Pair Similarity Optimization 愤怒的可乐 #文本匹配[论文]论文翻译/笔记自然语言处理论文阅读人工智能
引言为了理解CoSENT的loss，今天来读一下CircleLoss:AUnifiedPerspectiveofPairSimilarityOptimization。为了简单，下文中以翻译的口吻记录，比如替换"作者"为"我们"。这篇论文从对深度特征学习的成对相似度优化角度出发，旨在最大化同类之间的相似度sps_ps
【论文笔记】Multi-Task Learning as a Bargaining Game xhyu61 机器学习学习笔记论文笔记论文阅读人工智能深度学习
Abstract本文将多任务学习中的梯度组合步骤视为一种讨价还价式博弈(bargaininggame)，通过游戏，各个任务协商出共识梯度更新方向。在一定条件下，这种问题具有唯一解(NashBargainingSolution)，可以作为多任务学习中的一种原则方法。本文提出Nash-MTL，推导了其收敛性的理论保证。1Introduction大部分MTL优化算法遵循一个通用方案。计算所有任务的梯度g
[论文笔记] LLaVA 心心喵论文笔记论文阅读
一、LLaVA论文中的主要工作和实验结果ExistingGap:之前的大部分工作都在做模态对齐，做图片的representationlearning，而没有针对ChatBot（多轮对话，指令理解）这种场景优化。Contribution:这篇工作已经在BLIP-2之后了，所以Image的理解能力不是LLaVA希望提升的重点，LLaVA是想提升多模态模型的Instruction-Followingab
[论文笔记] LLM模型剪枝心心喵论文笔记论文阅读剪枝算法
AttentionIsAllYouNeedButYouDon’tNeedAllOfItForInferenceofLargeLanguageModelsLLaMA2在剪枝时，跳过ffn和跳过fulllayer的效果差不多。相比跳过ffn/fulllayer，跳过attentionlayer的影响会更小。跳过attentionlayer：7B/13B从100%参数剪枝到66%，平均指标只下降1.7～
【论文笔记】Training language models to follow instructions with human feedback B部分 Ctrl+Alt+L 大模型论文整理论文笔记论文阅读语言模型人工智能自然语言处理
TraininglanguagemodelstofollowinstructionswithhumanfeedbackB部分回顾一下第一代GPT-1：设计思路是“海量无标记文本进行无监督预训练+少量有标签文本有监督微调”范式；模型架构是基于Transformer的叠加解码器（掩码自注意力机制、残差、Layernorm）；下游各种具体任务的适应是通过在模型架构的输出后增加线性权重WyW_{y}Wy实
【论文笔记】：LAYN：用于小目标检测的轻量级多尺度注意力YOLOv8网络 hhhhhhkkkyyy 论文阅读目标检测 YOLO
背景针对嵌入式设备对目标检测算法的需求，大多数主流目标检测框架目前缺乏针对小目标的具体改进，然后提出的一种轻量级多尺度注意力YOLOv8小目标检测算法。小目标检测精度低的原因随着网络在训练过程中的加深，检测到的目标容易丢失边缘信息和灰度信息等。获得高级语义信息也较少，图像中可能存在一些噪声信息，误导训练网络学习不正确的特征。映射到原始图像的感受野的大小。当感受野相对较小时，空间结构特征保留较多，但
激光SLAM--(8) LeGO-LOAM论文笔记 lonely-stone slam 激光SLAM 论文阅读
论文标题：LeGO-LOAM：LightweightandGround-OptimizedLidarOdometryandMappingonVariableTerrain应用在可变地形场景的轻量级的、并利用地面优化的LOAMABSTRACT轻量级的、基于地面优化的LOAM实时进行六自由度位姿估计，应用在地面的车辆上。强调应用在地面车辆上是因为在这里面要求雷达必须水平安装，而像LOAM和LIO-SA
论文浅尝 - AAAI2020 | 迈向建立多语言义元知识库：用于 BabelNet Synsets 义元预测... 开放知识图谱机器学习人工智能知识图谱自然语言处理深度学习
论文笔记整理：潘锐，天津大学硕士。来源：AAAI2020链接：https://arxiv.org/pdf/1912.01795.pdf摘要义原被定义为人类语言的最小语义单位。义原知识库（KBs）是一种包含义原标注词汇的知识库，它已成功地应用于许多自然语言处理任务中。然而，现有的义原知识库建立在少数几种语言上，阻碍了它们的广泛应用。为此论文提出在多语种百科全书词典BabelNet的基础上建立一个统一
[论文笔记] LLM数据集——LongData-Corpus 心心喵论文笔记服务器 ubuntu linux
https://huggingface.co/datasets/yuyijiong/LongData-Corpus1、hf的数据在开发机上要设置sshkey，然后cat复制之后在设置在hf上2、中文小说数据在云盘上清华大学云盘下载：#!/bin/bash#BaseURLbase_url="https://cloud.tsinghua.edu.cn/d/0670fcb14d294c97b5cf/fi
[论文笔记] eval-big-refactor lm_eval 每两个任务使用一个gpu，并保证端口未被使用心心喵论文笔记 restful 后端
1.5B在eval时候两个任务一个gpu是可以的。7B+在evalbelebele时会OOM，所以分配时脚本不同。eval_fast.py：importsubprocessimportargparseimportosimportsocket#参数列表task_name_list=["flores_mt_en_to_id","flores_mt_en_to_vi","flores_mt_en_to_
【论文笔记】Separating the “Chirp” from the “Chat”: Self-supervised Visual Grounding of Sound and Language xhyu61 机器学习学习笔记论文笔记论文阅读
Abstract提出了DenseAV，一种新颖的双编码器接地架构，仅通过观看视频学习高分辨率、语义有意义和视听对齐的特征。在没有明确的本地化监督的情况下，DenseAV可以发现单词的"意义"和声音的"位置"。此外，它在没有监督的情况下自动发现并区分这两种类型的关联。DenseAV的定位能力源于一种新的多头特征聚合算子，该算子直接比较稠密的图像和音频表示进行对比学习。相比之下，许多其他学习"全局"音
图形学论文笔记 Jozky86 图形学图形学笔记
文章目录PBD：XPBD：shapematchingPBD：【深入浅出NvidiaFleX】(1)PositionBasedDynamics最简化的PBD(基于位置的动力学)算法详解-论文原理讲解和太极代码最简化的PBD(基于位置的动力学)算法详解-论文原理讲解和太极代码XPBD：基于XPBD的物理模拟一条龙：公式推导+代码+文字讲解（纯自制）【论文精读】XPBD基于位置的动力学XPBD论文解读(
【视觉三维重建】【论文笔记】Deblurring 3D Gaussian Splatting CS_Zero 论文阅读
去模糊的3D高斯泼溅，看Demo比3D高斯更加精细，对场景物体细节的还原度更高，[官网]（https://benhenryl.github.io/Deblurring-3D-Gaussian-Splatting/）背景技术Volumetricrendering-basednerualfields：NeRF.Rasterizationrendering:3D-GS.Rasterization比vol
[论文笔记] Transformer-XL 心心喵论文笔记 transformer 深度学习人工智能
这篇论文提出的Transformer-XL主要是针对Transformer在解决长依赖问题中受到固定长度上下文的限制，如Bert采用的Transformer最大上下文为512（其中是因为计算资源的限制，不是因为位置编码，因为使用的是绝对位置编码正余弦编码）。Transformer-XL能学习超过固定长度的依赖性，而不破坏时间一致性。它由段级递归机制和一种新的位置编码方案组成。该方法不仅能够捕获长期
SimpleShot: Revisiting Nearest-Neighbor Classification for Few-Shot Learning 论文笔记头柱碳只狼小样本学习
前言目前大多数小样本学习器首先使用一个卷积网络提取图像特征，然后将元学习方法与最近邻分类器结合起来，以进行图像识别。本文探讨了这样一种可能性，即在不使用元学习方法，而仅使用最近邻分类器的情况下，能否很好地处理小样本学习问题。本文发现，对图像特征进行简单的特征转换，然后再进行最近邻分类，也可以产生很好的小样本学习结果。比如，使用DenseNet特征的最近邻分类器，在结合均值相减（meansubtra
多模态相关论文笔记靖待大模型人工智能论文阅读
(cilp)LearningTransferableVisualModelsFromNaturalLanguageSupervision从自然语言监督中学习可迁移的视觉模型openAI2021年2月48页PDFCODECLIP(ContrastiveLanguage-ImagePre-Training)对比语言图像预训练模型引言它比ImageNet模型效果更好，计算效率更高。尤其是zero-sho
【论文笔记 · PFM】Lag-Llama: Towards Foundation Models for Time Series Forecasting lokol. 论文笔记论文阅读 llama
Lag-Llama:TowardsFoundationModelsforTimeSeriesForecasting摘要本文提出Lag-Llama，在大量时间序列数据上训练的通用单变量概率时间序列预测模型。模型在分布外泛化能力上取得较好效果。模型使用平滑破坏幂律（smoothlybrokenpower-laws）。介绍目前任务主要集中于在相同域的数据上训练模型。当前已有的大规模通用模型在大规模不同数
【论文笔记】Unsupervised Learning of Video Representations using LSTMs 奶茶不加糖え lstm 深度学习自然语言处理
摘要翻译我们使用长短时记忆（LongShortTermMemory,LSTM）网络来学习视频序列的表征。我们的模型使用LSTM编码器将输入序列映射到一个固定长度的表征向量。之后我们用一个或多个LSTM解码器解码这个表征向量来实现不同的任务，比如重建输入序列、预测未来序列。我们对两种输入序列——原始的图像小块和预训练卷积网络提取的高层表征向量——都做了实验。我们探索不同的设计选择，例如解码器的LST
MOSSE算法论文笔记以及代码解释 five days 计算机视觉深度学习机器学习
论文《VisualObjectTrackingusingAdaptiveCorrelationFilters》代码github1.论文idea提出以滤波器求相关的形式，找到最大响应处的位置，也就是我们所跟踪的目标的中心，进而不断的更新跟踪目标框和滤波器。2.跟踪策略如图，根据初始帧圈出的目标框训练滤波器，最大响应处为目标框的中心点，当移动到下一帧时，根据滤波器求相关的算法获得最大响应值，进而得出下
Attention Is All Your Need论文笔记 xiaoyan_lu 论文笔记论文阅读
论文解决了什么问题？提出了一个新的简单网络架构——transformer，仅仅是基于注意力机制，完全免去递推和卷积，使得神经网络训练地速度极大地提高。Weproposeanewsimplenetworkarchitecture,theTransformer,basedsolelyonattentionmechanisms,dispensingwithrecurrenceandconvolution
论文笔记：相似感知的多模态假新闻检测图学习的小张论文笔记论文阅读 python
整理了RecSys2020ProgressiveLayeredExtraction:ANovelMulti-TaskLearningModelforPersonalizedRecommendations）论文的阅读笔记背景模型实验论文地址：SAFE背景在此之前，对利用新闻文章中文本信息和视觉信息之间的关系(相似性)的关注较少。这种相似性有助于识别虚假新闻，例如，虚假新闻也许会试图使用不相关的图
[论文总结] 深度学习在农业领域应用论文笔记12 落痕的寒假论文总结深度学习论文阅读人工智能
文章目录1.3D-ZeF:A3DZebrafishTrackingBenchmarkDataset(CVPR,2020)摘要背景相关研究所提出的数据集方法和结果个人总结2.Automatedflowerclassificationoveralargenumberofclasses(ComputerVision,Graphics&ImageProcessing,2008)摘要背景分割与分类数据集和实
论文笔记之LINE:Large-scale Information Network Embedding 小弦弦喵喵喵
原文：LINE:Large-scaleInformationNetworkEmbedding本文提出一种新的networkembeddingmodel：LINE.能够处理大规模的各式各样的网络，比如：有向图、无向图、有权重图、无权重图.文中指出对于networkembedding问题，需要保留localstructure和globalstructure，分别对应first-orderproximi
打败一切NeRF！ 3D Gaussian Splatting 的简单入门知识 Ci_ci 17 3d python
新手的论文笔记3DGaussianSplatting的笔记introductionRelatedwork预备知识Gaussiansplatting3D高斯泼溅原理Overview3DGaussianSplatting的笔记每次都是在csdn上找救命稻草，这是第一次在csdn上发东西。确实是个不错的笔记网站，还能同步，保存哈哈哈。印象笔记，Onenote逊爆了。研一刚开学两个月，导师放养，给的方向还
《Residual Bi-Fusion Feature Pyramid Network for Accurate Single-shot Object Detection》论文笔记 m_buddy #General Object Detection Bi-Fusion
参考代码：无1.概述导读：在检测任务中一般会引入FPN增强在不同尺度下网络的检测性能，但是只通过top-down的FPN网络是很难去重建由于特征图的漂移（水平或是垂直方向运动）在经过pooling操作（pooling不具有平移不变性）带来结果相差很大的问题（特别针对小目标），而且FPN带来的性能提升会在使用较多卷积层之后逐渐被稀释（卷积的平移不变形），进而会导致一些小目标定位性能降低。对此可以通过
论文笔记-Generative Adversarial Nets 升不上三段的大鱼
论文链接：https://papers.nips.cc/paper/2014/file/5ca3e9b122f61f8f06494c97b1afccf3-Paper.pdf论文解读：https://www.bilibili.com/video/BV1rb4y187vD?share_source=copy_web一句话总结：提出了生成模型框架GAN，包括一个生成模型G和一个判别模型D，用有监督的损失
论文笔记：NIPS 2020 Graph Contrastive Learning with Augmentations 饮冰l 图弱监督数据挖掘机器学习神经网络深度学习
前言本文主要提出在图对比学习大框架下的图数据增强的若干方法。概括来说，本文提出了一种图对比学习框架来无监督的完成图表示学习，首先作者提出了基于各种先验信息的四种图数据增强方法。然后，作者分析了在四种不同的图数据增强条件下，不同组合对多个数据集的影响:半监督、无监督、迁移学习以及对抗性攻击。作者为GNN的预训练提出了基于图数据增强的对比学习框架来解决图中数据异质性的挑战，本文的主要贡献如下：作者提出
论文笔记-vChain: Enabling Verifiable Boolean Range Queries over Blockchain Databases qq_40431700 笔记区块链
核心方法：提出了一种基于累加器的可认证数据结构，可以动态聚合任意查询属性提出块内和块间索引，聚合块内和块间数据，可以做高效查询验证倒排前缀树结构，加速同时处理大量数据的订阅查询提出问题：1.range查询2.布尔查询3.没有可靠第三方、而且不能保证查询的完整性图中元素有：①全节点②矿工节点：是全节点，而且负责构建共识证明，比如计算nonce③轻节点：存nonce、区块的哈希，不存数据记录提出的Vc
论文笔记--Improving Language Understanding by Generative Pre-Training Isawany 论文阅读论文阅读自然语言处理 chatgpt 语言模型 nlp
论文笔记GPT1--ImprovingLanguageUnderstandingbyGenerativePre-Training1.文章简介2.文章导读2.1概括2.2文章重点技术2.2.1无监督预训练2.2.2有监督微调2.2.3不同微调任务的输入3.Bert&GPT4.文章亮点5.原文传送门6.References1.文章简介标题：ImprovingLanguageUnderstandingb
遍历dom 并且存储（将每一层的DOM元素存在数组中）换个号韩国红果果 JavaScript html
数组从0开始！！ var a=[],i=0; for(var j=0;j<30;j++){ a[j]=[];//数组里套数组，且第i层存储在第a[i]中 } function walkDOM(n){ do{ if(n.nodeType!==3)//筛选去除#text类型 a[i].push(n); //con
Android+Jquery Mobile学习系列(9)-总结和代码分享白糖_ JQuery Mobile
目录导航经过一个多月的边学习边练手，学会了Android基于Web开发的毛皮，其实开发过程中用Android原生API不是很多，更多的是HTML/Javascript/Css。个人觉得基于WebView的Jquery Mobile开发有以下优点： 1、对于刚从Java Web转型过来的同学非常适合，只要懂得HTML开发就可以上手做事。 2、jquerym
impala参考资料 dayutianfei impala
记录一些有用的Impala资料 1. 入门资料 >>官网翻译： http://my.oschina.net/weiqingbin/blog?catalog=423691 2. 实用进阶 >>代码&架构分析： Impala/Hive现状分析与前景展望：http
JAVA 静态变量与非静态变量初始化顺序之新解周凡杨 java 静态非静态顺序
今天和同事争论一问题，关于静态变量与非静态变量的初始化顺序，谁先谁后，最终想整理出来！测试代码： import java.util.Map; public class T { public static T t = new T(); private Map map = new HashMap(); public T(){ System.out.println(&quo
跳出iframe返回外层页面 g21121 iframe
在web开发过程中难免要用到iframe，但当连接超时或跳转到公共页面时就会出现超时页面显示在iframe中，这时我们就需要跳出这个iframe到达一个公共页面去。首先跳转到一个中间页，这个页面用于判断是否在iframe中，在页面加载的过程中调用如下代码： <script type="text/javascript"> //<!-- function
JAVA多线程监听JMS、MQ队列 510888780 java多线程
背景：消息队列中有非常多的消息需要处理，并且监听器onMessage（）方法中的业务逻辑也相对比较复杂，为了加快队列消息的读取、处理速度。可以通过加快读取速度和加快处理速度来考虑。因此从这两个方面都使用多线程来处理。对于消息处理的业务处理逻辑用线程池来做。对于加快消息监听读取速度可以使用1.使用多个监听器监听一个队列；2.使用一个监听器开启多线程监听。对于上面提到的方法2使用一个监听器开启多线
第一个SpringMvc例子布衣凌宇 spring mvc
第一步：导入需要的包；第二步：配置web.xml文件 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee" xmlns:xsi=
我的spring学习笔记15-容器扩展点之PropertyOverrideConfigurer aijuans Spring3
PropertyOverrideConfigurer类似于PropertyPlaceholderConfigurer，但是与后者相比，前者对于bean属性可以有缺省值或者根本没有值。也就是说如果properties文件中没有某个bean属性的内容，那么将使用上下文（配置的xml文件）中相应定义的值。如果properties文件中有bean属性的内容，那么就用properties文件中的值来代替上下
通过XSD验证XML antlove xml schema xsd validation SchemaFactory
1. XmlValidation.java package xml.validation; import java.io.InputStream; import javax.xml.XMLConstants; import javax.xml.transform.stream.StreamSource; import javax.xml.validation.Schem
文本流与字符集百合不是茶 PrintWrite()的使用字符集名字别名获取
文本数据的输入输出; 输入;数据流,缓冲流输出;介绍向文本打印格式化的输出PrintWrite(); package 文本流; import java.io.FileNotFound
ibatis模糊查询sqlmap-mapping-**.xml配置 bijian1013 ibatis
正常我们写ibatis的sqlmap-mapping-*.xml文件时，传入的参数都用##标识，如下所示： <resultMap id="personInfo" class="com.bijian.study.dto.PersonDTO"> <res
java jvm常用命令工具——jdb命令(The Java Debugger) bijian1013 java jvm jdb
用来对core文件和正在运行的Java进程进行实时地调试，里面包含了丰富的命令帮助您进行调试，它的功能和Sun studio里面所带的dbx非常相似，但 jdb是专门用来针对Java应用程序的。现在应该说日常的开发中很少用到JDB了，因为现在的IDE已经帮我们封装好了，如使用ECLI
【Spring框架二】Spring常用注解之Component、Repository、Service和Controller注解 bit1129 controller
在Spring常用注解第一步部分【Spring框架一】Spring常用注解之Autowired和Resource注解（http://bit1129.iteye.com/blog/2114084）中介绍了Autowired和Resource两个注解的功能，它们用于将依赖根据名称或者类型进行自动的注入，这简化了在XML中，依赖注入部分的XML的编写，但是UserDao和UserService两个bea
cxf wsdl2java生成代码super出错,构造函数不匹配 bitray super
由于过去对于soap协议的cxf接触的不是很多,所以遇到了也是迷糊了一会.后来经过查找资料才得以解决. 初始原因一般是由于jaxws2.2规范和jdk6及以上不兼容导致的.所以要强制降为jaxws2.1进行编译生成.我们需要少量的修改: 我们原来的代码 wsdl2java com.test.xxx -client http://..... 修改后的代
动态页面正文部分中文乱码排障一例 ronin47
公司网站一部分动态页面，早先使用apache+resin的架构运行，考虑到高并发访问下的响应性能问题，在前不久逐步开始用nginx替换掉了apache。不过随后发现了一个问题，随意进入某一有分页的网页，第一页是正常的（因为静态化过了）；点“下一页”，出来的页面两边正常，中间部分的标题、关键字等也正常，唯独每个标题下的正文无法正常显示。因为有做过系统调整，所以第一反应就是新上
java-54- 调整数组顺序使奇数位于偶数前面 bylijinnan java
import java.util.Arrays; import java.util.Random; import ljn.help.Helper; public class OddBeforeEven { /** * Q 54 调整数组顺序使奇数位于偶数前面 * 输入一个整数数组，调整数组中数字的顺序，使得所有奇数位于数组的前半部分，所有偶数位于数组的后半
从100PV到1亿级PV网站架构演变 cfyme 网站架构
一个网站就像一个人，存在一个从小到大的过程。养一个网站和养一个人一样，不同时期需要不同的方法，不同的方法下有共同的原则。本文结合我自已14年网站人的经历记录一些架构演变中的体会。 1：积累是必不可少的架构师不是一天练成的。 1999年，我作了一个个人主页，在学校内的虚拟空间，参加了一次主页大赛，几个DREAMWEAVER的页面，几个TABLE作布局，一个DB连接，几行PHP的代码嵌入在HTM
[宇宙时代]宇宙时代的GIS是什么？ comsci Gis
我们都知道一个事实，在行星内部的时候，因为地理信息的坐标都是相对固定的，所以我们获取一组GIS数据之后，就可以存储到硬盘中，长久使用。。。但是，请注意，这种经验在宇宙时代是不能够被继续使用的宇宙是一个高维时空
详解create database命令 czmmiao database
完整命令 CREATE DATABASE mynewdb USER SYS IDENTIFIED BY sys_password USER SYSTEM IDENTIFIED BY system_password LOGFILE GROUP 1 ('/u01/logs/my/redo01a.log','/u02/logs/m
几句不中听却不得不认可的话 datageek
1、人丑就该多读书。 2、你不快乐是因为：你可以像猪一样懒，却无法像只猪一样懒得心安理得。 3、如果你太在意别人的看法，那么你的生活将变成一件裤衩，别人放什么屁，你都得接着。 4、你的问题主要在于：读书不多而买书太多，读书太少又特爱思考，还他妈话痨。 5、与禽兽搏斗的三种结局：(1)、赢了，比禽兽还禽兽。(2)、输了，禽兽不如。(3)、平了，跟禽兽没两样。结论：选择正确的对手很重要。 6
1 14:00 PHP中的“syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM”错误 dcj3sjt126com PHP
原文地址：http://www.kafka0102.com/2010/08/281.html 因为需要，今天晚些在本机使用PHP做些测试，PHP脚本依赖了一堆我也不清楚做什么用的库。结果一跑起来，就报出类似下面的错误：“Parse error: syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM in /home/kafka/test/
xcode6 Auto layout and size classes dcj3sjt126com ios
官方GUI https://developer.apple.com/library/ios/documentation/UserExperience/Conceptual/AutolayoutPG/Introduction/Introduction.html iOS中使用自动布局（一） http://www.cocoachina.com/ind
通过PreparedStatement批量执行sql语句【sql语句相同，值不同】梦见x光 sql 事务批量执行
比如说：我有一个List需要添加到数据库中，那么我该如何通过PreparedStatement来操作呢？ public void addCustomerByCommit(Connection conn , List<Customer> customerList) { String sql = "inseret into customer(id
程序员必知必会----linux常用命令之十【系统相关】 hanqunfeng Linux常用命令
一.linux快捷键 Ctrl+C : 终止当前命令 Ctrl+S : 暂停屏幕输出 Ctrl+Q : 恢复屏幕输出 Ctrl+U : 删除当前行光标前的所有字符 Ctrl+Z : 挂起当前正在执行的进程 Ctrl+L : 清除终端屏幕，相当于clear 二.终端命令 clear : 清除终端屏幕 reset : 重置视窗，当屏幕编码混乱时使用 time com
NGINX IXHONG nginx
pcre 编译安装 nginx conf/vhost/test.conf upstream admin { server 127.0.0.1:8080; } server { listen 80; &
设计模式--工厂模式 kerryg 设计模式
工厂方式模式分为三种： 1、普通工厂模式：建立一个工厂类，对实现了同一个接口的一些类进行实例的创建。 2、多个工厂方法的模式：就是对普通工厂方法模式的改进，在普通工厂方法模式中，如果传递的字符串出错，则不能正确创建对象，而多个工厂方法模式就是提供多个工厂方法，分别创建对象。 3、静态工厂方法模式：就是将上面的多个工厂方法模式里的方法置为静态，
Spring InitializingBean/init-method和DisposableBean/destroy-method mx_xiehd java spring bean xml
1.initializingBean/init-method 实现org.springframework.beans.factory.InitializingBean接口允许一个bean在它的所有必须属性被BeanFactory设置后，来执行初始化的工作，InitialzingBean仅仅指定了一个方法。通常InitializingBean接口的使用是能够被避免的，（不鼓励使用，因为没有必要
解决Centos下vim粘贴内容格式混乱问题 qindongliang1922 centos vim
有时候，我们在向vim打开的一个xml，或者任意文件中，拷贝粘贴的代码时，格式莫名其毛的就混乱了，然后自己一个个再重新，把格式排列好，非常耗时，而且很不爽，那么有没有办法避免呢？答案是肯定的，设置下缩进格式就可以了，非常简单：在用户的根目录下直接vi ~/.vimrc文件然后将set pastetoggle=<F9> 写入这个文件中，保存退出，重新登录，
netty大并发请求问题 tianzhihehe netty
多线程并发使用同一个channel java.nio.BufferOverflowException: null at java.nio.HeapByteBuffer.put(HeapByteBuffer.java:183) ~[na:1.7.0_60-ea] at java.nio.ByteBuffer.put(ByteBuffer.java:832) ~[na:1.7.0_60-ea]
Hadoop NameNode单点问题解决方案之一 AvatarNode wyz2009107220 NameNode
我们遇到的情况 Hadoop NameNode存在单点问题。这个问题会影响分布式平台24*7运行。先说说我们的情况吧。我们的团队负责管理一个1200节点的集群(总大小12PB)，目前是运行版本为Hadoop 0.20，transaction logs写入一个共享的NFS filer(注：NetApp NFS Filer)。经常遇到需要中断服务的问题是给hadoop打补丁。 DataNod