sooner高

[CVPR2020最佳论文详细解读] Unsupervised Learning of Probably Symmetric Deformable 3D Object

本文是基于CVPR2020最佳论文，来自牛津VGG组的吴尚哲学Unsup3D。除了中文的详细解析外，我在作者的代码基础上，将可微分渲染模块由原来的Neural Renderer替代为Soft Rasterizer，取得的效果勉强过关~。

0. Abstract

本方法的目的是为了从raw single-view images（原始单个视角的单张图片）恢复/学习到3D的可变形的对象.

我们的方法基于Auto Encoder, 其将输入的图像解耦为depth, albedo, viewpoint以及illumination.

为了在无监督的情况下对上述的4个变量进行disentangle(解纠缠).

我们基于一个假设: 即很多对象在原则上是符合对称结构的。

作者通过为可能对称的对象预测一个对称的probability map来建模。以end2end的方式学习depth, albedo, viewpoint以及illumination等.

相比使用监督信号的2D对手，作者说他们的效果更好！

1. Introduction

图1说明
根据in-the-wild 图像恢复3D deformable object.
左: 用于训练的数据格式(只有单一视角的图像本身，没有GT的3D 信息, multiple views或者其它任何先验模型)
右: 一旦训练完成，我们的模型可以以很高的标准完成从单张图片重建3D模型的pose, shape, albedo以及illumination.

理解图像中的3D结构对于许多的CV应用来说，有着非常重要的意义。此外，当许多的神经网络看起来已经对图像的2D纹理信息(Texture)掌握的越来越好时，3D建模可以解释自然图像的许多可变性，并有可能提高图像的一般理解。

基于此，吴尚哲开始研究从2D图像中恢复3D结构的问题。我的理解是，吴同学为了区分同马普所的RingNet等利用先验知识的方法。

他的2D-3D恢复任务中，设定的第1个条件就是: no 2D or 3D GT information. 这样一来，搜集image collection的问题就被解决了，并极大的降低了将深度学习(Deep Learning)应用于这种任务的数据搜集难度。

第2个条件是: the algorithm must use an unconstrained collection of single-view images. 这样一来，通过单人的多个视角图片恢复3D model的方法的局限性被打破。这个条件是为了解决在很多情况下，我们只拥有一张still image(静态图片)去处理。

因此，吴同学的基于single-view image恢复3D deformable object的思路在这里被提出，目的是: 根据单张输入图片就能估计出其3D shape (produces as output a deep network that can estimate the 3D shape of any instance given a single image of it).

吴同学和他的老师们通过使用Auto Encoder结构，内在的将image decompose into 反射率, 深度, 光照以及viewpoint. （如上面所讲，无任何其它形式的监督信号）。

然而，然而，如果没有进一步的假设，将图像分解为这四个因素是ill-posed (病态) 问题。

为了寻求达成这一目标的minimal assumptions，我们认为大多数物体类别在结构上是对称的。

假设一个物体是perfectly symmetric的，那么可以通过简单的镜像这张图来获得一个virtual的second view。

事实上，如果在mirrored images的对象关系可以获得(available),那么可以通过立体重建可以实现3D reconstruction.

基于此, 我们试图利用对称作为几何线索来约束分解（we seek to leverage symmetry as a geometric cue to constrain the decomposition）。

然而, 对特定物体而言，并没有完全对称这回事(无论是外观appearance还是shape).

举个例子，即便是一个物体: shape和albedo对称，但是由于光照不对称的影响，其appearance仍然有可能是不对称的。

针对这个问题, 我们首先通过explicitly model光照来探索潜在的对称结构。（我的理解是，即将光照视为一个额外的线索而非物体的本身属性？）

第2，我们对模型进行augment来解释物体中潜在的不对称性。

通过1，2这2步，模型预测除了albedo等factor外的一个额外的dense map(其包含给定像素在图像中具有对称对等点的概率)

我们将上述的这些内容揉进了一个end2end的学习formulation, 在这个pipeline中，包括confidence map在内的所有components都是只从RGB图像中学习得到的。

我们观察到，可以通过flipping internal表示来强行保证symmetry， which is particularly useful for reasoning about symmetries probabilistically.

通过在一些数据集(包括人脸，猫脸，汽车)的测试。我们的效果很不错~，不但超过了同样不依赖于2D or 3D GT information的方法: 45（ICCVW 2019）Lifting AE, 52（2019 arxiv）. 还超过了使用keypoint supervision的方法37（NIPS2018的论文）.

Lifting AE 45 ICCVW 2019

Szabo´ et al. 52

我们证明了我们训练过的人脸模型可以不经过微调就可以推广到非自然的图像，比如人脸画和卡通画。

2. Related Work

为了评估本文的贡献与之前的image-based 3D reconstruction的方法的关系。相关工作主要从3个方面来考虑:

① 使用信息的类别
② 采用什么样的假设
③ 输出的情况

在表1中，我们对比了本文方法和之前的论文在这些情况上的异同。

文献	说明	作者
`43`	2008年巴塞尔大学，引用705. 这篇就是BFM！	Pascal Paysan
`44`	ECCV 2018 熟悉的michael black，熟悉的马普所…https://coma.is.tue.mpg.de/ 这篇就是大名鼎鼎的coma.	Michael J.Black
`16`	华人做的, 斯坦福和snapchat.	华人
`47`	相比其它直接预测单张图片的方法, 马里兰大学学院市分校和UCB的研究人员搞了根据图片预测N, A, L的方法，这个与本文思路很像，可能启发了本文方法.
`60`	帝国理工的IJCV2019，也是通过预测disentangled表情等内容，以便进行Face manipulation.
`7`	Neurips 2019, DIB-R，多伦多大学的Sanja Fidler课题组搞的(与Nvidia)。https://www.cs.utoronto.ca/~fidler/ 这篇论文主要就是在Soft Rasterizer基础上改了在三角形内部的插值方法.	Sanja Fidler
`52`	瑞士伯尔尼大学 2019 本文进行定性试验对比的算法	Szebo et al
`45`	`Lifting AE`来自2015年成立CentraleSupelec研究所和帝国理工。英法合流~~~

Structure from Motion SFM:
struction from Motion的方法不适合从raw pixels of single view估计/重建3D deformable object. 因为它需要multiple views或者需要2D keypoint之间的supervision信号.
Structure from X SFX:
很多如shading, silhouettes, texture, symmetry等monocular cues被用于替代SfM方法, 根据images恢复3D shape. 本文主要受到shape from symmetry (Mirror symmetry ⇒ 2-view stereo geometry 11, USC南加州大学的. 2003年) 和 shape from shading24 1989 MIT的大佬Berthold K.P. Horn & Michael J.Brooks 出版的一本书.的启发.

Mirror symmetry ⇒ 2-view stereo geometry 11, USC南加州大学的. 2003年

Shape From Shading 24 1989 MIT的大佬Berthold K.P. Horn & Michael J.Brooks 出版的一本书.

Category-specific reconstruction
基于学习的方法近来被广泛应用于根据single view图像构建object. 但是这个task是ill-posed, 所以，有人试图从训练数据中学习一个suitable object prior来达到目的。当然，你也可以用一系列的监督信号来学习这种prior. 因为我主要关注人脸和人体，像[26, 17, 60, 14]这些方法，需要使用预定义的shape model (SMPL34或BFM43) 来从单张图像构建出3D deformable object. 这些先验模型是使用特制的硬件和监督形式构建的，这对image that in-the-wild来说不太友好…(既有搜集数据的困难，又有构建模型的成本问题)

SMPL 34 马普所 2015年做的.

著名的Basel Face Model 43 经典的3D Morphable Model

吴同学整理了现在的研究人员的研究思路:

James Thewlis等人(牛津VGG组)通过使用同变性来学习dense landmarks (以便恢复object的2D 几何结构). Nips2017, Nips2018.

James Thewlis等人于Nips2017发表的论文. 54

DAE(Deforming autoencoders) 来自美国Stony Brook 大学和法国INRIA研究所。
Zhixin Shu 通过为AE限制一个很小的bottleneck embedding 来预测deformation field. 这种思路的输出形式与吴同学本文的思路很相似。ECCV2018

同样，对抗学习的思路也被引入到这里面来。

加藤裕治（东京大学）在CVPR2019发表的论文在raw images上训练一个判别器，并使用viewpoint作为额外的监督信号。

Learning View Priors for Single-view 3D Reconstruction. 来自东京大学的加藤裕治等人, CVPR2019, 28.

瑞士伯尔尼大学的Szabo等人用adversarial learning来重建3D meshes, 但是并没有定量的进行分析。

还有一些人的试验有局限，比如Henzeler的试验里面的试验对象的背景都是白色的。

在试验部分，吴同学与45 Lifting AR和52 Szabo et al.做了对比，并验证了其方法的有效性。

3. 方法

以人脸为例，给定unconstrained collection of images，我们的目标是学习一个model, 其输入是图片实例，输出是3D 的shape, albedo, illumination以及光照.

如图2所示，作者管这个叫做 Photo-geometric Autoencoding。

因为吴同学的方法是基于对称的结构，但是问题在于类似物体的appearance并不是perfectly symmetric的。非对称情况很常见，为了解决这个问题，

吴童鞋:

1 显式的对不对称的illumination进行建模。
2 我们的模型可以通过probability map来估计每个像素在image有对称结构的概率（图2的conf $(\sigma, \sigma^{'})$ ）.

3.1 Photo-geometric autoencoding

Photo-geometric autoencoding的假设: 输入的图像是中心对称的。

目标: 将I 映射为4个factors: (d, a, w, l).

depth map d
albedo image a.
global light direction l.
viewpoint w.

$Λ$ lighting函数是基于深度图，光线方向，以及albedo，从官方viewpoint(w=0) 生成的对象。 $\prod$ 函数是模拟viewpoint从canonical到实际的变化，并基于canonical深度图d生成image $\hat{I}$ . $\hat{I}$ 用的是reconstruction loss.

3.2 Probably symmetric objects

在3D重建中利用对称性，需要在图像中识别对称的物体点。

本文用implicitly的方式实现:

假设depth和albedo在一个标准坐标系中重建，是关于一个固定的垂直面对称的。

这样做带来的好处是可以帮助model发现一个object的"canonical view"，这对重建来说很重要。

那么怎么实现呢？

对a和d进行水平翻转: a’, d’. 如果直接要求 d = d’和a = a’, 这样很难达到一个平衡(我的理解是如果a = a’了，可能会让d和d’ 远离，这样可能就是永远达不到一个最好的tradeoff)

因此，吴同学天才的试图用间接的方式达成这个目的：公式2.

好了, 对称性的约束通过上面被隐式实现了。

那么，重建误差(3.1提到的)到底咋算呢？请看公式3

对不确定性进行建模对我们的任务尤其重要。

因为我们不只计算 $I$ 和 $\hat{I}$ 的误差，还计算 $I$ 和 $\hat{I}^{'}$ 的误差。

confidence map的存在使得我们可以挖掘input image的哪些位置可能不是对称的。

以人脸为例，头发通常不对称，那么，confidence map会给头发所在的位置assign更大的reconstruction uncertainty（因为头发不对称！）。

注意，这只是一个说明，具体的confidence map的值还是模型根据data-distribution自己学习出来的。

总而言之，本文的学习目标是公式4。

3.3 Image formation model

将实际世界的P点映射到像素p: 通过公式5的映射来实现。该模型假设有一个带有视场(FOV)的透视相机(perspective camera)。我们假设物体与摄像机的标称距离(nominal distance)约为1米。考虑到这些图像是围绕一个特定的物体剪裁的（ Given that the images are cropped around a particular object），我们假设一个相对狭窄的FOV: 10度左右。

深度图d在canonical view下为每个像素(u, v)配置一个深度值 duv.

viewpoint w表示了欧式变换(R, T). w的前3个值表示rotation angle, 后3个值表示translation value.

map(R, T) 将canonical view的3Dpoints 转换到实际的view上。将canonical view的像素(u, v)warp到实际view的(u’, v’)：黄色部分, 公式6.

最后，reprojection function $\prod$ 将深度图 $d$ 和viewpoint change $w$ 作为输入并将warp应用于canonical image $J$ 上去得到实际view的图像 $\hat{I}$ .

构造每个像素的法线n的方式: $t_{uv}^{u}$ 为例， $t_{uv}^{v}$ 同理易得。法线即由2个向量的叉乘获得:

有了每个像素的法线方向以及漫反射和高光反射的系数 $k_s$ 和 $k_d$ (由模型预测得到, tanh, 在0和1之间)

光的方向，利用tanh预测 $l_x$ 和 $l_y$ ，将光方向建模为一个球面。

3.4 Perceptual Loss

在公式3（衡量重建误差）的计算式中，L1 loss的应用会有点问题：L1 loss对小的几何缺陷很敏感，容易导致重建出的图像比较模糊(blurry).

我们因此在L1 Loss的基础上，增加了perceptual loss来缓解这个问题。

经过试验验证, 吴童鞋法线relu3_3 of VGG16作为perceptual loss的特征提取层就很足够了。然后，结合公式3和公式7，整个网络的损失函数被设计为
$L + λ p L p$ 其中, $λ p = 1$ .

4 Experiments

4.1 Setup

数据集: CelebA, 3DFAW, BFM.

Metric: 由于基于投影相机的3D重建有固有的模糊问题，因此我们需要在评价中对此进行考虑。

在吴同学的实现中，他将warped depth map $\hat{d}$ 于GT depth map $d^*$ 进行了SIDE的计算. (绿色部分). 这里只比较有效的depth value.

此外，吴童鞋还通过对比normal（computed from ground truth depth and from the predicted depth, ）的mean和variance，来有效的衡量surface reconstruction的效果。

按照吴同学的说法，由于本文方法相比baseline 3有较大的提升，而baseline 3是可以access to GT information的。这说明了本文的无监督方法能够学习到一个很好的3D representation。

由ablation study可以看出，albedo flip影响最大(2),其次是使用预测的阴影贴图而非根据depth & light direction计算得到(4).
然后就是depth flip(3)…

Table 3 的第7行关闭confidence map的含义是指在公式3和7中的loss里面，用固定的L1 和L2 loss即可，用固定的value来代替由网络预测出来的confidence map。可以看出，不用confidence map，精度并没掉太多（因为BFM的脸是高度对称的，没有头发）。但是variance 增加了很多。为了更好的理解confidence map的作用，吴同学对脸做了perturbation，以让其不对称

实现细节

① depth & albedo 的AE网络没有用skip connection，这是因为输入和输出图像 are not spatially aligned。

② viewpoint和lighting用简单的encoder网络进行回归。

③ 对depth, albedo, viewpoint和lighting来说，最后的激活层是tanh；对confidence map来说，最后的激活层则是softplus。由于光度和感知损失是在不同的分辨率下计算的，所以这四种置信图都是用相同的网络在不同的解码层预测的。而且，depth在过tanh之前，需要normalization一下。

④ Adam优化器，图像分辨率为64 x 64. 训练大约50k个迭代步, bs=64. 详细细节请看补充材料.

⑤ 我观察发现，Unsup3D中的所有网络里的normalization都是Group Normalization。

4.2 Results

为了更好的评估confidence map对效果的贡献(本文对不确定性建模的意义)。

吴童鞋对BFM施加了非对称扰动(asymmetric perturbation). 生成了随机颜色的color patches（占图片的20到50%大小）并将其以0.5到1的一个alpha值与原来的数据混合。如图3所示。

接着，用没有confidence map的结构训练扰动后的数据。结果如表4所示。

可以看到, confidence maps可以让模型抵抗这种noise和扰动，而没有confidence map 的模型没有这种能力。
(confidence maps allow the model to reject such noise, while the vanilla model without confidence maps breaks.)

图4是人脸，汽车，猫脸重建的效果(CelebA and 3DFAW, cat faces from [66, 42] and synthetic cars from ShapeNet. )

即使在极端的面部表情的情况下，重建的3D脸也包含了鼻子、眼睛和嘴巴的细节。

为了进一步验证模型的效果，吴同学将其在celebA训练的模型应用于一系列 painting和cartoon drawings来验证效果。

如图5所示，尽管我们的方法在训练过程中从未见过这样的图像，但它仍然工作得很好。

由于我们的模型预测的object的canonical view是关于图像的垂直中心线的对称的。

我们可以可视化这些对称平面。如图6所示，我们把centerline warp到实际view上去。

从图6a可以看出，本文方法能够在不对称的纹理和光照条件下，准确地发现对称线。

图6b是我们在图像上覆盖了预测置信映射数据(predicted confidence map)，确认了我们的模型能够为非对称区域分配低置信值。

4.3 Comparison with the state of the art

如表1所示，许多重建方法都或多或少的需要image annotations, prior 3D models或者2者都要。

但是如果没有这些标注或者先验知识，重建任务就变得非常困难，而且几乎没有可以直接比较的先前工作。

对45，52来讲，没法直接获得其代码和训练好的模型进行测试以便进行比较（定性和定量）。

吴同学从45，52的论文中截取相关内容，进行定性比较(图7)，可以看出，我们的效果不错~。

定性对比. 可以看出本文方法能够恢复更高质量的shapes.

需要提一嘴的是，52中的输入图像是由GAN生成的。

4.4 Limitations

虽然我们的方法在诸如: extreme facial expression, abstract drawing等具有挑战性的scenarios下表现的不错。

但是我们也观察到了一些failure cases(图8). 在训练过程中，我们假定的是简单的Lambert shading model. 忽略了阴影(shadows)和高光(specularity). 这使得对于极端的光照条件或非lambert表面，效果非常差。如图8a所示。

由8c也可以看出，可能是由于side images的监督信号弱的原因，极端侧脸(extreme side face)重建的效果较差。这可以通过施加accurate reconstructions of frontal poses的约束来改善。

5. Conclusions

本文提出了一种可以根据某类对象的unconstrained single-view images(人脸等), 构造出逼真的3D deformable object的方法, 此方法能够获得高保真度的单目三维重建个体对象实例。

本文完全基于reconstruction loss而非任何其它监督信号或先验信息。

通过试验3，我们证明了对称关系和光照对于一个理想的非监督重建的重要性。

本文模型比使用2D keypoint supervision的方法效果好。

对于未来的工作，该模型目前使用depth map从一个canonical view表示三维形状，这对于具有大致凸形和自然标准视点的人脸等对象来说已经足够了。

对复杂的对象，可以扩展模型以使用多个规范视图或不同的3D表示，比如mesh或者voxel map。

6. Code

我基于原版本换了一个可微分的renderer, 用的是pytorch3d，欢迎试用~

原版本: https://github.com/elliottwu/unsup3d
我的版本: https://github.com/tomguluson92/unsup3D_pytorch3d

我的版本的效果:

你可能感兴趣的:(机器学习:,视觉论文整理,深度学习,算法,Unsup3D,CVPR2020最佳论文,无监督3D生成,计算机视觉)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
2021-08-26 影幽
在生活中，女人与男人的感悟往往有所不同。人生最大的舞台就是生活，大幕随时都可能拉开，关键是你愿不愿意表演都无法躲避。在生活中，遇事不要急躁，不要急于下结论，尤其生气时不要做决断，要学会换位思考，大事化小小事化了，把复杂的事情尽量简单处理，千万不要把简单的事情复杂化。永远不要扭曲，别人善意，无药可救。昨天是张过期的支票，明天是张信用卡，只有今天才是现金，要善加利用！执着的攀登者不必去与别人比较自己的
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
从鸡肉高汤到记忆的魔法再到有效提示的艺术步子哥人工智能
还记得小时候那些天马行空的白日梦吗？也许只要按下键盘上的某个神奇组合，电脑就会发出滴滴的声响，一个隐藏的世界突然在你眼前展开，让你获得超凡的能力，摆脱平凡的生活。这听起来像是玩过太多电子游戏的幻想，但实际上，间隔重复系统给人的感觉惊人地相似。在最佳状态下，这些系统就像魔法一样神奇。本文将以一个看似平凡的鸡肉高汤食谱为例，深入浅出地探讨如何编写有效的间隔重复提示，让你像掌握烹饪技巧一样轻松地掌握记忆
谁家酒器最绝唱，藏在酒厂人未知？景阳冈酒厂先秦藏品大揭秘李虓酒评论
文/王赛时中国的酒器酒具历史久远，举世闻名。从北京的故宫博物院、中国国家博物馆，到世界各国的大型博物馆，都以能够收藏中国古代酒具而夸耀。但很少有人知道，在山东阳谷景阳冈酒厂，默默地收藏了两千件中国酒器。这些酒器，就封藏在景阳冈的酒道馆里。其中有一些青铜酒器，一睡就是三、四千年，堪称无声国宝，堪作无字史书！今天，我将引领诸位首先窥视一下景阳冈酒道馆的9件先秦藏品，你自己来说震撼不震撼。提示：这只是景
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
《中华小厨师》单行VS爱藏：姜是老的辣，书是新的好 cicoky
《汉书·郦食其传》有曰：“王者以民为天，而民以食为天。”自古以来，吃饱饭是每一个人的基本要求，而吃好饭却是每一个人的最终追求。于是，厨师这一职业孕育而生，其渊源之久，甚至可追溯到4000年前的奴隶时代。职业本身无贵贱，但职业能力却有高低之分。所以一家餐馆生意好不好，厨师的水平决定一切，而站在所有厨师顶端的就被称之为“特级厨师”。今天要说的就是一个关于“特级厨师刘昴星”的故事。连载历程1995年第4
读《人世间》有感一0一
这个寒假，就如同朋友圈中的一段话：一闭眼，一睁眼假期还有5天，在一闭眼一睁眼假期还有12天；再一闭眼一睁眼假期还有20天；不敢睡，不敢睡啊……受疫情影响，这个假期变得漫长又煎熬，我也无时无刻不关注着疫情的变化。当然这样的一个假期，我还真得要感谢周翔，因为他有个爱看书的习惯，所以家里有不少他看过的书，可以让我随意挑选，因此也让我的假期不至于那么无所事事。这次我选了一本梁晓声的《人世间》，作为一名语文
使用LLaVa和Ollama实现多模态RAG示例 llzwxh888 python 人工智能开发语言
本文将详细介绍如何使用LLaVa和Ollama实现多模态RAG（检索增强生成），通过提取图像中的结构化数据、生成图像字幕等功能来展示这一技术的强大之处。安装环境首先，您需要安装以下依赖包：!pipinstallllama-index-multi-modal-llms-ollama!pipinstallllama-index-readers-file!pipinstallunstructured!p
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
番茄西红柿叶子病害分类数据集12882张11类别 futureflsl 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：12882分类类别数：11类别名称:["Bacterial_Spot_Bacteria","Early_Blight_Fungus","Healthy","Late_Blight_Water_Mold","Leaf_Mold_Fungus","Powdery
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Rust基础知识 GRKF15 rust 开发语言后端
1.Rust语言简介1.1基础语法变量声明：let关键字用于声明变量，可以指定或不指定类型，如leta=10;和letmutc=30i32;。函数定义：使用fn关键字定义函数，并指定参数类型及返回类型，如fnadd(i:i32,j:i32)->i32{i+j}。控制流：包括if、else等，控制语句后需要使用;来结束语句。1.2数据类型整数类型：i8、i16、i32、i64、i128，以及无符号的
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
每日一题——第八十八题互联网打工人no1 C语言程序设计每日一练 c语言
题目：输入一个9位的无符号整数，判断其是否有重复数字#include#include#includeintmain(){charnum_str[10];printf("请输入一个9位数的无符号数：");scanf_s("%9d",&num_str);if(strlen(num_str)!=9){printf("输入的不是一个9位无符号整数，请重新输入");}else{if(hasDuplicate
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
果然只有离职的时候，才有人敢说真话！ return2ok
今天公司出了神贴。今天中午吃饭，同事问我看了论坛上的神贴了吗？什么帖子？我问。同事显得很惊讶，你居然没看，现在那个帖子可能会成为年度最佳帖子。这么厉害？我等不及了，饭没吃完就快速的奔向办公室，打开公司论坛，我要一睹这个帖子的神奇。写这帖子的童鞋胆儿真肥。这哪里是一个帖子，这是很多个帖子，组成了一个系列。某人从公司文化、管理、人事、项目管理等多个方面分析了公司的概况，并抨击了公司的各种弊端，并提出了
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
【勾心原创】《去年夏天》不勾心的豆角
（原创作者：不勾心的豆角）本期【勾心原创】，继续本人不勾心的豆角的现代诗创作之旅。《去年夏天》原创作者：不勾心的豆角那里芳草茵茵绿柳成行澄净蓝天下屋顶们相亲相爱闪着橙色紫色的馨香溪流温柔偎依着村庄牛儿羊儿信步徜徉还有成群的白鸽在尖顶的教堂盘旋歌唱孩子们是自由的蒲公英奔跑在希望的田野上任由天真的笑声肆无忌惮烂漫这人间天堂夜幕小心翼翼呵护着甜美的梦乡只剩尽职的晚风陪伴顽皮的星子们游荡快告诉我心爱的姑娘
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
钟表可以回到起点却已不是昨天凉小夏
人生的路很长，但是我们只能前进不能后退就像钟表，可以回到起点，却已时过境迁，永远也找不到那个过去的昨天。因我们总是会对过去有着很多留恋不舍和怀念，会时常回头看看走过的脚印，时常想起过去的美好时光，时常想到那些悲伤和不如意。今天的到来时钟不可阻止，历史的记录，原人生最宝贵的不是金钱，不是地位，而是时间。拥有时间就等于拥有一切，因为拥有时间，我们不怕囊中羞涩，因为拥有时间我们不惮创业无门，因为拥有时间
女儿考研完报考雅思捡拾流年
是否我过于焦虑？会不会无形间让女儿觉得压力太大了啊。2022年对于我们家来说是不平常的一年。女儿今年大四，为了准备考研，暑假也没回家，年初去了学校到了年末才回家。女儿自己一个人面对考研，没有参加培训，大四学校作业论文等课业也多，她同时也是很努力复习考研的。在疫情开放很多羊的时期，女儿终于顺顺利利参加12月24、25号的考研，我们和家人都觉得女儿回家来要好好休息调养。可女儿回到家，我再查阅考研信息，
关于Mysql 中 Row size too large (＞ 8126) 错误的解决和理解秋刀prince mysql mysql 数据库
提示：啰嗦一嘴，数据库的任何操作和验证前，一定要记得先备份！！！不会有错；文章目录问题发现一、问题导致的可能原因1、页大小2、行格式2.1compact格式2.2Redundant格式2.3Dynamic格式2.4Compressed格式3、BLOB和TEXT列二、解决办法1、修改页大小（不推荐）2、修改行格式3、修改数据类型为BLOB和TEXT列4、其他优化方式（可以参考使用）4.1合理设置数据
Js函数返回值 _wy_ js return
一、返回控制与函数结果，语法为：return 表达式;作用: 结束函数执行，返回调用函数，而且把表达式的值作为函数的结果二、返回控制语法为：return;作用: 结束函数执行，返回调用函数，而且把undefined作为函数的结果在大多数情况下,为事件处理函数返回false,可以防止默认的事件行为.例如,默认情况下点击一个<a>元素,页面会跳转到该元素href属性
MySQL 的 char 与 varchar bylijinnan mysql
今天发现，create table 时，MySQL 4.1有时会把 char 自动转换成 varchar 测试举例： CREATE TABLE `varcharLessThan4` ( `lastName` varchar(3) ) ; mysql> desc varcharLessThan4; +----------+---------+------+-
Quartz——TriggerListener和JobListener eksliang TriggerListener JobListener quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208624 一.概述 listener是一个监听器对象，用于监听scheduler中发生的事件，然后执行相应的操作；你可能已经猜到了，TriggerListeners接受与trigger相关的事件，JobListeners接受与jobs相关的事件。二.JobListener监听器 j
oracle层次查询 18289753290 oracle；层次查询；树查询
.oracle层次查询(connect by) oracle的emp表中包含了一列mgr指出谁是雇员的经理，由于经理也是雇员，所以经理的信息也存储在emp表中。这样emp表就是一个自引用表，表中的mgr列是一个自引用列，它指向emp表中的empno列，mgr表示一个员工的管理者， select empno,mgr,ename,sal from e
通过反射把map中的属性赋值到实体类bean对象中酷的飞上天空 javaee 泛型类型转换
使用过struts2后感觉最方便的就是这个框架能自动把表单的参数赋值到action里面的对象中但现在主要使用Spring框架的MVC，虽然也有@ModelAttribute可以使用但是明显感觉不方便。好吧，那就自己再造一个轮子吧。原理都知道，就是利用反射进行字段的赋值，下面贴代码主要类如下： import java.lang.reflect.Field; imp
SAP HANA数据存储：传统硬盘的瓶颈问题蓝儿唯美 HANA
SAPHANA平台有各种各样的应用场景，这也意味着客户的实施方法有许多种选择，关键是如何挑选最适合他们需求的实施方案。在《Implementing SAP HANA》这本书中，介绍了SAP平台在现实场景中的运作原理，并给出了实施建议和成功案例供参考。本系列文章节选自《Implementing SAP HANA》，介绍了行存储和列存储的各自特点，以及SAP HANA的数据存储方式如何提升空间压
Java Socket 多线程实现文件传输随便小屋 java socket
高级操作系统作业，让用Socket实现文件传输，有些代码也是在网上找的，写的不好，如果大家能用就用上。客户端类： package edu.logic.client; import java.io.BufferedInputStream; import java.io.Buffered
java初学者路径 aijuans java
学习Java有没有什么捷径?要想学好Java，首先要知道Java的大致分类。自从Sun推出Java以来，就力图使之无所不包，所以Java发展到现在，按应用来分主要分为三大块：J2SE,J2ME和J2EE,这也就是Sun ONE(Open Net Environment)体系。J2SE就是Java2的标准版，主要用于桌面应用软件的编程；J2ME主要应用于嵌入是系统开发，如手机和PDA的编程；J2EE
APP推广 aoyouzi APP 推广
一，免费篇 1，APP推荐类网站自主推荐最美应用、酷安网、DEMO8、木蚂蚁发现频道等,如果产品独特新颖，还能获取最美应用的评测推荐。PS：推荐简单。只要产品有趣好玩，用户会自主分享传播。例如足迹APP在最美应用推荐一次，几天用户暴增将服务器击垮。 2，各大应用商店首发合作老实盯着排期，多给应用市场官方负责人献殷勤。 3，论坛贴吧推广百度知道，百度贴吧，猫扑论坛，天涯社区，豆瓣（
JSP转发与重定向百合不是茶 jsp servlet Java Web jsp转发
在servlet和jsp中我们经常需要请求,这时就需要用到转发和重定向; 转发包括;forward和include 例子;forwrad转发; 将请求装法给reg.html页面关键代码; req.getRequestDispatcher("reg.html
web.xml之jsp-config bijian1013 java web.xml servlet jsp-config
1.作用：主要用于设定JSP页面的相关配置。 2.常见定义： <jsp-config> <taglib> <taglib-uri>URI(定义TLD文件的URI,JSP页面的tablib命令可以经由此URI获取到TLD文件)</tablib-uri> <taglib-location> TLD文件所在的位置
JSF2.2 ViewScoped Using CDI sunjing CDI JSF 2.2 ViewScoped
JSF 2.0 introduced annotation @ViewScoped; A bean annotated with this scope maintained its state as long as the user stays on the same view(reloads or navigation - no intervening views). One problem w
【分布式数据一致性二】Zookeeper数据读写一致性 bit1129 zookeeper
很多文档说Zookeeper是强一致性保证，事实不然。关于一致性模型请参考http://bit1129.iteye.com/blog/2155336 Zookeeper的数据同步协议 Zookeeper采用称为Quorum Based Protocol的数据同步协议。假如Zookeeper集群有N台Zookeeper服务器(N通常取奇数，3台能够满足数据可靠性同时
Java开发笔记白糖_ java开发
1、Map<key,value>的remove方法只能识别相同类型的key值 Map<Integer,String> map = new HashMap<Integer,String>(); map.put(1,"a"); map.put(2,"b"); map.put(3,"c"
图片黑色阴影 bozch 图片
.event{ padding:0; width:460px; min-width: 460px; border:0px solid #e4e4e4; height: 350px; min-heig
编程之美-饮料供货-动态规划 bylijinnan 动态规划
import java.util.Arrays; import java.util.Random; public class BeverageSupply { /** * 编程之美饮料供货 * 设Opt（V’，i）表示从i到n-1种饮料中，总容量为V’的方案中，满意度之和的最大值。 * 那么递归式就应该是：Opt（V’，i）=max{ k * Hi+Op
ajax大参数（大数据）提交性能分析 chenbowen00 Web Ajax 框架浏览器 prototype
近期在项目中发现如下一个问题项目中有个提交现场事件的功能，该功能主要是在web客户端保存现场数据（主要有截屏，终端日志等信息）然后提交到服务器上方便我们分析定位问题。客户在使用该功能的过程中反应点击提交后反应很慢，大概要等10到20秒的时间浏览器才能操作，期间页面不响应事件。根据客户描述分析了下的代码流程，很简单，主要通过OCX控件截屏，在将前端的日志等文件使用OCX控件打包，在将之转换为
[宇宙与天文]在太空采矿,在太空建造 comsci
我们在太空进行工业活动...但是不太可能把太空工业产品又运回到地面上进行加工,而一般是在哪里开采,就在哪里加工,太空的微重力环境,可能会使我们的工业产品的制造尺度非常巨大.... 地球上制造的最大工业机器是超级油轮和航空母舰,再大些就会遇到困难了,但是在空间船坞中,制造的最大工业机器,可能就没
ORACLE中CONSTRAINT的四对属性 daizj oracle CONSTRAINT
ORACLE中CONSTRAINT的四对属性 summary:在data migrate时,某些表的约束总是困扰着我们,让我们的migratet举步维艰,如何利用约束本身的属性来处理这些问题呢?本文详细介绍了约束的四对属性: Deferrable/not deferrable, Deferred/immediate, enalbe/disable, validate/novalidate,以及如
Gradle入门教程 dengkane gradle
一、寻找gradle的历程一开始的时候，我们只有一个工程，所有要用到的jar包都放到工程目录下面，时间长了，工程越来越大，使用到的jar包也越来越多，难以理解jar之间的依赖关系。再后来我们把旧的工程拆分到不同的工程里，靠ide来管理工程之间的依赖关系，各工程下的jar包依赖是杂乱的。一段时间后，我们发现用ide来管理项程很不方便，比如不方便脱离ide自动构建，于是我们写自己的ant脚本。再后
C语言简单循环示例 dcj3sjt126com c
# include <stdio.h> int main(void) { int i; int count = 0; int sum = 0; float avg; for (i=1; i<=100; i++) { if (i%2==0) { count++; sum += i; } } avg
presentModalViewController 的动画效果 dcj3sjt126com controller
系统自带(四种效果)： presentModalViewController模态的动画效果设置： [cpp] view plain copy UIViewController *detailViewController = [[UIViewController al
java 二分查找 shuizhaosi888 二分查找 java二分查找
需求：在排好顺序的一串数字中，找到数字T 一般解法：从左到右扫描数据，其运行花费线性时间O(N)。然而这个算法并没有用到该表已经排序的事实。 /** * * @param array * 顺序数组 * @param t * 要查找对象 * @return */ public stati
Spring Security（07）——缓存UserDetails 234390216 ehcache 缓存 Spring Security
Spring Security提供了一个实现了可以缓存UserDetails的UserDetailsService实现类，CachingUserDetailsService。该类的构造接收一个用于真正加载UserDetails的UserDetailsService实现类。当需要加载UserDetails时，其首先会从缓存中获取，如果缓存中没
Dozer 深层次复制 jayluns VO maven po
最近在做项目上遇到了一些小问题，因为架构在做设计的时候web前段展示用到了vo层，而在后台进行与数据库层操作的时候用到的是Po层。这样在业务层返回vo到控制层，每一次都需要从po-->转化到vo层，用到BeanUtils.copyProperties(source, target)只能复制简单的属性，因为实体类都配置了hibernate那些关联关系，所以它满足不了现在的需求，但后发现还有个很
CSS规范整理（摘自懒人图库） a409435341 html UI css 浏览器
刚没事闲着在网上瞎逛，找了一篇CSS规范整理，粗略看了一下后还蛮有一定的道理，并自问是否有这样的规范，这也是初入前端开发的人一个很好的规范吧。一、文件规范 1、文件均归档至约定的目录中。具体要求通过豆瓣的CSS规范进行讲解：所有的CSS分为两大类：通用类和业务类。通用的CSS文件，放在如下目录中：基本样式库 /css/core
C++动态链接库创建与使用你不认识的休道人 C++dll
一、创建动态链接库 1.新建工程test中选择”MFC [dll]”dll类型选择第二项"Regular DLL With MFC shared linked"，完成 2.在test.h中添加 extern “C” 返回类型 _declspec(dllexport)函数名(参数列表); 3.在test.cpp中最后写 extern “C” 返回类型 _decls
Android代码混淆之ProGuard rensanning ProGuard
Android应用的Java代码，通过反编译apk文件（dex2jar、apktool）很容易得到源代码，所以在release版本的apk中一定要混淆一下一些关键的Java源码。 ProGuard是一个开源的Java代码混淆器（obfuscation）。ADT r8开始它被默认集成到了Android SDK中。官网： http://proguard.sourceforge.net/
程序员在编程中遇到的奇葩弱智问题 tomcat_oracle jquery 编程 ide
　　现在收集一下：　　排名不分先后，按照发言顺序来的。 1、Jquery插件一个通用函数一直报错，尤其是很明显是存在的函数，很有可能就是你没有引入jquery。。。或者版本不对 2、调试半天没变化：不在同一个文件中调试。这个很可怕，我们很多时候会备份好几个项目，改完发现改错了。有个群友说的好：在汤匙
解决maven-dependency-plugin (goals "copy-dependencies","unpack") is not supported xp9802 dependency
解决办法：在plugins之前添加如下pluginManagement，二者前后顺序如下： [html] view plain copy <build> <pluginManagement