风度78

【推荐系统】变分自编码器(VAEs)在推荐系统中的应用

「本文概览」

今天给大家介绍一篇VAEs用于推荐系统召回侧的文章，论文题目为《Variational Autoencoders for Collaborative Filtering》。VAEs (Variational Autoencoders 变分自编码器) 是一类基于变分推断和 Encoder-Decoder 结构的生成式模型。这一类模型具有较强的表征能力，其 latent space 的性质也让 VAEs 在很多下游任务中有较好的应用。本文是VAEs模型在协同过滤中的使用，非线性的概率模型大大提升生了模型的表征能力。

引用：Liang D, Krishnan R G, Hoffman M D, et al. Variational autoencoders for collaborative filtering[C]//Proceedings of the 2018 world wide web conference. 2018: 689-698.
论文下载地址：https://dl.acm.org/doi/pdf/10.1145/3178876.3186150
论文源码：https://github.com/dawenl/vae_cf

1. 背景知识

1.1 AutoEncoder(AE)

如下图所示，AutoEncoder框架包含两大模块：编码过程和解码过程。通过 encoder(g) 将输入样本映射到特征空间，即编码过程；然后再通过 decoder(f) 将抽象特征映射回原始空间得到重构样本，即解码过程。优化目标则是通过最小化重构误差来同时优化encoder和decoder，从而学习得到针对输入样本的抽象特征表示。

这里我们可以看到，AutoEncoder在优化过程中无需使用样本的label，本质上是把样本的输入同时作为神经网络的输入和输出，通过最小化重构误差希望学习到样本的抽象特征表示。这种无监督的优化方式大大提升了模型的通用性。

对于基于神经网络的AutoEncoder模型来说，则是encoder部分通过逐层降低神经元个数来对数据进行压缩；decoder部分基于数据的抽象表示逐层提升神经元数量，最终实现对输入样本的重构。

这里值得注意的是，由于AutoEncoder通过神经网络来学习每个样本的唯一抽象表示，这会带来一个问题：当神经网络的参数复杂到一定程度时AutoEncoder很容易存在过拟合的风险。

1.2 Denoising AutoEncoder(DAE)

为了缓解经典AutoEncoder容易过拟合的问题，一个办法是在输入中加入随机噪声，Vincent等人提出了Denoising AutoEncoder，即在传统AutoEncoder输入层加入随机噪声来增强模型的鲁棒性；另一个办法就是结合正则化思想，Rifai等人提出了Contractive AutoEncoder，通过在AutoEncoder目标函数中加上Encoder的Jacobian矩阵范式来约束使得Encoder能够学到具有抗干扰的抽象特征。

下图是Denoising AutoEncoder的模型框架。目前添加噪声的方式大多分为两种：

添加服从特定分布的随机噪声；
随机将输入中特定比例的数值置为0；

DAE模型的优势：

通过与非破损数据训练的对比，破损数据训练出来的Weight噪声较小。因为擦除数据的时候不小心把输入噪声给擦掉了。
破损数据一定程度上减轻了训练数据与测试数据的代沟。由于数据的部分被擦掉了，因而这破损数据一定程度上比较接近测试数据。

1.3 简介Variational Autoencoders(VAEs)

变分自编码器是自动编码器的升级版本，其结构跟自动编码器是类似的，也由编码器和解码器构成。

在自动编码器中，我们需要输入一张图片，然后将一张图片编码之后得到一个隐含向量，这个隐含向量比我们随机取一个随机噪声更好，因为它包含着原图片的信息，然后我们把隐含向量解码得到与原图片对应的照片。

但是这样我们并不能任意生成图片，因为没有办法自己去构造隐含向量，需要通过一张图片输入编码，才知道得到的隐含向量是什么。这时我们就可以通过变分自编码器来解决这个问题。

其实原理特别简单，只需要在编码的过程中给它增加一些限制，迫使其生成的隐含向量能够粗略的遵循一个标准正态分布，这就是其与一般的自动编码器最大的不同。

这样我们生成一张新图片就很简单了，只需要给它一个标准正态分布的随机隐含向量，这样通过解码器就能够生成我们想要的图片，而不需要给它一张原始图片先编码。

在实际情况中，我们需要在模型的准确率上与隐含向量服从标准正态分布之间做一个权衡。所谓模型的准确率就是指解码器生成的图片与原图片的相似程度。另外要衡量两种分布的相似程度，有一个东西叫KL divergence来衡量两种分布的相似程度，这里我们就是用KL divergence来表示隐含向量与标准正态分布之间差异的loss。我们让网络自己来做决定如何权衡，非常简单，我们只需要将这两者分别作为loss，然后再将它们求和作为总的loss，这样网络就能够自己选择如何才能够使得这个总的loss下降。

KL divergence 的公式如下：

这里变分自编码器使用了一个技巧 「“重新参数化(reparameterization)”」 来解决KL divergence的计算问题。

这时不再是每次产生一个隐含向量，而是生成两个向量，一个表示均值，一个表示标准差，然后通过这两个统计量来合成隐含向量，这也非常简单，用一个标准正态分布先乘上标准差再加上均值就行了，这里我们默认编码之后的隐含向量是服从一个正态分布的。这个时候我们是想让均值尽可能接近0，标准差尽可能接近1。

VAE通过Encoder学习出均值向量和方差向量（贝叶斯估计）。同时随机采样一个正态分布的向量。通过公式重采样得到（Sampled Latent Vector），它描述的是一个潜在多元正态分布（非高斯）的均值和标准差，这个正态分布就是用来生成VAE所训练的数据。最后通过Decoder进行重建。损失函数是Decoder后的输出与初始输入的差异，以及学习后的潜在分布和先验分布之间的KL散度作为正则化， σ 的重参数技巧。

「【强烈推荐阅读】」

关于VAE的理论推导有点晦涩难懂，推荐大家观看学习李宏毅老师的教程视频。
关于李宏毅老师讲解的VAE视频Part1地址：https://www.youtube.com/watch?v=YNUek8ioAJk&ab_channel=Hung-yiLee
关于李宏毅老师讲解的VAE视频Part2地址：https://www.youtube.com/watch?v=8zomhgKrsmQ&ab_channel=Hung-yiLee
李宏毅老师讲解slides地址：http://speech.ee.ntu.edu.tw/~tlkagk/courses/ML_2017/Lecture/GAN%20(v3).pdf

2. VAEs模型理论介绍

近年的工作，如《Neural collaborative filtering》、《Autorec: Autoencoders meet collaborative filtering》等将神经网络应用于协同过滤并取得了理想的结果。该论文将变分自编码器（Variational Autoencoders，VAEs）扩展到协同过滤。下面我们详细介绍一下VAEs模型的原理。

这一部分主要是介绍了变分自编码器 (VAEs) 的理论基础，以下部分内容参考了变分自编码器 (VAE) Overview - Zhifeng的文章 - 知乎 https://zhuanlan.zhihu.com/p/420419446

2.1 MLE、MAP、Bayesian

首先要明确这三个概念。

MLE是极大似然估计Maximum Likelihood Estimation。其目标为求解：

MAP是最大后验概率Maximum A Posteriori Estimation。其目标是求解：

这两者的区别就是在于求解最优参数时，有没有加入先验知识。也就是MAP融入了要估计量 θ 的先验分布在其中，因此MAP可以看做规则化的MLE。这也就解释了，为什么MLE比MAP更容易过拟合。因为MLE在求解最优 θ 时，没有对 θ 有先验的指导，因此中包括了一些的数据样本时，就会很轻易让MLE去拟合样本。而MAP加入了对 θ 的先验指导，例如L2正则化，那么就不易过拟合了。

举个例子，同样的逻辑回归。

未正则化的逻辑回归就是MLE。
正则化的逻辑回归就是MAP。

那么，与上述两个概念都不同的是贝叶斯模型（Bayesian Network），也被称为概率图模型。这里不是指朴素贝叶斯。而是说下面的这种学习思路。

MLE和MAP求解的都是一个最优的 θ 值，在预测时只有最优的 θ 参与预测过程。贝叶斯模型求解的是 θ 的后验分布 θ，而不是最大化的后验分布。因此贝叶斯模型在某种程度上可以看作是一个集成模型，在预测时，让所有 θ 都参与预测，并将预测结果「以后验概率 θ 作为权重进行加和作为最终预测值」。

2.2 从 MLE 到变分推断

假设数据的真实分布为。为了训练一个生成模型，我们往往通过神经网络构造一个复杂分布 (解码器) , 并最大化数据的 likelihood, 也就是:

但是，实际复杂的神经网络往往在数据空间进行变换，因此没有显示的密度，直接优化 MLE 问题是不可行的。变分推断 (variational inference) 便是解决上述问题的有力工具。首先，我们引入一个新的变量称为 latent distribution (下文简写为 , 其维度远小于数据的维度)。接下来，我们定义另一个分布 , 其可以是任意的分布。由于:

我们可以将 MLE 的优化问题写成

根据 Jensen's inequality, 我们将和位置交换，即：

上式即为经验下界 (evidence lower bound, or ELBO)。最后，由于可以是任意的，我们能够用一个神经网络去逼近使得 ELBO 最大的，即：

其中，可以看作VAEs模型的编码器。

由于取的过程类似于数学中的变分法(在泛函空间中取极值)，因此该方法被称为变分推断。

2.3 VAEs网络结构

VAEs的网络结构和 AutoEncoder(AE)一样，由两个网络构成，分别是 Encoder 和 Decoder 。非常自然地，对应上述 , 而对应上述。VAEs只是在 AE 的基础上用了变分推断，这也是其名字的由来。下图是一个简单的VAEs示意图，实际情况中网络结构可能更加复杂。蓝色分别为输入和输出，绿色为 Encoder / Decoder 的中间层，红色为 Encoder 的输出，一般是一个维度很低的向量 (仅限于早期简单的 VAE)，它有不同的名字，比如 code、latent representation、latent vector、embedding或者 bottleneck。

2.4 VAEs与AE的关系

最原始的 AE 的目标函数是:

其被称为 reconstruction error, 其目的便是希望近似于恒等变换，但是的输出维度非常小 (可以用矩阵分解 SVD 或者 NMF 来类比)。这看上去与 VAEs 的目标函数完全不同，但实际上有很强的联系。

我们从 VAEs 的 reparameterization 讲起。由于直接定义和是不现实的，我们假设这两个分布都是 Gaussian. 我们可以进一步简化，假定 covariance matrix 都是对角矩阵。那么，VAEs 中的和只需要输出 Gaussian distribution 的 mean () 和 covariance matrix () 的对角线即可。在这种情况下，和的表达形式都十分简单。我们将 ELBO 的第一项写开：

由于 , 我们有 , 其中，就是用一个标准正态分布先乘上标准差再加上均值。当我们假定且很小的时候，上式与 AE 的目标函数其实非常类似。而 ELBO 的第二项则可以被视为 regularization term, 使得与 latent distribution 接近。因此，VAEs 的 ELBO 目标函数常常被理解为 reconstruction error + regularization, 或者说在 AE 的基础上增加了 regularization.

2.5 Beta-VAE

Beta-VAE 是 VAEs 的简单推广，但十分有效。我们刚刚提到 VAEs 在 AE 的基础上增加了 regularization 从而得到更好的效果，那么我们可以直接增加一个 regularization factor 进一步提升效果:

= 1 便对应的是原始 VAEs。在实际任务中，我们只需要把当作 hyper-parameter 进行 fine tune 即可。人们也发现，当 = 2,4,8 的时候效果一般会更好一些，尤其是生成的样本边缘更清晰 (sharp)。

当然，我们可以从另一个角度理解 -VAE. 我们从 AE 出发，优化 likelihood:

但同时 regularize term:

将上述优化问题转化为 Lagrangian multiplier, 我们有

舍弃最后的项，我们便得到了 -VAE 的目标函数。

3. 模型衡量指标

3.1 推荐系统的Recall@k

预召回的个样本中命中正样本数目正样本数

因为是离线计算的指标，所以计算的时候用模型计算召回topk，看有多少个被用户真实点击了，就是表示命中用户喜欢样本的比值。

那么这个设置怎样比较好呢？其实各有各的好处，比如5–500可能都有，一般会小的大的都看。如果比较小，比如recall@5能代表模型的精确度，含义是在召回的top5中命中正样本的概率，如果明显精确度提高了，那么这个指标会提升。如果比较大，比如recall@500能代表模型的整体效果，可能这个召回渠道线上每次拉取的都是一个比较大的结果，那么在这个大的结果中只要能够命中，都有可能最终被精排模型排出去，所以能代表模型整体召回效果。

「思考这个问题：Recall@k和线上指标是否是正相关的呢？」

从理论角度分析，假设只有这一个召回渠道，那么指标就是完全正相关的。但是线上正常情况不会这么简单，可能会有多个召回渠道，当前召回要经过粗排，最终进入到精排模型里面的数目是不确定的，所以如果离线指标recall@k从0～线上最大召回都是有提升的，那么就一定是正相关的，所以可以分区间多算几个看，比如recall@5，recall@10，recall@50，recall@100，recall@500。

3.2 NDCG@K

归一化折损累计增益（Normalization discounted cumulative gain）常用于排序任务，NDCG考虑到排序列表中每个item的评分大小。

「（1）CG@k」

CG（cumulative gain）累计增益，可用于评价基于评分的推荐系统，列表前项的计算过程如下：

这里的是用户对第个item的评分值。需注意的是CG的计算并没有考虑列表中item的顺序。

「（2）DCG@k」

DCG（discounted CG）折扣增益的计算引入了item顺序的因素，列表前项的计算过程如下：

不难发现，DCG结果的取值范围为全体非负实数，仅给出一个DCG的值无法判断推荐算法的效果。

「（3）NDCG@k」

NDCG将DCG的结果归一化到之间，且越接近于，算法的效果越好。NDCG的归一化系数是IDCG，即理想的完美DCG。IDCG计算的是按照用户评分从高到低排序的列表DCG值。

结果列表前项NDCG的计算过程如下：

4. 关于VAEs的若干问题思考

4.1 AutoEncoder、DAE和VAE之间的区别与联系？为什么会有VAE的出现？

由于AutoEncoder通过神经网络来学习每个样本的唯一抽象表示，这会带来一个问题：当神经网络的参数复杂到一定程度时AutoEncoder很容易存在过拟合的风险。为了缓解经典AutoEncoder容易过拟合的问题，在传统AutoEncoder输入层加入随机噪声来增强模型的鲁棒性，即降噪自动编码。相比于自编码器，VAE更倾向于数据生成。只要训练好了Decoder，我们就可以从某一个标准正态分布生成数据作为解码器Decoder的输入，来生成类似的、但不完全相同于训练数据的新数据，也许是我们从来没见过的数据，作用类似GAN。

4.2 VAE和GAN都是生成式模型，VAE与GAN的区别与联系？

这个问题，网上有很多答案，这里我给一个知乎的讨论帖子，里面有很多优秀的回答：

GAN 和 VAE 的本质区别是什么？为什么两者总是同时被提起？- 知乎 https://www.zhihu.com/question/317623081

4.3 VAEs的后验坍塌(Posterior Collapse)？GAN的模式坍塌(Mode Collapse)？

「（1）VAEs的后验坍塌(Posterior Collapse)？」

涉及两个网络的模型训练起来都不是很简单, GAN 如此，VAE 亦如此。VAE 容易出现一种被称为 posterior collapse 的问题，即完全学不出来。这个问题至今也没有完全被解决。有一个十分有意思的尝试是基于 normalizing flow (NF) 的，即是一个 NF 模型。由于 NF 能直接定义 density, 且表征能力至少比 Gaussian 好不少，因此基于 NF 的 VAE 效果会得到显著提升。

「（2）GAN的模式坍塌(Mode Collapse)？」

Mode collapse 是指 GAN 生成的样本单一，其认为满足某一分布的结果为 true，其他为 False。

4.4 VAEs为什么在推荐的召回侧效果好？

VAEs是生成式模型而不是Encode压缩，保证了信息的完整性，Latent Vector是一个分布，而不是固定的，使得隐含空间在相似样本上的差异更加平滑，从而提高模型的拟合能力，避免样本细微的变化带来的模型参数波动。

4.5 AUC是否能作为召回离线评估指标呢？

首先，AUC是代表模型的排序能力，因为在召回环节考虑所有推荐物品的顺序没有太大意义，所以不是一个好的评估指标。

其次，AUC高并不代表召回的好，因为我们往往采样的负样本都是easy的，这样召回模型的AUC一般都是偏高的（auc=0.8+/0.9+都是有可能的）。实际上好的召回可能AUC低一些，但是会召回出更符合真实分布的内容，实际工作中AUC当作参考就好。

最后，召回模型AUC高也引出另一个召回的问题，就是如何挖掘hard负样本，以提升模型对于边界样本的区分能力，挖掘出好的hard负样本，也能减缓召回模型AUC过高的问题。

4.6 AUC和线上优化指标正相关嘛？

不相关。我们先从AUC的计算说起，计算AUC需要知道每个item的label和score，score决定了最终出去的顺序，但是这里的顺序只是召回环节的顺序，而召回后面还有模型排序，甚至中间可能还有粗排，所以最终用户看到的排序是精排模型的打分，和召回的分可能没有关系，甚至可能是相反的。所以说AUC在这里意义不太大，「那么AUC是否可以作为一个参考指标呢？」

答案是依然意义不大，因为召回的目的是把用户可能会喜欢的召回出来，最终顺序反而不是重要的，因为这里的顺序决定不了什么。反而召回结果中那些能进入到排序，以及推荐出去那些用户点击了的更重要。「那么有没有可能AUC是可以作为参考的呢？」

当召回层模型和排序侧使用相同的模型的时候，有参考价值，比如万能的FM模型，假设召回和排序用相同的，那么召回侧的顺序和精排模型侧排序是一样的，这样AUC就和线上指标完全相关了，可以作为离线评估效果指标。

5. 总结自编码器在推荐场景上的应用

《AutoRec: Autoencoders Meet Collaborative Filtering》WWW 2015，较早采用自编码器进行推荐的论文。
《Deep Collaborative Filtering via Marginalized Denoising Auto-encoder》 CIKM 2015，这篇论文是矩阵分解的DAE解法。
《Variational Autoencoders for Collaborative Filtering》WWW2018，详细信息已在本篇文章进行了介绍，且该论文在工业界有落地应用。
《Collaborative Denoising Auto-Encoders for Top-N Recommender Systems》发表在 the ninth ACM international conference on web search and data mining 2016，本文的亮点是可以在输入层加入用户侧的side information，该论文也在工业界有落地应用。

6. Reference

【1】变分自编码器 (VAE) Overview - Zhifeng的文章 - 知乎 https://zhuanlan.zhihu.com/p/420419446
【2】BERT模型精讲 - Microstrong的文章 - 知乎 https://zhuanlan.zhihu.com/p/150681502
【3】用于协同过滤的变分自编码器论文引介 - 听歌的小孩的文章 - 知乎 https://zhuanlan.zhihu.com/p/60330303
【4】基于自编码器的推荐系统论文引介 - Richard Gaole的文章 - 知乎 https://zhuanlan.zhihu.com/p/36241871
【5】Comprehensive Introduction to Autoencoders，地址：https://towardsdatascience.com/generating-images-with-autoencoders-77fd3a8dd368
【6】变分自编码器VAE：原来是这么一回事 | 附开源代码 - PaperWeekly的文章 - 知乎 https://zhuanlan.zhihu.com/p/34998569
【7】召回离线评估指标问题记录，地址：http://yougth.top/2020/10/15/%E5%8F%AC%E5%9B%9E%E7%A6%BB%E7%BA%BF%E8%AF%84%E4%BC%B0%E6%8C%87%E6%A0%87/
【8】推荐算法评价指标 - Noah的文章 - 知乎 https://zhuanlan.zhihu.com/p/359528909
【9】《变分自动编码器在协同过滤中的使用》做推荐召回《Variational Autoencoders for Collaborative Filtering 》，地址：https://blog.csdn.net/xiewenbo/article/details/103724357
【10】论文解读:Variational Autoencoders for Collaborative Filtering.(WWW2018)，地址：https://blog.csdn.net/yfreedomliTHU/article/details/92093649

往期精彩回顾




适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑
AI基础下载黄海广老师《机器学习课程》视频课黄海广老师《机器学习课程》711页完整版课件

本站qq群554839127，加入微信群请扫码：

你可能感兴趣的:(神经网络,大数据,算法,python,计算机视觉)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin