数据拾光者

广告行业中那些趣事系列11：推荐系统领域必学的Graph Embedding

摘要：推荐系统领域最近大火的Graph Embedding可以很好的解决传统的Sequence Embedding无法解决现实世界中诸如社交关系等图结构的问题。本文重点讲解了Graph Embedding中具有代表性的DeepWalk、LINE、SDNE、Node2Vec和阿里的EGES等模型，希望对Graph Embedding感兴趣的小伙伴有所帮助。

01 为什么要学习Graph Embedding

02 对应到我们的业务场景

03 从DeepWalk到EGES的GraphEmbedding成长史

1. 打开Graph Embedding大门的DeepWalk

2. 微软的LINE

3. 第一个将深度学习模型引入图表示的SDNE

4. 斯坦福大学的Node2vec

5. Graph Embedding的最佳实践阿里的EGES

01 为什么要学习Graph Embedding

自从谷歌的Word2Vec引爆Embedding技术潮流，就有“万物皆可Embedding”之说。传统的Embedding比如Word2Vec通过句子等序列式的样本来学习文本的表征形式。而参考Word2Vec思想而生的Item2Vec则通过商品组合这种序列式去生成商品的Embedding。这种传统的Embedding称为“Sequence Embedding”。

现实世界中类似社交关系、搜索和购买行为、蛋白体结构、交通网络数据以及最近很火的知识图谱等都是一种图的表示关系，传统的基于序列的Embedding则显得无能为力。所以从2014年开始一些业内学者开始研究使用Embedding来表征图结构，这就是Graph Embedding技术的由来。

Graph Embedding的中心思想是找到一种映射函数将网络中的每个节点转换为低维度的潜在表示，也就是使用低维、稠密的向量来表示网络中的节点。Graph Embedding的一个输入和输出如下图所示：

图1 Graph Embedding的输入和输出表示

上图中我们输入的是一个图结构，输出则是将图中各个节点映射到二维空间的Embedding，通过计算节点间Embedding的距离长短可以获取物品之间的相似度关系。目前Graph Embedding技术已经应用于推荐系统、计算广告领域等，并且在实践后取得了不错的线上效果，所以值得我们学习。

02 对应到我们的业务场景

了解了Graph Embedding技术的由来，秉持着“技术最终的归宿都是服务于业务以及不落地的算法都是耍流氓”的业务为王的精神，我们来看看可以用Graph Embedding技术做什么。使用阿里论文中的一张用户购买商品行为序列的例子来说明：

图2 用户购买商品序列生成商品关系结构图

上图中左边是用户购买商品的顺序图，比如用户1先后购买了D、A、B三种商品。通过用户购买商品的顺序序列我们可以得到右边的商品关系有向图，可以看到一共有A到F六种商品。通过构建商品的图结构，使用Graph Embedding的方式更好的表征商品，我们可以更好的理解商品之间的关联，最终实现商品推荐的目的。

知乎使用Graph Embedding技术来构建用户Embedding的实践以及在知乎收藏夹数据中的应用。下图是可视化的方式表示知乎用户关系图：

图3 知乎用户关系图

说完别人的，再看看我们实际业务场景中可以用Graph Embedding技术做什么。之前说过我们标签组主要是给用户打上兴趣标签，其中很重要的一块是就是item打标，其实就是实现数据源分类。已知的是其他团队通过构建用户启动app顺序的图关系实现app的Embedding表征，从而实现app推荐及分类任务。不仅如此，还有其他大厂通过Graph Embedding技术应用于信息流推荐场景。

03 从DeepWalk到EGES的GraphEmbedding成长史

总的来说，Graph Embedding主要包含以下不同的分类以及对应的算法模型。GraphEmbedding算法全家桶如下图所示：

图4 Graph Embedding算法全家桶

从2014年至今，Graph Embedding技术飞速发展。下面选出其中具有代表性的模型进行详细分析：

1. 打开Graph Embedding大门的DeepWalk

可以说2014年提出的DeepWalk算法是打开Graph Embedding大门的先行者。DeepWalk算法的主要思想是在物品组成的图结构上随机游走生成大量的物品序列，然后把这些序列作为训练样本放到Word2Vec中进行训练，最终得到物品Embedding。总体来说是一种将图结构转换成序列，然后底层使用Word2Vec这种Sequence Embedding的方式。

图5 DeepWalk算法的四个步骤

DeepWalk算法整个流程如上图所示分成四个主要的步骤:

图a是用户购买商品的行为序列关系。比如用户1购买了D、A、B三种商品。这里需要说明的是存在一个时间域的概念，就是用户在一段时间内购买商品的顺序关系，比如用户2购买完B、E之后经过了一段时间接着买D、E、F，这里将时间分成了两个域，分别是BE和DEF
根据图a用户购买商品的行为序列关系得到图b这样的有向有权图
图c是使用随机游走的方式随机选择起始点重新生成物品序列
图d是把重新生成的物品序列作为训练样本放到Word2Vec中的Skip-Gram模型中去训练得到物品的Embedding向量

整个流程最重要的是第三步的使用随机游走的方式生成物品序列，下面进行详细说明。这里需要定义随机游走的跳转概率，也就是到达节点v_i后下一步遍历邻接节点v_j的概率。如果物品关系是一个有向有权图，那么节点v_i跳转到v_j的概率定义如下：

图6 节点v_i跳转到节点v_j的概率定义图

其中N+(v_i)是所有和v_i邻接的出边的集合，这里需要强调下出边，因为是有向图。如果是无向图则代表所有和v_i相邻的边的集合。M_ij是节点v_i到v_j边的权重。从公式中可以看出这个所谓的随机游走算法会倾向于向权重更大的节点靠近。

2. 微软的LINE

2014年DeepWalk打开Graph embedding的大门之后，2015年微软紧跟其后提出了LINE(Large-scale InformationNetwork Embedding)模型。LINE的核心思想是通过一阶相似度(First-order proximity)和二阶相似度(Second-orderproximity)明确定义了如何表征图中节点的相似度。通过下图说明一阶相似度和二阶相似度：

图7 LINE模型的一阶相似度和二阶相似度说明图

其中一阶相似度是用于描述图中节点之间的局部相似度，对应图中形式化的描述就是节点之间存在直接相连的边，比如上图中的节点6和7之间存在直接相连的边，所以1阶相似度较高；仅有一阶相似度还远远不够，比如节点5和6，虽然没有直接相连，但是因为有大量重合的边1-4，所以认为节点5和6也是相似的，二阶相似度则是用于描述这种关系。论文中还做了以下三点优化：首先一阶相似度和二阶相似度可以分开进行训练，可以根据实际的应用场景进行拼接使用；然后，使用边采样EdgeSample解决了因为权重范围过大导致学习率难以控制的问题；最后，考虑冷启动的问题，当一个节点边较少时通过2阶邻居也就是它的3阶点去处理二阶相似度。

相比于DeepWalk纯粹随机游走的序列生成方式，LINE可以应用于有向图、无向图以及有有向有权图，并通过将一阶和二阶的邻近关系引入目标函数，让节点最终学到的Embedding分布更为均衡平滑，避免了DeepWalk容易使node Embedding聚集的情况。

3. 第一个将深度学习模型引入图表示的SDNE

2016年清华国家实验室在KDD会议发表的论文提出了SDNE(Structural Deep NetworkEmbedding)模型。论文认为DeepWalk算法的缺点是缺乏明确的优化目标，虽然LINE模型通过一阶相似度和二阶相似度分别学习网络的局部信息和全局信息，但是通过简单的拼接两个向量并不是最优的方法。针对这个问题，SDNE模型基于LINE进行扩展，将深度学习引入Graph Embedding，使得模型具有更强的非线性表达能力。模型中还设计了一个同时扫描局部和全局网络信息的目标函数，利用半监督的方式去拟合模型。

SDNE模型将图的网络结构信息分成local和global，对应LINE模型中的一阶相似度和二阶相似度。SDNE模型使用非监督的AutoEncoder去计算二阶相似度，还原节点的上下文信息；同时使用监督的方式去计算一阶相似度，对应的监督样本是直接相连的节点。SDNE模型的网络结构如下图所示：

图8 SDNE模型网络结构图

上图中左边是一个自动编码器结构，输入是邻接矩阵，输出则是重构后的邻接矩阵。通过优化重构后邻接矩阵的损失函数可以保留节点的全局结构特性。图中绿色的y_i就是我们需要的Embedding向量，模型通过一阶损失函数拉近相邻接节点的Embedding向量距离，从而保留节点的局部结构特性。注意论文图中的Global和Local画反了。

4. 斯坦福大学的Node2vec

2016年斯坦福大学进一步改进DeepWalk算法并提出了Node2vec模型，模型的核心思想是使用深度优先搜索(Deepth-First Search)和广度优先搜索(Breadth-FirstSearch)替代随机游走权重，使得Graph Embedding的结果在同质性和结构性中进行权衡。通过下图说明DFS和BFS的区别：

图9 深度优先搜索(DFS)和广度优先搜索(BFS)示意图

上图中红色箭头表示BFS搜索，节点u会更倾向于搜索和它直接相连的节点S1、S2、S3，BFS更注重获取网络的结构性特征。因为在Node2vec模型中存在所谓的“返回概率”，也就是说u搜索到了S1，同时也有很大的概率从S1返回到u，所以最终的结果是u在自己邻接的节点来回震荡，相当于对u周围的网络结构进行了一次微观扫描，也就是论文中说的microscope view。因为这个微观扫描更容易得到微观结构的观察，所以BFS搜索更容易使Embedding结果反映网络的结构性。这里的结构性是一阶、二阶范围内的微观结构。

这里通过一个例子说明使用BFS搜索导致图中不同位置(这里的不同位置是指节点在图中是位于中心还是边缘)节点的Embedding差别很大。对比上图中的节点u和节点S9，其中u是局部网络的中心点，而S9是一个边缘节点。当网络采用BFS搜索策略进行随机游走时节点u因为处于局部网络的中心所以会被多次遍历到，而且会和直接相连的节点S1-S4等节点发生联系。但是边缘位置的节点S9无论从遍历次数还是邻接点的丰富程度上都不如u，所以最终的结果是节点u和节点S9两者的Embedding差异会非常大，从而一定程度上达到了区分物品的目的。

同理，上图中蓝色箭头表示DFS搜索，节点u会更倾向于搜索更远的节点S4、S5、S6，DFS更注重获取网络的同质性特征。这里的同质性是指在相对较广的范围内能发现一个类似社区聚集的具有本质区别的性质。如果要发现这种性质，肯定要通过DFS深度优先搜索的策略进行更广范围内的搜索。所以说DFS是对整个图进行了一次宏观扫描，也就是论文中说的macroscope view。因为只有在宏观的视角下才能发现社区的聚集性和集团内部节点的同质性。

关于网络的结构性和同质性在知乎上看到一个热评感觉比较有意思，放上来和大家一起欣赏下：周游了世界(DFS深度优先搜索)才知道中国人和外国人之间的本质的区别即同质性；周游了中国(BFS宽度优先搜索)才知道中国人之间的结构性，个体之间细小的差异。

说完同质性和结构性，那么在Node2vec算法中具体如何控制BFS和DFS的倾向性呢？主要通过节点间的跳转概率。下图展示了Node2vec算法从节点t跳转到v之后，在v节点跳转到周围节点的跳转概率：

图10 Node2Vec模型如何控制BFS和DFS的倾向性

论文中表示从节点v跳转到x_i的概率公式为：

图11 Node2Vec节点跳转概率公式

其中w_vx是节点v到x的权重，a_pq(t,x)的定义如下所示：

图12 Node2Vec倾向性参数p和q

其中d_tx控制a_pq(t,x)的值，代表节点t和x_i的距离。这里的节点t是节点v跳转之前的节点。参数p称为返回参数(returnparameter)，p越小，随机游走回节点t的可能性就更大，Node2vec就更加注重表达网络的结构性；参数q称为进出参数(in-out parameter)，控制节点v去往节点X2、X3的概率。节点t和X2、X3的距离是2(t->v->X2/X3)，所以q越小，随机游走到距离t节点更远的X2和X3的概率就越大，Node2vec就更加注重表达网络的同质性。节点X1是个比较特殊的存在，因为X1是节点t和节点v的公共邻居，和t的距离是1，所以设置为1。就这样通过设置p和q的权重我们可以控制随机游走的方式更倾向于DFS还是BFS。

下图是论文中证明Node2vec灵活表达同质性和结构性特点的节点可视化图。可以看出图中上部分通过BFS策略网络更加注重结构性，也就是节点相邻的点之间的Embedding比较相似，更注重微观结构microscope view；而图中下部分则通过DFS策略网络更加注重同质性，也就是中心或者边缘的节点之间的Embedding比较相似，更注重宏观结构macroscope view。

图13 Node2Vec模型结果可视化图

Node2vec这种网络的结构性和同质性在推荐系统中也是可以直观的解释的。结构性关注的节点是在系统中的相对位置，比如是在中心位置还是边缘位置，而不关心节点本身的特有的属性。这种类似每个品类的热门热销商品等容易有这样的特点。而同质性刚好相反，更多关注内容之间本身的相似性，比如同品类、同店铺、同价格区间等更容易表现同质性。对应于咱们实际业务中用于数据源打标场景，目的是对app进行区分，也就是数据源分类，更加注重的是app本身内容之间的相似性，所以使用同质性来进行区分可能更加合理。

实际业务场景中同质性和结构性这两种Embedding在推荐系统中都是非常重要的特征表达。正因为Node2vec具有很好的灵活性以及挖掘不同特征的能力，所以可以把不同Node2Vec生成的Embedding融合之后一起输入到后续的深度学习网络中，从而保留商品的不同特征信息。

5. Graph Embedding的最佳实践阿里的EGES

2018年阿里公布了在淘宝应用的Graph Embedding模型EGES(Enhanced GraphEmbedding with Side Information)，模型核心思想是在DeepWalk生成的Graph Embedding的基础上加入了补充信息side information。

之前说过DeepWalk算法会将用户购买商品的序列关系转换成商品图结构。但是对于那些新上架的商品因为缺少用户购买行为序列，所以无法构建商品图结构，归根结底其实就是冷启动的问题。针对这个问题阿里提出了利用相同属性、相同类别等相似性信息构建商品之间的边，从而生成基于内容的Knowledge Graph。

图14 Knowledge Graph表示图

通过这种Knowledge Graph生成的基于物品内容信息的向量可以称为补充信息(sideinformation)的Embedding 向量。多个不同的补充信息就会对应多个不同的side information Embedding向量。现在又面临新的问题，如何融合多个补充信息的Embedding向量从而形成物品最终的Embedding向量呢？阿里提出了在深度神经网络中加入average pooling层将不同的Embedding平均，并在每个Embedding加上了权重。如下图所示，对不同补充信息的Embedding向量分别赋予不同的权重a_0到a_n。

图中的隐藏表示层(HiddenRepresentation)就是对不同Embedding进行加权平均操作的神经网络层，将加权平均后的Embedding向量直接输入Softmax层，通过梯度下降的反向传播算法就可以得到每个Embedding向量的权重a_i。这里需要注意的是EGES模型采用了e^a_i来表示对应Embedding的权重a_i，目的是既可以避免权重为0，又可以在梯度下降的过程中使用e^a_i良好的数学性质。

图15 阿里的EGES模型的流程图

下图是论文中展示通过EGES模型实现冷启动商品的推荐效果图：

图16 EGES模型冷启动效果图

下图是论文中将EGES模型得到的商品的Embedding通过PCA降维能达到很好的聚类效果图：

图17 EGES模型输出Embedding用于聚类

总体来说阿里的EGES模型虽然没有复杂的理论创新，但是给出了一个结合多种Embedding的实用性极强的工程性的方法average pooling。通过这种方法可以有效解决因为部分Embedding缺失导致的冷启动问题，所以非常有借鉴价值。

总结

本篇首先讲了下由于传统的Sequence Embedding无法解决现实世界中诸如社交关系等图结构的问题，所以业内开始研究Graph embedding技术；然后讲了下阿里和知乎使用Graph Embedding技术应用于实际业务，同时我们也可以使用该技术来解决数据源分类和信息流场景下的广告推荐问题；最后分别讲了DeepWalk、LINE、SDNE、Node2Vec和阿里的EGES等具有代表性的Graph Embedding模型，为我们后面使用Graph Embedding技术打下了坚实的理论基础。

参考资料

[1] [DeepWalk] DeepWalk- Online Learning of SocialRepresentations (SBU 2014)

[2] [LINE] LINE - Large-scale Information NetworkEmbedding (MSRA 2015)

[3] [Node2vec] Node2vec - Scalable Feature Learningfor Networks (Stanford 2016) [4] [SDNE] Structural Deep Network Embedding (THU2016)

[5] [Alibaba Embedding] Billion-scale CommodityEmbedding for E-commerce Recommendation in Alibaba (Alibaba 2018)

最新最全的文章请关注我的微信公众号：数据拾光者。

AGI面临突破需要清除这两朵乌云：解码智能鸿沟的终极密码
1.物理学史的镜鉴：科学革命的预兆1900年英国物理学家开尔文勋爵宣称"物理学大厦已告完成"，却未料及那两朵"光速悖论"与"紫外灾难"的乌云，最终催生了相对论与量子力学。这段历史在AI领域重现：当算力呈指数级增长，模型参数突破万亿级，我们依然无法教会AI"水杯会掉落"的常识。这种历史重演揭示着深刻规律——任何科学体系的突破往往始于对既有范式的质疑。正如爱因斯坦推翻绝对时空观，当前AI研究需要重新审
语义分割模型的轻量化与准确率提升研究 pk_xz123456 仿真模型深度学习算法 transformer 深度学习人工智能算法数据结构
语义分割模型的轻量化与准确率提升研究1.引言语义分割是计算机视觉领域的核心任务之一，它要求模型为图像中的每个像素分配一个类别标签。随着深度学习的发展，语义分割模型在多个领域得到了广泛应用，如自动驾驶、医学影像分析、遥感图像解译等。然而，现有的语义分割模型往往面临两个主要挑战：模型复杂度高导致难以部署在资源受限的设备上，以及准确率仍有提升空间以满足实际应用需求。本文将从模型轻量化和准确率提升两个角度
基于小样本的高光谱图像分类任务：CMFSL方法及Python实现 pk_xz123456 仿真模型算法深度学习分类 python 人工智能深度学习机器学习
基于小样本的高光谱图像分类任务：CMFSL方法及Python实现1.引言高光谱图像分类是遥感图像处理领域的重要研究方向，它在农业监测、环境评估、军事侦察等领域有着广泛的应用。与传统RGB图像不同，高光谱图像包含数百个连续的光谱波段，能够提供丰富的光谱信息。然而，高光谱图像分类面临着维度灾难、样本获取困难等挑战，特别是在小样本条件下，传统分类方法往往表现不佳。针对这一问题，本文介绍一种基于小样本的高
ubuntu创建、删除虚拟环境 screenCui ubuntu linux
your_name是自己起的环境名字创建虚拟环境首先通过xshell等工具与服务器建立链接。然后进行以下两步：激活condasource~/.bashrc2.创建虚拟环境condacreate-nyour_namepython=3.7退出以及删除虚拟环境退出虚拟环境condadeactivate删除虚拟环境condaremove-nyour_name--all
python画图修改字体为新罗马字体
#设置字体为新罗马字体font={'family':'serif','serif':['TimesNewRoman'],'size':20,'style':'normal'}plt.rc('font',**font)plt.rc('axes',labelsize=20)如果跑出来不是新罗马字体，那是服务器没装新罗马字体的问题，切换环境到本地就可以了。（本地一般都有新罗马字体）
如何将联系人从 iPhone 转移到 realme？ Techlifehacks ios iphone ios
当您从iPhone换到Realme手机时，最重要的一步就是顺利地转移您的联系人。联系人是我们日常沟通的重要组成部分，丢失联系人会给我们带来极大的不便。幸运的是，现在有多种方法可以帮助您轻松地将联系人从iPhone转移到RealmeAndroid设备，而无需担心兼容性问题。本文将介绍几种实用方法，帮助您快速完成联系人迁移。第1部分。如何使用克隆手机将联系人从iPhone传输到realme（官方方式）
成像系统中的噪声：光子散粒噪声 YoungHong1992 计算机视觉图像信号处理
关键要点研究表明，传感器成像系统中的噪声主要来源于光子散粒噪声，这是光量子特性的结果。噪声形式为随机波动，遵循泊松分布，在图像中表现为颗粒感，尤其在低光条件下明显。证据显示，不同光照环境下的噪声表现不同，亮光条件下信号噪声比更高，相对噪声较小。噪声的产生在仅考虑光学成像、不考虑电流因素的情况下，传感器成像系统中的主要噪声来源是光子散粒噪声。这是由光的量子性质引起的，即光子到达传感器时数量的统计随机
python序列化任意结构到dict YoungHong1992 python 开发语言
defserialize(obj:Any)->Any:"""因为Param没有序列化的接口，无法直接转为dict或json，因此编写该函数,把Param转为dict"""ifisinstance(obj,np.ndarray):returnobj.tolist()#将numpy.ndarray转换为列表elifisinstance(obj,(int,float,str,bool)):#基本数据类型
微软智能语音平台赋能理想汽车：创新驱动，引领智能出行新体验
在新能源汽车与智能网联技术蓬勃发展的今天，汽车行业的创新已不再局限于动力系统与车身设计，智能化、人性化的交互体验正成为新的竞争焦点。作为中国造车新势力的佼佼者，理想汽车凭借其首款量产车型理想ONE，不仅在市场上取得了辉煌成绩，更通过与微软工业级智能语音平台的深度合作，重新定义了车载语音交互的标准，为全球汽车行业树立了智能化转型的典范。理想ONE：以家庭为核心，打造智能出行新标杆理想ONE作为理想汽
AI 的出现，是否能替代 IT 从业者？敲代码的苦13 人工智能
在科技浪潮奔涌向前的时代，AI正以惊人的速度渗透进各个领域，IT行业首当其冲。当AI编写代码的效率不断提升，当智能算法能够快速完成系统故障诊断，当自动化工具可以处理大量数据运维工作，IT从业者们不禁心生疑虑：AI真的会成为“职业终结者”，将自己从岗位上彻底替代吗？这场关于AI与IT从业者未来的讨论，充满了争议与悬念，也关乎着无数人的职业命运。一、AI在IT领域的应用现状编程开发中的AIAI在编程开
如何将应用程序从 iPhone 传输到Mac电脑 Coolmuster 苹果手机 iPhone iOS iphone macos ios
我们的设备常常需要同步以保持数据的一致性。对于iPhone用户来说，将应用程序和数据同步到Mac电脑上可以带来极大的便利，无论是为了备份、跨设备使用还是数据迁移。一、为什么需要将iPhone应用程序同步到Mac？在多种情况下，用户可能需要将iPhone上的应用程序同步到Mac上，例如：跨设备工作流程，需要在Mac上继续使用iPhone应用程序。备份应用程序及其数据，以防丢失。将iPhone上购买的
如何将 iPhone 同步到Mac？ Coolmuster iPhone iOS 苹果手机 iphone macos ios
想要将iPhone同步到Mac吗？Mac和iPhone是功能强大的Apple设备，允许用户存储文件。但只有当它们结合在一起时，你才能体验到苹果生态系统凝聚力的力量。你可以通过多种方式将iPhone连接到Mac，以实现无缝文件共享。阅读本指南，了解如何将iPhone与Mac同步并无缝共享文件。第1部分.如何通过专业工具将iPhone同步到Mac将iPhone同步到Mac最佳方法是使用专业软件Cool
如何将联系人从 iPhone 导入到Mac ？
如果您希望将联系人从iPhone无缝迁移到Mac，那么您应该选择经过验证的解决方案来确保过程顺利。将联系人从iPhone传输到Mac不仅需要一根USB数据线。面对现实，联系人信息极其宝贵，因此在转移过程中需要格外小心。如果您想掌握正确将联系人从iPhone导入到Mac的方法，请留意以下详细的实用信息。方法1：不使用iCloud/iTunes将iPhone中的联系人导入到Mac并非所有人都倾向于使用
Spring MVC 框架解析
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
Spring MVC深度解析
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
Spring Cloud服务治理精讲 Java廖志伟 Java场景面试宝典 Spring Cloud Service Governance Distributed Systems
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
领域设计关键技术解析 Java廖志伟 Java场景面试宝典
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
AIGC领域AI作画：在数字雕塑中的应用实践 AI原生应用开发 AI 原生应用开发 AIGC AI作画 ai
AIGC领域AI作画：在数字雕塑中的应用实践关键词：AIGC、AI作画、数字雕塑、生成对抗网络、3D建模、艺术创作、深度学习摘要：本文深入探讨了AIGC(人工智能生成内容)技术在数字雕塑领域的创新应用。我们将从技术原理、算法实现到实际案例，全面解析AI如何赋能传统数字雕塑创作流程。文章首先介绍AIGC在艺术创作中的背景和发展现状，然后详细讲解核心算法原理和数学模型，接着通过实际项目案例展示AI作画
WebView 页面在多语言环境中错位怎么办？国际化适配调试全过程 2501_91600747 http udp https websocket 网络安全网络协议 tcp/ip
移动应用全球化后，WebView页面往往需要同时适配多种语言和地区设置，包括英语、中文、阿拉伯语等。尤其是当用户使用RTL（Right-to-Left，阿拉伯语、希伯来语等）语言环境时，页面容易出现布局错乱、文字溢出或控件位置异常。这类问题并不会在本地开发环境或英文/中文设置下暴露，常常等到国际用户反馈后才暴露。本文分享一次我们为多语言环境适配进行调试和修复的完整过程。背景：国际化上线后阿拉伯语用
【C语言】学习过程教训与经验杂谈：思想准备、知识回顾（五）
个人主页：艾莉丝努力练剑❄专栏传送门：《C语言》、《数据结构与算法》、C语言刷题12天IO强训、LeetCode代码强化刷题学习方向：C/C++方向⭐️人生格言：为天地立心，为生民立命，为往圣继绝学，为万世开太平前言：我们在学习过程中会碰到很多很多问题，本系列文章不会博主不会额外再创建一个新的专栏来收录，因为这一系列文章创作的初心主要是针对回顾知识点（遵循遗忘曲线并且根据自身的实际情况可以做出一些
Python爬虫实战：使用Scrapy和Selenium高效爬取USPTO美国专利数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫 scrapy 开发语言 selenium 测试工具
引言在当今的知识经济时代，专利数据蕴含着巨大的商业和技术价值。美国专利商标局(USPTO)作为全球最大的专利数据库之一，收录了数百万项专利信息，这些数据对于企业竞争分析、技术趋势预测和学术研究都具有重要意义。本文将详细介绍如何使用Python构建一个高效、稳定的USPTO专利数据爬虫系统。一、USPTO专利数据库概述1.1USPTO数据库结构USPTO提供了多种访问专利数据的途径：专利全文和图像数
Python爬虫实战：爬取百度学术摘要信息全流程详解与代码示例 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy 学习 dubbo 百度
1.前言随着学术资源数字化的普及，百度学术成为学者们常用的论文搜索平台。获取大量论文摘要信息对于文献综述、知识图谱构建等研究极为重要。本文将系统讲解如何利用Python编写爬虫，批量抓取百度学术上的论文摘要。我们将结合最新Python爬虫技术，涵盖基础同步爬虫、异步爬虫、多线程，全面实战演示。2.项目背景与目标百度学术支持通过关键词搜索论文，展示论文标题、作者、期刊、摘要等信息。目标是：根据关键词
Python爬虫实战：爬取网易云音乐热评的完整教程 Python爬虫项目 python 爬虫开发语言能源 selenium
1.背景介绍：为什么爬网易云音乐热评？网易云音乐是中国最受欢迎的音乐平台之一，其用户活跃度极高。评论区往往蕴含丰富的情感表达和用户反馈，是音乐数据分析、情感分析、推荐算法等领域的宝贵数据源。爬取热评可以用于：歌曲口碑分析用户情绪挖掘热门歌曲趋势追踪机器学习训练数据准备但网易云音乐对评论接口进行了加密，直接请求很难成功。本文将帮你攻克这一难点。2.网易云音乐热评接口分析我们首先用浏览器开发者工具（C
macOS运行python程序遇libiomp5.dylib库冲突错误解决方案 screenCui macos python 开发语言
用途说明在macOS系统运行某些涉及OpenMP或多线程的Python程序（如PyTorch、NumPy等科学计算库）时，可能会出现libiomp5.dylib库冲突的错误。设置os.environ['KMP_DUPLICATE_LIB_OK']='True'允许系统加载重复的动态链接库，临时解决冲突问题。典型错误场景错误信息通常包含以下内容：OMP:Error#15:Initializingli
如何在 Android Framework层面控制高通（Qualcomm）芯片的 CPU 和 GPU。 YoungHong1992 android 高通芯片 CPU GPU
如何在AndroidFramework层面控制高通（Qualcomm）芯片的CPU和GPU。参考：https://blog.csdn.net/YoungHong1992/article/details/117047839?utm_source%20=%20uc_fansmsg作为一名Framework开发者，您拥有系统级的权限，可以直接与底层硬件接口交互。但这通常不被推荐，因为现代Android系
iOS 性能测试工具全流程：主流工具实战对比与适用场景 2501_91600747 http udp https websocket 网络安全 tcp/ip
在iOS开发中，性能优化往往被安排到开发后期，甚至上线前才临时补救。但性能瓶颈通常是架构设计、资源加载、动画机制等多方面共同作用的结果，仅凭肉眼感知和log输出，难以精准定位。一套合适的性能测试工具组合，不仅能帮助开发者在早期识别潜在问题，还能在迭代阶段快速验证改动效果。本文从实战角度出发，汇总市面上主流的iOS性能测试工具，分析它们各自适用的场景与边界，为开发者构建适合自身项目的调试方案提供参考
iPhone 抓包工具有哪些？多工具对比分析优缺点 2501_91591841 http udp https websocket 网络安全网络协议 tcp/ip
iOS平台一向以安全性著称，这也使得对其进行网络调试和抓包变得异常困难。相比安卓，iPhone抓包难点主要在以下几点：系统限制代理设置的灵活性无法自由安装根证书抓包常涉及HTTPS解密与双向认证破解普通用户设备无root或越狱权限因此，选择一款合适的iPhone抓包工具成为开发和测试流程中至关重要的一环。本文整理了当前主流的iOS抓包工具，分别从功能范围、使用难度、兼容性和适用场景进行横向对比，希
Python项目如何读取nacos配置 Tizzy JJ 服务器 python pycharm
目录一、nacos配置示例二、python读取nacos配置一、nacos配置示例在Nacos中创建yaml格式配置（DataID:your-data-id）#Nacos配置文件(your-data-id.yaml)app:env:productionversion:1.2.3apis:deepseek:api_key:"sk-your-deepseek-key-here"timeout:30da
PDF转换工具，即开即用晋人在秦老K pdf windows 工具格式转换
在办公室里，这句话被反复验证。每天面对成堆的Word和Excel文件，将它们转换成PDF格式是常有的事。可之前用过的工具，不是一次只能转一个，就是操作繁琐得让人头疼。记得有次赶项目，需要把二十多个文档转成PDF，我盯着屏幕一个个处理，手指点得发酸，好不容易弄完，还因为操作失误弄错了两个，差点耽误了提交时间。从那以后，我就一直在找一款能批量转换的工具，直到遇见了它，才算真正解脱。小巧却强大的存在第一
JVM内存区域划分需要重新演唱 jvm
JVM内存区域划分1.JVM内存区域概述JVM的内存区域主要分为以下几个部分：程序计数器（ProgramCounterRegister）Java虚拟机栈（JavaVirtualMachineStacks）本地方法栈（NativeMethodStacks）堆（Heap）方法区（MethodArea）运行时常量池（RuntimeConstantPool）直接内存（DirectMemory）每个区域都有
开发者关心的那些事圣子足道 ios 游戏编程 apple 支付
我要在app里添加IAP，必须要注册自己的产品标识符（product identifiers）。产品标识符是什么？产品标识符（Product Identifiers）是一串字符串，它用来识别你在应用内贩卖的每件商品。App Store用产品标识符来检索产品信息，标识符只能包含大小写字母（A-Z）、数字（0-9）、下划线（-）、以及圆点(.)。你可以任意排列这些元素，但我们建议你创建标识符时使用
负载均衡器技术Nginx和F5的优缺点对比 bijian1013 nginx F5
对于数据流量过大的网络中，往往单一设备无法承担，需要多台设备进行数据分流，而负载均衡器就是用来将数据分流到多台设备的一个转发器。目前有许多不同的负载均衡技术用以满足不同的应用需求，如软/硬件负载均衡、本地/全局负载均衡、更高
LeetCode[Math] - #9 Palindrome Number Cwind java Algorithm 题解 LeetCode Math
原题链接：#9 Palindrome Number 要求：判断一个整数是否是回文数，不要使用额外的存储空间难度：简单分析：题目限制不允许使用额外的存储空间应指不允许使用O(n)的内存空间，O(1)的内存用于存储中间结果是可以接受的。于是考虑将该整型数反转，然后与原数字进行比较。注：没有看到有关负数是否可以是回文数的明确结论，例如
画图板的基本实现 15700786134 画图板
要实现画图板的基本功能，除了在qq登陆界面中用到的组件和方法外，还需要添加鼠标监听器，和接口实现。首先，需要显示一个JFrame界面： public class DrameFrame extends JFrame { //显示
linux的ps命令被触发 linux
Linux中的ps命令是Process Status的缩写。ps命令用来列出系统中当前运行的那些进程。ps命令列出的是当前那些进程的快照，就是执行ps命令的那个时刻的那些进程，如果想要动态的显示进程信息，就可以使用top命令。要对进程进行监测和控制，首先必须要了解当前进程的情况，也就是需要查看当前进程，而 ps 命令就是最基本同时也是非常强大的进程查看命令。使用该命令可以确定有哪些进程正在运行
Android 音乐播放器下一曲连续跳几首歌肆无忌惮_ android
最近在写安卓音乐播放器的时候遇到个问题。在MediaPlayer播放结束时会回调 player.setOnCompletionListener(new OnCompletionListener() { @Override public void onCompletion(MediaPlayer mp) { mp.reset(); Log.i("H
java导出txt文件的例子知了ing java servlet
代码很简单就一个servlet,如下： package com.eastcom.servlet; import java.io.BufferedOutputStream; import java.io.IOException; import java.net.URLEncoder; import java.sql.Connection; import java.sql.Resu
Scala stack试玩, 提高第三方依赖下载速度矮蛋蛋 scala sbt
原文地址： http://segmentfault.com/a/1190000002894524 sbt下载速度实在是惨不忍睹, 需要做些配置优化下载typesafe离线包, 保存为ivy本地库 wget http://downloads.typesafe.com/typesafe-activator/1.3.4/typesafe-activator-1.3.4.zip 解压r
phantomjs安装(linux，附带环境变量设置) ，以及casperjs安装。 alleni123 linux spider
1. 首先从官网 http://phantomjs.org/下载phantomjs压缩包，解压缩到/root/phantomjs文件夹。 2. 安装依赖 sudo yum install fontconfig freetype libfreetype.so.6 libfontconfig.so.1 libstdc++.so.6 3. 配置环境变量 vi /etc/profil
JAVA IO FileInputStream和FileOutputStream，字节流的打包输出百合不是茶 java核心思想 JAVA IO操作字节流
在程序设计语言中，数据的保存是基本，如果某程序语言不能保存数据那么该语言是不可能存在的，JAVA是当今最流行的面向对象设计语言之一，在保存数据中也有自己独特的一面，字节流和字符流 1，字节流是由字节构成的，字符流是由字符构成的字节流和字符流都是继承的InputStream和OutPutStream ,java中两种最基本的就是字节流和字符流类 FileInputStream
Spring基础实例（依赖注入和控制反转） bijian1013 spring
前提条件：在http://www.springsource.org/download网站上下载Spring框架，并将spring.jar、log4j-1.2.15.jar、commons-logging.jar加载至工程1.武器接口 package com.bijian.spring.base3; public interface Weapon { void kil
HR看重的十大技能 bijian1013 提升能力 HR 成长
一个人掌握何种技能取决于他的兴趣、能力和聪明程度，也取决于他所能支配的资源以及制定的事业目标，拥有过硬技能的人有更多的工作机会。但是，由于经济发展前景不确定，掌握对你的事业有所帮助的技能显得尤为重要。以下是最受雇主欢迎的十种技能。　　一、解决问题的能力　　每天，我们都要在生活和工作中解决一些综合性的问题。那些能够发现问题、解决问题并迅速作出有效决
【Thrift一】Thrift编译安装 bit1129 thrift
什么是Thrift The Apache Thrift software framework, for scalable cross-language services development, combines a software stack with a code generation engine to build services that work efficiently and s
【Avro三】Hadoop MapReduce读写Avro文件 bit1129 mapreduce
Avro是Doug Cutting(此人绝对是神一般的存在）牵头开发的。开发之初就是围绕着完善Hadoop生态系统的数据处理而开展的（使用Avro作为Hadoop MapReduce需要处理数据序列化和反序列化的场景）,因此Hadoop MapReduce集成Avro也就是自然而然的事情。这个例子是一个简单的Hadoop MapReduce读取Avro格式的源文件进行计数统计，然后将计算结果
nginx定制500，502，503，504页面 ronin47 nginx　错误显示
server { listen 80; error_page 500/500.html; error_page 502/502.html; error_page 503/503.html; error_page 504/504.html; location /test {return502;}} 配置很简单，和配
java-1.二叉查找树转为双向链表 bylijinnan 二叉查找树
import java.util.ArrayList; import java.util.List; public class BSTreeToLinkedList { /* 把二元查找树转变成排序的双向链表题目：输入一棵二元查找树，将该二元查找树转换成一个排序的双向链表。要求不能创建任何新的结点，只调整指针的指向。 10 / \ 6 14 / \
Netty源码学习-HTTP-tunnel bylijinnan java netty
Netty关于HTTP tunnel的说明： http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/socket/http/package-summary.html#package_description 这个说明有点太简略了一个完整的例子在这里： https://github.com/bylijinnan
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别 coder_xpf jquery json map val()
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别数据库查询出来的map有一个字段为空通过System.out.println()输出 JSONUtil.serialize(map)： {"one":"1","two":"nul
Hibernate缓存总结 cuishikuan 开源 ssh javaweb hibernate缓存三大框架
一、为什么要用Hibernate缓存？ Hibernate是一个持久层框架，经常访问物理数据库。为了降低应用程序对物理数据源访问的频次，从而提高应用程序的运行性能。缓存内的数据是对物理数据源中的数据的复制，应用程序在运行时从缓存读写数据，在特定的时刻或事件会同步缓存和物理数据源的数据。二、Hibernate缓存原理是怎样的？ Hibernate缓存包括两大类：Hib
CentOs6 dalan_123 centos
首先su - 切换到root下面1、首先要先安装GCC GCC-C++ Openssl等以来模块：yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel2、再安装ncurses模块yum -y install ncurses-develyum install ncurses-devel3、下载Erang
10款用 jquery 实现滚动条至页面底端自动加载数据效果 dcj3sjt126com JavaScript
无限滚动自动翻页可以说是web2.0时代的一项堪称伟大的技术，它让我们在浏览页面的时候只需要把滚动条拉到网页底部就能自动显示下一页的结果，改变了一直以来只能通过点击下一页来翻页这种常规做法。无限滚动自动翻页技术的鼻祖是微博的先驱：推特(twitter)，后来必应图片搜索、谷歌图片搜索、google reader、箱包批发网等纷纷抄袭了这一项技术，于是靠滚动浏览器滚动条
ImageButton去边框&Button或者ImageButton的背景透明 dcj3sjt126com imagebutton
在ImageButton中载入图片后，很多人会觉得有图片周围的白边会影响到美观，其实解决这个问题有两种方法一种方法是将ImageButton的背景改为所需要的图片。如：android:background="@drawable/XXX" 第二种方法就是将ImageButton背景改为透明，这个方法更常用在XML里； <ImageBut
JSP之c:foreach eksliang jsp forearch
原文出自：http://www.cnblogs.com/draem0507/archive/2012/09/24/2699745.html <c:forEach>标签用于通用数据循环，它有以下属性属性描述是否必须缺省值 items 进行循环的项目否无 begin 开始条件否 0 end 结束条件否集合中的最后一个项目 step 步长否 1
Android实现主动连接蓝牙耳机 gqdy365 android
在Android程序中可以实现自动扫描蓝牙、配对蓝牙、建立数据通道。蓝牙分不同类型，这篇文字只讨论如何与蓝牙耳机连接。大致可以分三步：一、扫描蓝牙设备： 1、注册并监听广播： BluetoothAdapter.ACTION_DISCOVERY_STARTED BluetoothDevice.ACTION_FOUND BluetoothAdapter.ACTION_DIS
android学习轨迹之四：org.json.JSONException: No value for hyz301 json
org.json.JSONException: No value for items 在JSON解析中会遇到一种错误，很常见的错误 06-21 12:19:08.714 2098-2127/com.jikexueyuan.secret I/System.out﹕ Result:{"status":1,"page":1,&
干货分享：从零开始学编程系列汇总 justjavac 编程
程序员总爱重新发明轮子，于是做了要给轮子汇总。从零开始写个编译器吧系列 (知乎专栏) 从零开始写一个简单的操作系统 (伯乐在线) 从零开始写JavaScript框架 (图灵社区) 从零开始写jQuery框架 (蓝色理想 ) 从零开始nodejs系列文章 (粉丝日志) 从零开始编写网络游戏
jquery-autocomplete 使用手册 macroli jquery Ajax 脚本
jquery-autocomplete学习一、用前必备官方网站：http://bassistance.de/jquery-plugins/jquery-plugin-autocomplete/ 当前版本：1.1 需要JQuery版本：1.2.6 二、使用 <script src="./jquery-1.3.2.js" type="text/ja
PLSQL-Developer或者Navicat等工具连接远程oracle数据库的详细配置以及数据库编码的修改超声波 oracle plsql
　　在服务器上将Oracle安装好之后接下来要做的就是通过本地机器来远程连接服务器端的oracle数据库，常用的客户端连接工具就是PLSQL-Developer或者Navicat这些工具了。刚开始也是各种报错，什么TNS:no listener;TNS:lost connection;TNS:target hosts...花了一天的时间终于让PLSQL-Developer和Navicat等这些客户
数据仓库数据模型之：极限存储--历史拉链表 superlxw1234 极限存储数据仓库数据模型拉链历史表
在数据仓库的数据模型设计过程中，经常会遇到这样的需求： 1. 数据量比较大; 2. 表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查看某一个用户在过去某一段时间内，更新过几次等等; 4. 变化的比例和频率不是很大，比如，总共有10
10点睛Spring MVC4.1-全局异常处理 wiselyman spring mvc
10.1 全局异常处理使用@ControllerAdvice注解来实现全局异常处理; 使用@ControllerAdvice的属性缩小处理范围 10.2 演示演示控制器 package com.wisely.web; import org.springframework.stereotype.Controller; import org.spring

广告行业中那些趣事系列11：推荐系统领域必学的Graph Embedding

你可能感兴趣的:(广告行业中那些趣事系列11：推荐系统领域必学的Graph Embedding)