猫耳呀

从手淘搜索到优酷短视频，阿里巴巴是如何在搜索推荐领域下应用深度学习的？

 
   摘要： 
   深度学习是一个既可以处理特征、学习特征又可以实现最后的排序打分的一套整体解决方案，借助深度学习的解决方案，搜索推荐的工作方式将发生巨大的变化。想知道阿里巴巴如何将在搜索推荐领域下应用深度学习技术的吗？想知道手淘和优酷搜索结果的个性化又是如何实现的吗？本文不容错过！

 
   本节视频地址： 
   http://click.aliyun.com/m/48161/

 
   PDF下载： 
   http://click.aliyun.com/m/49207/

 
   演讲嘉宾简介： 
  

 
   孙修宇(花名：翎翀) 
   ，阿里巴巴机器智能技术实验室算法专家，工学硕士，2014年加入阿里巴巴，一直从事深度学习基础技术研究以及在各个行业的应用。

 
   以下内容根据演讲嘉宾视频分享以及PPT整理而成。 
  

 
   本文主要围绕以下几个方面进行分享： 
  

为什么使用深度学习技术
手淘主搜索场景
手淘详情页推荐场景
优酷搜索场景

 
   在本文中，首先将分享阿里巴巴为什么在搜索推荐里使用深度学习技术，并将以3个场景为例介绍深度学习相关的技术是如何被应用到搜索和推荐的场景里面的，这里所选取的3个场景分别是手淘主搜索场景、手淘详情页推荐场景以及优酷搜索场景，这些都是比较具有代表性的场景。 
  

 
   一、为什么使用深度学习技术 
  

 
   阿里巴巴为什么在搜索推荐里采用深度学习技术呢？正如大家所知，传统的搜索推荐任务相当于要针对商品、用户以及一些如检索词等的其他背景信息进行特征工程，其中包括了统计类的特征、ID类的特征以及各种各样其他的人工交叉类的特征等。之后将这些人工设计好的特征输入到一个像LR或者XGBOOST等的机器学习的工具中去，通过人工设计特征、点击或者用户行为的日志，再加上机器学习的工具三者结合起来，可以获得一个针对搜索或者推荐的特定领域的排序模型。 
  

从手淘搜索到优酷短视频，阿里巴巴是如何在搜索推荐领域下应用深度学习的？_第1张图片

 
   在具备了深度学习的解决方案之后，整体的工作方式就会发生改变。正如大家所了解到的，深度学习这套方案最早是应用于图像领域的，这套方案一个很大的优点就是可以直接学习出来一些人工设计的特征，或者可以根据之前的样本学习出其认为更加有价值的特征，这个特征可以代替人工设计的特征，这也就是深度学习所具有的特征抽取能力。同时，在分类的时候，深度学习的拟合能力也非常强，其拟合能力比XGBOOST、DBDT以及LR等方案更加优秀，所以深度学习是一个既可以处理特征、学习特征又可以实现最后的排序打分的一套整体的解决方案，以上这些也是阿里巴巴在搜索推荐里采用深度学习方案的原因。 
  

 
   二、赋能电商-手淘主搜索场景 
  

 
   在手机淘宝（以下简称手淘）的主搜索场景下，设计了一套End2End的训练框架，针对最原始的行为数据，比如点击、购买以及用户的历史行为自动地学习特征，并使得模型最终可以对于用户、商品以及检索词更好地进行描述，从而提升最终业务指标（GMV）。 
  

从手淘搜索到优酷短视频，阿里巴巴是如何在搜索推荐领域下应用深度学习的？_第2张图片

 
   模型结构 
  

 
   如下图所示的是手淘中设计好的模型结构。在模型中将检索里面的各种信息分成了3个主要的领域：用户表达域、商品表达域以及检索词表达域。与传统方案不同的是在这个模型中并没有采用一些统计类的特征，而只是使用了用户、商品以及检索词这样ID类的特征，就像传统One-Hot的表达方式。这里的ID类特征覆盖了1亿多商品、2亿多用户以及5百多万个常用的query。 
  

从手淘搜索到优酷短视频，阿里巴巴是如何在搜索推荐领域下应用深度学习的？_第3张图片

 
   上图中虚线框表示的是embedding的过程，不同域下的信息通过一个三层的全连接网络会被embedding到一个低维的连续空间里面去，这里有所不同的就是第一层并不是全连接层，而是稀疏的全连接层，这样的设计更多地考虑到了计算的效率。三个领域内的ID都被映射到一个低维空间后，采用一个Concat层将这些信息整合到一起，之后又经过一个三层的全连接网络，而最终的学习目标就是前面所提到的点击、转化以及购买等行为。通过这样的模型结构就可以End2End地去获得搜索中排序的解决方案。 
  

 
   商品编码 
  

 
   前面也提到过最初手淘采用的是One-Hot的特征表达来表示商品、用户以及检索词，这样的方式会存在商品以及用户的维度特别高的问题，相当于维度会多于1亿，对于如此之高的维度直接使用One-Hot来进行表达就会占用大量的资源，所以手淘在主搜索里面就采用了随机编码的方式将N维的One-Hot的表达降低成N/20维这样更低维度的编码表达。 
  

从手淘搜索到优酷短视频，阿里巴巴是如何在搜索推荐领域下应用深度学习的？_第4张图片

 
   这里所采用的非常简单但是非常有效的方法就是做一个映射，可以假设N维的One-Hot的表达中的6个红色的点就表达6个唯一的值，而黑色的点表示为0值，用这6个不同的点来表达左侧的第一位，而下面的这个对应的One-Hot对应的是右边6个红色点的表达。这里做了一个限制，限制的原则就是不同的表达之间的重复的位最多只能达到3个，通过这样的限制方法就强行地将One-Hot映射到了一个低维的空间中去。这样既能保证多个点来表达编码，也保证点与点之间或者不同表达之间的差异性足够大，从而实现对于One-Hot编码进行压缩。而挂靠编码和分词编码则是在此基础之上的两种改进方式，比如挂靠编码就是对于一些热门商品而言，其行为是比较丰富的，这个时候就认为热门商品有自己唯一的表达，而对于冷门的商品而言，则认为其行为会比较稀疏，可以使用一些类似于哈希的方法将被认为可能会存在关系的商品用相近的方式进行表达。分词编码与挂靠编码的意思类似，只不过在前面的随机编码方式的基础之上引入了一些人工设计出来的编码方式，比如对于query中的“红色”以及“连衣裙”都会有一个特别的表达，而对于分不清的部分则可以使用一个特别的编码进行表达。 
  

 
   稀疏编码层 
  

从手淘搜索到优酷短视频，阿里巴巴是如何在搜索推荐领域下应用深度学习的？_第5张图片

 
   正如前面所提到的，稀疏编码层的具体实现就是稀疏的全连接层。其主要的目的就是减少计算量。一方面可以将原本稠密的矩阵乘法改成了稀疏的矩阵乘法，计算量会大大降低，计算效率也将大大提升，与此同时还解决了内存的使用问题，将原本可能需要多机多卡才能解决的问题简化成为单机单卡就可以解决的问题，提升了训练的效率。 
  

 
   多任务学习 
  

 
   在手淘搜索推荐中采用了多任务学习的方法来学习最终排序的分数。 
  

从手淘搜索到优酷短视频，阿里巴巴是如何在搜索推荐领域下应用深度学习的？_第6张图片

 
   在传统的检索排序里面的实现方案通常分为两到三步，第一步一般是一个召回的过程，也就是根据检索词选取出来与当前检索词相关的商品的信息，将这些与检索词相关的商品做成候选商品池，在这些池中再一层一层地实现。首先，需要根据商品本身的一些历史统计信息或者打分等其他信息对于池中的商品再进行一次排序，之后进一步取出商品的信息。这样就会实现数据量从上亿到百万量级，再到万量级的转变过程。最后还会进行精排的过程，此时为了更好地提升转化率会将用户的个性化信息加入进来构成排序模型。这里将商品数据量从百万到万的级别叫做海选，这部分可能只是与商品相关的，把这部分的训练以及后面排序的训练同时去做，这就相当于一方面在训练用户自己表达的同时对于商品进行打分，学习出商品的好坏的表达方式。通过这两个任务的学习同时获得了两个分数，即海选部分的分数以及精排部分的分数，通过排序这两个部分的同时作用将会更好地增加排序所得结果的多样性，进而通过多样性来提升最终转化的目标。 
  

 
   多模态和在线学习 
  

从手淘搜索到优酷短视频，阿里巴巴是如何在搜索推荐领域下应用深度学习的？_第7张图片

 
   在实现手淘主搜索场景业务的同时还引入了多模态和在线学习，这两个技术更多地是为了应对淘宝的大促场景。众所周知，“双11”就是一个非常典型的大促场景，用户在那天的行为非常丰富，不同的推销或者促销的商品以及行为也都是多种多样的，这时候淘宝所采用的方案就是使用深度学习的技术将用户、商品以及检索词等之间长期稳定的关系学习出来，同时再引入一些连续类的特征以及ID类或者交叉类这些传统的人工设计的特征，此外还引入一些商品的实时表达的特征，将这两部分特征融合到一起，之后通过在线学习的机制来学习最后的三层全连接，或者只去学习最后一层的LR来实现既可以考虑到商品以及用户稳定的偏好，也能够同时考虑到用户在当时的大促场景下的偏好的结果。通过深度学习所获得的特征与人工设计的特征这两部分的融合，淘宝的推荐在“双11”等大促场景中取得了非常不错的效果提升。 
  

 
   三、赋能电商-详情页看了又看 
  

 
   前面为大家分享了在搜索领域下常用的深度学习技术以及所获得的效果提升，接下来为大家分享推荐的场景。推荐场景与搜索场景既有相似之处，也有不同之处。在搜索场景下，候选商品是与当前的检索词相关的，而在推荐场景下，则需要猜测哪些商品会与用户之前的历史行为相关，比如在下图所展示的详情页的场景下，所推荐的商品也会是与其详情页相关的，比如在召回的过程中对于候选的商品究竟应该如何选择，在搜索和推荐场景下会具有一定差异性，并且在最后的排序过程中，搜索和推荐场景下所完成的任务则是比较类似的，这也是认为可以使用一套类似的方案来解决两个场景的问题的原因。 
  

从手淘搜索到优酷短视频，阿里巴巴是如何在搜索推荐领域下应用深度学习的？_第8张图片

 
   对于详情页的推荐场景的设计方式是给定一个主宝贝，根据这个宝贝来推荐当前同一个店铺中的其他商品。在这个场景下非常有意思的一点就是行为往往非常丰富，因为一方面用户每天浏览过的商品可能会有上亿或者上十亿个，另一方面与商品相关的其他商品的关系却是非常稀疏的，虽然用户每天都会看到很多商品，但是商品之间发生了有效行为的情况却是非常少的，并且非常不均衡，这就使得直接训练可能会造成不均衡，而整个模型由于数据的分布以及用户行为的稀疏度，所训练出来的效果也不会特别好。 
  

 
   迁移学习 
  

 
   面对以上所提到的问题，手淘在详情页推荐中就采取了一个新的思路：迁移学习。首先，利用了淘宝中与用户历史行为相关的全量数据，其中包括了搜索、推荐以及广告等数据，对于这些数据进行统一的处理，然后使用上述在搜索场景中所提到的模型结构去训练深度学习模型，并学习用户和商品之间的特征。这里为了统一地进行处理，就将搜索场景中的query或者检索词相关的域与推荐场景中的信息，比如详情页中的主商品信息都统一地去除掉，只去考虑用户点击过或者购买过的商品之间的关系，通过深度学习的方案可以学习出用户和商品的特征表达。 
  

从手淘搜索到优酷短视频，阿里巴巴是如何在搜索推荐领域下应用深度学习的？_第9张图片

 
   前面也曾提到，深度学习技术之所以有效的很重要的一个原因就是其可以自己学习出来针对于原始输入的特征表达，也就是可以学习出当前目标下的更好的特征表达。而使用迁移学习的方案，就能够得到稳定的、鲁棒的用户与商品的特征表达，将这个特征直接作为商品和用户的表达，同时与当前业务也就是商品详情页推荐业务下的日志相结合，之后使用类似于传统的机器学习的方法，比如可以将传统机器学习方法中的LR、GBDT通过DL进行实现，通过这两部分的结合形成的迁移学习方案得到了很好的效果提升。同时，采用这样的方法可以保证所学习出来的仅具有少量数据或者数据比较稀疏的场景下也能获得稳定的转化以及点击率的提升。 
  

 
   四、新场景探索-优酷短视频搜索 
  

 
   接下来以优酷短视频搜索为例为大家分享阿里巴巴在新场景下应用深度学习的探索。前面所提到的搜索、推荐以及个性化基本都是在电商领域下，现在也将其推广到了优酷的短视频搜索场景下。 
  

从手淘搜索到优酷短视频，阿里巴巴是如何在搜索推荐领域下应用深度学习的？_第10张图片

 
   短视频的搜索与传统的电视剧的搜索不完全一样，一方面短视频的搜索需要考虑到检索词与短视频之间的相关性，另一方面还需要考虑短视频的真正质量，所以这里也存在转化的概念。在短视频搜素场景下需要对之前的整体模型方案进行改进，所做的改进主要可以分为三点：首先，之前的检索方案只有在最后的几万个或者几千个商品的重排过程中才会引入个性化的信息，而在短视频搜索场景下的模型中则是将个性化前移到召回的部分，同时与最终的排序模型进行了统一；其次就是多模态信息的使用，视频检索需要考虑到相关性，相关性最简单的是文本与文本之间的相关性，但是对于短视频而言，最终需要搜索到的是视频内容，所以一方面采用了文本信息，另一方面采用了视频以及图像信息来进行表达，而对于这些不同域下的信息都做了embedding，之后再使用之前提到的统一的模型，该模型将行为编码和内容相关的编码整合到一起，这样既考虑到了相关性，同时又可以提升最终转化率。最后一点的改进就是针对用户历史行为的表达，之前在做用户表达时更多地采用了历史的行为信息来表达用户，但是这里面存在的问题就是在淘宝场景下，用户的行为是非常丰富的，每个用户在一个月内都会产生大量的行为，而且行为的稳定性也非常好，这时候就可以加入很多的历史数据以此较好地描述出用户的行为偏好是什么，但是在像优酷短视频搜索这样的新场景下，用户的行为是很稀疏的，很可能用户一个月内的短视频类的搜索仅有几次，这就使得用户的历史行为很难去描述出真正的偏好，所以在这样的场景中采用了新的方案就是将用户全网的观看历史行为全部提取出来，利用这些信息来表达用户的偏好，然后再将用户表达的其他信息整合到排序模型里面来提升个性化的影响。 
  

 
   个性化的召回 
  

 
   在个性化的召回方面采用了一个非常经典的模型结构——DSSM。通过这样的模型结构可以直接去学习检索词、用户以及视频表达的embedding之间的关系，进而最小化embedding之间的距离。在模型中，为了简化线上操作，用户和检索词的embedding只是进行了简单的累加，并没有对其进行统一的编码。累加之后的结果直接与视频相关的embedding做COS距离的最小化。 
  

从手淘搜索到优酷短视频，阿里巴巴是如何在搜索推荐领域下应用深度学习的？_第11张图片

 
   如上图左侧所示，模型中并没有对每个用户都进行ID表达，这是因为使用ID表达需要大量的有效的行为数据，而是将ID表达都转换成了视频的ID表达，用户所观看过的历史视频的ID可以做一个简单的平均来用于表达用户。通过这个框架就可以直接去学习出不同的embedding之间的距离，并根据距离从小到大进行排序进而得到最终想要的排序结果。之所以说这是一个个性化的召回模型，是因为可以直接将检索词与视频之间相关的部分加入用户的信息，也就是说在检索的第一步中就会考虑到用户信息。不同于以往的召回模型只需要做一个倒排表就可以完成，现在优酷短视频搜索场景下的基于embedding的方案可以采用新的量化索引的解决方案来处理海量数据的检索，最终通过工程以及针对量化索引引擎的优化可以实现实时地完成个性化召回计算，并且可以在计算时间不变化的情况下获得更好的效果。 
  

 
   多模态表达 
  

 
   上一个图中的模型只是采用了与query以及ID相关的表达，其实在做与召回更加相关的任务时需要考虑检索词的文本信息以及视频的文本信息，以及如下图所示的视频相关的一些展示图embedding信息。需要同时考虑以上这些信息，然后使用多个行为信息、文本信息、视频信息以及图像信息等的融合表达来提升整体的效果。这个方案相比于之前的ID方案，鲁棒性会更强，这是因为文本信息的加入会对于新产生的视频起到更好的召回效果。 
  

从手淘搜索到优酷短视频，阿里巴巴是如何在搜索推荐领域下应用深度学习的？_第12张图片

 
   用户历史行为的表达 
  

 
   用户历史行为表达的最简单的方案就是用视频表示用户，也就是将用户之前所观看过的视频的列表的ID放在一起存储起来，或者先做一个embedding的编码，然后将embedding向量进行平均，用平均数来表达用户的历史偏好。但是这里也存在一定的问题，就是用户历史的观看行为以及在电商中的购买行为是多种多样的，可能是多个领域下的行为，而这些信息中究竟哪些信息与当前场景下的检索词是更加相关的呢？所以如果能够找到与当前检索词更加相关的历史偏好就能够极大地提升排序的结果。举个简单的例子就是用户搜索了“体育视频”这个词，某些用户之前观看过足球类的视频，而有些用户则观看过篮球类的视频，通过检索词的embedding与之前embedding的相似度比较或者做一个Attention，用当前这个“体育视频”去找到与其更加相关的这些历史行为，这样就能实现对于不同用户产生不同的表达，并且忽略掉其他不相关的信息，这样就能更好地获取用户在当前检索词下的偏好，使用此偏好与之前提到的整体的模型框架整合到一起之后就能够将召回的结果展示给用户。这就是对于表达用户历史行为的改进方案，通过利用Attention机制的方案以及前面几种不同的改进方法在优酷短视频搜索场景里对于转化产生了很大的提升。 
  

从手淘搜索到优酷短视频，阿里巴巴是如何在搜索推荐领域下应用深度学习的？_第13张图片

 
   总结 
  

 
   总结而言，本文首先针对于深度学习的特点进行了分享，深度学习具有很强的特征提取能力以及拟合能力。之后针对手淘几个场景介绍了具体使用的深度学习技术，最后介绍了如何将电商领域中的推荐实践扩展到短视频领域的新场景下，帮助实现效果的提升。 
  

 
   原文链接 
  

 
   阅读更多干货好文，请关注扫描以下二维码： 
  

从手淘搜索到优酷短视频，阿里巴巴是如何在搜索推荐领域下应用深度学习的？_第14张图片

Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
利用LangChain的StackExchange组件实现智能问答系统 nseejrukjhad langchain microsoft 数据库 python
利用LangChain的StackExchange组件实现智能问答系统引言在当今的软件开发世界中，StackOverflow已经成为程序员解决问题的首选平台之一。而LangChain作为一个强大的AI应用开发框架，提供了StackExchange组件，使我们能够轻松地将StackOverflow的海量知识库集成到我们的应用中。本文将详细介绍如何使用LangChain的StackExchange组件
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
自我意识徐立华
----读帕克.帕尔默《教学勇气》（P18----19）5.铸造我们的学科帕克.帕尔默说学科知识对我们的自身认同和外部世界有启发意义。学科会铸造我们。“在我们与学科的命题概念和学科的生活框架相遇之前，自我意识知识处于潜伏状态，通过回想学科是怎样唤醒自我意识，我们就可以找回教学心灵。”《教学勇气》（P18）我们的自我意识像冰山表面下无限延伸的冰层，常常处于潜伏状态。但是在我们对所教授的学科进行深入思
基于CODESYS的多轴运动控制程序框架：逻辑与运动控制分离，快速开发灵活操作 GPJnCrbBdl python 开发语言
基于codesys开发的多轴运动控制程序框架，将逻辑与运动控制分离，将单轴控制封装成功能块，对该功能块的操作包含了所有的单轴控制（归零、点动、相对定位、绝对定位、设置当前位置、伺服模式切换等等）。程序框架由主程序按照状态调用分归零模式、手动模式、自动模式、故障模式，程序状态的跳转都已完成，只需要根据不同的工艺要求完成所需的动作即可。变量的声明、地址的规划都严格按照C++的标准定义，能帮助开发者快速
SpringBlade dict-biz/list 接口 SQL 注入漏洞文章永久免费只为良心 oracle 数据库
SpringBladedict-biz/list接口SQL注入漏洞POC:构造请求包查看返回包你的网址/api/blade-system/dict-biz/list?updatexml(1,concat(0x7e,md5(1),0x7e),1)=1漏洞概述在SpringBlade框架中，如果dict-biz/list接口的后台处理逻辑没有正确地对用户输入进行过滤或参数化查询（PreparedSta
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
ArrayList 源码解析程序猿进阶 Java基础 ArrayList List java 面试性能优化架构设计 idea
ArrayList是Java集合框架中的一个动态数组实现，提供了可变大小的数组功能。它继承自AbstractList并实现了List接口，是顺序容器，即元素存放的数据与放进去的顺序相同，允许放入null元素，底层通过数组实现。除该类未实现同步外，其余跟Vector大致相同。每个ArrayList都有一个容量capacity，表示底层数组的实际大小，容器内存储元素的个数不能多于当前容量。当向容器中添
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
SpringCloudAlibaba—Sentinel(限流) 菜鸟爪哇
前言：自己在学习过程的记录，借鉴别人文章，记录自己实现的步骤。借鉴文章：https://blog.csdn.net/u014494148/article/details/105484410Sentinel介绍Sentinel诞生于阿里巴巴，其主要目标是流量控制和服务熔断。Sentinel是通过限制并发线程的数量（即信号隔离）来减少不稳定资源的影响，而不是使用线程池，省去了线程切换的性能开销。当资源
Spring MVC 全面指南：从入门到精通的详细解析一杯梅子酱技术栈学习 spring mvc java
引言：SpringMVC，作为Spring框架的一个重要模块，为构建Web应用提供了强大的功能和灵活性。无论是初学者还是有一定经验的开发者，掌握SpringMVC都将显著提升你的Web开发技能。本文旨在为初学者提供一个全面且易于理解的学习路径，通过详细的知识点分析和实际案例，帮助你快速上手SpringMVC，让学习过程既深刻又高效。一、SpringMVC简介1.1什么是SpringMVC？Spri
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
今天是总结薛帅
今天来个最后一天的总结。为什么要学习写作技巧呢？就如同建房子，如果想要住的安全、舒服，我们要先打地基，建房子的框架，这样才能随意的装修。那么我们要怎么建好才能建好写作的地基呢？1走直路，少弯路01利他：能够给别人带来价值。02吸引：吸住读者的眼球。03打动：打动人心，引起共鸣。04说服：用数据说话。05刻意：通过有意识的训练。06修改：好的文章至上修改10遍。07模仿：10万+的文章必有成功的道理
Python 课程10-单元测试可愛小吉 Python教學 python 单元测试开发语言 TDD unittest
前言在现代软件开发中，单元测试已成为一种必不可少的实践。通过测试，我们可以确保每个功能模块在开发和修改过程中按预期工作，从而减少软件缺陷，提高代码质量。而测试驱动开发（TDD）则进一步将测试作为开发的核心部分，先编写测试，再编写代码，以测试为指导开发出更稳定、更可靠的代码。Python提供了强大的unittest模块，它是Python标准库的一部分，专门用于编写和执行单元测试。与其他测试框架相比，
MyBatis 详解阿贾克斯的黎明 java mybatis
目录目录一、MyBatis是什么二、为什么使用MyBatis（一）灵活性高（二）性能优化（三）易于维护三、怎么用MyBatis（一）添加依赖（二）配置MyBatis（三）创建实体类和接口（四）使用MyBatis一、MyBatis是什么MyBatis是一个优秀的持久层框架，它支持自定义SQL、存储过程以及高级映射。MyBatis免除了几乎所有的JDBC代码以及设置参数和获取结果集的工作。它可以通过简
【自动化测试】UI自动化的分类、如何选择合适的自动化测试工具以及其中appium的设计理念、引擎和引擎如何工作 Lossya ui 自动化测试工具自动化测试 appium
引言UI自动化测试主要针对软件的用户界面进行测试，以确保用户界面元素的交互和功能符合预期文章目录引言一、UI自动化的分类1.1基于代码的自动化测试1.2基于录制/回放的自动化测试1.3基于框架的自动化测试1.4按测试对象分类1.5按测试层次分类1.6按测试执行方式分类1.7按测试目的分类二、如何选择合适的自动化测试工具2.1项目需求分析2.2工具特性评估2.3成本考虑2.4团队技能2.5试用和评估
python爬取微信小程序数据,python爬取小程序数据 2301_81900439 前端
大家好，小编来为大家解答以下问题，python爬取微信小程序数据，python爬取小程序数据，现在让我们一起来看看吧！Python爬虫系列之微信小程序实战基于Scrapy爬虫框架实现对微信小程序数据的爬取首先，你得需要安装抓包工具，这里推荐使用Charles，至于怎么使用后期有时间我会出一个事例最重要的步骤之一就是分析接口，理清楚每一个接口功能，然后连接起来形成接口串思路,再通过Spider的回调
字节二面 Redstone Monstrosity 前端面试
1.假设你是正在面试前端开发工程师的候选人，面试官让你详细说出你上一段实习过程的收获和感悟。在上一段实习过程中，我获得了宝贵的实践经验和深刻的行业洞察，以下是我的主要收获和感悟：一、专业技能提升框架应用熟练度：通过实际项目，我深入掌握了React、Vue等前端框架的使用，不仅提升了编码效率，还学会了如何根据项目需求选择合适的框架。问题解决能力：在实习期间，我遇到了许多预料之外的技术难题。通过查阅文
【Golang】实现 Excel 文件下载功能 RumIV Golang golang excel 开发语言
在当今的网络应用开发中，提供数据导出功能是一项常见的需求。Excel作为一种广泛使用的电子表格格式，通常是数据导出的首选格式之一。在本教程中，我们将学习如何使用Go语言和GinWeb框架来创建一个Excel文件，并允许用户通过HTTP请求下载该文件。准备工作在开始之前，请确保您的开发环境中已经安装了Go语言和相关的开发工具。此外，您还需要安装GinWeb框架和excelize包，这两个包都将用于我
golang 实现文件上传下载 wangwei830 go
Gin框架上传下载上传（支持批量上传）httpRouter.POST("/upload",func(ctx*gin.Context){forms,err:=ctx.MultipartForm()iferr!=nil{fmt.Println("error",err)}files:=forms.File["fileName"]for_,v:=rangefiles{iferr:=ctx.SaveUplo
【Java】已解决：org.springframework.jdbc.datasource.lookup.DataSourceLookupFailureException 屿小夏 java 开发语言
文章目录一、分析问题背景问题背景描述出现问题的场景二、可能出错的原因三、错误代码示例四、正确代码示例五、注意事项已解决：org.springframework.jdbc.datasource.lookup.DataSourceLookupFailureException在使用Spring框架进行开发时，数据源的配置和使用是非常关键的一环。然而，有时候我们可能会遇到org.springframewo
SpringBoot和SpringMVC是什么关系?SpringBoot替代SpringMVC了吗? 瑞金彭于晏 spring boot 后端 java MVC spring 数据库
SpringBoot和SpringMVC都是SpringFramework生态系统中的一部分，但它们各自扮演着不同的角色和提供不同的功能集。理解它们之间的关系，首先需要了解SpringFramework本身。SpringFrameworkSpringFramework是一个全面的、开源的应用程序开发框架，它提供了广泛的功能来支持企业应用开发的几乎所有方面。SpringFramework的核心特性之
阿里巴巴商品搜索API返回值实战解析 weixin_43841111 api java 前端 javascript
在解析阿里巴巴中国站商品搜索API返回值并进行实战时，可以从以下几个方面入手：一、了解API返回值的结构基本信息返回值通常包含商品的标题、价格、库存、图片链接等基本信息。这些信息对于了解商品的概况非常重要。例如，商品标题可以让你快速了解商品的名称和特点，价格信息可以帮助你进行价格比较和成本核算。详细描述可能包括商品的详细描述、规格参数、使用方法等。这些信息对于深入了解商品的特性和功能非常有帮助。比
探索Zebra4J：构建高效企业级Web应用的微服务框架叶准鑫Natalie
探索Zebra4J：构建高效企业级Web应用的微服务框架ZebraZebra4J/Zebra4Js基于SpringBoot的JavaWeb/Nodejs框架项目地址:https://gitcode.com/gh_mirrors/zebra/Zebra项目介绍在当今快速发展的技术环境中，构建高效、可扩展的企业级Web应用是每个开发团队的追求。Zebra4J作为一款基于SpringBoot的全新微服务
「鲸灵」获数千万美元B+轮融资，旗下日日团打造团购电商新时代想想再说可以吗
小编获悉，社交电商鲸灵集团（以下简称鲸灵）已完成数千万美元B+轮融资，由启明创投领投，IDG资本联合领投，老股东跟投。鲸灵刚于7月完成数亿元B轮融资，由腾讯领投，IDG资本、险峰长青、元璟资本跟投。据小编了解，鲸灵旗下的日日团业务单日交易额已突破100万元。鲸灵创始人&CEO邬强强（花名：鬼谷）曾在阿里巴巴任职9年，曾任聚划算事业部总经理、淘宝开放平台创始人。针对本轮融资，邬强强告诉小编：“社交电
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
Python精选200Tips：121-125 AnFany Python200+Tips python 开发语言
Spendyourtimeonself-improvement121Requests-简化的HTTP请求处理发送GET请求发送POST请求发送PUT请求发送DELETE请求会话管理处理超时文件上传122BeautifulSoup-网页解析和抓取解析HTML和XML文档查找单个标签查找多个标签使用CSS选择器查找标签提取文本修改文档内容删除标签处理XML文档123Scrapy-强大的网络爬虫框架示例
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，

从手淘搜索到优酷短视频，阿里巴巴是如何在搜索推荐领域下应用深度学习的？

你可能感兴趣的:(阿里巴巴,框架)