千丈之松

蘑菇街搜索与推荐架构

搜索架构的探索之当前现状

蘑菇街搜索当前架构

如上图，是蘑菇街当前搜索架构，分为在线和离线两部分。在线部分主要职责是处理在线的搜索请求。离线部分的主要职责是处理数据流。

在线请求链路

如上图，是整个在线请求链路，主要分为topn->qr->引擎->精排->透出五个环节。

第一步，请求首先进入topn系统，做ab配置/业务请求链路配置。

第二步，请求进入QR改写系统做切词，同义词扩展，类目相关性，插件化等。

第三步，进入UPS用户个性化数据存储系统。

第四步，投放层得到UPS和QR两部分的数据后，放入搜索引擎做召回。搜索主要会经过一轮海选，海选的依据是文本相关性和商品质量，这样做是为确保召回的商品质量大致可靠。之后会经过多轮初选，过程中会应用到更复杂的算法模型，对海选的结果进行排序。搜索引擎得到粗排的结果约千级别。

第五步，粗排结果进入到精排系统，精排系统主要通过算法，做个性化排序、实时预测，精排和引擎类似，也支持多轮排序。经过精排系统之后，最终把结果透出给业务层。

蘑菇街统一引擎系统

如上图，左侧红色框内是蘑菇街统一引擎系统，包含用户个性化存储系统、精排存储、商品引擎、广告引擎等。由于这样的形式维护成本特别高，故做了右图这个统一的Zindex内核架构。这个架构的最底层是共享内存分配器，再上层是可支持不同数据结构的各种引擎，再上层是索引管理。基于这个架构，不同的引擎可根据各自需求去创建自己的索引。

跟这个架构相关的，就是我们的运维平台，是基于公司Docker虚拟化技术做的一个运维平台，能够非常快的支持索引创建，包括创建之后整个索引数据的管理。还有就是排序平台，用来提供算法配置变更服务。

搜索架构离线部分的数据流程

如上图，是离线的数据流程的情况，主要职责是数据流的处理，完整的索引数据分为算法数据和业务数据。

算法数据参与排序，整个链路从最前端ACM打点、再落到整个数据仓库、经过清洗之后，在数据平台上跑训练脚本，得出的特征导到特征平台，再同步到线上。

业务数据的主要来源就是DB，DB中主要存储商品、店铺之间的数据，业务变更主要基于mysql bin-log事件监听，变更之后做全量和增量。全量每天定时索引操作、增量会流到MQ，再通过业务拼装推到线上。

搜索架构的探索之演变历程

蘑菇街搜索架构主要经历导购时期（~2013.11）、电商初期（2013.11~2014.11）、Solr主搜（2015.4~2016.3）、C++主搜（2015.8~2016.11）、平台化（2017.1~now）五大阶段。

蘑菇街搜索架构现状简化版

为了更清晰直观进行对比，我把当前搜索架构简化成如上图所示的业务、投放、排序、召回、数据流五大层。接下来我们来看看，我们从最早期，都经历哪些演变，一步步走到现在。

蘑菇街搜索架构导购时期架构

如上图，是~2013.11导购时期的架构，有用到放在PHP代码里的业务+投放、用Java搜索引擎Solr做的召回+排序和数据流三层。这个时期，排序需求不是很迫切，更多侧重的是商品整体的丰富度和新颖度。简单理解，热销排序等于喜欢乘10加上收藏乘50，基于Solr的改造来实现。

在电商转型初期（2013.11~2014.11），由于卖自己的商品，流量变得更值钱了，工程师会想法设法去提升流量的效率。同时用户行为也在增加，产生更多的数据。还有增量管理复杂，数据量大、Optimaize风险大、导购、广告和搭配等多类型商品透出等等。其中最明显挑战就是排序特征变多、数据变大、次数频繁。

蘑菇街搜索架构转型初期架构

面对这些挑战，当时的思路是把算法独立成单独Java工程做算分，但百万商品百种排序，算法排序达G级别，这些排序数据需要作用于搜索引擎，快速生效，问题是用增量的方式会引来索引碎片的增加，会给线上引擎稳定性带来波动。故另辟蹊径，用在Solr进程中设置堆外内存来管理这部分排序数据。

总结来说，转型初期整体的解决方案就是把算法独立出来单独去做，把部分分数尽快同步到引擎，进行生效。这样的方法，当时线上效果很显著，但随时间推移又有新问题出来：

规则排毒->LTR，算法排序需求多；
排序灵活性制约：计算好的分数离线推送到Solr；
Solr内存压力：GC/段合并；
静态分，相关性差；
大促相关性问题：搜索“雨伞”，雨伞图案的连衣裙会排在前面；

Solr主搜整体架构

针对这些新问题，（2015.4）Solr主搜改造，支持Rank插件（Ranker->Scorer）,配置化+动态化，整体架构如上图。应对相关性问题，新增QR系统、应对内存压力，做Solr升级（Docvalues），算法分走动态字段增量，同时投放方式也渐渐形成Topn系统，对外对接不同的搜索场景。

Solr架构解决相关性、算法变更线上排序等问题，但新问题在于虽用机器学习的排序做法，但那个时期主要是爆款模型，有很多个性化需求模型同时对不同人要有不同的排序结果，还有一些重排序或打散等更加复杂的需求。因Solr实现机制的限制，只能做一轮排序，想要改动比较难。另外，Solr整个索引结构非常复杂，二次开发成本高，内存、性能上也慢慢地暴露出很多问题，同时还有Java的GC也是不可逾越的鸿沟。

当时多轮排序的需求，除了做一些文本相关性，还相对商品做品牌加权，如想扶持某些品牌、做类目打散等，这些在单轮排序内做不到，原来的方式只能把多轮融合在一个排序中搞定，但效果会很差。

C++主搜架构

如上图，是C++主搜架构（2015.8~2016.11）上线，在整个性能和排序方面做了定制，可支持多轮排序、整个内存采用内存方式，由排序体系支撑。这个阶段整体来看，相对是完善的，每层，整个系统都成型，可数据流环节又出现了三个问题：

全量无调度，都要依靠流程制约
增量带来算法分数不可比，会带来一些线上排序的抖动
业务数据增量对服务接口压力过大（促销故障）

全量的整个链路

如上图，是全量的整个链路，算法序列的整个链路靠时间约定，数据容灾机制弱。所以大促时，前置任务延迟全量做不了，线上内存几乎撑爆，经常性全量延时，必须手动去处理。还有算法误导排序分，导致线上错乱，增量恢复时间长。

要解决这个问题，我们首要引入一个基于Zookeeper的调度系统，把整个数据流驱动起来同时支持错误报警。容灾部分的思路就是增加排序SOS字段、基于HBase定期生成全量快照，快速回档、单算法字段修复等。

两次算法增量分数不可比，增量生效特别慢。如时刻1算出商品是90分，时刻2是60分，就会引起线上排序抖动，主要因算法两次序列导致整个数据分布不同，特别到大促时期，不同时段成交数据变化特别快，商品排序的波动非常明显，增量数据同一批正常，但两次见就会出错。当0点大家在疯狂购物的时候，变更非常频繁，会导致排序错乱。算法数据出错后，生效时间也会比较慢。

如上图，我们的解决方案是通过小全量的方式把算法、分数单独拖到线上引擎本地，在引擎本地依次一次加载，直接切换的方式，让每一次算法增量数据的数据加速生效，容灾也会加快。

如上图，由于变更都是Doc级更新，每一个字段更新都会调用所有的接口去拼装成一条完整的数据去更新，这导致业务增量压力特别大。大促期间，增量QPS可以达到几千~上万，对下游40多个接口的压力非常大。

如上图，这个问题解决的思路是让引擎，包括数据流支持字段更新。只拼装变更字段、不需要拼装完整的数据，这需要引擎本身支持才能做到。当时上线，收益非常明显，关键接口QPS减少80%以上。

平台化（2017.1~now）是现在正在做的事情。面对UPS、广告、商品多套引擎系统与广告、搜索多套投放系统分别从不同团队合并过来，维护成本问题。排序计算需求变得更加复杂，尝试用非线性模型等方面挑战，就有了现在整理的架构，思路就是平台化、统一化，把重复的系统整合、数据流做统一。

搜索架构的探索之经验总结

这一路走来，整个搜索架构的探索经验就是在发展前期要简单快速支持线上业务，之后在逐步演变，来满足算法的需求，最后在考虑整个利用平台化、统一化的思路去提升效率，降低成本。

不同阶段要有不同的选择，我们最早基于Solr改写，待团队、人员，包括技术储备上也有实力后，直接重写搜索引擎，覆盖算法的离线、在线链路，做体系化建设。

我们的后续规划是新架构整体平台化继续深入，算法方面加强学习，如深度学习、在线学习等。如深度学习框架的研究和使用，以及图搜工程体系的建设。

推荐架构的探索之发展概述

蘑菇街的推荐架构已经覆盖大部分的用户行为路径，从使用进入APP，到下单成交完成都会有推荐场景出现。推荐架构的整个发展分为发展早期（2103.11~2015.6）、1.0时期：从0到1（2015.6~2016.3）、2.0：投放+个性化（2016.3~2016.12）、3.0：平台化（2016.2~now）四大阶段。

发展早期（2103.11~2015.6）推荐的场景并不多，需求也比较简单，数据离线更新到Redis就好，当时明显的问题是没有专门的推荐系统来承载推荐场景、效果跟踪差、场景对接、数据导入等效率低等。

1.0时期的推荐架构

1.0时期：从0到1（2015.6~2016.3）把推荐系统搭建起来，包含Service层对接场景、推荐实时预测、自写的K-V的系统用来存储推荐结果。这里踩的一个坑是，把实时预测做到离线部分，但其实实时预测更多的是在线流程。

随着时间推移，场景类型（猜你喜欢、搜相似、店铺内）、相似场景（首页、购物车、详情页…）不断增加，算法方面需要实时排序，应对实时的点击、加购等，还有一些个性化排序需求，如店铺、类目、离线偏好等。1.0阶段主要面临三大问题：

多类型多场景：上线系统不一，缺少统一对接层，成本高；
场景配置化：场景算法一对一，重复代码拷贝，维护难；
个性化+实时：缺系统支持；

2.0时期的推荐架构

如上图，2.0时期的推荐架构（2016.3~2016.12）主要解决1.0的三大问题，增加投放层Prism，统一对外对接不同的业务场景，对Prism做动态配置和规则模板。个性化实时方面增加UPS与精排系统。

2.0时期推荐架构投放层配置化

如上图，2.0时期推荐架构投放层配置化思路是把不变的部分模板化，可变的部分配置化。系统提供召回组建、数据补全、格式化等模板。当时效果很明显，321大促运营位置个性化效果提升20%+，双11大促，会场楼层个性化提升100%+。

大促带来的巨大收益，给整个系统带来很正面的影响，后续推荐架构又面临更多的需求与挑战：

日益增长的资源位、直播、图像等场景和类型；
跟美的融合，跨团队跨地域的挑战；
工程算法用一套代码，整个策略的开发调试都非常复杂，包括工程部分的职责不清问题；
由于原来模板化的配置，导致一些简单场景复杂化。

针对这些问题，我们需要做的事情就是通用化、平台化。针对整套系统进行统一推荐方案，自动化整体算法对接核心业务流程、以及和算法人员的职责划分清晰，提升双方的工作效率。

3.0时期推荐架构

3.0时期推荐架构（2016.2~now）与搜索架构类似，系统间职能更加明晰，统一和平台化，主要还是投放层做了改造。

3.0时期推荐架构投放层细节

如上图， 3.0时期推荐架构投放层重要的概念就是场景化，场景应对推荐业务，不同场景会对应不同的策略实现。

全面解析MeiliSearch及其Go语言实现寻找09之夏 Meilisearch golang 开发语言后端 Meilisearch
前言随着互联网的发展和数字化进程的加速，无论是企业还是个人用户，都需要面对海量的信息。在这个背景下，搜索技术的重要性日益凸显。MeiliSearch是一款开源搜索引擎，它的出现为开发者提供了一个高效、灵活的选择。本文将从多个角度探讨MeiliSearch的特性、使用方法及其实现原理，并通过Go语言示例展示如何构建一个高性能的搜索系统。一、MeiliSearch特性MeiliSearch之所以受到欢
项目实战 ---- 商用落地视频搜索系统（10）---后台搜索Cache优化 PhoenixAI8 AI Python 商用视频搜索系统 vector db milvus redis cache
目录背景技术实现策略视频预处理阶段的cache技术视频搜索阶段的cache技术技术实现预处理阶段cache策略实现逻辑代码运行结果问题及注意点搜索阶段cache策略实现系统配置层面逻辑低版本GPUCPU本项目的配置高版本描述goahead策略cache加载策略本项目配置应用层搜索参数的配置配置项本项目的实际配置背景但目前为止，视频搜索系统已经可以正常使用和运转。并且他是基于多策略搜索算法的，能够在
which Linux Caspian Wren linux 运维服务器
在Linux系统中，which命令用于定位并显示指定命令的完整路径。它会搜索系统的PATH变量中指定的目录，找到并输出第一个匹配的命令的完整路径。这对于确定在系统中执行哪个特定的命令很有用。例如，如果您想知道ls命令的完整路径，可以在终端中输入：whichls它将输出类似于/bin/ls的路径。which命令通常用于验证系统中是否安装了某个特定的命令，并且在脚本中查找命令的位置。
项目实战 ---- 商用落地视频搜索系统(6)---UI 结构及与service互动 PhoenixAI8 AI落地项目设计与实现 ui flask python vector db 人工智能 milvus
目录背景技术问题描述Jinja2概述特性问题解决手段问题1问题2问题3代码实现前端代码python代码解释页面展示home上传视频搜索视频背景通过1-5我们已经搭建好完整的后台功能，service，及准备与UI交互的路由及接口。下面就是UI部分的搭建。UI部分，这次我选择了Flask作为搭建载体，他的使用非常方便，router清晰，调用也非常简洁。不再需要tomcat等单独的container运行
项目实战 ---- 商用落地视频搜索系统(5)---service层核心 PhoenixAI8 AI落地项目设计与实现音视频 milvus python vector db 人工智能
目录背景向下service层描述功能代码实现核心阐述向上service层描述功能代码实现核心阐述背景之前的1-4重点在介绍系统的实现架构，录入数据的组织形式，存储模式，search方式，以及后期算法等。重点都是聚焦在后端。现在来看，基本的后端实现我们都具备了，当然后期还会带着各位进一步优化，但从数据结构及录入与query的体现架构来看，系统运作经过前期的后台测试，还是很不错的。现在我们需要将后端的
项目实战 ---- 商用落地视频搜索系统（7）---优化(1)--预处理优化 PhoenixAI8 AI落地项目设计与实现音视频 vector db 人工智能 python
目录背景要解决的问题技术理念与落地思路完整代码另外的问题与解决优化运行效果log效果图背景作为商用落地系统，我们当然希望搜索视频的关联度或者说准确性与我们希望查询的视频相关度越高越好。为此，除了在query层面上优化，我们还需要注重我们的输入。那么如何才能更好的对视频进行预处理以及为更好的查询奠定基础，是我们需要优化的一个重要方向。这里涉及到视频特征的提取以及视频比对的算法。本节主要聚焦在优化视频
项目实战 ---- 商用落地视频搜索系统（4）--- video高效存储 PhoenixAI8 AI落地项目设计与实现音视频数据库 milvus python vector db 人工智能
目录背景设计完整代码注意点运行效果背景通过商用落地视频搜索系统1-3，基本上商用系统后台可以开始运作，主体部分可以使用了，虽然效率上还存在一些可以优化的空间，之后的每一节会带着大家一起看看一步一步怎么做。我们现在还需要解决的是video本身的存储，你可能说video本身就存储在自己的电脑或是某个服务器上，可以吗？当然是ok的。但是进一步如果你的系统需要有较为高效的存储，并且有一定的通知管理机制，查
项目实战 ---- 商用落地视频搜索系统(3) --- 数据综合查询设计与实现 PhoenixAI8 AI落地项目设计与实现音视频数据库 vector db milvus python
目录背景商用视频搜索算法设计设计理念搜索策略详细设计源码完整代码代码解读背景向量数据库发展到现在，已经支持了类似hybridsearch的功能。但是必须要指出为了应对商用化大型系统向量查询，如果仅使用hybridsearch，无法从用户功能满足你的功能要求。比如在定义视频相似度时，如何衡量多个视频之间的相似度？如何能通过语义拆分及内容，对视频进行综合排序？如何找到相似视频的关键位置等都是searc
构建灵活的搜索系统：Go 语言实践 microrain 物联网 golang golang 开发语言后端
构建灵活的搜索系统：Go语言实践在现代应用程序中，高效的搜索功能已成为不可或缺的组成部分。无论是内容管理系统、电子商务平台还是数据分析工具，都需要强大的搜索能力来提升用户体验。本文将介绍如何在Go语言中实现一个灵活的搜索系统，支持多种搜索引擎，包括ZincSearch和Elasticsearch。目标我们的目标是创建一个统一的搜索接口，使应用程序能够轻松地在不同的搜索引擎之间切换，而无需修改核心业
【Faiss】构建高效搜索系统 - Faiss向量数据库的搭建何遇mirror 大数据 faiss
目录编辑1.引言2.Faiss简介3.安装与配置3.1在不同操作系统上的安装方法3.1.1Windows3.1.2macOS3.1.3Linux3.2配置开发环境3.2.1使用virtualenv3.2.2使用Anaconda1.引言在当今这个数据爆炸的时代，快速有效地处理海量数据已经成为企业和研究机构面临的重大挑战之一。特别是在计算机视觉、自然语言处理等领域，面对大量的高维向量数据，传统的数据库
springboot/ssm文献搜索系统Java文献信息在线下载系统小说下载系统web Java学长-kirito java spring boot 后端
springboot/ssm文献搜索系统Java文献信息在线下载系统小说下载系统web基于springboot(可改ssm)+vue项目开发语言：Java框架：springboot/可改ssm+vueJDK版本：JDK1.8（或11）服务器：tomcat数据库：mysql5.7（或8.0）数据库工具：Navicat/sqlyog开发软件：eclipse//idea依赖管理包：Maven如需了解更多
pywebview搭建、运行、打包白屏三巧 python 开发语言 pywebview
1、禁用微软商店引流点击开始菜单输入管理应用执行别名搜索系统设置，将该列表划到最底部，找到python.exe和python3.exe，将其设置为关闭状态这是微软搞的狗皮膏药，强制型环境变量2、配置Python环境1.考虑版本管理：Anaconda官网、Miniconda清华镜像、pyenv-win的Github仓库2.只安装Python：华为镜像、阿里镜像、newbe、Python官网ftp地址
Linux017 shell环境变量 caoqiansheng
shell通过环境变量（environmentvariable）来存储有关shell会话和工作环境的信息，它使得用户可以在内存中存储数据，以便程序或者shell中运行的脚本可以轻松的访问到他们当在linux系统的shell命令行输入一个外部命令时，shell必须搜索系统来找到对应的程序，而PATH环境变量则定义了用于进行命令和程序查找的目录。在Ubuntu系统中，PATH环境变量的内容如下，其中P
Elasticsearch内核剖析大叶子不小 elasticsearch 大数据搜索引擎
Elasticsearch内核剖析-知乎大家都知道Elasticsearch是一个开源的分布式搜索和分析引擎，也是一种NoSQL数据库。由于Elasticsearch填补了开源领域分布式搜索引擎的空白，而且难能可贵的是，Elasticsearch提供了非常友好的操作性，上手极其容易，这些特征促使其在过去5年在市场上快速崛起。目前在开源的搜索系统中基本处于垄断地位。虽然Elasticsearch在业
find命令 – 根据路径和条件搜索指定文件 Qt历险记嵌入式Linux开发工程师课程 linux shell bash find
linux-findfind命令通常进行的是从根目录（/）开始的全盘搜索，有别于whereis、which、locate等有条件或部分文件的搜索。对于服务器负载较高的情况，建议不要在高峰时期使用find命令的模糊搜索，这会相对消耗较多的系统资源。语法格式：find路径条件文件名常用参数：参考示例全盘搜索系统中所有以.conf结尾的文件：[root@linuxcool~]#find/-name*.c
lucene查询原理罗志宏中间件 java 数据库 java
lucene查询原理1.lucene数据模型2.lucene查询过程3.SkipList哨兵数组skipDocdocDeltaBufferLucene中使用读取跳表SkipList的过程跳表查询演示文档号：23文档号：7004.倒排合并前言： lucene是一个基于java实现的全文信息检索工具包，目前主流的搜索系统Elasticsearch和solr都是基于lucene检索功能实现的。想要理解
基于Lucene查询原理分析Elasticsearch的性能云栖社区v
前言Elasticsearch是一个很火的分布式搜索系统，提供了非常强大而且易用的查询和分析能力，包括全文索引、模糊查询、多条件组合查询、地理位置查询等等，而且具有一定的分析聚合能力。因为其查询场景非常丰富，所以如果泛泛的分析其查询性能是一个非常复杂的事情，而且除了场景之外，还有很多影响因素，包括机型、参数配置、集群规模等等。本文主要是针对几种主要的查询场景，从查询原理的角度分析这个场景下的查询开
Lucene 查询原理大叶子不小 lucene java 全文检索
Lucene查询原理-知乎前言Lucene是一个基于Java的全文信息检索工具包，目前主流的搜索系统Elasticsearch和solr都是基于lucene的索引和搜索能力进行。想要理解搜索系统的实现原理，就需要深入lucene这一层，看看lucene是如何存储需要检索的数据，以及如何完成高效的数据检索。在数据库中因为有索引的存在，也可以支持很多高效的查询操作。不过对比lucene，数据库的查询能
【Windows】高效的本地文件搜索工具《Everything》 CoolTiger、日常分享 everything windows本地搜索工具
好用高效的本地文件搜索工具《Everything》一、什么是Everything二、为什么选择Everything三、下载Everything四、Everything为什么高效一、什么是EverythingEverything是一个运行于Windows系统，基于文件、文件夹名称的快速搜索引擎。Everything在搜索之前就会把所用的文件和文件夹都列出来，这一点与Windows自带的搜索系统不一样
Zookeeper+Kafka+Log4j日志采集与管理系统 ff&yy Zookeeper+Kafka 中间件 zookeeper kafka
1、Zookeeper+Kafka+Log4j-日志采集与管理随着系统规模变大和复杂度上升，我们的日志管理变得复杂，一个完整的系统通常会有几十上百个节点。如何方便管理我们的日志，动态的调整我们的日志级别变得非常重要，前文讲过如何构建一个千亿级的日志搜索系统。本篇文章重点介绍如果搭建一套日志采集与管理系统，重点包含如下几个功能：1)应用节点的状态监控，离线及时告警、断线重连；2)日志级别动态修改，根
Elasticsearch 内核解析-写入篇丫丫-lucy elasticsearch
目前的Elasticsearch有两个明显的身份，一个是分布式搜索系统，另一个是分布式NoSQL数据库，对于这两种不同的身份，读写语义基本类似，但也有一点差异。写操作实时性：搜索系统的Index一般都是NRT（NearRealTime），近实时的，比如Elasticsearch中，Index的实时性是由refresh控制的，默认是1s，最快可到100ms，那么也就意味着Indexdoc成功后，需要
Elasticsearch内核解析 - 写入篇大叶子不小 elasticsearch 大数据
Elasticsearch内核解析-写入篇-知乎目前的Elasticsearch有两个明显的身份，一个是分布式搜索系统，另一个是分布式NoSQL数据库，对于这两种不同的身份，读写语义基本类似，但也有一点差异。写操作实时性：搜索系统的Index一般都是NRT（NearRealTime），近实时的，比如Elasticsearch中，Index的实时性是由refresh控制的，默认是1s，最快可到100
从Elasticsearch来看分布式系统架构设计大叶子不小 elasticsearch 大数据搜索引擎
从Elasticsearch来看分布式系统架构设计-知乎分布式系统类型多，涉及面非常广，不同类型的系统有不同的特点，批量计算和实时计算就差别非常大。这篇文章中，重点会讨论下分布式数据系统的设计，比如分布式存储系统，分布式搜索系统，分布式分析系统等。我们先来简单看下Elasticsearch的架构。Elasticsearch集群架构Elasticsearch是一个非常著名的开源搜索和分析系统，目前被
基于Lucene查询原理分析Elasticsearch的性能大叶子不小 elasticsearch
基于Lucene查询原理分析Elasticsearch的性能-知乎前言Elasticsearch是一个很火的分布式搜索系统，提供了非常强大而且易用的查询和分析能力，包括全文索引、模糊查询、多条件组合查询、地理位置查询等等，而且具有一定的分析聚合能力。因为其查询场景非常丰富，所以如果泛泛的分析其查询性能是一个非常复杂的事情，而且除了场景之外，还有很多影响因素，包括机型、参数配置、集群规模等等。本文主
服务器管理平台（5）- 数据展示小熊猫Q3 服务器管理平台服务器运维
数据展示Grafana导入MySQL数据源进行定制化数据展示，包括品牌分类饼图，详细数据列表等LayUI为开源前端框架，对系统概览、登录日志等信息，划分不同页面使用表格展示详细数据1、Grafana对品牌、CPU型号、内存等数据使用饼图展示分类比例，详细数据使用table表格展示，支持字段筛选搜索系统概览显示简略信息，如需查看PCI设备、逻辑磁盘等详细信息，可以点击链接跳转界面查看1.1、导入My
搜索系统中涉及的NLP问题机器很不爱学习
搜索技术除了涉及基础的搜索算法，也涉及到很多NLP技术，本文转载于，只是做个学习记录，侵删。推荐系统被捧为目前算法领域的主流，推荐系统不需要用户主动进行操作就能获取自己喜欢的东西，但是实际上，搜索系统在很长一段时间占据了重要位置，大到百度的大搜，小到音乐、视频、电商、应用商店等，都有各种各样的搜索引擎，这些搜索搜索能更为精准直接的满足用户需求，即使是推荐系统如日中天，目前也仍会有搜索的一席之地。今
logstack 日志技术栈-02-ELK 的缺点？loki 更轻量的解决方案？老马啸西风 log ELK elk 开发语言日志监控 ES
ELK/EFK日志系统如果今天谈论到要部署一套日志系统，相信用户首先会想到的就是经典的ELK架构，或者现在被称为ElasticStack。ElasticStack架构为Elasticsearch+Logstash+Kibana+Beats的组合，其中，Beats负责日志的采集，Logstash负责做日志的聚合和处理，Elasticsearch作为日志的存储和搜索系统，Kibana作为可视化前端展示
JDBC面试题（二）猿究院--Cu-Sn合金 mysql java
1、什么是sql注入，如何防止sql注入SQL注入攻击是通过操作输入来修改SQL语句，用以达到执行代码对WEB服务器进行攻击的方法。如何防止sql注入：使用ORM框架使用正则表达式^[a-zA-Z0-9]+$对输入进行验证，只能是数字和字母使用占位符？进行站位，使注入失效2、什么是模糊查询是指搜索系统自动按照用户输入关键词的同义词进行模糊检索，从而得出较多的检索结果。select*fromstud
用通俗易懂的方式讲解：如何用大语言模型构建一个知识问答系统深度学习算法与自然语言处理 NLP与大模型人工智能自然语言处理深度学习 LLM langchain
传统搜索系统基于关键字匹配，在面向：游戏攻略、技术图谱、知识库等业务场景时，缺少对用户问题理解和答案二次处理能力。本文探索使用大语言模型（LargeLanguageModel,LLM），通过其对自然语言理解和生成的能力，揣摩用户意图，并对原始知识点进行汇总、整合，生成更贴切的答案。关于基本思路，验证效果和扩展方向，可以参考正文的介绍。文章目录用通俗易懂方式讲解系列技术交流群需求描述方案分析Fine
如何治疗贫血埃德加凯西自然疗法
使用阅读搜索系统搜索贫血将产生多达920个读数。关于贫血的信息太多，但是变化太多，让我想知道要提到哪一种。因此，我们想介绍那些很容易融入日常生活并受到许多阅读推荐的东西。首先，在相当严重的贫血的情况下，在这种情况下，建议每天服用几次牛肉汁作为药物。牛肉汁的制作方法，在其他文章有介绍。总之，不吃牛肉，每天喝几次牛肉汁，每次1茶匙左右，喝3分钟左右，一边和唾液充分混合一边吮吸。因为牛肉汁的有效期只有3
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v [email protected] 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l

蘑菇街搜索与推荐架构

搜索架构的探索之当前现状

搜索架构的探索之演变历程

搜索架构的探索之经验总结

推荐架构的探索之发展概述

你可能感兴趣的:(搜索系统)