携程技术

干货 | 响应速度与智能化如何平衡，携程酒店搜索实践

作者简介

mczhao，携程资深软件工程师，关注自然语言处理、搜索引擎和数据库内核开发。

概览

随着线上旅游业务的不断发展，携程酒店的数据量不断增加，用户对于搜索功能的要求也在不断提高。携程酒店搜索系统是一个基于Lucene开发的类似Solar的搜索引擎系统，本文将从四个部分描述对搜索引擎的优化。

第一部分，通过优化存储来降低响应时延，提升用户体验，降低硬件成本。第二三部分，通过召回和纠错的智能化来提升用户体验。第四部分，通过重新设计搜索DSL提高业务灵活性和研发效率。本文也描述了在优化过程中遇到的各种问题和解决方法。

一、存储优化

1.1 数据压缩

在Lucene 8中，long型的数据会被自动压缩存储。我们可以去除搜索shema中原有的byte、short、int类型，对整型字段统一使用long类型存储，而不用担心其占用多余的空间。这既降低了对内存和磁盘的需求，也降低了运维的人力成本。

1.2 空间索引

在地理查询和存储这块，使用PointValues来替换原来的GeoHash索引。PointValues是从Lucene 6开始引入的一个新特性，使用kd树作为地理空间数据结构，来加速几何图形内点的过滤筛选。

踩过的坑

1）尽管Lucene官方极力宣传PointValues的性能优势，也许在二维地理搜索场景下是这样，但是在一维数据中其性能还是远逊于普通的倒排索引，甚至不如走逐个访问过滤。究其原因是PointValue中KD树的节点都是压缩存储，其CPU时间大部分消耗在对存储的解压和反序列化，造成浪费。

2）而对于高维空间的搜索，例如通过word2vec的词向量搜索某个词的相似词，无论是KD树还是VP树，其时间复杂度都会退化到不可忍受的地步。

1.3 KV存储

搜索流程不仅需要依靠倒排的索引，也需要正排的数据。在过滤和排序的搜索步骤中，需要根据主键来访问doc的一些维度信息，来判断该doc是否满足过滤条件，或者用来计算这个doc的排序分数。

在早期Solar版本中，使用了FieldCache——一种内存中SST来保存这些KV数据。从Lucene 4开始，DocValues作为KV数据的一种磁盘存储方案。在Lucene 7版本中，使用倒排索引中的DISI作为DocValues的索引，而FieldCache已经被移除。在Lucene 8版本中，DocVaues添加了jump table来增强其随机访问能力。

Lucene DocValues相对于FieldCache的优势是：

1）存储在磁盘，对内存需求减少。

2）存储经过压缩，消耗资源进一步减少。

Lucene内部的KV存储有一定局限性，例如：

1）使用磁盘的存储时，需要将byte数组反序列化，还是略慢于内存中直接存储的数据结构。

2）只能用docid作为key，如果使用业务id来访问，需要先查询倒排索引获取其docid，再访问正排数据获取值。

3）DISI存储的docid范围只能在32位整型内，当遇到单点几十亿级别的数据，就无法存储了。

在某些场景下，给酒店打排序分时，需要获取酒店到POI之间的关联分数，此类分数不仅仅是通过直线距离计算得来，还需要考虑驾车步行距离的时间，以及距离筛选的酒店点击量等等因素，所以需要一个酒店到POI之间关联的KV存储。酒店和POI数据量各自是百万级别，而一个POI周边的酒店数平均是千级别，这样他们之间关联数据条数可达数十亿。

为此，我们自研了一种Java内嵌KV存储，和Lucene的索引中"mmap"模式一样，利用JDK自带的MappedDirectedBuffer，将数据存储在磁盘上，将磁盘和内存的交换交给操作系统托管，也不会给堆内存造成压力。不同于Lucene的DISI和LevelDB的SST，考虑到减少磁盘和内存的交换，已经提高TLB的命中率，其索引是固实化（compacted）的BTree，也就是一棵用数组表示的完全n叉树，其查询的时间复杂度为对数，索引合并时间复杂度为线性。相比使用排序数组的SST，空间占用一样，优势是查询时内存页跳转减少，劣势是compact的时候需要随机访问磁盘，而不是顺序访问。

踩过的坑

1）虽然Lucene DocValues是一种磁盘存储，但由于其实现和FieldCache有着诸多相似特性，部分元数据甚至是数据本身还是需要加载到内存的，这个加载的过程在DocValues的API中是懒加载的，并且会消耗一定的时间，需要注意其争用引起的线程阻塞。最好在初次加载索引和之后，或者写线程每次flush和compact之后，触发一次DocValues的数据加载，再让读线程可见。

2）虽然Lucene DocValues支持随机访问，但其API的实现还是相对滞后。在一次请求中，不允许访问的docid大于或等于上次访问的docid，强制整个打分过程是顺序访问的。这自然有他的道理：顺序访问的性能更好。但排序过程可能依据多个分数，多个分数的计算公式中可能引用同一维度的字段，这样会造成重复访问同一doc的同一字段的DocValues，使得API报错。解决的方法是将之前查询到的字段值缓存入当期的context中，下次访问时直接获取缓存。另外一种解决方案，直接修改Lucene源代码，消除这个不必要的限制，代码位置在MultiDocValues.NumericDocValues.advanceExact和MultiDocValues.SortedNumericDocValues.advanceExact。

3）虽然可以使用MappedDirectedBuffer将存储移出JVM堆，减轻了堆GC的压力，但是当堆外内存脏块超过一定阈值，操作系统还是会触发阻塞整个进程的flush工作。解决方法是将磁盘映射文件打开为read-only，用作append-only数据库的存储。没有对现有块的修改就不会存在脏块，而内部异步compact来实现增量更新。这样，只会存在缺页加载的IO操作，被淘汰的页可以立即丢弃，而不用刷回磁盘。

二、查询智能化

当今搜索系统中，单纯的文本召回已经不能满足用户的要求。搜索引擎需要根据用户的输入，识别用户输入的语义和意图，进而修改召回和排序方式。

2.1 语义查询生成流程

1）第一步是实体标注。将实体名称作为词库给用户输入分词以后，给分出的每一个词标注实体，识别其类型和对应ID。

2）第二步是提取核心语义。例如，用户输入” 浙江杭州西湖希尔顿”，需要识别出浙江是杭州的上级、杭州是西湖的上级，从而忽略掉” 浙江” 和” 杭州”，其核心语义就是” 西湖” 和” 希尔顿”。

3）第三步是查询生成。根据上面的核心语义” 西湖” 和” 希尔顿”，通过规则系统，生成查询，优先查找西湖周边的希尔顿集团下的酒店，即使这些酒店文本中，看不出包含” 浙江”、” 杭州”、”西湖”、”希尔顿” 中的任意一个。

2.2 语义分析的常用算法

2.2.1 上下文无关句法分析（CFG）

1）优点：可以转化为自动机，计算速度快

2）缺点：语法规则固定，不适合分析比较灵活的自然语言

2.2.2 依存句法分析

依存图的主要思想是连接短语的中心词与其依存词。用有向边把中心词与依存词连接起来。依存分析中一个重要的概念是投射性，是由单词之间依存的线性词序决定的一种约束。投射性的的依存句法等价于CFG，非投射的依存句法的描述范围比 CFG更广。

1）优点：较为灵活，规则简单

2）缺点：有的情形，时间复杂度会退化到指数级别

2.2.3 酒店联想引擎中使用的语义分析

为了克服上述经典语法分析的一些弱点，酒店联想使用一种依据知识图谱分类分层的简化依存分析方式。根据酒店的业务场景，将标注后的实体词性放入不同的bucket中，进而进一步查询bucket内部实体和bucket之间实体的关联关系，进而去除修饰词，提取核心语义。同一bucket中的实体类型可以进一步分层，例如区域类型中省份、国家、城市、景区都可以分为单独的一层，再去获取彼此之间的关系。从而避免算法复杂度的爆炸。

三、智能纠错

Lucene自带的英文单词相似度纠错，是通过ngram分词索引召回，从词库中粗筛出候选词，进一步使用Levenshtein编辑距离精筛出相似度高的词。

我们在Lucene纠错的基础上，做了更多的优化，我们的纠错会考虑上下文，纠错词库的数据来源也更加多元化，目标是使得我们的英文纠错可以媲美Bing或者Google。

3.1 LSH 局部敏感哈希

随着业务增长，作为基础语料的实体数量也在增长，纠错词库的数据量随之增长，Lucene默认的ngram召回的候选词集合开始变得不那么准确，很多的用户目标词在粗筛过后就不在候选集内，导致无法正确纠出。我们需要考虑加入不同的维度作为Hash桶，来进一步缩小粗筛的范围，比如词长是一个比较好的维度；并且调整ngram中参数n的大小，以及分词以后的查询交并关系，使有限的粗筛召回结果更加精确。

3.2 上下文纠错

只考虑单词而不考虑上下文的纠错，就像只考虑单词热度而不考虑上下文的分词，有诸多局限性。例如真词纠错case，用户输入把le meridien（艾美酒店）错输入为let meridien，单看let这个单词是并没有错的，即使认为它是错的，那么let和le直接的相似度最高也只有66.7%，看起来也不高，不一定能达到精筛过滤的相似度阈值。

所以我们在纠错的时候也需要考虑上下文。通过现有实体语料以及其热度，统计出热门的二元词组及其热度。然后在纠错词，将二元词组作为单词来进行纠错。这样也可以对用户少输入或者多输入的空格进行纠错，并且可以解决空格问题和拼写错误同时存在的场景。例如：用户输入southcoase，通过一次纠错就可以纠出south coast这个词组。

通过二元词组库的纠错，只能往前/后多看一个词的上下文，有的情况下这么短的上下文并不能判断出最佳的纠错词。这时候可以将所有实体名称作为词库来纠错，由于其数据量庞大，粗筛的桶参数调整难度更大。另一方面，由于Lucene倒排索引下都是按docid排序的，docid是按数据插入顺序自增，所以我们可以先按热度排好序建入索引，再使用totalHitsThreshold=n限制召回的匹配条数，确保粗筛召回的是最热的n条记录。

3.3 优化编辑距离算法

经典的Levenshtein编辑距离算法，其状态转移发生在矩阵的2x2的范围内，无法识别出字符交换的操作。如果我们把其状态转移方程扩充到3x3的方格内，根据行和列上各自前两个字母来计算本单元格内的距离，即可识别出字符交换的操作。除此以外还能识别出字符双写漏写为单写，以及单写漏写为双写等场景，分别根据不同场景配置不同的距离权重，可以更加精细地计算两个词的相似度。

如果把根据前两个字母算的编辑距离称为2阶编辑距离，那么2阶可以扩展到n阶，n越大，能覆盖的情形越丰富，相似度越准确，纠错效果更好。但是算法的时间复杂度也随着n几何增加。实际使用时，按场景需求选择n。这种扩充到n阶的想法来自于Damerau-Levenshtein编辑距离，Damerau-Levenshtein编辑距离是一种2阶编辑距离。

编辑距离加权的思想也是在很多NLP论文中有提到，除了处理双写、调换等场景以外，也可以处理音近词特别是一些从别的语言翻译而来的音近词，特别是旅游业务背景下，很多地名都是按当地语言翻译过来的。举个中文的例子，从英文翻译而来的亚马逊和亚马孙，从"逊"到"孙"的编辑距离权重几乎可以配置为0，意味着亚马逊和亚马孙相似度100%，类似的case在作为表音语言的韩文和俄文的翻译文本中更多。

四、搜索DSL

DSL(Domain Specific Language)，中文翻译为领域特定语言，相对于GPL(General Purpose Language)通用编程语言，DSL指的是专注于某个应用程序领域的计算机语言。

James Gosling曾经说过:每个配置文件最终都会变成一门编程语言。搜索系统的复杂化导致其配置的复杂化，根据不同的用户输入核心语义、不同的用户偏好、不同的搜索上下文，生成搜索查询和排序，这样的规则系统需要复杂的配置。Lucene原本也有自带的查询语言，类似SQL，可以定义召回、排序、分页等逻辑，但这样的查询语言已经不能满足我们日益复杂的需求，严重制约了开发效率，我们需要将搜索语言扩展甚至重写，就像从SQL扩展到PL/SQL那样。

4.1 设计考量

4.1.1 降低学习成本

设计查询语言的时候，需要尽量向SQL语言看齐。SQL是大家已经广泛熟知的查询语言，语法越和SQL一致，越是降低学习难度。

在ElasticSearch的结构化DSL中，使用的是must、should、must not查询方式，这样的查询方式虽然贴合lucene底层查询方式，但是从一个没有接触过类似搜索产品的开发看来需要学习成本。在Lucene自带的查询语言中，虽然可以使用AND、OR这些交并条件，但其实现是有bug的，其运算符优先级有问题，导致一些场景优先执行OR再执行AND，需要开发小心翼翼地给所有的子表达是添加合适的括号，更不幸的是，lucene的查询语言编译器通过JavaCC自动生成，不是人手写的代码，可读性很差，很难修改。

SQL和其他GPL相比，最显著的特征是其逻辑运算符的优先级，需要低于比较运算符。另外一个特征是两个整型相除，一般数据库实现默认返回的是浮点型数据，而不是整型，对于整数相除，另外使用内置函数实现。

除了向SQL看齐，其数字类型和字符串类型的表达方式向EMCAScript看齐，因为当前JSON作为最常用的序列化方式被大家广泛熟知，JS的字符串转义也比Java更加方便。当然，EMCAScript不支持64位整型，而我们需要支持，特别是当日期时间转化为long参与计算的时候。

4.1.2 面向高性能场景

一次搜索请求中需要对召回的数以万计的doc去做过滤和计算排序分，但又对响应时间比较敏感，特别是在联想推荐的场景中，用户每输入一个字，就要立时修改推荐的内容。所以在设计语言时，需要保留对CPU和内存友好的特性：

1）基于性能考虑保留primitive type，借鉴基于C的脚本语言lua，只保留两种数值类型——整型的long和浮点型的double，并且强转系统。基础类型是现阶段ElasticSearch script的诸多实现中仍没有实现的功能。

2）查询过滤，比较字段和值时，使用lucene列式存储，即DocValues，而不是去获取行数据。

3）去除CBO（基于成本的优化器）。如果开发对执行计划了然于胸，就会发现在一些复杂场景下传统数据库中的CBO经常帮倒忙，导致我们不得不使用use index这种语法。去除CBO的同时，用不同的语法让开发可以自定义执行计划是走索引还是走过滤，降低执行计划的不确定性，也可以降低查询编译期的耗时。而RBO（基于规则的优化器）中的一些规则可以保留，比如任何条件和false取交集，默认就返回false，而不是真的去执行其查询。

4.1.3 多态

搜索语言需要支持编译时的多态，提高用户友好性。

1）函数多态，例如max函数，如果传入的是整型那么返回的也是整型，如果传入的是浮点型，返回的也是浮点型。

2）运算符多态，例如加号"+"运算，如果两边都是数值类型，那么按数值相加，并且设计合适的隐式转换规则；如果一边是字符串，那么就把两边按字符串concat起来。

支持更多的地理搜索功能

从语言层面支持地理搜索，而不需要编写各种语法糖。

除了支持常用的距离范围搜索，还利用了计算图形学的算法和KD树，支持多边形内的点的搜索、点到多边形的距离搜索，用于查询多边形区域范围内以及周边的召回。

4.1.4 安全性

搜索语言需要支持查询参数化，来避免查询脚本注入。这一点和SQL一样，ElasticSearch也已经支持参数化的script。我们对参数化进行了扩展，使其参数本身可以为一个表达式，在查询编译时预执行，实现类似Shell或者是JS中eval的功能。

4.1.5 支持描述业务流程

上文中所说的在查询编译时预执行的表达式，是一种doc无关的表达式。相比而言，查询执行时的表达式都需要传入一个docid来获取当前doc。

上文中描述的语义分析提取核心词以后，需要通过核心词以及规则系统生成新的查询和排序。这种doc无关的表达式，我们正可以用来支持规则系统这种和具体doc无关的业务逻辑，类似PL/SQL这种面向存储过程的语言，这也是ElasticSearch中暂未实现的功能。

踩过的坑

上设计一门新的语言时，不要一开始就设计为词法分析和语法分析双层编译结构，也不要一开始就设计action表，因为在设计新语言的一开始可能并不清楚词法和语法的边界在哪里，即使事先明确定义，做到一半的时候可能还会再做修改。对于语法简单的DSL，使用基于字符的递归下推自动机实现编译功能是更好的选择，对于后续的语法修改会更加灵活。

总结

搜索引擎本身对数据库事务要求不强，数据计算量比较大，是一种CPU密集型的、对响应时间敏感的信息检索系统。一方面是用户对于其智能化的需求，一方面又是用户对于其响应速度的需求，保持两者之间的平衡一直是个难题。

所幸业界有很多较为成熟的搜索产品：Solar/Lucene、ElasticSearch，也有很多可供借鉴的算法，还有很多或新或旧的存储，例如HBase、LevelDB、RocksDB等等。他山之石可以攻玉，只要我们不迷信权威，充分了解这些产品或者算法背后的实现原理，就可以站在巨人的肩膀上，更加灵活地找到适合当前场景的技术方案，甚至创造出全新的算法和工具，不断提升用户的搜索体验。

【推荐阅读】

数据治理落地难？携程度假数据治理需求设计实践
用户画像在携程商旅的实践
携程是如何做AB实验分流的
100亿+数据量，每天50W+查询，携程酒店数据智能平台实践
《携程架构实践》《携程人工智能实践》上市啦！

“携程技术”公众号后台回复“新书”，

可免费获得两本书的试读样章~

《携程架构实践》

京东

当当

《携程人工智能实践》

京东

当当

“携程技术”公众号

分享，交流，成长

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
SQL Server_查询某一数据库中的所有表的内容 qq_42772833 SQL Server 数据库 sqlserver
1.查看所有表的表名要列出CrabFarmDB数据库中的所有表（名），可以使用以下SQL语句：USECrabFarmDB;--切换到目标数据库GOSELECTTABLE_NAMEFROMINFORMATION_SCHEMA.TABLESWHERETABLE_TYPE='BASETABLE';对这段SQL脚本的解释：SELECTTABLE_NAME：这个语句的作用是从查询结果中选择TABLE_NAM
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
MongoDB Oplog 窗口喝醉酒的小白 MongoDB 运维
在MongoDB中，oplog（操作日志）是一个特殊的日志系统，用于记录对数据库的所有写操作。oplog允许副本集成员（通常是从节点）应用主节点上已经执行的操作，从而保持数据的一致性。它是MongoDB副本集实现数据复制的基础。MongoDBOplog窗口oplog窗口是指在MongoDB副本集中，从节点可以用来同步数据的时间范围。这个窗口通常由以下因素决定：Oplog大小：oplog的大小是有限
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
【PG】常见数据库、表属性设置江无羡数据库
PG的常见属性配置方法数据库复制、备份相关表的复制标识单表操作批量表操作链接数据库复制、备份相关表的复制标识单表操作通过ALTER语句单独更改一张表的复制标识。ALTERTABLE[tablename]REPLICAIDENTITYFULL;批量表操作通过代码块的方式，对某个schema中的所有表一起更新其复制标识。SELECTtablename,CASErelreplidentWHEN'd'TH
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
关于Mysql 中 Row size too large (＞ 8126) 错误的解决和理解秋刀prince mysql mysql 数据库
提示：啰嗦一嘴，数据库的任何操作和验证前，一定要记得先备份！！！不会有错；文章目录问题发现一、问题导致的可能原因1、页大小2、行格式2.1compact格式2.2Redundant格式2.3Dynamic格式2.4Compressed格式3、BLOB和TEXT列二、解决办法1、修改页大小（不推荐）2、修改行格式3、修改数据类型为BLOB和TEXT列4、其他优化方式（可以参考使用）4.1合理设置数据
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
JVM、JRE和 JDK：理解Java开发的三大核心组件 Y雨何时停T Java java
Java是一门跨平台的编程语言，它的成功离不开背后强大的运行环境与开发工具的支持。在Java的生态中，JVM（Java虚拟机）、JRE（Java运行时环境）和JDK（Java开发工具包）是三个至关重要的核心组件。本文将探讨JVM、JDK和JRE的区别，帮助你更好地理解Java的运行机制。1.JVM：Java虚拟机（JavaVirtualMachine）什么是JVM？JVM，即Java虚拟机，是Ja
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
数据结构 | 栈和队列 TT-Kun 数据结构与算法数据结构栈队列 C语言
文章目录栈和队列1.栈：后进先出（LIFO）的数据结构1.1概念与结构1.2栈的实现2.队列：先进先出（FIFO）的数据结构2.1概念与结构2.2队列的实现3.栈和队列算法题3.1有效的括号3.2用队列实现栈3.3用栈实现队列3.4设计循环队列结论栈和队列在计算机科学中，栈和队列是两种基本且重要的数据结构，它们在处理数据存储和访问顺序方面有着独特的规则和应用。本文将详细介绍栈和队列的概念、结构、实
[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
开发者关心的那些事圣子足道 ios 游戏编程 apple 支付
我要在app里添加IAP，必须要注册自己的产品标识符（product identifiers）。产品标识符是什么？产品标识符（Product Identifiers）是一串字符串，它用来识别你在应用内贩卖的每件商品。App Store用产品标识符来检索产品信息，标识符只能包含大小写字母（A-Z）、数字（0-9）、下划线（-）、以及圆点(.)。你可以任意排列这些元素，但我们建议你创建标识符时使用
负载均衡器技术Nginx和F5的优缺点对比 bijian1013 nginx F5
对于数据流量过大的网络中，往往单一设备无法承担，需要多台设备进行数据分流，而负载均衡器就是用来将数据分流到多台设备的一个转发器。目前有许多不同的负载均衡技术用以满足不同的应用需求，如软/硬件负载均衡、本地/全局负载均衡、更高
LeetCode[Math] - #9 Palindrome Number Cwind java Algorithm 题解 LeetCode Math
原题链接：#9 Palindrome Number 要求：判断一个整数是否是回文数，不要使用额外的存储空间难度：简单分析：题目限制不允许使用额外的存储空间应指不允许使用O(n)的内存空间，O(1)的内存用于存储中间结果是可以接受的。于是考虑将该整型数反转，然后与原数字进行比较。注：没有看到有关负数是否可以是回文数的明确结论，例如
画图板的基本实现 15700786134 画图板
要实现画图板的基本功能，除了在qq登陆界面中用到的组件和方法外，还需要添加鼠标监听器，和接口实现。首先，需要显示一个JFrame界面： public class DrameFrame extends JFrame { //显示
linux的ps命令被触发 linux
Linux中的ps命令是Process Status的缩写。ps命令用来列出系统中当前运行的那些进程。ps命令列出的是当前那些进程的快照，就是执行ps命令的那个时刻的那些进程，如果想要动态的显示进程信息，就可以使用top命令。要对进程进行监测和控制，首先必须要了解当前进程的情况，也就是需要查看当前进程，而 ps 命令就是最基本同时也是非常强大的进程查看命令。使用该命令可以确定有哪些进程正在运行
Android 音乐播放器下一曲连续跳几首歌肆无忌惮_ android
最近在写安卓音乐播放器的时候遇到个问题。在MediaPlayer播放结束时会回调 player.setOnCompletionListener(new OnCompletionListener() { @Override public void onCompletion(MediaPlayer mp) { mp.reset(); Log.i("H
java导出txt文件的例子知了ing java servlet
代码很简单就一个servlet,如下： package com.eastcom.servlet; import java.io.BufferedOutputStream; import java.io.IOException; import java.net.URLEncoder; import java.sql.Connection; import java.sql.Resu
Scala stack试玩, 提高第三方依赖下载速度矮蛋蛋 scala sbt
原文地址： http://segmentfault.com/a/1190000002894524 sbt下载速度实在是惨不忍睹, 需要做些配置优化下载typesafe离线包, 保存为ivy本地库 wget http://downloads.typesafe.com/typesafe-activator/1.3.4/typesafe-activator-1.3.4.zip 解压r
phantomjs安装(linux，附带环境变量设置) ，以及casperjs安装。 alleni123 linux spider
1. 首先从官网 http://phantomjs.org/下载phantomjs压缩包，解压缩到/root/phantomjs文件夹。 2. 安装依赖 sudo yum install fontconfig freetype libfreetype.so.6 libfontconfig.so.1 libstdc++.so.6 3. 配置环境变量 vi /etc/profil
JAVA IO FileInputStream和FileOutputStream，字节流的打包输出百合不是茶 java核心思想 JAVA IO操作字节流
在程序设计语言中，数据的保存是基本，如果某程序语言不能保存数据那么该语言是不可能存在的，JAVA是当今最流行的面向对象设计语言之一，在保存数据中也有自己独特的一面，字节流和字符流 1，字节流是由字节构成的，字符流是由字符构成的字节流和字符流都是继承的InputStream和OutPutStream ,java中两种最基本的就是字节流和字符流类 FileInputStream
Spring基础实例（依赖注入和控制反转） bijian1013 spring
前提条件：在http://www.springsource.org/download网站上下载Spring框架，并将spring.jar、log4j-1.2.15.jar、commons-logging.jar加载至工程1.武器接口 package com.bijian.spring.base3; public interface Weapon { void kil
HR看重的十大技能 bijian1013 提升能力 HR 成长
一个人掌握何种技能取决于他的兴趣、能力和聪明程度，也取决于他所能支配的资源以及制定的事业目标，拥有过硬技能的人有更多的工作机会。但是，由于经济发展前景不确定，掌握对你的事业有所帮助的技能显得尤为重要。以下是最受雇主欢迎的十种技能。　　一、解决问题的能力　　每天，我们都要在生活和工作中解决一些综合性的问题。那些能够发现问题、解决问题并迅速作出有效决
【Thrift一】Thrift编译安装 bit1129 thrift
什么是Thrift The Apache Thrift software framework, for scalable cross-language services development, combines a software stack with a code generation engine to build services that work efficiently and s
【Avro三】Hadoop MapReduce读写Avro文件 bit1129 mapreduce
Avro是Doug Cutting(此人绝对是神一般的存在）牵头开发的。开发之初就是围绕着完善Hadoop生态系统的数据处理而开展的（使用Avro作为Hadoop MapReduce需要处理数据序列化和反序列化的场景）,因此Hadoop MapReduce集成Avro也就是自然而然的事情。这个例子是一个简单的Hadoop MapReduce读取Avro格式的源文件进行计数统计，然后将计算结果
nginx定制500，502，503，504页面 ronin47 nginx　错误显示
server { listen 80; error_page 500/500.html; error_page 502/502.html; error_page 503/503.html; error_page 504/504.html; location /test {return502;}} 配置很简单，和配
java-1.二叉查找树转为双向链表 bylijinnan 二叉查找树
import java.util.ArrayList; import java.util.List; public class BSTreeToLinkedList { /* 把二元查找树转变成排序的双向链表题目：输入一棵二元查找树，将该二元查找树转换成一个排序的双向链表。要求不能创建任何新的结点，只调整指针的指向。 10 / \ 6 14 / \
Netty源码学习-HTTP-tunnel bylijinnan java netty
Netty关于HTTP tunnel的说明： http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/socket/http/package-summary.html#package_description 这个说明有点太简略了一个完整的例子在这里： https://github.com/bylijinnan
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别 coder_xpf jquery json map val()
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别数据库查询出来的map有一个字段为空通过System.out.println()输出 JSONUtil.serialize(map)： {"one":"1","two":"nul
Hibernate缓存总结 cuishikuan 开源 ssh javaweb hibernate缓存三大框架
一、为什么要用Hibernate缓存？ Hibernate是一个持久层框架，经常访问物理数据库。为了降低应用程序对物理数据源访问的频次，从而提高应用程序的运行性能。缓存内的数据是对物理数据源中的数据的复制，应用程序在运行时从缓存读写数据，在特定的时刻或事件会同步缓存和物理数据源的数据。二、Hibernate缓存原理是怎样的？ Hibernate缓存包括两大类：Hib
CentOs6 dalan_123 centos
首先su - 切换到root下面1、首先要先安装GCC GCC-C++ Openssl等以来模块：yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel2、再安装ncurses模块yum -y install ncurses-develyum install ncurses-devel3、下载Erang
10款用 jquery 实现滚动条至页面底端自动加载数据效果 dcj3sjt126com JavaScript
无限滚动自动翻页可以说是web2.0时代的一项堪称伟大的技术，它让我们在浏览页面的时候只需要把滚动条拉到网页底部就能自动显示下一页的结果，改变了一直以来只能通过点击下一页来翻页这种常规做法。无限滚动自动翻页技术的鼻祖是微博的先驱：推特(twitter)，后来必应图片搜索、谷歌图片搜索、google reader、箱包批发网等纷纷抄袭了这一项技术，于是靠滚动浏览器滚动条
ImageButton去边框&Button或者ImageButton的背景透明 dcj3sjt126com imagebutton
在ImageButton中载入图片后，很多人会觉得有图片周围的白边会影响到美观，其实解决这个问题有两种方法一种方法是将ImageButton的背景改为所需要的图片。如：android:background="@drawable/XXX" 第二种方法就是将ImageButton背景改为透明，这个方法更常用在XML里； <ImageBut
JSP之c:foreach eksliang jsp forearch
原文出自：http://www.cnblogs.com/draem0507/archive/2012/09/24/2699745.html <c:forEach>标签用于通用数据循环，它有以下属性属性描述是否必须缺省值 items 进行循环的项目否无 begin 开始条件否 0 end 结束条件否集合中的最后一个项目 step 步长否 1
Android实现主动连接蓝牙耳机 gqdy365 android
在Android程序中可以实现自动扫描蓝牙、配对蓝牙、建立数据通道。蓝牙分不同类型，这篇文字只讨论如何与蓝牙耳机连接。大致可以分三步：一、扫描蓝牙设备： 1、注册并监听广播： BluetoothAdapter.ACTION_DISCOVERY_STARTED BluetoothDevice.ACTION_FOUND BluetoothAdapter.ACTION_DIS
android学习轨迹之四：org.json.JSONException: No value for hyz301 json
org.json.JSONException: No value for items 在JSON解析中会遇到一种错误，很常见的错误 06-21 12:19:08.714 2098-2127/com.jikexueyuan.secret I/System.out﹕ Result:{"status":1,"page":1,&
干货分享：从零开始学编程系列汇总 justjavac 编程
程序员总爱重新发明轮子，于是做了要给轮子汇总。从零开始写个编译器吧系列 (知乎专栏) 从零开始写一个简单的操作系统 (伯乐在线) 从零开始写JavaScript框架 (图灵社区) 从零开始写jQuery框架 (蓝色理想 ) 从零开始nodejs系列文章 (粉丝日志) 从零开始编写网络游戏
jquery-autocomplete 使用手册 macroli jquery Ajax 脚本
jquery-autocomplete学习一、用前必备官方网站：http://bassistance.de/jquery-plugins/jquery-plugin-autocomplete/ 当前版本：1.1 需要JQuery版本：1.2.6 二、使用 <script src="./jquery-1.3.2.js" type="text/ja
PLSQL-Developer或者Navicat等工具连接远程oracle数据库的详细配置以及数据库编码的修改超声波 oracle plsql
　　在服务器上将Oracle安装好之后接下来要做的就是通过本地机器来远程连接服务器端的oracle数据库，常用的客户端连接工具就是PLSQL-Developer或者Navicat这些工具了。刚开始也是各种报错，什么TNS:no listener;TNS:lost connection;TNS:target hosts...花了一天的时间终于让PLSQL-Developer和Navicat等这些客户
数据仓库数据模型之：极限存储--历史拉链表 superlxw1234 极限存储数据仓库数据模型拉链历史表
在数据仓库的数据模型设计过程中，经常会遇到这样的需求： 1. 数据量比较大; 2. 表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查看某一个用户在过去某一段时间内，更新过几次等等; 4. 变化的比例和频率不是很大，比如，总共有10
10点睛Spring MVC4.1-全局异常处理 wiselyman spring mvc
10.1 全局异常处理使用@ControllerAdvice注解来实现全局异常处理; 使用@ControllerAdvice的属性缩小处理范围 10.2 演示演示控制器 package com.wisely.web; import org.springframework.stereotype.Controller; import org.spring

干货 | 响应速度与智能化如何平衡，携程酒店搜索实践

概览

一、存储优化

1.1 数据压缩

1.2 空间索引

踩过的坑

1.3 KV存储

踩过的坑

二、查询智能化

2.1 语义查询生成流程

2.2 语义分析的常用算法

2.2.1 上下文无关句法分析（CFG）

2.2.2 依存句法分析

2.2.3 酒店联想引擎中使用的语义分析

三、智能纠错

3.1 LSH 局部敏感哈希

3.2 上下文纠错

3.3 优化编辑距离算法

四、搜索DSL

4.1 设计考量

4.1.1 降低学习成本

4.1.2 面向高性能场景

4.1.3 多态

支持更多的地理搜索功能

4.1.4 安全性

4.1.5 支持描述业务流程

踩过的坑

总结

你可能感兴趣的:(算法,搜索引擎,大数据,编程语言,数据库)