沃趣数据库管理平台

使用PostgreSQL创建高级搜索引擎

本文我们将探索PostgreSQL中的全文搜索功能，并研究我们能够复制多少典型搜索引擎功能。

如果您想跟随并尝试示例查询（我们建议这样做，这样更有趣），可以使用来自Kaggle的Wikipedia电影情节数据集执行代码示例。要导入它，请下载CSV文件，然后创建以下表格：

CREATE TABLE movies(  ReleaseYear int,  Title text,  Origin text,  Director text,  Casting text,  Genre text,  WikiPage text,  Plot text);

并像这样导入 CSV 文件：

\COPY movies(ReleaseYear, Title, Origin, Director, Casting, Genre, WikiPage, Plot)  FROM 'wiki_movie_plots_deduped.csv' DELIMITER ',' CSV HEADER;

该数据集包含 34,000 个电影标题，CSV 格式大小约为 81 MB。

PostgreSQL全文搜索原语

PostgreSQL的全文搜索方法提供了一些基础组件，您可以将它们组合起来创建自己的搜索引擎。这种方法非常灵活，但也意味着与Elasticsearch、Typesense或Mellisearch等搜索引擎相比，它通常感觉更低级，因为全文搜索并非主要用例。

主要的基础组件，我们将通过示例进行介绍，包括：

tsvector和tsquery数据类型
match运算符@@，用于检查tsquery是否与tsvector匹配
用于对每个匹配进行排名的函数（ts_rank、ts_rank_cd）
GIN索引类型，用于高效查询tsvector的倒排索引

我们将从这些基础组件开始，然后深入研究更高级的主题，包括相关性提升、容错处理和分面搜索。

tsvector

tsvector数据类型存储了一个排序后的词元列表。词元是一个字符串，就像一个标记，但它已被规范化，以便生成不同形式的同一个词。例如，规范化通常包括将大写字母转换为小写字母，并经常涉及去除后缀（例如英语中的s或ing）。下面是一个示例，使用to_tsvector函数将一个英语短语解析为tsvector。

SELECT * FROM unnest(to_tsvector('english',  'I''m going to make him an offer he can''t refuse. Refusing is not an option.')); lexeme | positions | weights--------+-----------+--------- go     | {3}       | {D} m      | {2}       | {D} make   | {5}       | {D} offer  | {8}       | {D} option | {17}      | {D} refus  | {12,13}   | {D,D}(6 rows)

正如您所见，停用词（例如"I"、"to"或"an"）被移除，因为它们在搜索中没有太大用处。这些词被规范化并缩减到它们的词根形式（例如"refuse"和"Refusing"都被转换为"refus"）。标点符号被忽略。对于每个词，记录了它在原始短语中的位置（例如"refus"是文本中的第12和第13个词），以及权重（在后面我们将讨论它们在排名中的用途）。

在上面的示例中，词到词元的转换规则是基于英语搜索配置的。使用简单搜索配置运行相同的查询将导致包含所有单词的tsvector，这些单词与文本中找到的单词一致。

SELECT * FROM unnest(to_tsvector('simple',  'I''m going to make him an offer he can''t refuse. Refusing is not an option.'));  lexeme  | positions | weights----------+-----------+--------- an       | {7,16}    | {D,D} can      | {10}      | {D} going    | {3}       | {D} he       | {9}       | {D} him      | {6}       | {D} i        | {1}       | {D} is       | {14}      | {D} m        | {2}       | {D} make     | {5}       | {D} not      | {15}      | {D} offer    | {8}       | {D} option   | {17}      | {D} refuse   | {12}      | {D} refusing | {13}      | {D} t        | {11}      | {D} to       | {4}       | {D}(16 rows)

正如您所见，"refuse"和"refusing"现在生成了不同的词元。简单配置在包含标签或标记的列中非常有用。

PostgreSQL内置了一套相当不错的语言配置。您可以运行以下命令查看列表：

SELECT cfgname FROM pg_ts_config;

值得注意的是，目前没有适用于CJK（中日韩）语言的配置，如果您需要在这些语言中创建搜索查询，这一点值得记住。虽然简单配置在实践中对不支持的语言应该工作得很好，但我不确定对于CJK语言是否足够。

tsquery tsquery数据类型用于表示规范化的查询。tsquery包含搜索术语，这些术语必须是已经规范化的词元，并且可以使用AND、OR、NOT和FOLLOWED BY等运算符组合多个术语。有一些函数（如to_tsquery、plainto_tsquery和websearch_to_tsquery）可帮助将用户编写的文本转换为正确的tsquery，主要是通过对文本中出现的单词进行规范化。

为了对tsquery有所了解，让我们通过websearch_to_tsquery看几个示例：

SELECT websearch_to_tsquery('english', 'the dark vader'); websearch_to_tsquery----------------------'dark' & 'vader'

这是一个逻辑上的AND，意味着文档需要同时包含“quick”和“dog”才能匹配。您也可以进行逻辑上的OR操作：

SELECT websearch_to_tsquery('english', 'quick OR dog'); websearch_to_tsquery---------------------- 'dark' | 'vader'

您还可以排除某些单词：

SELECT websearch_to_tsquery('english', 'dark vader -wars');   websearch_to_tsquery--------------------------- 'dark' & 'vader' & !'war'

此外，您还可以表示短语搜索：

SELECT websearch_to_tsquery('english', '"the dark vader son"');     websearch_to_tsquery------------------------------ 'dark' <-> 'vader' <-> 'son'

这意味着：“dark”后面是“vader”，然后是“son”。

然而，请注意，“the”一词被忽略了，因为它是根据英文搜索配置的停用词。这可能会在像这样的短语中引发问题：

SELECT websearch_to_tsquery('english', '"do or do not, there is no try"'); websearch_to_tsquery---------------------- 'tri'(1 row)

糟糕，几乎整个短语都消失了。使用简单配置可以得到预期的结果：

SELECT websearch_to_tsquery('simple', '"do or do not, there is no try"');                           websearch_to_tsquery-------------------------------------------------------------------------- 'do' <-> 'or' <-> 'do' <-> 'not' <-> 'there' <-> 'is' <-> 'no' <-> 'try'

您可以使用匹配操作符@@来检查tsquery是否与tsvector匹配。

SELECT websearch_to_tsquery('english', 'dark vader') @@  to_tsvector('english',    'Dark Vader is my father.');?column?---------- t

虽然下面的例子不匹配：

SELECT websearch_to_tsquery('english', 'dark vader -father') @@  to_tsvector('english',    'Dark Vader is my father.');?column?---------- f

GIN

既然我们已经看到了 tsvector 和 tsquery 的工作原理，现在让我们来看另一个关键构建块：GIN 索引类型是使其快速运行的关键。GIN 代表广义倒排索引（Generalized Inverted Index）。GIN 专门用于处理需要对复合值进行索引的情况，以及需要在索引中搜索出现在复合项内的元素值的查询。这意味着 GIN 不仅可以用于文本搜索，还可以用于 JSON 查询等其他用途。

您可以在一组列上创建 GIN 索引，或者您可以首先创建一个 tsvector 类型的列，以包括所有可搜索的列。例如：

ALTER TABLE movies ADD search tsvector GENERATED ALWAYS AS  (to_tsvector('english', Title) || ' ' ||   to_tsvector('english', Plot) || ' ' ||   to_tsvector('simple', Director) || ' ' ||   to_tsvector('simple', Genre) || ' ' ||   to_tsvector('simple', Origin) || ' ' ||   to_tsvector('simple', Casting)) STORED;

然后创建实际的索引：

CREATE INDEX idx_search ON movies USING GIN(search);

现在您可以执行如下简单的搜索测试：

SELECT title FROM movies WHERE search @@ websearch_to_tsquery('english','dark vader');                         title-------------------------------------------------- Star Wars Episode IV: A New Hope (aka Star Wars) Return of the Jedi Star Wars: Episode III – Revenge of the Sith(3 rows)

为了看到索引的效果，您可以比较上述查询的计时情况，包括有索引和无索引的情况。在我的计算机上，使用GIN索引的时间从200毫秒左右减少到约4毫秒。

ts_rank

到目前为止，我们已经看到了如何使用ts_vector和ts_query来匹配搜索查询。然而，为了获得良好的搜索体验，重要的是首先显示最佳结果，这意味着结果需要按相关性进行排序。

直接从文档中摘录：

PostgreSQL提供了两个预定义的排名函数，它们考虑了词汇、接近度和结构信息；也就是说，它们考虑查询词在文档中出现的频率、词项在文档中的接近程度以及它们出现的文档部分的重要性。然而，"相关性"的概念是模糊的，并且非常应用程序特定。不同的应用可能需要额外的信息来进行排名，例如文档的修改时间。内置的排名函数只是示例。您可以编写自己的排名函数和/或将它们的结果与其他因素结合起来，以适应您的特定需求。

这两个提到的排名函数是ts_rank和ts_rank_cd。它们之间的区别在于，虽然它们都考虑了词项的频率，但ts_rank_cd还考虑了匹配词项之间的接近程度。

要在查询中使用它们，可以这样做：

SELECT title,       ts_rank(search, websearch_to_tsquery('english', 'dark vader')) rank  FROM movies  WHERE search @@ websearch_to_tsquery('english','dark vader')  ORDER BY rank DESC  LIMIT 10;  title                                            |    rank--------------------------------------------------+------------ Return of the Jedi                               | 0.21563873 Star Wars: Episode III – Revenge of the Sith     | 0.12592985 Star Wars Episode IV: A New Hope (aka Star Wars) | 0.05174401

关于ts_rank需要注意的一点是它需要访问每个结果的搜索列。这意味着如果WHERE条件匹配了很多行，PostgreSQL需要访问它们所有以进行排名，这可能会很慢。举个例子，上面的查询在我的计算机上返回时间为5-7毫秒。如果我修改查询以搜索dark OR vader，返回时间约为80毫秒，因为现在有1000多个匹配结果需要进行排名和排序。

数字、日期和精确值增强器

虽然PostgreSQL没有直接支持基于其他列进行提升的功能，但排名实际上只是一个排序表达式，因此您可以向其中添加自定义信号。

例如，如果您想根据投票数量添加提升，可以执行以下操作：

SELECT title,  ts_rank(search, websearch_to_tsquery('english', 'jedi'))    -- numeric booster example    + log(NumberOfVotes)*0.01 FROM movies WHERE search @@ websearch_to_tsquery('english','jedi') ORDER BY rank DESC LIMIT 10;

对数函数用于平滑影响，而0.01因子使得提升与排名得分具有可比性。

您还可以设计更复杂的增强器，例如，只有在排名有一定数量的投票时才提升评级。为此，您可以创建以下函数：

create function numericBooster(rating numeric, votes numeric, voteThreshold numeric)  returns numeric as $$    select case when votes < voteThreshold then 0 else rating end;$$ language sql;

然后可以这样使用它：

SELECT title,  ts_rank(search, websearch_to_tsquery('english', 'jedi'))    -- numeric booster example    + numericBooster(Rating, NumberOfVotes, 100)*0.005 FROM movies WHERE search @@ websearch_to_tsquery('english','jedi') ORDER BY rank DESC LIMIT 10;

让我们再举一个例子。假设我们想提高喜剧的排名。你可以创建一个类似下面的 valueBooster 函数：

create function valueBooster (col text, val text, factor integer)  returns integer as $$    select case when col = val then factor else 0 end;$$ language sql;

如果列的值与特定值匹配，则该函数返回一个因子；否则返回 0。可以像这样在查询中使用它：

SELECT title, genre,
   ts_rank(search, websearch_to_tsquery('english', 'jedi'))
   -- value booster example
   + valueBooster(Genre, 'comedy', 0.05) rank
FROM movies
   WHERE search @@ websearch_to_tsquery('english','jedi')                                                                                                 ORDER BY rank DESC LIMIT 10;
                      title                       |               genre                |        rank
--------------------------------------------------+------------------------------------+---------------------
 The Men Who Stare at Goats                       | comedy                             |  0.1107927106320858
 Clerks                                           | comedy                             |  0.1107927106320858
 Star Wars: The Clone Wars                        | animation                          | 0.09513916820287704
 Star Wars: Episode I – The Phantom Menace 3D     | sci-fi                             | 0.09471701085567474
 Star Wars: Episode I – The Phantom Menace        | space opera                        | 0.09471701085567474
 Star Wars: Episode II – Attack of the Clones     | science fiction                    | 0.09285612404346466
 Star Wars: Episode III – Revenge of the Sith     | science fiction, action            | 0.09285612404346466
 Star Wars: The Last Jedi                         | action, adventure, fantasy, sci-fi |  0.0889768898487091
 Return of the Jedi                               | science fiction                    | 0.07599088549613953
 Star Wars Episode IV: A New Hope (aka Star Wars) | science fiction                    | 0.07599088549613953
(10 rows)

列权重

记得我们谈到过 tsvector 词元可以附带权重吗？PostgreSQL 支持 4 种权重，它们分别是 A、B、C 和 D。A 是最高的权重，而 D 是最低的，默认权重。您可以通过 setweight 函数来控制权重，通常在构建 tsvector 列时调用该函数：

ALTER TABLE movies ADD search tsvector GENERATED ALWAYS AS   (setweight(to_tsvector('english', Title), 'A') || ' ' ||   to_tsvector('english', Plot) || ' ' ||   to_tsvector('simple', Director) || ' ' ||   to_tsvector('simple', Genre) || ' ' ||   to_tsvector('simple', Origin) || ' ' ||   to_tsvector('simple', Casting)) STORED;

让我们看看这个的效果。如果没有使用 setweight，搜索 dark vader OR jedi 的结果是：

SELECT title, ts_rank(search, websearch_to_tsquery('english', 'jedi')) rank   FROM movies   WHERE search @@ websearch_to_tsquery('english','jedi')   ORDER BY rank DESC;                      title                       |    rank--------------------------------------------------+------------- Star Wars: The Clone Wars                        |  0.09513917 Star Wars: Episode I – The Phantom Menace        |  0.09471701 Star Wars: Episode I – The Phantom Menace 3D     |  0.09471701 Star Wars: Episode III – Revenge of the Sith     | 0.092856124 Star Wars: Episode II – Attack of the Clones     | 0.092856124 Star Wars: The Last Jedi                         |  0.08897689 Return of the Jedi                               | 0.075990885 Star Wars Episode IV: A New Hope (aka Star Wars) | 0.075990885 Clerks                                           |  0.06079271 The Empire Strikes Back                          |  0.06079271 The Men Who Stare at Goats                       |  0.06079271 How to Deal                                      |  0.06079271(12 rows)

而使用标题列上的 setweight 后，结果为：

SELECT title, ts_rank(search, websearch_to_tsquery('english', 'jedi')) rank   FROM movies   WHERE search @@ websearch_to_tsquery('english','jedi')   ORDER BY rank DESC;                      title                       |    rank--------------------------------------------------+------------- Star Wars: The Last Jedi                         |   0.6361112 Return of the Jedi                               |   0.6231253 Star Wars: The Clone Wars                        |  0.09513917 Star Wars: Episode I – The Phantom Menace        |  0.09471701 Star Wars: Episode I – The Phantom Menace 3D     |  0.09471701 Star Wars: Episode III – Revenge of the Sith     | 0.092856124 Star Wars: Episode II – Attack of the Clones     | 0.092856124 Star Wars Episode IV: A New Hope (aka Star Wars) | 0.075990885 The Empire Strikes Back                          |  0.06079271 Clerks                                           |  0.06079271 The Men Who Stare at Goats                       |  0.06079271 How to Deal                                      |  0.06079271(12 rows)

容忍错别字/模糊搜索

PostgreSQL 在使用 tsvector 和 tsquery 时不直接支持模糊搜索或容忍错别字。然而，基于以下假设，我们可以实现以下思路：

在单独的表中索引内容中的所有词元
对查询中的每个单词，使用相似度或Levenshtein距离在此表中进行搜索
修改查询以包括找到的任何单词
执行搜索

以下是其工作原理。首先，使用 ts_stats 获取所有单词并存储在一个物化视图中：

CREATE MATERLIAZED VIEW unique_lexeme AS   SELECT word FROM ts_stat('SELECT search FROM movies');

现在，对于查询中的每个单词，检查它是否在 unique_lexeme 视图中。如果不存在，则在该视图中进行模糊搜索，以找到可能的拼写错误：

SELECT * FROM unique_lexeme   WHERE levenshtein_less_equal(word, 'pregant', 2) < 2;    word---------- premant pregrant pregnant paegant

在上面的代码中，我们使用了Levenshtein距离，因为这是像Elasticsearch这样的搜索引擎在模糊搜索中使用的算法。

一旦你有了候选词列表，你需要调整查询以包含它们所有。

分面搜索

分面搜索在电子商务网站上很受欢迎，特别是因为它帮助客户逐步缩小他们的搜索范围。以下是来自amazon.com的一个示例：

上述方法可以通过手动定义分类并将其作为搜索的 WHERE 条件添加来实现。另一种方法是根据现有数据以算法方式创建分类。例如，您可以使用以下代码创建一个“年代”分面：

SELECT ReleaseYear/10*10 decade, count(Title) cnt FROM movies  WHERE search @@ websearch_to_tsquery('english','star wars')  GROUP BY decade ORDER BY cnt DESC; decade | cnt--------+-----   2000 |  39   2010 |  31   1990 |  29   1950 |  28   1940 |  26   1980 |  22   1930 |  13   1960 |  11   1970 |   7   1910 |   3   1920 |   3(11 rows)

这还提供了每个年代的匹配计数，您可以在括号中显示出来。

如果您想在单个查询中获取多个分面，可以将它们组合起来，例如使用公共表表达式（CTEs）：

WITH releaseYearFacets AS (  SELECT 'Decade' facet, (ReleaseYear/10*10)::text val, count(Title) cnt  FROM movies  WHERE search @@ websearch_to_tsquery('english','star wars')  GROUP BY val ORDER BY cnt DESC),genreFacets AS (  SELECT 'Genre' facet, Genre val, count(Title) cnt FROM movies  WHERE search @@ websearch_to_tsquery('english','star wars')  GROUP BY val ORDER BY cnt DESC LIMIT 5)SELECT * FROM releaseYearFacets UNION SELECT * FROM genreFacets;  facet  |   val   | cnt--------+---------+----- Decade | 1910    |   3 Decade | 1920    |   3 Decade | 1930    |  13 Decade | 1940    |  26 Decade | 1950    |  28 Decade | 1960    |  11 Decade | 1970    |   7 Decade | 1980    |  22 Decade | 1990    |  29 Decade | 2000    |  39 Decade | 2010    |  31 Genre  | comedy  |  21 Genre  | drama   |  35 Genre  | musical |   9 Genre  | unknown |  13 Genre  | war     |  15(16 rows)

上述方法在小到中等规模的数据集上应该能够很好地工作，但在非常大的数据集上可能会变得较慢。

结论

我们已经了解了PostgreSQL的全文搜索基础知识，以及如何将它们组合起来创建一个相当高级的全文搜索引擎，这个引擎还支持诸如连接和ACID事务等功能。换句话说，它具有其他搜索引擎通常没有的功能。

作者：Tudor Golubenco

更多技术干货请关注公号“云原生数据库”

squids.cn，目前可体验全网zui低价云数据库RDS，免费的数据库迁移工具DBMotion、备份工具、SQL开发工具等。

你可能感兴趣的:(技术专栏,postgresql,搜索引擎,数据库)

Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
SQL Server_查询某一数据库中的所有表的内容 qq_42772833 SQL Server 数据库 sqlserver
1.查看所有表的表名要列出CrabFarmDB数据库中的所有表（名），可以使用以下SQL语句：USECrabFarmDB;--切换到目标数据库GOSELECTTABLE_NAMEFROMINFORMATION_SCHEMA.TABLESWHERETABLE_TYPE='BASETABLE';对这段SQL脚本的解释：SELECTTABLE_NAME：这个语句的作用是从查询结果中选择TABLE_NAM
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
MongoDB Oplog 窗口喝醉酒的小白 MongoDB 运维
在MongoDB中，oplog（操作日志）是一个特殊的日志系统，用于记录对数据库的所有写操作。oplog允许副本集成员（通常是从节点）应用主节点上已经执行的操作，从而保持数据的一致性。它是MongoDB副本集实现数据复制的基础。MongoDBOplog窗口oplog窗口是指在MongoDB副本集中，从节点可以用来同步数据的时间范围。这个窗口通常由以下因素决定：Oplog大小：oplog的大小是有限
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
【PG】常见数据库、表属性设置江无羡数据库
PG的常见属性配置方法数据库复制、备份相关表的复制标识单表操作批量表操作链接数据库复制、备份相关表的复制标识单表操作通过ALTER语句单独更改一张表的复制标识。ALTERTABLE[tablename]REPLICAIDENTITYFULL;批量表操作通过代码块的方式，对某个schema中的所有表一起更新其复制标识。SELECTtablename,CASErelreplidentWHEN'd'TH
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
关于Mysql 中 Row size too large (＞ 8126) 错误的解决和理解秋刀prince mysql mysql 数据库
提示：啰嗦一嘴，数据库的任何操作和验证前，一定要记得先备份！！！不会有错；文章目录问题发现一、问题导致的可能原因1、页大小2、行格式2.1compact格式2.2Redundant格式2.3Dynamic格式2.4Compressed格式3、BLOB和TEXT列二、解决办法1、修改页大小（不推荐）2、修改行格式3、修改数据类型为BLOB和TEXT列4、其他优化方式（可以参考使用）4.1合理设置数据
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
MongoDB知识概括 GeorgeLin98 持久层 mongodb
MongoDB知识概括MongoDB相关概念单机部署基本常用命令索引-IndexSpirngDataMongoDB集成副本集分片集群安全认证MongoDB相关概念业务应用场景：传统的关系型数据库（如MySQL），在数据操作的“三高”需求以及应对Web2.0的网站需求面前，显得力不从心。解释：“三高”需求：①Highperformance-对数据库高并发读写的需求。②HugeStorage-对海量数
Mongodb Error: queryTxt ETIMEOUT xxxx.wwwdz.mongodb.net 佛一脚 error react mongodb 数据库
背景每天都能遇到奇怪的问题，做个记录，以便有缘人能得到帮助！换了一台电脑开发nextjs程序。需要连接mongodb数据，对数据进行增删改查。上一台电脑好好的程序，新电脑死活连不上mongodb数据库。同一套代码，没任何修改，搞得我怀疑人生了，打开浏览器进入mongodb官网毫无问题，也能进入线上系统查看数据，网络应该是没问题。于是我尝试了一下手机热点，这次代码能正常跑起来，连接数据库了！！！是不
入门MySQL——查询语法练习 K_un
前言：前面几篇文章为大家介绍了DML以及DDL语句的使用方法，本篇文章将主要讲述常用的查询语法。其实MySQL官网给出了多个示例数据库供大家实用查询，下面我们以最常用的员工示例数据库为准，详细介绍各自常用的查询语法。1.员工示例数据库导入官方文档员工示例数据库介绍及下载链接：https://dev.mysql.com/doc/employee/en/employees-installation.h
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
ubuntu安装wordpress lissettecarlr
1安装nginx网上安装方式很多，这就就直接用apt-get了apt-getinstallnginx不用启动啥，然后直接在浏览器里面输入IP:80就能看到nginx的主页了。如果修改了一些配置可以使用下列命令重启一下systemctlrestartnginx.service2安装mysql输入安装前也可以更新一下软件源，在安装过程中将会让你输入数据库的密码。sudoapt-getinstallmy
深入浅出 -- 系统架构之负载均衡Nginx的性能优化 xiaoli8748_软件开发系统架构系统架构负载均衡 nginx
一、Nginx性能优化到这里文章的篇幅较长了，最后再来聊一下关于Nginx的性能优化，主要就简单说说收益最高的几个优化项，在这块就不再展开叙述了，毕竟影响性能都有多方面原因导致的，比如网络、服务器硬件、操作系统、后端服务、程序自身、数据库服务等，对于性能调优比较感兴趣的可以参考之前《JVM性能调优》中的调优思想。优化一：打开长连接配置通常Nginx作为代理服务，负责分发客户端的请求，那么建议开启H
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
计算机毕业设计PHP仓储综合管理系统（源码+程序+VUE+lw+部署） java毕设程序源码王哥 php 课程设计 vue.js
该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程。欢迎交流项目运行环境配置：phpStudy+Vscode+Mysql5.7+HBuilderX+Navicat11+Vue+Express。项目技术：原生PHP++Vue等等组成，B/S模式+Vscode管理+前后端分离等等。环境需要1.运行环境：最好是小皮phpstudy最新版，我们在这个版本上开发的。其他版本理论上也可以。2.开发
ChatGPT 高效学习套路揭秘：让知识获取事半功倍的秘诀 kkai人工智能 chatgpt 人工智能学习媒体 ai
最近这段时间，AI热潮因ChatGPT的火爆再次掀起。如今，网上大部分内容都在调侃AI，但很少有人探讨如何正经使用ChatGPT做事情。作为一名靠搜索引擎和GitHub自学编程的开发者，第一次和ChatGPT深度交流后，我就确信：ChatGPT能够极大提高程序员学习新技术的效率。使用ChatGPT一个月后，我越发感受到它的颠覆性。因此，我想从工作和学习的角度，分享它的优势及我的一些使用技巧，而非娱
3.增删改查--连接查询问女何所忆
关系型数据库的一个特点就是，多张表之间存在关系，以致于我们可以连接多张表进行查询操作，所以连接查询会是关系型数据库中最常见的操作。连接查询主要分为三种，交叉连接、内连接和外连接，我们一个个说。1、交叉连接交叉连接其实连接查询的第一个阶段，它简单表现为两张表的笛卡尔积形式，具体例子：如果你没学过数学中的笛卡尔积概念，你可以这样简单的理解这里的交叉连接：两张表的交叉连接就是一个连接合并的过程，T1表中
docker from指令的含义_多个FROM-含义 weixin_39722188 docker from指令的含义
小编典典什么是基本图片？一组文件，加上EXPOSE端口ENTRYPOINT和CMD。您可以添加文件并基于该基础图像构建新图像，Dockerfile并以FROM指令开头：后面提到的图像FROM是新图像的“基础图像”。这是否意味着如果我neo4j/neo4j在FROM指令中声明，则在运行映像时，neo数据库将自动运行并且可在端口7474的容器中使用？仅当您不覆盖CMD和时ENTRYPOINT。但是图像
Redis:缓存击穿我的程序快快跑啊缓存 redis java
缓存击穿(热点key)：部分key(被高并发访问且缓存重建业务复杂的)失效,无数请求会直接到数据库，造成巨大压力1.互斥锁：可以保证强一致性线程一：未命中之后，获取互斥锁，再查询数据库重建缓存，写入缓存，释放锁线程二：查询未命中，未获得锁(已由线程一获得)，等待一会，缓存命中互斥锁实现方式：redis中setnxkeyvalue:改变对应key的value,仅当value不存在时执行，以此来实现互
mysql学习教程，从入门到精通，TOP 和MySQL LIMIT 子句（15）知识分享小能手大数据数据库 MySQL mysql 学习 oracle 数据库开发语言 adb 大数据
1、TOP和MySQLLIMIT子句内容在SQL中，不同的数据库系统对于限制查询结果的数量有不同的实现方式。TOP关键字主要用于SQLServer和Access数据库中，而LIMIT子句则主要用于MySQL、PostgreSQL（通过LIMIT/OFFSET语法）、SQLite等数据库中。下面将分别详细介绍这两个功能的语法、语句以及案例。1.1、TOP子句（SQLServer和Access）1.1
ERROR 1064 (42000): You have an error in your SQL syntax; check the manual that corresponds to your †徐先森® Oracle数据库 Web相关错误集
createtablestudents(idintunsignedprimarykeyauto_increment,namevarchar(50)notnull,ageintunsigned,highdecimal(3,2),genderenum('男','女','中性','保密','妖')default'保密',cls_idintunsigned);在对数据库插入如上带有中文带有默认值的字段的时
Redis 有哪些危险命令？如何防范？花小疯 redis 缓存数据库危险命令大数据
Redis有哪些危险命令？Redis的危险命令主要有以下几个：1.keys客户端可查询出所有存在的键。2.flushdb删除Redis中当前所在数据库中的所有记录，并且此命令从不会执行失败。3.flushall删除Redis中所有数据库中的所有记录，不止是当前所在数据库，并且此命令从不会执行失败。4.config客户端可修改Redis配置。怎么禁用和重命名危险命令？看下redis.conf默认配置
【Golang】 Golang 的 GORM 库中的 Rows 函数不爱洗脚的小滕 golang 开发语言后端
文章目录前言一、Rows函数解释二、代码实现三、总结前言在使用Go语言进行数据库操作时，GORM（GoObject-RelationalMapping）库是一个常用的工具。它提供了一种简洁和强大的方式来处理数据库操作。本文将介绍GORM库中的Rows函数，这是一个用于执行原生SQL查询并返回结果的函数。一、Rows函数解释在GORM库中，Rows函数用于执行原生SQL查询并返回*sql.Rows结
接口测试如何设计测试用例李蕴Ronnie
接口测试用例设计方式针对每个必填参数，都设计一条参数为空的测试用例必填参数不存在传的参数值在数据库中不存在添加数据接口，传入已有的数据重复添加编辑数据接口，各个字段分别编辑，合并编辑参数数据类型限制，针对每个参数设计一条参数值类型不符合的逆向用例参数自身取值范围，针对所有参数，设计一条每个参数值在取值范围内最大值的正向测试用例是否满足前提条件（token、headers），几个前提条件几条用例针对
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {