码农老张Zy

【迅搜02】究竟什么是搜索引擎？正式介绍XunSearch

究竟什么是搜索引擎？正式介绍XunSearch

啥？还要单独讲一下啥是搜索引擎？不就是百度、Google嘛，这玩意天天用，还轮的到你来说？

额，好吧，虽然大家天天都在用，但是我发现，其实很多人对搜索引擎并不是特别了解，更别提搜索引擎开发了。不信？那么咱们就一步一步来看。

搜索引擎

上来先官方，看看百科中对搜索引擎的定义。

搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上采集信息，在对信息进行组织和处理后，为用户提供检索服务，将检索的相关信息展示给用户的系统。搜索引擎是工作于互联网上的一门检索技术，它指在提高人们获取搜集信息的速度，为人们提供更好的网络使用环境。从功能和原理上搜索引擎大致被分为全文搜索引擎、元搜索引擎、垂直搜索引擎和目录搜索引擎等四大类。

嗯，一堆没啥用的概念。但我们能从中看到，搜索引擎是根据策略，也就是根据我们的搜索关键词，以最快的速度返回匹配度最高的信息。然后包括全文检索、垂直搜索这两个重要的类型，我们日常开发中，需要开发的也正是这类搜索引擎。

通常来说，在数据库中，如果数据量不大，其实通过 like 就可以实现模糊匹配。这就是一种搜索实现，只不过，like 如果是前后都有 % 的，就走不了索引，数据库引擎需要对每一条数据的每一个字段里面的内容进行全部的单词匹配。如果数据量大了，那么效果可想而知。特别是如果是针对大型的文章、文献，本身字段的内容也非常长，这样匹配就更费劲了。

而搜索引擎，一般会采用倒排索引，能够大大提升词组的匹配效率，进而提升查询速度。关于倒排索引的概念我们会在后面再说。

既然提到了倒排索引，那么就要牵涉出另一个词汇，那就是分词。很多人会把搜索引擎的搜索功能和 like 混淆，这一点一定要搞清楚，如果不搞清楚，就会出现一个很大的误区。划重点了，分词+倒排索引，和 like 匹配，完全不是一个东西。

搜索引擎概念

在学习搜索引擎开发前，我们需要了解一些概念性的内容。

索引：搜索引擎中的索引只有一个，那就是倒排索引。后面的文章我们会详细的说明。搜索引擎在开始使用的时候，一定都有一个建立索引的过程。
分词：针对文档内容，以及查询语句，我们要将它们进行分词，如果不分词，就无法快速建立倒排索引。同时，中文分词又是非常重要的内容。
引擎：百度、Google的强大引擎不提，我们日常开发中用到的主要就是 Lucene 系列的，如 ElasticSearch、Solr 等，另外还有 Sphinx 使用的基于 SQL 的搜索引擎以及我们的主角 XunSearch 所使用的 Xapian 引擎。
排序/评分：我们查询了数据之后，数据是按什么顺序返回的呢？如果是数据库，可能会指定一个排序字段，但搜索引擎一般会根据相关性评分进行排序，也就是说，我们应该搜索到的是最贴近搜索词的内容，一般也是用户最想看到的内容。
标点符号：基本上所有的搜索引擎都会过滤掉标点符号，最开始我还在纠结为什么我单独来个问号搜索不到内容，其实呀，搜索引擎就是为了做语义词组搜索的，标点符号在大部分情况下是没有太多意义的呀。当然，百度上面是有意义的，但咱们不能跟他比。

虽说不全面，但上面几点内容应该是比较重要的方面。其中索引、分词、排序、评分等内容我们后面还会有更详细的学习。今天我们先来了解一下引擎和框架。

XunSearch 和 Xapian

XunSearch 中文名是迅搜，国人大佬开发，提供完整的 PHP SDK 组件。

不是说好了是学习 XunSearch 嘛？Xapian 是什么鬼？这个呀，其实用 ElasticSearch 和 Lucene 来解释就很清楚了。要说搜索引擎组件中的老大，ElasticSearch 可谓是一骑绝尘。如果你之前学习过 ES 相关的内容，那么 XS （后面我们就都用 XS 来指代 XunSearch 啦，就和 ES 一样）的内容学习就非常轻松了。如果你没有学习过 ES ，那也没关系，但希望你学习完我的 XS 系列之后，再去好好学习一下 ES ，因为有些东西 XS 真的是没有的，而且有些有的东西和 ES 也是没法比的。但搜索引擎的基本概念都是相通的，而且 XS 也有自身的优势。我们下一节也会说这些搜索引擎的选型以及优劣。

好了，话说回来。Lucene 是 Java 实现的一个搜索引擎，非常强大，也非常出名，但是呢，不好用。就是比较偏底层，就像是一个 JDK 或者说是原生写法去开发 PHP 应用。而 ES 则是构建在 Lucene 之上的，提供了各种方便使用的功能以及强大的 RESTFul 接口，能够方便地使用，就像是 Java 语言或者说是使用框架来开发 PHP 应用。Lucene 和 ES 的作者是同一个人。

同理，Xapian 正是我们 XS 的底层框架，XS 是建立在其之上的，通过封装提供了现成的 PHP SDK 能够让我们非常方便地使用。除了 Xapian 之外，XS 还一道封装好了 hightman 大佬开发的中文 SCWS 分词器。相当于一个 XS 就是 Xapina+SCWS+PHP SDK 的组合。是的，你没猜错，XS 也是 hightman 大佬开发的，而且到现在也一直在更新，最重要的是，这是咱们国人的，面向中文的优秀搜索引擎解决方案哦，感谢大神前辈的努力和奉献。

那么 ES 上有分词器嘛？老外开发的肯定是英文分词没问题啦。如果要使用中文的话，需要自己安装 IK 分词器或者其它分词器插件，不过 ES 的插件安装非常简单，其实也没啥难度。这里还需要注意的是一点是，即使是英文，所有的搜索引擎也会统一以小写建立索引，也就是说，搜索引擎是不区分大小写的，统一都是小写。

好了，这下应该清楚了吧，我们要学习的核心内容都有哪些。

倒排索引、分词的概念与原理
排序、相关度评分的算法概念
XS 的使用（PHP SDK工具、PHP SDK全部功能使用等）
SCWS、Xapian 的学习

现在知道为什么上篇文章中我会说咱们这一套文章和视频可能会是全网唯一了，因为咱们不只讲 XS 的使用，还要简单地学习一下 SCWS 和 Xapian ，并且通过这些再顺道一起学习搜索引擎相关的一些基础知识。当然，重点的核心内容肯定还是 XS 的使用咯，也就是我最擅长的带着大家一起刷文档啦！

搜索引擎选型

搜索引擎工具非常多，比如在 DBEngines 上，就能看到很多很多种。

ES 一骑绝尘这说法没毛病吧，所以我说，如果你之前学习过一点 ES ，那么看这个系列没啥压力，如果你没有学习过，那么学完 XS 后也最好再去看看。ES 最强大的部分在于天然分布式、性能强悍，现在也是大数据的标配了，上亿数据量轻松拿捏，更重要的是，它的生态好，社区活跃，这一点很重要。

除了 ES 之外，我略微了解过的还有 Solr 和 Sphinx ，其它的就不太清楚了。因此，我就主要对比这四个，大部分资料也是网上找到的。

	XunSearch	ElasticSearch	Solr	Sphinx
引擎	Xapian	Lucene	Lucene	不知道
引擎开发语言	C/C++	Java	Java	C/C++
应用语言	PHP（Xapian支持各种语言SDK，因此其实 XS 也支持各种语言）	各种语言	各种语言	各种语言
搜索功能支持	1.全文 2.搜索建议 3.分面 4.拼音搜索 5.突出显示 6.权重微调 7.拼写检查/纠错 8.突出显示	1.全文 2.自动完成建议 3.分面 4.多场 5.同义词 6.模糊 7.地理空间	1.全文 2.自动完成建议 3.分面 4.多字段 5.同义词 6.模糊 7.突出显示 8.地理空间 9.拼写检查	1. 全文 2. 自动完成建议 3. 分面 4. 多字段 5. 同义词（称为字形） 6. 地理空间 7. 突出显示（称为片段） 8. 拼写检查（称为qsuggest）
扩展与分布式	支持主从复制	天然分布式	支持分布式	支持主从复制
查询效率	中等	高，数据量越大，分布分片节点越多，与其它相比性能就越好	高	非常高，单索引亿级也能快速搜索
增量索引	支持	支持	支持	增量支持度一般，但全量MySQL生成索引非常快，与MySQL等配合紧密
中文支持	自带SCWS	IK、Jieba等	安装第三方分词器	安装第三方分词器
资源占用	低	高	高	中
数据量级	单索引百万	单索引单节点千万，分布式多节点多分片没上限	单索引单节点千万，分布式多节点没上限	单索引亿级
开发友好	极高，对我们 PHPer 来说当然是极高了，而且确实简单	高	高	高

好了，这些对比是不是客观全面我也不知道，反正也是网络上收集来的，不过大部分的对比文章都会提到这些。我们再拿 XS 和 ES 来总结一下，因为我更推荐的，就是只学这两个就可以了。

XS：简单好上手，中文分词友好，国人开发，文档齐备，部署方便，快速上线。唯一缺憾，没有地理空间索引，O2O相关的项目就不要考虑了。

ES：强大，排名无人可匹敌，天然分布式支持，能玩大数据的，知识体系更为庞大，除了搜索之外还有聚合计算以及分析能力，生态健全也更活跃。

为什么只推荐学习这两个呢？

第一，PHPer 们大部分接触到的项目，说实话，XS 完全足够。
第二，如果确实有很大的数据量，直接用最热门的，准没错。
第三，XS 上手简单，学习应用速度快，和 PHP 无缝对接，分分钟上线功能。
第四，ES 代表着最先进，所有的知识、插件、概念都比较新，功能齐全。
第五，搜索引擎的基础知识和原理是相通的，就像数据库的原理一样，需要使用其它的学习也很快。

怎么感觉说完这一节，更想去学 ES 了，哈哈哈哈！

好吧，咱们还是要以 XS 为主哦，不过在学习过程中，我们在需要做对比的时候，也会直接使用 ES 来进行对比。比如马上我们就会说一下问题。

搜索引擎真的不是 like

上一篇文章中，我们搭起了应用环境，也插入了一些测试数据，不知道大家有没有测试给出的那些查询语句的结果。其中有一条是这样的。

> php vendor/hightman/xunsearch/util/Quest.php demo 项

小伙伴们测了没？是不是查不出东西呀！

跟你说，查不出来就对了，用 ES 也查不出来。如果你学过 ES ，那么在 Kibana 中使用下面的 ES 命令建立索引并插入数据来进行测试。（如果没学过的话就等视频哈，在视频里我也会演示）

PUT demo
{
  "mappings": {
    "properties": {
      "pid":{
        "type":"integer"
      },
      "subject":{
        "type":"text",
        "analyzer": "ik_max_word"
      },
      "message":{
        "type":"text",
        "analyzer": "ik_max_word"
      },
      "chrono":{
        "type":"integer"
      }
    }
  }
}

POST demo/_doc
{
  "pid":1,
  "subject":"关于 xunsearch 的 DEMO 项目测试",
  "message":"项目测试是一个很有意思的行为！",
  "chrono":1314336158
}

POST demo/_doc
{
  "pid":2,
  "subject":"测试第二篇",
  "message":"这里是第二篇文章的内容",
  "chrono":1314336160
}

POST demo/_doc
{
  "pid":3,
  "subject":"项目测试第三篇",
  "message":"俗话说，无三不成礼，所以就有了第三篇",
  "chrono":1314336168
}

第一个 mappings 就是 ES 中的索引映射，就相当于表结构。我们针对 subject 和 message 使用了 IK 分词器来作为分词器。在 XS 中我们没有这个呀？不不不，有的，我们后面会看到，XS 自带的测试 demo 的结构就是和这个一样的。然后插入同样的三条数据。接下来进行查询测试。

GET demo/_search
{
  "query":{
    "query_string" : {
      "query" :"项目"
    }
  }
}

GET demo/_search
{
  "query":{
    "query_string" : {
      "query" :"项"
    }
  }
}

不出意外的话，第一个查询和我们在 XS 中的查询结果是一样的，第二条则也同样查不到任何数据。

为什么呢？因为分词，重点说三遍，分词分词分词，索引索引索引。“项”按正常的分词器，不管是 IK 还是 SCWS ，都不会当成一个单词，也就不会为它建立倒排索引，这样就无法查询到。

而 like 语句的原理，是针对字段里的值逐一匹配，ES 中有类似的 wildcard 功能，但如果数据量非常大的情况下，使用非前缀匹配的 wildcard 也会同样带来性能问题，因为它就和 MySQL 中使用 like 一样了，没法用到索引。XS 中没有类似的功能，XS 是完全的全文分词检索。

为啥要单独说这个？因为很多人，在迅搜的官网以及 Github 的 issue 中，都会不分青红皂白的上来就是说搜得不准，啥都搜不出来什么的。说实话，没有系统学习搜索引擎相关的知识前，我也不知道，我也以为它就是和 like 一样。为啥一个“项”字就搜不出来东西了？真是垃圾。

照这么说的话，ES 可能也得划到垃圾的范围中了。那么可以像类似于 like 一样去搜索吗？可以，但是不推荐，等到后面学习分词相关的知识时，我们会回来解决这个问题。

今天，我们先抛出问题，接下来的文章中咱们就一一学习全文检索、倒排索引、分词、文档、词频排序等等这一大堆的概念。

总结

今天的内容还好吧，比较概念，后面也还有一篇概念性的内容，主要就是倒排索引和分词的概念。完了之后才会开始正式的 XS 的应用学习，并在其中再穿插其它概念性的内容。没办法，我也想直接全部都在 XS 的学习过程中穿插概念性的内容，但是在搜索引擎中，索引和分词的概念确实是要提前说明的，就像上面的例子一样，否则大家就会一直在疑惑为啥总是搜索不到想要的东西。

不过反过来说，概念掌握了之后，其实不管是 XS 还是 ES ，或者其它任何搜索引擎工具，那都只是形式上的不同而已了。学习，在道、法、术三个层次中，最终要掌握的还是道，法是经验的积累，而术真的只是照着文档敲的事了。

另外做个小约定，从今天开始，全部使用 XunSearch 的简称 XS 了哦，有的地方可能我也会用中文名称迅搜，但不再打完整的 XunSearch 这个词了哦。同样的，在需要对比的地方，我也会用 ES 来表示 ElasticSearch 。

如何为你的网站部署HTTPS？分步指南 httpsssl证书网络安全
在当今网络环境中，HTTPS已从“加分项”变为“必选项”。无论是保护用户隐私、提升搜索引擎排名，还是避免浏览器“不安全”警告，部署HTTPS都是网站运营者的核心任务。只需四步，即可为你的网站筑起安全防线！第一步：选择SSL证书根据需求选择证书类型：DV型证书：适合个人博客、小型网站，可自动续签。OV/EV型证书：含企业身份验证，适合电商、金融等高信任场景，提供更长的保修与技术支持。↓↓↓↓↓↓↓↓
如何利用Python爬虫按图搜索1688商品（拍立淘）：实战指南数据小小爬虫 python 爬虫图搜索算法
在电商领域，按图搜索商品（类似“拍立淘”功能）是一种非常实用的功能，尤其适合用户通过图片快速查找相似商品。1688开放平台提供了按图搜索商品的API接口，允许开发者通过图片获取相关的商品信息。本文将详细介绍如何使用Python爬虫技术调用1688的按图搜索API接口，并解析返回的数据。一、技术背景按图搜索功能通常依赖于图像识别技术和搜索引擎。1688的“拍立淘”功能允许用户上传图片，系统会通过图像
RAG检索增强:知识图谱赋能的高效问答系统 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着互联网和信息技术的飞速发展，人们获取信息的方式和途径也发生了巨大的变化。传统的搜索引擎已经无法满足用户对于更精准、更个性化、更智能的信息获取需求。问答系统作为一种能够直接回答用户问题的智能系统，应运而生，并逐渐成为信息检索领域的研究热点。早期的问答系统主要基于模板匹配和关键词匹配等方法，其回答准确率和效率都比较低。近年来，随着深度学习技术的兴起，基于深度学习的问答系统取得了显著的进
信息搜集方法总结 Mr.95 WEB安全网络安全性测试 python 网络安全 web安全
文章目录前言一、域名和IP信息搜集（一）判断是否使用CDN（二）存在CND时查找真实IP（三）WHOIS信息查询（四）备案信息查询（五）给定IP反查其他信息（六）收集子域名信息（七）SRC活动查询权重（八）C段探测（九）JS文件域名、ip、接口探测（十）oneforall子域名探测工具（十一）隐藏域名host碰撞二、搜索引擎和情报社区（一）google常用语法（二）常用百度语法（三）常用fofa语
一文揭秘！Java 如何与 Elasticsearch 完美 “牵手”？程序员顾茗 java elasticsearch
引言本文适合有一定Java编程基础，且对搜索引擎技术感兴趣，尤其是希望在项目中运用Elasticsearch实现高效数据检索与分析功能的开发人员阅读。在当今大数据和高并发的时代，高效的数据检索与分析变得愈发关键。Elasticsearch作为一款强大的分布式搜索和分析引擎，受到了广泛青睐。而Java作为企业级开发的主流语言，如何与Elasticsearch无缝结合，发挥出最大效能呢？今天，就让我们
Amorphous Data如何在DigitalOcean上构建智能、经济的AI Agent DO_Community 案例人工智能 GPU ai Deepseek
在快节奏的企业环境中，员工常常需要快速获取准确的内部信息——从医疗保险计划的具体条款到公司战略的深度解读。但传统搜索引擎式的回答往往冰冷而机械化，缺乏“人味”。这正是AmorphousData的突破点：他们打造了一款自带性格与观点的AI专家助手，让企业内部知识库的交互体验焕然一新。从“答案”到“见解”：让AI拥有“人设”AmorphousData的核心产品是一个基于企业私有知识库的AI对话引擎。与
SEO新手操作实战精要老陈头聊SEO SEO 其他
内容概要在搜索引擎优化领域建立系统认知是新手突破入门瓶颈的关键。本指南以实战操作为核心脉络，从工具选择到执行路径层层拆解：首先建立SEO基础工具库，涵盖关键词挖掘、流量分析及竞争监测三类必备系统；其次聚焦站内优化黄金框架，详解标题（Title）、描述（Description）、关键词（Keywords）的权重配比与语义关联技巧；同时规划外链建设策略，梳理权威平台资源池与内容植入方法论。配合百度站长
语义向量模型全解：从基础到现在的deepseek中的语义向量主流模型来自于狂人人工智能语言模型
一、语义向量模型：自然语言处理的基石语义向量模型（SemanticVectorModel）是自然语言处理（NLP）的核心技术，它将词汇、句子或文档映射为高维向量，在数学空间中量化语义信息。通过向量距离（如余弦相似度）衡量语义的相似性，支撑了搜索引擎、情感分析、机器翻译等实际应用。1.1发展简史1980s~2000s：基于统计的浅层模型，如TF-IDF（直接表征词的重要性）、LSA（通过矩阵分解降维
揭秘Deepseek王炸组合：颠覆搜索体验的黑科技利器山峰999 人工智能大数据经验分享用户体验 deep learning
颠覆传统，重塑未来——Deepseek王炸组合引领搜索新时代在这个信息爆炸的时代，如何快速、准确地获取所需信息成为了每个人日常面临的挑战。而Deepseek凭借其强大的技术实力和创新的产品组合，正在重新定义搜索体验。今天，我们就来揭秘那些被誉为“王炸”的Deepseek组合，看看它们是如何在众多搜索引擎中脱颖而出，成为用户心中的首选。1.标题：智能搜索与AI助手的完美结合，打造无缝搜索体验Deep
认识Linux操作系统 yangyanzlh
任务一查找Linux系统的基本概况任务说明本任务的主要内容是通过网络查找Linux系统最基本的知识，然后对Linux操作系统有一个初步的认识；学会利用网络资源来收集与整理资料，并内化成自己的知识。任务实施第一步:通过搜索引擎搜索Linux在百度以及Google等引擎中搜索UNIX、Linux、Linux操作系统等关键词。阅读与Linux相关的文字材料。第二布：收集整理搜索到的网页（1）UNIX操作
Milvus「非结构化数据」的超级搜索引擎后端机器学习深度学习
Milvus可以简单理解为一个专门处理「非结构化数据」的超级搜索引擎。它的核心价值是：帮你快速从海量数据（比如图片、音频、视频、文本）中找到最相似的内容。举个例子秒懂：假设你有100万张图片，你想找其中和「某张猫咪图片」最相似的10张。如果用传统方法（比如人工比对或普通数据库），可能需要几小时甚至更久。而Milvus可以在毫秒级完成搜索，就像用百度搜文字一样快。核心作用：向量相似度搜索非结构化数据
Deepseek 使用指南与提问优化策略西瓜拍两瓣 ai 语言模型 python gpt
序言随着人工智能技术的迅猛发展，语义搜索已成为提升信息检索效率和用户体验的核心工具。DeepSeek作为一款先进的语义搜索引擎，通过自然语言处理（NLP）和机器学习技术，能够深入理解用户查询的语义意图，提供高度精准的搜索结果。本文将详细介绍DeepSeek的核心功能、集成方法，并深入探讨如何通过优化提问策略，最大化利用DeepSeek的语义搜索能力，从而提升信息检索的效率和准确性。访问DeepSe
Python爬虫岱宗夫up 教学 python 爬虫开发语言
python凭借其简洁的语法和强大的库支持，成为编写爬虫程序的首选语言之一。今天，我将通过一个简单的示例，带你入门Python爬虫，并展示如何爬取网页内容并保存到文本文件中。一、爬虫的基本概念爬虫（WebCrawler）是一种自动获取网页内容的程序。它模拟浏览器的行为，向目标网站发送请求，获取网页的HTML代码，然后通过解析HTML提取所需的数据。爬虫广泛应用于数据挖掘、搜索引擎优化、信息采集等领
推荐：Python Google Search API——无限制的搜索引擎工具箱舒京涌
推荐：PythonGoogleSearchAPI——无限制的搜索引擎工具箱项目地址:https://gitcode.com/gh_mirrors/py/python-gsearch在当今这个信息爆炸的时代，能够高效搜索信息至关重要。今天，我们为您推荐一个强大的开源工具——PythonGoogleSearchAPI，这是一款无需任何外部依赖即可直接使用的非官方谷歌搜索接口。无论是开发者、研究人员还是
ElasticSearch 回郭肉 java elasticsearch 搜索引擎
ElasticSearch基础学习目标理解什么是倒排索引理解什么是ES搜索引擎掌握ES搜索引擎的索引库操作掌握ES搜索引擎的类型映射掌握ES搜索引擎的文档操作1搜索技术搜索技术在我们日常生活的方方面面都会用到，例如：综合搜索网站：百度、谷歌等电商网站：京东、淘宝的商品搜索软件内数据搜索：我们用的开发工具，如Idea的搜索功能这些搜索业务有一些可以使用数据库来完成，有一些却不行。因此我们今天会学习一
Python网络爬虫：从原理到实践的全面解析九月 linux python 网络爬虫爬虫
1.什么是Python爬虫？Python网络爬虫是一种通过Python编写的自动化程序，用于从互联网上的网页、数据库或服务器中提取结构化数据。其核心功能是模拟人类浏览网页的行为，按照预设规则遍历目标网站，抓取文本、图片、链接等信息。爬虫也被称为“网页蜘蛛”或“网络机器人”，广泛应用于搜索引擎索引构建、数据挖掘等领域。2.Python爬虫的运作机制爬虫的工作流程可分为以下步骤：发送请求：通过HTTP
优化站群SEO：使用苹果CMS泛目录插件实现泛目录页面刷新不变奥顺互联V php 开源 mysql 大数据
优化站群SEO：使用苹果CMS泛目录插件实现泛目录页面刷新不变在当今数字营销环境中，搜索引擎优化（SEO）是提升网站流量和可见性的关键策略。苹果CMS作为一款灵活的内容管理系统，提供了丰富的插件功能，尤其是泛目录插件，可以帮助站群网站有效管理内容并优化SEO表现。本文将探讨如何使用苹果CMS的泛目录插件，实现泛目录页面在刷新时不改变内容，从而提升用户体验和SEO效果。1.泛目录的概念泛目录是指通过
常用的HTML meta标签有哪些捂風鋔笶_小欣同學 html 前端
meta是HTML中的一个元数据标签，位于标签内，不会在页面上直接显示，但能为浏览器和搜索引擎提供关于网页的重要信息。以下是一些常用的标签及其用途：1.字符编码声明用于指定HTML文档的字符编码，确保浏览器能够正确解析和显示页面中的文本内容。上述代码指定文档使用UTF-8字符编码，UTF-8是一种通用的字符编码，支持世界上大多数语言的字符。2.页面描述向搜索引擎和用户简要描述网页的内容，通常会显示
DeepSeek 1.5B 蒸馏模型的征程 6 部署（Llama 方式）自动驾驶算法
前言DeepSeek是一款基于人工智能的搜索引擎，旨在提升用户的搜索体验。它利用先进的自然语言处理技术，通过理解查询的上下文和意图，为用户提供更精确、相关的搜索结果。与传统的搜索引擎不同，DeepSeek不仅仅依赖于关键词匹配，还能通过深度学习分析用户的需求，呈现更加智能化的搜索结果。此外，DeepSeek还具备语义理解能力，能够处理复杂的查询，并在短时间内给出最符合用户需求的答案。DeepSee
使用Apache Lucene构建高效的全文搜索服务忙碌的菠萝 java apache lucene mybatis
使用ApacheLucene构建高效的全文搜索服务在现代应用程序中，全文搜索功能是不可或缺的一部分。无论是电子商务网站、内容管理系统，还是数据分析平台，快速、准确地搜索大量数据是提升用户体验的关键。ApacheLucene是一个强大的全文搜索引擎库，它提供了高效的索引和搜索功能，能够轻松集成到Java应用程序中。本文将介绍如何使用ApacheLucene构建一个高效的全文搜索服务，并通过一个实际的
网站快速收录与网站内链布局的关系研究百度网站快速收录百度网站快速收录前端百度快速收录网站快速收录百度收录网站收录
本文转自：百万收录网原文链接：https://www.baiwanshoulu.com/151.html网站快速收录与网站内链布局之间存在着密切的关系。合理的内链布局不仅有助于提升用户体验，还能优化搜索引擎的抓取效率，从而加速网站的收录速度。以下是对这一关系的详细研究：一、内链布局对网站快速收录的影响提升用户体验：清晰的内链布局可以帮助用户快速找到所需信息，提高用户的浏览效率和满意度。良好的用户体
Python网络爬虫与数据采集实战——网络爬虫的基本流程 m0_51274464 面试学习路线阿里巴巴 python 爬虫开发语言
网络爬虫（WebScraper）是用于自动化地从互联网上抓取信息的程序。它广泛应用于搜索引擎、数据采集、市场分析等领域。本文将详细探讨网络爬虫的基本流程，包括URL提取、HTTP请求与响应、数据解析与存储，以及一个实际的爬虫示例。文章不仅关注基础概念，更会深入到实际开发中遇到的技术难点和最新的技术解决方案。1.URL提取URL提取是网络爬虫中最基础的步骤之一，爬虫首先需要从目标网站中提取出需要抓取
ES 的分布式架构原理能说一下么（ES 是如何实现分布式的啊）？小新杂谈社后端面试 elasticsearch 分布式架构搜索引擎
面试题ES的分布式架构原理能说一下么（ES是如何实现分布式的啊）？面试官心理分析在搜索这块，lucene是最流行的搜索库。几年前业内一般都问，你了解lucene吗？你知道倒排索引的原理吗？现在早已经out了，因为现在很多项目都是直接用基于lucene的分布式搜索引擎——ElasticSearch，简称为ES。而现在分布式搜索基本已经成为大部分互联网行业的Java系统的标配，其中尤为流行的就是ES，
【Elasticsearch】Elasticsearch集群在分布式环境下的管理屿小夏 Elasticsearch elasticsearch 分布式大数据
文章目录前言一、集群规划与设计1.1集群拓扑结构设计1.2节点角色分配1.3分片与副本配置二、集群管理与运维2.1集群监控2.2故障处理2.3性能优化三、扩展与升级3.1集群扩展3.2集群升级3.3灾备与容灾️总结前言Elasticsearch是一种高度可扩展的开源搜索引擎，可以在大规模分布式环境中处理和存储海量数据。随着数据量的增长，单节点的Elasticsearch难以满足业务需求，因而集群部
ElasticSearch是如何实现分布式的？ weixin_30517001 大数据 java 面试
面试题es的分布式架构原理能说一下么（es是如何实现分布式的啊）？面试官心理分析在搜索这块，lucene是最流行的搜索库。几年前业内一般都问，你了解lucene吗？你知道倒排索引的原理吗？现在早已经out了，因为现在很多项目都是直接用基于lucene的分布式搜索引擎——ElasticSearch，简称为es。而现在分布式搜索基本已经成为大部分互联网行业的Java系统的标配，其中尤为流行的就是es，
介绍下你们电商搜索的整体Java技术架构？ java1234_小锋 java java
大家好，我是锋哥。今天分享关于【介绍下你们电商搜索的整体Java技术架构？】面试题。希望对大家有帮助；介绍下你们电商搜索的整体Java技术架构？1000道互联网大厂Java工程师精选面试题-Java资源分享网在电商平台的搜索系统中，Java技术架构通常是构建高性能、可扩展、稳定搜索引擎的核心。一个典型的电商搜索系统通常会涉及以下几个关键部分：数据采集、索引建立、搜索查询处理、缓存和分布式处理等。下
网站快速收录与网站域名选择的关系分析百度网站快速收录百度网站快速收录百度快速收录网站快速收录百度收录网站收录
网站快速收录与网站域名选择之间存在密切的关系。以下是对这两者关系的详细分析：一、域名选择对网站快速收录的影响品牌匹配性：当域名能够直接反映品牌名称或核心业务内容时，有助于品牌形象的传播，并在用户心目中建立起清晰的品牌联想。这种匹配性可能使搜索引擎更容易理解网站的主题和内容，从而有助于网站的快速收录。关键词关联性：在域名中包含与业务相关的关键词，可能会提高网站在搜索引擎中的可见性。搜索引擎在识别网页
百度搜索语法羊羊一洋百度
百度搜索作为中国最大的搜索引擎，其搜索语法与谷歌搜索类似，但也有一些特有的功能。以下是一些基本的百度搜索语法：1.双引号(`""`)：用来搜索精确的短语或句子。例如，搜索`"人工智能"`会找到包含完整短语"人工智能"的结果。2.减号(-)：用来排除搜索结果中的特定词汇。例如，搜索`手机-iphone`会找到包含"手机"但不包含"iphone"的结果。3.加号(+)：用来确保搜索结果中包含特定的词汇
学习dify第二天-web下篇一直走下去-明 next.js dify源码学习学习前端 react.js 前端框架
学习dify第二天-web下篇引言web目录结构配置入口文件分析下怎么封装的请求最后总结：参考阅读：React基础用next.js写个页面跳转的应用seo搜索引擎优化引言react：ReactFoundations:AboutReactandNext.js|Next.js如果不会next.js可以先看看这个，不看其实也没关系，学下思路也可以。next_web小demoweb目录结构*mocks*:
在nodejs中使用ElasticSearch（三）通过ES语义检索,实现RAG konglong127 nodejs elasticsearch 搜索引擎 node.js 全文检索后端
RAG（Retrieval-AugmentedGeneration）是一种结合了信息检索和生成模型的技术，旨在提高生成模型的知识获取和生成能力。它通过在生成的过程中引入外部知识库或文档（如数据库、搜索引擎或文档存储），帮助生成更为准确和丰富的答案。RAG在自然语言处理（NLP）领域，特别是在对话生成、问答系统和文本摘要等任务中，具有非常重要的应用。它的核心思想是，生成模型不仅依赖于模型内部的知识，
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR