黄小斜

后端技术杂谈2：搜索引擎工作原理

写在前面

Max Grigorev最近写了一篇文章，题目是《What every software engineer should know about search》，这篇文章里指出了现在一些软件工程师的问题，他们认为开发一个搜索引擎功能就是搭建一个ElasticSearch集群，而没有深究背后的技术，以及技术发展趋势。Max认为，除了搜索引擎自身的搜索问题解决、人类使用方式等之外，也需要解决索引、分词、权限控制、国际化等等的技术点，看了他的文章，勾起了我多年前的想法。

很多年前，我曾经想过自己实现一个搜索引擎，作为自己的研究生论文课题，后来琢磨半天没有想出新的技术突破点（相较于已发表的文章），所以切换到了大数据相关的技术点。当时没有写出来，心中有点小遗憾，毕竟凭借搜索引擎崛起的谷歌是我内心渴望的公司。今天我就想结合自己的一些积累，聊聊作为一名软件工程师，您需要了解的搜索引擎知识。

搜索引擎发展过程

现代意义上的搜索引擎的祖先，是1990年由蒙特利尔大学学生Alan Emtage发明的Archie。即便没有英特网，网络中文件传输还是相当频繁的，而且由于大量的文件散布在各个分散的FTP主机中，查询起来非常不便，因此Alan Emtage想到了开发一个可以以文件名查找文件的系统，于是便有了Archie。Archie工作原理与现在的搜索引擎已经很接近，它依靠脚本程序自动搜索网上的文件，然后对有关信息进行索引，供使用者以一定的表达式查询。

互联网兴起后，需要能够监控的工具。世界上第一个用于监测互联网发展规模的“机器人”程序是Matthew Gray开发的World wide Web Wanderer，刚开始它只用来统计互联网上的服务器数量，后来则发展为能够检索网站域名。

随着互联网的迅速发展，每天都会新增大量的网站、网页，检索所有新出现的网页变得越来越困难，因此，在Matthew Gray的Wanderer基础上，一些编程者将传统的“蜘蛛”程序工作原理作了些改进。现代搜索引擎都是以此为基础发展的。

搜索引擎分类

全文搜索引擎

当前主流的是全文搜索引擎，较为典型的代表是Google、百度。全文搜索引擎是指通过从互联网上提取的各个网站的信息（以网页文字为主），保存在自己建立的数据库中。用户发起检索请求后，系统检索与用户查询条件匹配的相关记录，然后按一定的排列顺序将结果返回给用户。从搜索结果来源的角度，全文搜索引擎又可细分为两种，一种是拥有自己的检索程序（Indexer），俗称“蜘蛛”（Spider）程序或“机器人”（Robot）程序，并自建网页数据库，搜索结果直接从自身的数据存储层中调用；另一种则是租用其他引擎的数据库，并按自定的格式排列搜索结果，如Lycos引擎。

虽然有搜索功能，但严格意义上不能称为真正的搜索引擎，只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息，不依靠关键词（Keywords）进行查询。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo、新浪分类目录搜索。

元搜索引擎

元搜索引擎在接受用户查询请求时，同时在其他多个引擎上进行搜索，并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等，中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索结果排列方面，有的直接按来源引擎排列搜索结果，如Dogpile，有的则按自定的规则将结果重新排列组合，如Vivisimo。

相关实现技术

搜索引擎产品虽然一般都只有一个输入框，但是对于所提供的服务，背后有很多不同业务引擎支撑，每个业务引擎又有很多不同的策略，每个策略又有很多模块协同处理，及其复杂。

搜索引擎本身包含网页抓取、网页评价、反作弊、建库、倒排索引、索引压缩、在线检索、ranking排序策略等等知识。

网络爬虫技术

网络爬虫技术指的是针对网络数据的抓取。因为在网络中抓取数据是具有关联性的抓取，它就像是一只蜘蛛一样在互联网中爬来爬去，所以我们很形象地将其称为是网络爬虫技术。网络爬虫也被称为是网络机器人或者是网络追逐者。

网络爬虫获取网页信息的方式和我们平时使用浏览器访问网页的工作原理是完全一样的，都是根据HTTP协议来获取，其流程主要包括如下步骤：

1）连接DNS域名服务器，将待抓取的URL进行域名解析（URL------>IP）；

2）根据HTTP协议，发送HTTP请求来获取网页内容。

一个完整的网络爬虫基础框架如下图所示：

整个架构共有如下几个过程：

1）需求方提供需要抓取的种子URL列表，根据提供的URL列表和相应的优先级，建立待抓取URL队列（先来先抓）；

2）根据待抓取URL队列的排序进行网页抓取；

3）将获取的网页内容和信息下载到本地的网页库，并建立已抓取URL列表（用于去重和判断抓取的进程）；

4）将已抓取的网页放入到待抓取的URL队列中，进行循环抓取操作；
- 索引

从用户的角度来看，搜索的过程是通过关键字在某种资源中寻找特定的内容的过程。而从计算机的角度来看，实现这个过程可以有两种办法。一是对所有资源逐个与关键字匹配，返回所有满足匹配的内容；二是如同字典一样事先建立一个对应表，把关键字与资源的内容对应起来，搜索时直接查找这个表即可。显而易见，第二个办法效率要高得多。建立这个对应表事实上就是建立逆向索引（inverted index）的过程。

Lucene

Lucene是一个高性能的java全文检索工具包，它使用的是倒排文件索引结构。

全文检索大体分两个过程，索引创建 (Indexing) 和搜索索引 (Search) 。

索引创建：将现实世界中所有的结构化和非结构化数据提取信息，创建索引的过程。
搜索索引：就是得到用户的查询请求，搜索创建的索引，然后返回结果的过程。

非结构化数据中所存储的信息是每个文件包含哪些字符串，也即已知文件，欲求字符串相对容易，也即是从文件到字符串的映射。而我们想搜索的信息是哪些文件包含此字符串，也即已知字符串，欲求文件，也即从字符串到文件的映射。两者恰恰相反。于是如果索引总能够保存从字符串到文件的映射，则会大大提高搜索速度。

由于从字符串到文件的映射是文件到字符串映射的反向过程，于是保存这种信息的索引称为反向索引。

反向索引的所保存的信息一般如下：

假设我的文档集合里面有100篇文档，为了方便表示，我们为文档编号从1到100，得到下面的结构

每个字符串都指向包含此字符串的文档(Document)链表，此文档链表称为倒排表 (Posting List)。

ElasticSearch

Elasticsearch是一个实时的分布式搜索和分析引擎，可以用于全文搜索，结构化搜索以及分析，当然你也可以将这三者进行组合。Elasticsearch是一个建立在全文搜索引擎 Apache Lucene™ 基础上的搜索引擎，但是Lucene只是一个框架，要充分利用它的功能，需要使用JAVA，并且在程序中集成Lucene。Elasticsearch使用Lucene作为内部引擎，但是在使用它做全文搜索时，只需要使用统一开发好的API即可，而不需要了解其背后复杂的Lucene的运行原理。

Solr

Solr是一个基于Lucene的搜索引擎服务器。Solr 提供了层面搜索、命中醒目显示并且支持多种输出格式（包括 XML/XSLT 和 JSON 格式）。它易于安装和配置，而且附带了一个基于 HTTP 的管理界面。Solr已经在众多大型的网站中使用，较为成熟和稳定。Solr 包装并扩展了 Lucene，所以Solr的基本上沿用了Lucene的相关术语。更重要的是，Solr 创建的索引与 Lucene 搜索引擎库完全兼容。通过对Solr 进行适当的配置，某些情况下可能需要进行编码，Solr 可以阅读和使用构建到其他 Lucene 应用程序中的索引。此外，很多 Lucene 工具（如Nutch、 Luke）也可以使用Solr 创建的索引。

Hadoop

谷歌公司发布的一系列技术白皮书导致了Hadoop的诞生。Hadoop是一系列大数据处理工具，可以被用在大规模集群里。Hadoop目前已经发展为一个生态体系，包括了很多组件，如图所示。

Cloudera是一家将Hadoop技术用于搜索引擎的公司，用户可以采用全文搜索方式检索存储在HDFS（Hadoop分布式文件系统）和Apache HBase里面的数据，再加上开源的搜索引擎Apache Solr，Cloudera提供了搜索功能，并结合Apache ZooKeeper进行分布式处理的管理、索引切分以及高性能检索。

PageRank

谷歌Pagerank算法基于随机冲浪模型，基本思想是基于网站之间的相互投票，即我们常说的网站之间互相指向。如果判断一个网站是高质量站点时，那么该网站应该是被很多高质量的网站引用又或者是该网站引用了大量的高质量权威的站点。
- 国际化

坦白说，Google虽然做得非常好，无论是技术还是产品设计，都很好。但是国际化确实是非常难做的，很多时候在细分领域还是会有其他搜索引擎的生存余地。例如在韩国，Naver是用户的首选，它本身基于Yahoo的Overture系统，广告系统则是自己开发的。在捷克，我们则更多会使用Seznam。在瑞典，用户更多选择Eniro，它最初是瑞典的黄页开发公司。

国际化、个性化搜索、匿名搜索，这些都是Google这样的产品所不能完全覆盖到的，事实上，也没有任何一款产品可以适用于所有需求。

自己实现搜索引擎

如果我们想要实现搜索引擎，最重要的是索引模块和搜索模块。索引模块在不同的机器上各自进行对资源的索引，并把索引文件统一传输到同一个地方（可以是在远程服务器上，也可以是在本地）。搜索模块则利用这些从多个索引模块收集到的数据完成用户的搜索请求。因此，我们可以理解两个模块之间相对是独立的，它们之间的关联不是通过代码，而是通过索引和元数据，如下图所示。

对于索引的建立，我们需要注意性能问题。当需要进行索引的资源数目不多时，隔一定的时间进行一次完全索引，不会占用很长时间。但在大型应用中，资源的容量是巨大的，如果每次都进行完整的索引，耗费的时间会很惊人。我们可以通过跳过已经索引的资源内容，删除已不存在的资源内容的索引，并进行增量索引来解决这个问题。这可能会涉及文件校验和索引删除等。另一方面，框架可以提供查询缓存功能，提高查询效率。框架可以在内存中建立一级缓存，并使用如 OSCache或 EHCache缓存框架，实现磁盘上的二级缓存。当索引的内容变化不频繁时，使用查询缓存更会明显地提高查询速度、降低资源消耗。

搜索引擎解决方案

Sphinx

俄罗斯一家公司开源的全文搜索引擎软件Sphinx，单一索引最大可包含1亿条记录，在1千万条记录情况下的查询速度为0.x秒（毫秒级）。Sphinx创建索引的速度很快，根据网上的资料，Sphinx创建100万条记录的索引只需3～4分钟，创建1000万条记录的索引可以在50分钟内完成，而只包含最新10万条记录的增量索引，重建一次只需几十秒。

OmniFind

OmniFind 是 IBM 公司推出的企业级搜索解决方案。基于 UIMA (Unstructured Information Management Architecture) 技术，它提供了强大的索引和获取信息功能，支持巨大数量、多种类型的文档资源（无论是结构化还是非结构化），并为 Lotus®Domino®和 WebSphere®Portal 专门进行了优化。
下一代搜索引擎

从技术和产品层面来看，接下来的几年，甚至于更长时间，应该没有哪一家搜索引擎可以撼动谷歌的技术领先优势和产品地位。但是我们也可以发现一些现象，例如搜索假期租房的时候，人们更喜欢使用Airbub，而不是Google，这就是针对匿名/个性化搜索需求，这些需求是谷歌所不能完全覆盖到的，毕竟原始数据并不在谷歌。我们可以看一个例子：DuckDuckGo。这是一款有别于大众理解的搜索引擎，DuckDuckGo强调的是最佳答案，而不是更多的结果，所以每个人搜索相同关键词时，返回的结果是不一样的。

另一个方面技术趋势是引入人工智能技术。在搜索体验上，通过大量算法的引入，对用户搜索的内容和访问偏好进行分析，将标题摘要进行一定程度的优化，以更容易理解的方式呈现给用户。谷歌在搜索引擎AI化的步骤领先于其他厂商，2016年，随着Amit Singhal被退休，John Giannandrea上位的交接班过程后，正式开启了自身的革命。Giannandrea是深度神经网络、近似人脑中的神经元网络研究方面的顶级专家，通过分析海量级的数字数据，这些神经网络可以学习排列方式，例如对图片进行分类、识别智能手机的语音控制等等，对应也可以应用在搜索引擎。因此，Singhal向Giannandrea的过渡，也意味着传统人为干预的规则设置的搜索引擎向AI技术的过渡。引入深度学习技术之后的搜索引擎，通过不断的模型训练，它会深层次地理解内容，并为客户提供更贴近实际需求的服务，这才是它的有用，或者可怕之处。

Google搜索引擎的工作流程

贴个图，自己感受下。

详细点的：

作者：顿炖
链接：https://www.zhihu.com/question/19937854/answer/98791215
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

微信公众号

个人公众号：程序员黄小斜

微信公众号【程序员黄小斜】新生代青年聚集地，程序员成长充电站。作者黄小斜，职业是阿里程序员，身份是斜杠青年，希望和更多的程序员交朋友，一起进步和成长！专注于分享技术、面试、职场等成长干货，这一次，我们一起出发。

关注公众号后回复“2019”领取我这两年整理的学习资料，涵盖自学编程、求职面试、算法刷题、Java技术学习、计算机基础和考研等8000G资料合集。

技术公众号：Java技术江湖

微信公众号【Java技术江湖】一位阿里 Java 工程师的技术小站，专注于 Java 相关技术：SSM、SpringBoot、MySQL、分布式、中间件、集群、Linux、网络、多线程，偶尔讲点Docker、ELK，同时也分享技术干货和学习经验，致力于Java全栈开发！

关注公众号后回复“PDF”即可领取200+页的《Java工程师面试指南》强烈推荐，几乎涵盖所有Java工程师必知必会的知识点。

2025年的RAG技术发展趋势与演进码农Q！云计算人工智能 ai agi 自然语言处理语言模型
本文将分享作为大模型应用创业者的经历与观察，讨论RAG技术和市场环境在2024年的变化。一、RAG技术的演进RAG（检索增强生成）由“检索”和“大模型生成”两部分组成，而检索之前的索引创建（如chunking、embedding等）是核心基础。我们早在2021年便通过Java技术栈实现了RAG的“RA”部分。2023年中，RAG概念突然走红，并迅速在企业应用中显示出更强的实用性。1.主流架构的变化
arthas助力Java程序Full GC频率大降！
本文在创作过程中借助AI工具辅助资料整理与内容优化。图片来源网络。文章目录引言一、数字化时代技术的重要性二、arthas简介2.1什么是arthas2.2arthas的应用场景三、问题描述四、使用arthas定位内存泄漏点4.1安装arthas4.2启动arthas4.3定位内存泄漏点五、解决内存泄漏问题5.1优化代码5.2调整JVM参数六、效果评估七、总结引言大家好，我是沛哥儿。在技术的江湖里那
又双叒叕是它！MySQL 外键的“隐形杀手”：MyISAM 引擎再现江湖 ✨ 小丁学Java Spring Data JPA mysql 数据库
又一次遇到MyISAM引擎引发的外键问题，这确实是一个非常经典的“坑”。这次我们来详细记录并分析这个“隐形杀手”，希望能帮助更多开发者避开它！又双叒叕是它！MySQL外键的“隐形杀手”：MyISAM引擎再现江湖！你好，我是坚持哥！在软件开发中，有些错误就像“老朋友”一样，隔一段时间就会来“拜访”你一次。最近，我的SpringBoot项目在启动时又遇到了一个熟悉的SQLException，日志里赫然
基于SpringBoot+MyBatis+MySQL+VUE实现的汽车租赁系统（附源码+数据库+毕业论文+答辩PPT+项目部署视频教程+项目所需软件工具），推荐！
摘要随着社会的发展，计算机的优势和普及使得汽车租赁系统的开发成为必需。汽车租赁系统主要是借助计算机，通过对汽车租赁信息等信息进行管理。减少管理员的工作，同时也方便广大用户对个人所需汽车租赁信息的及时查询以及管理。汽车租赁系统的开发过程中，采用B/S架构，主要使用Java技术进行开发，结合最新流行的springboot框架。使用Mysql数据库和Eclipse开发环境。该汽车租赁系统包括用户和管理员
Swift 6.2 并发江湖：两大神功破局旧制，代码运行经脉革新（下）大熊猫侯佩 Apple开发入门 Swift 6.2 WWDC 25 并发 async/await nonisolated nonsending concurrent
楔子江湖风云变幻，Swift武林近日再掀波澜。传闻Apple于密室推演三月，终得《Swift6.2并发新篇》，扬言要破解困扰开发者多年的“经脉错乱”之症——那便是异步函数与同步函数运行规则不一、主Actor调用常生冲突之陈年旧疾。想当年，多少英雄好汉折戟于GCD到Swift并发的转型之路：明明是同门函数，同步者循调用者经脉而行，异步者却偏要另辟蹊径，轻则编译器怒目相向，重则数据走火入魔。如今6.2
基于python的api扫描器系统的设计与实现
博主介绍：✌在职Java研发工程师、专注于程序设计、源码分享、技术交流、专注于Java技术领域和毕业设计✌温馨提示：文末有CSDN平台官方提供的老师Wechat/QQ名片:)Java精品实战案例《700套》2025最新毕业设计选题推荐：最热的500个选题o(￣▽￣)ｄ介绍在当今数字化社会，网络安全问题日益突出，为了有效识别和防范网络威胁，开发一款全面的Web应用渗透测试系统至关重要。本研究基于Py
Java技术栈/面试题合集(16)-SpringCloud篇霸道流氓气质 Java进阶 Java SpringCloud 微服务面试
场景Java入门、进阶、强化、扩展、知识体系完善等知识点学习、性能优化、源码分析专栏分享：Java入门、进阶、强化、扩展、知识体系完善等知识点学习、性能优化、源码分析专栏分享_java高级进阶-CSDN博客通过对面试题进行系统的复习可以对Java体系的知识点进行查漏补缺。注：博客：霸道流氓气质-CSDN博客实现什么是SpringCloud？一、SpringCloud的核心定位1.定义SpringC
Java构建区块链版权交易平台：从智能合约到法律合规的全栈实战墨夶 Java学习资料1 java 区块链智能合约
——基于HyperledgerFabric与SpringBoot的版权交易系统设计数字版权时代的“信任危机”与技术破局在数字内容爆炸式增长的今天，版权侵权问题日益严峻。据统计，全球每年因版权纠纷造成的经济损失高达数百亿美元。Java技术栈凭借其企业级开发能力、区块链集成优势及完善的生态工具链，成为构建版权交易平台的核心选择。本文将从区块链存证、智能合约交易、法律合规模块三大维度，通过代码级深度解析
潮玩、YU7卖爆之后，2025年企业增长战略来到“分蘖点” 互联网江湖人工智能大数据
文：互联网江湖作者：刘致呈2025年已经过半，多年后回过头来看，此时或是一个重要的分蘖点。经过了上半年的复苏，很多行业仍然很难、很卷。与此同时，潮玩火了，定价二十多万的YU7也卖爆了，雷军用3分钟的时间，卖出小米YU7一整年的产能。于是，商业增长似乎开始出现了某种“二象性”。这种“二象性”存在于各个领域，比如：冰红茶依然滞销，而喜茶门口却要排队。破内卷的命题还在，各个行业增长依旧很难，但从数据上看
谢飞机面试记：一场啼笑皆非的 Java 技术面大揭秘！
谢飞机面试记：一场啼笑皆非的Java技术面大揭秘！面试官：谢飞机，听说你要来我们公司应聘Java开发工程师？谢飞机：对对对，我可是个技术宅，什么SpringBoot、SpringCloud啥的都玩得溜。第一轮问题：基础篇面试官：谈谈你对Java内存模型的理解。谢飞机：嗯...Java内存模型主要是关于线程之间如何通信和共享数据的吧。比如说，volatile关键字可以保证变量的可见性，synchro
编写程序银行管理系统python_阿里巴巴：这套java+python视频教程正是让你进入大厂的必备材料...
原标题：阿里巴巴：这套java+python视频教程正是让你进入大厂的必备材料Java在世界最流行计算机编程语言排行榜占据榜首多年。它是一种可以编写跨平台应用软件的面向对象的程序设计语言，业内人士预计在3～5年内Java技术开发商将发展到上百万。我们相信，Java发展之路将带我们去到更加令人神往的远方。Java的前景一片辉煌!现如今有很多小伙伴抱怨学习java有点费劲，没有好的资料进行学习和锻炼，
基于JAVA+SpringBoot+Vue+Echarts的充电数据大屏可视化分析
✌全网粉丝20W+,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌文末获取项目下载方式一、项目背景介绍：随着电动汽车的普及，城市中充电设施的需求日益增长。为了提高充电设施的管理效率和用户体验，本文提出了一个停车场充电桩数据可视化平台的设计与实现。该平台旨在集成、处理并展示来自
面试官问我“JVM 调优工具有哪些怎么用”，我一开口他就知道是老江湖小奇JAVA面试吊打面试官 jvm
作者：小奇Java面试标签：JVM调优/面试故事/Java工具链/技术趣闻面试场景：一个调优老兵的对话局这次是“曜能科技”的面试室，装修风格是科技蓝加亚克力玻璃，桌子上还有一本《高性能Java》第三版。我穿着一件略显皱的米白色T恤，脚踩帆布鞋，背着“Javaiseverywhere”的帆布包，看上去像是刚从实验室跑出来的实习生。对面坐着的面试官，穿着笔挺西装，皮鞋锃亮，AppleWatch闪着光。
【计算机毕业设计】基于Springboot的办公用品管理系统+LW 枫叶学长(专业接毕设) Java毕业设计实战案例课程设计 spring boot 后端
博主介绍：✌全网粉丝3W+,csdn特邀作者、CSDN新星计划导师、Java领域优质创作者,掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。主要内容：
实现零信任架构（ZTA）的三大技术，从零基础到精通，收藏这篇就够了！
一、零信任架构（ZTA）的三大王牌技术：“SIM”组合拳图1零信任三大技术SIM，安全界的“三剑客”话说2019年，美国国家标准委员会NIST发布了一份“武林秘籍”——《零信任架构ZTA》白皮书，瞬间在安全界掀起了一股“零信任”风暴！这份秘籍里，着重强调了零信任的安全理念，还介绍了实现零信任架构的三大技术，江湖人称“SIM”组合（SDP，IAM，MSG）：南北向流量：就像高速公路上的车辆，从用户开
TensorFlow武林志第一卷：入门篇 - 初入江湖第一章：真气初现空中湖 tensorflow武林志 tensorflow 人工智能 python
第一卷：入门篇-初入江湖第一章：真气初现林枫揉了揉酸痛的胳膊，将最后一捆柴火堆放在灶房角落。这是他来到青霄剑宗做杂役的第三个月，每日劈柴挑水的生活让他原本白皙的皮肤变得黝黑粗糙。"喂，新来的！掌门要的热水怎么还没送去？"门外传来管事的呵斥声。"马上就好！"林枫急忙提起铜壶，滚烫的热水溅在他手背上，他却浑然不觉疼痛。自从上月在后山偶然吞服了那枚奇异的朱果后，他对冷热疼痛的感知就变得异常迟钝。穿过曲折
智能家居-深耕10年原创合集(2025/06更新) CYP_2015 智能家居 xcode ios macos ide
2025-06更新篇章2025年广州光亚展参展记录智能插座：技术与应用演进之路语音识别技术：全链路技术栈解析6000字干货长文，深度解读智能家居7大派系，谁能真正统一“江湖”？最近参与某智能家居项目的早期调研，再次感慨用户对我们所说的“便捷”实则是“无感”。用户原话："你们总说'智能'，我就想要个不用记按钮、不用掏手机的家伙。"我们说的"便捷"，在用户那儿根本不是"多快多远"，而是"不用刻意"。现
Java面试题木鱼时刻软件开发 java 开发语言
说明本文档是Java技术面试问题与答案集合，涵盖Java基础知识、集合框架、并发编程、Spring框架、数据库、消息队列、系统设计等核心技术领域。模板使用指南难度分级：L1：低难度，适合初级开发者，基础概念和原理L2：中难度，适合中级开发者，实际问题解决和系统设计L3：高难度，适合高级开发者，复杂系统架构和深度技术挑战问题结构：每个问题按「类别-序号-具体问题」格式组织使用Markdown链接连接
MyBatis初识：为什么选择它？双力臂404 mybatis基础 mybatis 开发语言
前言在Java持久层框架的江湖中，MyBatis像一位特立独行的侠客——它既不像JDBC那样需要开发者赤手空拳打天下，也不似Hibernate般用ORM大法将SQL完全封装。这种"中间派"的定位，恰恰解决了开发者在两个极端之间的长期困扰。JDBC的"三座大山"//典型JDBC代码片段Connectionconn=null;PreparedStatementps=null;ResultSetrs=n
基于SpringBoot+Vue+大学校园图书管理系统设计和实现(源码+LW+部署讲解) 阿勇学长大数据项目实战案例 Java精品毕业设计实例微信小程序项目实战案例 spring boot vue.js 后端大学校园图书管理系统 Java毕业设计
博主介绍：✌全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等
Web 服务器架构选择深度解析后端
在Web服务与API设计中，服务器架构的选择直接决定系统的可扩展性、维护成本与性能上限。本文从架构演进脉络出发，系统解析单体架构、微服务、服务网格、Serverless等主流架构的核心特性、适用场景及Java技术栈实现。一、架构演进与核心分类1.1架构演进脉络1.2核心架构对比表架构类型核心特点典型技术栈（Java）部署复杂度扩展性单体架构所有功能模块打包为单一应用，共享数据库SpringBoot
JavaEE导读1 薯条不要番茄酱 java-ee java
1.JavaEE发展历程JavaEE(JavaPlatformEnterpriseEdition),Java平台企业版.是JavaSE的扩展,⽤于解决企业级的开发需求,所以也可以称之为是⼀组⽤于企业开发的Java技术标准.所以,学习JavaEE主要是学习Java在企业中如何应⽤.1.最早的时候,Java企业扩展还是核⼼JDK的⼀部分(核⼼JDK通常指JavaSE).2.到了1999年,Java企业
Java程序员谢飞机的魔幻面试之旅：从Spring Boot到Redis，你也能笑对大厂面试！ koen__ Java场景面试宝典 Java面试 Spring Boot Redis 微服务分布式系统高并发网络安全
Java程序员谢飞机的魔幻面试之旅：从SpringBoot到Redis，你也能笑对大厂面试！在一场充满戏剧性的互联网大厂面试中，我们跟随搞笑程序员谢飞机的脚步，深入探索Java技术栈的核心知识点，看他如何用幽默和机智应对各种技术挑战。第一轮：基础技术栈的趣味考验面试官：谢飞机同学，听说你是Java界的魔术师？那我们就先聊聊你的基本功吧。谢飞机：嘿嘿，我虽然不是魔术师，但我能让代码变魔术！1.Spr
基于uniapp微信小程+SpringBoot+Vue的流浪动物救助领养系统设计和实现(源码+论文+部署讲解等)
博主介绍：✌全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等
华为认证系统备考指南全解析噗老师华为认证 IT HCIE HCIA HCIP 备考备考攻略
Hello！大家好，小编是一名专注IT领域的资深探索家。都知道华为认证就像技术江湖的"段位证书"！从HCIA的入门小白到HCIE的架构大神，这套认证体系藏着清晰的成长路径。今天就带你拆解备考密码，把考纲变地图、把难点变台阶，轻松解锁技术进阶新姿势一、华为认证体系：技术进阶的阶梯华为认证构建**“HCIA→HCIP→HCIE”三级能力模型**，覆盖数据通信（Datacom）、云计算（Cloud）、网
Java打造同城道路救援利器：车辆救援，全程无忧保障省钱兄科技 java 开发语言
Java打造同城道路救援利器：车辆救援，全程无忧保障在城市化进程加速、车辆保有量激增的背景下，传统道路救援模式因响应慢、资源分散、信息孤岛等问题，已难以满足用户对“秒级响应”的期待。基于Java技术栈构建的同城道路救援系统，通过精准定位、智能调度、全流程数字化管理三大核心能力，重新定义了救援行业的技术标准，成为车辆救援领域的标杆解决方案。一、精准定位：误差<3米，救援“零偏差”1.多源数据融合定位
基于django+Spark+大数据+爬虫技术的国漫推荐与可视化平台设计和实现(源码+论文+部署讲解等) 阿勇学长大数据项目实战案例 Java精品毕业设计实例 Python数据可视化项目案例大数据 django spark 国漫推荐与可视化平台毕业设计 Java
博主介绍：✌全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等
企业级RAG系统架构设计与实现指南（Java技术栈）在未来等你大模型应用开发 AI 技术编程 Java Spring
企业级RAG系统架构设计与实现指南（Java技术栈）开篇：RAG系统的基本概念与企业应用价值在当今快速发展的AI技术背景下，检索增强生成（Retrieval-AugmentedGeneration,RAG）已成为构建智能问答、知识库管理、个性化推荐等应用的核心技术之一。RAG系统通过结合信息检索与自然语言生成（NLG），能够有效提升模型对特定领域数据的适应能力，避免传统大模型在训练数据不足或数据更
基于SpringBoot律师事务所案件管理系统的设计与实现一点教程 Java项目 spring boot 后端 java spring 律师事务所案件管理系统
博主主页：一点教程博主简介：专注Java技术领域和毕业设计项目实战、Java微信小程序、安卓等技术开发，远程调试部署、代码讲解、文档指导、ppt制作等技术指导。主要内容：毕业设计，SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Python、Nodejs、小程序、安卓app、大数据等设计与开发感兴趣的可以先收藏起来，还有大家在毕设选题，项目以及论文编写等相关问题都可以和博主沟通，希
[特殊字符] Git团队协作实战指南真实的菜 git git elasticsearch 大数据
Git团队协作实战指南让多人开发不再是噩梦！从菜鸟到大神的团队协作进阶之路快速导航为什么团队协作这么重要？⚔️代码冲突？别慌！代码审查：让Bug无处遁形团队规范：统一江湖️神器推荐：工欲善其事沟通艺术：话说三分权限管理：该给的给，该收的收CI/CD：让机器替你干活问题追踪：一个都不能少新人培训：从零到英雄最佳实践：前人栽树常见坑点：踩坑指南实战案例：真刀真枪工具箱：装备升级为什么团队协作这么重要？
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen

后端技术杂谈2：搜索引擎工作原理

微信公众号

个人公众号：程序员黄小斜

技术公众号：Java技术江湖

你可能感兴趣的:(后端技术杂谈,后端技术杂谈,Java技术江湖)