费利普斯

全文检索 Lucene

网上学习黑马课程后，在原有笔记的基础上进行总结

课程计划

lucene入门
- 什么是lucene
- Lucene的作用
- 使用场景
- 优点和缺点
lucene应用
- 索引流程
- 搜索流程
- field域的使用
- 索引库维护
- 分词器
- 高级搜索实战案例
Lucene高级
- Lucene底层存储结构
- 词典排序算法
- Lucene优化
- Lucene使用的一些注意事项

1 搜索技术理论基础

1.1 为什么要学习Lucene

原来的方式实现搜索功能，我们的搜索流程如下图：

上图就是原始搜索引擎技术，如果用户比较少而且数据库的数据量比较小，那么这种方式实现搜索功能在企业中是比较常见的。

但是数据量过多时，数据库的压力就会变得很大，查询速度会变得非常慢。我们需要使用更好的解决方案来分担数据库的压力。
现在的方案（使用Lucene），如下图：

为了解决数据库压力和速度的问题，我们的数据库就变成了索引库，我们使用Lucene的API的来操作服务器上的索引库。这样完全和数据库进行了隔离。

1.2 数据查询方法

1.2.1 顺序扫描法

算法描述：
所谓顺序扫描，例如要找内容包含一个字符串的文件，就是一个文档一个文档的看，对于每一个文档，从头看到尾，如果此文档包含此字符串，则此文档为我们要找的文件，接着看下一个文件，直到扫描完所有的文件。
优点：
查询准确率高
缺点：
查询速度会随着查询数据量的增大，越来越慢
使用场景：

数据库中的like关键字模糊查询
文本编辑器的Ctrl + F 查询功能

1.2.2. 倒排索引

先举一个例子：

例如我们使用新华字典查询汉字，新华字典有偏旁部首的目录（索引），我们查字首先查这个目录，找到这个目录中对应的偏旁部首，就可以通过这个目录中的偏旁部首找到这个字所在的位置（文档）。

Lucene会对文档建立倒排索引

1、提取资源中关键信息，建立索引（目录）

2、搜索时，根据关键字（目录），找到资源的位置
算法描述：
查询前会先将查询的内容提取出来组成文档(正文)，对文档进行切分词组成索引(目录)，索引和文档有关联关系，查询的时候先查询索引，通过索引找文档的这个过程叫做全文检索。

**切分词：**就是将一句话切分成一个一个的词，去掉停用词（的、地、得、a、an、the等）。去掉空格，去掉标点符号，大写字母转成小写字母，去掉重复的词。

为什么倒排索引比顺序扫描快?

**理解 : **因为索引可以去掉重复的词，汉语常用的字和词大概等于，字典加词典，常用的英文在牛津词典也有收录。如果用计算机的速度查询，字典+词典+牛津词典这些内容是非常快的。但是用这些字典，词典组成的文章却是千千万万不计其数。索引的大小最多也就是字典+词典。所以通过查询索引，再通过索引和文档的关联关系找到文档速度比较快。顺序扫描法则是直接去逐个查询那些不计其数的文章就算是计算的速度也会很慢。

优点：

查询准确率高

查询速度快，并且不会因为查询内容量的增加，而使查询速度逐渐变慢

缺点：

索引文件会占用额外的磁盘空间，也就是占用磁盘量会增大。

使用场景：

海量数据查询

1.3 全文检索技术应用场景

应用场景：

站内搜索（baidu贴吧、论坛、京东、 taobao）
垂直领域的搜索（818工作网）
专业搜索引擎公司（google、baidu）

2. Lucene介绍

2.1. 什么是全文检索

计算机索引程序通过扫描文章中的每一个词，对每一个词建立一个索引，指明该词在文章中出现的次数和位置，当用户查询时，检索程序就根据事先建立的索引进行查找，并将查找的结果反馈给用户的检索方式。

2.2. 什么是Lucene

他是Lucene、Nutch 、Hadoop等项目的发起人Doug Cutting

Lucene是apache软件基金会4 jakarta项目组的一个子项目，是一个开放源代码的全文检索引擎工具包，但它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎（英文与德文两种西方语言）。

Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能，或者是以此为基础建立起完整的全文检索引擎。

目前已经有很多应用程序的搜索功能是基于 Lucene 的，比如 Eclipse 的帮助系统的搜索功能。Lucene能够为文本类型的数据建立索引，所以你只要能把你要索引的数据格式转化的文本的，Lucene 就能对你的文档进行索引和搜索。比如你要对一些 HTML 文档，PDF 文档进行索引的话你就首先需要把
HTML 文档和 PDF 文档转化成文本格式的，然后将转化后的内容交给 Lucene 进行索引，然后把创建好的索引文件保存到磁盘或者内存中，最后根据用户输入的查询条件在索引文件上进行查询。不指定要索引的文档的格式也使 Lucene 能够几乎适用于所有的搜索应用程序。

Lucene是一套用于全文检索和搜寻的开源程式库，由Apache软件基金会支持和提供
Lucene提供了一个简单却强大的应用程式接口，能够做全文索引和搜寻，在Java开发环境里Lucene是一个成熟的免费开放源代码工具
Lucene并不是现成的搜索引擎产品，但可以用来制作搜索引擎产品。

2.3. Lucene官网

官网： http://lucene.apache.org/

3 Lucene全文检索的流程

3.1. 索引和搜索流程图

绿色表示索引过程，对要搜索的原始内容进行索引构建一个索引库，索引过程包括：
- 确定原始内容即要搜索的内容
- 获得文档
- 创建文档
- 分析文档
- 索引文档
红色表示搜索过程，从索引库中搜索内容，搜索过程包括：
- 用户通过搜索界面
- 创建查询
- 执行搜索，从索引库搜索
- 渲染搜索结果

3.2 索引流程

对文档索引的过程，将用户要搜索的文档内容进行索引，索引存储在索引库（index）中。

3.2.1 原始内容

原始内容是指要索引和搜索的内容。
原始内容包括互联网上的网页、数据库中的数据、磁盘上的文件等。

3.2.2 获得文档（采集数据）

从互联网上、数据库、文件系统中等获取需要搜索的原始信息，这个过程就是信息采集，采集数据的目的是为了对原始内容进行索引。

采集数据分类：

对于互联网上网页，可以使用工具将网页抓取到本地生成html文件。
数据库中的数据，可以直接连接数据库读取表中的数据。
文件系统中的某个文件，可以通过I/O操作读取文件的内容。

在Internet上采集信息的软件通常称为爬虫或蜘蛛，也称为网络机器人，爬虫访问互联网上的每一个网页，将获取到的网页内容存储起来。

3.2.3 创建文档

获取原始内容的目的是为了索引，在索引前需要将原始内容创建成文档（Document），文档中包括一个一个的域（Field），域中存储内容。

这里我们可以将磁盘上的一个文件当成一个document，Document中包括一些Field，如下图：

注意：每个Document可以有多个Field，不同的Document可以有不同的Field，同一个Document可以有相同的Field（域名和域值都相同）。

3.2.4 分析文档

将原始内容创建为包含域（Field）的文档（document），需要再对域中的内容进行分析，分析成为一个一个的单词。

比如下边的文档经过分析如下：

原文档内容：
vivo X23 8GB+128GB 幻夜蓝全网通4G手机

华为 HUAWEI 麦芒7 6G+64G 亮黑色全网通4G手机

分析后得到的词：
vivo, x23, 8GB, 128GB, 幻夜, 幻夜蓝, 全网, 全网通, 网通, 4G, 手机, 华为, HUAWEI, 麦芒7。。。。

3.2.5 索引文档

对所有文档分析得出的语汇单元进行索引，索引的目的是为了搜索，最终要实现只搜索被索引的语汇单元从而找到Document（文档）。

创建索引是对语汇单元索引，通过词语找文档，这种索引的结构叫倒排索引结构。

倒排索引结构是根据内容（词汇）找文档，如下图：

倒排索引结构也叫反向索引结构，包括索引和文档两部分，索引即词汇表，它的规模较小，而文档集合较大。

3.2.6 Lucene底层存储结构

3.3 搜索流程

搜索就是用户输入关键字，从索引中进行搜索的过程。根据关键字搜索索引，根据索引找到对应的文档，从而找到要搜索的内容。

3.3.1 用户

就是使用搜索的角色，用户可以是自然人，也可以是远程调用的程序。

3.3.2 用户搜索界面

全文检索系统提供用户搜索的界面供用户提交搜索的关键字，搜索完成展示搜索结果。如下图：

Lucene不提供制作用户搜索界面的功能，需要根据自己的需求开发搜索界面。

3.3.3 创建查询

用户输入查询关键字执行搜索之前需要先构建一个查询对象，查询对象中可以指定查询要查询关键字、要搜索的Field文档域等，查询对象会生成具体的查询语法，比如：

name:手机 : 表示要搜索name这个Field域中，内容为“手机”的文档。

name:华为 AND 手机 : 表示要搜索即包括关键字“华为” 并且也包括“手机”的文档。

3.3.4 执行搜索

搜索索引过程：

根据查询语法在倒排索引词典表中分别找出对应搜索词的索引，从而找到索引所链接的文档链表。

例如：搜索语法为 “name:华为 AND 手机 ” 表示搜索出的文档中既要包括"华为"也要包括"手机"。
由于是AND，所以要对包含华为和手机词语的链表进行交集，得到文档链表应该包括每一个搜索词语
获取文档中的Field域数据。

3.3.5 渲染结果

以一个友好的界面将查询结果展示给用户，用户根据搜索结果找自己想要的信息，为了帮助用户很快找到自己的结果，提供了很多展示的效果，比如搜索结果中将关键字高亮显示，百度提供的快照等。

4. Lucene入门

4.1. Lucene准备

Lucene可以在官网上下载。课程已经准备好了Lucene的文件，我们使用的是7.7.2版本，文件位置如下图：

解压后的效果：

使用这三个文件的jar包，就可以实现lucene功能

4.2. 开发环境

JDK： 1.8 （Lucene7以上，必须使用JDK1.8及以上版本）

数据库： MySQL

数据库脚本位置如下图：

导入到MySQL效果如下图：

4.3 创建Java工程

创建maven工程不依赖骨架, 测试即可，效果如下：

pom文件内容：


<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    
    <modelVersion>4.0.0modelVersion>

    <artifactId>_01_LuceneDemoartifactId>

    <properties>
        <maven.compiler.source>1.8maven.compiler.source>
        <maven.compiler.target>1.8maven.compiler.target>
        <project.build.sourceEncoding>UTF-8project.build.sourceEncoding>
        <project.reporting.outputEncoding>UTF-8project.reporting.outputEncoding>
        <skipTests>trueskipTests>
    properties>

    <parent>
        <groupId>org.springframework.bootgroupId>
        <artifactId>spring-boot-starter-parentartifactId>
        <version>2.1.4.RELEASEversion>
    parent>

    <dependencies>
        <dependency>
            <groupId>commons-iogroupId>
            <artifactId>commons-ioartifactId>
            <version>2.6version>
        dependency>
        <dependency>
            <groupId>org.apache.lucenegroupId>
            <artifactId>lucene-coreartifactId>
            <version>7.7.2version>
        dependency>
        <dependency>
            <groupId>org.apache.lucenegroupId>
            <artifactId>lucene-analyzers-commonartifactId>
            <version>7.7.2version>
        dependency>
        <dependency>
            <groupId>org.apache.lucenegroupId>
            <artifactId>lucene-queryparserartifactId>
            <version>7.7.2version>
        dependency>

        
        <dependency>
            <groupId>junitgroupId>
            <artifactId>junitartifactId>
            <version>4.12version>
            <scope>testscope>
        dependency>
        
        <dependency>
            <groupId>mysqlgroupId>
            <artifactId>mysql-connector-javaartifactId>
            <version>5.1.48version>
        dependency>

        
        <dependency>
            <groupId>org.wltea.ik-analyzergroupId>
            <artifactId>ik-analyzerartifactId>
            <version>8.1.0version>
        dependency>

        
        <dependency>
            <groupId>org.springframework.bootgroupId>
            <artifactId>spring-boot-starter-webartifactId>
        dependency>
        
        <dependency>
            <groupId>org.springframework.bootgroupId>
            <artifactId>spring-boot-starter-thymeleafartifactId>
        dependency>
        
        <dependency>
            <groupId>com.alibabagroupId>
            <artifactId>fastjsonartifactId>
            <version>1.2.51version>
        dependency>
    dependencies>

project>

4.4. 索引流程

4.4.1. 数据采集

在电商网站中，全文检索的数据源在数据库中，需要通过jdbc访问数据库中 sku 表的内容。

4.4.1.1 创建pojo

package com.feixun.lucene.pojo;

public class Sku {
   

    //商品主键id
    private String id;
    // 名称
    private String name;
    //价格
    private Integer price;
    //库存数量
    private Integer num;
    //图片
    private String image;
    //分类名称
    private String categoryName;
    //品牌名称
    private String brandName;
    //规格
    private String spec;
    //销量
    private Integer saleNum;

    public String getId() {
   
        return id;
    }

    public void setId(String id) {
   
        this.id = id;
    }

    public String getName() {
   
        return name;
    }

    public void setName(String name) {
   
        this.name = name;
    }

    public Integer getPrice() {
   
        return price;
    }

    public void setPrice(Integer price) {
   
        this.price = price;
    }

    public Integer getNum() {
   
        return num;
    }

    public void setNum(Integer num) {
   
        this.num = num;
    }

    public String getImage() {
   
        return image;
    }

    public void setImage(String image) {
   
        this.image = image;
    }

    public String getCategoryName() {
   
        return categoryName;
    }

    public void setCategoryName(String categoryName) {
   
        this.categoryName = categoryName;
    }

    public String getBrandName() {
   
        return brandName;
    }

    public void setBrandName(String brandName) {
   
        this.brandName = brandName;
    }

    public String getSpec() {
   
        return spec;
    }

    public void setSpec(String spec) {
   
        this.spec = spec;
    }

    public Integer getSaleNum() {
   
        return saleNum;
    }

    public void setSaleNum(Integer saleNum) {
   
        this.saleNum = saleNum;
    }

    @Override
    public String toString() {
   
        return "Sku{" +
                "id='" + id + '\'' +
                ", name='" + name + '\'' +
                ", price=" + price +
                ", num=" + num +
                ", image='" + image + '\'' +
                ", categoryName='" + categoryName + '\'' +
                ", brandName='" + brandName + '\'' +
                ", spec='" + spec + '\'' +
                ", saleNum=" + saleNum +
                '}';
    }
}

4.4.1.2. 创建DAO接口

public interface SkuDao {
   
/**
* 查询所有的Sku数据
* @return
**/
public List<Sku> querySkuList();
}

4.4.1.3. 创建DAO接口实现类

使用jdbc实现

public class SkuDaoImpl implements SkuDao {
   
    public List<Sku> querySkuList() {
   
    // 数据库链接
    Connection connection = null;
    // 预编译statement
    PreparedStatement preparedStatement = null;
    // 结果集
    ResultSet resultSet = null;
    // 商品列表
    List<Sku> list = new ArrayList<Sku>();
    try {
   
        // 加载数据库驱动
        Class.forName("com.mysql.jdbc.Driver");
        // 连接数据库
        connection = DriverManager.getConnection("jdbc:mysql://localhost:3306/lucene", "root", "admin");
        String sql = "SELECT * FROM tb_sku";
        // 创建preparedStatement
        preparedStatement = connection.prepareStatement(sql);
        // 获取结果集
        resultSet = preparedStatement.executeQuery();
        // 结果集解析
        while (resultSet.next()) {
   
            Sku sku = new Sku();
            sku.setId(resultSet.getString("id"));
            sku.setName(resultSet.getString("name"));
            sku.setSpec(resultSet.getString("spec"));
            sku.setBrandName(resultSet.getString("brand_name"));
                     sku.setCategoryName(resultSet.getString("category_name"));
            sku.setImage(resultSet.getString("image"));
            sku.setNum(resultSet.getInt("num"));
            sku.setPrice(resultSet.getInt("price"));
            sku.setSaleNum(resultSet.getInt("sale_num"));
            list.add(sku);
        }
    } catch (Exception e) {
   
   		 e.printStackTrace();
    } 
    
        return list;
    }
}

4.4.2 实现索引流程

采集数据
创建Document文档对象
创建分析器（分词器）
创建IndexWriterConfig配置信息类
创建Directory对象，声明索引库存储位置
创建IndexWriter写入对象
把Document写入到索引库中
释放资源

代码：

package com.feixun.lucene.test;

import com.feixun.lucene.dao.SkuDao

百度搜索下拉框,下拉菜单怎么做?如何刷? mt_187 日常记录技术收藏 html5
搜索下拉菜单反馈性关键词是用户在搜索时与搜索引擎的第一步互动，在互动过程中，搜索引擎的反馈关键词不断调整来满足用户的个性需求。搜索下拉框存在的下拉词，每天的点击浏览量都很高，这意味着很多企业都在抢这个位置，在网民搜索自己的行业主关键词时，下拉中的词条是行业关键词和自己品牌词或其他营销类词的整体呈现。搜索下拉框菜单怎么做?如何刷?在本篇文章中您将会了解到以下信息。第一部分搜索下拉框菜单原理第二部分怎
恒创科技：香港站群服务器做seo站群优化效果如何海外空间恒创科技科技服务器运维
香港站群服务器做SEO站群优化效果如何?在当前搜索引擎优化竞争日益激烈的环境下，越来越多的企业开始关注站群策略这一高效的SEO手段。作为亚洲重要的网络枢纽，香港站群服务器因其独特优势，正成为实施SEO站群优化的热门选择。本文将客观分析香港服务器在SEO站群优化中的实际效果，帮助您做出明智的技术选型决策。香港站群服务器的先天优势：地理位置和网络基建香港站群服务器就像个“黄金地段”的商铺——背靠中国大
哪家香港站群服务器比较好用？海外空间恒创科技站群服务器服务器香港站群服务器
面对鱼龙混杂的服务商市场，哪家的香港站群服务器真正稳定？毕竟搞站群最怕的就是服务器抽风，轻则掉排名，重则客户跑光光。今天咱就重点聊聊哪家香港站群服务器比较好用？一般来说，在选择香港站群服务器提供商时，稳定性、IP资源、网络质量以及售后服务是关键考量因素。1.服务器的稳定性服务器频繁宕机或网络波动会导致站群网站无法访问，不仅影响用户体验，还会导致搜索引擎排名下滑，甚至被降权。稳定的服务器环境利于搜索
知识图谱系列（2）：知识图谱的技术架构与组成要素程序员查理 #知识图谱知识图谱架构人工智能 AI Agent RAG
1.引言知识图谱作为一种强大的知识表示和组织方式，已经在搜索引擎、推荐系统、智能问答等多个领域展现出巨大的价值。在之前的上一篇文章中，我们介绍了知识图谱的基础概念与发展历程，了解了知识图谱的定义、核心特征、发展历史以及在AI发展中的地位与作用。要深入理解和应用知识图谱，我们需要进一步探索其内部的技术架构和组成要素。知识图谱不仅仅是一个简单的数据结构，而是一个复杂的技术体系，涉及知识的表示、存储、查
Spring AI：Tool Calling 虾条_花吹雪 Spring AI ai java
工具调用（也称为函数调用）是人工智能应用程序中的一种常见模式，允许模型与一组API或工具交互，以增强其功能。工具主要用于：信息检索。此类工具可用于从外部源（如数据库、web服务、文件系统或web搜索引擎）检索信息。目标是增强模型的知识，使其能够回答否则无法回答的问题。因此，它们可用于检索增强生成（RAG）场景。例如，一个工具可用于检索给定位置的当前天气，检索最新的新闻文章，或查询数据库中的特定记录
！LangChain自定义代理开发深度解析(44) Android 小码蜂测试专栏 langchain microsoft .net
LangChain自定义代理开发深度解析一、LangChain代理基础架构1.1代理核心概念LangChain中的代理（Agent）是一种能够根据工具调用和对话历史自主决策的智能体。它通过以下核心机制实现智能交互：工具调用：代理可调用外部工具（如搜索引擎、计算器等）获取实时信息对话历史管理：维护多轮对话上下文，支持状态追踪决策逻辑：基于LLM生成决策，判断是否需要调用工具或直接回答1.2代理核心组
！LangChain工具选择与调用策略深入解析(42)
LangChain工具选择与调用策略深入解析一、LangChain工具概述1.1工具的定义与作用LangChain中的工具（Tool）是用于扩展语言模型能力的核心组件，它允许开发者将外部功能或资源集成到基于语言模型的应用中。工具的本质是封装了特定功能的可调用单元，例如调用搜索引擎获取实时信息、操作数据库执行查询、调用文件系统读取数据等。通过工具，LangChain能够弥补语言模型自身能力的局限，使
！ LangChain工具选择与调用策略深入解析(41) Android 小码蜂测试专栏 langchain 数据库服务器
LangChain工具选择与调用策略深入解析一、LangChain工具概述1.1工具的定义与作用LangChain中的工具（Tool）是用于扩展语言模型能力的核心组件，它允许开发者将外部功能或资源集成到基于语言模型的应用中。工具的本质是封装了特定功能的可调用单元，例如调用搜索引擎获取实时信息、操作数据库执行查询、调用文件系统读取数据等。通过工具，LangChain能够弥补语言模型自身能力的局限，使
实体对象辨析(POCO、Entity、Model、DTO、BO、DO、PO) weixin_33981932 runtime 数据库 java
为什么80%的码农都做不了架构师？>>>POCO(PlainOldCLRObject)源自JavaEE编程领域的POJO概念(2000年由MartinFowler提出)和POTS(PlainOldTelephoneService)概念。POCO被应用于面向.NET框架的CLR(CommonLanguageRuntime,公共语言运行时)。但是POCO本身不依赖于外部框架，它是PLAIN的。POCO
怎么用快鲸AISEO实战全攻略提升百度排名？
智能SEO实战策略智能搜索引擎优化的核心在于利用先进技术手段实现策略的动态调整与优化。快鲸AISEO正是这类工具的代表，它能够深度分析搜索引擎的规则变化与用户搜索意图的演变。通过该平台，网站运营者可以高效地执行百度搜索排名优化任务，其智能算法能实时识别并推荐高潜力关键词，同时指导内容结构的优化方向，确保内容既符合搜索算法偏好，又能精准匹配用户需求。这种动态调整能力显著提升了优化的效率与精准度。实践
深入理解Tomcat 基本架构水木石画室 tomcat 架构 java
Tomcat是Apache软件基金会旗下的开源Servlet容器，实现了JavaEE（现JakartaEE）的Servlet、JSP等规范，广泛用于JavaWeb应用的部署和运行。其架构设计围绕高效处理HTTP请求、灵活管理Web应用和支持扩展展开。以下从核心组件、层级结构、关键机制三个维度深入解析Tomcat的基本架构。一、Tomcat核心组件与层级结构Tomcat的架构采用分层容器模型，核心组
JavaWeb--Tomcat、Http、Servlet chengzhan1990 java web.xml 数据库
day083Web开发入门3.1引入之前的程序：java桌面程序，控制台控制，socketgui界面。javase规范现在和以后的程序：javaweb程序。浏览器控制。javaee规范3.2软件的结构C/S(Client-Server客户端-服务器端)典型应用：QQ软件，飞秋，红蜘蛛。特点：1）必须下载特定的客户端程序。2）服务器端升级，客户端升级。B/S（Broswer-Server浏览器端-服
Elasticsearch：什么是搜索相关性？ Elastic 中国社区官方博客 Elasticsearch Elastic elasticsearch 大数据搜索引擎人工智能全文检索
搜索相关性定义搜索相关性衡量的是搜索引擎返回的搜索结果与用户查询和意图之间的匹配程度。搜索结果的质量取决于显示的信息与用户预期之间的契合度。提升搜索相关性和性能需要进行语言分析、排序算法优化以及考虑上下文因素。这些因素可能包括用户行为分析、位置信息、热门程度和搜索历史等。搜索相关性是客户体验中的关键因素，通过合理平衡，搜索体验可以同时满足企业和用户的需求。了解为什么相关性对搜索引擎至关重要，以及如
Elasticsearch MacJerry elasticsearch 大数据搜索引擎
学习目标[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BGW4RqWM-1635414988340)(es.assets/Snipaste_2020-07-06_13-03-45.png)]Elasticsearch简介与安装什么是Elasticsearch？ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基
Git安装避坑指南：新手村通关秘籍
Git安装避坑指南：新手村通关秘籍刚学编程那会儿，Git安装差点让我砸键盘。满心欢喜打开官网下载，结果卡在配置上，命令行死活不认识git命令。看着教程里别人行云流水的操作，自己对着报错信息干瞪眼——这感觉，经历过的人都懂。今天这份避坑指南，就是帮你跳过这些“新手坑”，稳稳装好Git！第一坑：官网迷路，下载错版本坑点描述：直接在搜索引擎搜“Git下载”，排在前面的广告链接可能是“高速下载器”或第三方
JAVA——JAVA知识点集锦（下） Faith_chao JAVA基础 JAVA基础知识点
转自：http://blog.csdn.net/Scythe666/article/details/51994782这部分主要是开源JavaEE框架方面的内容，包括Hibernate、MyBatis、Spring、SpringMVC等，由于Struts2已经是明日黄花，在这里就不讨论Struts2的面试题，如果需要了解相关内容，可以参考我的另一篇文章《Java面试题集（86-115）》。此外，这篇
Apache Nutch介绍与部署编译
一、Nutch概述ApacheNutch是一个开放源代码的Java搜索引擎框架，它提供了运行自己的搜索引擎所需要的全部工具，包括全文搜索和Web爬虫，使用Nutch不仅可以建立自己内部网的搜索引擎，同时也可以针对整个网络建立搜索引擎。【软件特色】1、Nutch致力于让每个人能很容易，同时花费很少就可以配置世界一流的Web搜索引擎2、每个月取几十亿网页3、为这些网页维护一个索引4、对索引文件进行每秒
Apache Tika入门野生开发者 #Java
文章目录1、基本介绍2、Tika使用2.1、解析器接口（TheParserinterface）2.1.1、自定义Parser类2.2、检测器接口2.3、Tika配置1、基本介绍ApacheTika（文本分析工具包）能够检测并提取来自上千种不同文件类型(如PPT、XLS和PDF)的元数据和文本；所有这些文件类型都可以通过一个接口进行解析，这使得Tika在搜索引擎索引、内容分析、翻译等方面非常有用。2
Apache Tika:通用的内容分析工具
项目介绍Tika是一个内容分析工具，自带全面的parser工具类，能解析基本所有常见格式的文件，得到文件的metadata，content等内容，返回格式化信息。总的来说可以作为一个通用的解析工具。特别对于搜索引擎的数据抓去和处理步骤有重要意义。Tika是一个目的明确，使用简单的apache的开源项目。下图是Tika诞生的一个历史过程。Tika项目之初来源于Nutch项目(大家应该都不陌生)，现在
SEO优化技巧深度解析：从算法逻辑到实战策略的全链路突破 boyedu 网站建设网站建设网站运营网站架构
第一章搜索引擎算法逻辑：SEO优化的底层密码1.1算法进化史：从关键词匹配到意图理解搜索引擎算法经历了从简单关键词匹配到复杂语义理解的跨越式发展。早期算法以PageRank为核心，通过分析网页间链接关系评估权威性。随着Hummingbird算法的推出，搜索引擎开始解析自然语言，BERT算法进一步实现上下文语义理解。当前算法已形成多维度评估体系，涵盖内容质量、用户体验、权威性建设等层面。以Googl
多模态融合：现代搜索引擎底层图像、视频检索的技术架构设计何雅琪¥ 搜索引擎
在多媒体内容爆炸式增长的当下，用户对搜索引擎的需求已从单纯的文本检索拓展到图像、视频等多元模态。多模态融合技术打破了信息载体的界限，使搜索引擎能够理解图像的视觉语义、视频的动态内容，并实现跨模态的精准检索。从特征提取到检索匹配，现代搜索引擎底层围绕图像、视频检索构建起复杂而精妙的技术架构，重塑了用户获取信息的方式。一、多模态数据的特征提取：解码视觉信息图像与视频包含丰富的视觉信息，其特征提取是实现
Elasticsearch：基本概念、索引结构与优缺点分析 Leaton Lee elasticsearch 大数据搜索引擎
一、Elasticsearch基本概念Elasticsearch是一个基于Lucene构建的开源、分布式、RESTful搜索引擎，专为云计算环境设计，能够实现近乎实时的数据搜索和分析功能。核心概念解析文档(Document)Elasticsearch中的基本数据单元，使用JSON格式表示每个文档有唯一ID和类型示例：一条产品信息、一篇博客文章或一个客户记录索引(Index)文档的集合，类似于关系数
java web5（黑马） rzl02 java 前端开发语言
Request&Response作用：Request：获取请求数据Response：设置响应数据Request继承体系1.Tomcat需要解析请求数据，封装为request对象，并且创建request对象传递到service方法中2.使用request对象，查阅JavaEEAPI文档的HttpServletRequest接口获取请求数据1.获取请求数据>请求行:GET/request-demo/r
爆改RAG！用强化学习让你的检索增强生成系统“开挂”——从小白到王者的实战指南许泽宇的技术分享人工智能
“RAG不准？RL来救场！”——一位被RAG气哭的AI工程师前言：RAG的烦恼与AI炼丹师的自我修养在AI圈混久了，大家都知道RAG（Retrieval-AugmentedGeneration，检索增强生成）是大模型落地的“万金油”方案。无论是企业知识库、智能问答，还是搜索引擎升级，RAG都能插上一脚。但你用过RAG就知道，理想很丰满，现实很骨感。明明知识库里啥都有，问个“量子比特的数学表达式”，
搜索领域SEO进阶：内容优化与用户体验提升搜索引擎技术 ux ai
搜索领域SEO进阶：从关键词堆砌到用户价值——内容优化与体验升级的实战指南关键词SEO进阶、内容质量、用户体验、E-E-A-T、用户行为信号、结构化数据、页面速度优化摘要当“SEO=关键词堆砌”的时代成为历史，当搜索引擎算法从“识别文字”进化到“理解意图”，SEO从业者正面临一场从“技术投机”到“用户价值”的范式转移。本文将深度拆解搜索领域的进阶策略：从内容优化的核心逻辑（E-E-A-T框架、主题
2023年搜索领域的技术认证与职业发展指南搜索引擎技术搜索引擎 ai
2023年搜索领域的技术认证与职业发展指南关键词搜索领域、技术认证、职业发展、搜索引擎技术、人工智能搜索摘要本指南旨在为搜索领域的从业者和有志于进入该领域的人士提供全面的技术认证与职业发展参考。首先介绍搜索领域的概念基础，包括其历史发展和关键问题。接着阐述相关理论框架，分析不同认证背后的原理。架构设计部分展示搜索系统的组成与交互。实现机制探讨算法复杂度和代码优化。实际应用部分给出实施和部署策略。高
LRU缓存算法在搜索引擎中的应用数据结构与算法学习缓存算法搜索引擎 ai
LRU缓存算法在搜索引擎中的应用关键词：LRU算法、缓存淘汰、搜索引擎、哈希表、双向链表、性能优化、访问频率摘要：本文深入探讨了LRU(最近最少使用)缓存算法在搜索引擎中的关键应用。我们将从基本概念出发，通过生活化的比喻解释LRU的工作原理，分析其在搜索引擎架构中的具体实现方式，并通过Python代码示例展示如何构建一个高效的LRU缓存系统。文章还将讨论LRU算法的数学建模、实际应用场景以及未来发
基于Elasticsearch的短视频平台个性化推荐系统设计与实现亲爱的非洲野猪 elasticsearch 音视频推荐算法
在当今内容爆炸的时代，个性化推荐系统已成为短视频平台的核心竞争力之一。本文将详细介绍如何利用Elasticsearch（ES）构建一个高效、可扩展的短视频个性化推荐系统。一、系统架构概述我们的推荐系统将采用混合推荐策略，结合协同过滤、内容相似度和热度推荐等多种方法。Elasticsearch作为核心搜索引擎和数据存储，将承担以下职责：用户画像存储与查询视频内容索引与检索实时行为日志分析推荐结果计算
ClickHouse【理论篇】01：什么是ClickHouse
ClickHouse是一款开源的列式数据库管理系统（Column-OrientedDBMS），专为高性能实时数据分析（OLAP,OnlineAnalyticalProcessing）场景设计。它由俄罗斯搜索引擎公司Yandex开发（2016年开源），目前由独立基金会ClickHouse,Inc.维护，广泛应用于大数据分析、日志处理、用户行为洞察等领域。一、核心定位：OLAP场景的“性能标杆”传统关
JavaEE 网络编程套接字详解与实战示例我爱Jack 网络 java 后端开发语言
、套接字（Socket）是什么？套接字是网络通信的“端点”，就像打电话需要手机一样，网络通信需要套接字建立连接。两种类型：TCP套接字：可靠传输（类似打电话，需先拨通）UDP套接字：快速传输（类似发短信，无需确认对方收到）二、TCP套接字编程1.服务端开发步骤importjava.io.*;importjava.net.ServerSocket;importjava.net.Socket;publ
微信开发者验证接口开发 362217990 微信开发者 token 验证
微信开发者接口验证。 Token，自己随便定义，与微信填写一致就可以了。根据微信接入指南描述 http://mp.weixin.qq.com/wiki/17/2d4265491f12608cd170a95559800f2d.html 第一步：填写服务器配置第二步：验证服务器地址的有效性第三步：依据接口文档实现业务逻辑这里主要讲第二步验证服务器有效性。建一个
一个小编程题-类似约瑟夫环问题 BrokenDreams 编程
今天群友出了一题：一个数列,把第一个元素删除,然后把第二个元素放到数列的最后,依次操作下去,直到把数列中所有的数都删除,要求依次打印出这个过程中删除的数。 &
linux复习笔记之bash shell (5) 关于减号-的作用 eksliang linux关于减号“-”的含义 linux关于减号“-”的用途 linux关于“-”的含义 linux关于减号的含义
转载请出自出处： http://eksliang.iteye.com/blog/2105677 管道命令在bash的连续处理程序中是相当重要的，尤其在使用到前一个命令的studout（标准输出）作为这次的stdin（标准输入）时，就显得太重要了，某些命令需要用到文件名，例如上篇文档的的切割命令（split）、还有
Unix(3) 18289753290 unix ksh
1)若该变量需要在其他子进程执行，则可用"$变量名称"或${变量}累加内容什么是子进程？在我目前这个shell情况下，去打开一个新的shell，新的那个shell就是子进程。一般状态下，父进程的自定义变量是无法在子进程内使用的，但通过export将变量变成环境变量后就能够在子进程里面应用了。 2)条件判断： &&代表and ||代表or&nbs
关于ListView中性能优化中图片加载问题酷的飞上天空 ListView
ListView的性能优化网上很多信息，但是涉及到异步加载图片问题就会出现问题。具体参看上篇文章http://314858770.iteye.com/admin/blogs/1217594 如果每次都重新inflate一个新的View出来肯定会造成性能损失严重，可能会出现listview滚动是很卡的情况，还会出现内存溢出。现在想出一个方法就是每次都添加一个标识，然后设置图
德国总理默多克：给国人的一堂“震撼教育”课永夜-极光教育
http://bbs.voc.com.cn/topic-2443617-1-1.html德国总理默多克：给国人的一堂“震撼教育”课　安吉拉—默克尔，一位经历过社会主义的东德人，她利用自己的博客，发表一番来华前的谈话，该说的话，都在上面说了，全世界想看想传播——去看看默克尔总理的博客吧！　　德国总理默克尔以她的低调、朴素、谦和、平易近人等品格给国人留下了深刻印象。她以实际行动为中国人上了一堂
关于Java继承的一个小问题。。。随便小屋 java
今天看Java 编程思想的时候遇见一个问题，运行的结果和自己想想的完全不一样。先把代码贴出来！ //CanFight接口 interface Canfight { void fight(); } //ActionCharacter类 class ActionCharacter { public void fight() { System.out.pr
23种基本的设计模式 aijuans 设计模式
Abstract Factory：提供一个创建一系列相关或相互依赖对象的接口，而无需指定它们具体的类。　　Adapter：将一个类的接口转换成客户希望的另外一个接口。A d a p t e r模式使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。　　Bridge：将抽象部分与它的实现部分分离，使它们都可以独立地变化。　　Builder：将一个复杂对象的构建与它的表示分离，使得同
《周鸿祎自述：我的互联网方法论》读书笔记 aoyouzi 读书笔记
从用户的角度来看,能解决问题的产品才是好产品,能方便/快速地解决问题的产品,就是一流产品. 商业模式不是赚钱模式一款产品免费获得海量用户后,它的边际成本趋于0,然后再通过广告或者增值服务的方式赚钱,实际上就是创造了新的价值链. 商业模式的基础是用户,木有用户,任何商业模式都是浮云.商业模式的核心是产品,本质是通过产品为用户创造价值. 商业模式还包括寻找需求
JavaScript动态改变样式访问技术百合不是茶 JavaScript style属性 ClassName属性
一:style属性格式: HTML元素.style.样式属性="值"; 创建菜单:在html标签中创建或者在head标签中用数组创建 <html> <head> <title>style改变样式</title> </head> &l
jQuery的deferred对象详解 bijian1013 jquery deferred对象
jQuery的开发速度很快，几乎每半年一个大版本，每两个月一个小版本。每个版本都会引入一些新功能，从jQuery 1.5.0版本开始引入的一个新功能----deferred对象。 &nb
淘宝开放平台TOP Bill_chen C++c 物流 C#
淘宝网开放平台首页：http://open.taobao.com/ 淘宝开放平台是淘宝TOP团队的产品，TOP即TaoBao Open Platform，是淘宝合作伙伴开发、发布、交易其服务的平台。支撑TOP的三条主线为： 1.开放数据和业务流程 * 以API数据形式开放商品、交易、物流等业务； &
【大型网站架构一】大型网站架构概述 bit1129 网站架构
大型互联网特点面对海量用户、海量数据大型互联网架构的关键指标高并发高性能高可用高可扩展性线性伸缩性安全性大型互联网技术要点前端优化 CDN缓存反向代理 KV缓存消息系统分布式存储 NoSQL数据库搜索监控安全想到的问题： 1.对于订单系统这种事务型系统，如
eclipse插件hibernate tools安装白糖_ Hibernate
eclipse helios(3.6)版 1.启动eclipse 2.选择 Help > Install New Software...> 3.添加如下地址： http://download.jboss.org/jbosstools/updates/stable/helios/ 4.选择性安装：hibernate tools在All Jboss tool
Jquery easyui Form表单提交注意事项 bozch jquery easyui
jquery easyui对表单的提交进行了封装，提交的方式采用的是ajax的方式，在开发的时候应该注意的事项如下： 1、在定义form标签的时候，要将method属性设置成post或者get，特别是进行大字段的文本信息提交的时候，要将method设置成post方式提交，否则页面会抛出跨域访问等异常。所以这个要
Trie tree(字典树)的Java实现及其应用-统计以某字符串为前缀的单词的数量 bylijinnan java实现
import java.util.LinkedList; public class CaseInsensitiveTrie { /** 字典树的Java实现。实现了插入、查询以及深度优先遍历。 Trie tree's java implementation.(Insert,Search,DFS) Problem Description Igna
html css 鼠标形状样式汇总 chenbowen00 html css
css鼠标手型cursor中hand与pointer Example：CSS鼠标手型效果 <a href="#" style="cursor:hand">CSS鼠标手型效果</a><br/> Example：CSS鼠标手型效果 <a href="#" style=&qu
[IT与投资]IT投资的几个原则 comsci it
无论是想在电商,软件,硬件还是互联网领域投资,都需要大量资金,虽然各个国家政府在媒体上都给予大家承诺,既要让市场的流动性宽松,又要保持经济的高速增长....但是,事实上,整个市场和社会对于真正的资金投入是非常渴望的,也就是说,表面上看起来,市场很活跃,但是投入的资金并不是很充足的......
oracle with语句详解 daizj oracle with with as
oracle with语句详解转在oracle中，select 查询语句，可以使用with,就是一个子查询，oracle 会把子查询的结果放到临时表中，可以反复使用例子:注意，这是sql语句，不是pl/sql语句，可以直接放到jdbc执行的 ----------------------------------------------------------------
hbase的简单操作 deng520159 数据库 hbase
近期公司用hbase来存储日志,然后再来分析 ,把hbase开发经常要用的命令找了出来. 用ssh登陆安装hbase那台linux后用hbase shell进行hbase命令控制台! 表的管理 1）查看有哪些表 hbase(main)> list 2）创建表 # 语法：create <table>, {NAME => <family&g
C语言scanf继续学习、算术运算符学习和逻辑运算符 dcj3sjt126com c
/* 2013年3月11日20:37:32 地点：北京潘家园功能：完成用户格式化输入多个值目的：学习scanf函数的使用 */ # include <stdio.h> int main(void) { int i, j, k; printf("please input three number:\n"); //提示用
2015越来越好 dcj3sjt126com 歌曲
越来越好房子大了电话小了感觉越来越好假期多了收入高了工作越来越好商品精了价格活了心情越来越好天更蓝了水更清了环境越来越好活得有奔头人会步步高想做到你要努力去做到幸福的笑容天天挂眉梢越来越好婆媳和了家庭暖了生活越来越好孩子高了懂事多了学习越来越好朋友多了心相通了大家越来越好道路宽了心气顺了日子越来越好活的有精神人就不显
java.sql.SQLException: Value '0000-00-00' can not be represented as java.sql.Tim feiteyizu mysql
数据表中有记录的time字段（属性为timestamp）其值为：“0000-00-00 00:00:00” 程序使用select 语句从中取数据时出现以下异常： java.sql.SQLException:Value '0000-00-00' can not be represented as java.sql.Date java.sql.SQLException: Valu
Ehcache（07）——Ehcache对并发的支持 234390216 并发 ehcache 锁 ReadLock WriteLock
Ehcache对并发的支持在高并发的情况下，使用Ehcache缓存时，由于并发的读与写，我们读的数据有可能是错误的，我们写的数据也有可能意外的被覆盖。所幸的是Ehcache为我们提供了针对于缓存元素Key的Read（读）、Write（写）锁。当一个线程获取了某一Key的Read锁之后，其它线程获取针对于同
mysql中blob,text字段的合成索引 jackyrong mysql
在mysql中，原来有一个叫合成索引的，可以提高blob,text字段的效率性能，但只能用在精确查询，核心是增加一个列，然后可以用md5进行散列，用散列值查找则速度快比如： create table abc(id varchar(10),context blog,hash_value varchar(40)); insert into abc(1,rep
逻辑运算与移位运算 latty 位运算逻辑运算
源码：正数的补码与原码相同例+7 源码：00000111 补码：00000111 （用8位二进制表示一个数）负数的补码：符号位为1，其余位为该数绝对值的原码按位取反；然后整个数加1。 -7 源码： 10000111 ，其绝对值为00000111 取反加一：11111001 为-7补码已知一个数的补码，求原码的操作分两种情况：
利用XSD 验证XML文件 newerdragon java xml xsd
XSD文件（XML Schema 语言也称作 XML Schema 定义（XML Schema Definition，XSD）。具体使用方法和定义请参看： http://www.w3school.com.cn/schema/index.asp java自jdk1.5以上新增了SchemaFactory类可以实现对XSD验证的支持，使用起来也很方便。以下代码可用在J
搭建 CentOS 6 服务器(12) - Samba rensanning centos
（1）安装 # yum -y install samba Installed: samba.i686 0:3.6.9-169.el6_5 # pdbedit -a rensn new password:123456 retype new password:123456 …… （2）Home文件夹 # mkdir /etc
Learn Nodejs 01 toknowme nodejs
（1）下载nodejs https://nodejs.org/download/ 选择相应的版本进行下载（2）安装nodejs 安装的方式比较多，请baidu下我这边下载的是“node-v0.12.7-linux-x64.tar.gz”这个版本（1）上传服务器（2）解压 tar -zxvf node-v0.12.
jquery控制自动刷新的代码举例 xp9802 jquery
1、html内容部分复制代码代码示例: <div id='log_reload'> <select name="id_s" size="1"> <option value='2'>-2s-</option> <option value='3'>-3s-</option

全文检索 Lucene