weixin_56483538

ElasticSearch(ES)极速入门

文章目录

- ElasticSearch
- - 什么是ElasticSearch
  - 为什么需要Elasticsearch
  - 数据库中的索引(基本概念)
  - Elasticsearch运行原理
  - Elasticsearch的启动
  - ES基本使用
  - - ik分词插件的使用
  - SpringBoot 操作 Elasticsearch
  - - Spring Data简介
    - 基本配置
    - 使用ES操作数据
    - ES文档
    - 创建操作ES的持久层
    - 测试ES

ElasticSearch

官方下载链接

https://www.elastic.co/cn/downloads/past-releases#elasticsearch

什么是ElasticSearch

Elasticsearch和redis\mysql一样,不仅服务于java语言,其它语言也可以使用

它的功能也类似一个数据库,能高效的从大量数据中搜索匹配指定关键字的内容

它也将数据保存在硬盘中

这样的软件有一个名称全文搜索引擎

它本质就是一个java项目,使用它进行数据的增删改查就是访问这个项目的控制器方法(url路径)

ES的底层技术：

ES使用了java的一套名为Lucene的API（ElasticSearch封装了Lucene：相当于mybatis封装了JDBC）

这个API提供了全文搜索引擎核心操作的接口,相当于搜索引擎的核心支持,ES是在Lucene的基础上进行了完善,实现了开箱即用的搜索引擎软件

市面上和ES功能类似的软件有

Solr（淘汰了）/MongoDB

为什么需要Elasticsearch

数据库进行模糊查询严重低下（因为模糊查询用不了索引，只能逐个遍历）

所有关系型数据库都有这个缺点(mysql\mariaDB\oracle\DB2等)

在执行类似下面模糊查询时

select * from spu where spu_name like '%鼠标%'

测试证明一张千万级别的数据表进行模糊查询需要20秒以上

当前互联网项目要求"三高"的需求下,这样的效率肯定不能接受

Elasticsearch主要是为了解决数据库模糊查询性能低下问题的

ES进行优化之后,从同样数据量的ES中查询相同条件数据,效率能够提高100倍以上

数据库中的索引(基本概念)

所谓的索引(index)其实就是数据目录

通常情况下,索引是为了提高查询效率的

数据库索引分两大类

聚集索引
非聚集索引

聚集索引就是数据库保存数据的物理顺序依据,默认情况下就是主键id,所以按id查询数据库中的数据效率非常高（ES没有优化空间）

非聚集索引

如果想在非主键列上添加索引,就是非聚集索引了

例如我们在数据库表中存在一个姓名列,我们为姓名列创建索引

在创建索引时,会根据姓名内容来创建索引

例如"张三" 这个姓名,创建索引后查询效率就会明显提升

如果没有索引,这样的查询就会引起效率最低的"逐行搜索",就是一行一行的查这个数据的姓名是不是张三,效率就会非常低

模糊查询时因为’%鼠标%',使用的是前模糊条件,使用索引必须明确前面的内容是什么,前模糊查询是不能使用索引的,只能是全表的逐行搜索,所以效率非常低

所以当我们项目中设计了根据用户输入关键字进行查询时,需要使用全文搜索引擎来优化

索引面试题

1.创建的索引会占用硬盘空间

2.创建索引之后,对该表进行增删改操作时,会引起索引的更新,所以效率会降低

3.对数据库进行批量新增时,先删除索引,增加完毕之后再创建

4.不要对数据样本少的列添加索引

5.模糊查询时,查询条件前模糊的情况,是无法启用索引的

6.每次从数据表中查询的数据的比例越高,索引的效果越低

7.当我们执行查询时,where条件后应该先查询有索引的列

Elasticsearch运行原理

要想使用ES提高模糊查询效率

首先要将数据库中的数据复制到ES中

在新增数据到ES的过程中,ES可以对指定的列进行分词索引保存在索引库中

形成倒排索引结构

	from <= sql
id    			name

1				罗技激光无线游戏鼠标				
2				雷蛇激光无线竞技鼠标
3				罗技高速无线静音鼠标
4				雷蛇游戏红轴无线键盘
	to => ES
索引				ids

罗技      		1 3
激光				1 2
无线				1 2 3 4
游戏				1 4
鼠标				1 2 3
雷蛇				2 4
竞技				2
高速				3
静音				3
红轴				4
键盘				4

Elasticsearch的启动

widows直接打开

elasticsearch.bat

linux:

tar -xvf elasticsearch-7.6.2-linux-x86_64.tar.gz
cd elasticsearch-7.6.2/bin
./elasticsearch

浏览器输入地址:localhost:9200看到如下内容即可

{
  "name" : "LAPTOP-2UO2VJ6R",
  "cluster_name" : "elasticsearch",
  "cluster_uuid" : "o37YXUC0Tf68KPYQyI62RA",
  "version" : {
    "number" : "7.6.2",
    "build_flavor" : "default",
    "build_type" : "zip",
    "build_hash" : "ef48eb35cf30adf4db14086e8aabd07ef6fb113f",
    "build_date" : "2020-03-26T06:34:37.794943Z",
    "build_snapshot" : false,
    "lucene_version" : "8.4.0",
    "minimum_wire_compatibility_version" : "6.8.0",
    "minimum_index_compatibility_version" : "6.0.0-beta1"
  },
  "tagline" : "You Know, for Search"
}

ES基本使用

ik分词插件的使用

ik文件夹放到ES的plugins目录下

实际上除了ik_smart之外还有ik_max_word

POST http://localhost:9200/_analyze
Content-Type: application/json

{
  "text": "北京成功举行了冬季奥林匹克运动会",
  "analyzer": "ik_smart"
}

POST http://localhost:9200/_analyze
Content-Type: application/json

{
  "text": "北京成功举行了冬季奥林匹克运动会",
  "analyzer": "ik_max_word"
}

上面的两个分词器运行分词,结果会有非常明显的区别

总结区别如下

ik_smart

优点:特征是粗略快速的将文字进行分词,占用空间小,查询速度快
缺点:分词的颗粒度大,可能跳过一些重要分词,导致查询结果不全面,查全率低

ik_max_word

优点:特征是详细的文字片段进行分词,查询时查全率高,不容易遗漏数据
缺点:因为分词太过详细,导致有一些无用分词,占用空间较大,查询速度慢

SpringBoot 操作 Elasticsearch

Spring Data简介

原生状态下,我们使用JDBC连接数据库,因为代码过于繁琐,所以改为使用Mybatis框架

在ES的原生状态下,我们java代码需要使用socket访问ES,但是也是过于繁琐,我们可以使用SpringData框架简化

Spring Data是Spring提供的一套连接各种第三方数据源的框架集

我们需要使用的是其中连接ES的Spring Data Elasticseatrch

官方网站:https://spring.io/projects/spring-data

基本配置

pom依赖

<dependency>
    <groupId>org.springframework.bootgroupId>
    <artifactId>spring-boot-starterartifactId>
dependency>

<dependency>
    <groupId>org.springframework.bootgroupId>
    <artifactId>spring-boot-starter-data-elasticsearchartifactId>
dependency>

<dependency>
    <groupId>org.springframework.bootgroupId>
    <artifactId>spring-boot-starter-testartifactId>
dependency>

yml配置

# 设置ES所在的ip地址端口号
spring:
  elasticsearch:
    rest:
      uris: http://localhost:9200

# SpringDataElasticsearch底层有一个专门输出运行状态的类,也要设置
logging:
  level:
    org.elasticsearch.client.RestClient: debug

和ES关联的实体类

和数据库一样

我们操作ES时也需要一个类似实体类的数据类,作为操作ES的数据载体

search项目创建entity包

在包中创建Item(商品)类

@Data
@Accessors(chain = true)   // 支持链式set赋值功能
@AllArgsConstructor        // 自动生成当前类的全参构造
@NoArgsConstructor         // 自动生成当前类的无参构造
// @Document是SpringDataES框架标记实体类的注解
// indexName指定的是索引名称,运行时items索引不存在,SpringDataES会自动创建这个索引
@Document(indexName = "items")
public class Item implements Serializable {

    // SpringData标记当前属性为ES主键的注解
    @Id
    private Long id;
    // SpringData标记title属性的支持分词的类似和相关分词器
    @Field(type = FieldType.Text,
            analyzer = "ik_max_word",
            searchAnalyzer = "ik_max_word")
    private String title;
    // Keyword是不需要分词的字符串类型
    @Field(type = FieldType.Keyword)
    private String category;
    @Field(type = FieldType.Keyword)
    private String brand;
    @Field(type = FieldType.Double)
    private Double price;
    // 图片地址不会称为搜索条件,所以不需要进行索引,不索引能节省一些数据空间
    // 设置index=false 今后所有不会称为查询条件的列都照此配置
    // 不索引,不代表不保存数据,数据本身仍然是保存在ES的
    @Field(type = FieldType.Keyword,index = false)
    private String imgPath;

    // images/xxx/xxx/a09f-887ac-ac006-7128311231234

}

使用ES操作数据

ES是一个数据库性质的软件

可以执行增删改查操作,只是他操作数据不使用sql,数据的结构和关系型数据库也不同

我们先了解一下ES保存数据的结构

ES启动后,ES服务可以创建多个index(索引),index可以理解为数据库中表的概念
一个index可以创建多个保存数据的document(文档),一个document理解为数据库中的一行数据
一个document中可以保存多个属性和属性值,对应数据库中的字段(列)和字段值

ES文档

### 创建 index
PUT http://localhost:9200/questions

### 删除一个Index
DELETE http://localhost:9200/questions

### 设置index中的文档属性采用ik分词
POST http://localhost:9200/questions/_mapping
Content-Type: application/json

{
  "properties": {
    "title": {
      "type": "text",
      "analyzer": "ik_max_word",
      "search_analyzer": "ik_max_word"
    },
    "content": {
      "type": "text",
      "analyzer": "ik_max_word",
      "search_analyzer": "ik_max_word"
    }
  }
}

### questions 中添加文档
POST http://localhost:9200/questions/_create/1
Content-Type: application/json

{
  "id":1,
  "title":"Java基本数据类型有哪些",
  "content":"面时候为啥要问基本类型这么简单问题呀，我们要如何回答呢？"
}

### questions 中添加文档
POST http://localhost:9200/questions/_create/2
Content-Type: application/json

{
  "id":2,
  "title":"int类型的范围",
  "content":"为啥要了解int类型的范围呢？"
}

### questions 中添加文档
POST http://localhost:9200/questions/_create/3
Content-Type: application/json

{
  "id":3,
  "title":"常用集合类有哪些",
  "content":"为啥企业经常问集合呀？该如何回复呢"
}

### questions 中添加文档
POST http://localhost:9200/questions/_create/4
Content-Type: application/json

{
  "id":4,
  "title":"线程的run方法和start方法有啥区别",
  "content":"run方法可以执行线程的计算过程， start也可以执行线程的计算过程，用途一样么？"
}

### 更新questions索引中的文档
POST http://localhost:9200/questions/_doc/4/_update
Content-Type: application/json

{
  "doc": {
    "title": "Java线程的run方法和start方法有啥区别"
  }
}

### 删除questions中的一个文档
DELETE http://localhost:9200/questions/_doc/2

### 查询数据
GET http://localhost:9200/questions/_doc/4

### 搜索 ES
POST http://localhost:9200/questions/_search
Content-Type: application/json

{
  "query": { "match": {"title": "类型" } }
}

### 多字段搜索
POST http://localhost:9200/questions/_search
Content-Type: application/json

{
  "query": {
    "bool": {
      "should": [
        { "match": { "title":  "java类型" }},
        { "match": { "content": "java类型"}}
      ]
    }
  }
}

创建操作ES的持久层

// Repository 是spring家族框架对持久层的命名
@Repository
public interface ItemRepository extends
                                ElasticsearchRepository<Item,Long>  {
    // ItemRepository接口要继承SpringData提供的ElasticsearchRepository父接口
    // 一旦继承,当前接口就会被识别为连接ES的持久层类,SpringData会自动为它生成基本增删改查方法
    // ElasticsearchRepository<[关联的实体类名称],[实体类主键类型]>

    // SpringData自定义查询
    // 可以通过遵循SpringData框架给定的格式定义方法名称,
    // SpringData会根据方法名称自动生成查询语句
    // query(查询):表示当前方法是一个查询方法,类似sql语句中的select
    // Item/Items:确定要查询哪一个实体类,不带s的是单个对象,带s是集合
    // By(通过/根据):标识开始设置查询条件,类似sql语句中的where
    // Title:要查询的字段,可以根据查询条件修改为Item中的任何字段
    // Matches:执行查询的操作,Matches表示字符串的匹配,而且这个匹配是支持分词的,类似sql语句的like
    Iterable<Item> queryItemsByTitleMatches(String title);


    // 多条件查询
    // 多个条件之间我们需要使用And和Or来分隔,来表示他们的查询逻辑
    // 方法的参数赋值是依据方法定义的参数顺序依次向条件中赋值的
    Iterable<Item> queryItemsByTitleMatchesAndBrandMatches(
                                    String title,String brand);

    // 排序查询
    Iterable<Item> queryItemsByTitleMatchesOrBrandMatchesOrderByPriceDesc(
            String title,String brand);

    // 分页查询
    // 返回值修改为Page类型,这个类型中包含了查询到的分页数据,和本次查询相关的分页信息
    // 分页信息包含:当前页,总页数,总条数,每页条数,是否有上一页或下一页等
    // 方法参数,在所有的参数后再添加一个新的参数类型,Pageable

    Page<Item> queryItemsByTitleMatchesOrBrandMatchesOrderByPriceDesc(
            String title, String brand, Pageable pageable);


}

测试ES

// 装配ItemRepository
@Autowired
private ItemRepository itemRepository;

// 执行单增
@Test
void addOne(){
    // 实例化一个Item对并赋值
    Item item=new Item()
        .setId(1L)
        .setTitle("罗技激光无线游戏鼠标")
        .setCategory("鼠标")
        .setBrand("罗技")
        .setPrice(168.0)
        .setImgPath("/1.jpg");
    // 利用SpringDataES提供的方法完成新增功能
    itemRepository.save(item);
    System.out.println("ok");
}
// 单查
@Test
void getOne(){
    // SpringDataES提供了按id查询ES中数据的方法
    // Optional是一个类似包装类的概念,查询结果封装到这个类型中
    Optional<Item> optional=itemRepository.findById(1L);
    Item item=optional.get();
    System.out.println(item);
}

// 批量增
@Test
void addList(){
    // 实例化一个List对象
    List<Item> list=new ArrayList<>();
    // 将要新增的对象保存在List中
    list.add(new Item(2L,"罗技激光有线办公鼠标","鼠标",
                      "罗技",88.0,"/2.jpg"));
    list.add(new Item(3L,"雷蛇机械无线游戏键盘","键盘",
                      "雷蛇",299.0,"/3.jpg"));
    list.add(new Item(4L,"微软有线静音办公鼠标","鼠标",
                      "微软",205.0,"/4.jpg"));
    list.add(new Item(5L,"罗技机械有线背光键盘","键盘",
                      "罗技",268.0,"/5.jpg"));
    itemRepository.saveAll(list);
    System.out.println("ok list");
}
// 全查
@Test
void getAll(){
    // SpringDataES对ES全查(指定索引)返回数据的方法
    Iterable<Item> items=itemRepository.findAll();
    for(Item item : items){
        System.out.println(item);
    }
    items.forEach(item -> System.out.println(item));

}

//单条件查询
@Test
void queryOne(){
    // 查询ES中items索引中,title字段包含"游戏"关键字的数据
    Iterable<Item> items=itemRepository.queryItemsByTitleMatches("激光游戏");
    items.forEach(item -> System.out.println(item));
}

// 多条件查询
@Test
void queryTwo(){
    // 查询ES中items索引中,title字段包含"游戏"并且品牌是"罗技"的数据
    Iterable<Item> items=itemRepository
        .queryItemsByTitleMatchesAndBrandMatches("游戏","罗技");
    items.forEach(item -> System.out.println(item));
}


// 排序查询
@Test
void queryOrder(){
    Iterable<Item> items=itemRepository
        .queryItemsByTitleMatchesOrBrandMatchesOrderByPriceDesc(
        "游戏","罗技");
    items.forEach(item -> System.out.println(item));
}

// 分页查询
@Test
void queryPage(){
    int pageNum=2;   // 要查询的页码
    int pageSize=2;  // 每页包含的数据条数
    Page<Item> page=itemRepository
        .queryItemsByTitleMatchesOrBrandMatchesOrderByPriceDesc(
        "游戏","罗技", PageRequest.of(pageNum-1,pageSize));
    page.forEach(item -> System.out.println(item));
    // page对象中包含的分页和信息:
    System.out.println("总页数:"+page.getTotalPages());
    System.out.println("总条数:"+page.getTotalElements());
    System.out.println("当前页:"+(page.getNumber()+1));
    System.out.println("每页条数:"+page.getSize());
    System.out.println("是否为首页:"+page.isFirst());
    System.out.println("是否为末页:"+page.isLast());
}

网站藏着的「机器人红绿灯」：5 分钟看懂 Robots 协议 incidite 机器人
你有没有想过：当搜索引擎爬取网站时，是谁在指挥它们“该去哪、不该去哪”？答案就藏在一个名叫Robots协议的简单规则里。这个看似神秘的技术，其实就像网站门口的“交通信号灯”，用几句明文代码就能规范爬虫的行为。今天，我们用5分钟揭开它的面纱，新手也能轻松掌握。什么是Robots协议？简单说，Robots协议是网站给搜索引擎爬虫看的“说明书”。它通过一个名为robots.txt的文本文件，告诉爬虫哪些
ChatGPT 与 AIGC 简问乱答 MatrixOnEarth
ChatGPT与AIGC简问乱答**仅代表个人观点。**[Q1]ChatGPT最近非常火爆，2个月突破1亿月活，从产品形态来看，我们知道的微软、谷歌的搜索引擎都会嵌入。那么我们如何看待它的用户粘性，真的会有那么多人持续使用吗还是说只是一阵热潮？[A1]首先，工业界长久以来对搜索引擎的最终产品形态的定义是：信息问答助理。目前的信息检索黄页的产品形态个人认为其实是在技术发展未能满足最终产品形态目标的情
这个导航站，竟然藏着6000+实用网站
在互联网的浩瀚海洋中，我们常常为寻找一个合适的资源而耗费大量时间，从搜索引擎的海量结果中筛选出真正有用的网站，就像在沙堆里淘金一样艰难。然而，E导航的出现，就像一位贴心的向导，将网络世界中那些闪闪发光的宝藏网站汇聚在一起，为我们的探索之旅点亮了一盏明灯。网站地址：E导航-以极简之名,探索网络之境E导航–以极简之名,探索网络之境。以极简的设计理念和丰富的资源分类，为用户提供了一个高效、便捷的网络探索
java学习笔记
期末课堂作业,以下内容为2024年上学期java课堂学习笔记202402150705目录[第1章:Java语言概述](#第1章:Java语言概述)[第2章:数据类型与运算符](#第2章:数据类型与运算符)[第3章:控制流程语句](#第3章:控制流程语句)[第4章:数组](#第4章:数组)[第5章:类与对象](#第5章:类与对象)[第6章:封装、继承与多态](#第6章:封装、继承与多态)[第7章:异
用ELK日志分析平台分析常见的系统登录问题
通过ELK（Elasticsearch、Logstash、Kibana）日志分析平台，除了登录超时问题，还可深入分析以下常见的系统登录问题，并结合实际场景提供解决方案：一、认证失败分析1.问题定位场景：用户输入错误密码、账户锁定、服务端认证模块故障等。ELK实现：日志解析：通过Logstash的Grok插件提取关键字段（如用户名、IP、错误类型），例如解析/var/log/auth.log中的Fa
【Elasticsearch】IndexService risc123456 Elasticsearch elasticsearch
一句话：IndexService就是“一个索引在单个节点里的运行时总管”，负责把这个索引在本节点托管的所有分片（主/副）以及它们要用到的资源、配置、线程池、缓存、监听等全部管理起来。---✅IndexService的核心职责（节点维度）模块作用分片生命周期创建/删除/关闭本地IndexShard实例（每个分片一个）。线程池提供`index`,`search`,`refresh`,`flush`,`
Docker安装Elasticsearch 7.17.0和Kibana 7.17.0并配置基础安全
1.准备工作确保已安装Docker并启动服务创建必要的目录结构：mkdir-p/opt/es/{config,data,plugins}mkdir-p/opt/kibana/configchmod-R777/opt/es/opt/kibana2.安装Elasticsearch拉取镜像：dockerpullelasticsearch:7.17.0创建配置文件/opt/es/config/elasti
java中字符串的创建_Java学习之字符串的创建 weixin_39849127 java中字符串的创建
Java字符串类(java.lang.String)是Java中使用最多的类，也是最为特殊的一个类，很多时候，我们对它既熟悉又陌生。一、从根本上认识java.lang.String类和String池首先，我建议先看看String类的源码实现，这是从本质上认识String类的根本出发点。从中可以看到：1、String类是final的，不可被继承。publicfinalclassString。2、St
绝佳组合 SpringBoot + Lua + Redis = 王炸！
Java精选面试题（微信小程序）：5000+道面试题和选择题，真实面经，简历模版，包含Java基础、并发、JVM、线程、MQ系列、Redis、Spring系列、Elasticsearch、Docker、K8s、Flink、Spark、架构设计、大厂真题等，在线随时刷题！前言曾经有一位魔术师，他擅长将SpringBoot和Redis这两个强大的工具结合成一种令人惊叹的组合。他的魔法武器是Redis的
头条搜索极速版邀请码是多少，新的头条搜索极速版邀请码怎么填？资源共享猫
在当今信息爆炸的时代，搜索引擎已经成为我们获取信息、解决问题的重要工具。然而，面对琳琅满目的搜索引擎，用户往往难以选择。此时，头条搜索极速版应运而生，凭借其独特的功能和优秀的用户体验，迅速在搜索引擎市场中占据了一席之地。更令人兴奋的是，通过输入邀请码，用户可以享受到更多的特权和福利。今天，就让我们一起来探索头条搜索极速版邀请码大全的奥秘，看看它是如何为我们的搜索体验锦上添花的。一、头条搜索极速版的
企业级AI搜索引擎从零到一开发实战：全链路技术解析与代码实现
简介从零开始构建一个企业级AI搜索引擎，是掌握现代搜索技术栈的重要实践。本文将深入剖析基于大语言模型、知识图谱和分布式架构的智能搜索引擎开发全流程，从数据抓取、索引构建到查询处理模块，提供完整的代码实现和架构设计。通过整合多平台数据并应用优化策略，构建一个具备高并发处理能力、精准语义理解及高效搜索排序的智能搜索引擎系统。一、架构设计：智能搜索引擎的核心组件智能搜索引擎架构由三个核心模块组成：数据抓
Elasticsearch 聚合查询源码解读与架构方法论北漂老男人 Elasticsearch elasticsearch 架构大数据搜索引擎全文检索
Elasticsearch聚合查询源码解读与架构方法论01.引言Elasticsearch的聚合查询（Aggregation）是大规模分布式数据分析的核心能力。理解其源码结构与设计方法论，不仅有助于高效使用聚合，也能为自定义扩展、性能优化、集群运维等提供理论与实践基础。本文将从源码结构、核心模块、关键实现、行级注释与方法论出发，系统剖析聚合查询的底层原理。02.源码结构与核心模块2.1聚合相关源码
filebeat改造支持rocketmq 余很多之很多 go Java rocketmq
继续分享下以前在gitchat上发布的文章：filebeat改造支持rocketmq1.概述1.1问题概述现在越来越多的日志采集使用FileBeat，FileBeat是个轻量型日志采集器，采用Go语言实现，性能稳健，占用资源少。FileBeat现在支持采集的日志内容发送到Redis、Elasticsearch、Kafka、Logstash。那么我们如果想通过FileBeat采集日志到RocketM
RabitQ 量化：既省内存又提性能大禹智库《向量数据库指南》《实战AI智能体》人工智能 AI自动化大禹智库 AI智能体向量数据库
突破高维向量内存瓶颈：MlivusCloudRaBitQ量化技术的工程实践与调优指南作为大禹智库高级研究员，拥有三十余年向量数据库与AI系统架构经验的我发现，在当今多模态AI落地的核心场景中，高维向量引发的内存资源消耗问题已成为制约系统规模化部署的“卡脖子”因素。特别是在大规模图像检索、个性化推荐系统和语义搜索引擎中，动辄数亿级别的向量数据需要实时处理，传统全精度索引方式会让内存资源消耗呈指数级增
百度权重提升技巧分析：从底层逻辑到实战策略
在搜索引擎优化（SEO）领域，百度权重始终是网站运营者关注的核心指标之一。它不仅反映了网站在百度搜索中的综合表现，更直接影响着流量获取能力与商业价值。然而，百度权重并非百度官方直接公布的数据，而是第三方平台（如爱站、站长工具等）依据网站关键词排名、流量预估等数据综合计算的参考值。想要有效提升这一指标，需从搜索引擎工作原理出发，结合内容、技术、外链等多维度制定系统策略。一、明确百度权重的核心影响因素
【SpringCloud微服务实战09】Elasticsearch 搜索引擎李维山 Java elasticsearch spring cloud 搜索引擎
一、Elasticsearch安装1、Docker安装ES#创建一个网络dockernetworkcreatees-net#拉取ES镜像（这里使用7.17.18版本）dockerpullelasticsearch:7.17.18#新建一个目录存放es数据mkdirescdes#docker运行单机启动esdockerrun-d\--namees\-e"ES_JAVA_OPTS=-Xms512m-X
一文讲透HTML语义化标签
文章目录语义化标签概述HTML标签及其含义常见HTML5语义化标签语义化标签对搜索引擎（SEO）的影响提升搜索引擎排名增强可访问性改善用户体验语义化标签案例各标签作用说明语义化标签概述HTML语义化是指使用恰当的标签来准确表达内容的结构和含义，使网页不仅对人类开发者可读，也能被搜索引擎、辅助技术等更好地理解和处理。例如，用表示页眉，表示独立内容区块，提升页面可访问性和SEO效果。HTML标签及其含
Filebeat + Logstash + ES进行Nginx日志采集一个只会喊666的菜比
简易架构图service.png架构图比较简单，日志收集大同小异，这次不添加任何中间服务比如：rediskafka后端只是存储进ES使用的版本jdk-8u161-linux-x64.rpmelasticsearch-6.7.2.rpmlogstash-6.7.2.rpmfilebeat-6.7.2-x86_64.rpm安装比较简单，只用进行rpm-ivh即可，接下来直接贴配置文件：Elastics
Elasticsearch数据库的数据同步机制数据库管理艺术 elasticsearch 数据库 jenkins ai
Elasticsearch数据库的数据同步机制关键词：Elasticsearch、数据同步、近实时搜索、倒排索引、translog、refresh、flush、副本同步摘要：本文深入探讨Elasticsearch数据库的数据同步机制，从底层原理到实际应用进行全面解析。文章首先介绍Elasticsearch的基本架构和数据模型，然后详细分析其近实时搜索的实现原理，包括索引刷新(Refresh)、事务
多模态查询优化：5个提升搜索准确率的技巧
多模态查询优化：5个提升搜索准确率的技巧关键词：多模态搜索、特征融合、跨模态对齐、混合索引、语义增强摘要：本文将揭示5个提升多模态搜索准确率的实用技巧，通过生活化案例和代码示例，带您理解如何让图像、文本、语音等不同模态数据协同工作，构建更智能的搜索引擎。背景介绍目的和范围本文旨在帮助开发者和产品经理理解多模态搜索的核心优化技术。涵盖从基础概念到实战应用的完整知识体系，重点解析5个提升准确率的关键技
docker run elasticsearch 报错 EmpressBoost docker elasticsearch 容器
谷粒商城p103前提条件：下载镜像文件#存储和检索数据dockerpullelasticsearch:7.4.2#可视化检索数据dockerpullkibana:7.4.2创建挂载的文件和配置mkdir-p/mydata/elasticsearch/configmkdir-p/mydata/elasticsearch/dataecho"http.host:0.0.0.0">>/mydata/ela
Java学习----线程安全容器典孝赢麻崩乐急 java 学习开发语言
线程安全容器是指在多线程环境下能够保证数据一致性和正确性的容器类。当多个线程同时访问容器时，无需额外的同步措施，容器内部已经实现了必要的同步机制，确保所有操作都能原子性地完成。其主要作用为：简化多线程编程：开发者无需手动添加同步代码提高并发性能：相比简单的同步包装器(如synchronizedList等)，线程安全容器通常有更好的并发性能避免数据竞争：防止多线程同时修改导致的数据不一致提供原子性操
火绒规则禁止所有软件的安装_火绒阻止流氓全家桶规则莱财一哥火绒规则禁止所有软件的安装
火绒阻止流氓全家桶规则能够有效的阻止各种全家桶的安装，并且还能够对各种常见的广告进行全面的屏蔽，对于各种全家桶类型的软件这款软件几乎能够做到屏蔽，能够极为有效的帮助用户减少在电脑上面的乱七八糟的内容，感兴趣话就快来下载这款火绒阻止流氓全家桶规则！火绒阻止流氓全家桶规则介绍防不胜防的流氓软件，一不小心就帮你装上全家桶，导致电脑卡成PPT。没有电脑知识的用户，尤其是父母的电脑，通过某个搜索引擎搜索软件
个人站长必读：从零掌握SEO核心原理与实战技巧
文章目录从零开始理解SEO：个人站长必须知道的搜索引擎优化指南前言：为什么SEO对个人站长至关重要一、SEO基础概念解析1.1搜索引擎工作原理1.2核心排名因素分类二、技术SEO：构建搜索引擎友好的网站基础2.1网站架构优化2.2移动优先索引(Mobile-FirstIndexing)2.3网站速度优化三、内容优化：打造高排名内容3.1关键词研究与实践3.2内容质量评估标准3.3内容结构化技巧四、
思途JAVA学习0716 Asu5202 java idea
1.环境设置Java开发需要安装JDK（JavaDevelopmentKit），它包含JRE（JavaRuntimeEnvironment）和开发工具。设置环境变量是关键步骤：JAVA_HOME：指向JDK安装目录，例如C:\ProgramFiles\Java\jdk-21。Path：添加%JAVA_HOME%\bin，以便在命令行中直接使用java和javac命令。验证安装：在命令行输入java
python分布式爬虫打造搜索引擎--------scrapy实现 weixin_30515513 爬虫 python 开发工具
http://www.cnblogs.com/jinxiao-pu/p/6706319.html最近在网上学习一门关于scrapy爬虫的课程，觉得还不错，以下是目录还在更新中，我觉得有必要好好的做下笔记，研究研究。第1章课程介绍1-1python分布式爬虫打造搜索引擎简介07:23第2章windows下搭建开发环境2-1pycharm的安装和简单使用10:272-2mysql和navicat的安装
python大数据论文_大数据环境下基于python的网络爬虫技术 weixin_39775976 python大数据论文
软件开发大数据环境下基于python的网络爬虫技术作者/谢克武，重庆工商大学派斯学院软件工程学院摘要：随着互联网的发展壮大，网络数据呈爆炸式增长，传统捜索引擎已经不能满足人们对所需求数据的获取的需求，作为搜索引擎的抓取数据的重要组成部分，网络爬虫的作用十分重要，本文首先介绍了在大数据环境下网络爬虫的重要性，接着介绍了网络爬虫的概念，工作原理，工作流程，网页爬行策略，python在编写爬虫领域的优势
分布式系统中优化ELK日志采集性能 Alex艾力的IT数字空间 elk 微服务中间件架构 ux 安全性测试可用性测试
架构设计、组件调优、资源分配等多维度入手一、架构优化：分布式与解耦设计分层采集与缓冲Filebeat轻量级采集：在每台服务器部署Filebeat替代Logstash作为日志收集器，降低资源占用（CPU/内存减少70%以上）。引入缓冲队列：通过Redis或Kafka作为日志缓冲池，缓解Logstash或Elasticsearch的突发流量压力，避免数据丢失（如Logstash异常时Redis暂存数据
GEO + SEO+SMO：AI时代全域组合营销智***O 人工智能 GEO优化大数据 GEO AI搜索
在信息爆炸的时代，用户每一次搜索的背后，都是一次决策的起点。当AI工具逐渐成为人们获取答案的首选，如何让你的品牌在AI生成的回答中占据核心位置？如何让用户在不同平台搜索时，始终选择你？智火营销SEO+GEO+SMO组合营销策略，让品牌成为用户与“搜索”之间的桥梁。智火营销GEO服务一、SEO：巩固搜索生态的信任基石在AI工具与社交平台崛起的当下，传统搜索引擎仍是用户验证信息的重要场景。SEO（搜索
网络爬虫：技术原理、应用场景与合法使用全攻略程序小武 python爬虫入门爬虫网络
爬虫是什么？网络爬虫（WebScraping或WebCrawling）是一种通过自动化方式从网站上抓取公开数据的程序。它通过模拟用户在浏览器中浏览网页的过程，访问网页、提取信息，并将数据保存到本地系统中。爬虫技术广泛应用于搜索引擎、数据收集、市场分析、信息聚合等多个领域。爬虫能做什么？数据收集爬虫可以高效地从互联网上的大量网站收集信息。比如，抓取新闻网站上的文章内容、商品电商平台的价格与库存数据、
ASM系列六利用TreeApi 添加和移除类成员 lijingyao8206 jvm 动态代理 ASM 字节码技术 TreeAPI
同生成的做法一样，添加和移除类成员只要去修改fields和methods中的元素即可。这里我们拿一个简单的类做例子，下面这个Task类，我们来移除isNeedRemove方法，并且添加一个int 类型的addedField属性。 package asm.core; /** * Created by yunshen.ljy on 2015/6/
Springmvc-权限设计 bee1314 spring Web jsp
万丈高楼平地起。权限管理对于管理系统而言已经是标配中的标配了吧，对于我等俗人更是不能免俗。同时就目前的项目状况而言，我们还不需要那么高大上的开源的解决方案，如Spring Security，Shiro。小伙伴一致决定我们还是从基本的功能迭代起来吧。目标： 1.实现权限的管理（CRUD） 2.实现部门管理（CRUD) 3.实现人员的管理（CRUD） 4.实现部门和权限
算法竞赛入门经典（第二版）第2章习题 CrazyMizzz c 算法
2.4.1 输出技巧 #include <stdio.h> int main() { int i, n; scanf("%d", &n); for (i = 1; i <= n; i++) printf("%d\n", i); return 0; } 习题2-2 水仙花数(daffodil
struts2中jsp自动跳转到Action 麦田的设计者 jsp webxml struts2 自动跳转
1、在struts2的开发中，经常需要用户点击网页后就直接跳转到一个Action，执行Action里面的方法，利用mvc分层思想执行相应操作在界面上得到动态数据。毕竟用户不可能在地址栏里输入一个Action（不是专业人士） 2、＜jsp:forward page="xxx.action" /＞，这个标签可以实现跳转，page的路径是相对地址,不同与jsp和j
php 操作webservice实例 IT独行者 PHP webservice
首先大家要简单了解了何谓webservice，接下来就做两个非常简单的例子，webservice还是逃不开server端与client端。我测试的环境为：apache2.2.11 php5.2.10做这个测试之前，要确认你的php配置文件中已经将soap扩展打开，即extension=php_soap.dll; OK 现在我们来体验webservice //server端 serve
Windows下使用Vagrant安装linux系统 _wy_ windows vagrant
准备工作：下载安装 VirtualBox ：https://www.virtualbox.org/ 下载安装 Vagrant ：http://www.vagrantup.com/ 下载需要使用的 box ：官方提供的范例：http://files.vagrantup.com/precise32.box 还可以在 http://www.vagrantbox.es/
更改linux的文件拥有者及用户组(chown和chgrp) 无量 c linux chgrp chown
本文（转） http://blog.163.com/yanenshun@126/blog/static/128388169201203011157308/ http://ydlmlh.iteye.com/blog/1435157 一、基本使用：使用chown命令可以修改文件或目录所属的用户：命令
linux下抓包工具矮蛋蛋 linux
原文地址： http://blog.chinaunix.net/uid-23670869-id-2610683.html tcpdump -nn -vv -X udp port 8888 上面命令是抓取udp包、端口为8888 netstat -tln 命令是用来查看linux的端口使用情况 13 . 列出所有的网络连接 lsof -i 14. 列出所有tcp 网络连接信息 l
我觉得mybatis是垃圾！：“每一个用mybatis的男纸，你伤不起” alafqq mybatis
最近看了每一个用mybatis的男纸，你伤不起原文地址：http://www.iteye.com/topic/1073938 发表一下个人看法。欢迎大神拍砖；个人一直使用的是Ibatis框架，公司对其进行过小小的改良；最近换了公司，要使用新的框架。听说mybatis不错；就对其进行了部分的研究；发现多了一个mapper层；个人感觉就是个dao；
解决java数据交换之谜百合不是茶数据交换
交换两个数字的方法有以下三种，其中第一种最常用 /* 输出最小的一个数 */ public class jiaohuan1 { public static void main(String[] args) { int a =4; int b = 3; if(a<b){ // 第一种交换方式 int tmep =
渐变显示 bijian1013 JavaScript
<style type="text/css"> #wxf { FILTER: progid:DXImageTransform.Microsoft.Gradient(GradientType=0, StartColorStr=#ffffff, EndColorStr=#97FF98); height: 25px; } </style>
探索JUnit4扩展：断言语法assertThat bijian1013 java 单元测试 assertThat
一.概述 JUnit 设计的目的就是有效地抓住编程人员写代码的意图，然后快速检查他们的代码是否与他们的意图相匹配。 JUnit 发展至今，版本不停的翻新，但是所有版本都一致致力于解决一个问题，那就是如何发现编程人员的代码意图，并且如何使得编程人员更加容易地表达他们的代码意图。JUnit 4.4 也是为了如何能够
【Gson三】Gson解析{"data":{"IM":["MSN","QQ","Gtalk"]}} bit1129 gson
如何把如下简单的JSON字符串反序列化为Java的POJO对象? {"data":{"IM":["MSN","QQ","Gtalk"]}} 下面的POJO类Model无法完成正确的解析： import com.google.gson.Gson;
【Kafka九】Kafka High Level API vs. Low Level API bit1129 kafka
1. Kafka提供了两种Consumer API High Level Consumer API Low Level Consumer API(Kafka诡异的称之为Simple Consumer API，实际上非常复杂) 在选用哪种Consumer API时，首先要弄清楚这两种API的工作原理，能做什么不能做什么，能做的话怎么做的以及用的时候，有哪些可能的问题
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-归并排序 bylijinnan java
import java.util.Arrays; public class MergeSort { public static void main(String[] args) { int[] a={20,1,3,8,5,9,4,25}; mergeSort(a,0,a.length-1); System.out.println(Arrays.to
Netty源码学习-CompositeChannelBuffer bylijinnan java netty
CompositeChannelBuffer体现了Netty的“Transparent Zero Copy” 查看API（ http://docs.jboss.org/netty/3.2/api/org/jboss/netty/buffer/package-summary.html#package_description）可以看到，所谓“Transparent Zero Copy”是通
Android中给Activity添加返回键 hotsunshine Activity
// this need android:minSdkVersion="11" getActionBar().setDisplayHomeAsUpEnabled(true); @Override public boolean onOptionsItemSelected(MenuItem item) {
静态页面传参 ctrain 静态
$(document).ready(function () { var request = { QueryString : function (val) { var uri = window.location.search; var re = new RegExp("" + val + "=([^&?]*)", &
Windows中查找某个目录下的所有文件中包含某个字符串的命令 daizj windows 查找某个目录下的所有文件包含某个字符串
findstr可以完成这个工作。 [html] view plain copy >findstr /s /i "string" *.* 上面的命令表示，当前目录以及当前目录的所有子目录下的所有文件中查找"string&qu
改善程序代码质量的一些技巧 dcj3sjt126com 编程 PHP 重构
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短尽管很多人都遵
SharedPreferences对数据的存储 dcj3sjt126com
SharedPreferences简介： &nbs
linux复习笔记之bash shell (2) bash基础 eksliang bash bash shell
转载请出自出处： http://eksliang.iteye.com/blog/2104329 1.影响显示结果的语系变量（locale） 1.1locale这个命令就是查看当前系统支持多少种语系，命令使用如下： [root@localhost shell]# locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8"
Android零碎知识总结 gqdy365 android
1、CopyOnWriteArrayList add(E) 和remove(int index)都是对新的数组进行修改和新增。所以在多线程操作时不会出现java.util.ConcurrentModificationException错误。所以最后得出结论：CopyOnWriteArrayList适合使用在读操作远远大于写操作的场景里，比如缓存。发生修改时候做copy，新老版本分离，保证读的高
HoverTree.Model.ArticleSelect类的作用 hvt Web .net C#hovertree asp.net
ArticleSelect类在命名空间HoverTree.Model中可以认为是文章查询条件类，用于存放查询文章时的条件，例如HvtId就是文章的id。HvtIsShow就是文章的显示属性，当为-1是，该条件不产生作用，当为0时，查询不公开显示的文章，当为1时查询公开显示的文章。HvtIsHome则为是否在首页显示。HoverTree系统源码完全开放，开发环境为Visual Studio 2013
PHP 判断是否使用代理 PHP Proxy Detector 天梯梦 proxy
1. php 类 I found this class looking for something else actually but I remembered I needed some while ago something similar and I never found one. I'm sure it will help a lot of developers who try to
apache的math库中的回归——regression（翻译） lvdccyb Math apache
这个Math库，虽然不向weka那样专业的ML库，但是用户友好，易用。多元线性回归，协方差和相关性（皮尔逊和斯皮尔曼），分布测试（假设检验，t，卡方，G），统计。数学库中还包含，Cholesky，LU，SVD，QR，特征根分解，真不错。基本覆盖了：线代，统计，矩阵，最优化理论曲线拟合常微分方程遗传算法（GA），还有3维的运算。。。
基础数据结构和算法十三：Undirected Graphs (2) sunwinner Algorithm
Design pattern for graph processing. Since we consider a large number of graph-processing algorithms, our initial design goal is to decouple our implementations from the graph representation
云计算平台最重要的五项技术 sumapp 云计算云平台智城云
云计算平台最重要的五项技术 1、云服务器云服务器提供简单高效，处理能力可弹性伸缩的计算服务，支持国内领先的云计算技术和大规模分布存储技术，使您的系统更稳定、数据更安全、传输更快速、部署更灵活。特性机型丰富通过高性能服务器虚拟化为云服务器，提供丰富配置类型虚拟机，极大简化数据存储、数据库搭建、web服务器搭建等工作；仅需要几分钟，根据CP
《京东技术解密》有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的12月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 12月试读活动回顾： http://webmaster.iteye.com/blog/2164754 本次技术图书试读活动获奖名单及相应作品如下：一等奖（两名） Microhardest：http://microhardest.ite