浅弋、璃鱼

ElasticSearcho从入门到放弃:(一)简介, lucene,概念, 安装

文章目录

一、ElasticSeach简介
- 1. 介绍
- 2. ES可以做什么
- - 2.1 信息检索
  - 2.2 企业内部系统搜索
  - 2.3 数据分析引擎
- 3. ES特点
- - 3.1 海量数据处理
  - 3.2 开箱即用
  - 3.3 作用传统数据库的补充
- 4. ES对比solr:
二、Lucene全文检索库
- 1. 什么是全文检索
- - 1.1 结构化数据与非结构化数据
  - 1.2 搜索结构化数据和非结构化数据
  - 1.3 全文检索:
- 2. Lucene简介
三、ES的核心概念：
- 1. 索引 index:
- 2. 映射 mapping
- 3. 字段 Field
- 4. 类型type
- 5. 文档 document
- 6. 集群 cluster
- 7. 节点 node
- 8. 分片和副本: shards & replicas
- - 8.1 分片
  - 8.2 副本
四. 安装ES:
- 1. 安装es:
- - 1.1 创建普通用户:
  - 1.2 为普通用户添加sudo权限
  - 1.3 准备安装包
  - 1.4 修改配置文件
  - - 1.4.1 修改elasticsearch.yml
    - 1.4.2 修改jvm.option
  - 1.5 配置其他节点
  - 1.6 修改系统配置, 解决启动问题
  - - 1.6.1 打开文件的最大数限制;
    - 1.6.2 启动线程数限制
    - 1.6.3 调大虚拟内存
  - 1.7 启动es
- 2. 使用Docker
- 3. Elasticsearch-head插件
- 4. 安装IK分词器
- 5. 准备Vscode开发环境

一、ElasticSeach简介

官方网站: https://www.elastic.co/cn/elasticsearch/

1. 介绍

Elasticsearch是一个基于Lucence的搜索服务器;
提供了一个分布式多用户能力的全文搜索引擎, 基于RESTful web接口;
Elasticsearch是用java语言发开的, 并作为Apache许可条款下的开放源码发布, 是一种流行的企业级搜索引擎;
ES用于云计算中, 能够达到实时搜索, 稳定, 可靠,快速,安装使用方便;官方客户端维护多种编程语言可用;
根据DB-Engines排名显示, ES是最受欢迎的企业所搜索引擎;

2. ES可以做什么

2.1 信息检索

2.2 企业内部系统搜索

关系型数据库使用like进行模糊检索, 会导致索引失效, 效率低下;
可以基于ES来进行检索, 效率非常高;

2.3 数据分析引擎

ES聚合可以对数十一行日志数据进行聚合分析, 套索数据的趋势和规律;

3. ES特点

3.1 海量数据处理

大型分布式集群(数百台规模服务器)
处理PB级数据
小公司也可以进行单机部署;

3.2 开箱即用

简单易用, 操作简单
快速部署生产环境

3.3 作用传统数据库的补充

传统关系型数据库不擅长全文检索(mysql自带的全文索引, 与ES性能差距非常大)
传统关系型数据无法支持搜索排名, 海量数据存储, 分析等功能;
ES可以作为传统关系型数据库的补充, 提供RDBM无法提供的功能;

4. ES对比solr:

solr利用Zookeeper进行分布式管理, 而ES自带有分布式协调管理功能;
Solr支持更多格式的数据, 而ES仅支持json文件格式;
Solr官方提供的功能更多, 而ES本身更注重于核心功能, 高级功能多有第三方插件提供;
Solr在传统的搜索应用中表现好于ES, 但在处理实时搜索应用是时, ES的效率更高;

二、Lucene全文检索库

1. 什么是全文检索

1.1 结构化数据与非结构化数据

结构化数据: 指具有固定格式或优先长度的数据, 如: 数据库, 元数据等;
非结构化数据: 指不定长或无固定格式的数据, 如: 邮件, 图片等磁盘上的文件;

1.2 搜索结构化数据和非结构化数据

使用SQL语言专门搜索结构化数据;
使用ES/Lucene/Solr建立倒排索引, 根据关键字就可以搜索一些非结构化数据;

1.3 全文检索:

全文检索是指:

通过一个程序扫描文本中的每个单词, 针对单词建立索引, 并保存该单词在文本中的位置以及出现的频次;
用户查询时, 通过之前建立好的索引来查询, 将索引单词对应的文本位置, 出现的次数返回给用户, 因为有了具体的位置, 就可以将具体的内容读出来;
类似于通过字典中, 检索字表查字的过程

2. Lucene简介

https://lucene.apache.org/

Lucene是一种高性能的全文检索库, 2000年开源, 最初有Doug Cutting(道格·卡丁)开发;
Lucnee是Apache的一个顶级开源醒目, 是一个全文检索引擎工具包; 但Lucene不是一个完整的全文检索引擎, 它只是提供一个基本的全文检索的架构, 还提供了一些基本的分词库;
Lucene是一个简单易用的工具包, 可以方便的实现全文检索的功能;

三、ES的核心概念：

1. 索引 index:

一个索引就是一个拥有几分相似特征的文档的集合;
一个索引由一个名字来标识(必须全部是小写字母);
在一个集群中, 可以定义任意多的索引;

2. 映射 mapping

ES中的映射(Mapping)用来定义一个文档;
mapping是处理数据的方式和规则方面做一些限制; 如: 字段的数据类型, 默认值, 分析器, 是否被索引;
类似mysql在建表时, 指定字段和字段类型;

3. 字段 Field

相当于数据表中的字段, 对文档数据根据不同属性进行的分类标识;

4. 类型type

每一个字段都应该有一个对应的类型, 例如: Text, Keyword, Byte等;

5. 文档 document

一个文档是一个可被索引的基础信息单元; 比如: 可以拥有某一个客户的文档, 某一个产品的一个文档; 当然, 也可以是拥有某个订单的一个文档;
文档以json格式来表示;

6. 集群 cluster

一个集群就是由一个或多个节点组织在一起, 它们共同持有整个的数据, 并一起提供索引和搜索功能;
一个集群由一个唯一的名字标识, 这个名字默认就是 “elasticsearch”;
这个名字是重要的, 因为一个节点只能通过指定的某个集群名字来加入这个集群;

7. 节点 node

一个节点时集群中的一个服务器, 作为集群的一部分, 它存储数据, 参与集群的索引和搜索功能;
一个节点可以通过配置集群名称的方式加入一个指定的集群; 默认情况下, 每个节点都会被安排加入到 "elasticsearch"的集群中;
这意味着, 如果网络中启动了若干个节点, 并假定它们能够相互发现, 它们将会自动的形成并加入到集群中;
在一个集群里, 可以拥有任意多个节点, 而且, 如果有网络中没有运行任何的ES节点, 这时启动一个节点, 会默认创建并加入到 "elasticsearch"的集群中;

8. 分片和副本: shards & replicas

8.1 分片

一个索引可以存储超出单个节点硬件限制的大量数据; 比如, 一个具有10亿文档的索引占据1TB的磁盘空间, 而任一节点都没有这样大的磁盘空间, 或者单个节点处理搜索请求, 响应太慢;
为了解决这个问题, ES提供了将索引划分成多份的能力, 这些份被称为分片;
当创建一个索引的时候, 可以指定想要的分片数量;
每个分片本身也是一个功能完善并且独立的"索引", 这个"索引"可以被防止到集群中的任何节点上;
分片功能主要体现在:
- 允许水平分割/扩展内容容量;
- 允许在分片之上进行分布式, 并行的操作, 进而提高性能和吞吐;
至于一个分片怎样分布, 文档怎样聚合, 搜索请求怎么处理, 是完全有ES管理的, 对于用户来说, 是透明的;

8.2 副本

在一个网络/云的环境中, 失败随时都可能发生, 在某个分片/节点突然处于离线状态;

四. 安装ES:

1. 安装es:

操作系统: centos7

1.1 创建普通用户:

ES不能使用root用户, 必须使用普通用户来安装启动;

创建一个es专门的用户

useradd esuser
passwd es123

1.2 为普通用户添加sudo权限

执行visudo打开用户权限管理文件

esuser ALL=(ALL) ALL

1.3 准备安装包

下载地址: https://www.elastic.co/cn/downloads/elasticsearch

在服务器上创建es目录, 并修改owner为esuser用户

mkdir -p /export/server/es
chown -R esuser /export/server/es

# 解压ES
su esuser
cd /export/software
tar -zvxf elasticsearch-xxx.tar.gz -C /export/server/es/

1.4 修改配置文件

1.4.1 修改elasticsearch.yml

使用esuser用户来修改配置文件

cd /export/server/es/elasticsearch-xxx/config
mkdir -p /export/server/es/elasticsearch-xxx/log
mkdir -p /export/server/es/elasticsearch-xxx/data
rm -rf elasticsearch.yml

elasticsearch.yml

clister.name: elasticsearch
node.name: node1
path.data: /export/server/es/elasticsearch-xxx/data
path.log: /export/server/es/elasticsearch-xxx/log
network.host: node1
http.port: 9200
discovery.seed_host: ["node1", "node2", "node3"]
cluster.initial_master_nodes: ["node1", "node2"]
bootstrap.system_call_filter: false
bootstrap.memory_lock: false
http.cors.enabled: true
http.cors.allow-origin: "*"

ps: node(x): 为节点地址(域名或ip)

clister.name: 集群名称
node.name: 当前节点名称
path.data, path.log: 数据和日志目录
network.host: 当前网络地址
http.port:服务端口号
discovery.seed_host: 互相发现的地址列表
cluster.initial_master_nodes:初始化master节点列表
bootstrap.system_call_filter: 系统调用过滤
bootstrap.memory_lock: 内存锁定
http.cors.enabled, http.cors.allow-origin: 跨域相关, 开放

1.4.2 修改jvm.option

修改jvm.option配置文件, 调整jvm堆内存大小

/export/server/es/elasticsearch-xxx/config/ jvm.options

-Xms2g
-Xmx2g

1.5 配置其他节点

1.6 修改系统配置, 解决启动问题

由于现在使用普通用户来安装es服务, 且es服务对服务器要求的资源比较多, 包括内存大小, 线程数等, 所以, 需要给esuser解开资源的束缚;

1.6.1 打开文件的最大数限制;

问题错误信息:
max file descriptors[4096] for elasticsearch process likely too low, increase to at least [65536]
es因为需要大量的创建索引文件, 需要大量的打开系统的文件
sudo vi /etc/security/limits.conf
添加如下内容:
ps: *不要去掉

..... # 原本的内容
* soft nofile 65535
* hard nofile 131072
* soft nproc 2048
* hard nproc 4096

# End of file

修改此文件后, 需要重新登录用户

1.6.2 启动线程数限制

问题错误描述:
max number of threads [1024] for user [esuser] likely too low, increase to at least [4096]
/etc/security/limits.d/20-nproc.conf

* soft nproc 1024
# 修改为:
* soft nproc 4096

1.6.3 调大虚拟内存

问题错误描述
max virtual memory areas vm.max_map_count [65530] likely too low, increase to at least[262144]
手动执行命令:

 sudo sysctl -w vm.max_map_count=262144

修改系统文件(重启后不必在修改)
/etc/sysctl.conf

# 最后一行
vm.max_map_count-262144

1.7 启动es

使用esuser用户来执行

nobup /export/server/es/elasticsearch-xxx/bin/elasticsearch 2> &1 &

使用jps可以看到es服务进程
访问 http://node1:9200/?pretty 可以看到一些信息

2. 使用Docker

镜像地址: https://hub.docker.com/_/elasticsearch

相关文档: https://www.elastic.co/guide/en/elasticsearch/reference/7.5/docker.html

3. Elasticsearch-head插件

elasticsearch-head提供一个用于图形化查看的插件工具,

文档网站: http://mobz.github.io/elasticsearch-head/
项目地址: https://github.com/mobz/elasticsearch-head

4. 安装IK分词器

需要使用ES来进行中文分词, 所以要单独给ES安装IK分词器插件:

下载ES Ik分词器:
- https://github.com/medcl/elasticsearch-analysis-ik
切换用户esuser, 并在es安装目录下的/plugin目录下创建 ik 目录

mkdir -p /export/server/es/elasticsearch-xxx/plugin/ik

unzip elasticsearch-analysis-ik-xxx.zip

重启ElasticSearch

使用docker启动, 将ik分词器解压到本地;
macOS会在本地的plugin目录中生成一个文件, 会影响es的启动;
注意版本要一致!!!
docker run -d --name elasticsearch -p 9200:9200 -p 9300:9300 -v /docker/elasticsearch/plugin:/usr/share/elasticsearch/plugins -e "discovery.type=single-node" elasticsearch
使用新版的ES需要密码登录: https://blog.csdn.net/u012999325/article/details/105451855

5. 准备Vscode开发环境

在VScode中安装elasticsearch for vscode插件

插件地址: https://marketplace.visualstudio.com/items?itemName=ria.elastic

使用普通的分词器:

POST _analyze
{
  "analyzer": "standard",
  "text": "我爱你中国"
}

结果:

{
    "tokens": [
        {
            "token": "我",
            "start_offset": 0,
            "end_offset": 1,
            "type": "",
            "position": 0
        },
        {
            "token": "爱",
            "start_offset": 1,
            "end_offset": 2,
            "type": "",
            "position": 1
        },
        {
            "token": "你",
            "start_offset": 2,
            "end_offset": 3,
            "type": "",
            "position": 2
        },
        {
            "token": "中",
            "start_offset": 3,
            "end_offset": 4,
            "type": "",
            "position": 3
        },
        {
            "token": "国",
            "start_offset": 4,
            "end_offset": 5,
            "type": "",
            "position": 4
        }
    ]
}

使用ik分词器

POST _analyze
{
  "analyzer": "ik_max_word", // 尽可能多的分词
  "text": "我爱你中国"
}

结果:

{
    "tokens": [
        {
            "token": "我爱你",
            "start_offset": 0,
            "end_offset": 3,
            "type": "CN_WORD",
            "position": 0
        },
        {
            "token": "爱你",
            "start_offset": 1,
            "end_offset": 3,
            "type": "CN_WORD",
            "position": 1
        },
        {
            "token": "中国",
            "start_offset": 3,
            "end_offset": 5,
            "type": "CN_WORD",
            "position": 2
        }
    ]
}

Springboot --- 整合spring-data-jpa和spring-data-elasticsearch 百世经纶『一页書』 Springboot Java springboot
Springboot---整合spring-data-jpa和spring-data-elasticsearch1.依赖2.配置文件3.代码部分3.1Entity3.2Repository3.3Config3.4Service3.5启动类3.6Test3.7项目结构SpringBoot:整合Ldap.SpringBoot:整合SpringDataJPA.SpringBoot:整合Elasticse
Seo新手入门，网络编辑如何写好文章（写文章技巧）魔仙堡捏泥巴 SEO
Seo新手入门，网络编辑如何写好文章（写文章技巧）概述刚入SEO门的小白在进行网站编辑的时候一定很头痛，SEO的标题怎么写？文章关键词怎么部署？注意要点都有什么？这一系列的问题，今天就让小编我来为您解答吧，文章技巧得这样写！SEO标题的重要性SEO标题就是网页的标题title在浏览器最左边最顶部显示的地方，他也是被搜索引擎当做是确定当前网页主体最主要的参数之一。为了吸引蜘蛛爬行，你的网站的标题是需
攻击者利用热门AI发动黑帽SEO攻击，通过污染搜索结果传播窃密木马 FreeBuf- 人工智能
伪装成AI主题网站的恶意页面|图片来源：ZscalerZscaler威胁实验室研究人员发现一起精心策划的恶意软件攻击活动，攻击者利用ChatGPT和LumaAI等人工智能(AI)工具的热度，通过黑帽SEO（搜索引擎优化）技术劫持搜索引擎结果，诱导用户落入恶意软件陷阱。Zscaler警告称："这些攻击背后的威胁行为者正在利用ChatGPT和LumaAI等AI工具的热度。"这些欺诈活动至少从2025年
Elasticsearch 根据字段值去重前的个数过滤数据（qbit）
前言本文对Elasticsearch7.17适用假定有个ip类型的字段client_ip，需要根据字段值的个数过滤数据在query中使用script只能通过doc['client_ip']获取到去重后的个数研究发现使用runtime_mappings可以动态新建字段获取到不去重的个数示例创建索引PUTmy_index{"mappings":{"dynamic":false,"properties"
Gen AI：重塑未来的创造力工具箱一杯酒zpy 人工智能
目录页一、GenAI工具箱助力大学生涯1.通用GenAI工具2.GenAI科研辅助1.文献阅读与论文写作2.数据分析与可视化3.AI翻译工具二、GenAI办公、学习助手1.PPT制作2.表格制作3.AI思维导图4.AI办公5.AI图像处理6.AI视频处理7.AI音频处理8.AI编程工具9.AI搜索引擎说明：网盘资源密码获取：关注微信公众号【土木岛】，后台回复文件框中提示的对应关键词自动发送。点击查
专注搜索引擎优化的专业模板平台 wodrpress资源分享独立站搜索引擎 moban html
SEO模板seomoban.com定位：致力于提供SEO友好型网站模板，核心目标是帮助用户提升网站在搜索引擎中的排名和在线可见性。核心优势与技术特性：深度SEO优化所有模板均经SEO专家审核，确保代码结构简洁规范，符合搜索引擎爬虫索引标准，从底层提升收录效率。集成元标签编辑器、关键词优化建议等工具，简化SEO操作流程。高性能与响应式设计模板加载速度经过专项优化，符合Google等搜索引擎的页面体验
Reactor boundedElastic lang20150928 reactor java
boundedElastic调度器专门用于处理无法避免的阻塞代码，而single和parallel调度器则不支持阻塞操作。因此，如果在single或parallel调度器上使用Reactor的阻塞API（如block()、blockFirst()、blockLast()）或通过toIterable()、toStream()进行迭代，会抛出IllegalStateException异常。自定义调度器
python教学爬虫入门早柚不用工作了 python
Python爬虫入门教程：从零基础到抓取数据一、什么是网络爬虫？网络爬虫（WebCrawler），也称为网络蜘蛛（WebSpider），是一种按照一定的规则，自动抓取万维网信息的程序或者脚本。它能够模拟人类在浏览器中的操作，自动访问网页，提取所需的数据，广泛应用于数据采集、搜索引擎优化、市场调研等领域。但在编写爬虫时，务必遵守法律法规和网站的robots.txt协议，避免过度抓取对网站造成负担，同
Elasticsearch 索引文档的流程 jiedaodezhuti elasticsearch 大数据搜索引擎
Elasticsearch索引文档的流程是一个分布式、多阶段的过程，涉及客户端请求、路由、主副本同步及持久化等步骤，具体流程如下：一、客户端请求与路由1.1文档接收与路由计算‌客户端通过RESTAPI发送文档写入请求，需指定索引名、文档ID（可选）及文档内容。Elasticsearch根据文档ID（或自定义routing值）哈希计算目标主分片位置。请求被转发到主分片所在的节点（协调节点或直接定位主
Elasticsearch连接 java.net.ConnectException: Connection refused: getsockopt swany elasticsearch java .net
使用springboot连接Elasticsearch创建全文索引，总是报连接不上的问题，报错如下：org.springframework.beans.factory.UnsatisfiedDependencyException:Errorcreatingbeanwithname'esContentService':Unsatisfieddependencyexpressedthroughfiel
亚马逊认证考试系列 - 第一部份：基础服务 - AWS SAA C03 忍者算法 aws 云计算
下面我针对**第一部分：基础服务（20%）**展开讲解，按照让零基础的人也能理解的目标逐步深入。核心服务1：EC2（ElasticComputeCloud）1.EC2的核心概念作用：EC2就是AWS提供的“云电脑”。你不需要买实体电脑，而是可以随时租用AWS的云电脑运行程序。按需使用，按时间付费，灵活高效。生活比喻：假如你需要一台电脑做任务（比如修图、剪视频），但不需要每天用，也不想买一台昂贵的高
如何解决本地DNS解析失败问题？以连接AWS ElastiCache Redis为例 ivwdcwso 运维与云原生 aws redis 云计算 ElastiCache DNS解析网络故障异常处理
在云服务开发中，DNS解析问题常常成为困扰开发者的隐形障碍。本文将通过AWSElastiCacheRedis连接失败的实际案例，详细介绍如何诊断和解决DNS解析问题，帮助你快速恢复服务连接。引言在使用telnet或redis-cli连接AWSElastiCacheRedis时，有时会遇到类似以下错误：telnettest.pi9121.ng.0001.use1.cache.amazonaws.co
深入解析前端 Meta 标签：HTML 的隐形守护者与功能大师斯~内克 html5 前端 html
在构建现代网页时，我们常常关注炫目的视觉效果、复杂的交互逻辑或强大的框架，却容易忽略那些深藏于之中、看似不起眼的标签。这些标签如同网页的隐形守护者，无声地承担着定义文档元数据、指导浏览器行为、优化搜索引擎可见性、提升用户体验等关键任务。本文将深入探索meta标签的世界，揭示其强大的功能和最佳实践。一、Meta标签基础：定义与核心作用定义：标签位于HTML文档的部分，用于提供关于HTML文档的元数据
【云原生】Docker 部署 Elasticsearch 9 操作详解逆风飞翔的小叔运维 Docker 部署es9 Docker部署es Docker搭建es9 Elasticsearch9 Docker搭建es
目录一、前言二、Elasticsearch9新特性介绍2.1基于Lucene10重大升级2.2BetterBinaryQuantization（BBQ）2.3ElasticDistributionsofOpenTelemetry（EDOT）2.4LLM可观测性2.5攻击发现与自动导入2.6ES|QL增强2.7语义检索三、基于Docker部署Elasticsearch93.1Elasticsearc
使用docker-compose部署elk
使用DockerCompose部署ELK（Elasticsearch、Logstash、Kibana）的好处主要体现在以下几个方面：集中管理日志数据：ELK能够帮助业务实现日志数据的集中管理，通过Elasticsearch进行搜集、分析和存储，Kibana为Elasticsearch提供图形化界面，使得日志数据的查看和分析更加直观和便捷。快速搜索和分析：ELK能够快速搜索和分析日志数据，从而提高故
【bug】searchxng搜索报错Searx API returned an error upp bug searxng
在使用开源搜索引擎时候报错：ValueError:('SearxAPIreturnedanerror:','\n\n403Forbidden\nForbidden\nYoudon'thavethepermissiontoaccesstherequestedresource.Itiseitherread-protectedornotreadablebytheserver.\n')只需要将searxn
如何使本地大模型拥有联网搜索的能力？ SugarPPig 人工智能人工智能
要让本地部署的大模型（如DeepSeek、LLaMA、ChatGLM等）具备联网搜索能力，需要将模型与外部工具结合，通过API调用、插件或代理机制实现实时信息获取。以下是具体实现方案：一、核心实现思路工具调用机制：为大模型添加调用搜索引擎API的能力工作流程：用户提问→模型判断是否需要搜索→调用搜索API→解析搜索结果→生成最终回答技术架构分层：交互层：接收用户包含实时信息需求的query决策层：
Elasticsearch模糊查询、多字段in查询、时间范围查询，DSL和java API两种方式 Gzzz__ Elasticsearch elasticsearch java javascript 开发语言后端
项目场景：Elasticsearch模糊查询某字段、多字段in查询、时间范围查询，通过DSL和javaAPI两种方式解决方案：一、模糊查询wildcard通配符检索使用wildcard相当于SQL的like，前后都可拼接*，匹配0到多个任意字符{"query":{"wildcard":{"name.keyword":"*文件*"}}}BoolQueryBuilderqueryBuilder=Que
Elasticsearch从入门到精通编程界的彭于晏qaq java 数据库缓存 es
Elasticsearch从入门到精通一、引言在当今数字化时代，数据呈现出爆炸式增长的态势，如何高效地存储、检索和分析这些海量数据成为了开发者们面临的重要挑战。Elasticsearch（简称ES）作为一款强大的分布式搜索和分析引擎，凭借其出色的性能、高可扩展性和实时搜索能力，在众多领域得到了广泛的应用。而Java作为一种广泛使用的编程语言，以其强大的功能和丰富的生态系统，成为了与ES结合的首选语
秘塔AI搜索：国产无广告智能搜索引擎，重塑高效信息获取体验
1.产品概述秘塔AI搜索（MetaSo）是由上海秘塔网络科技有限公司开发的国产AI搜索引擎，于2024年初正式上线。该产品基于自研大语言模型MetaLLM，主打无广告干扰、结构化信息展示、学术研究支持等核心功能，旨在为用户提供更精准、高效的搜索体验。核心特点✅无广告纯净搜索：直接呈现答案，无商业推广干扰。✅结构化信息展示：自动生成思维导图、大纲、表格，帮助梳理复杂内容。✅学术研究模式：支持中英文文
Perplexity AI：对话式搜索引擎的革新者与未来认知操作系统明似水 AI 人工智能搜索引擎
在信息爆炸的数字时代，传统搜索引擎提供的海量链接列表已无法满足用户对高效、精准知识获取的需求。PerplexityAI作为一款融合人工智能与实时网络检索的对话式搜索引擎，正通过技术创新重新定义人们获取信息的方式。这家成立于2022年的硅谷初创企业，凭借其"答案引擎"(AnswerEngine)的独特定位，在短短几年内迅速崛起，月查询量突破7.8亿次，成为挑战Google传统搜索霸主地位的新锐力量。
索引优化SEO帮助你的网站内容更快被搜索引擎发现推广小赵经验分享
想要提升网站收录效果？别再盲目修改标题和关键词了！技术SEO中的索引优化才是关键所在！下面分享几个经过实践验证的索引优化技巧，帮助你的网站内容更快被搜索引擎发现。1、仔细检查robots.txt和noindex设置很多网站的内容无法被收录，问题往往出在网站自身的限制上。务必检查robots.txt文件和各页面的metarobots标签，确保重要内容没有被错误屏蔽。2、优化网站层级结构搜索引擎爬虫更
php 制作网站地图,网站地图怎么做，制作网站地图的三种实用方法雷喜 php 制作网站地图
网站地图(sitemap)，简单理解就是站点所有链接的总和。创建一个网站地图不仅可以将我们站点所有的链接提交给搜索引擎，重点是还可以增加搜索引擎蜘蛛的爬行抓取，使站点内容产出更快的被收录，是SEO优化的一大利器。那么网站地图该如何做呢？下面阿南就简单的介绍几种方法：方法1通过第三方自动生成工具，直接输入域名就好了，生成出来的xml网站地图文件我们可以复制保存下来上传至站点根目录，但是这种方式一般都
利用WordPress官方插件创建sitemap站点地图的最佳方法三流架构师 http https mysql
作为站长不论小白还是经验丰富的老鸟，网站运营最重要的就是站点地图，站点地图是什么？它是一个工具，站长每天网站更新信息都被记录到网站地图（sitemap）里面，这是供搜索引擎爬虫抓取信息的页面，跟我们普通人见到的网站页面是不同的。你的站点地图优化得越好，搜索引擎搜索抓取结果越快，对于网站运营成长有很大的帮助。在这里我们也必须知道，虽然站点地图（sitemap）很重要，但是网站没有实质有用的东西，搜索
百度算法逻辑的实用技巧指南科技苑百度
一、明确核心：百度算法关注什么？百度搜索引擎的本质是“为用户提供最有价值的内容”，其算法（如绿萝、飓风、细雨算法等）主要考核：1.内容质量：原创性、专业性、解决用户需求的能力；2.网站权威性：域名年龄、行业影响力、外部链接质量；3.用户体验：页面加载速度、移动端适配、导航易用性；4.相关性：关键词与内容的匹配度、页面结构合理性。二、基础优化：网站结构与技术合规1.搭建搜索引擎友好的网站结构-URL
Google蜘蛛池留痕：提升网站在Google搜索中的索引效率与流量增长蜘蛛池CHUZU c++搜索引擎开发语言
作为一名CSDN创作者，我深知网站优化对搜索引擎可见度的重要性。今天，我将以“google蜘蛛池留痕”为核心关键词，分享一篇高质量的技术文章，帮助开发者、站长和SEO从业者提升网站在Google搜索中的表现。Google蜘蛛（即Googlebot）是Google的爬虫程序，负责抓取和索引网页；“蜘蛛池”指优化爬虫访问的策略集合；“留痕”则意味着确保网站内容被高效索引，留下搜索痕迹。本文将从基础原理
Google蜘蛛池详解：提升网站SEO爬行效率的关键策略蜘蛛池CHUZU 爬虫 python
在搜索引擎优化（SEO）领域，Google蜘蛛池（GoogleSpiderPool）是一个核心概念，它直接关系到网站在Google搜索结果中的可见性和排名。本文将从基础原理到实践技巧，系统解析Google蜘蛛池的作用、优化方法及常见误区，帮助开发者高效提升网站爬行效率。一、什么是Google蜘蛛池？Google蜘蛛池指的是Google搜索引擎爬虫（如Googlebot）对网站资源的访问调度机制。简
SEO蜘蛛池优化：提升网站搜索引擎索引的关键策略蜘蛛池CHUZU python
在当今数字化时代，网站如何高效地被搜索引擎索引是SEO（搜索引擎优化）的核心挑战之一。"蜘蛛池"作为一种技术手段，通过管理大量域名或页面来吸引搜索引擎爬虫（spider），从而加速索引过程。本文以"SEO蜘蛛池优化"为副关键词，深入探讨其原理、实现方法及最佳实践，帮助网站管理员提升索引效率，同时规避潜在风险。一、什么是蜘蛛池？蜘蛛池是指一个集中管理多个域名或子域名的系统，专门用于引导搜索引擎爬虫进
6.24_JAVA_微服务_Elasticsearch搜索灰太狼Coding java 微服务开发语言
1、FinalShell工具：单向工具，能将本地连接到虚拟机。（虚拟机连不到本地）我们用docker建的容器比如MQ，比如ES，我们能够访问它们的WEB操作地址，都是因为前面的地址不是localhost，而是虚拟机的IP。比如ES端口是9200，本地访问localhost:9200会无法访问。但是输入：192.168.XXX.XXX:9200可以访问。我们操作也实际上是操作的虚拟机的数据，而不是本
Open-WebUI：解锁大模型的本地化应用潜力 CarlowZJ Open-WebUI
目录一、Open-WebUI简介（一）概念与定位（二）核心特点二、Open-WebUI的安装与配置（一）基于Docker的安装（二）基于Python的安装三、Open-WebUI调用大模型的实现方法（一）接入本地部署的模型（二）接入云端API服务四、Open-WebUI的应用场景（一）AI聊天机器人（二）智能搜索引擎（三）自动化内容生成（四）数据分析与可视化五、Open-WebUI使用注意事项（一
scala的option和some 矮蛋蛋编程 scala
原文地址： http://blog.sina.com.cn/s/blog_68af3f090100qkt8.html 对于学习 Scala 的 Java™ 开发人员来说，对象是一个比较自然、简单的入口点。在本系列前几期文章中，我介绍了 Scala 中一些面向对象的编程方法，这些方法实际上与 Java 编程的区别不是很大。我还向您展示了 Scala 如何重新应用传统的面向对象概念，找到其缺点
NullPointerException Cb123456 android BaseAdapter
java.lang.NullPointerException: Attempt to invoke virtual method 'int android.view.View.getImportantForAccessibility()' on a null object reference 出现以上异常.然后就在baidu上
PHP使用文件和目录天子之骄 php文件和目录读取和写入 php验证文件 php锁定文件
PHP使用文件和目录 1.使用include()包含文件 (1)：使用include()从一个被包含文档返回一个值 (2)：在控制结构中使用include() include_once()函数需要一个包含文件的路径，此外，第一次调用它的情况和include()一样，如果在脚本执行中再次对同一个文件调用，那么这个文件不会再次包含。在php.ini文件中设置
SQL SELECT DISTINCT 语句何必如此 sql
SELECT DISTINCT 语句用于返回唯一不同的值。 SQL SELECT DISTINCT 语句在表中，一个列可能会包含多个重复值，有时您也许希望仅仅列出不同（distinct）的值。 DISTINCT 关键词用于返回唯一不同的值。 SQL SELECT DISTINCT 语法 SELECT DISTINCT column_name,column_name F
java冒泡排序 3213213333332132 java 冒泡排序
package com.algorithm; /** * @Description 冒泡 * @author FuJianyong * 2015-1-22上午09:58:39 */ public class MaoPao { public static void main(String[] args) { int[] mao = {17,50,26,18,9,10
struts2.18 +json,struts2-json-plugin-2.1.8.1.jar配置及问题！ 7454103 DAO spring Ajax json qq
struts2.18 出来有段时间了！（貌似是稳定版）闲时研究下下！貌似 sruts2 搭配 json 做 ajax 很吃香！实践了下下！不当之处请绕过！呵呵网上一大堆 struts2+json 不过大多的json 插件都是 jsonplugin.34.jar strut
struts2 数据标签说明 darkranger jsp bean struts servlet Scheme
数据标签主要用于提供各种数据访问相关的功能，包括显示一个Action里的属性，以及生成国际化输出等功能数据标签主要包括： action ：该标签用于在JSP页面中直接调用一个Action，通过指定executeResult参数，还可将该Action的处理结果包含到本页面来。 bean ：该标签用于创建一个javabean实例。如果指定了id属性，则可以将创建的javabean实例放入Sta
链表.简单的链表节点构建 aijuans 编程技巧
/*编程环境WIN-TC*/ #include "stdio.h" #include "conio.h" #define NODE(name, key_word, help) \ Node name[1]={{NULL, NULL, NULL, key_word, help}} typedef struct node { &nbs
tomcat下jndi的三种配置方式 avords tomcat
jndi(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。命名服务将名称和对象联系起来，使得我们可以用名称访问对象。目录服务是一种命名服务，在这种服务里，对象不但有名称，还有属性。 tomcat配置
关于敏捷的一些想法 houxinyou 敏捷
从网上看到这样一句话：“敏捷开发的最重要目标就是：满足用户多变的需求，说白了就是最大程度的让客户满意。” 感觉表达的不太清楚。感觉容易被人误解的地方主要在“用户多变的需求”上。第一种多变，实际上就是没有从根本上了解了用户的需求。用户的需求实际是稳定的，只是比较多，也比较混乱，用户一般只能了解自己的那一小部分，所以没有用户能清楚的表达出整体需求。而由于各种条件的，用户表达自己那一部分时也有
富养还是穷养，决定孩子的一生 bijian1013 教育人生
是什么决定孩子未来物质能否丰盛？为什么说寒门很难出贵子，三代才能出贵族？真的是父母必须有钱，才能大概率保证孩子未来富有吗？-----作者：@李雪爱与自由事实并非由物质决定，而是由心灵决定。一朋友富有而且修养气质很好，兄弟姐妹也都如此。她的童年时代，物质上大家都很贫乏，但妈妈总是保持生活中的美感，时不时给孩子们带回一些美好小玩意，从来不对孩子传递生活艰辛、金钱来之不易、要懂得珍惜
oracle 日期时间格式转化征客丶 oracle
oracle 系统时间有 SYSDATE 与 SYSTIMESTAMP； SYSDATE：不支持毫秒，取的是系统时间； SYSTIMESTAMP：支持毫秒，日期，时间是给时区转换的，秒和毫秒是取的系统的。日期转字符窜：一、不取毫秒： TO_CHAR(SYSDATE, 'YYYY-MM-DD HH24:MI:SS') 简要说明， YYYY 年 MM 月
【Scala六】分析Spark源代码总结的Scala语法四 bit1129 scala
1. apply语法 FileShuffleBlockManager中定义的类ShuffleFileGroup，定义： private class ShuffleFileGroup(val shuffleId: Int, val fileId: Int, val files: Array[File]) { ... def apply(bucketId
Erlang中有意思的bug bookjovi erlang
代码中常有一些很搞笑的bug，如下面的一行代码被调用两次（Erlang beam） commit f667e4a47b07b07ed035073b94d699ff5fe0ba9b Author: Jovi Zhang <[email protected]> Date: Fri Dec 2 16:19:22 2011 +0100 erts:
移位打印10进制数转16进制-2008-08-18 ljy325 java 基础
/** * Description 移位打印10进制的16进制形式 * Creation Date 15-08-2008 9:00 * @author 卢俊宇 * @version 1.0 * */ public class PrintHex { // 备选字符 static final char di
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
利用cmd命令将.class文件打包成jar chenyu19891124 cmd jar
cmd命令打jar是如下实现：在运行里输入cmd，利用cmd命令进入到本地的工作盘符。(如我的是D盘下的文件有此路径 D:\workspace\prpall\WEB-INF\classes) 现在是想把D:\workspace\prpall\WEB-INF\classes路径下所有的文件打包成prpall.jar。然后继续如下操作： cd D: 回车 cd workspace/prpal
[原创]JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 comsci eclipse 设计模式算法工作 swing
JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 &nb
SecureCRT右键粘贴的设置 daizj secureCRT 右键粘贴
一般都习惯鼠标右键自动粘贴的功能，对于SecureCRT6.7.5 ，这个功能也已经是默认配置了。老版本的SecureCRT其实也有这个功能，只是不是默认设置，很多人不知道罢了。菜单： Options->Global Options ...->Terminal 右边有个Mouse的选项块。 Copy on Select Paste on Right/Middle
Linux 软链接和硬链接 dongwei_6688 linux
1.Linux链接概念Linux链接分两种，一种被称为硬链接（Hard Link），另一种被称为符号链接（Symbolic Link）。默认情况下，ln命令产生硬链接。【硬连接】硬连接指通过索引节点来进行连接。在Linux的文件系统中，保存在磁盘分区中的文件不管是什么类型都给它分配一个编号，称为索引节点号(Inode Index)。在Linux中，多个文件名指向同一索引节点是存在的。一般这种连
DIV底部自适应 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
Centos6.5使用yum安装mysql——快速上手必备 dcj3sjt126com mysql
第1步、yum安装mysql [root@stonex ~]# yum -y install mysql-server 安装结果： Installed: mysql-server.x86_64 0:5.1.73-3.el6_5 &nb
如何调试JDK源码 frank1234 jdk
相信各位小伙伴们跟我一样，想通过JDK源码来学习Java，比如collections包，java.util.concurrent包。可惜的是sun提供的jdk并不能查看运行中的局部变量，需要重新编译一下rt.jar。下面是编译jdk的具体步骤： 1.把C:\java\jdk1.6.0_26\sr
Maximal Rectangle hcx2013 max
Given a 2D binary matrix filled with 0's and 1's, find the largest rectangle containing all ones and return its area. public class Solution { public int maximalRectangle(char[][] matrix)
Spring MVC测试框架详解——服务端测试 jinnianshilongnian spring mvc test
随着RESTful Web Service的流行，测试对外的Service是否满足期望也变的必要的。从Spring 3.2开始Spring了Spring Web测试框架，如果版本低于3.2，请使用spring-test-mvc项目（合并到spring3.2中了）。 Spring MVC测试框架提供了对服务器端和客户端（基于RestTemplate的客户端）提供了支持。 &nbs
Linux64位操作系统（CentOS6.6）上如何编译hadoop2.4.0 liyong0802 hadoop
一、准备编译软件 1.在官网下载jdk1.7、maven3.2.1、ant1.9.4，解压设置好环境变量就可以用。环境变量设置如下：（1）执行vim /etc/profile （2）在文件尾部加入: export JAVA_HOME=/home/spark/jdk1.7 export MAVEN_HOME=/ho
StatusBar 字体白色 pangyulei status
[[UIApplication sharedApplication] setStatusBarStyle:UIStatusBarStyleLightContent]; /*you'll also need to set UIViewControllerBasedStatusBarAppearance to NO in the plist file if you use this method
如何分析Java虚拟机死锁 sesame java thread oracle 虚拟机 jdbc
英文资料： Thread Dump and Concurrency Locks Thread dumps are very useful for diagnosing synchronization related problems such as deadlocks on object monitors. Ctrl-\ on Solaris/Linux or Ctrl-B
位运算简介及实用技巧（一）：基础篇 tw_wangzhengquan 位运算
http://www.matrix67.com/blog/archives/263 去年年底写的关于位运算的日志是这个Blog里少数大受欢迎的文章之一，很多人都希望我能不断完善那篇文章。后来我看到了不少其它的资料，学习到了更多关于位运算的知识，有了重新整理位运算技巧的想法。从今天起我就开始写这一系列位运算讲解文章，与其说是原来那篇文章的follow-up，不如说是一个r
jsearch的索引文件结构 yangshangchuan 搜索引擎 jsearch 全文检索信息检索 word分词
jsearch是一个高性能的全文检索工具包，基于倒排索引，基于java8，类似于lucene，但更轻量级。 jsearch的索引文件结构定义如下： 1、一个词的索引由=分割的三部分组成：第一部分是词第二部分是这个词在多少