dwjf321

Elasticsearch实战——搜索详解

文章目录

Elasticsearch实战——搜索详解

1. 搜索机制

1.1 查询所有数据
1.2 指定返回字段
1.3 指定返回版本号
1.4 过滤低频分数据
1.5 高亮查询

2. 全文查询

2.1 match query
2.2 match_phrase query
2.3 match_phrase_prefix query
2.4 multi_match query
2.5 common_terms query

2.5.1 问题
2.5.2 解决方案
2.5.3 示例

2.6 query_string query

3. 词项查询

3.1 term query
3.2 terms query
3.3 range query
3.4 exists query
3.5 prefix query
3.6 wildcard query
3.7 regexp query

4. 关注我

Elasticesearch的核心功能是搜索，现在介绍ES的搜索API及其用法。

为了有助于讲解，这里准备一些测试数据，把数据保存到文件website.json中：

{"index":{"_index":"website","_id":"1"}}
{"address":"北京市昌平区南丰路","province":"北京市","city":"北京市","district":"昌平区","location":"40.150775,116.2841456","title":"凤凰自行车","category":["购物","自行车专卖"]}
{"index":{"_index":"website","_id":"2"}}
{"address":"北京市昌平区 ","province":"北京市","city":"北京市","district":"昌平区","location":"40.109854,116.274349","title":"速派奇","category":["购物","其它购物"]}
{"index":{"_index":"website","_id":"3"}}
{"address":"北京市昌平区 ","province":"北京市","city":"北京市","district":"昌平区","location":"40.165716,116.270237","title":"共享单车停放处","category":["生活服务","其它生活服务"]}
{"index":{"_index":"website","_id":"4"}}
{"address":"北京市昌平区X030","province":"北京市","city":"北京市","district":"昌平区","location":"40.16806,116.32344","title":"昌平公共自行车存车处","category":["生活服务","其它生活服务"]}
{"index":{"_index":"website","_id":"5"}}
{"address":"北京市昌平区百沙路","province":"北京市","city":"北京市","district":"昌平区","location":"40.149193,116.28929","title":"共享单车停放处","category":["生活服务","其它生活服务"]}
{"index":{"_index":"website","_id":"6"}}
{"address":"北京市昌平区北七家镇白庙村200号","province":"北京市","city":"北京市","district":"昌平区","location":"40.10261,116.38784","title":"绿源奥顺通物流销售门店","category":["购物","自行车专卖"]}
{"index":{"_index":"website","_id":"7"}}
{"address":"北京市昌平区北七家镇白庙中街200号","province":"北京市","city":"北京市","district":"昌平区","location":"40.1026,116.38751","title":"新日电动车(北清路店)","category":["购物","自行车专卖"]}
{"index":{"_index":"website","_id":"8"}}
{"address":"北京市昌平区北七家镇白庙村中街往西50米202号","province":"北京市","city":"北京市","district":"昌平区","location":"40.102558,116.387483","title":"都市风电动车(北清路店)","category":["购物","自行车专卖"]}
{"index":{"_index":"website","_id":"9"}}
{"address":"北京市昌平区小汤山镇小汤山马坊村小汤山中心马坊小学附近","province":"北京市","city":"北京市","district":"昌平区","location":"40.1547354,116.40153086","title":"雅迪电动车(马坊店)","category":["购物","自行车专卖"]}
{"index":{"_index":"website","_id":"10"}}
{"address":"北京市昌平区东北路附近","province":"北京市","city":"北京市","district":"昌平区","location":"40.134651,116.433778","title":"雅迪电动车","category":["购物","自行车专卖"]}

创建索引并设置settings和mapping，指定索引名为website，副本数为1，分片数为3，命令如下：

{
  "settings": {
    "number_of_shards": 3,
    "number_of_replicas": 1
  },
  "mappings": {
      "properties": {
        "address": {
          "type": "text"
        },
        "category": {
          "type": "keyword"
        },
        "city": {
          "type": "keyword"
        },
        "district": {
          "type": "keyword"
        },
        "location": {
          "type": "geo_point"
        },
        "province": {
          "type": "keyword"
        },
        "title": {
          "type": "text"
        }
      }
  }
}

最后执行bulk批量导入命令把文档导入ES：

$curl -X POST "localhost:9200/_bulk?pretty" -H 'Content-Type: application/json' --data-binary @website.json

1. 搜索机制

1.1 查询所有数据

GET website/_search
{
    "query":{
        "match_all":{}
    }
}

也可以写成：

GET website/_search

1.2 指定返回字段

默认情况下返回结果包含文档的所有字段信息。也可以指定返回某些字段。

GET website/_search
{
    "_source":["title","city"],
    "query":{
        "term":{
            "city":"北京市"
        }
    }
}

java示例如下：

SearchSourceBuilder builder = new SearchSourceBuilder();
//指定返回的字段
String[] includes = {"title","city"};
//排除返回的字段
String[] excludes = {};
builder.fetchSource(includes,excludes);

1.3 指定返回版本号

GET website/_search
{
    "version":true,
    "query":{
        "term":{
            "city":"北京市"
        }
    }
}

java示例如下：

SearchSourceBuilder builder = new SearchSourceBuilder();
builder.version(true);

1.4 过滤低频分数据

ES提供了最小评分的过滤机制，可以使用这个过滤掉评分比较低的数据。

GET website/_search
{
	"min_score":2,
	"query":{
		"match":{
			"title":"单车"
		}
	}
}

java示例如下：

SearchSourceBuilder builder = new SearchSourceBuilder();
builder.minScore(2f);

1.5 高亮查询

{
	"query":{
		"match":{
			"title":"单车"
		}
	},
	"highlight":{
		"fields":{
			"title":{}
		}
	}
}

java示例如下：

SearchSourceBuilder builder = new SearchSourceBuilder();
MatchQueryBuilder query = QueryBuilders.matchQuery("title", "单车");
HighlightBuilder highlight = new HighlightBuilder();
highlight.field("title");
builder.query(query);
builder.highlighter(highlight);

2. 全文查询

高级别的全文搜索通常用于全文字段上进行全文搜索，通过全文查询理解被查询字段是如何索引和分析的，在执行之前将每个字段的分词器(或搜索分词器)应用于查询字符串。

2.1 match query

match查询会解析查询语句。会把查询字符串经过分词器分词后去查询。查询匹配到的文档。

{
	"query":{
		"match":{
			"title":"单车"
		}
	}
}

java示例如下：

MatchQueryBuilder query = QueryBuilders.matchQuery("title", "单车");

2.2 match_phrase query

match_phrase query首先会把query内容分词，同时文档还要满足下面两个条件才能被都是到：

分此后所有词项都要出现在该字符串中。
字段中的词项顺序要一致。

{
	"query":{
		"match_phrase":{
			"title":"共享单车"
		}
	}
}

java示例如下：

MatchPhraseQueryBuilder query = QueryBuilders.matchPhraseQuery("title", "共享单车");

2.3 match_phrase_prefix query

match_phrase_prefix和match_phrase类似，只不过match_phrase_prefix支持最后一个term前缀匹配：

{
	"query":{
		"match_phrase_prefix":{
			"title":"共享单"
		}
	}
}

java示例如下：

QueryBuilders.matchPhrasePrefixQuery("title", "共享单");

2.4 multi_match query

multi_match是match的升级，用于搜索多个字段。

{
	"query":{
		"multi_match":{
			"query":"北京",
			"fields":["title","address"]
		}
	}
}

multi_match支持对要搜索的字段的名称的通配符：示例如下：

{
	"query":{
		"multi_match":{
			"query":"北京",
			"fields":["title","*_address"]
		}
	}
}

也支持指数符指定搜索字段的权重。指定关键词出现在title中的权重是出现在address字段中的3倍，命令如下：

{
	"query":{
		"multi_match":{
			"query":"北京",
			"fields":["title^3","address"]
		}
	}
}

java示例如下：

QueryBuilders.multiMatchQuery("北京","title","address");

2.5 common_terms query

common_terms query是一种在不牺牲性能的情况下替代停用词提高搜索准确率和召回率的方案。

2.5.1 问题

查询中的每个术语都有成本。搜索"The brown fox"需要三个术语查询，每个查询一个"the"，"brown"并且 "fox"所有查询都针对索引中的所有文档执行。查询"the"可能与许多文档匹配，因此对相关性的影响比其他两个术语小得多。

以前，这个问题的解决方案是忽略高频率的术语。通过将其"the"视为停用词，我们减少了索引大小并减少了需要执行的术语查询的数量。

这种方法的问题在于，虽然停用词对相关性的影响很小，但它们仍然很重要。如果我们删除了停用词，我们就会失去精确度，我们无法区分"happy" 和"not happy"，"The The"或者 "To be or not to be"就不会再索引中存在，搜索的的准确率和召回率就会降低。

2.5.2 解决方案

common_terms query 提高了一种解决方案，它把query分词后的词项分成重要词项(低频词项)和不重要词项(高频词，也就是之前的停用词)。在搜索的时候，首先搜索和重要词项匹配的文档，这些文档是词项出现较少并且词项对其评分影响较大的文档。然后执行第二次查询，搜索对评分影响较小的高频词项，但是不计算所有文档的评分，而是只计算第一次查询已经匹配到的文档得分。如果第一个查询中只包含高频词，那么会通过and连接符执行一个单独的查询，换言之，会搜索所有的词项。

词项是高频词还是低频词是通过cutoff_frequency来设置阈值的。

也许这个查询最有趣的属性是它自动适应域特定的停用词。例如，在视频托管网站上，常见的术语如clip或video将自动表现为停用词而无需维护手动列表。

2.5.3 示例

例如，文档频率高于0.1%的词项会被当做高频词，词频直接可以用low_freq_operator、high_freq_operator参数连接。设置低频词操作符为“and”使所有的低频词都是必须搜索到的。

{
    "query":{
        "common":{
            "body":{
                "query":"nelly the elephant as a cartoon",
                "cutoff_frequency":0.001,
                "low_freq_opterator":"and"
            }
        }
    }
}

上述操作会等价于：

{
    "query":{
        "bool":{
            "must":[
                {"term":{"body":"helly"}},
                {"term":{"body":"elephant"}},
                {"term":{"body":"cartoon"}}
            ],
            "should":[
                {"term":{"body":"the"}},
                {"term":{"body":"as"}},
                {"term":{"body":"a"}}
            ]
        }
    }
}

java示例如下：

QueryBuilders.commonTermsQuery("body","nelly the elephant as a cartoon").cutoffFrequency(0.001f).lowFreqOperator(Operator.AND);

2.6 query_string query

query_string query是与Lucene查询语句的语法结合非常紧密的一种查询，允许在一个查询语句中使用多个特殊条件查询(如：AND|OR|NOT)对多个字段进行查询，建议熟悉Lucene查询语法的用户去使用。

java示例如下：

QueryBuilders.queryStringQuery("大数据")             .field("title").defaultOperator(Operator.AND);

3. 词项查询

全文搜索在执行查询之前会分析查询字符串，词项搜索时对倒排索引中存储的词项进行精确操作。词项级别的查询通常用于结构化数据，例如数字、日期和枚举类型。

3.1 term query

term query用于精确匹配一个词。

{
    "query":{
        "term":{
            "city":"北京市"
        }
    }
}

java示例如下：

QueryBuilders.termQuery("city","北京市");

3.2 terms query

terms查询是trem查询的升级，可以用来查询文档中包含多个词的文档。比如想查询city字段中包含关键词“北京市”或“天津市”的文档

{
    "query":{
        "terms":{
            "city":["北京市","天津市"]
        }
    }
}

java示例如下：

QueryBuilders.termsQuery("city","北京市","天津市");

3.3 range query

range 查询用于匹配在某一个范围内的数值型、日期型或字符串型字段的文档。使用range查询只能查询一个字段，不能作用在多个字段上。range查询支持的参数有以下几种：

gt：大于
gte：大于等于
lt：小于
lte：小于等于

例如查询价格 20 < price <= 80的数据：

{
    "query":{
        "range":{
            "price":{
                "gt":20,
                "lte":80
            }
        }
    }
}

查询日期在2020-01-01~2020-01-08的数据：

{
    "query":{
        "range":{
            "indexAt":{
                "gte":"2020-01-01",
                "lte":"2020-01-08",
                "format":"yyyy-MM-dd"
            }
        }
    }
}

java示例如下：

QueryBuilders.rangeQuery("price").gt(20).lte(80);

3.4 exists query

exists查询会返回字段中至少有一个非空值的文档。

{
    "query":{
        "exists":{
            "field":"city"
        }
    }
}

java示例如下：

QueryBuilders.existsQuery("city");

3.5 prefix query

prefix查询用于查询某个字段中给定前缀开始的文档。

{
    "query":{
        "prefix":{
            "city":"北京"
        }
    }
}

java示例如下：

QueryBuilders.prefixQuery("city","北京");

3.6 wildcard query

wildcard query中文译为通配符查询，支持单字符通配符(?，用来匹配任意一个字符)和多字符通配符(*，用来匹配0个或多个字符)。

{
    "query":{
        "wildcard":{
            "city":"北?市"
        }
    }
}

java示例如下：

QueryBuilders.wildcardQuery("city","北?市");

3.7 regexp query

ES也支持正则表达式查询，通过regexp query可以查询指定字段包含与指定正则表达式匹配的文档。可以代表任意字符，“a.c.e"和"ab…“都可以匹配"abcde”,a{3}b{3}、a{2,3}b{2,4}、a{2,}{2,}都可以匹配字符串"aaabbb”。

例如需要匹配以 W开头紧跟着数字的邮政编码，使用正则表达式查询构造查询语句如下：

{
    "query":{
        "regexp":{
            "postcode":"W[0-9].+"
        }
    }
}

java示例如下：

QueryBuilders.regexpQuery("postcode","W[0-9].+");
   "wildcard":{
            "city":"北?市"
        }
    }
}

java示例如下：

QueryBuilders.wildcardQuery("city","北?市");

4. 关注我

搜索微信公众号：java架构强者之路

你可能感兴趣的:(搜索引擎)

Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
ChatGPT 高效学习套路揭秘：让知识获取事半功倍的秘诀 kkai人工智能 chatgpt 人工智能学习媒体 ai
最近这段时间，AI热潮因ChatGPT的火爆再次掀起。如今，网上大部分内容都在调侃AI，但很少有人探讨如何正经使用ChatGPT做事情。作为一名靠搜索引擎和GitHub自学编程的开发者，第一次和ChatGPT深度交流后，我就确信：ChatGPT能够极大提高程序员学习新技术的效率。使用ChatGPT一个月后，我越发感受到它的颠覆性。因此，我想从工作和学习的角度，分享它的优势及我的一些使用技巧，而非娱
网站推广爬虫 Bearjumpingcandy 爬虫
网站推广爬虫是一种用于升网站曝光度和推广效果的工具。它通过自动化地访问和收集网站信息，从而实现对目标网站的广告、关键词、排名等数据进行分析和优化。以下是网站推广爬虫的一些介绍：数据收集：网站推广爬虫可以自动访问目标网站，并收集相关的数据，如网站流量、关键词排名、竞争对手信息等。这些数据可以帮助网站推广人员了解网站的现状和竞争环境，从而制定相应的推广策略。关键词优化：通过分析搜索引擎的关键词排名情况
SpringBoot整合ES搜索引擎实现网站热搜词及热度计算码踏云端 springboot Elasticsearch spring boot elasticsearch 后端热搜词热度计算 java
博主简介：历代文学网（PC端可以访问：https://literature.sinhy.com/#/literature?__c=1000，移动端可微信小程序搜索“历代文学”）总架构师，15年工作经验，精通Java编程，高并发设计，Springboot和微服务，熟悉Linux，ESXI虚拟化以及云原生Docker和K8s，热衷于探索科技的边界，并将理论知识转化为实际应用。保持对新技术的好奇心，乐于
2019.1.6 root_restart
1.新版研学行程公众号推送及页面改动，以后继续尝试无logo版行程单方便转发，附带一篇研学政策解读2.百家号，头条号，搜狐号注册认证及审核，后续每天会在上面更新以往研学活动，增加搜索引擎中山大研学和雨滴教育的关联3.与鹿老师探讨研究方便代理的新宣传模式
只有一个诚字最重要（3.22）胡同学的读书笔记
1人们会认为谷歌是搜索引擎。而事实上，谷歌是第一个以机器为主导的搜索引擎，这个分类在谷歌之前是不存在的，而你必须要认识到谷歌的这个秘密才能判断它与其他公司的不同之处。2如果我目前在一个公司，当大家不知道未来的路怎么走，过去的路也已经彻底放弃了，我会先把事实摆在所有人面前，然后让大家讨论，在争论的过程中产生一个纲领性的共识，让每个部门在大的纲领下去寻求一种变化，不再以增长和竞争为纲，而是转移到产品和
写出渗透测试信息收集详细流程卿酌南烛_b805
一、扫描域名漏洞：域名漏洞扫描工具有AWVS、APPSCAN、Netspark、WebInspect、Nmap、Nessus、天镜、明鉴、WVSS、RSAS等。二、子域名探测：1、dns域传送漏洞2、搜索引擎查找（通过Google、bing、搜索c段）3、通过ssl证书查询网站：https://myssl.com/ssl.html和https://www.chinassl.net/ssltools
【ShuQiHere】快速排序（Quick Sort）：揭开高效排序算法的神秘面纱 ShuQiHere 排序算法算法数据结构
【ShuQiHere】引言在计算机科学中，排序算法是我们日常编程不可或缺的一部分。无论是处理大量数据、优化搜索引擎，还是进行系统性能提升，排序算法都起到了至关重要的作用。在所有的排序算法中，快速排序（QuickSort）凭借其高效性和灵活的分治策略成为最受欢迎的排序算法之一。在这篇博客中，我们将深入探讨快速排序的原理、性能分析以及如何通过优化策略进一步提升其效率。1.什么是快速排序？（QuickS
海量数据查找最大K个值：数据结构与算法的选择星辰@Sea 数据结构 Java 数据结构
在处理大数据集时，经常需要找到数据集中最大的K个元素，这样的需求在很多领域都有广泛应用，例如推荐系统中寻找评分最高的K个商品、数据分析中找出最重要的K个特征、搜索引擎中找到排名前K的结果等等。面对海量数据，传统的排序方法可能不再适用，因为它们通常具有较高的时间复杂度。因此，选择合适的数据结构和算法对于提高效率至关重要。本文将详细介绍如何在海量数据集中查找最大的K个值，探讨不同的数据结构与算法选择，
全面解析MeiliSearch及其Go语言实现寻找09之夏 Meilisearch golang 开发语言后端 Meilisearch
前言随着互联网的发展和数字化进程的加速，无论是企业还是个人用户，都需要面对海量的信息。在这个背景下，搜索技术的重要性日益凸显。MeiliSearch是一款开源搜索引擎，它的出现为开发者提供了一个高效、灵活的选择。本文将从多个角度探讨MeiliSearch的特性、使用方法及其实现原理，并通过Go语言示例展示如何构建一个高性能的搜索系统。一、MeiliSearch特性MeiliSearch之所以受到欢
面对信息茧房，我们如何破局？听风便是雨_
当我们进入了互联网时代，信息的交互变得无比地便捷，当你需要什么样的信息，只需要在搜索引擎上输入，便可立马查询到你想要的结果，而且现在随着抖音、微博之类的应用APP的出现，我们本应从这些APP中获得更加丰富的知识或者信息，来开阔我们的眼界。但是事实上，我们仿佛没有获得预期的效果，更甚至于陷入更大的怪圈当中——缺乏耐心，不能容忍与自己想法不一样的他人建议，失去了与外界良好沟通的能力以及开拓自己的眼界的
80%的人都知道的——内容营销老泊
我们已经知道内容营销是依靠内容来进行营销，一起看一下内容营销的工作流吧。选题创作投放主要内容营销的选题类型-常青树：用户长时间关心的，比如房价，教育-热点：用户短时间关心的，比如八卦，实事二八原则常青树话题等等选题来源：访谈法：寻找目标用户尽可能一对一进行访谈，用户反馈的问题都可以成为你的选题来源数据法：利用搜索引擎获取内容选题。利用爬虫工具看看人们都比较关心哪些话题来作为选题基于时事的选题数据工
50.复盘变现之路 506小棉袄
1.昨天下载了头条，用搜索引擎找到了如何写文章。注册了一下。这一切其实都好简单，但是自己就是拖着没有做，而且还心安理得。现在在管理别人，于是用自己做到了才能教别人去做到来要求自己发现也不难。2.日更被我捡了起来。后面没有特殊情况，我会一直更下去。放弃一件事很容易，坚持自己喜欢的事也不会太难。3.今天完成了50关的最后一关，接下来就要挑战100关。想看看自己的极限在哪里。具体做法：1.每天早起一小时
NLP_jieba中文分词的常用模块 Hiweir · NLP_jieba的使用自然语言处理中文分词人工智能 nlp
1.jieba分词模式（1）精确模式:把句子最精确的切分开,比较适合文本分析.默认精确模式.（2）全模式:把句子中所有可能成词的词都扫描出来,cut_all=True,缺点:速度快,不能解决歧义（3）paddle:利用百度的paddlepaddle深度学习框架.简单来说就是使用百度提供的分词模型.use_paddle=True.（4）搜索引擎模式:在精确模式的基础上,对长词再进行切分,提高召回率,
Django：Python高级Web框架详解及参数设置零度° python python django 前端
Django是一个高级的PythonWeb框架，它鼓励快速开发和简洁实用的设计。Django遵循MVC设计模式，提供了一套完整的解决方案，用于构建复杂的、数据库驱动的网站。Django的主要特点自动管理数据库：通过ORM（对象关系映射）自动管理数据库。自动生成站点地图：支持搜索引擎优化（SEO）。用户身份认证：内置用户认证系统。中间件支持：强大的中间件支持，可以处理请求和响应。跨站请求伪造（CSR
ES(Elasticsearch)常用的函数遨游在知识的海洋里无法自拔 java
Elasticsearch（简称ES）是一个开源的搜索引擎，广泛用于全文搜索、分析和数据可视化。以下是一些常用的Elasticsearch函数和操作：索引操作创建索引PUT/index_name删除索引DELETE/index_name查看索引GET/index_name文档操作插入文档POST/index_name/_doc/{"field":"value"}获取文档GET/index_name
HTML 图片一壶浊酒.. 前端开发 html 前端
在HTML中，我们可以使用img标签来显示一张图片。对于img标签，我们只需要掌握它的三个属性：src、alt和title。alt属性用于描述图片，这个描述文字是给搜索引擎看的，并且当图片无法显示时，页面会显示alt中的文字。title属性也用于描述图片，不过这个描述文字是给用户看的，并且当鼠标指针移到图片上时，会显示title中的文字。colspan属性body{background-color
生信学习Day-1 GJJDr
1.如何学习2.怎样解决学习中遇到的问题？a.第一步:搜索：首选-谷歌，其次-必应，大神级的搜索引擎：虫部落快搜。专业教程-搜狗微信、搜狗知乎、、githubb.第二步：如果你的问题不知该如何搜索，可在微信群中与小组成员讨论c.第三步：正确的提问3.如何搭建高效的学习平台a.效率软件:（1）浏览器-chrome浏览器简洁高效无广告，可以添加插件，比如”沙拉查词”（自行搜索），可以即时翻译。（2）电
优质素材的六个搜索技巧老李大李和小李
一是要有耐心哦耐心不但是搜索的技巧而且是前提的、必要的。没有耐心进行搜索就不会有大量的好的输入。二是多关键词这个就像我们在搜索引擎中使用的方法，输入关键词反复搜索就会发现好多有用的而且是我们未知的知识。三是多渠道我们要利用各种搜索引擎和各种方式包括读书、和人聊天的方法来搜集资料。四是多维度至少要从三方面着手～文字、图片、视频。五是精准搜索有了前面做的功课，我们要对主题和材料进行凝炼～取其精华去除无
什么是黑链？什么是黑帽？什么是明链？倔强的小蚁云Zt 网络数据库 tcp/ip 运维
什么是黑链？什么是黑帽？什么是明链？黑链有哪几种表示方式！怎样预防黑链？首先我们说下黑链定义:黑链是SEO黑帽手法中相当普遍的一种手段，笼统地说，它就是指一些人用非正常的手段获取的其它网站的反向链接，最常见的黑链就是通过各种网站程序漏洞获取搜索引擎权重或者PR较高的网站的WEBSHELL，进而在被黑网站上链接自己的网站。黑链的写法黑链文本黑链标签被放在一个隐藏的div中。用户在浏览器中是无法看到的
精准剖析白帽SEO和黑帽SEO的区别 heimaoxuexi 黑帽seo 黑帽 seo 黑帽seo技术
我们都知道，SEO就是搜索引擎优化，是对网站进行内部及外部的不断调整优化，改进网站在搜索引擎中的关键词自然排名，获得更多流量。而SEO又分为白帽SEO和黑帽SEO，SEO中的黑帽SEO技术http://www.heimaolianmeng.com。根据做网站的实战经验，分享一下自己对于白帽SEO和黑帽SEO的见解。一、白帽SEO1、符合用户体验原理就是指我们网站上做的任何内容、任何图片以及任何网站
【程序员必读】如何利用AI高效编程，从容准时下班！ z千鑫 AI领域人工智能 Agent AI工具 AI助手工作流 AI编程 ai
前言：在编程的旅途中，程序员们常常面临各种挑战，尤其是在编写代码时，难题层出不穷。尽管传统搜索引擎提供了海量信息，但往往让我们在无尽的例子和复杂分析中迷失，难以找到真正适合自己的解决方案。正因如此，越来越多的程序员开始借助AI的力量，轻松应对这些难题，让工作变得更高效，从而实现准时下班的目标。问题：那么如何利用AI编写代码呢？一、明确问题的核心在使用AI生成代码之前，首先要明确你所遇到的问题是什么
万字详解PHP+Sphinx中文亿级数据全文检索实战（实测亿级数据0.1秒搜索耗时）小松聊PHP进阶 MySQL PHP 全文检索 php sphinx mysql sql 数据库服务器
Sphinx查询性能非常厉害，亿级数据下输入关键字，大部分能在0.01~0.1秒，少部分再5秒之内查出数据。Sphinx官方文档：http://sphinxsearch.com/docs/sphinx3.html极简概括：由C++编写的高性能全文搜索引擎的开源组件，C/S架构，跨平台（支持Linux、Windows、MacOS），支持分布式部署，并可直接适配MySQL。解决问题：因为MySQL的l
弹性搜索引擎Elasticsearch：本地部署与远程访问指南猴哥是肖鸿人工智能技术指导专升本 jenkins 运维
在大数据时代，数据搜索和分析成为企业核心竞争力的关键因素。弹性搜索引擎Elasticsearch作为一种分布式、可扩展的搜索和分析引擎，受到广泛欢迎。本文将介绍Elasticsearch的本地部署与远程访问，帮助读者更好地利用这一强大的工具。一、本地部署环境准备在开始部署Elasticsearch之前，需要准备以下环境：操作系统：Elasticsearch支持多种操作系统，如Linux、Windo
程序员如何平衡日常编码工作与提升式学习？--编程之路：平衡与成长的艺术青云交教学 java学习学习高效编码习惯与时间管理技巧提升式学习的策略职业发展与个人成长的和谐共生编程教会你如何思考--比尔盖茨 Java学习方法时间管理
目录引言：正文：方向一：高效编码习惯与时间管理技巧方向二：提升式学习的策略方向三：职业发展与个人成长的和谐共生结束语：引言：在当今科技飞速发展的时代，编程已成为一项至关重要的技能。正如比尔·盖茨所说：“编程教会你如何思考。”对于程序员来说，如何在繁忙的日常编码工作中不断提升自己，实现职业发展与个人成长的双赢，是一个极具挑战性的问题。例如，谷歌的搜索引擎算法就是一个经典的编程案例，它通过高效的算法和
2023-03-15 困的晕_5c43
1.简述引擎有哪些类型，各类搜索引擎的工作原理是什么。.（1）全文索引型（2）目录索引型（3）元数据索引型（4）垂直索引型（5）互动式索引型搜索引擎的原理可以分为：数据收集、建立索引数据库、索引数据库中搜索和排序。2.新媒体内容搜集工具有哪些？尝试使用这些工具搜集一些当前热点话题第一个：爆文素材采集工具做新媒体运营，每天都需要去搜集大量的爆文视频等素材，这里给大家推荐一个自媒体爆文素材采集工具--
云计算技术与应用 - 了解认识云计算 ZuckD 云计算运维
云计算的背景互联网自1960年开始兴起，主要用于军方、大型企业等之间的纯文字电子邮件或新闻集群组服务。直到1990年才开始进入普通家庭，随着web网站与电子商务的发展，网络已经成为了目前人们离不开的生活必需品之一。云计算这个概念首次在2006年8月的搜索引擎会议上提出，成为了互联网的第三次革命。近几年来，云计算也正在成为信息技术产业发展的战略重点，全球的信息技术企业都在纷纷向云计算转型。我们举例来
LlamaIndex 使用 RouterOutputAgentWorkflow hawk2014bj llamaIndex LLM agent
LlamaIndex中提供了一个RouterOutputAgentWorkflow功能，可以集成多个QueryTool，根据用户的输入判断使用那个QueryEngine，在做查询的时候，可以从不同的数据源进行查询，例如确定的数据从数据库查询，如果是语义查询可以从向量数据库进行查询。本文将实现两个搜索引擎，根据不同Query使用不同QueryEngine。安装MySQL依赖pipinstallmys
五类学习技巧之搜索技巧│《学习力》笔记06 翟树纯
在当今信息爆炸的时代，搜索引擎就相当于我们的外接大脑，为了充分发挥搜索引擎的威力，就要提高自己的搜索能力。我们平时用的最多的就是通用搜索引擎，以百度为例，不仅可以用来搜索文字，还可以进行学术搜索、图片搜索、视频搜索、地图搜索。术业有专攻，除了百度之类的通用搜索引擎，还有其他的专业搜索引擎，如网站历史查询、高清图库、学术网站、商业数据库等。01搜索两大原则1．换位思考从搜索引擎的角度思考，用关键词检
NLP面试题（9月4日笔记）好好学习Py 自然语言处理自然语言处理笔记人工智能
常见的分词方法分词是将连续的子序列按照一定的规则进行重新组合形成词序列的过程，是NLP领域内最基础的内容。常见的分词方法有jieba分词，jieba分词支持多种分词模模式：精确模式，全模式，搜索引擎模式。1）精确模式：将句子最精确的进行切分，适合文本分析，在日常工作中最为常用；2）全模式：将句子中所有可以成词的词语都扫描出来，速度非常快，但不能消除歧义。3）搜索引擎模式：在精确模式的基础上，对长词
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v [email protected] 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l