搜索引擎技术介绍

引言

早些时候分享过一份关于搜索引擎技术的PPT，这篇文章基本上是基于原来框架，在内容上做了一些改进和扩充。

主要是对搜索引擎技术的各方面做一些简单的介绍和入门的指引。

索引

1. 需求与历史

2. 搜索产品简单介绍

3. 搜索技术

3.1 系统

3.2 数据

3.3 算法

4. 开源方案

5. 现状与未来

需求与历史

搜索引擎的诞生源自互联网最根本的用途之中的一个：信息获取。在搜索引擎出现之前，互联网缺少入口，用户往往须要自己记住实用的站点和网页。

为了满足这样的需求，最早的“搜索引擎”，即分类文件夹浏览式的引擎便出现了，Yahoo就是当中的代表。

当时仅仅是把一些实用的站点通过分类的方式手工组织起来，便于用户找到实用的信息。

可以手工组织也是基于早年整个互联网的站点数量也很少，可以通过人工方式实现组织。

但随着互联网的壮大，网页站点数量越来越多，手工组织的方式变为不可行，于是由机器实现的全文检索引擎便出现了。

用户能够通过keyword查询来获取相关的网页。

但随着网页数量进一步增多，不论什么keyword查询都会返回大量的相关网页，假设对网页进行评分和排序，返回给用户真正有价值的网页便成为重点。

基于网页之间的链接关系为网页进行评分，成为非常多搜索引擎的网页排序算法基础，Google的PageRank算法便是当中的代表者和姣姣者。

Google也以此为基础成为搜索引擎产品中的率先者，为用户提供了更好的搜索结果相关性。

现代搜索引擎基本上也由此基本成型，尽管后来的技术创新和改进非常多，但基本的思路基本上没有变。

搜索引擎发展到今天，基础架构和算法在技术上都已经基本成型和成熟。现在的一些改进和变化基于在多元化的信息整合，以及产品形态的改进上。

未来会往什么方向发展，或者有什么革命的变化，都不能确定。

搜索产品

搜索引擎产品事实上包含非常多种类，并不限于我们最熟悉的全网搜索引擎。

简单分类罗列一下：

* 全网搜索：包含市场份额最高的几大搜索引擎巨头，Google, Yahoo, Bing。

* 中文搜索：在中文搜索市场中，百度一家独大，其他几家如搜狗、搜搜、有道，市场份额相对还比較小。

* 垂直搜索：在各自的垂直领域成为搜索入口的，购物的淘宝，美食的大众点评，旅游的去哪儿，等等。

* 问答搜索：专注于为问句式提供有效的答案，比方Ask.com；其他的如问答社区像Quora和国内的知乎，应该也会往这方面发展。

* 知识搜索：典型代表就是WolframAlpha，差别于提供搜索结果列表，它会针对查询提供更具体的整合信息。

* 云搜索平台：为其他产品和应用提供搜索服务托管平台(SaaS或是PaaS)，Amazon刚刚推出它的CloudSearch, IndexTank在被Linkedin收购之前也是做这项服务。

* 其他：比始DuckDuckGo，主打隐私保护，也有部分用户买帐。

各种搜索产品在各自领域都须要解决特定的技术和业务问题，所以也能够建立相对通用搜索的优势，来得到自己的市场和用户。

搜索技术

搜索引擎所涉及和涵盖的技术范围很广，涉及到了系统架构和算法设计等很多方面。

能够说因为搜索引擎的出现，把互联网产品的技术水平提高到了一个新的高度；搜索引擎不管是在数据和系统规模，还是算法技术的研究应用深度上，都远超之前的简单互联网产品。

列举一些搜索引擎所涉及到的技术点：

* 爬虫 (Crawling)

* 索引结构 (Inverted Index)

* 检索模型 (VSM & TF-IDF)

* 搜索排序 (Relevance Ranking & Evaluation)

* 链接分析 (Link Analysis)

* 分类 (Document & Query Classification)

* 自然语言处理 (NLP: Tokenization, Lemmatization, POS Tagging, NER, etc.)

* 分布式系统 (Distributed Processing & Storage)

* 等等

尽管搜索引擎涉及的技术方方面面，但归结起来最关键的几点在于：

* 系统：大规模分布式系统，支撑大规模的数据处理容量和在线查询负载

* 数据：数据处理和挖掘能力

* 算法：搜索相关性排序，查询分析，分类，等等

系统

搜索引擎系统是一个由很多模块组成的复杂系统。

核心模块通常包含：爬虫，索引，检索，排序。

除了必需的核心模块之外，通常还须要一些支持辅助模块，常见的有链接分析，去重，反垃圾，查询分析，等等。

[附图：搜索系统架构概念模型]

简介一下搜索系统的概念模型中的各模块：

* 爬虫

从互联网爬取原始网页数据，存储于文档server。

* 文档server

存储原始网页数据，通宵是分布式Key-Value数据库，能依据URL/UID高速获取网页内容。

* 索引

读取原始网页数据，解析网页，抽取有效字段，生成索引数据。

索引数据的生成方式一般是增量的，分块/分片的，并会进行索引合并、优化和删除。

生成的索引数据通常包含：字典数据，倒排表，正排表，文档属性等。

生成的索引存储于索引server。

* 索引server

存储索引数据，主要是倒排表。

一般是分块、分片存储，并支持增量更新和删除。

数据内容量很大时，还依据类别、主题、时间、网页质量划分数据分区和分布，更好地服务在线查询。

* 检索

读取倒排表索引，响应前端查询请求，返回相关文档列表数据。

* 排序

对检索器返回的文档列表进行排序，基于文档和查询的相关性、文档的链接权重等属性。

* 链接分析

收集各网页的链接数据和锚文本（Anchor Text），以此计算各网页链接评分，终于会作为网页属性參与返回结果排序。

* 去重

提取各网页的相关特征属性，计算相似网页组，提供离线索引和在线查询的去重服务。

* 反垃圾

收集各网页和站点历史信息，提取垃圾网页特征，从而对在线索引中的网页进行判定，去除垃圾网页。

* 查询分析

分析用户查询，生成结构化查询请求，指派到对应的类别、主题数据server进行查询。

* 页面描写叙述/摘要

为检索和排序完毕的网页列表提供对应的描写叙述和摘要。

* 前端

接受用户请求，分发至对应server，返回查询结果。

[附图：爬虫系统架构]

爬虫系统也是由多个模块构成：

* URL Scheduler

存储和高度待爬取的网页地址。

* Downloader

依据指定的网页列表爬取网页内容，存储至文档server。

* Processer

对网页内容进行简单处理，提取一些原始属性，为爬取的兴许操作服务。

* Traffic Controller

爬取流量控制，防止对目标站点在短时间内造成过大负载。

[附图：搜索系统架构实例：Google]

这是Google早期的一张系统架构图，能够看出Google系统的各模块基本和前面概念模型一致。

所以一个完整的全网搜索系统的大致系统架构是类似的，差别和竞争力体如今细节实现和优化上。

数据

除了搜索引擎系统提供了系统支撑外，搜索结果质量非常大程度上依赖于源数据的数量和质量，以及数据处理的能力。

全网数据的主要来源一般是从互联网上进行自己主动爬取，从一些高质量的种子网站開始，并沿网页链接不断展开，收集巨量的网页数据；这通常能达到数据在数量的要求，但也不可避免混入了大量的低质量网页。

除了自己主动爬取来的数据外，搜索引擎的数据来源还能够来自人工收集、合作伙伴提供、第三方数据源和API、以及购买；这些来源一般会有更好的质量保证，但在数量规模和覆盖率上会相对少一些，能够和爬取的数据形成有效的互补。

收集到足量的原始数据后，须要进行各种数据处理操作，把原始数据转换成在线检索须要的数据。

这个过程通常包含：网页分析，数据抽取，文本处理和分词，索引及合并；终于生成的数据会包含：词典，倒排表，正排表，文档权重和各种属性。

终于生成的数据要布署上对应的在线检索server上，一般会进行数据分区和分片布署，数据内容更丰富时还可能依据内容分类和主题进行分别布署，比方新闻时效类的网页可能就会独立布署，针对性地响应时效类的查询。

[附图：索引数据：字典、倒排表、正排表]

这张图来源于Google早期的索引数据结构，包含词典、倒排表、正排表。

算法

有了相当数量的高质量数据之后，搜索结果的质量改进就取决于搜索算法的准确性上。

如今的搜索引擎通常通过向量空间模型（VSM = Vector Space Model）来计算查询和各文档之间的文本相似性；即把查询或文档抽象成一个词向量，然后再计算向量在向量空间中的夹角，能够用余弦公式得出，作为文本相似度的度量值。

在主要的向量空间模型基础上一般会进一步增加词的权重值进行改进，通过经典的TF-IDF公式得出，即词频（TF）乘上逆文档频率（IDF）；当中TF = Term Frequency，即该词在所在文档中的出现次数；IDF = Invert Document Frequency，即包括该词的文档数除以总文档数，再取反，通常还会取对数来降维，这个值值越大表示这个词越能代表文档特征。

除了通过向量空间模型得出的文本匹配评分外，每一个文档还会有自己本身的质量评分，通常由网页链接数据计算得出，代表了该网页本身的流行度权重。

终于的评分会以文本匹配的查询时动态评分和文档静态评分为基础计算得出；搜索引擎的评分计算都会考虑非常多因素，但这两项一般是评分计算的基础。

有了确定的排序算法后，还有一个重要的任务就是评估搜索结果的质量。

因为搜索结果的好与坏是一个比較主观的过程，所以进行定量的评估并不easy。

常见的做法是通过事先选定一批查询，通过人工评估或是预先设定标准值的方式，逐个评估每一个设定查询搜索结果，终于得到一个统计结果，作为搜索算法的评估度量。

还有一类做法是直接通过线上的用户PV数据来统计评估搜索结果质量，或是通过A/B測试来比較两种排序算法的点击效果来衡量。

合理而有效的评估方法，是搜索算法能够不断改进和比較的前提。

查询分析是还有一个对搜索结果影响非常大的方面，主要任务是把用户的查询文本转换成内部的结构化的搜索请求。

涉及的处理可能包含主要的分词处理，专有名词的识别和提取，或是查询模式的识别，或是查询分类的识别。

这些处理的准确性将能极大地改进搜索请求的方式，进一步影响搜索结果的相关性和质量。

开源方案

近年来在搜索公司内部搜索系统和技术的改进和发展的同一时候，一批开源的搜索系统和解决方式也逐渐发展和成熟起来。

当然开源系统在功能全面性、复杂性和规模上都不能与专业的搜索引擎系统相比，但对于中小企业的搜索应用来说应该已经能非常好地满足需求，并且也成功应用到了一些大规模的产品系统中（比方Twitter的搜索就使用和改进了Lucene）。

如今比較常见的开源搜索解决方式有：

* Lucene

Lucene自然是如今最流行，使用度最高的搜索开源方案。它用Java开发，以索引和检索库的方式提供，能够非常easy地嵌入须要的应用中。

* Solr & SolrCloud

Solr是Lucene的子项目，同属Apache软件基金会项目；它是基于Lucene之上实的一个完整的搜索服务应用，提供了大量的搜索定制功能，能够满足大部分的搜索产品需求。

SolrCloud是Solr为了加强其分布式服务能力而开发的功能，眼下还在开发阶段，将在Solr 4.0公布。

* Zoie & Sensei (Linkedin)

Zoie是Linkedin公司在Lucene基础上实现的准实时索引库，通过增加额外的内存索引，来达到准实时索引的效果。

Sensei是Linkedin公司在Zoie基础上实现的分布式搜索服务，通过索引分区来实现分布式搜索服务。

* ElasticSearch

ElasticSearch 也是刚推出不久的一个基于Lucene实现的分布式搜索服务，据说在分布式支持和易用性上都有不错的表现。由于还比較年轻，真实的应用应该还不多，须要观察。由于也是基于Lucene的分布式开源搜索框架，基本上会与SolrCloud和Sensei形成正面竞争关系。

* 其他开源产品

除了Lucene家族以外，另一些其他的开源产品，比方Sphinx和Xapian，也有不少的应用；但近年来的更新频率和社区活跃度都不太能和Lucene系的产品相比。

* 托管平台

除了开源产品外，如今还出现了一些基于云计算和云服务的搜索服务，比方Amazon新近推了的CloudSearch，还有更早一些的 IndexTank（已被Linkedin收购）。这类服务无需自己布置搜索系统，直接使用在线服务，按需付费，所以也将是开源产品的替代方案和竞争对手。

附几张上面提到的开源系统的概念模型和架构图：

[附图：Lucene概念模型]

[附图：Lucene工作流程]

[附图：Sensei系统架构]

[附图：SolrCloud系统架构]

现状与未来

传统的搜索引擎经过了十几年的发展，眼下在技术和产品上都已走向逐渐稳定和成熟，通用搜索的市场也基本进入饱和，不像早些年一直呈现高增长率。

同一时候，在各个垂直领域，也出现了非常多和产品结合的非常好的垂直搜索产品，比方淘宝的购物搜索，大众点评的美食搜索，去哪儿和酷讯的旅游搜索等，也都在各自领域占领了相当大的市场，成为除了通用搜索引擎之外的重要的用户入口。

在开源领域，各种开源产品和解决方式也逐渐发展成熟，通用搜索技术不再为大公司所专有，中小企业可以以较低的成本实现自己的搜索应用。

如今搜索引擎产品之间的竞争很多其它的在数据、应用方式和产品形态上，在系统架构和基本算法上区分并不大。

搜索引擎在未来发展上，一是搜索将不只以独立产品的形式出现，很多其它的会作为搜索功能整合到很多其它的产品和应用中。

在产品形态上，基于传统的搜索引擎，会演化出像推荐引擎，知识引擎，决策引擎等形式的产品，更好地满足和服务用户需求。

而搜索引擎所涉及和发展起来的各种技术，会更广泛地应用到各种基它产品上，比方自然语言处理，推荐和广告，数据挖掘，等等。

总之，搜索引擎对互联网技术和产品带来的影响是巨大的，未来也仍将有非常大的发展和应用空间。

转自：网易杭研后台技术中心的博客 http://backend.blog.163.com/blog/static/202294126201252872124208/

Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
ChatGPT 高效学习套路揭秘：让知识获取事半功倍的秘诀 kkai人工智能 chatgpt 人工智能学习媒体 ai
最近这段时间，AI热潮因ChatGPT的火爆再次掀起。如今，网上大部分内容都在调侃AI，但很少有人探讨如何正经使用ChatGPT做事情。作为一名靠搜索引擎和GitHub自学编程的开发者，第一次和ChatGPT深度交流后，我就确信：ChatGPT能够极大提高程序员学习新技术的效率。使用ChatGPT一个月后，我越发感受到它的颠覆性。因此，我想从工作和学习的角度，分享它的优势及我的一些使用技巧，而非娱
网站推广爬虫 Bearjumpingcandy 爬虫
网站推广爬虫是一种用于升网站曝光度和推广效果的工具。它通过自动化地访问和收集网站信息，从而实现对目标网站的广告、关键词、排名等数据进行分析和优化。以下是网站推广爬虫的一些介绍：数据收集：网站推广爬虫可以自动访问目标网站，并收集相关的数据，如网站流量、关键词排名、竞争对手信息等。这些数据可以帮助网站推广人员了解网站的现状和竞争环境，从而制定相应的推广策略。关键词优化：通过分析搜索引擎的关键词排名情况
SpringBoot整合ES搜索引擎实现网站热搜词及热度计算码踏云端 springboot Elasticsearch spring boot elasticsearch 后端热搜词热度计算 java
博主简介：历代文学网（PC端可以访问：https://literature.sinhy.com/#/literature?__c=1000，移动端可微信小程序搜索“历代文学”）总架构师，15年工作经验，精通Java编程，高并发设计，Springboot和微服务，熟悉Linux，ESXI虚拟化以及云原生Docker和K8s，热衷于探索科技的边界，并将理论知识转化为实际应用。保持对新技术的好奇心，乐于
2019.1.6 root_restart
1.新版研学行程公众号推送及页面改动，以后继续尝试无logo版行程单方便转发，附带一篇研学政策解读2.百家号，头条号，搜狐号注册认证及审核，后续每天会在上面更新以往研学活动，增加搜索引擎中山大研学和雨滴教育的关联3.与鹿老师探讨研究方便代理的新宣传模式
只有一个诚字最重要（3.22）胡同学的读书笔记
1人们会认为谷歌是搜索引擎。而事实上，谷歌是第一个以机器为主导的搜索引擎，这个分类在谷歌之前是不存在的，而你必须要认识到谷歌的这个秘密才能判断它与其他公司的不同之处。2如果我目前在一个公司，当大家不知道未来的路怎么走，过去的路也已经彻底放弃了，我会先把事实摆在所有人面前，然后让大家讨论，在争论的过程中产生一个纲领性的共识，让每个部门在大的纲领下去寻求一种变化，不再以增长和竞争为纲，而是转移到产品和
写出渗透测试信息收集详细流程卿酌南烛_b805
一、扫描域名漏洞：域名漏洞扫描工具有AWVS、APPSCAN、Netspark、WebInspect、Nmap、Nessus、天镜、明鉴、WVSS、RSAS等。二、子域名探测：1、dns域传送漏洞2、搜索引擎查找（通过Google、bing、搜索c段）3、通过ssl证书查询网站：https://myssl.com/ssl.html和https://www.chinassl.net/ssltools
【ShuQiHere】快速排序（Quick Sort）：揭开高效排序算法的神秘面纱 ShuQiHere 排序算法算法数据结构
【ShuQiHere】引言在计算机科学中，排序算法是我们日常编程不可或缺的一部分。无论是处理大量数据、优化搜索引擎，还是进行系统性能提升，排序算法都起到了至关重要的作用。在所有的排序算法中，快速排序（QuickSort）凭借其高效性和灵活的分治策略成为最受欢迎的排序算法之一。在这篇博客中，我们将深入探讨快速排序的原理、性能分析以及如何通过优化策略进一步提升其效率。1.什么是快速排序？（QuickS
海量数据查找最大K个值：数据结构与算法的选择星辰@Sea 数据结构 Java 数据结构
在处理大数据集时，经常需要找到数据集中最大的K个元素，这样的需求在很多领域都有广泛应用，例如推荐系统中寻找评分最高的K个商品、数据分析中找出最重要的K个特征、搜索引擎中找到排名前K的结果等等。面对海量数据，传统的排序方法可能不再适用，因为它们通常具有较高的时间复杂度。因此，选择合适的数据结构和算法对于提高效率至关重要。本文将详细介绍如何在海量数据集中查找最大的K个值，探讨不同的数据结构与算法选择，
全面解析MeiliSearch及其Go语言实现寻找09之夏 Meilisearch golang 开发语言后端 Meilisearch
前言随着互联网的发展和数字化进程的加速，无论是企业还是个人用户，都需要面对海量的信息。在这个背景下，搜索技术的重要性日益凸显。MeiliSearch是一款开源搜索引擎，它的出现为开发者提供了一个高效、灵活的选择。本文将从多个角度探讨MeiliSearch的特性、使用方法及其实现原理，并通过Go语言示例展示如何构建一个高性能的搜索系统。一、MeiliSearch特性MeiliSearch之所以受到欢
面对信息茧房，我们如何破局？听风便是雨_
当我们进入了互联网时代，信息的交互变得无比地便捷，当你需要什么样的信息，只需要在搜索引擎上输入，便可立马查询到你想要的结果，而且现在随着抖音、微博之类的应用APP的出现，我们本应从这些APP中获得更加丰富的知识或者信息，来开阔我们的眼界。但是事实上，我们仿佛没有获得预期的效果，更甚至于陷入更大的怪圈当中——缺乏耐心，不能容忍与自己想法不一样的他人建议，失去了与外界良好沟通的能力以及开拓自己的眼界的
80%的人都知道的——内容营销老泊
我们已经知道内容营销是依靠内容来进行营销，一起看一下内容营销的工作流吧。选题创作投放主要内容营销的选题类型-常青树：用户长时间关心的，比如房价，教育-热点：用户短时间关心的，比如八卦，实事二八原则常青树话题等等选题来源：访谈法：寻找目标用户尽可能一对一进行访谈，用户反馈的问题都可以成为你的选题来源数据法：利用搜索引擎获取内容选题。利用爬虫工具看看人们都比较关心哪些话题来作为选题基于时事的选题数据工
50.复盘变现之路 506小棉袄
1.昨天下载了头条，用搜索引擎找到了如何写文章。注册了一下。这一切其实都好简单，但是自己就是拖着没有做，而且还心安理得。现在在管理别人，于是用自己做到了才能教别人去做到来要求自己发现也不难。2.日更被我捡了起来。后面没有特殊情况，我会一直更下去。放弃一件事很容易，坚持自己喜欢的事也不会太难。3.今天完成了50关的最后一关，接下来就要挑战100关。想看看自己的极限在哪里。具体做法：1.每天早起一小时
NLP_jieba中文分词的常用模块 Hiweir · NLP_jieba的使用自然语言处理中文分词人工智能 nlp
1.jieba分词模式（1）精确模式:把句子最精确的切分开,比较适合文本分析.默认精确模式.（2）全模式:把句子中所有可能成词的词都扫描出来,cut_all=True,缺点:速度快,不能解决歧义（3）paddle:利用百度的paddlepaddle深度学习框架.简单来说就是使用百度提供的分词模型.use_paddle=True.（4）搜索引擎模式:在精确模式的基础上,对长词再进行切分,提高召回率,
Django：Python高级Web框架详解及参数设置零度° python python django 前端
Django是一个高级的PythonWeb框架，它鼓励快速开发和简洁实用的设计。Django遵循MVC设计模式，提供了一套完整的解决方案，用于构建复杂的、数据库驱动的网站。Django的主要特点自动管理数据库：通过ORM（对象关系映射）自动管理数据库。自动生成站点地图：支持搜索引擎优化（SEO）。用户身份认证：内置用户认证系统。中间件支持：强大的中间件支持，可以处理请求和响应。跨站请求伪造（CSR
ES(Elasticsearch)常用的函数遨游在知识的海洋里无法自拔 java
Elasticsearch（简称ES）是一个开源的搜索引擎，广泛用于全文搜索、分析和数据可视化。以下是一些常用的Elasticsearch函数和操作：索引操作创建索引PUT/index_name删除索引DELETE/index_name查看索引GET/index_name文档操作插入文档POST/index_name/_doc/{"field":"value"}获取文档GET/index_name
HTML 图片一壶浊酒.. 前端开发 html 前端
在HTML中，我们可以使用img标签来显示一张图片。对于img标签，我们只需要掌握它的三个属性：src、alt和title。alt属性用于描述图片，这个描述文字是给搜索引擎看的，并且当图片无法显示时，页面会显示alt中的文字。title属性也用于描述图片，不过这个描述文字是给用户看的，并且当鼠标指针移到图片上时，会显示title中的文字。colspan属性body{background-color
生信学习Day-1 GJJDr
1.如何学习2.怎样解决学习中遇到的问题？a.第一步:搜索：首选-谷歌，其次-必应，大神级的搜索引擎：虫部落快搜。专业教程-搜狗微信、搜狗知乎、、githubb.第二步：如果你的问题不知该如何搜索，可在微信群中与小组成员讨论c.第三步：正确的提问3.如何搭建高效的学习平台a.效率软件:（1）浏览器-chrome浏览器简洁高效无广告，可以添加插件，比如”沙拉查词”（自行搜索），可以即时翻译。（2）电
优质素材的六个搜索技巧老李大李和小李
一是要有耐心哦耐心不但是搜索的技巧而且是前提的、必要的。没有耐心进行搜索就不会有大量的好的输入。二是多关键词这个就像我们在搜索引擎中使用的方法，输入关键词反复搜索就会发现好多有用的而且是我们未知的知识。三是多渠道我们要利用各种搜索引擎和各种方式包括读书、和人聊天的方法来搜集资料。四是多维度至少要从三方面着手～文字、图片、视频。五是精准搜索有了前面做的功课，我们要对主题和材料进行凝炼～取其精华去除无
什么是黑链？什么是黑帽？什么是明链？倔强的小蚁云Zt 网络数据库 tcp/ip 运维
什么是黑链？什么是黑帽？什么是明链？黑链有哪几种表示方式！怎样预防黑链？首先我们说下黑链定义:黑链是SEO黑帽手法中相当普遍的一种手段，笼统地说，它就是指一些人用非正常的手段获取的其它网站的反向链接，最常见的黑链就是通过各种网站程序漏洞获取搜索引擎权重或者PR较高的网站的WEBSHELL，进而在被黑网站上链接自己的网站。黑链的写法黑链文本黑链标签被放在一个隐藏的div中。用户在浏览器中是无法看到的
精准剖析白帽SEO和黑帽SEO的区别 heimaoxuexi 黑帽seo 黑帽 seo 黑帽seo技术
我们都知道，SEO就是搜索引擎优化，是对网站进行内部及外部的不断调整优化，改进网站在搜索引擎中的关键词自然排名，获得更多流量。而SEO又分为白帽SEO和黑帽SEO，SEO中的黑帽SEO技术http://www.heimaolianmeng.com。根据做网站的实战经验，分享一下自己对于白帽SEO和黑帽SEO的见解。一、白帽SEO1、符合用户体验原理就是指我们网站上做的任何内容、任何图片以及任何网站
【程序员必读】如何利用AI高效编程，从容准时下班！ z千鑫 AI领域人工智能 Agent AI工具 AI助手工作流 AI编程 ai
前言：在编程的旅途中，程序员们常常面临各种挑战，尤其是在编写代码时，难题层出不穷。尽管传统搜索引擎提供了海量信息，但往往让我们在无尽的例子和复杂分析中迷失，难以找到真正适合自己的解决方案。正因如此，越来越多的程序员开始借助AI的力量，轻松应对这些难题，让工作变得更高效，从而实现准时下班的目标。问题：那么如何利用AI编写代码呢？一、明确问题的核心在使用AI生成代码之前，首先要明确你所遇到的问题是什么
万字详解PHP+Sphinx中文亿级数据全文检索实战（实测亿级数据0.1秒搜索耗时）小松聊PHP进阶 MySQL PHP 全文检索 php sphinx mysql sql 数据库服务器
Sphinx查询性能非常厉害，亿级数据下输入关键字，大部分能在0.01~0.1秒，少部分再5秒之内查出数据。Sphinx官方文档：http://sphinxsearch.com/docs/sphinx3.html极简概括：由C++编写的高性能全文搜索引擎的开源组件，C/S架构，跨平台（支持Linux、Windows、MacOS），支持分布式部署，并可直接适配MySQL。解决问题：因为MySQL的l
弹性搜索引擎Elasticsearch：本地部署与远程访问指南猴哥是肖鸿人工智能技术指导专升本 jenkins 运维
在大数据时代，数据搜索和分析成为企业核心竞争力的关键因素。弹性搜索引擎Elasticsearch作为一种分布式、可扩展的搜索和分析引擎，受到广泛欢迎。本文将介绍Elasticsearch的本地部署与远程访问，帮助读者更好地利用这一强大的工具。一、本地部署环境准备在开始部署Elasticsearch之前，需要准备以下环境：操作系统：Elasticsearch支持多种操作系统，如Linux、Windo
程序员如何平衡日常编码工作与提升式学习？--编程之路：平衡与成长的艺术青云交教学 java学习学习高效编码习惯与时间管理技巧提升式学习的策略职业发展与个人成长的和谐共生编程教会你如何思考--比尔盖茨 Java学习方法时间管理
目录引言：正文：方向一：高效编码习惯与时间管理技巧方向二：提升式学习的策略方向三：职业发展与个人成长的和谐共生结束语：引言：在当今科技飞速发展的时代，编程已成为一项至关重要的技能。正如比尔·盖茨所说：“编程教会你如何思考。”对于程序员来说，如何在繁忙的日常编码工作中不断提升自己，实现职业发展与个人成长的双赢，是一个极具挑战性的问题。例如，谷歌的搜索引擎算法就是一个经典的编程案例，它通过高效的算法和
2023-03-15 困的晕_5c43
1.简述引擎有哪些类型，各类搜索引擎的工作原理是什么。.（1）全文索引型（2）目录索引型（3）元数据索引型（4）垂直索引型（5）互动式索引型搜索引擎的原理可以分为：数据收集、建立索引数据库、索引数据库中搜索和排序。2.新媒体内容搜集工具有哪些？尝试使用这些工具搜集一些当前热点话题第一个：爆文素材采集工具做新媒体运营，每天都需要去搜集大量的爆文视频等素材，这里给大家推荐一个自媒体爆文素材采集工具--
云计算技术与应用 - 了解认识云计算 ZuckD 云计算运维
云计算的背景互联网自1960年开始兴起，主要用于军方、大型企业等之间的纯文字电子邮件或新闻集群组服务。直到1990年才开始进入普通家庭，随着web网站与电子商务的发展，网络已经成为了目前人们离不开的生活必需品之一。云计算这个概念首次在2006年8月的搜索引擎会议上提出，成为了互联网的第三次革命。近几年来，云计算也正在成为信息技术产业发展的战略重点，全球的信息技术企业都在纷纷向云计算转型。我们举例来
LlamaIndex 使用 RouterOutputAgentWorkflow hawk2014bj llamaIndex LLM agent
LlamaIndex中提供了一个RouterOutputAgentWorkflow功能，可以集成多个QueryTool，根据用户的输入判断使用那个QueryEngine，在做查询的时候，可以从不同的数据源进行查询，例如确定的数据从数据库查询，如果是语义查询可以从向量数据库进行查询。本文将实现两个搜索引擎，根据不同Query使用不同QueryEngine。安装MySQL依赖pipinstallmys
五类学习技巧之搜索技巧│《学习力》笔记06 翟树纯
在当今信息爆炸的时代，搜索引擎就相当于我们的外接大脑，为了充分发挥搜索引擎的威力，就要提高自己的搜索能力。我们平时用的最多的就是通用搜索引擎，以百度为例，不仅可以用来搜索文字，还可以进行学术搜索、图片搜索、视频搜索、地图搜索。术业有专攻，除了百度之类的通用搜索引擎，还有其他的专业搜索引擎，如网站历史查询、高清图库、学术网站、商业数据库等。01搜索两大原则1．换位思考从搜索引擎的角度思考，用关键词检
NLP面试题（9月4日笔记）好好学习Py 自然语言处理自然语言处理笔记人工智能
常见的分词方法分词是将连续的子序列按照一定的规则进行重新组合形成词序列的过程，是NLP领域内最基础的内容。常见的分词方法有jieba分词，jieba分词支持多种分词模模式：精确模式，全模式，搜索引擎模式。1）精确模式：将句子最精确的进行切分，适合文本分析，在日常工作中最为常用；2）全模式：将句子中所有可以成词的词语都扫描出来，速度非常快，但不能消除歧义。3）搜索引擎模式：在精确模式的基础上，对长词
java线程的无限循环和退出 3213213333332132 java
最近想写一个游戏，然后碰到有关线程的问题，网上查了好多资料都没满足。突然想起了前段时间看的有关线程的视频，于是信手拈来写了一个线程的代码片段。希望帮助刚学java线程的童鞋 package thread; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date
tomcat 容器 BlueSkator tomcat Web servlet
Tomcat的组成部分 1、server A Server element represents the entire Catalina servlet container. (Singleton) 2、service service包括多个connector以及一个engine，其职责为处理由connector获得的客户请求。 3、connector 一个connector
php递归,静态变量,匿名函数使用 dcj3sjt126com PHP 递归函数匿名函数静态变量引用传参
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body>
属性颜色字体变化周华华 JavaScript
function changSize(className){ var diva=byId("fot") diva.className=className; } </script> <style type="text/css"> .max{ background: #900; color:#039;
将properties内容放置到map中 g21121 properties
代码比较简单： private static Map<Object, Object> map; private static Properties p; static { //读取properties文件 InputStream is = XXX.class.getClassLoader().getResourceAsStream("xxx.properti
[简单]拼接字符串 53873039oycg 字符串
工作中遇到需要从Map里面取值拼接字符串的情况，自己写了个，不是很好，欢迎提出更优雅的写法，代码如下： import java.util.HashMap; import java.uti
Struts2学习云端月影
最近开始关注struts2的新特性，从这个版本开始，Struts开始使用convention-plugin代替codebehind-plugin来实现struts的零配置。配置文件精简了，的确是简便了开发过程，但是，我们熟悉的配置突然disappear了，真是一下很不适应。跟着潮流走吧，看看该怎样来搞定convention-plugin。使用Convention插件，你需要将其JAR文件放
Java新手入门的30个基本概念二 aijuans java 新手 java 入门
基本概念:　　1.OOP中唯一关系的是对象的接口是什么,就像计算机的销售商她不管电源内部结构是怎样的,他只关系能否给你提供电就行了,也就是只要知道can or not而不是how and why.所有的程序是由一定的属性和行为对象组成的,不同的对象的访问通过函数调用来完成,对象间所有的交流都是通过方法调用,通过对封装对象数据,很大限度上提高复用率。　　2.OOP中最重要的思想是类,类是模板是蓝图,
jedis 简单使用 antlove java redis cache command jedis
jedis.RedisOperationCollection.java package jedis; import org.apache.log4j.Logger; import redis.clients.jedis.Jedis; import java.util.List; import java.util.Map; import java.util.Set; pub
PL/SQL的函数和包体的基础百合不是茶 PL/SQL编程函数包体显示包的具体数据包
由于明天举要上课,所以刚刚将代码敲了一遍PL/SQL的函数和包体的实现(单例模式过几天好好的总结下再发出来);以便明天能更好的学习PL/SQL的循环,今天太累了,所以早点睡觉,明天继续PL/SQL总有一天我会将你永远的记载在心里,,, 函数; 函数:PL/SQL中的函数相当于java中的方法;函数有返回值定义函数的 --输入姓名找到该姓名的年薪 create or re
Mockito(二)--实例篇 bijian1013 持续集成 mockito 单元测试
学习了基本知识后，就可以实战了，Mockito的实际使用还是比较麻烦的。因为在实际使用中，最常遇到的就是需要模拟第三方类库的行为。比如现在有一个类FTPFileTransfer，实现了向FTP传输文件的功能。这个类中使用了a
精通Oracle10编程SQL(7)编写控制结构 bijian1013 oracle 数据库 plsql
/* *编写控制结构 */ --条件分支语句 --简单条件判断 DECLARE v_sal NUMBER(6,2); BEGIN select sal into v_sal from emp where lower(ename)=lower('&name'); if v_sal<2000 then update emp set
【Log4j二】Log4j属性文件配置详解 bit1129 log4j
如下是一个log4j.properties的配置 log4j.rootCategory=INFO, stdout , R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appe
java集合排序笔记白糖_ java
public class CollectionDemo implements Serializable,Comparable<CollectionDemo>{ private static final long serialVersionUID = -2958090810811192128L; private int id; private String nam
java导致linux负载过高的定位方法 ronin47
定位java进程ID 可以使用top或ps -ef |grep java ![图片描述][1] 根据进程ID找到最消耗资源的java pid 比如第一步找到的进程ID为5431 执行 top -p 5431 -H ![图片描述][2] 打印java栈信息 $ jstack -l 5431 > 5431.log 在栈信息中定位具体问题将消耗资源的Java PID转
给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数 bylijinnan 函数
import java.util.ArrayList; import java.util.List; import java.util.Random; public class RandNFromRand5 { /** 题目：给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数。解法1： f(k) = (x0-1)*5^0+(x1-
PL/SQL Developer保存布局 Kai_Ge
近日由于项目需要，数据库从DB2迁移到ORCAL，因此数据库连接客户端选择了PL/SQL Developer。由于软件运用不熟悉，造成了很多麻烦，最主要的就是进入后，左边列表有很多选项，自己删除了一些选项卡，布局很满意了，下次进入后又恢复了以前的布局，很是苦恼。在众多PL/SQL Developer使用技巧中找到如下这段： &n
[未来战士计划]超能查派[剧透,慎入] comsci 计划
非常好看,超能查派,这部电影......为我们这些热爱人工智能的工程技术人员提供一些参考意见和思想........ 虽然电影里面的人物形象不是非常的可爱....但是非常的贴近现实生活.... &nbs
Google Map API V2 dai_lm google map
以后如果要开发包含google map的程序就更麻烦咯 http://www.cnblogs.com/mengdd/archive/2013/01/01/2841390.html 找到篇不错的文章，大家可以参考一下 http://blog.sina.com.cn/s/blog_c2839d410101jahv.html 1. 创建Android工程由于v2的key需要G
java数据计算层的几种解决方法2 datamachine java sql 集算器
2、SQL SQL/SP/JDBC在这里属于一类，这是老牌的数据计算层，性能和灵活性是它的优势。但随着新情况的不断出现，单纯用SQL已经难以满足需求，比如： JAVA开发规模的扩大，数据量的剧增，复杂计算问题的涌现。虽然SQL得高分的指标不多，但都是权重最高的。成熟度：5星。最成熟的。
Linux下Telnet的安装与运行 dcj3sjt126com linux telnet
Linux下Telnet的安装与运行 linux默认是使用SSH服务的而不安装telnet服务如果要使用telnet 就必须先安装相应的软件包即使安装了软件包默认的设置telnet 服务也是不运行的需要手工进行设置如果是redhat9，则在第三张光盘中找到 telnet-server-0.17-25.i386.rpm
PHP中钩子函数的实现与认识 dcj3sjt126com PHP
假如有这么一段程序： function fun(){ fun1(); fun2(); } 首先程序执行完fun1()之后执行fun2()然后fun()结束。但是，假如我们想对函数做一些变化。比如说，fun是一个解析函数，我们希望后期可以提供丰富的解析函数，而究竟用哪个函数解析，我们希望在配置文件中配置。这个时候就可以发挥钩子的力量了。我们可以在fu
EOS中的WorkSpace密码修改蕃薯耀修改WorkSpace密码
EOS中BPS的WorkSpace密码修改 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--SpringSecurity相关配置【SpringSecurityConfig】 hanqunfeng SpringSecurity
SpringSecurity的配置相对来说有些复杂，如果是完整的bean配置，则需要配置大量的bean，所以xml配置时使用了命名空间来简化配置，同样，spring为我们提供了一个抽象类WebSecurityConfigurerAdapter和一个注解@EnableWebMvcSecurity，达到同样减少bean配置的目的，如下： applicationContex
ie 9 kendo ui中ajax跨域的问题 jackyrong AJAX跨域
这两天遇到个问题，kendo ui的datagrid，根据json去读取数据，然后前端通过kendo ui的datagrid去渲染，但很奇怪的是，在ie 10,ie 11,chrome,firefox等浏览器中，同样的程序，浏览起来是没问题的，但把应用放到公网上的一台服务器，却发现如下情况： 1） ie 9下，不能出现任何数据，但用IE 9浏览器浏览本机的应用，却没任何问题
不要让别人笑你不能成为程序员 lampcy 编程程序员
在经历六个月的编程集训之后，我刚刚完成了我的第一次一对一的编码评估。但是事情并没有如我所想的那般顺利。说实话，我感觉我的脑细胞像被轰炸过一样。手慢慢地离开键盘，心里很压抑。不禁默默祈祷：一切都会进展顺利的，对吧？至少有些地方我的回答应该是没有遗漏的，是不是？难道我选择编程真的是一个巨大的错误吗——我真的永远也成不了程序员吗？我需要一点点安慰。在自我怀疑，不安全感和脆弱等等像龙卷风一
马皇后的贤德 nannan408
马皇后不怕朱元璋的坏脾气，并敢理直气壮地吹耳边风。众所周知，朱元璋不喜欢女人干政，他认为“后妃虽母仪天下，然不可使干政事”，因为“宠之太过，则骄恣犯分，上下失序”，因此还特地命人纂述《女诫》，以示警诫。但马皇后是个例外。　　有一次，马皇后问朱元璋道：“如今天下老百姓安居乐业了吗？”朱元璋不高兴地回答：“这不是你应该问的。”马皇后振振有词地回敬道：“陛下是天下之父，
选择某个属性值最大的那条记录（不仅仅包含指定属性，而是想要什么属性都可以） Rainbow702 sql group by 最大值 max 最大的那条记录
好久好久不写SQL了，技能退化严重啊！！！直入主题：比如我有一张表，file_info，它有两个属性（但实际不只，我这里只是作说明用）： file_code, file_version 同一个code可能对应多个version 现在，我想针对每一个code，取得它相关的记录中，version 值最大的那条记录， SQL如下： select *
VBScript脚本语言 tntxia VBScript
VBScript 是基于VB的脚本语言。主要用于Asp和Excel的编程。 VB家族语言简介 Visual Basic 6.0 源于BASIC语言。由微软公司开发的包含协助开发环境的事
java中枚举类型的使用 xiao1zhao2 java enum 枚举 1.5新特性
枚举类型是j2se在1.5引入的新的类型,通过关键字enum来定义,常用来存储一些常量. 1.定义一个简单的枚举类型 public enum Sex { MAN, WOMAN } 枚举类型本质是类,编译此段代码会生成.class文件.通过Sex.MAN来访问Sex中的成员,其返回值是Sex类型. 2.常用方法静态的values()方

搜索引擎技术介绍

你可能感兴趣的:(搜索引擎)