铁猴

ElasticSearch学习总结（一）：信息检索基础理论

本系列文章为Elasticsearch 的学习笔记，主要是为了便于日后对于相关知识点的回顾，在内容的范围以及正确性上可能存在一定出入。另外由于Elasticsearch的发展速度很快，很多特性会随着版本的演变而发生变化，具体的特性说明，如有疑问请参考对应版本的官方文档。本系列博客主要基于5.2版本

作为本系列博客的开篇，先对信息检索的相关基础知识做个简单的总结

1.基本定义

信息检索的定义有很多，知乎的答案跟人觉得比较直接明了，定义如下

信息检索( Information Retrieval ):指信息按一定的方式组织起来，并根据信息用户的需要找出有关的信息的过程和技术。

信息检索的目标：准确、及时、全面的获取所需信息。

2.信息检索系统设计

信息检索系统的设计主要包括如下三个部分的内容
1. 信息采集：可以通过爬虫，众包等多种方式完成信息的采集
2. 信息处理：系统处理采集来数据的过程称为索引构建，如何对数据进行高效的索引构建与存储是系统的核心问题。本文主要介分词与倒排索引两个环节
3. 信息查询：该部分主要关注的是如何在最短的时间内返回用户最想得到的信息。本文主要关注有哪些相关性检测模型可以让用户得到最想要的结果。

3.常用术语

信息检索作为一门独立的学科，有很多学术方面的术语，为了便于后面的学习与总结，对常用的术语做个简单的总结

文档(document)：文档是搜索的目标，载体可以是文本，图片，视频语音等各种类型
文档集(crops):若干文档组成的集合称为文档集
词条化(tokenization):指将给定的字符序列拆分成一系列子序列的过程，每个子序列称为一个词条
词项(term):词项是经过语言学预处理之后归一化的词条。词条是索引的最小单位
词项文档关联矩阵:用来标识文档与词项包含关系的矩阵。
词项频率(term frequency)：某个词项在某个文档中出现的频率称为词项频率，例如”Apple”这个单词在文档A中出现了3次，则词项频率为3.
文档频率(document frequency)：出现某个词项的文档数量称为文档频率，例如有3个文档出现过”Apple”这个单词，则文档频率为3
倒排记录表(postings list)：倒排记录表用于记录出现过某个词项的所有文档的文档列表以及词项在文档中出现的位置信息，每条记录称为一个倒排项。通过倒排记录表可以知道哪些文档包含了哪些文档。

4.分词算法

4.1 概述

分词对于搜索引擎的帮助很大，可以帮助搜索引擎识别检索词语的含义，从而使搜索的准确度提高，因此分词的质量也影响了搜索结果的准确度。中英文的分词原理大致如下

4.2 英文分词

英文单词之间是以空格作为自然分界符的，因此英文的分词相对简单，大致为一下流程:

输入文本-》词汇分割-》词汇过滤（去除stop word）-》词干提取-》大小写转换-》输出结果

细节部分此处不做过多介绍

4.3 中文分词

汉语是以字为基本的书写单位，词语之间没有明显的区分标记，因此，中文词语分词对比英文分词要复杂许多。常用的分词方法主要包括1:词典匹配分词法
2:语义理解分词法 3:词频统计分词法.

4.3.1 词典匹配分词法

这种方法按照一定策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配，若在词典中找到某个字符串，则匹配成功。识别出一个词，根据扫描方向的不同分为正向匹配和逆向匹配。根据不同长度优先匹配的情况，分为最大（最长）匹配和最小（最短）匹配，该方法简单、分词效率较高,但汉语语言现象复杂丰富，词典的完备性、规则的一致性等问题使其难以适应开放的大规模文本的分词处理

4.3.2 语义理解分词法

该方法主要基于句法、语法分析，并结合语义分析，通过对上下文内容所提供信息的分析对词进行定界，它通常包括三个部分：分词子系统、句法语义子系统、总控部分。在总控部分的协调下，分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断。这类方法试图让机器具有人类的理解能力，需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性，难以将各种语言信息组织成机器可直接读取的形式。因此目前基于知识的分词系统还处在试验阶段。

4.3.3 词频统计分词法

主要思想：上下文中，相邻的字同时出现的次数越多，就越可能构成一个词。因此字与字相邻出现的概率或频率能较好的反映词的可信度。

主要统计模型为：N元文法模型（N-gram）、隐马尔科夫模型(Hidden Markov Model, HMM)。

5.倒排索引

倒排索引也常被称为反向索引，是一种索引的方法，被用来存储在全文搜索下某个单词在一个或是一组文档中的存储位置的映射，是文档检索系统中最常用的数据结构。

下面通过一个例子来对倒排索引做一个简单的说明：
原始文档集合的截图如下：

通常建立倒排索引的步骤如下：
1. 用分词系统将文档自动切分成单词序列，每个文档就转换为由单词序列构成的数据流；

对每个不同单词赋予唯一的单词编号（ID），并记录每个单词对应的文档频率（文档集合中，包含某个单词的文档数量，占文档总数量的比率）、包含该单词的对应文档编号（DocID）、该单词在各对应文档中的词频（TF）（在某个文档中出现的次数）、该单词出现在某个文档中的位置（POS）等；

最后索引后得到的结果如下：

含义解读：以单词“跳槽”为例，其单词编号为4，文档频率为2，代表整个文档集合中有两个文档包含这个单词，对应的倒排列表为｛（1；1；<4>）,（4;1;<4>）｝,其含义为在文档1和文档4中出现过这个单词，单词频率都为1，单词“跳槽”出现在两个文档中的位置都是4，即文档中第四个单词是“跳槽”。

6.检测模型

检测模型是判断文档与用户查询相关性的核心技术。本章节将简单介绍几个常见的检测模型

6.1 布尔检测模型

6.1.1 原理

布尔检索模型主要是把AND,OR,NOT三种逻辑运算符把检索词连接起来，构成一个逻辑检索式。

6.1.2 优点

简单，容易理解
可以处理结构化查询
速度快

6.1.3 缺点

检索策略只是基于0或是1的完全匹配
不存在语义特性
没有加权的概念

6.2 tf-idf检测模型

6.2.1 原理

TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

TFIDF的主要思想是：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。TF-IDF实际上是：TF * IDF，TF词频(Term Frequency)，IDF逆向文件频率(Inverse Document Frequency)。TF表示词条在文档d中出现的频率。IDF的主要思想是：如果包含词条t的文档越少，也就是n越小，IDF越大，则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m，而其它类包含t的文档总数为k，显然所有包含t的文档数n=m+k，当m大的时候，n也大，按照IDF公式得到的IDF的值会小，就说明该词条t类别区分能力不强。但是实际上，如果一个词条在一个类的文档中频繁出现，则说明该词条能够很好代表这个类的文本的特征，这样的词条应该给它们赋予较高的权重，并选来作为该类文本的特征词以区别与其它类文档。

[来源于百度百科]

6.3 向量空间模型

6.3.1 原理

该方法主要是把文本内容转换为向量空间的向量运算，以空间上的相似度表达语义的相似度。该模型的数学基础是余弦相似性理论。

6.4 概率检索模型

6.4.1 原理

是目前效果最好的模型之一，okapi BM25这一经典概率模型计算公式已经在搜索引擎的网页排序中广泛使用。概率检索模型是从概率排序原理推导出来的。

基本思想是：

是通过概率的方法将查询和文档联系起来,给定一个用户查询，如果搜索系统能够在搜索结果排序时按照文档和用户需求的相关性由高到底排序，那么这个搜索系统的准确性是最优的。在文档集合的基础上尽可能准确地对这种相关性进行估计就是其核心。

6.4.2 优点

采用严格的数学理论为依据，为人们提供了一种数学理论基础来进行检索决策；PubMed的related articles 。
采用相关反馈原理
在其中没有使用用户难以运用的布尔逻辑方法；
在操作过程中使用了词的依赖性和相互关系。

6.4.3 缺点

计算复杂度大,不适合大型网络
参数估计难度较大
条件概率值难估计
系统的检索性能提高不明显，需与其他检索模型结合

Doris入门了解花开终为谢大数据 doris 大数据
微信公众号：大数据高性能计算大数据存储与分析入门学习文档：深入了解Doris大数据技术已成为现代数据处理的核心组成部分，为企业提供了更多洞察和决策支持。Doris（以前称为Palo）是一种用于大规模数据存储和分析的开源分布式数据仓库，它允许您高效地存储和查询大量数据，是大数据处理生态系统的一部分。本文档将为您提供关于Doris的入门学习指南，包括其基本概念、核心功能和如何开始使用它。目录什么是Do
在云原生时代，构建高效的大数据存储与分析平台程序员小侯大数据系列云原生大数据数据分析
文章目录1.**选择适当的数据存储技术：**2.**采用分布式架构：**3.**数据分区和索引：**4.**采用列式存储：**5.**数据压缩和编码：**6.**使用缓存技术：**7.**数据分片和复制：**8.**自动化运维和监控：**9.**数据安全和权限控制：**10.**实时处理和流式分析：**11.**数据质量和清洗：**12.**持续优化和改进：**个人主页：程序员小侯CSDN新晋作者
面向智能电网的电力大数据存储与分析应用唐名威
面向智能电网的电力大数据存储与分析应用崔立真1,史玉良1,刘磊1,赵卓峰2,毕艳冰31.山东大学计算机科学与技术学院，山东济南2501012.北方工业大学云计算研究中心，北京1000413.国网信息通信产业集团有限公司，北京102211摘要：阐述了智能电网面临的挑战以及大数据关键技术对电力行业的可持续发展和坚强智能电网建立的重要意义。分别从智能电网主数据管理、用电信息统一存储管理、电能质量分析、配
Hadoop学习-基础篇 I_李岩
Hadoop大数据平台与架构功能与优势Hadoop是大数据存储与分析的架构，是分布式存储和分布式计算平台两个核心组成HDFS：分布式文件系统，用于存储海量的数据MapReduce：并行处理框架，实现任务的分解和调度应用可用于搭建数据仓库，分析统计数据生态HIVE：SQL语句形式，转换为Hadoop任务去执行HBASE：存储结构化数据的分布式数据库zookeeper：服务注册、治理HDFS概念块（B
多线程编程之存钱与取钱周凡杨 java thread 多线程存钱取钱
生活费问题是这样的：学生每月都需要生活费，家长一次预存一段时间的生活费，家长和学生使用统一的一个帐号，在学生每次取帐号中一部分钱，直到帐号中没钱时通知家长存钱，而家长看到帐户还有钱则不存钱，直到帐户没钱时才存钱。问题分析：首先问题中有三个实体，学生、家长、银行账户，所以设计程序时就要设计三个类。其中银行账户只有一个，学生和家长操作的是同一个银行账户，学生的行为是
java中数组与List相互转换的方法征客丶 JavaScript java jsonp
1.List转换成为数组。（这里的List是实体是ArrayList) 　　调用ArrayList的toArray方法。　　toArray 　　public T[] toArray(T[] a)返回一个按照正确的顺序包含此列表中所有元素的数组；返回数组的运行时类型就是指定数组的运行时类型。如果列表能放入指定的数组，则返回放入此列表元素的数组。否则，将根据指定数组的运行时类型和此列表的大小分
Shell 流程控制 daizj 流程控制 if else while case shell
Shell 流程控制和Java、PHP等语言不一样，sh的流程控制不可为空，如(以下为PHP流程控制写法)： <?php if(isset($_GET["q"])){ search(q);}else{// 不做任何事情} 在sh/bash里可不能这么写，如果else分支没有语句执行，就不要写这个else，就像这样 if else if if 语句语
Linux服务器新手操作之二周凡杨 Linux 简单操作
1.利用关键字搜寻Man Pages man -k keyword 其中-k 是选项，keyword是要搜寻的关键字如果现在想使用whoami命令，但是只记住了前3个字符who，就可以使用 man -k who来搜寻关键字who的man命令 [haself@HA5-DZ26 ~]$ man -k
socket聊天室之服务器搭建朱辉辉33 socket
因为我们做的是聊天室，所以会有多个客户端，每个客户端我们用一个线程去实现，通过搭建一个服务器来实现从每个客户端来读取信息和发送信息。我们先写客户端的线程。 public class ChatSocket extends Thread{ Socket socket; public ChatSocket(Socket socket){ this.sock
利用finereport建设保险公司决策分析系统的思路和方法老A不折腾 finereport 金融保险分析系统报表系统项目开发
决策分析系统呈现的是数据页面，也就是俗称的报表，报表与报表间、数据与数据间都按照一定的逻辑设定，是业务人员查看、分析数据的平台，更是辅助领导们运营决策的平台。底层数据决定上层分析，所以建设决策分析系统一般包括数据层处理（数据仓库建设）。项目背景介绍通常，保险公司信息化程度很高，基本上都有业务处理系统（像集团业务处理系统、老业务处理系统、个人代理人系统等）、数据服务系统（通过
始终要页面在ifream的最顶层林鹤霄
index.jsp中有ifream，但是session消失后要让login.jsp始终显示到ifream的最顶层。。。始终没搞定，后来反复琢磨之后，得到了解决办法，在这儿给大家分享下。。 index.jsp--->主要是加了颜色的那一句 <html> <iframe name="top" ></iframe> <ifram
MySQL binlog恢复数据 aigo mysql
1，先确保my.ini已经配置了binlog： # binlog log_bin = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.log log_bin_index = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.index log_error = D:/mysql-5.6.21-win
OCX打成CBA包并实现自动安装与自动升级 alxw4616 ocx cab
近来手上有个项目,需要使用ocx控件 (ocx是什么? http://baike.baidu.com/view/393671.htm) 在生产过程中我遇到了如下问题. 1. 如何让 ocx 自动安装? a) 如何签名? b) 如何打包? c) 如何安装到指定目录? 2.
Hashmap队列和PriorityQueue队列的应用百合不是茶 Hashmap队列 PriorityQueue队列
HashMap队列已经是学过了的,但是最近在用的时候不是很熟悉,刚刚重新看以一次, HashMap是K,v键 ,值 put()添加元素 //下面试HashMap去掉重复的 package com.hashMapandPriorityQueue; import java.util.H
JDK1.5 returnvalue实例 bijian1013 java thread java多线程 returnvalue
Callable接口：返回结果并且可能抛出异常的任务。实现者定义了一个不带任何参数的叫做 call 的方法。 Callable 接口类似于 Runnable，两者都是为那些其实例可能被另一个线程执行的类设计的。但是 Runnable 不会返回结果，并且无法抛出经过检查的异常。 ExecutorService接口方
angularjs指令中动态编译的方法(适用于有异步请求的情况) 内嵌指令无效 bijian1013 JavaScript AngularJS
在directive的link中有一个$http请求，当请求完成后根据返回的值动态做element.append('......');这个操作，能显示没问题，可问题是我动态组的HTML里面有ng-click，发现显示出来的内容根本不执行ng-click绑定的方法！
【Java范型二】Java范型详解之extend限定范型参数的类型 bit1129 extend
在第一篇中，定义范型类时，使用如下的方式： public class Generics<M, S, N> { //M,S,N是范型参数 } 这种方式定义的范型类有两个基本的问题： 1. 范型参数定义的实例字段，如private M m = null;由于M的类型在运行时才能确定，那么我们在类的方法中，无法使用m，这跟定义pri
【HBase十三】HBase知识点总结 bit1129 hbase
1. 数据从MemStore flush到磁盘的触发条件有哪些？ a.显式调用flush，比如flush 'mytable' b.MemStore中的数据容量超过flush的指定容量，hbase.hregion.memstore.flush.size,默认值是64M 2. Region的构成是怎么样？ 1个Region由若干个Store组成
服务器被DDOS攻击防御的SHELL脚本 ronin47
mkdir /root/bin vi /root/bin/dropip.sh #!/bin/bash/bin/netstat -na|grep ESTABLISHED|awk ‘{print $5}’|awk -F:‘{print $1}’|sort|uniq -c|sort -rn|head -10|grep -v -E ’192.168|127.0′|awk ‘{if($2!=null&a
java程序员生存手册-craps 游戏-一个简单的游戏 bylijinnan java
import java.util.Random; public class CrapsGame { /** * *一个简单的赌*博游戏，游戏规则如下： *玩家掷两个骰子，点数为1到6，如果第一次点数和为7或11，则玩家胜， *如果点数和为2、3或12，则玩家输， *如果和为其它点数，则记录第一次的点数和，然后继续掷骰，直至点数和等于第一次掷出的点
TOMCAT启动提示NB: JAVA_HOME should point to a JDK not a JRE解决开窍的石头 JAVA_HOME
当tomcat是解压的时候，用eclipse启动正常，点击startup.bat的时候启动报错; 报错如下： The JAVA_HOME environment variable is not defined correctly This environment variable is needed to run this program NB: JAVA_HOME shou
[操作系统内核]操作系统与互联网 comsci 操作系统
我首先申明：我这里所说的问题并不是针对哪个厂商的，仅仅是描述我对操作系统技术的一些看法操作系统是一种与硬件层关系非常密切的系统软件，按理说，这种系统软件应该是由设计CPU和硬件板卡的厂商开发的，和软件公司没有直接的关系，也就是说，操作系统应该由做硬件的厂商来设计和开发
富文本框ckeditor_4.4.7 文本框的简单使用支持IE11 cuityang 富文本框
<html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /> <title>知识库内容编辑</tit
Property null not found darrenzhu datagrid Flex Advanced propery null
When you got error message like "Property null not found ***", try to fix it by the following way: 1)if you are using AdvancedDatagrid, make sure you only update the data in the data prov
MySQl数据库字符串替换函数使用 dcj3sjt126com mysql 函数替换
需求：需要将数据表中一个字段的值里面的所有的 . 替换成 _ 原来的数据是 site.title site.keywords .... 替换后要为 site_title site_keywords 使用的SQL语句如下： updat
mac上终端起动MySQL的方法 dcj3sjt126com mysql mac
首先去官网下载: http://www.mysql.com/downloads/ 我下载了5.6.11的dmg然后安装,安装完成之后..如果要用终端去玩SQL.那么一开始要输入很长的:/usr/local/mysql/bin/mysql 这不方便啊,好想像windows下的cmd里面一样输入mysql -uroot -p1这样...上网查了下..可以实现滴. 打开终端,输入: 1
Gson使用一（Gson） eksliang json gson
转载请出自出处：http://eksliang.iteye.com/blog/2175401 一.概述从结构上看Json，所有的数据（data）最终都可以分解成三种类型：第一种类型是标量（scalar），也就是一个单独的字符串（string）或数字（numbers），比如"ickes"这个字符串。第二种类型是序列（sequence），又叫做数组（array）
android点滴4 gundumw100 android
Android 47个小知识 http://www.open-open.com/lib/view/open1422676091314.html Android实用代码七段（一） http://www.cnblogs.com/over140/archive/2012/09/26/2611999.html http://www.cnblogs.com/over140/arch
JavaWeb之JSP基本语法 ihuning javaweb
目录 JSP模版元素 JSP表达式 JSP脚本片断 EL表达式 JSP注释特殊字符序列的转义处理如何查找JSP页面中的错误 JSP模版元素 JSP页面中的静态HTML内容称之为JSP模版元素，在静态的HTML内容之中可以嵌套JSP
App Extension编程指南（iOS8/OS X v10.10）中文版啸笑天 ext
当iOS 8.0和OS X v10.10发布后，一个全新的概念出现在我们眼前，那就是应用扩展。顾名思义，应用扩展允许开发者扩展应用的自定义功能和内容，能够让用户在使用其他app时使用该项功能。你可以开发一个应用扩展来执行某些特定的任务，用户使用该扩展后就可以在多个上下文环境中执行该任务。比如说，你提供了一个能让用户把内容分
SQLServer实现无限级树结构 macroli oracle sql SQL Server
表结构如下：数据库id path titlesort 排序 1 0 首页 0 2 0,1 新闻 1 3 0,2 JAVA 2 4 0,3 JSP 3 5 0,2,3 业界动态 2 6 0,2,3 国内新闻 1 创建一个存储过程来实现，如果要在页面上使用可以设置一个返回变量将至传过去 create procedure test as begin decla
Css居中div，Css居中img，Css居中文本，Css垂直居中div qiaolevip 众观千象学习永无止境每天进步一点点 css
/**********Css居中Div**********/ div.center { width: 100px; margin: 0 auto; } /**********Css居中img**********/ img.center { display: block; margin-left: auto; margin-right: auto; }
Oracle 常用操作(实用) 吃猫的鱼 oracle
SQL>select text from all_source where owner=user and name=upper('&plsql_name'); SQL>select * from user_ind_columns where index_name=upper('&index_name'); 将表记录恢复到指定时间段以前
iOS中使用RSA对数据进行加密解密 witcheryne ios rsa iPhone objective c
RSA算法是一种非对称加密算法,常被用于加密数据传输.如果配合上数字摘要算法, 也可以用于文件签名. 本文将讨论如何在iOS中使用RSA传输加密数据. 本文环境 mac os openssl-1.0.1j, openssl需要使用1.x版本, 推荐使用[homebrew](http://brew.sh/)安装. Java 8 RSA基本原理 RS