信息检索速通知识点

 仅仅是我自己能想到的对这个分类的一个记忆。欢迎指正

首先,最重要的一点,什么是信息检索?

信息检索是从大规模无规则的数据中(主要是文档)中查询用户所需要的信息的过程。

然后,信息检索有哪几种索引呢?

混合索引。

轮排索引。什么是轮排索引呢,轮排索引又叫轮盘索引,有一个非常重要的符号叫$,$是用来表示扩展词结束的符号。

倒排索引。倒排索引最为著名和重要了。

k-gram索引。

二元词索引。

位置信息索引。

信息检索有哪几种检索方式呢?

布尔检索。

排名检索。

容错式检索。

评判信息检索效果的度量方式有哪些呢?

MRR。

AP。

MAP。

GG@k。

DCG@k。

IDCG@k。

信息检索的一些入门级例子有哪些?

会写and ,or ,not ,andnot的检索的伪代码,会写程序。

哈希表的优缺点:

优点:

查找速度比树快O(1)

缺点:

不容易找到次要变体;

无法进行前缀搜索;

如果词汇持续增长,就需要定期进行昂贵的重哈希操作。

树的优缺点:

优点:

解决了前缀问题。

缺点:

平衡树效率慢:O(logM)

重新进行平衡树是非常昂贵的。

一些查询方式?

通配符查询:*

K-means算法的优缺点:

优点:

1.简单且适用于常规不相交簇。

2.收敛速度相对较快

3.相对高效且可扩展

缺点;

1.需要预先指定k值

2.可能会收敛到局部最优

3.对噪声和异常值可能敏感

4.不适合集群

聚类的种类:

K-means聚类:需要指定的K,提供的答案是随机的

层次聚类:不需要指定的K,提供的答案是确定的。

基于密度的聚类:

数据库扫描法:DBSCAN

数据库扫描法的步骤:

1.找出每个点邻域内的点,并找出邻域内超过minpts的核心点。

2.找出邻居图上核心点的联通分量,忽略所有非核心点。

3.如果簇是E(eps),将每个非核心点分给临近的簇,否则将其分配给噪声。

线性回归:

过拟合:可以拟合数据,但测试数据误差较大,可能方差较大

欠拟合:无法拟合数据

梯度下降的技巧:

1.调整学习率

2.随机梯度下降

3.特征缩放

可能不是那么重要的知识点:

深度学习的三个步骤:定义一个功能神经网络的集合,比较功能的优劣性、选择最佳功能。

数据挖掘的定义?

数据挖掘是从大量的数据中自动提取出有用的信息和模式的过程。

BSBI算法(磁盘寻道更少的排序)的基本思想:

1.收集每个块的信息,排序,写入磁盘。

2.将区块合并成一个长排序顺序。

idf计算:N是集合中文档的总数量,df是包含那个词语的文档数量

tf-idf计算:(随文档出现次数的增加而增加、随术语在集合中的稀缺性而增加)信息检索速通知识点_第1张图片

使用哪种排名方式?

信息检索速通知识点_第2张图片

你可能感兴趣的:(信息检索,全文检索)