972信息检索第23页

搜索引擎学习之旅1 - SEO的概念

长话短说：搜索引擎本质上就是一个检索系统，为用户提供信息检索服务的。为了在海量数据中快速的找到符合用户搜索内容的结果，搜索引擎会用到倒排索引。

千瞱·2020-09-15 02:46

深入搜索引擎原理

信息检索(InformationRetrieval简称IR)和搜索(Search)是有区别的

weixin_34112208·2020-09-15 01:29

搜索引擎的发展

1995成立了一大批搜索公司yahoo人工编辑导航目录，将重要站点份门别类整理，满足查询需要大多数公司基于传统的信息检索服务。

菜鸡旭旭·2020-09-15 00:58

Baidu 优化和排名技术

百度的搜索排名原则百度是全球最优秀的中文信息检索与传递技术供应商，公司号称“全球最大的中文搜索技术提供商”。

Fandywang_jlu·2020-09-15 00:19

搜索引擎的发展简史

然而伴随互联网爆炸性的发展，普通网络用户想找到所需的资料简直如同大海捞针，这时为满足大众信息检索需求的专业搜索网站便应运而生了。

郭亚辉·2020-09-15 00:03

蓝桥杯2016省赛03-凑算式

比如：6+8/3+952/714就是一种解法，5+3/1+972/486是另一种解法。这个算式一共有多少种解法？注意：你输出的应该是个整数，不要输出任何多余的内容或说明性文字。Copy输入没有输入。

会飞的猪_·2020-09-14 20:44

《信息检索导论》学习笔记

书籍豆瓣链接：http://book.douban.com/subject/5252170/第1章布尔检索---------------------1.1一个信息检索的例子1.2构建倒排索引的初体验1.3

zdw12242·2020-09-14 17:28

信息检索课程小结

这是本学期所有的实验报告因为大一上学期学了python，这学期学的java还不是很熟练，所以所有的实验都是用python实现的。E1词频查询E1词频查询就是对一个英文文档进行词频统计，并实现查询功能。这是容易实现的，因为老师给的文档是处理好的，标点与单词间都有空格，直接读取文件，利用字典操作即可。E2汉语分词E2汉语分词需要利用最大匹配法进行中文分词，并且要对分词算法进行评分。所谓最大匹配法就是到

weixin_46684748·2020-09-14 16:51

信息检索7W3H分析方法

信息检索7W3H分析方法1．Why：你搜寻的目的和目标是什么？是寻找信息，还是去解决某个问题？2．What：你要搜寻的是什么？什么算是比较理想的结果？你可以明确地用不少于10个字的句子来描述吗？

Susinl·2020-09-14 16:12

信息检索导论第一章阅读笔记

《信息检索导论》ChristopherD.Manning等著1.信息检索：信息检索是从大规模非结构化数据（通常是文本）的集合（通常保存在计算机上）中找出满足用户信息需求的资料（通常是文档）的过程。

weixin_30488085·2020-09-14 16:06

海量数据处理专题（八）——倒排索引(搜索引擎之基石)

VSM检索模型VSM全称是VectorSpaceModel(向量空间模型)，是IR(InformationRetrieval信息检索)模型中的一种，由于其简单，直观，高效，所以被广泛的应用到搜索引擎的架构中

wangmeng882·2020-09-14 15:15

信息组织与检索【知识点整理】| 信息检索技术与方法信息检索系统结构和功能模块信息描述信息标引信息存储

目录1简单的定义（一）广义的信息检索（信息组织+信息检索）（二）狭义的信息检索2信息检索技术与方法（一）文本信息检索（二）多媒体信息检索3信息检索系统结构和功能模块（一）信息检索系统基本结构（二）信息组织各功能模块

vv_eve·2020-09-14 15:04

信息检索导论第四章-索引构建

4.1硬件基础构建信息检索系统时，很多决策都和系统硬件环境有关。访问内存数据比访问硬盘数据快得多，因此，我们要尽可能将数据放在内存中，尤其是访问频繁的数据。

EverlightGe·2020-09-14 15:37

总结一下信息检索效果评价方法

其目的是为了评价信息检索系统的易用性。设有一个信息检索系统，在它对某个查询q返回的结果中，用户必须浏览k个文档后才能看到文档d，则称在此系统中文档d对查

summerbell·2020-09-14 15:00

信息检索概论总结

一个复习笔记。WEB搜索更注重准确性和全面性，相关性度量有多方面考虑因素（时效、广告等）基础【重复文档处理】相似性计算：搭叠集合；Jaccard系数；素描素描：把文档的所有搭叠映射到2^m空间，随机置换洗牌，取最小值的搭叠，比较两个文档是否相等WEB采集爬虫，bfs，队列存放目标，集合存放路径过程：采集，解析文档，重复性判断，url处理和保存链接分析web图，出度入度，邻接表，锚文本是对Url的描

ryinlovec·2020-09-14 15:38

文本挖掘浅述

文本挖掘是一个融合了多学科的交叉领域，对文本挖掘的研究需要将自然语言处理、数据挖掘、信息检索、机器学习等众多领域的知识相结合。

坚信小佐·2020-09-14 15:01

信息检索导论：第一章布尔检索学习笔记

但是倒排索引已成为信息检索中的一个标准术语。

nyykxboy·2020-09-14 14:46

《信息检索导论》第六章总结

一、RankedRetrieval在前面我们讨论的都是布尔查询，因此得出的结果要么匹配，要么不匹配，当匹配的结果很多时，就会发现我们需要对文档进行排序；二、参数化索引和域索引文档除了文本外还有元数据，比如创建时间、文档标题等，因此我们也可以对他进行限制；比如限制查询文档结果必须是2010年发表的；参数化索引(parametricindex)：某个字段取值存在一定限制，如取值范围的限制，日期，则为参

iteye_17686·2020-09-14 14:36

《信息检索导论》第二十章总结

一、Web采集介绍Web采集是从Web中采集大量网页的过程，并且要避免采集重复或无用的页面，采集完的网页需要构建索引，以扩大搜索引擎的索引规模；web采集通常是由多台机器并行采集；web采集的必须功能（1）Web采集器需要识别采集器陷阱（spidertraps），比如当采集器访问到某个web服务器的网页时，此网页会生成无限多个网页被采集器采集，从而使得采集器不能跳出；（2）web服务器都有一个政策

iteye_17686·2020-09-14 14:36

《信息检索导论》第五章总结

一、索引压缩概述使用压缩的目的：(1)因为我们想要把尽量多的数据放入内存，因此压缩能够达到这个目的；(2)从磁盘到内存的传输时间会缩短；压缩分类：(1)无损压缩：压缩后的数据能还原全部信息；(2)有损压缩：压缩后会丢失一些信息；如果有损压缩后丢失的信息用户并不关心，则有损压缩也是可以接受的；二、Heaps定律通过整个文档集词条数来估计词项数目；主要思想：随着文档集增加，词项数目会增加，并且没有上限

iteye_17686·2020-09-14 14:36

《信息检索导论》第二章总结

建立倒排记录表之前一、文件的编码一般一个文件都是以字节的方式存储的，如果想要让其可读，就必须要通过正确的编码方式转换成字符；就像JavaIO一样，如果没有通过正确的编码方式打开一个文件，会出现乱码。因此在一系列处理步骤之前，知道文档的编码是重要的。一般在文档的metadata部分都会保存编码方式。二、索引粒度索引粒度的选取也是很重要的。因为如果把索引粒度选的太大，比如你想找InformationR

iteye_17686·2020-09-14 14:36

《信息检索导论》第七章总结

一、打分排序的特性其实对于打分排序来说，我们最终只需要确定文档的相对顺序即可，因此我们可以简化打分的算法，只需要保持相对顺序不变即可；二、快速排序及打分方法我们前面的打分排序方法都需要计算查询及每篇文档的余弦相似度，然后需要取出打分最高的前K篇文档，这样做的复杂度是很高的；其实如果有一个算法能够近似求出前K篇文档但是复杂度少很多（不需要计算所有文档的得分），则我们通常会采用后一种算法；通用方法：预

iteye_17686·2020-09-14 14:36

【信息检索导论】第4章索引构建

第4章索引构建基于块的排序索引方法基于块的排序索引算法：1.将文档分割为几个大小相同的部分2.将每个部分的词项ID-文档ID排序3.将中间产生的临时排序结果存放到磁盘4.将所有的中间结果合并成最终的索引内存式单遍扫描索引构建算法内存式单遍扫描索引算法，使用词项而不是其ID，它将每个块的词典存入磁盘，对于下一个块则重新采用新的词典。分布式索引构建方法MapReduce动态构建索引算法最简单的索引更新

和梦无·2020-09-14 14:02

现代信息检索(原书第2版)

《现代信息检索(原书第2版)》基本信息原书名：ModernInformationRetrieval：TheConceptsandTechnologybehindSearch，SecondEdition作者

csdn1232·2020-09-14 13:04

信息检索中的经典算法——BM25

BM25（BestMatch25）是在信息检索系统中根据提出的query对document进行评分的算法。

白马负金羁·2020-09-14 13:10

《信息检索导论》（第四章）索引构建

基于块的排序索引（BSBI）：1将需要建立索引的文档集分为几个大小相同的部分；2对每个部分的文档进行分析，建立词项ID-文档ID对应关系并加载到设定好的内存块中进行排序，转换成倒排索引后的中间文件存入磁盘；3.将中间文件合并形成最终的索引；内存式单遍扫描索引构建（SPIMI）：1将需要建立索引的文档集分为几个大小相同的部分；2分析其中一个部分文档的词项-文档ID对应关系并构建词典，在块内存即将耗尽

thbspace·2020-09-14 13:46

《信息检索导论》第四章总结

一、索引构建影响因素索引构建是指一篇文档转换成倒排索引的整个过程；(1)需要考虑的因素有内存大小、CPU时钟频率等；比如如果内存特别大，则能够把全部的文档都放入内存，并很快就能构建成倒排索引；(2)我们需要把尽可能多的内容放在内存；(3)需要考虑寻道时间，因此必须要把连续读取的数据放在连续的块中；将文档集变成term-->docID后，词项-文档ID对的数目是token的数目；二、BSBI我们这里

iteye_17686·2020-09-14 12:20

《信息检索导论》第一章总结

一、信息检索概念信息检索是从大量非结构化的文档集中找到用户需要的信息；当然信息检索远不止这些，比如从包中拿出信用卡并查看卡号，在计算机中查找文件等；非结构化：数据没有清晰的语义结构，计算机不容易处理；严格的非结构化数据是不存在的

iteye_17686·2020-09-14 12:20

全文信息检索介绍及算法分析

一、摘要本文主要介绍了全文信息检索的概念、应用领域、算法分类、技术难点和算法比较。及一款实现全文检索的数据结构和算法。二、什么是全文数据库和全文信息检索保存在数据库中的记录数据，从类型上可以分为两种。

idea888·2020-09-14 12:19

现代信息检索(Modern Information Retrieval)

赶紧把书买了，回来好好学习学习，希望不晚，下面是课程相关网页http://ir.ict.ac.cn/ircourse/现代信息检索(ModernInformationRetrieval)中国科学院研究生院秋季课程

zstarstone·2020-09-14 12:15

转：VC6.0中C4541号警告的原因以及解决方案 (dynamic_cast出错)

转：http://hi.baidu.com/nkhzj/blog/item/0c4ade167010a81b972b4307.html今天在VC6.0中使用dynamic_cast<>运算符时遇到一个莫明其妙的警告

miyunhong·2020-09-14 07:09

vs2013突然打不开项目了，项目全部不兼容

2.jpg972x49433.1KB

yangpan011·2020-09-14 05:07

【NLP】2020深度文本匹配最新进展：精度、速度我都要！

文|QvQ编|兔子酱在过去的几年里，信息检索(IR)领域见证了一系列神经排序模型的引入，这些模型多是基于表示或基于交互的，亦或二者的融合。

风度78·2020-09-14 03:28

串口问题排查-时序异常

问题背景采用新塘处理器NUC972使用该芯片所有的串口UART1~UART10测试发现串口数据读取异常采用测试串口终端SSCOM问题还原步骤内核已经配置了所有的串口功能，串口PIN复用正常设备启动可以识别

大侠课堂·2020-09-14 03:19

WEB安全：网站域名被劫持的原因分析和应对方法

搜索引擎是我们日常进行网络信息检索的一个重要的工具，大家只需要输入关键词就可以检索到需要的信息了，这些信息其实都是搜索引擎对于网站的一个快照，而快照本身其实就存在安全问题，因此我们会发现有些网站的快照上面网站标题和描述其实和网站本身

iteye_10868·2020-09-14 02:47

准确率(Accuracy), 精确率(Precision), 召回率(Recall)和F1-Measure

details/796491541、准确率(Accuracy),精确率(Precision),召回率(Recall)和F1-MeasuryuCode15Comments机器学习(ML),自然语言处理(NLP),信息检索

qq_37685880·2020-09-13 22:18

在win2000中改MAC地址的方法

打开注册表编辑器，找到HKEY_LOCAL_MACHINE/SYSTEM/CurrentControlSet/Control/Class/{4D36E972-E325-11CE-BFC1-08002BE10318

ciyinchang6286·2020-09-13 18:16

Python爬虫获取百度贴吧进行手游评测同时生成词云并进行情感分析——信息检索课设

文章目录一、背景以及需求分析二、前期的准备：Python的安装，第三方库的使用，一些常见问题三、编码过程：模块设计，编码，单元测试以及整合测试（一）从百度贴吧爬取相关内容，并存储在指定的txt文本中（二）从指定的txt文本读取内容，生成词云（三）从指定的txt文本读取内容，生成情感趋向折线图四、效果展示以及不足之处一、背景以及需求分析最近网易研发出一款末日生存题材的手游——《明日之后》，我本人对这

温柔的谢世杰·2020-09-13 14:55

基于内容的图像检索技术（1）

M_Zhangjb·2020-09-13 14:35

第八章（1）聚类：基本概念

聚类分析是将数据划分成有用的簇，如果目标是划分有用的组，则簇应当体现数据的自然结构；聚类分析只是解决问题的起点聚类的目的：用于理解的聚类：在对世界的分析和描述中，人类擅长将对象划分为簇，例如生物学：界门纲目科属种信息检索

Lang Grass·2020-09-13 13:59

TF—IDF

TF-IDF是一种用于信息检索与数据挖掘的常用加权技术，可以评估一个词在一个文件集或者一个语料库中对某个文件的重要程度。

道法—自然·2020-09-13 07:55

详解TF-IDF

目录什么是TF-IDF怎么计算举例例1例2代码例子什么是TF-IDFTF-IDF（termfrequency–inversedocumentfrequency）是一种用于信息检索与数据挖掘的常用加权技术

来自宇宙岛的海龟·2020-09-13 06:15

TF-IDF与余弦相似性的应用

这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域，但是出乎意料的是，有一

wang11chao01·2020-09-13 06:11

深入浅出TF-IDF模型

信息检索是当前应用十分广泛的一种技术，论文检索、搜索引擎都属于信息检索的范畴。在搜索引擎等实际应用中广泛使用的是tf-idf模型。

leonwlwei·2020-09-13 05:47

【思考】tf/idf之于文本分类

这个概念最开始用于信息检索。tf表示termfrequency，通常是指词频；idf表示inverseddocumentfrequency，是文档频率的倒数。

iteye_4515·2020-09-13 05:44

互联网相似图像识别检索引擎 —— 基于图像签名的方式

[size=x-large]一、引言[/size]多媒体识别是信息检索中难度较高且需求日益旺盛的一个问题。

grunt1223·2020-09-13 05:38

TF-IDF详解与应用

blog.csdn.net/longyi_java/article/details/8625122TF-IDF（termfrequency–inversedocumentfrequency）是一种用于信息检索与数据挖掘的常用加权

ssswill·2020-09-13 04:48

TF-IDF介绍及应用

TF-IDF基本概念TF-IDF（termfrequency–inversedocumentfrequency）是一种用于信息检索与数据挖掘的常用加权技术。TF指词频，IDF指逆向文件频率。

海涛anywn·2020-09-13 04:17

[转载]TF-IDF模型的概率解释

信息检索概述信息检索是当前应用十分广泛的一种技术，论文检索、搜索引擎都属于信息检索的范畴。

iteye_6082·2020-09-13 04:09

2012年互联网公司招聘要求

百度机器学习/数据挖掘工程师-具有以下任一领域相关的理论背景：机器学习/数据挖掘/信息检索/自然语言处理/语言模型/文本分类与聚类/统计数学/机制设计/博弈论-至少精通一门编程语言，熟悉网络编程、多线程

yuanyuanprince·2020-09-13 04:14

推荐频道

972信息检索

搜索引擎学习之旅1 - SEO的概念

深入搜索引擎原理

搜索引擎的发展

Baidu 优化和排名技术

搜索引擎的发展简史

蓝桥杯2016省赛03-凑算式

《信息检索导论》学习笔记

信息检索课程小结

信息检索7W3H分析方法

信息检索导论 第一章 阅读笔记

海量数据处理专题（八）——倒排索引(搜索引擎之基石)

信息组织与检索【知识点整理】| 信息检索技术与方法 信息检索系统结构和功能模块 信息描述 信息标引 信息存储

信息检索导论第四章-索引构建

总结一下信息检索效果评价方法

信息检索概论总结

文本挖掘浅述

信息检索导论：第一章 布尔检索 学习笔记

《信息检索导论》第六章总结

《信息检索导论》第二十章总结

《信息检索导论》第五章总结

《信息检索导论》第二章总结

《信息检索导论》第七章总结

【信息检索导论】第4章 索引构建

现代信息检索(原书第2版)

信息检索中的经典算法——BM25

《信息检索导论》（第四章）索引构建

《信息检索导论》第四章总结

《信息检索导论》第一章总结

全文信息检索介绍及算法分析

现代信息检索(Modern Information Retrieval)

转：VC6.0中C4541号警告的原因以及解决方案 (dynamic_cast出错)

vs2013突然打不开项目了，项目全部不兼容

【NLP】2020深度文本匹配最新进展：精度、速度我都要！

串口问题排查-时序异常

WEB安全：网站域名被劫持的原因分析和应对方法

准确率(Accuracy), 精确率(Precision), 召回率(Recall)和F1-Measure

在win2000中改MAC地址的方法

Python爬虫获取百度贴吧进行手游评测同时生成词云并进行情感分析——信息检索课设

基于内容的图像检索技术（1）

第八章（1） 聚类：基本概念

TF—IDF

详解TF-IDF

TF-IDF与余弦相似性的应用

深入浅出TF-IDF模型

【思考】tf/idf之于文本分类

互联网相似图像识别检索引擎 —— 基于图像签名的方式

TF-IDF详解与应用

TF-IDF介绍及应用

[转载]TF-IDF模型的概率解释

2012年互联网公司招聘要求

信息检索导论第一章阅读笔记

信息组织与检索【知识点整理】| 信息检索技术与方法信息检索系统结构和功能模块信息描述信息标引信息存储

信息检索导论：第一章布尔检索学习笔记

【信息检索导论】第4章索引构建

第八章（1）聚类：基本概念