972信息检索第35页

信息检索导论读书笔记（四）：索引构建

建立倒排索引的过程称为索引构建，负责构建索引的程序或计算机称为索引器。操作系统往往以数据块为单位进行读写，因此从磁盘读取一个字节和读一个数据块所耗费的时间可能一样多。采用一种高效的解压缩算法然后读磁盘压缩数据再解压所花的时间往往会比直接读取为压缩数据的时间少。基于块的排序索引方法（blockedsort-basedindexing）（BSBI）：对于很多大型语料库来说，即使使用压缩算法压缩后的倒排

时间很奇妙！·2020-07-04 14:44

第七届蓝桥杯凑算式 C语言 B组第三题

比如：6+8/3+952/714就是一种解法，5+3/1+972/486是另一种解法。这个算式一共有多少种解法？注意：你提交应该是个整数，不要填写任何多余的内容或说明性文字。

劳资早看透你的心肝脾肺了·2020-07-04 12:30

让聊天机器人同你聊得更带劲 - 对话策略学习 | 论文访谈间 #21

这是第21期「论文访谈间」论文作者|宋皓宇，张伟男，刘挺（哈尔滨工业大学，社会计算与信息检索研究中心）特约记者|曾爱玲（香港中文大学）构建开放域聊天机器人的一个主要任务就是进行多轮对话，得到一个更好的多轮对话策略对于人机对话系统有着很多积极的意义

PaperWeekly·2020-07-04 12:32

用 pc 抓取 vlan tag 的数据包 [转]

HKEY_LOCAL_MACHINE——SYSTEM下找到CurrentControlSet4.在CurrentControlSet下找到Control5.在Control下找到Class6.在Class下搜索{4D36E972

awks4002·2020-07-04 11:32

机器学习中评估算法的常用评价指标

评价指标对于自然语言处理(NLP)、机器学习(ML)、信息检索(IR)等领域，评估(Evaluation)是一个必要的工作，而这其中所涉及到的评价指标一般包括：准确率(Accuracy)、精确率(Precision

mlee1018·2020-07-04 07:11

有赞大数据实践: 敏捷型数据仓库的构建及其应用

敏捷型数据仓库的构建及其应用有赞大数据实践:敏捷型数据平台的构建及其应用前言数据仓库设计总体架构数据仓库实例基础指标层分层的好处数仓工具数据仓库与数据分析即席查询系统多维分析系统搜索分析系统固定报表系统数据仓库在信息检索中的应用小结前言互联网公司一般发展迅速

Daisy_b2014·2020-07-04 05:55

信息抽取研究综述

与信息检索不同，信息抽取直接从自然语言文本中抽取事实信息。

zhanghefu·2020-07-04 04:40

BIG6——解决问题时收集、利用资料的思路

目录一、什么是BIG6二、具体步骤2.1确切地了解问题、定义问题（一句话：什么情况、要干什么）2.2确定信息检索范围，确定内容范围和优先级，确定检索策略（一句话：找什么、怎么找、去哪找）2.3获取阶段（

正一番薯·2020-07-04 03:03

机器学习与人工智能学习资源导引（转）

所以全盘转过来了，未知会作者，抱歉，如有侵权，请告之）我经常在TopLanguage讨论组上推荐一些书籍，也经常问里面的牛人们搜罗一些有关的资料，人工智能、机器学习、自然语言处理、知识发现（特别地，数据挖掘）、信息检索这些无疑是

weixin_34248258·2020-07-04 03:05

文本相似度几种计算方法及代码python实现

文本相似度的计算广泛的运用在信息检索，搜索引擎,文档复制等处：因此在各种不同的情况与任务中，有不同的文本相似度计算。

总裁余·2020-07-04 00:00

C#获得本机物理网卡的MAC地址而非虚拟网卡MAC地址

publicstringGetMacAddressByNetworkInformation(){stringkey="SYSTEM\\CurrentControlSet\\Control\\Network\\{4D36E972

梦想达人·2020-07-02 16:54

知识图谱可视化应用研究现状文献综述

信息检索课写的一篇文献综述，这里记录一下，或许以后研究会用到文章目录摘要关键词AbstractKeywords引言知识图谱概念知识图谱可视化的构建流程及关键技术1.数据来源与处理结构化数据处理半结构化数据处理非结构化数据处理

秋叶依剑·2020-07-02 15:00

P-R曲线

https://blog.csdn.net/u014203453/article/details/77598997信息检索中，我们经常会关系“检索出的信息有多少比例是用户感兴趣的”以及“用户感兴趣的信息中有多少被检索出来了

petSym·2020-07-02 14:29

ACL-NLP顶级会议

涉及对话(Dialogue)篇章(Discourse)评测(Eval)信息抽取(IE)信息检索(IR)语言生成(LanguageGen)语言资源(LanguageRes)机器翻译(MT)多模态

nuoline·2020-07-02 13:56

学徒晓成·2020-07-02 12:01

搜索引擎算法研究

WEB上的文档和传统的文档比较，有很多新的特点，它们是分布的，异构的，无结构或者半结构的，这就对传统信息检索技术提出了新的挑战。传统的WEB搜索引擎大多数是基于关键字匹配

maliang1225·2020-07-02 11:45

斯坦福NLP大佬Chris Manning新课-《信息检索和网页搜索2019》分析

信息检索是计算机系统对用户文本信息查询需求做出响应的过程。在自然语言处理领域，信息检索是第一个也是最重要的问题之一。

lqfarmer·2020-07-02 10:22

信息检索专题复习

信息检索Madeby®Isaac.Ty信息检索模型：描述信息检索中的文档、查询和他们之间的关系（匹配函数）的数学模型IR新课题自然语言理解多媒体检索垂直检索技术移动搜索对社会媒体信息检索问答知识发现行为分析

IIII丶Issac·2020-07-02 07:22

语义搜索（semantic searching）简介

2000s以来，“语义搜索”是信息检索和知识图谱等领域的一类重要话题。一言蔽之，“语义”即“某种表达的含义”。

asher_lithium·2020-07-02 07:23

获取本机物理网卡，排除虚拟机

BOOLIsLocalAdapter(char*pAdapterName){constcharNET_CARD_KEY[]="System\\CurrentControlSet\\Control\\Network\\{4D36E972

lanbing598235681·2020-07-02 07:58

纯干货！2020年 WSDM Cup 大赛金牌参赛方案分享与解读

WSDM被誉为全球信息检索领域最有影响力也最权威的会议之一，会议关注社交网络上的搜索与数据挖掘，尤其关注搜索与数据挖掘模型、算法设计与分析

DDeepblack·2020-07-02 06:49

Lucene入门教程（一）

1.什么是LuceneLucene是一个高性能的、可扩展的信息检索工具。你可以把它融入到应用程序中以增加索引和搜索功能。Lucene是一个纯Java实现的成熟、自由、开源的软件项目。

于贵洋·2020-07-02 06:58

机器学习排序

第一代技术，将互联网网页看作文本，主要采用传统信息检索的方法。第二代技术，利用互联网的超文本结构，有效地计算网页的相关度与重要度，代表的算法有PageRank等。

iteye_4515·2020-07-02 04:41

信息检索导论学习笔记(6)-文档评分,词项权重计算及向量空间模型

参数化索引及域索引迄今为止,我们都将文档看成一系列词项的序列.实际上,大多数文档都具有额外的结构信息.数字文档通常会把与之相关的元数据(metadata)以机读的方式一起编码.所谓元数据,指的是和文档相关的一些特定形式的数据,比如文档的作者,标题以及出版日期等等.问题:考虑查询"寻找由WilliamShakespeare于1961年撰写,其中包含短语alaspoorYorick的文档".和通常一样

iteye_18480·2020-07-02 04:42

【程序员的数学基础课】之35 | 文本检索：如何让计算机处理自然语言？

中主要介绍了向量空间模型向量空间模型核心就是：向量可以看做空间中的点，可以通过计算点的距离评判向量的相似度（相关性）向量都是有箭头方向的，所以可以通过计算向量的家教余弦值来评判向量的相似度2）文章35主要介绍信息检索领域中向量空间的应用通过布尔模型和向量空间模型都可以用于信息检索领域的

世界中xin·2020-07-02 03:10

通过注册表修改MAC地址的方法

打开注册表编辑器，展开“HKEY_LOCAL_MACHINE\System\CurrentControlSet\Control\Class\{4D36E972-E325-11CE-BFC1-08002bE10318

辛勤的摆渡人·2020-07-02 03:57

【信息检索导论】第2章词项词典及倒排记录表

第2章词项词典及倒排记录表Tokenization是指将原始的字符流转换为一个个词条的过程。语言学预处理在于建立词条的等价类。文档分析及编码转换首先要判断文档的编码方式，该判断可以看作是基于机器学习的分类问题，实际中往往采用启发式方法来实现，也可以利用文档的元信息或直接由用户手工来选择。文档单位的选择：不一定文档就是固定的索引单位，索引粒度大小对正确率和召回率有影响。词项集合的确定词条化词条指的是

和梦无·2020-07-02 02:14

概率检索模型

概率检索模型是当前信息检索领域效果最好的模型之一，它基于对已有反馈结果的分析，根据贝叶斯原理为当前查询排序。

guoziqing506·2020-07-02 01:48

LSH(Locality Sensitive Hashing)原理与实现

guoziqing506·2020-07-02 01:46

Kd-tree原理与实现

guoziqing506·2020-07-02 01:46

排序学习PointWise、PairWise、ListWise

还是贴上别人的博客吧，讲的很清楚：https://blog.csdn.net/anshuai_aw1/article/details/86018105方便以后自己查阅排序学习——通过机器学习的方法帮助排序最早用于信息检索

goldfish3·2020-07-02 01:01

信息检索——向量空间模型（Vector Space Model）

TF：tf即termfrequency,表示一个termt出现在documentd中的次数，这是文档中一个很重要的概念。出现次数更多意味着重要程度越高，但是需要注意的是，相关度的提高并不是和次数的提高成同比的。因此通常tf需要做如下的处理w1=log10(tf+1)这样做就是要弱化次数对于相关度的影响DF/IDF:df即documentfrequency，表示一个term在整个文档集中出现的频率。

fengzanfeng·2020-07-02 00:10

NLP基础知识(一)

分词是信息检索、文本分类、情感分析等多项中文自然语言处理任务的基础。词性标注(Part-of-speechTagging,POS)是给句子中每个词一个词性类别的任务。

泛小凡·2020-07-01 23:28

抢票 | AI未来说学术论坛第11期信息检索与知识图谱专场

来自人民大学、北京邮电大学、百度的各位专家和青年才俊，共同阐述信息检索与知识图谱领域的最新研究成果。

读芯术·2020-07-01 23:06

介绍一些java开源项目

如何识别中文词语便成了中文信息检索的关键技术之一。ZBNO在此公布我们的《中文自动断词引擎开源项目》，希望对各位有有志开发中文信息检索的研究者带来启示。

dongle2001·2020-07-01 22:06

信息检索_基于跳表指针的倒排记录表合并算法

小程序描述：输入两个倒排记录表，求两个倒排记录表的交集跳表指针合并算法伪代码如下所示：功能描述：①运行程序，看到提示“请输入词项word1：”，输入某个倒排记录表的词项。②运行程序，看到提示“请输入word1的倒排记录表(输入-1，停止输入倒排记录表):”时，输入①步骤词项的倒排记录表，当输入-1时停止输入此倒排记录表。③运行程序，看到提示“请输入词项word2：”，输入某个倒排记录表的词项。④运

一石一页·2020-07-01 22:06

信息检索_倒排记录表合并算法实现（python）

小程序描述：输入两个倒排记录表，求两个倒排记录表的交集。倒排记录表合并算法伪代码如下所示：功能描述：①运行程序，看到提示“请输入词项word1：”，输入某个倒排记录表的词项。②运行程序，看到提示“请输入word1的倒排记录表(输入-1，停止输入倒排记录表):”时，输入①步骤词项的倒排记录表，当输入-1时停止输入此倒排记录表。③运行程序，看到提示“请输入词项word2：”，输入某个倒排记录表的词项。

一石一页·2020-07-01 22:06

Apache Lucene基础教程

课程大纲ApacheLucene是一个免费/开源信息检索软件库，它提供基于Java的索引和搜索技术，以及拼写检查，命中突出显示和高级分析/标记化功能。

dnc8371·2020-07-01 22:14

教你修改网卡物理地址（MAC）

Cortana搜索栏输入regedit，按回车键进入注册表编辑器2、定位到HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\Class\{4D36E972

diran5261·2020-07-01 22:44

主题模型

它克服了传统信息检索中文档相似度计算方法的缺点，并且能够在海量互联网数据中自动寻找出文字间的语义主题。近些年来各大互联网公司都开始了这方面的探索和尝试。就让我们看一下究竟吧。关键词

crcr·2020-07-01 21:07

C#获取本地连接名(内网&拨号)

RegistryKeyRegKey=Registry.LocalMachine;RegKey=RegKey.OpenSubKey(@"SYSTEMControlSet001ControlNetwork{4D36E972

crazy7·2020-07-01 21:04

基于Python的信息检索课程设计

sdu视点新闻全站爬虫爬取+索引构建+搜索引擎查询练习程序爬虫功能使用Python的scrapy库实现，并用MongoDB数据库进行存储。索引构建和搜索功能用Python的Whoosh和jieba库实现。（由于lucene是java库，所以pyLucene库的安装极其麻烦，因此选用Python原生库Whoosh实现，并使用jieba进行中文分词。）搜索网页界面用django实现，页面模板套用Boo

chenshixi3325·2020-07-01 20:01

TextRank 自动文摘

近年来，自动文摘、信息检索、信息过滤、机器识别、等研究已成为了人

Little2016·2020-07-01 19:14

搜索引擎的基本工作原理

了解搜索引擎的基本工作原理1.搜索引擎的概念在浩瀚的网络资源中，搜素引擎(SearchEngine)是一种网上信息检索工具，它能帮助用户迅速而全面地找到所需要的信息。

aaaaa2689·2020-07-01 16:54

信息检索之词项词典及倒排记录表

1、主要内容①文档的基本组成单位及文档中确定这些单位所含字符序列的方法；②词条化（把原始的字符流分成一个个的词条）和语言学预处理（建立词条的等价类）；③跳表倒排记录表数据结构（支持快速查询）；④适合于短语查询和邻近查询的索引结构（在布尔操作的检索系统和web搜索系统中非常普遍）。2、字符序列的生成：①、编码方式：Unicode、UTF-8等；②、从纯文本文档中获取字符序列，如XML文档；③、从二进

nearvoid·2020-07-01 15:18

开源开放 | 《大词林》开源 75 万核心实体和围绕核心实体的细粒度概念、关系列表...

1《大词林》简介《大词林》(http://101.200.120.155/)是由哈尔滨工业大学社会计算与信息检索研究中心推出，由我中心秦兵教授和刘铭副教授主持开发，是一个自动构建的大规模开放域中文知识库

开放知识图谱·2020-07-01 13:16

论文浅尝 | 面向 cQA 的跨语言问题检索方法

这个任务（跨语言信息检索）的常规做法是：1.将给定问题翻译为目标语言；2.应用单语信息检索方法完成查询。

开放知识图谱·2020-07-01 13:15

关于文本挖掘系统snowball

因此传统的信息检索技术已不

Parasol5·2020-07-01 12:58

中国高考报考第一人薛立新教授：即便211同样是财经学霸为什么会有所不同

中国高考报考第一人薛立新教授：即便211同样是财经学霸为什么会有所不同近日，软科从高校公开发布的《毕业生就业质量报告》中收集到30个省市的972所高校的2016届本科毕业生就业率数据。

薛立新·2020-07-01 10:58

自然语言处理入门（1）——文本相似度计算

文本相似度计算在信息检索、数据挖掘、机器翻译、文档复制检测等领域有着广泛的应用。文本相似度常用的计算方法有TF-IDF、LSI、LDA等。

飞鸟2010·2020-07-01 09:19

推荐频道

972信息检索