E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
972信息检索
信息检索
导论读书笔记(四):索引构建
建立倒排索引的过程称为索引构建,负责构建索引的程序或计算机称为索引器。操作系统往往以数据块为单位进行读写,因此从磁盘读取一个字节和读一个数据块所耗费的时间可能一样多。采用一种高效的解压缩算法然后读磁盘压缩数据再解压所花的时间往往会比直接读取为压缩数据的时间少。基于块的排序索引方法(blockedsort-basedindexing)(BSBI):对于很多大型语料库来说,即使使用压缩算法压缩后的倒排
时间很奇妙!
·
2020-07-04 14:44
信息检索导论读书笔记
第七届蓝桥杯 凑算式 C语言 B组第三题
比如:6+8/3+952/714就是一种解法,5+3/1+
972
/486是另一种解法。这个算式一共有多少种解法?注意:你提交应该是个整数,不要填写任何多余的内容或说明性文字。
劳资早看透你的心肝脾肺了
·
2020-07-04 12:30
让聊天机器人同你聊得更带劲 - 对话策略学习 | 论文访谈间 #21
这是第21期「论文访谈间」论文作者|宋皓宇,张伟男,刘挺(哈尔滨工业大学,社会计算与
信息检索
研究中心)特约记者|曾爱玲(香港中文大学)构建开放域聊天机器人的一个主要任务就是进行多轮对话,得到一个更好的多轮对话策略对于人机对话系统有着很多积极的意义
PaperWeekly
·
2020-07-04 12:32
用 pc 抓取 vlan tag 的数据包 [转]
HKEY_LOCAL_MACHINE——SYSTEM下找到CurrentControlSet4.在CurrentControlSet下找到Control5.在Control下找到Class6.在Class下搜索{4D36E
972
awks4002
·
2020-07-04 11:32
机器学习中评估算法的常用评价指标
评价指标对于自然语言处理(NLP)、机器学习(ML)、
信息检索
(IR)等领域,评估(Evaluation)是一个必要的工作,而这其中所涉及到的评价指标一般包括:准确率(Accuracy)、精确率(Precision
mlee1018
·
2020-07-04 07:11
ML
有赞大数据实践: 敏捷型数据仓库的构建及其应用
敏捷型数据仓库的构建及其应用有赞大数据实践:敏捷型数据平台的构建及其应用前言数据仓库设计总体架构数据仓库实例基础指标层分层的好处数仓工具数据仓库与数据分析即席查询系统多维分析系统搜索分析系统固定报表系统数据仓库在
信息检索
中的应用小结前言互联网公司一般发展迅速
Daisy_b2014
·
2020-07-04 05:55
信息抽取研究综述
与
信息检索
不同,信息抽取直接从自然语言文本中抽取事实信息。
zhanghefu
·
2020-07-04 04:40
BIG6——解决问题时收集、利用资料的思路
目录一、什么是BIG6二、具体步骤2.1确切地了解问题、定义问题(一句话:什么情况、要干什么)2.2确定
信息检索
范围,确定内容范围和优先级,确定检索策略(一句话:找什么、怎么找、去哪找)2.3获取阶段(
正一番薯
·
2020-07-04 03:03
机器学习与人工智能学习资源导引(转)
所以全盘转过来了,未知会作者,抱歉,如有侵权,请告之)我经常在TopLanguage讨论组上推荐一些书籍,也经常问里面的牛人们搜罗一些有关的资料,人工智能、机器学习、自然语言处理、知识发现(特别地,数据挖掘)、
信息检索
这些无疑是
weixin_34248258
·
2020-07-04 03:05
文本相似度几种计算方法及代码python实现
文本相似度的计算广泛的运用在
信息检索
,搜索引擎,文档复制等处:因此在各种不同的情况与任务中,有不同的文本相似度计算。
总裁余
·
2020-07-04 00:00
NLP
自然语言处理
nlp
python
C#获得本机物理网卡的MAC地址而非虚拟网卡MAC地址
publicstringGetMacAddressByNetworkInformation(){stringkey="SYSTEM\\CurrentControlSet\\Control\\Network\\{4D36E
972
梦想达人
·
2020-07-02 16:54
知识图谱可视化应用研究现状文献综述
信息检索
课写的一篇文献综述,这里记录一下,或许以后研究会用到文章目录摘要关键词AbstractKeywords引言知识图谱概念知识图谱可视化的构建流程及关键技术1.数据来源与处理结构化数据处理半结构化数据处理非结构化数据处理
秋叶依剑
·
2020-07-02 15:00
知识图谱
可视化
大数据
知识图谱
P-R曲线
https://blog.csdn.net/u014203453/article/details/77598997
信息检索
中,我们经常会关系“检索出的信息有多少比例是用户感兴趣的”以及“用户感兴趣的信息中有多少被检索出来了
petSym
·
2020-07-02 14:29
毕业设计
image
processing
machine
learning
ACL-NLP顶级会议
涉及对话(Dialogue)篇章(Discourse)评测(Eval)信息抽取(IE)
信息检索
(IR)语言生成(LanguageGen)语言资源(LanguageRes)机器翻译(MT)多模态
nuoline
·
2020-07-02 13:56
自然语言处理
好书和好电影,收藏
那些为升职和提高个人品味而集中在图书馆读书的职场人士也在读书期间发掘到不少非常值得看的书,本日志结合这两类人的推荐结合各方面
信息检索
捞给大家最“干”的东西写成此简文一篇,觉的有必要分享一下。
学徒晓成
·
2020-07-02 12:01
搜索引擎算法研究
WEB上的文档和传统的文档比较,有很多新的特点,它们是分布的,异构的,无结构或者半结构的,这就对传统
信息检索
技术提出了新的挑战。传统的WEB搜索引擎大多数是基于关键字匹配
maliang1225
·
2020-07-02 11:45
文章收藏
斯坦福NLP大佬Chris Manning新课-《
信息检索
和网页搜索2019》分析
信息检索
是计算机系统对用户文本信息查询需求做出响应的过程。在自然语言处理领域,
信息检索
是第一个也是最重要的问题之一。
lqfarmer
·
2020-07-02 10:22
深度学习文章阅读笔记
深度学习优化策略汇总
深度学习视频教程及资料下载
信息检索
专题复习
信息检索
Madeby®Isaac.Ty
信息检索
模型:描述
信息检索
中的文档、查询和他们之间的关系(匹配函数)的数学模型IR新课题自然语言理解多媒体检索垂直检索技术移动搜索对社会媒体
信息检索
问答知识发现行为分析
IIII丶Issac
·
2020-07-02 07:22
程序员网上爬的点滴
语义搜索(semantic searching)简介
2000s以来,“语义搜索”是
信息检索
和知识图谱等领域的一类重要话题。一言蔽之,“语义”即“某种表达的含义”。
asher_lithium
·
2020-07-02 07:23
机器学习/深度学习
获取本机物理网卡,排除虚拟机
BOOLIsLocalAdapter(char*pAdapterName){constcharNET_CARD_KEY[]="System\\CurrentControlSet\\Control\\Network\\{4D36E
972
lanbing598235681
·
2020-07-02 07:58
纯干货!2020年 WSDM Cup 大赛金牌参赛方案分享与解读
WSDM被誉为全球
信息检索
领域最有影响力也最权威的会议之一,会议关注社交网络上的搜索与数据挖掘,尤其关注搜索与数据挖掘模型、算法设计与分析
DDeepblack
·
2020-07-02 06:49
语音语义
Lucene入门教程(一)
1.什么是LuceneLucene是一个高性能的、可扩展的
信息检索
工具。你可以把它融入到应用程序中以增加索引和搜索功能。Lucene是一个纯Java实现的成熟、自由、开源的软件项目。
于贵洋
·
2020-07-02 06:58
Lucene
机器学习排序
第一代技术,将互联网网页看作文本,主要采用传统
信息检索
的方法。第二代技术,利用互联网的超文本结构,有效地计算网页的相关度与重要度,代表的算法有PageRank等。
iteye_4515
·
2020-07-02 04:41
信息检索
导论学习笔记(6)-文档评分,词项权重计算及向量空间模型
参数化索引及域索引迄今为止,我们都将文档看成一系列词项的序列.实际上,大多数文档都具有额外的结构信息.数字文档通常会把与之相关的元数据(metadata)以机读的方式一起编码.所谓元数据,指的是和文档相关的一些特定形式的数据,比如文档的作者,标题以及出版日期等等.问题:考虑查询"寻找由WilliamShakespeare于1961年撰写,其中包含短语alaspoorYorick的文档".和通常一样
iteye_18480
·
2020-07-02 04:42
【程序员的数学基础课】之35 | 文本检索:如何让计算机处理自然语言?
中主要介绍了向量空间模型向量空间模型核心就是:向量可以看做空间中的点,可以通过计算点的距离评判向量的相似度(相关性)向量都是有箭头方向的,所以可以通过计算向量的家教余弦值来评判向量的相似度2)文章35主要介绍
信息检索
领域中向量空间的应用通过布尔模型和向量空间模型都可以用于
信息检索
领域的
世界中xin
·
2020-07-02 03:10
机器学习
通过注册表修改MAC地址的方法
打开注册表编辑器,展开“HKEY_LOCAL_MACHINE\System\CurrentControlSet\Control\Class\{4D36E
972
-E325-11CE-BFC1-08002bE10318
辛勤的摆渡人
·
2020-07-02 03:57
Windows系统配置
【
信息检索
导论】第2章 词项词典及倒排记录表
第2章词项词典及倒排记录表Tokenization是指将原始的字符流转换为一个个词条的过程。语言学预处理在于建立词条的等价类。文档分析及编码转换首先要判断文档的编码方式,该判断可以看作是基于机器学习的分类问题,实际中往往采用启发式方法来实现,也可以利用文档的元信息或直接由用户手工来选择。文档单位的选择:不一定文档就是固定的索引单位,索引粒度大小对正确率和召回率有影响。词项集合的确定词条化词条指的是
和梦无
·
2020-07-02 02:14
信息检索导论
概率检索模型
概率检索模型是当前
信息检索
领域效果最好的模型之一,它基于对已有反馈结果的分析,根据贝叶斯原理为当前查询排序。
guoziqing506
·
2020-07-02 01:48
信息检索
信息检索学习笔记
LSH(Locality Sensitive Hashing)原理与实现
在
信息检索
,数据挖掘以及推荐系统等应用中,我们经常会遇到的一个问题就是面临着海量的高维数据,查找最近邻。如果使用线性查找,那么对于低维数据效率尚可,而对于高维数据,就显得非常耗时了。
guoziqing506
·
2020-07-02 01:46
数据挖掘
信息检索
信息检索学习笔记
Kd-tree原理与实现
不论是
信息检索
,推荐系统,还是数据库查询,最近邻查询(NearstNeighborSearch)可谓无处不在。
guoziqing506
·
2020-07-02 01:46
数据结构
信息检索
信息检索学习笔记
排序学习PointWise、PairWise、ListWise
还是贴上别人的博客吧,讲的很清楚:https://blog.csdn.net/anshuai_aw1/article/details/86018105方便以后自己查阅排序学习——通过机器学习的方法帮助排序最早用于
信息检索
goldfish3
·
2020-07-02 01:01
机器学习
信息检索
——向量空间模型(Vector Space Model)
TF:tf即termfrequency,表示一个termt出现在documentd中的次数,这是文档中一个很重要的概念。出现次数更多意味着重要程度越高,但是需要注意的是,相关度的提高并不是和次数的提高成同比的。因此通常tf需要做如下的处理w1=log10(tf+1)这样做就是要弱化次数对于相关度的影响DF/IDF:df即documentfrequency,表示一个term在整个文档集中出现的频率。
fengzanfeng
·
2020-07-02 00:10
NLP基础知识(一)
分词是
信息检索
、文本分类、情感分析等多项中文自然语言处理任务的基础。词性标注(Part-of-speechTagging,POS)是给句子中每个词一个词性类别的任务。
泛小凡
·
2020-07-01 23:28
自然语言处理
抢票 | AI未来说学术论坛第11期
信息检索
与知识图谱专场
来自人民大学、北京邮电大学、百度的各位专家和青年才俊,共同阐述
信息检索
与知识图谱领域的最新研究成果。
读芯术
·
2020-07-01 23:06
介绍一些java开源项目
如何识别中文词语便成了中文
信息检索
的关键技术之一。ZBNO在此公布我们的《中文自动断词引擎开源项目》,希望对各位有有志开发中文
信息检索
的研究者带来启示。
dongle2001
·
2020-07-01 22:06
java
信息检索
_基于跳表指针的倒排记录表合并算法
小程序描述:输入两个倒排记录表,求两个倒排记录表的交集跳表指针合并算法伪代码如下所示:功能描述:①运行程序,看到提示“请输入词项word1:”,输入某个倒排记录表的词项。②运行程序,看到提示“请输入word1的倒排记录表(输入-1,停止输入倒排记录表):”时,输入①步骤词项的倒排记录表,当输入-1时停止输入此倒排记录表。③运行程序,看到提示“请输入词项word2:”,输入某个倒排记录表的词项。④运
一石一页
·
2020-07-01 22:06
信息检索
信息检索
_倒排记录表合并算法实现(python)
小程序描述:输入两个倒排记录表,求两个倒排记录表的交集。倒排记录表合并算法伪代码如下所示:功能描述:①运行程序,看到提示“请输入词项word1:”,输入某个倒排记录表的词项。②运行程序,看到提示“请输入word1的倒排记录表(输入-1,停止输入倒排记录表):”时,输入①步骤词项的倒排记录表,当输入-1时停止输入此倒排记录表。③运行程序,看到提示“请输入词项word2:”,输入某个倒排记录表的词项。
一石一页
·
2020-07-01 22:06
信息检索
Apache Lucene基础教程
课程大纲ApacheLucene是一个免费/开源
信息检索
软件库,它提供基于Java的索引和搜索技术,以及拼写检查,命中突出显示和高级分析/标记化功能。
dnc8371
·
2020-07-01 22:14
教你修改网卡物理地址(MAC)
Cortana搜索栏输入regedit,按回车键进入注册表编辑器2、定位到HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\Class\{4D36E
972
diran5261
·
2020-07-01 22:44
主题模型
它克服了传统
信息检索
中文档相似度计算方法的缺点,并且能够在海量互联网数据中自动寻找出文字间的语义主题。近些年来各大互联网公司都开始了这方面的探索和尝试。就让我们看一下究竟吧。关键词
crcr
·
2020-07-01 21:07
算法
C#获取本地连接名(内网&拨号)
RegistryKeyRegKey=Registry.LocalMachine;RegKey=RegKey.OpenSubKey(@"SYSTEMControlSet001ControlNetwork{4D36E
972
crazy7
·
2020-07-01 21:04
C#-WinForm
基于Python的
信息检索
课程设计
sdu视点新闻全站爬虫爬取+索引构建+搜索引擎查询练习程序爬虫功能使用Python的scrapy库实现,并用MongoDB数据库进行存储。索引构建和搜索功能用Python的Whoosh和jieba库实现。(由于lucene是java库,所以pyLucene库的安装极其麻烦,因此选用Python原生库Whoosh实现,并使用jieba进行中文分词。)搜索网页界面用django实现,页面模板套用Boo
chenshixi3325
·
2020-07-01 20:01
TextRank 自动文摘
近年来,自动文摘、
信息检索
、信息过滤、机器识别、等研究已成为了人
Little2016
·
2020-07-01 19:14
转载
人工智能
搜索引擎的基本工作原理
了解搜索引擎的基本工作原理1.搜索引擎的概念在浩瀚的网络资源中,搜素引擎(SearchEngine)是一种网上
信息检索
工具,它能帮助用户迅速而全面地找到所需要的信息。
aaaaa2689
·
2020-07-01 16:54
信息检索
之词项词典及倒排记录表
1、主要内容①文档的基本组成单位及文档中确定这些单位所含字符序列的方法;②词条化(把原始的字符流分成一个个的词条)和语言学预处理(建立词条的等价类);③跳表倒排记录表数据结构(支持快速查询);④适合于短语查询和邻近查询的索引结构(在布尔操作的检索系统和web搜索系统中非常普遍)。2、字符序列的生成:①、编码方式:Unicode、UTF-8等;②、从纯文本文档中获取字符序列,如XML文档;③、从二进
nearvoid
·
2020-07-01 15:18
搜索引擎
开源开放 | 《大词林》开源 75 万核心实体和围绕核心实体的细粒度概念、关系列表...
1《大词林》简介《大词林》(http://101.200.120.155/)是由哈尔滨工业大学社会计算与
信息检索
研究中心推出,由我中心秦兵教授和刘铭副教授主持开发,是一个自动构建的大规模开放域中文知识库
开放知识图谱
·
2020-07-01 13:16
论文浅尝 | 面向 cQA 的跨语言问题检索方法
这个任务(跨语言
信息检索
)的常规做法是:1.将给定问题翻译为目标语言;2.应用单语
信息检索
方法完成查询。
开放知识图谱
·
2020-07-01 13:15
关于文本挖掘系统snowball
因此传统的
信息检索
技术已不
Parasol5
·
2020-07-01 12:58
数据挖掘相关
中国高考报考第一人薛立新教授:即便211同样是财经学霸为什么会有所不同
中国高考报考第一人薛立新教授:即便211同样是财经学霸为什么会有所不同近日,软科从高校公开发布的《毕业生就业质量报告》中收集到30个省市的
972
所高校的2016届本科毕业生就业率数据。
薛立新
·
2020-07-01 10:58
自然语言处理入门(1)——文本相似度计算
文本相似度计算在
信息检索
、数据挖掘、机器翻译、文档复制检测等领域有着广泛的应用。文本相似度常用的计算方法有TF-IDF、LSI、LDA等。
飞鸟2010
·
2020-07-01 09:19
自然语言处理
上一页
31
32
33
34
35
36
37
38
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他