《现代信息检索(原书第2版)》
基本信息
原书名:Modern Information Retrieval:The Concepts and Technology behind Search,Second Edition
作者: Ricardo Baeza-Yates Berthier Ribeiro-Neto
译者: 黄萱菁 张奇 邱锡鹏
丛书名: 计算机科学丛书
出版社:机械工业出版社
ISBN:9787111385998
上架时间:2012-10-19
出版日期:2012 年10月
开本:16开
页码:1
版次:1-1
所属分类: 计算机
更多关于 》》》《现代信息检索(原书第2版) 》
内容简介
书籍
计算机书籍
《现代信息检索(原书第2版)》论述信息检索的概念和技术、这些技术在搜索引擎中的应用,及其对相关领域知识的影响等,主要内容包括:用户界面设计;经典的信息检索模型、结果质量评估和用户相关反馈;文档和查询概念及其相关技术;文档集索引和搜索技术;web文档的爬取、检索和排序;结构化文本检索、多媒体检索和企业搜索;图书馆系统和数字图书馆等。
《现代信息检索(原书第2版)》内容广泛、细节丰富、深入浅出,可以作为高等院校信息管理与信息系统、计算机科学与技术、图书馆学、情报学、档案学等专业本科生和研究生的教材或参考书,对从事信息检索及系统分析、设计的实际工作者也有较高的参考价值。
目录
《现代信息检索(原书第2版)》
出版者的话
译者序
第2版前言
第1版前言
第2版致谢
第1版致谢
出版商致谢
第1章引言1
1.1信息检索1
1.1.1信息检索的早期发展1
1.1.2图书馆和数字图书馆中的信息检索2
1.1.3舞台中央的信息检索2
1.2信息检索问题3
1.2.1用户的任务3
1.2.2信息检索与数据检索4
1.3信息检索系统4
1.3.1信息检索系统的软件架构4
1.3.2检索和排序过程5
1.4web6
1.4.1web简史7
1.4.2电子出版时代7
1.4.3web如何改变搜索8
1.4.4web上的实际问题9
1.5本书的组织结构9
1.5.1本书的重点9
1.5.2本书的内容10
1.6本书的教学资源网站12
1.7文献讨论12
第2章用户搜索界面16
2.1介绍16
2.2人们如何搜索16
2.2.1信息查找与探索式搜索16
2.2.2信息搜寻的经典模型与动态模型17
2.2.3导航与搜索18
2.2.4对搜索过程的观察18
2.3现今的搜索界面19
2.3.1启动搜寻19
2.3.2查询描述19
2.3.3查询描述界面20
2.3.4检索结果显示22
2.3.5查询重构24
2.3.6组织搜索结果26
2.4搜索界面的可视化32
2.4.1可视化布尔语法32
2.4.2可视化查询结果中的查询项33
2.4.3可视化词语和文档间的关系36
2.4.4文本挖掘的可视化38
2.5搜索界面的设计和评价40
2.6趋势和研究问题42
2.7文献讨论42
第3章信息检索建模44
3.1信息检索模型44
3.1.1建模和排序44
3.1.2信息检索模型描述44
3.1.3信息检索模型的分类体系45
3.2经典信息检索47
3.2.1基本概念47
3.2.2布尔模型49
3.2.3项权重50
3.2.4tf-idf权重52
3.2.5文档长度归一化56
3.2.6向量模型57
3.2.7概率模型59
3.2.8经典模型之间的简单比较64
3.3其他集合论模型64
3.3.1基于集合的模型64
3.3.2扩展布尔模型68
3.3.3模糊集模型70
3.4其他代数模型72
3.4.1广义向量空间模型72
3.4.2潜在语义索引模型74
3.4.3神经网络模型75
3.5其他概率模型76
3.5.1bm25模型77
3.5.2语言模型78
3.5.3随机差异模型83
3.5.4贝叶斯网模型85
3.6其他模型90
3.6.1超文本模型90
3.6.2基于web的模型91
3.6.3结构化文本检索91
3.6.4多媒体检索92
3.6.5企业和垂直搜索92
3.7趋势和研究问题92
3.8文献讨论93
第4章检索评价96
4.1介绍96
4.2cranfield范式97
4.2.1历史简述97
4.2.2参考集98
4.3检索指标98
4.3.1精度和召回率98
4.3.2单值总结:p@n,map,mrr,f102
4.3.3面向用户的指标105
4.3.4折扣累积增益106
4.3.5二元偏好109
4.3.6排序相关性测度111
4.4参考文档集115
4.4.1trec参考集115
4.4.2其他参考集121
4.4.3其他小规模测试文档集121
4.5基于用户的评价122
4.5.1实验室中的人工实验122
4.5.2并排面板122
4.5.3a/b测试123
4.5.4众包124
4.5.5使用点击数据的评价125
4.6实践说明126
4.7趋势和研究问题127
4.8文献讨论127
第5章相关反馈与查询扩展129
5.1介绍129
5.2反馈方法的框架129
5.3显式相关反馈131
5.3.1向量模型的相关反馈:rocchio方法131
5.3.2概率模型的相关反馈133
5.3.3相关反馈的评价134
5.4基于点击的显式反馈134
5.4.1眼动追踪和相关性评价134
5.4.2用户行为135
5.4.3点击作为用户偏好的指标136
5.5通过局部分析的隐式反馈138
5.5.1通过局部聚类的隐式反馈138
5.5.2通过局部上下文分析的隐式反馈140
5.6通过全局分析的隐式反馈141
5.6.1基于相似度同义词典的查询扩展141
5.6.2基于统计同义词典的查询扩展143
5.7趋势和研究问题145
5.8文献讨论145
第6章文档:语言及属性147
6.1介绍147
6.2元数据148
6.3文档格式149
6.3.1文本149
6.3.2多媒体149
6.3.3图形和虚拟现实150
6.4标记语言151
6.4.1sgml151
6.4.2html153
6.4.3xml155
6.4.4rdf157
6.4.5hytime158
6.5文本属性159
6.5.1信息论159
6.5.2自然语言建模159
6.5.3文本相似度162
6.6文档预处理163
6.6.1文本的词汇分析163
6.6.2去除禁用词164
6.6.3词干提取165
6.6.4关键词选择166
6.6.5同义词典166
6.7组织文档168
6.7.1分类体系法168
6.7.2分众分类法169
6.8文本压缩170
6.8.1基本概念170
6.8.2统计方法171
6.8.3统计方法:建模171
6.8.4统计方法:编码173
6.8.5字典方法179
6.8.6压缩预处理180
6.8.7文本压缩技术的比较181
6.8.8结构化文本压缩182
6.9趋势和研究问题183
6.10文献讨论185
第7章查询:语言及属性187
7.1查询语言187
7.1.1基于关键词的查询188
7.1.2非关键词查询190
7.1.3结构化查询192
7.1.4查询协议194
7.2查询属性195
7.2.1web查询的特征195
7.2.2用户搜索行为197
7.2.3查询意图197
7.2.4查询主题199
7.2.5查询会话与任务200
7.2.6查询难度200
7.3趋势和研究问题203
7.4文献讨论204
第8章文本分类205
8.1介绍205
8.2文本分类的特性描述206
8.2.1机器学习206
8.2.2文本分类问题206
8.2.3文本分类算法207
8.3无监督算法208
8.3.1聚类208
8.3.2朴素文本分类212
8.4监督算法212
8.4.1决策树214
8.4.2k近邻分类器218
8.4.3rocchio分类器219
8.4.4概率朴素贝叶斯文档分类221
8.4.5支持向量机分类器224
8.4.6集成分类器231
8.4.7关于监督算法的结束语234
8.5特征选择或降维234
8.5.1项-类别出现列联表235
8.5.2索引项文档频率236
8.5.3tf-idf权重236
8.5.4互信息236
8.5.5信息增益237
8.5.6卡方检验237
8.5.7特征选择的作用238
8.6评价指标238
8.6.1列联表238
8.6.2准确率和错误率239
8.6.3精度和召回率239
8.6.4f测度和f1240
8.6.5交叉检验241
8.6.6标准文档集241
8.7类别组织——构建分类体系242
8.8趋势和研究问题244
8.9文献讨论244
第9章索引和搜索247
9.1介绍247
9.2倒排索引249
9.2.1基本概念249
9.2.2完全倒排索引250
9.2.3搜索252
9.2.4排序256
9.2.5构建257
9.2.6压缩的倒排索引260
9.2.7结构化查询261
9.3签名文件262
9.4后缀树和后缀数组264
9.4.1结构:trie树和后缀树265
9.4.2简单字符串搜索266
9.4.3复杂模式的搜索267
9.4.4构建268
9.4.5压缩的后缀数组270
9.5序列搜索273
9.5.1简单字符串:horspool274
9.5.2复杂模式:自动机和位并行276
9.5.3更快的位并行算法279
9.5.4正则表达式281
9.5.5多重模式282
9.5.6近似搜索283
9.5.7搜索压缩文本285
9.6多维索引287
9.7趋势和研究问题288
9.8文献讨论289
第10章并行与分布式信息检索293
10.1介绍293
10.2分布式信息检索系统的分类294
10.3数据划分296
10.3.1文档集划分297
10.3.2文档集选择298
10.3.3倒排索引划分299
10.3.4划分其他索引302
10.4并行信息检索303
10.4.1介绍303
10.4.2在mimd架构上的并行信息检索305
10.4.3在simd架构上的并行信息检索306
10.5基于集群的信息检索310
10.6分布式信息检索310
10.6.1介绍310
10.6.2索引313
10.6.3查询处理315
10.6.4web问题320
10.7联合搜索320
10.8在对等网络中的检索322
10.9趋势和研究问题325
10.10文献讨论326
第11章web检索327
11.1介绍327
11.2一个有挑战性的问题328
11.3web329
11.3.1特性329
11.3.2web图的结构331
11.3.3对web建模332
11.3.4链接分析334
11.4搜索引擎架构335
11.4.1基本架构335
11.4.2基于集群的架构336
11.4.3缓存337
11.4.4多级索引339
11.4.5分布式架构340
11.5搜索引擎排序342
11.5.1排序信号342
11.5.2基于链接的排序343
11.5.3简单的排序函数345
11.5.4排序学习345
11.5.5学习排序函数346
11.5.6质量评价347
11.5.7web垃圾348
11.6管理web数据348
11.6.1为文档分配标识符348
11.6.2元数据349
11.6.3压缩web图349
11.6.4处理重复数据349
11.7搜索引擎用户交互350
11.7.1搜索矩形范式351
11.7.2搜索引擎结果页面356
11.7.3培养用户363
11.8浏览364
11.8.1扁平浏览364
11.8.2结构导向的浏览和web目录364
11.9浏览之外366
11.9.1超文本和web366
11.9.2搜索与浏览相结合366
11.9.3web查询语言367
11.9.4动态搜索367
11.10相关问题368
11.10.1计算广告学368
11.10.2web挖掘370
11.10.3元搜索371
11.11趋势和研究问题372
11.11.1静态文本数据之外372
11.11.2目前的挑战373
11.12文献讨论374
第12章web爬取376
12.1介绍376
12.2网络爬虫的应用377
12.2.1通用web搜索377
12.2.2聚焦爬取378
12.2.3web刻画378
12.2.4镜像378
12.2.5网站分析379
12.3爬虫的分类体系379
12.4架构和实现380
12.4.1爬虫架构380
12.4.2实际问题382
12.4.3并行爬取384
12.5调度算法384
12.5.1选择策略385
12.5.2重访问策略387
12.5.3友好策略391
12.5.4组合策略393
12.6评价393
12.6.1评价网络使用393
12.6.2评价长期调度394
12.7趋势和研究问题395
12.7.1爬取“暗网”395
12.7.2在网站帮助下的爬取396
12.7.3分布式爬取396
12.8文献讨论396
第13章结构化文本检索398
13.1介绍398
13.2结构化能力399
13.2.1显式和隐式结构对比399
13.2.2静态与动态结构对比399
13.2.3单一层次结构与多层次结构对比400
13.3早期文本检索模型400
13.3.1基于非覆盖列表的模型401
13.3.2基于相邻结点的模型401
13.3.3结构化文本结果排序402
13.4xml检索403
13.4.1xml检索中的挑战403
13.4.2索引策略404
13.4.3排序策略405
13.4.4去除重叠412
13.5xml检索评价413
13.5.1文档集414
13.5.2主题414
13.5.3检索任务415
13.5.4相关性416
13.5.5测度417
13.6查询语言419
13.6.1特性419
13.6.2xml查询语言分类420
13.6.3xml查询语言样例421
13.7趋势和研究问题425
13.8文献讨论427
第14章多媒体信息检索429
14.1介绍429
14.1.1什么是多媒体429
14.1.2多媒体检索429
14.1.3文本检索与多媒体检索的对比430
14.2挑战431
14.2.1语义鸿沟431
14.2.2特征歧义性432
14.2.3机器生成的数据432
14.3基于内容的图像检索433
14.3.1基于颜色的检索433
14.3.2纹理434
14.3.3显著点436
14.4声音和音乐检索437
14.4.1指纹识别437
14.4.2语音识别438
14.4.3说话人识别440
14.4.4语音文档检索440
14.4.5音频基础知识440
14.5检索和浏览视频443
14.5.1视频摘要443
14.5.2静态摘要444
14.5.3图像拼接与跳跃剧照445
14.5.4动态摘要446
14.5.5交互式摘要447
14.5.6视觉与听觉浏览对比448
14.5.7摘要评价448
14.6融合模型:合并所有信息449
14.6.1人脸命名449
14.6.2图像命名450
14.6.3音频命名451
14.6.4结合音频与视频的音-视频语音识别451
14.6.5结合音频和视频的多媒体处理453
14.7分割453
14.7.1视频分割样例454
14.7.2视频分割方案455
14.7.3利用边缘的视频分割455
14.7.4语音分割456
14.7.5分割评价457
14.8压缩和mpeg标准457
14.8.1强度和采样458
14.8.2颜色458
14.8.3有损压缩459
14.8.4无损压缩461
14.8.5时间冗余461
14.8.6运动预测461
14.8.7mpeg标准462
14.9趋势和研究问题465
14.10文献讨论466
第15章企业搜索469
15.1介绍469
15.1.1企业搜索的特点和应用469
15.1.2企业搜索软件470
15.1.3工作场所搜索471
15.2企业搜索任务471
15.2.1搜索支持任务的例子471
15.2.2搜索类型473
15.2.3研究企业搜索473
15.3企业搜索系统的结构474
15.3.1收集474
15.3.2提取476
15.3.3索引477
15.3.4文本注释的索引477
15.3.5查询处理478
15.3.6搜索结果的展示479
15.3.7安全模型480
15.3.8联合/元搜索482
15.4企业搜索评价484
15.4.1企业搜索的公开测试集484
15.4.2企业搜索内部评价485
15.4.3企业搜索调试486
15.4.4所能期待的是什么487
15.5不满意的可能原因488
15.6情境化和个性化490
15.6.1情境化的控制和工具491
15.6.2情境化:本地、企业或全球493
15.6.3轮廓的隐私494
15.6.4定义、建立和维护轮廓494
15.6.5用户建模495
15.6.6隐式评价496
15.6.7信息过滤496
15.6.8社会化推荐系统497
15.7趋势和研究问题497
15.8文献讨论497
第16章图书馆系统499
16.1图书馆的信息环境499
16.2联机公共检索目录500
16.2.1opac和书目记录501
16.2.2来自ils的信息检索503
16.2.3混合图书馆的整合504
16.2.4opac和最终用户505
16.2.5ils:供应商和产品506
16.3信息检索系统与文档数据库507
16.3.1书目和全文数据库508
16.3.2数据库记录的内容508
16.3.3联机产业:数据库供应商510
16.3.4来自文档数据库的信息检索511
16.4组织机构内部的信息检索514
16.5趋势和研究问题515
16.6文献讨论516
第17章数字图书馆517
17.1介绍517
17.2定义数字图书馆517
17.3通用架构518
17.4基本概念519
17.4.1数字对象和馆藏519
17.4.2元数据和目录520
17.4.3资源库/档案库522
17.4.4服务525
17.5社会经济问题527
17.5.1社会问题527
17.5.2经济问题527
17.6软件系统528
17.6.1greenstone529
17.6.2eprints529
17.6.3dspace529
17.6.4fedora529
17.6.5odl530
17.6.65s套件530
17.7数字图书馆案例研究531
17.7.1联网学位论文数字图书馆531
17.7.2国家科学数字图书馆532
17.7.3etana-dl考古数字图书馆532
17.8趋势和研究问题532
17.8.1评价532
17.8.2集成533
17.8.3其他研究挑战533
17.9文献讨论534
附录a开源搜索引擎535
附录b作者简介549
参考文献554
索引654