weixin_33860553

现代信息检索(原书第2版)

《现代信息检索(原书第2版)》
基本信息
原书名：Modern Information Retrieval：The Concepts and Technology behind Search，Second Edition
作者： Ricardo Baeza-Yates Berthier Ribeiro-Neto
译者：黄萱菁张奇邱锡鹏
丛书名：计算机科学丛书
出版社：机械工业出版社
ISBN：9787111385998
上架时间：2012-10-19
出版日期：2012 年10月
开本：16开
页码：1
版次：1-1
所属分类：计算机

更多关于》》》《现代信息检索(原书第2版) 》

内容简介
书籍
计算机书籍
　　《现代信息检索(原书第2版)》论述信息检索的概念和技术、这些技术在搜索引擎中的应用，及其对相关领域知识的影响等，主要内容包括：用户界面设计；经典的信息检索模型、结果质量评估和用户相关反馈；文档和查询概念及其相关技术；文档集索引和搜索技术；web文档的爬取、检索和排序；结构化文本检索、多媒体检索和企业搜索；图书馆系统和数字图书馆等。
　　《现代信息检索(原书第2版)》内容广泛、细节丰富、深入浅出，可以作为高等院校信息管理与信息系统、计算机科学与技术、图书馆学、情报学、档案学等专业本科生和研究生的教材或参考书，对从事信息检索及系统分析、设计的实际工作者也有较高的参考价值。
目录
《现代信息检索(原书第2版)》
出版者的话
译者序
第2版前言
第1版前言
第2版致谢
第1版致谢
出版商致谢
第1章引言1
1.1信息检索1
1.1.1信息检索的早期发展1
1.1.2图书馆和数字图书馆中的信息检索2
1.1.3舞台中央的信息检索2
1.2信息检索问题3
1.2.1用户的任务3
1.2.2信息检索与数据检索4
1.3信息检索系统4
1.3.1信息检索系统的软件架构4
1.3.2检索和排序过程5
1.4web6
1.4.1web简史7
1.4.2电子出版时代7
1.4.3web如何改变搜索8
1.4.4web上的实际问题9
1.5本书的组织结构9
1.5.1本书的重点9
1.5.2本书的内容10
1.6本书的教学资源网站12
1.7文献讨论12
第2章用户搜索界面16
2.1介绍16
2.2人们如何搜索16
2.2.1信息查找与探索式搜索16
2.2.2信息搜寻的经典模型与动态模型17
2.2.3导航与搜索18
2.2.4对搜索过程的观察18
2.3现今的搜索界面19
2.3.1启动搜寻19
2.3.2查询描述19
2.3.3查询描述界面20
2.3.4检索结果显示22
2.3.5查询重构24
2.3.6组织搜索结果26
2.4搜索界面的可视化32
2.4.1可视化布尔语法32
2.4.2可视化查询结果中的查询项33
2.4.3可视化词语和文档间的关系36
2.4.4文本挖掘的可视化38
2.5搜索界面的设计和评价40
2.6趋势和研究问题42
2.7文献讨论42
第3章信息检索建模44
3.1信息检索模型44
3.1.1建模和排序44
3.1.2信息检索模型描述44
3.1.3信息检索模型的分类体系45
3.2经典信息检索47
3.2.1基本概念47
3.2.2布尔模型49
3.2.3项权重50
3.2.4tf-idf权重52
3.2.5文档长度归一化56
3.2.6向量模型57
3.2.7概率模型59
3.2.8经典模型之间的简单比较64
3.3其他集合论模型64
3.3.1基于集合的模型64
3.3.2扩展布尔模型68
3.3.3模糊集模型70
3.4其他代数模型72
3.4.1广义向量空间模型72
3.4.2潜在语义索引模型74
3.4.3神经网络模型75
3.5其他概率模型76
3.5.1bm25模型77
3.5.2语言模型78
3.5.3随机差异模型83
3.5.4贝叶斯网模型85
3.6其他模型90
3.6.1超文本模型90
3.6.2基于web的模型91
3.6.3结构化文本检索91
3.6.4多媒体检索92
3.6.5企业和垂直搜索92
3.7趋势和研究问题92
3.8文献讨论93
第4章检索评价96
4.1介绍96
4.2cranfield范式97
4.2.1历史简述97
4.2.2参考集98
4.3检索指标98
4.3.1精度和召回率98
4.3.2单值总结：p@n，map，mrr，f102
4.3.3面向用户的指标105
4.3.4折扣累积增益106
4.3.5二元偏好109
4.3.6排序相关性测度111
4.4参考文档集115
4.4.1trec参考集115
4.4.2其他参考集121
4.4.3其他小规模测试文档集121
4.5基于用户的评价122
4.5.1实验室中的人工实验122
4.5.2并排面板122
4.5.3a/b测试123
4.5.4众包124
4.5.5使用点击数据的评价125
4.6实践说明126
4.7趋势和研究问题127
4.8文献讨论127
第5章相关反馈与查询扩展129
5.1介绍129
5.2反馈方法的框架129
5.3显式相关反馈131
5.3.1向量模型的相关反馈：rocchio方法131
5.3.2概率模型的相关反馈133
5.3.3相关反馈的评价134
5.4基于点击的显式反馈134
5.4.1眼动追踪和相关性评价134
5.4.2用户行为135
5.4.3点击作为用户偏好的指标136
5.5通过局部分析的隐式反馈138
5.5.1通过局部聚类的隐式反馈138
5.5.2通过局部上下文分析的隐式反馈140
5.6通过全局分析的隐式反馈141
5.6.1基于相似度同义词典的查询扩展141
5.6.2基于统计同义词典的查询扩展143
5.7趋势和研究问题145
5.8文献讨论145
第6章文档：语言及属性147
6.1介绍147
6.2元数据148
6.3文档格式149
6.3.1文本149
6.3.2多媒体149
6.3.3图形和虚拟现实150
6.4标记语言151
6.4.1sgml151
6.4.2html153
6.4.3xml155
6.4.4rdf157
6.4.5hytime158
6.5文本属性159
6.5.1信息论159
6.5.2自然语言建模159
6.5.3文本相似度162
6.6文档预处理163
6.6.1文本的词汇分析163
6.6.2去除禁用词164
6.6.3词干提取165
6.6.4关键词选择166
6.6.5同义词典166
6.7组织文档168
6.7.1分类体系法168
6.7.2分众分类法169
6.8文本压缩170
6.8.1基本概念170
6.8.2统计方法171
6.8.3统计方法：建模171
6.8.4统计方法：编码173
6.8.5字典方法179
6.8.6压缩预处理180
6.8.7文本压缩技术的比较181
6.8.8结构化文本压缩182
6.9趋势和研究问题183
6.10文献讨论185
第7章查询：语言及属性187
7.1查询语言187
7.1.1基于关键词的查询188
7.1.2非关键词查询190
7.1.3结构化查询192
7.1.4查询协议194
7.2查询属性195
7.2.1web查询的特征195
7.2.2用户搜索行为197
7.2.3查询意图197
7.2.4查询主题199
7.2.5查询会话与任务200
7.2.6查询难度200
7.3趋势和研究问题203
7.4文献讨论204
第8章文本分类205
8.1介绍205
8.2文本分类的特性描述206
8.2.1机器学习206
8.2.2文本分类问题206
8.2.3文本分类算法207
8.3无监督算法208
8.3.1聚类208
8.3.2朴素文本分类212
8.4监督算法212
8.4.1决策树214
8.4.2k近邻分类器218
8.4.3rocchio分类器219
8.4.4概率朴素贝叶斯文档分类221
8.4.5支持向量机分类器224
8.4.6集成分类器231
8.4.7关于监督算法的结束语234
8.5特征选择或降维234
8.5.1项-类别出现列联表235
8.5.2索引项文档频率236
8.5.3tf-idf权重236
8.5.4互信息236
8.5.5信息增益237
8.5.6卡方检验237
8.5.7特征选择的作用238
8.6评价指标238
8.6.1列联表238
8.6.2准确率和错误率239
8.6.3精度和召回率239
8.6.4f测度和f1240
8.6.5交叉检验241
8.6.6标准文档集241
8.7类别组织——构建分类体系242
8.8趋势和研究问题244
8.9文献讨论244
第9章索引和搜索247
9.1介绍247
9.2倒排索引249
9.2.1基本概念249
9.2.2完全倒排索引250
9.2.3搜索252
9.2.4排序256
9.2.5构建257
9.2.6压缩的倒排索引260
9.2.7结构化查询261
9.3签名文件262
9.4后缀树和后缀数组264
9.4.1结构：trie树和后缀树265
9.4.2简单字符串搜索266
9.4.3复杂模式的搜索267
9.4.4构建268
9.4.5压缩的后缀数组270
9.5序列搜索273
9.5.1简单字符串：horspool274
9.5.2复杂模式：自动机和位并行276
9.5.3更快的位并行算法279
9.5.4正则表达式281
9.5.5多重模式282
9.5.6近似搜索283
9.5.7搜索压缩文本285
9.6多维索引287
9.7趋势和研究问题288
9.8文献讨论289
第10章并行与分布式信息检索293
10.1介绍293
10.2分布式信息检索系统的分类294
10.3数据划分296
10.3.1文档集划分297
10.3.2文档集选择298
10.3.3倒排索引划分299
10.3.4划分其他索引302
10.4并行信息检索303
10.4.1介绍303
10.4.2在mimd架构上的并行信息检索305
10.4.3在simd架构上的并行信息检索306
10.5基于集群的信息检索310
10.6分布式信息检索310
10.6.1介绍310
10.6.2索引313
10.6.3查询处理315
10.6.4web问题320
10.7联合搜索320
10.8在对等网络中的检索322
10.9趋势和研究问题325
10.10文献讨论326
第11章web检索327
11.1介绍327
11.2一个有挑战性的问题328
11.3web329
11.3.1特性329
11.3.2web图的结构331
11.3.3对web建模332
11.3.4链接分析334
11.4搜索引擎架构335
11.4.1基本架构335
11.4.2基于集群的架构336
11.4.3缓存337
11.4.4多级索引339
11.4.5分布式架构340
11.5搜索引擎排序342
11.5.1排序信号342
11.5.2基于链接的排序343
11.5.3简单的排序函数345
11.5.4排序学习345
11.5.5学习排序函数346
11.5.6质量评价347
11.5.7web垃圾348
11.6管理web数据348
11.6.1为文档分配标识符348
11.6.2元数据349
11.6.3压缩web图349
11.6.4处理重复数据349
11.7搜索引擎用户交互350
11.7.1搜索矩形范式351
11.7.2搜索引擎结果页面356
11.7.3培养用户363
11.8浏览364
11.8.1扁平浏览364
11.8.2结构导向的浏览和web目录364
11.9浏览之外366
11.9.1超文本和web366
11.9.2搜索与浏览相结合366
11.9.3web查询语言367
11.9.4动态搜索367
11.10相关问题368
11.10.1计算广告学368
11.10.2web挖掘370
11.10.3元搜索371
11.11趋势和研究问题372
11.11.1静态文本数据之外372
11.11.2目前的挑战373
11.12文献讨论374
第12章web爬取376
12.1介绍376
12.2网络爬虫的应用377
12.2.1通用web搜索377
12.2.2聚焦爬取378
12.2.3web刻画378
12.2.4镜像378
12.2.5网站分析379
12.3爬虫的分类体系379
12.4架构和实现380
12.4.1爬虫架构380
12.4.2实际问题382
12.4.3并行爬取384
12.5调度算法384
12.5.1选择策略385
12.5.2重访问策略387
12.5.3友好策略391
12.5.4组合策略393
12.6评价393
12.6.1评价网络使用393
12.6.2评价长期调度394
12.7趋势和研究问题395
12.7.1爬取“暗网”395
12.7.2在网站帮助下的爬取396
12.7.3分布式爬取396
12.8文献讨论396
第13章结构化文本检索398
13.1介绍398
13.2结构化能力399
13.2.1显式和隐式结构对比399
13.2.2静态与动态结构对比399
13.2.3单一层次结构与多层次结构对比400
13.3早期文本检索模型400
13.3.1基于非覆盖列表的模型401
13.3.2基于相邻结点的模型401
13.3.3结构化文本结果排序402
13.4xml检索403
13.4.1xml检索中的挑战403
13.4.2索引策略404
13.4.3排序策略405
13.4.4去除重叠412
13.5xml检索评价413
13.5.1文档集414
13.5.2主题414
13.5.3检索任务415
13.5.4相关性416
13.5.5测度417
13.6查询语言419
13.6.1特性419
13.6.2xml查询语言分类420
13.6.3xml查询语言样例421
13.7趋势和研究问题425
13.8文献讨论427
第14章多媒体信息检索429
14.1介绍429
14.1.1什么是多媒体429
14.1.2多媒体检索429
14.1.3文本检索与多媒体检索的对比430
14.2挑战431
14.2.1语义鸿沟431
14.2.2特征歧义性432
14.2.3机器生成的数据432
14.3基于内容的图像检索433
14.3.1基于颜色的检索433
14.3.2纹理434
14.3.3显著点436
14.4声音和音乐检索437
14.4.1指纹识别437
14.4.2语音识别438
14.4.3说话人识别440
14.4.4语音文档检索440
14.4.5音频基础知识440
14.5检索和浏览视频443
14.5.1视频摘要443
14.5.2静态摘要444
14.5.3图像拼接与跳跃剧照445
14.5.4动态摘要446
14.5.5交互式摘要447
14.5.6视觉与听觉浏览对比448
14.5.7摘要评价448
14.6融合模型：合并所有信息449
14.6.1人脸命名449
14.6.2图像命名450
14.6.3音频命名451
14.6.4结合音频与视频的音-视频语音识别451
14.6.5结合音频和视频的多媒体处理453
14.7分割453
14.7.1视频分割样例454
14.7.2视频分割方案455
14.7.3利用边缘的视频分割455
14.7.4语音分割456
14.7.5分割评价457
14.8压缩和mpeg标准457
14.8.1强度和采样458
14.8.2颜色458
14.8.3有损压缩459
14.8.4无损压缩461
14.8.5时间冗余461
14.8.6运动预测461
14.8.7mpeg标准462
14.9趋势和研究问题465
14.10文献讨论466
第15章企业搜索469
15.1介绍469
15.1.1企业搜索的特点和应用469
15.1.2企业搜索软件470
15.1.3工作场所搜索471
15.2企业搜索任务471
15.2.1搜索支持任务的例子471
15.2.2搜索类型473
15.2.3研究企业搜索473
15.3企业搜索系统的结构474
15.3.1收集474
15.3.2提取476
15.3.3索引477
15.3.4文本注释的索引477
15.3.5查询处理478
15.3.6搜索结果的展示479
15.3.7安全模型480
15.3.8联合/元搜索482
15.4企业搜索评价484
15.4.1企业搜索的公开测试集484
15.4.2企业搜索内部评价485
15.4.3企业搜索调试486
15.4.4所能期待的是什么487
15.5不满意的可能原因488
15.6情境化和个性化490
15.6.1情境化的控制和工具491
15.6.2情境化：本地、企业或全球493
15.6.3轮廓的隐私494
15.6.4定义、建立和维护轮廓494
15.6.5用户建模495
15.6.6隐式评价496
15.6.7信息过滤496
15.6.8社会化推荐系统497
15.7趋势和研究问题497
15.8文献讨论497
第16章图书馆系统499
16.1图书馆的信息环境499
16.2联机公共检索目录500
16.2.1opac和书目记录501
16.2.2来自ils的信息检索503
16.2.3混合图书馆的整合504
16.2.4opac和最终用户505
16.2.5ils:供应商和产品506
16.3信息检索系统与文档数据库507
16.3.1书目和全文数据库508
16.3.2数据库记录的内容508
16.3.3联机产业：数据库供应商510
16.3.4来自文档数据库的信息检索511
16.4组织机构内部的信息检索514
16.5趋势和研究问题515
16.6文献讨论516
第17章数字图书馆517
17.1介绍517
17.2定义数字图书馆517
17.3通用架构518
17.4基本概念519
17.4.1数字对象和馆藏519
17.4.2元数据和目录520
17.4.3资源库/档案库522
17.4.4服务525
17.5社会经济问题527
17.5.1社会问题527
17.5.2经济问题527
17.6软件系统528
17.6.1greenstone529
17.6.2eprints529
17.6.3dspace529
17.6.4fedora529
17.6.5odl530
17.6.65s套件530
17.7数字图书馆案例研究531
17.7.1联网学位论文数字图书馆531
17.7.2国家科学数字图书馆532
17.7.3etana-dl考古数字图书馆532
17.8趋势和研究问题532
17.8.1评价532
17.8.2集成533
17.8.3其他研究挑战533
17.9文献讨论534
附录a开源搜索引擎535
附录b作者简介549
参考文献554
索引654

本图书信息来源于：中国互动出版网

Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
SQL Server_查询某一数据库中的所有表的内容 qq_42772833 SQL Server 数据库 sqlserver
1.查看所有表的表名要列出CrabFarmDB数据库中的所有表（名），可以使用以下SQL语句：USECrabFarmDB;--切换到目标数据库GOSELECTTABLE_NAMEFROMINFORMATION_SCHEMA.TABLESWHERETABLE_TYPE='BASETABLE';对这段SQL脚本的解释：SELECTTABLE_NAME：这个语句的作用是从查询结果中选择TABLE_NAM
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
MongoDB Oplog 窗口喝醉酒的小白 MongoDB 运维
在MongoDB中，oplog（操作日志）是一个特殊的日志系统，用于记录对数据库的所有写操作。oplog允许副本集成员（通常是从节点）应用主节点上已经执行的操作，从而保持数据的一致性。它是MongoDB副本集实现数据复制的基础。MongoDBOplog窗口oplog窗口是指在MongoDB副本集中，从节点可以用来同步数据的时间范围。这个窗口通常由以下因素决定：Oplog大小：oplog的大小是有限
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【PG】常见数据库、表属性设置江无羡数据库
PG的常见属性配置方法数据库复制、备份相关表的复制标识单表操作批量表操作链接数据库复制、备份相关表的复制标识单表操作通过ALTER语句单独更改一张表的复制标识。ALTERTABLE[tablename]REPLICAIDENTITYFULL;批量表操作通过代码块的方式，对某个schema中的所有表一起更新其复制标识。SELECTtablename,CASErelreplidentWHEN'd'TH
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
关于Mysql 中 Row size too large (＞ 8126) 错误的解决和理解秋刀prince mysql mysql 数据库
提示：啰嗦一嘴，数据库的任何操作和验证前，一定要记得先备份！！！不会有错；文章目录问题发现一、问题导致的可能原因1、页大小2、行格式2.1compact格式2.2Redundant格式2.3Dynamic格式2.4Compressed格式3、BLOB和TEXT列二、解决办法1、修改页大小（不推荐）2、修改行格式3、修改数据类型为BLOB和TEXT列4、其他优化方式（可以参考使用）4.1合理设置数据
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
MongoDB知识概括 GeorgeLin98 持久层 mongodb
MongoDB知识概括MongoDB相关概念单机部署基本常用命令索引-IndexSpirngDataMongoDB集成副本集分片集群安全认证MongoDB相关概念业务应用场景：传统的关系型数据库（如MySQL），在数据操作的“三高”需求以及应对Web2.0的网站需求面前，显得力不从心。解释：“三高”需求：①Highperformance-对数据库高并发读写的需求。②HugeStorage-对海量数
Mongodb Error: queryTxt ETIMEOUT xxxx.wwwdz.mongodb.net 佛一脚 error react mongodb 数据库
背景每天都能遇到奇怪的问题，做个记录，以便有缘人能得到帮助！换了一台电脑开发nextjs程序。需要连接mongodb数据，对数据进行增删改查。上一台电脑好好的程序，新电脑死活连不上mongodb数据库。同一套代码，没任何修改，搞得我怀疑人生了，打开浏览器进入mongodb官网毫无问题，也能进入线上系统查看数据，网络应该是没问题。于是我尝试了一下手机热点，这次代码能正常跑起来，连接数据库了！！！是不
入门MySQL——查询语法练习 K_un
前言：前面几篇文章为大家介绍了DML以及DDL语句的使用方法，本篇文章将主要讲述常用的查询语法。其实MySQL官网给出了多个示例数据库供大家实用查询，下面我们以最常用的员工示例数据库为准，详细介绍各自常用的查询语法。1.员工示例数据库导入官方文档员工示例数据库介绍及下载链接：https://dev.mysql.com/doc/employee/en/employees-installation.h
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
ubuntu安装wordpress lissettecarlr
1安装nginx网上安装方式很多，这就就直接用apt-get了apt-getinstallnginx不用启动啥，然后直接在浏览器里面输入IP:80就能看到nginx的主页了。如果修改了一些配置可以使用下列命令重启一下systemctlrestartnginx.service2安装mysql输入安装前也可以更新一下软件源，在安装过程中将会让你输入数据库的密码。sudoapt-getinstallmy
深入浅出 -- 系统架构之负载均衡Nginx的性能优化 xiaoli8748_软件开发系统架构系统架构负载均衡 nginx
一、Nginx性能优化到这里文章的篇幅较长了，最后再来聊一下关于Nginx的性能优化，主要就简单说说收益最高的几个优化项，在这块就不再展开叙述了，毕竟影响性能都有多方面原因导致的，比如网络、服务器硬件、操作系统、后端服务、程序自身、数据库服务等，对于性能调优比较感兴趣的可以参考之前《JVM性能调优》中的调优思想。优化一：打开长连接配置通常Nginx作为代理服务，负责分发客户端的请求，那么建议开启H
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
计算机毕业设计PHP仓储综合管理系统（源码+程序+VUE+lw+部署） java毕设程序源码王哥 php 课程设计 vue.js
该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程。欢迎交流项目运行环境配置：phpStudy+Vscode+Mysql5.7+HBuilderX+Navicat11+Vue+Express。项目技术：原生PHP++Vue等等组成，B/S模式+Vscode管理+前后端分离等等。环境需要1.运行环境：最好是小皮phpstudy最新版，我们在这个版本上开发的。其他版本理论上也可以。2.开发
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
python爬取微信小程序数据,python爬取小程序数据 2301_81900439 前端
大家好，小编来为大家解答以下问题，python爬取微信小程序数据，python爬取小程序数据，现在让我们一起来看看吧！Python爬虫系列之微信小程序实战基于Scrapy爬虫框架实现对微信小程序数据的爬取首先，你得需要安装抓包工具，这里推荐使用Charles，至于怎么使用后期有时间我会出一个事例最重要的步骤之一就是分析接口，理清楚每一个接口功能，然后连接起来形成接口串思路,再通过Spider的回调
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache

现代信息检索(原书第2版)

你可能感兴趣的:(人工智能,爬虫,数据库)