Alex_SCY

【信息检索】布尔检索和倒排索引

实验目的

掌握倒排索引（inverted index）的建立过程；掌握倒排记录表（postings lists）的合并算法

实验过程

1. 倒排索引

根据教材《Introduction to Information Retrieval》第8页Figure 1.4中所描述的倒排索引（reverted index）建立的详细过程，使用附件“HW1.txt”（文末）中的60个文档（每行表示一个document），用Java语言或其他常用语言实现倒排索引建立的详细过程。

使用语言：Python3

首先将文档读取到一个一维数据之中
代码：

# 打开文件
f = open('HW1.txt')
# 读取文章，并删除每行结尾的换行符
doc = pd.Series(f.read().splitlines())

结果：打印数组进行查看

0 Adaptive Pairwise Preference Learning for Coll…
1 HGMF: Hierarchical Group Matrix Factorization …
2 Adaptive Bayesian Personalized Ranking for Het…
3 Compressed Knowledge Transfer via Factorizatio…
4 A Survey of Transfer Learning for Collaborativ…
5 Mixed Factorization for Collaborative Recommen…
6 Transfer Learning for Heterogeneous One-Class …
7 Group Bayesian Personalized Ranking with Rich …
8 Transfer Learning for Semi-Supervised Collabor…
9 Transfer Learning for Behavior Prediction
10 TOCCF: Time-Aware One-Class Collaborative Filt…

将每篇文档转换成一个个token的列表
步骤：
a. 将文本全部转换成小写
b. 根据“非字符”对文本使用正则表达式进行切割（注：当出现两个连续非字符，会切割出现空串，需要手工删除）
代码：

# 转换为小写，并使用正则表达式进行切割
doc = doc.apply(lambda x: re.split('[^a-zA-Z]', x.lower()))
# 删除空串
for list in doc:
    while '' in list:
        list.remove('')

结果：打印token列表进行查看

Output exceeds the size limit. Open the full output data in a text editor
0 [adaptive, pairwise, preference, learning, for…
1 [hgmf, hierarchical, group, matrix, factorizat…
2 [adaptive, bayesian, personalized, ranking, fo…
3 [compressed, knowledge, transfer, via, factori…
4 [a, survey, of, transfer, learning, for, colla…
5 [mixed, factorization, for, collaborative, rec…
6 [transfer, learning, for, heterogeneous, one, …
7 [group, bayesian, personalized, ranking, with,…
8 [transfer, learning, for, semi, supervised, co…
9 [transfer, learning, for, behavior, prediction]
10 [toccf, time, aware, one, class, collaborative…

构建倒排索引
步骤：
a. 建立如下数据结构：
建立一个哈希表，key值为字符串，value值为列表。
其中key值中存储所有单词，并作为哈希表的索引；value值中第1位记录倒排索引长度，第2位开始记录每个单词出现文章的序号。

b. 遍历token列表：
1. 如果单词出现过，就将文章序号添加到列表尾部，并且长度加一。
2. 单词第一次出现时，将单词加入哈希表。

代码：

hashtable = {}
for index, list in enumerate(doc):
    for word in list:
        if word in hashtable:
            hashtable[word].append(index+1)
            hashtable[word][0] += 1
        else:
            hashtable[word] = [1, index+1]
hashtable = dict(
    sorted(hashtable.items(), key=lambda kv: (kv[1][0], kv[0]), reverse=True))

结果：

inverted_index = pd.DataFrame(columns=['term', 'doc.freq', 'postings list'])
for term in hashtable:
    inverted_index = inverted_index.append(
        {'term': term, 'doc.freq': hashtable[term][0], 'postings list': hashtable[term][1:]}, ignore_index=True)
display(inverted_index[:20])

2. 布尔检索

根据教材《Introduction to Information Retrieval》第11页Figure 1.6中所描述的倒排记录表（postings lists）的合并算法，使用第(1)题中的倒排索引，用Java语言或其他常用语言实现以下布尔检索：
a. transfer AND learning
b. transfer AND learning AND filtering
c. recommendation AND filtering
d. recommendation OR filtering
e. transfer AND NOT (recommendation OR filtering)

在完成题目之前，首先完成AND、OR、AND NOT三个函数的编写

AND
思路：
参数为两个单词对应的倒排索引列表，返回值为完成AND操作后的结果列表。
需要完成的操作是将同时出现在list1，list2的index筛选出来。因为原先两个列表都是从小到大排序，因此，只需要不断地将指向较小数的指针不断向后移，遇到相同的index时，将index加入结果列表，直到一个指针走到底。

def And(list1, list2):
    i, j = 0, 0
    res = []
    while i < len(list1) and j < len(list2):
        # 同时出现，加入结果列表
        if list1[i] == list2[j]:
            res.append(list1[i])
            i += 1
            j += 1
        # 指向较小数的指针后移
        elif list1[i] < list2[j]:
            i += 1
        else:
            j += 1
    return res

OR
思路：
参数为两个单词对应的倒排索引列表，返回值为完成OR操作后的结果列表。
需要完成的操作是将在list1，list2中出现的所有index合并筛选出来。思路与AND的解法大致类似，原先两个列表都是从小到大排序，因此，同样只需要不断地将指向较小数的指针不断向后移，区别是在index大小不相同时仍然需要将index加入结果列表，直到一个指针走到底。
因为OR操作是将两个列表合并，还需要将两个列表中剩余未遍历到的index加入结果列表之中。

def Or(list1, list2):
    i, j = 0, 0
    res = []
    while i < len(list1) and j < len(list2):
        # 同时出现，只需要加入一次
        if list1[i] == list2[j]:
            res.append(list1[i])
            i += 1
            j += 1
        # 指向较小数的指针后移，并加入列表
        elif list1[i] < list2[j]:
            res.append(list1[i])
            i += 1
        else:
            res.append(list2[j])
            j += 1
    # 加入未遍历到的index
    res.extend(list1[i:]) if j == len(list2) else res.extend(list2[j:])
    return res

AND NOT
思路：
参数为两个单词对应的倒排索引列表，返回值为完成AND NOT操作后的结果列表。
需要完成的操作是将出现在list1，但是未出现在list2的index筛选出来。原先两个列表都是从小到大排序，因此，同样需要不断地将指向较小数的指针不断向后移，并且当指向list1的index较小时，将index加入结果列表，直到一个指针走到底。
假设list1未遍历完，list2已经结束，那么list1剩余的index一定不会出现在list2中，所以还需要将剩余未遍历到的index加入结果列表之中。

def AndNot(list1, list2):
    i, j = 0, 0
    res = []
    while i < len(list1) and j < len(list2):
        # index相等时，同时后移
        if list1[i] == list2[j]:
            i += 1
            j += 1
        # 指向list1的index较小时，加入结果列表
        elif list1[i] < list2[j]:
            res.append(list1[i])
            i += 1
        else:
            j += 1
    # list1 未遍历完，加入剩余index
    if i != len(list1):
        res.extend(list1[i:])
    return res

辅助函数：从哈希表中获取倒排索引列表，并删除第一个元素（用于记录元素个数）

def getList(word):
    return hashtable[word][1:]

a) transfer AND learning

结果：transfer AND learning: [5, 7, 9, 10, 16, 17, 25, 32, 33, 49, 55, 56]

print('transfer AND learning:', And(getList('transfer'), getList('learning')),'\n')

print('transfer:', getList('transfer'))
print('learning:',getList('learning'))

transfer AND learning: [5, 7, 9, 10, 16, 17, 25, 32, 33, 49, 55, 56]

transfer: [4, 5, 7, 9, 10, 16, 17, 24, 25, 29, 32, 33, 43, 49, 55, 56]
learning: [1, 5, 7, 9, 10, 14, 16, 17, 19, 20, 25, 30, 32, 33, 36, 41, 47, 49, 54, 55, 56, 58]

结果正确

b) transfer AND learning AND filtering

先计算transfer AND learning，在计算AND filtering
结果：transfer AND learning AND filtering: [7, 25, 33, 55, 56]

print('transfer AND learning AND filtering:', And(And(getList('transfer'), getList('learning')), getList('filtering')), '\n')

print('transfer:', getList('transfer'))
print('learning:', getList('learning'))
print('filtering:', getList('filtering'))
print('transfer AND learning:', And(getList('transfer'), getList('learning')))

transfer AND learning AND filtering: [7, 25, 33, 55, 56]

transfer: [4, 5, 7, 9, 10, 16, 17, 24, 25, 29, 32, 33, 43, 49, 55, 56]
learning: [1, 5, 7, 9, 10, 14, 16, 17, 19, 20, 25, 30, 32, 33, 36, 41, 47, 49, 54, 55, 56, 58]
filtering: [7, 8, 11, 12, 13, 18, 19, 22, 24, 25, 26, 27, 30, 33, 36, 37, 38, 41, 42, 46, 52, 54, 55, 56, 57, 58]
transfer AND learning: [5, 7, 9, 10, 16, 17, 25, 32, 33, 49, 55, 56]

结果正确

c) recommendation AND filtering

结果：recommendation AND filtering: [13, 26, 38]

print('recommendation AND filtering:', And(getList('recommendation'), getList('filtering')), '\n')

print('recommendation:', getList('recommendation'))
print('filtering:', getList('filtering'))

recommendation AND filtering: [13, 26, 38]

recommendation: [1, 2, 4, 5, 6, 9, 13, 14, 15, 17, 20, 21, 26, 29, 31, 32, 34, 35, 38, 39, 43, 44, 45, 47, 48, 49, 50, 51, 53, 59, 60]
filtering: [7, 8, 11, 12, 13, 18, 19, 22, 24, 25, 26, 27, 30, 33, 36, 37, 38, 41, 42, 46, 52, 54, 55, 56, 57, 58]

结果正确

d) recommendation OR filtering

结果：recommendation OR filtering: [1, 2, 4, 5, 6, 7, 8, 9, 11, 12, 13, 14, 15, 17, 18, 19, 20, 21, 22, 24, 25, 26, 27, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60]

print('recommendation OR filtering:', Or(getList('recommendation'), getList('filtering')), '\n')

print('recommendation:', getList('recommendation'))
print('filtering:', getList('filtering'))

recommendation OR filtering: [1, 2, 4, 5, 6, 7, 8, 9, 11, 12, 13, 14, 15, 17, 18, 19, 20, 21, 22, 24, 25, 26, 27, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60]

recommendation: [1, 2, 4, 5, 6, 9, 13, 14, 15, 17, 20, 21, 26, 29, 31, 32, 34, 35, 38, 39, 43, 44, 45, 47, 48, 49, 50, 51, 53, 59, 60]
filtering: [7, 8, 11, 12, 13, 18, 19, 22, 24, 25, 26, 27, 30, 33, 36, 37, 38, 41, 42, 46, 52, 54, 55, 56, 57, 58]

结果正确

e) transfer AND NOT (recommendation OR filtering)

先计算recommendation OR filtering，在计算AND NOT
结果：transfer AND NOT (recommendation OR filtering) [10, 16]

print('transfer AND NOT (recommendation OR filtering)', \
    AndNot(getList('transfer'), Or(getList('recommendation'), getList('filtering'))), '\n')

print('transfer:', getList('transfer'))
print('recommendation:', getList('recommendation'))
print('filtering:', getList('filtering'))
print('recommendation OR filtering:', Or(getList('recommendation'), getList('filtering')))

transfer AND NOT (recommendation OR filtering) [10, 16]

transfer: [4, 5, 7, 9, 10, 16, 17, 24, 25, 29, 32, 33, 43, 49, 55, 56]
recommendation: [1, 2, 4, 5, 6, 9, 13, 14, 15, 17, 20, 21, 26, 29, 31, 32, 34, 35, 38, 39, 43, 44, 45, 47, 48, 49, 50, 51, 53, 59, 60]
filtering: [7, 8, 11, 12, 13, 18, 19, 22, 24, 25, 26, 27, 30, 33, 36, 37, 38, 41, 42, 46, 52, 54, 55, 56, 57, 58]
recommendation OR filtering: [1, 2, 4, 5, 6, 7, 8, 9, 11, 12, 13, 14, 15, 17, 18, 19, 20, 21, 22, 24, 25, 26, 27, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60]

附录：HW1.txt

Adaptive Pairwise Preference Learning for Collaborative Recommendation with Implicit Feedbacks
HGMF: Hierarchical Group Matrix Factorization for Collaborative Recommendation
Adaptive Bayesian Personalized Ranking for Heterogeneous Implicit Feedbacks
Compressed Knowledge Transfer via Factorization Machine for Heterogeneous Collaborative Recommendation
A Survey of Transfer Learning for Collaborative Recommendation with Auxiliary Data
Mixed Factorization for Collaborative Recommendation with Heterogeneous Explicit Feedbacks
Transfer Learning for Heterogeneous One-Class Collaborative Filtering
Group Bayesian Personalized Ranking with Rich Interactions for One-Class Collaborative Filtering
Transfer Learning for Semi-Supervised Collaborative Recommendation
Transfer Learning for Behavior Prediction
TOCCF: Time-Aware One-Class Collaborative Filtering
RBPR: Role-based Bayesian Personalized Ranking for Heterogeneous One-Class Collaborative Filtering
Hybrid One-Class Collaborative Filtering for Job Recommendation
Mixed Similarity Learning for Recommendation with Implicit Feedback
Collaborative Recommendation with Multiclass Preference Context
Transfer Learning for Behavior Ranking
Transfer Learning from APP Domain to News Domain for Dual Cold-Start Recommendation
k-CoFi: Modeling k-Granularity Preference Context in Collaborative Filtering
CoFi-points: Collaborative Filtering via Pointwise Preference Learning over Item-Sets
Personalized Recommendation with Implicit Feedback via Learning Pairwise Preferences over Item-sets
BIS: Bidirectional Item Similarity for Next-Item Recommendation
RLT: Residual-Loop Training in Collaborative Filtering for Combining Factorization and Global-Local Neighborhood
MF-DMPC: Matrix Factorization with Dual Multiclass Preference Context for Rating Prediction
Transfer to Rank for Heterogeneous One-Class Collaborative Filtering
Neighborhood-Enhanced Transfer Learning for One-Class Collaborative Filtering
Next-Item Recommendation via Collaborative Filtering with Bidirectional Item Similarity
Asymmetric Bayesian Personalized Ranking for One-Class Collaborative Filtering
Context-aware Collaborative Ranking
Transfer to Rank for Top-N Recommendation
Dual Similarity Learning for Heterogeneous One-Class Collaborative Filtering
Sequence-Aware Factored Mixed Similarity Model for Next-Item Recommendation
PAT: Preference-Aware Transfer Learning for Recommendation with Heterogeneous Feedback
Adaptive Transfer Learning for Heterogeneous One-Class Collaborative Filtering
A General Knowledge Distillation Framework for Counterfactual Recommendation via Uniform Data
FISSA: Fusing Item Similarity Models with Self-Attention Networks for Sequential Recommendation
Asymmetric Pairwise Preference Learning for Heterogeneous One-Class Collaborative Filtering
k-Reciprocal Nearest Neighbors Algorithm for One-Class Collaborative Filtering
CoFiGAN: Collaborative Filtering by Generative and Discriminative Training for One-Class Recommendation
Conditional Restricted Boltzmann Machine for Item Recommendation
Matrix Factorization with Heterogeneous Multiclass Preference Context
CoFi-points: Collaborative Filtering via Pointwise Preference Learning on User/Item-Set
A Survey on Heterogeneous One-Class Collaborative Filtering
Holistic Transfer to Rank for Top-N Recommendation
FedRec: Federated Recommendation with Explicit Feedback
Factored Heterogeneous Similarity Model for Recommendation with Implicit Feedback
FCMF: Federated Collective Matrix Factorization for Heterogeneous Collaborative Filtering
Sequence-Aware Similarity Learning for Next-Item Recommendation
FR-FMSS: Federated Recommendation via Fake Marks and Secret Sharing
Transfer Learning in Collaborative Recommendation for Bias Reduction
Mitigating Confounding Bias in Recommendation via Information Bottleneck
FedRec++: Lossless Federated Recommendation with Explicit Feedback
VAE++: Variational AutoEncoder for Heterogeneous One-Class Collaborative Filtering
TransRec++: Translation-based Sequential Recommendation with Heterogeneous Feedback
Collaborative filtering with implicit feedback via learning pairwise preferences over user-groups and item-sets
Interaction-Rich Transfer Learning for Collaborative Filtering with Heterogeneous User Feedback
Transfer Learning in Heterogeneous Collaborative Filtering Domains
GBPR: Group Preference based Bayesian Personalized Ranking for One-Class Collaborative Filtering
CoFiSet: Collaborative Filtering via Learning Pairwise Preferences over Item-sets
Modeling Item Category for Effective Recommendation
Position-Aware Context Attention for Session-Based Recommendation

大语言模型应用指南：网页实时浏览 AGI大模型与大数据研究院 AI大模型应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型应用指南：网页实时浏览作者：禅与计算机程序设计艺术1.背景介绍1.1大语言模型的崛起1.1.1自然语言处理的发展历程1.1.2Transformer模型的突破1.1.3预训练语言模型的优势1.2网页浏览的痛点1.2.1信息过载与检索困难1.2.2内容理解与知识提取1.2.3个性化与智能化需求1.3大语言模型与网页浏览的结合1.3.1智能问答与对话系统1.3.2知识图谱与语义搜索1.3.3
MySQL 核心知识点梳理(4) 小刘| mysql java 数据库
目录为什么InnoDB使用B+树作为底层B+树的叶子节点是单向链表还是双向链表？如果从大值向小值检索，如何操作？一个B+树可以存储多少数据呢?索引为什么用B+树不用普通二叉树呢?为什么索引不用B树用B+树为什么用B+树不用跳表呢B+树的范围查找是怎么做的B+树索引和hash索引的的区别聚簇索引和非聚簇索引的区别什么是回表MRR联合索引覆盖索引什么是最左前缀原则MySQL中有哪几种锁说说行锁加sel
赋能智慧档案管理：藏语识别技术在某省档案馆的创新实践中科逸识 ocr 人工智能全文检索
引言：在数字化浪潮席卷全球的今天，档案馆作为文化遗产保存的重要载体，正面临从传统管理向智慧化转型的挑战。尤其对于多民族地区，如何高效处理少数民族语言档案，成为亟待突破的难题。近期，某省档案馆率先引入领先的藏语智能识别技术，为海量藏文档案的数字化整理、检索与利用插上了科技的翅膀，开创了民族语言档案管理的新范式。一、破解百年藏文档案的“沉睡”难题该档案馆珍藏了跨越数百年的藏文历史文献、公文、手稿等珍贵
白帽必备技术栏目一（javascript基础）
直接进入主题正好也在带学生会把笔记同步发送到csdn上后期不管是去就业还是在家里挖洞都都行javascript基础注意事项局部作用域里面给到的变量不加var就会变成全局变量数据类型boolean布尔类型boolean除了0和空字符串以及nullundefined其他的都是truevarbool=true;varbool=false;number类型varnum=10;//10varnum=0x23
Java:对给定的字符串和给定的模式执行Boyer-Moore搜索算法（附带源码） Katie。 Java算法完整教程 java 开发语言
一、项目背景详细介绍在文本处理与信息检索中，需要在海量文本中高效地查找模式串（Pattern）。经典的朴素搜素在最坏情况下时间复杂度为O(N·M)，效率不够高。Boyer–Moore算法则采用“坏字符”与“好后缀”两种启发规则，从模式尾部匹配开始，通常能大幅跳过不可能匹配的位置，平均时间复杂度接近O(N/M)，在实际应用（如grep、数据库索引）中非常高效。本项目旨在用Java实现Boyer–Mo
Go-Redis × 向量检索实战用 HNSW 在 Redis 中索引与查询文本 Embedding（Hash & JSON 双版本） Hello.Reader 数据库运维缓存技术 golang redis embedding
1.场景与思路痛点：把“文本内容”转成向量后，如何在本地Redis里做近似向量搜索（KNN），而不依赖外部向量数据库？方案：利用HuggingFace模型sentence-transformers/all-MiniLM-L6-v2生成384维Float32向量；借助RediSearch的HNSW索引能力，在Hash或JSON文档里存储&查询向量；用go-redisv9的高阶API（FTCreate
Spring AI高级RAG功能查询重写和查询翻译非ban必选 deepseek spring 人工智能 java
1、创建查询重写转换器//创建查询重写转换器queryTransformer=RewriteQueryTransformer.builder().chatClientBuilder(openAiChatClient.mutate()).build();查询重写是RAG系统中的一个重要优化技术，它能够将用户的原始查询转换成更加结构化和明确的形式。这种转换可以提高检索的准确性，并帮助系统更好地理解用户
RabitQ 量化：既省内存又提性能大禹智库《向量数据库指南》《实战AI智能体》人工智能 AI自动化大禹智库 AI智能体向量数据库
突破高维向量内存瓶颈：MlivusCloudRaBitQ量化技术的工程实践与调优指南作为大禹智库高级研究员，拥有三十余年向量数据库与AI系统架构经验的我发现，在当今多模态AI落地的核心场景中，高维向量引发的内存资源消耗问题已成为制约系统规模化部署的“卡脖子”因素。特别是在大规模图像检索、个性化推荐系统和语义搜索引擎中，动辄数亿级别的向量数据需要实时处理，传统全精度索引方式会让内存资源消耗呈指数级增
认知天性告诉我们一些学习的方法铄铄麻麻
学习是通过成长型思维、不怕失败、不怕挫折、不怕挑战、刻意练习、反复训练再加上《认知天性》，用科学的方法给大脑一些小小的挑战，才能够学得更加牢固，这就是学习的方法首先树立终身成长的理念，了解认知天性规律，再加上刻意练习，就会创造出幸福的生活。1.学生1）要练习从记忆中检索新知识，不要总是一遍一遍地重复阅读，要多用回忆来挑战自己。2）有间隔地安排检索练习，学习某些知识后，过一段时间再做测试，给出一定的
面向向量检索的教育QA建模：九段日本文化研究所日本语学院的Prompt策略分析（6 / 500） semantist@语校语言学校Prompt模板集人工智能 prompt 数据集 ai 百度支持向量机开源
面向向量检索的教育QA建模：九段日本文化研究所日本语学院的Prompt策略分析（6/500）系列说明500所日本语言学校结构化建模实战，第6篇。每篇拆解1所学校在Prompt-QA系统中的建模策略，分享工程经验，本项目持续在HuggingFace上同步更新，欢迎AI工程师们关注。一.案例选择：为什么是九段日本语学院？在以中国学生为中心设计的语言学校数据建模中，我们往往默认为目标用户熟悉中文、学习节
LangChain教程11：LangChain高效检索器最佳实践 Cachel wood LLM和AIGC langchain
文章目录相似性搜索底层原理K-MeansHierarchicalNavigableSmallWorlds(HNSW)FAISSPineconeLance总结相似性搜索底层原理FAISS相似度匹配Pinecone索引检索Lance向量持久化存储总结相似性搜索(SimilaritySearch)既然我们知道了可以通过比较向量之间的距离来判断它们的相似度，那么如何将它应用到真实的场景中呢？如果想要在一个
js数据类型运算符九妄_b2a1
数据类型：单引号，双引号可互包'表示一个'\n换行\t制表符\表示一个varstr='haha';console.log(str)六种数据类型:基本数据类型：string字符串number数值Boolean布尔值nullundefinedtypeof变量检查数据类型Number.MAX_VALUE;最大值Infinity无穷大(超过最大值)Number类型字符串相乘得NaN(NotaNumber)
Java 数据类型
Java数据类型概述Java数据类型分为两大类：基本数据类型和引用数据类型。基本数据类型直接存储数据值，而引用数据类型存储对象的引用（内存地址）。以下将详细介绍这两类数据类型，并附代码示例。基本数据类型Java有8种基本数据类型，分为4类：整数型：byte、short、int、long浮点型：float、double字符型：char布尔型：boolean整数型byteb=127;//1字节，范围-
LLM4SR: A Survey on Large Language Models for Scientific Research UnknownBody LLM Daily Survey Paper 语言模型人工智能自然语言处理
文章主要内容文章围绕大语言模型（LLMs）在科学研究中的应用展开，系统探讨了其在科研各关键阶段的作用、方法、挑战及未来方向。科学假设发现：LLMs生成科学假设的研究源于“基于文献的发现”和“归纳推理”。现有方法通过灵感检索策略、反馈模块等组件提升假设生成质量，相关基准测试分为基于文献和数据驱动两类，评估指标涵盖新颖性、有效性等。虽取得一定成果，但面临实验验证困难、依赖现有LLMs能力等挑战。实验规
常用 SQL 语句摘录未来无限 C#Winform设计
语句功能--数据操作SELECT--从数据库表中检索数据行和列INSERT--向数据库表添加新数据行DELETE--从数据库表中删除数据行UPDATE--更新数据库表中的数据--数据定义CREATETABLE--创建一个数据库表DROPTABLE--从数据库中删除表ALTERTABLE--修改数据库表结构CREATEVIEW--创建一个视图DROPVIEW--从数据库中删除视图CREATEINDE
第三方库xlrd,读取excel中的数据听MM的话
1、安装第三方库=============》xlrdpipinstallxlrd2、代码如下，封装成类的形式，方便调用，提高复用性importxlrdfromxlrdimportxldate_as_tuple'''xlrd中单元格的数据类型数字一律按浮点型输出，日期输出成一串小数，布尔型输出0或1，所以我们必须在程序中做判断处理转换成我们想要的数据类型0empty,1string,2number,
UMLS（统一医学语言系统）—— 小白最强攻略（讲解+运用）
1概念介绍1.1UMLS介绍UMLS(UnifiedMedicalLanguageSystem)，是由美国国立医学图书馆（NLM）开发的，旨在通过整合各种生物医学术语系统来促进医学信息的统一检索和应用。链接：https://uts.nlm.nih.gov/uts/signUpUMLS参考手册：https://www.ncbi.nlm.nih.gov/books/NBK9676/技术上：Unifie
Camera HAL/ISP 专业术语大全生活需要深度 ISP+NPU 接口隔离原则网络
不断更新，建议收藏，快速检索SOC，SystemOnChip，片上系统HAL，HardwareAbstractionLayer，硬件抽象层ISP，ImageSignalProcessor，图像信号处理器KMD，KernelModeDriver，内核模式驱动程序MCU，MicrocontrollerUnit，微控制器OSAL，OperatingSystemAbstractionLayer，操作系统抽
Elasticsearch数据库的数据同步机制数据库管理艺术 elasticsearch 数据库 jenkins ai
Elasticsearch数据库的数据同步机制关键词：Elasticsearch、数据同步、近实时搜索、倒排索引、translog、refresh、flush、副本同步摘要：本文深入探讨Elasticsearch数据库的数据同步机制，从底层原理到实际应用进行全面解析。文章首先介绍Elasticsearch的基本架构和数据模型，然后详细分析其近实时搜索的实现原理，包括索引刷新(Refresh)、事务
构建企业私有RAG系统全流程：从 PDF 到智能问答的落地实践观熵国产大模型部署实战全流程指南 pdf 人工智能大模型部署 RAG
构建企业私有RAG系统全流程：从PDF到智能问答的落地实践✅一、RAG到底是什么？为什么你现在必须了解它？RAG，全称Retrieval-AugmentedGeneration（检索增强生成）。通俗点说，它的核心思想就一句话：“模型不知道的内容，从你的知识库里搜；然后由模型来生成回答。”RAG系统的核心价值：传统模型问答RAG系统模型只能靠自己的训练记忆模型可以实时读“外部资料”企业知识不在模型里
docker run elasticsearch 报错 EmpressBoost docker elasticsearch 容器
谷粒商城p103前提条件：下载镜像文件#存储和检索数据dockerpullelasticsearch:7.4.2#可视化检索数据dockerpullkibana:7.4.2创建挂载的文件和配置mkdir-p/mydata/elasticsearch/configmkdir-p/mydata/elasticsearch/dataecho"http.host:0.0.0.0">>/mydata/ela
21、数据库设计中的索引使用 garlic Azure数据服务建模指南数据库设计索引使用查询性能优化
数据库设计中的索引使用1.索引的基本概念索引是一种数据结构，旨在加速数据库中的数据检索操作。通过使用索引，数据库引擎可以更快速地定位所需的数据行，从而提高查询性能。索引类似于书籍的目录，通过目录可以快速找到特定页面，而不必逐页翻阅。2.索引的作用索引在数据库设计中起着至关重要的作用，主要包括以下几个方面：加速查询：索引可以帮助数据库引擎更快地找到特定的数据行，特别是在处理大量数据时。例如，当我们需
智能体架构深度解构：一次用户请求的完整旅程一休哥助手架构
引言：智能体系统的复杂性迷宫当用户向AI智能体发出一个简单请求时，背后正上演着一场精密的认知交响乐。2025年全球智能体日均处理请求量突破120亿次，但仅38%的用户理解其内部运作机制。本文通过解构一次真实请求的完整生命周期（从输入到输出），揭示智能体架构的核心流程与关键技术，涵盖11个关键步骤与23项核心技术，为开发者提供全景式架构指南。用户请求输入处理意图理解记忆检索任务规划工具调用安全管控执
PHP 就业核心技能速查手册
#PHP就业核心技能速查手册>高效聚焦市场所需，快速提升竞争力---##一、语法基础（必会！）```php//1.变量与数据类型$price=19.99;//浮点型$isStock=true;//布尔型//2.流程控制foreach($productsas$id=>$product){if($product['price']>100)continue;echo"产品{$id}:{$product[
PTA数据结构与算法-第一章——褚论 ?Suki PTA习题算法数据结构 c++
文章目录第一章——褚论第二章——线性表第三章——栈与队列第四章——字符串第五章——树与二叉树第六章——图第七章——排序第八章——检索判断题单选题程序填空题第一章——褚论第二章——线性表第三章——栈与队列第四章——字符串第五章——树与二叉树第六章——图第七章——排序第八章——检索判断题(neuDS)数据的物理结构是指数据在计算机中的实际存储形式。T(neuDS)数据的物理结构是指数据在计算机中的实际
5.k8s：helm包管理器，prometheus监控，elk，k8s可视化鹏哥哥啊Aaaa 运维 kubernetes 容器云原生
目录一、Helm包管理器1.什么是Helm2.安装Helm（3）Helm常用命令（4）目录结构（5）使用Helm完成redis主从搭建二、Prometheus集群监控1.监控方案2.Prometheus监控k8s三、ELK日志搜集1.elk流程2.配置elk（1）配置es（2）配置logstash（3）配置filebeat，kibana3.kibana使用和日志检索四、k8s可视化管理1.Dash
暑期自学嵌入式——Day02（C语言阶段）一位搞嵌入式的 genius 嵌入式自学专栏 linux 嵌入式C语言
点关注不迷路哟。你的点赞、收藏，一键三连，是我持续更新的动力哟！！！主页：一位搞嵌入式的genius-CSDN博客https://blog.csdn.net/m0_73589512?spm=1000.2115.3001.5343目录Day02→数据类型（上）数据类型分类基本数据类型整形数据类型字符型数据类型实型数据类型构造数据类型特殊数据类型布尔类型详解基本概念使用注意事项预处理分析知识小结Day
Java-Script学习笔记-1 许我写余生ღ JavaScript 学习 javascript 前端
文章目录前言JavaScript基本介绍一、js的嵌入方法内嵌式外链式行内式二、js简单语法语句注释变量JavaScript保留关键字三、JavaScript作用域Javascrpt局部变量JavaScript全局变量四、运算符算术运算符比较运算符赋值运算符逻辑运算符五、JavaScript数据类型JavaScript如何判断数据类型数字类型（Number）字符串型（string）布尔类型（boo
Synergizing RAG and Reasoning: A Systematic Review-RAG与推理能力深度结合-新方向数据分析能量站机器学习人工智能
欢迎关v：数据分析能量站0论文小结一、研究背景与核心问题大语言模型（LLM）在处理复杂任务时面临两大瓶颈：知识局限性：纯LLM存在“知识幻觉”（编造事实）和“领域知识缺口”；推理浅度：传统检索增强生成（RAG）仅通过关键词匹配获取信息，无法处理多跳推理、语义歧义等复杂需求。核心主张：RAG与推理的深度整合（RAG+Reasoning）是突破上述瓶颈的关键，通过“检索提供实时知识，推理赋予逻辑能力”
能设计算法的，终究是极少数人奇妙的奇
图片发自App听吴伯凡的《认知方法论》，对“算法”有了全新的认识。世界上最早的程序员比第一台计算机要早一百多年，19世纪初期，法国人雅卡尔，就发明了穿孔纸带控制的纺织机，准确说是纺织提花机，这就是后来计算机用的纸带打孔机的原型，这就是算法。更早，1796年，瑞士人法布尔发明了八音盒。在一个轮子上做一些凸起，随着轮子转动，就能够驱使八音盒奏出制定的乐曲。再早呢？可以往前推演很多。所谓的编制算法，就是
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本

【信息检索】布尔检索和倒排索引

实验目的

实验过程

1. 倒排索引

2. 布尔检索

a) transfer AND learning

b) transfer AND learning AND filtering

c) recommendation AND filtering

d) recommendation OR filtering

e) transfer AND NOT (recommendation OR filtering)

你可能感兴趣的:(信息检索,信息检索,检索,倒排索引,布尔检索,全文检索)