星码

信息检索与智能问答

一、信息检索模型
- 1. 布尔模型
- 2. 向量空间模型 - 由布尔模型不足（相似度不能排序）提出
- 3. 扩展布尔模型
- 4. 概率模型 - 二值独立检索模型
- - 基本思想
  - 模型定义，假设，过程
- 5. 统计语言模型 - 马尔可夫链
- - n元语言模型最大似然估计
  - 基于语言模型的IR - 相似性是生成查询的概率
- 6. 隐性语义索引模型LSI
- - 问题提出 - 以词多义一义多词
  - 模型方法 - 统计的方法
- 7. 检索系统评价指标 - 相关度排序
- - 1> 基本评价指标
  - - 召回率和准确率 - 一个查询
    - 平均准确率 - 多个查询
  - 2> 单值评价指标 - 都关注准确率
  - - ==**已检索相关文献的平均准确率均值** **MAP**==
    - **P@10**
    - **R准确率 --- P@R** 对单个查询
    - **准确率直方图** - 多查询
  - 3> 特殊的评价指标
  - - **Bpref指标** - 对经过判断的文档评价
    - **N(D)CG** - 对高相关性文档检索能力评价
    - **单一相关文档检索的评价** - 只看最相关文档
    - - ==**排序倒数 RR**== - 没刻画相关度
      - ==**平均排序倒数 MRR**==
      - **O-measure** - 可评价相关度不同的文档
      - **NWRR**
二、文本索引和搜索
- 1.倒排文件索引
- - 压缩
- 2.后缀数组索引 - 倒排不足
- 3.签名文件索引
- 4.文本搜索技术 - 单模式匹配
三、Web检索(Web IR) - 搜索引擎
- 1.Web搜索引擎四个体系结构
- - Web数据采集
  - 网页预处理
  - 索引检索系统
  - 检索结果排序系统
  - - PageRank算法 -- 判断网页权威（重要程度）
四、文本分类和聚类
五、智能问答
- 1.实体关系三元组抽取
- 2.实体关系三元组最新研究
六、知识图谱表示KGE - 二元关系知识图谱
- 1.Trans系列
- - TransE
  - TransH
  - TransR
- 2.张量分解
- 3.二元关系KGE最新研究进展
- 4.三元关系最新发展
七、阅读理解式问答
- 1.综述
- 2.不连续MRC

一、信息检索模型

1. 布尔模型

将用户的查询式表示为==析取范式==：⽤连词v把⼏个公式连接起来所构成的公式叫做析取

将文档根据用户关键词 表示为布尔表达式

查询时直接以文档的布尔表达式和用户查询析取范式按位与

优点：

查询简单，易理解，查询速度快

可以揭示索引项(Term)之间的关系 - 可以通过布尔表达式刻画出来（A地苹果 C地）（1 1 0）表示’A地的苹果‘

缺点：

关键问题：不能对文档和查询的相关性进行排序

2. 向量空间模型 - 由布尔模型不足（相似度不能排序）提出

将用户的查询也看成了一个文档，再由文档分出一个个索引项（Term）

提出就是为了能够计算两个文档相关程度的大小

查询和文档都可以 转化成Term及其权重组成的向量表示，因此就可以衡量两者的相关度

关键问题：

Term（索引项）的选择 - 可以描述文档的内容，可以区分当前文档与其他文档

索引项选择 - N-gram:是为了一些小语种，这样做简单有效

索引项的权重 - 刻画描述文档内容的能力，区分其所在文档与其他文档的能力 — TF-IDF

文本的长短会影响TF的值 —> 为了不影响计算，直接归一化（Normalization）

相似度计算 — 内积计算，余弦相似度，Jaccard系数

优点：（布尔模型的缺点就是向量空间模型的优点）

模型有很大的灵活性，只提供了一个框架，在实现时用户可以选择很多方法实现

布尔模型不能衡量相关度，该模型可以衡量相关度，所以可以排序，因此提高了检索性能

缺点：

为了简化模型，引入了索引项独立性假设，但现实并不是如此

没有严密的公式推理

3. 扩展布尔模型

二者具有高度的互补性

用向量空间模型改进传统布尔模型

4. 概率模型 - 二值独立检索模型

基本思想

概率模型是在布尔逻辑模型的基础上为了解决检索中存在一些 不确定 性引入的

如下图第3点，信息检索系统有很多不确定性

假设： 对用户的查询，都存在一个理想文档集R，只包含完全相关的文档

Term（索引项）的选择 - 可以描述文档的内容，字/词/短语之类的

信息检索 -> 描述理想文档集（处理文档属性）-> 用索引项刻画属性 -> 引入概率论

模型定义，假设，过程

每个文档di 和查询q 计算相关概率和不相干概率

二值独立检索模型 - 二值（文档相关性：相关和不相关），独立（索引项之间独立，文档和查询式相关性与其他文档独立）

**定义相似度：**类似TF-IDF，一个文档是否选择，即与相关文档集有关，又与非相关文档集有关

相似度 sim(dj, q) 是 文档与查询相关的概率 / 文档与查询不相关的概率

（**P(R/di)：**是文档集和文档的相似度，这种相似度的计算需要转化到索引项上）

为了衡量文档集和文档之间的相似度 — 文档d被定义为：索引项的向量（w1,j, …, wn,j）

使用已知量对两个概率进行估计

**相等的理由：**简单来说就是表示 - 随机抽取一篇文档是否和查询相关的概率

连乘是因为索引项独立

$g_i(d_j)$ 表示索引项是否同时出现在文档 $d_j$ 和查询中

初始化后 -> 就可以计算文档和查询相似度 -> 得到相关和不相关文档集 $R,\overline{R}$ -> 之后就可以进行迭代，用新的集合计算上图概率值

即：新参数和新文档集不断迭代

优缺点：

比向量空间模型的数学推理严密

缺点：

向量空间模型灵活：有很多种实现方法；概率模型没有其灵活

因为该模型需要迭代，所以在速度上有劣势

5. 统计语言模型 - 马尔可夫链

计算一个序列出现的概率 - 不可以假设每个词之间独立，所以可以用链式规则进行解

如果用链式法则计算时，会出现参数太多的问题：比如文字有8000个，要计算每个P(w1,w2)，就有8000*8000种可能

因为因为考虑的词多了，需要计算的可能排列就多了，所以可以使用马尔科夫链减少考虑的词

n元语言模型最大似然估计

N元语言模型 == N-1阶马尔科夫链

可以估计有限文本h情况下所有排列的可能性

可能出现概率为0 的情况，使用平滑

基于语言模型的IR - 相似性是生成查询的概率

重点：对每个文档得到一个语言模型 -> 将文档的语言模型生成查询q的概率看成文档和查询的相似度

计算文档语言模型可以提前计算，因此在计算相似度时速度会很快

优缺点：

优点：

概率模型，向量空间模型都有索引项独立的假设，但该模型没有

缺点：

每一个文档建立一个语言模型，而一个文档数据量比较少，所以会出现稀疏性

6. 隐性语义索引模型LSI

问题提出 - 以词多义一义多词

为了解决一词多义和一义多词

一词多义：会影响返回相关文档准确率下降

一义多词：相关文档会找不全

模型方法 - 统计的方法

LSI提出的目的是：绕过自然语言处理，用统计的方法达到目的 - 奇异值分解

奇异值分解可以保留有用的信息，让语义变得紧凑

如果有一词多义和一义多词，会在语义上比较分散，通过分解后，语义被压缩，干扰语义的信息会被丢弃

d2,d3文档没有共同词汇，如果用其他方法模型计算相似度就为0

但是d2中电脑和d3中计算机是相关的

压缩后d2，d3就有了相似度

优缺点：

7. 检索系统评价指标 - 相关度排序

时间与空间性能和 相关度排序性能

准备条件：

1> 基本评价指标

召回率和准确率 - 一个查询

对一个查询q：

召回率 = 系统输出结果是相关的文档数 / 相关的文档数 — （全不全）

准确率 = 系统输出结果是相关的文档数 / 检测的文档数 — （准不准）

准确率上升时，召回率下降

该方法画出的图用于比较两个系统的性能

平均准确率 - 多个查询

2> 单值评价指标 - 都关注准确率

不关注召回率是因为 — 找出所有的相关文档是不现实的

但准确率只需要判断找出的文档是否相关，这个任务比召回率的简单

已检索相关文献的平均准确率均值 MAP

MAP公式解释：相关文档位置越靠前，值越高

检索出的结果：R1,R2,R3,R4 (黑体为相关的文档) — 2个相关文档，检出第一个相关文档准确率是1/2，第二个是2/3

MAP = 1/2 * (1/2 + 2/3)

P@10

R准确率 — P@R 对单个查询

准确率直方图 - 多查询

不足：

判断不完整，2. 高低相关度的差异未体现

3> 特殊的评价指标

Bpref指标 - 对经过判断的文档评价

对于每个结果文档，依次判断文档是否相关也比较难（判断不完整）

Bpref 只考虑返回结果中经过判断的文档，没有判断的不考虑

未判断的文档不计入不相干文档数

相关性判断完整的情况下，Bpref和MAP是一致的评价结果

N(D)CG - 对高相关性文档检索能力评价

CG — 用户依次看返回的文档时，用户获得的累计信息量

但该权值不能很好的体现文档位置对用户的价值

体现了文档位置对用户的使用体验

归一化结果表示：考察一定数量的文档时，达到了理想状态的百分之多少

单一相关文档检索的评价 - 只看最相关文档

用户只看第一个最相关的文档

排序倒数 RR - 没刻画相关度

位置的倒数 — 本质是一个准确率值（输出了r个文档，只有一个相关）

没有刻画相关度程度：RR是基于而言相关判断基础的

平均排序倒数 MRR

反映了：效率 — 平均查看多少个文档才能找到相关文档

O-measure - 可评价相关度不同的文档

NWRR

二、文本索引和搜索

检索结果文档的后处理：对文本内容不适用索引技术进行查找，并进行过滤或加粗

1.倒排文件索引

维护倒排文档需要三种操作：插入，删除，更新

但更新需要较高的代价，所以用删除+插入代替

压缩

长字符串存储单词表，每个单词之间进行分割(\0)

2.后缀数组索引 - 倒排不足

便于词组（短语）查询，对于不存在词可以很好的查询，方便词组查询

3.签名文件索引

面向单词的索引结构，适合小规模文本

将多个单词分成一个块，块的签名是块中单词签名按位或操作

F位，m位置1：m越大，物件出现的次数就会增加；m减少，为了保证单词签名不同，F就会变大，m不能过大，也不可过小

4.文本搜索技术 - 单模式匹配

不能建索引时，可以使用文本搜索来标记文本内容中关心的内容所在位置

BF算法 - 蛮力算法（简单，容易实现；复杂度高）

KMP算法

BM算法 - 更有效

两种情况，对应不同的策略

KMP研究的是模式字符

BM研究的是文本

三、Web检索(Web IR) - 搜索引擎

定义：针对互联网的文本数据，搜索引擎是最经典的代表

1.Web搜索引擎四个体系结构

Web数据采集

工作原理：

Web数据采集系统基本结构

集中式Web数据采集系统结构

分布式Web数据采集系统结构 - 主次结构对等结构

数据采集系统的分类：

基于主题的采集：对热点主题单独进行采集

前三个都是被动的采集过程，采集不是很高效

迁移的数据采集：主动采集过程，当信息改变时，由网站通知采集，高效；之所以仍在理论研究，是因为信任问题

网页预处理

重心放在：将正文提取出来；去重

去重工作用模型（如：向量空间模型）做会比较困难，因为数据量多，计算成本太大

索引检索系统

上两章中的文本索引和搜索和信息检索模型

检索结果排序系统

经过索引检索系统后有一个排序结果，但其是基于文字内容的，有很多信息没有用到：忽略了标记和超链接等内容。

例如：人们更想用官方信息

PageRank算法 – 判断网页权威（重要程度）

利用网页的链接信息得到权威网页

和用户无关，所以可以线下计算好

如何标识重要程度：

一个网页被指向的越多，他的重要程度就越高；

指向它的网页重要程度越高，它就越重要

指向它的网页若指向其他网页个数越多，它越不重要

四、文本分类和聚类

如果把数据分成类别，在对用户查询的意图进行判断，那么查询的数据量就会减少很多

不需要训练过程

五、智能问答

信息检索和智能问答的关系

阅读理解式问答：基于传统信息检索返回的文档，系统由用户的Q，从这些文档中找的答案A — 相当于二次删选

基于知识库的问答：固定的常识，非常依赖知识库，需要构建知识库，且覆盖度，时效性不够

知识库构建中的实体识别后又要加一个关系分类，这样会导致错误累计，所以现在主流方法直接使用三元组抽取

知识库表示：将知识库映射成具有语义信息的，可计算的形式。即：将知识库变成一个低维可计算的向量，可以得到“妻子”，“太太”是一种关系

智能问答分类：

1.基于知识库的问答：

1.实体关系三元组抽取

传统 - 基于Pipeline构建：

命名实体识别模型和关系分类模型被当作两个不同的模型研究

实体关系三元组的联合抽取：

基于生成的方法 — 生成文本的序列（将三元组当成文本的序列）

按序生成S，R，O，这样会得到三元组集合

性能最低 — 三元组集合中内容原本是无序的，但生成模型生成是有顺序的（即花了时间在生成循序上）

实体重叠：一个实体是由abc组成，另一个是由bcd组成，有共同的文本

实体嵌套：中国中国北京

基于标注的方法

两个标注方法是基于标注的两个步骤：

先标头实体

在尾实体和关系同时标注时：对每个头实体，与每一个尾实体做匹配，得到两者对于每种关系的可能性

基于填表的方法

n * n * r：n * n是单位和单位（单位：字or词)的矩阵，r是之间的关系

即：每个关系都有n * n的表

优点：推理效率高，对比基于标注的方法的两个步骤，其是一步完成三元组抽取

缺点：填表是一个迭代操作，所以标注空间大；表中的写的标识tag不太好设计，希望tag能够体现出语义信息

2.实体关系三元组最新研究

实质是基于表填充的方法，定义一个标签tagging

隐含的三元组：a和b是同学，b和c是同班，所以a和c是同学；这是隐含在推理路径中

有很多实际情况，现时中的关系并没有在训练集中出现，这就有了Zero-Shot和Few-Shot

关系和实体之间相互约束

六、知识图谱表示KGE - 二元关系知识图谱

难点：

复杂的关系：关系类型多，1:1,1:N,N-1,M-N

复杂的关系模式：对称/反对称，逆，组合

**KGE: **实体映射成空间中的一个点，关系是空间中的一个操作

1.Trans系列

各个方法的差别：如何去理解知识图谱中三元组在空间中的形式

TransE

实体映射成空间中的一个点，关系是空间中的一个平移操作

TransH

空间中的多个点，可以映射到超平面中的某个点上

解决了1-n, n-1, m-n关系

TransR

每个实体都有多个语义面，而不同关系关注不同的语义面

关系定了后，语义也会被决定

头实体和尾实体用了和一个矩阵进行映射，有研究觉得不合理

2.张量分解

打分函数：头实体 $e_i$ 张量 $M_k$ 尾实体 $e_j$ ，通过这个函数判断头实体和尾实体有这个关系的可能性

不同模型的差别：张量的分解形式

双线性模型就是将实体映射到双线性空间中的某个点，而关系就是对应空间张量分解的操作

Trans系列方法对于上述两类问题解决

3.二元关系KGE最新研究进展

把实体和关系映射到一个空间，在该空间中将结构保留出来

把实体当成空间中的一个点，关系作为操作

PairRE - 正确的三元组，在经过关系的映射后，距离接近

4.三元关系最新发展

七、阅读理解式问答

Q —IR—》 D（相关文档） —MRC—》 A（直接从相关文档中利用阅读理解式问答提取答案）

基于知识库问答 - 覆盖率低，精度高

基于阅读理解式问答 - 覆盖率极广，精度没法太高

长文本处理：处理文本第一步使用预训练模型Embedding，但模型都对文本有限制（512字节），在做长文本任务时会超出限制

1.截断(重点会放在前面) 2.滑动窗口(把语义割裂了，语义不完整)

鲁棒性研究：泛化能力（训练在A，测试在B）；few-shot，zero-shot（训练时就不充分）；

过敏感（对输入太敏感了，容错能力低）；过稳定（对输入不敏感，对于不同输入希望改变但却没变）

1.综述

给定一些文档和与文档相关的问题，让机器从文档中找出问题的答案

完形填空：给定挖空的文章，对应的答案，选择答案

多项选择：给定文本，给定问题，给出多个答案，选择答案

上面两个存在问题 - 单词或实体不足以回答问题，答案需要一些完整句子，难以构造答案

片段抽取：给定问题，文章，抽取连续的片段，有代表性的数据集 - 斯坦福的SQuAD

自由作答：给定问题，文章，答案不再限制于原文的句子

代表性数据集：微软的MS MARCO

DuREader - 中文数据集

ROUGE-L：包含最长公共子串任务

前三大步现在可以直接用Bert来进行

Answer Prediction：使用指针网络；边界模型 - 确定头位置，尾位置（文本中每个token有两个概率-作头的概率 $s_i$ ，作尾的概率 $e_i$ ,最后答案 $s_i*e_j(imaxsi∗ej(i<j)$

很多研究者将自由作答式任务做成片段抽取式任务进行

现在自由作答任务：文本中抽取+字典中生成

抽取+生成 - 整个过程是一个以字为单位，序列生成的过程：

生成某位置时，要看这个字是从文本中copy过来的还是从字典中得到的，两个概率进行叠加，哪个词叠加概率最大，就生成出来

发展趋势：

基于知识的阅读理解会兴起

知识如何获取，知识如何融合

识别是否能回答，不仅仅是一个简单的二分类问题，它依赖模型对文档的理解

多文档机器阅读理解

对话式阅读理解，数据集：CoQA，QuAC

待解决问题：

外部知识引入

阅读理解系统鲁棒性

推理能力缺乏

2.不连续MRC

片段抽取时，使用边界模型就可找出片段，但有时候答案需要由多个片段组成

你可能感兴趣的:(笔记,人工智能,算法,信息检索)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
git常用命令笔记咩酱-小羊 git 笔记
###用习惯了idea总是不记得git的一些常见命令，需要用到的时候总是担心旁边站了人~~~记个笔记@_@，告诉自己看笔记不丢人初始化初始化一个新的Git仓库gitinit配置配置用户信息gitconfig--globaluser.name"YourName"gitconfig--globaluser.email"[email protected]"基本操作克隆远程仓库gitclone查看
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
509. 斐波那契数(每日一题) lzyprime
lzyprime博客(github)创建时间：2021.01.04qq及邮箱：2383518170leetcode笔记题目描述斐波那契数，通常用F(n)表示，形成的序列称为斐波那契数列。该数列由0和1开始，后面的每一项数字都是前面两项数字的和。也就是：F(0)=0，F(1)=1F(n)=F(n-1)+F(n-2)，其中n>1给你n，请计算F(n)。示例1：输入：2输出：1解释：F(2)=F(1)+
拥有断舍离的心态，过精简生活--《断舍离》读书笔记爱吃丸子的小樱桃
不知不觉间房间里的东西越来越多，虽然摆放整齐，但也时常会觉得空间逼仄，令人心生烦闷。抱着断舍离的态度，我开始阅读《断舍离》这本书，希望从书中能找到一些有效的方法，帮助我实现空间、物品上的断舍离。《断舍离》是日本作家山下英子通过自己的经历、思考和实践总结而成的，整体内涵也从刚开始的私人生活哲学的“断舍离”升华成了“人生实践哲学”，接着又成为每个人都能实行的“改变人生的断舍离”，从“哲学”逐渐升华成“
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
Day17笔记-高阶函数 ~在杰难逃~ Python 笔记 python 开发语言 pycharm 数据分析
高阶函数【重点掌握】函数的本质：函数是一个变量，函数名是一个变量名，一个函数可以作为另一个函数的参数或返回值使用如果A函数作为B函数的参数，B函数调用完成之后，会得到一个结果，则B函数被称为高阶函数常用的高阶函数：map(),reduce(),filter(),sorted()1.map()map(func,iterable)，返回值是一个iterator【容器，迭代器】func:函数iterab
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
【Git】常见命令(仅笔记) 好想有猫猫 Git Linux学习笔记 git 笔记 elasticsearch linux c++
文章目录创建/初始化本地仓库添加本地仓库配置项提交文件查看仓库状态回退仓库查看日志分支删除文件暂存工作区代码远程仓库使用`.gitigore`文件让git不追踪一些文件标签创建/初始化本地仓库gitinit添加本地仓库配置项gitconfig-l#以列表形式显示配置项gitconfiguser.name"ljh"#配置user.namegitconfiguser.email"[email protected]
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
为什么你总是对下属不满意? ZhaoWu1050
【ZhaoWu的听课笔记】大多数公司，都存在两种问题。我创业四年，更是体会深切。这两种问题就是：老板经常不满意下属的表现；下属总是不知道老板想要什么；虽然这两种问题普遍存在，其实解决方法并不复杂。这节课，我们再聊聊第一个问题：为什么老板经常不满意下属表现?其实，这背后也是一条管理常识。管理学家德鲁克先生早就说过：管理者的任务，不是去改变人。*来自《卓有成效的管理者》只是大多数老板和我一样，都是一边
母亲节如何做小红书营销美橙传媒
小红书的一举一动引起了外界的高度关注。通过爆款笔记和流行话题，我们可以看到“干货”类型的内容在小红书中偏向实用的生活经验共享和生活指南非常受欢迎。根据运营社的分析，这种现象是由小红书用户心智和内容社区背后机制共同决定的。首先，小红书将使用“强搜索”逻辑为用户提供特定的“搜索场景”。在“我必须这样生活”中，大量使用了满足小红书站用户喜好和需求的内容。内容社区自制的高质量内容也吸引了寻找营销新途径的品
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
读书笔记|《遇见孩子，遇见更好的自己》5 抹茶社长
为人父母意味着放弃自己的过去，不要对以往没有实现的心愿耿耿于怀，只有这样，孩子们才能做回自己。985909803.jpg孩子在与父母保持亲密的同时更需要独立，唯有这样，孩子才会成为孩子，父母才会成其为父母。有耐心的人生往往更幸福，给孩子留点余地。认识到养儿育女是对耐心的考验。为失败做好心理准备，教会孩子控制情绪。了解自己的底线，说到底线，有一点很重要，父母之所以发脾气，真正的原因往往在于他们自己，
xml解析小猪猪08 xml
1、DOM解析的步奏准备工作： 1.创建DocumentBuilderFactory的对象 2.创建DocumentBuilder对象 3.通过DocumentBuilder对象的parse(String fileName)方法解析xml文件 4.通过Document的getElem
每个开发人员都需要了解的一个SQL技巧 brotherlamp linux linux视频 linux教程 linux自学 linux资料
对于数据过滤而言CHECK约束已经算是相当不错了。然而它仍存在一些缺陷，比如说它们是应用到表上面的，但有的时候你可能希望指定一条约束，而它只在特定条件下才生效。使用SQL标准的WITH CHECK OPTION子句就能完成这点，至少Oracle和SQL Server都实现了这个功能。下面是实现方式： CREATE TABLE books ( id &
Quartz——CronTrigger触发器 eksliang quartz CronTrigger
转载请出自出处：http://eksliang.iteye.com/blog/2208295 一.概述 CronTrigger 能够提供比 SimpleTrigger 更有具体实际意义的调度方案，调度规则基于 Cron 表达式，CronTrigger 支持日历相关的重复时间间隔（比如每月第一个周一执行），而不是简单的周期时间间隔。二.Cron表达式介绍 1）Cron表达式规则表 Quartz
Informatica基础 18289753290 Informatica Monitor manager workflow Designer
1. 1）PowerCenter Designer：设计开发环境，定义源及目标数据结构；设计转换规则，生成ETL映射。 2）Workflow Manager：合理地实现复杂的ETL工作流，基于时间，事件的作业调度 3）Workflow Monitor：监控Workflow和Session运行情况，生成日志和报告 4）Repository Manager：
linux下为程序创建启动和关闭的的sh文件，scrapyd为例酷的飞上天空 scrapy
对于一些未提供service管理的程序每次启动和关闭都要加上全部路径，想到可以做一个简单的启动和关闭控制的文件下面以scrapy启动server为例，文件名为run.sh： #端口号，根据此端口号确定PID PORT=6800 #启动命令所在目录 HOME='/home/jmscra/scrapy/' #查询出监听了PORT端口
人--自私与无私永夜-极光
今天上毛概课,老师提出一个问题--人是自私的还是无私的,根源是什么? 从客观的角度来看,人有自私的行为,也有无私的
Ubuntu安装NS-3 环境脚本随便小屋 ubuntu
将附件下载下来之后解压，将解压后的文件ns3environment.sh复制到下载目录下（其实放在哪里都可以，就是为了和我下面的命令相统一）。输入命令： sudo ./ns3environment.sh >>result 这样系统就自动安装ns3的环境，运行的结果在result文件中，如果提示 com
创业的简单感受 aijuans 创业的简单感受
2009年11月9日我进入a公司实习，2012年4月26日，我离开a公司，开始自己的创业之旅。今天是2012年5月30日，我忽然很想谈谈自己创业一个月的感受。当初离开边锋时，我就对自己说：“自己选择的路，就是跪着也要把他走完”，我也做好了心理准备，准备迎接一次次的困难。我这次走出来，不管成败
如何经营自己的独立人脉 aoyouzi 如何经营自己的独立人脉
独立人脉不是父母、亲戚的人脉，而是自己主动投入构造的人脉圈。“放长线，钓大鱼”，先行投入才能产生后续产出。现在几乎做所有的事情都需要人脉。以银行柜员为例，需要拉储户，而其本质就是社会人脉，就是社交！很多人都说，人脉我不行，因为我爸不行、我妈不行、我姨不行、我舅不行……我谁谁谁都不行，怎么能建立人脉？我这里说的人脉，是你的独立人脉。以一个普通的银行柜员
JSP基础百合不是茶 jsp 注释隐式对象
1,JSP语句的声明 <%! 声明 %> 　　声明：这个就是提供java代码声明变量、方法等的场所。表达式 <%= 表达式 %> 　　这个相当于赋值，可以在页面上显示表达式的结果，程序代码段/小型指令　<% 程序代码片段 %> 2,JSP的注释
web.xml之session-config、mime-mapping bijian1013 java web.xml servlet session-config mime-mapping
session-config 1.定义： <session-config> <session-timeout>20</session-timeout> </session-config> 2.作用：用于定义整个WEB站点session的有效期限，单位是分钟。 mime-mapping 1.定义： <mime-m
互联网开放平台（1） Bill_chen 互联网 qq 新浪微博百度腾讯
现在各互联网公司都推出了自己的开放平台供用户创造自己的应用，互联网的开放技术欣欣向荣，自己总结如下： 1.淘宝开放平台(TOP) 网址：http://open.taobao.com/ 依赖淘宝强大的电子商务数据，将淘宝内部业务数据作为API开放出去，同时将外部ISV的应用引入进来。目前TOP的三条主线： TOP访问网站：open.taobao.com ISV后台：my.open.ta
【MongoDB学习笔记九】MongoDB索引 bit1129 mongodb
索引可以在任意列上建立索引索引的构造和使用与传统关系型数据库几乎一样,适用于Oracle的索引优化技巧也适用于Mongodb 使用索引可以加快查询,但同时会降低修改,插入等的性能内嵌文档照样可以建立使用索引测试数据 var p1 = { "name":"Jack", "age&q
JDBC常用API之外的总结白糖_ jdbc
做JAVA的人玩JDBC肯定已经很熟练了，像DriverManager、Connection、ResultSet、Statement这些基本类大家肯定很常用啦，我不赘述那些诸如注册JDBC驱动、创建连接、获取数据集的API了，在这我介绍一些写框架时常用的API，大家共同学习吧。 ResultSetMetaData获取ResultSet对象的元数据信息
apache VelocityEngine使用记录 bozch VelocityEngine
VelocityEngine是一个模板引擎，能够基于模板生成指定的文件代码。使用方法如下： VelocityEngine engine = new VelocityEngine();// 定义模板引擎 Properties properties = new Properties();// 模板引擎属
编程之美-快速找出故障机器 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; public class TheLostID { /*编程之美假设一个机器仅存储一个标号为ID的记录，假设机器总量在10亿以下且ID是小于10亿的整数，假设每份数据保存两个备份，这样就有两个机器存储了同样的数据。 1.假设在某个时间得到一个数据文件ID的列表，是
关于Java中redirect与forward的区别 chenbowen00 java servlet
在Servlet中两种实现： forward方式：request.getRequestDispatcher(“/somePage.jsp”).forward(request, response); redirect方式：response.sendRedirect(“/somePage.jsp”); forward是服务器内部重定向，程序收到请求后重新定向到另一个程序，客户机并不知
[信号与系统]人体最关键的两个信号节点 comsci 系统
如果把人体看做是一个带生物磁场的导体,那么这个导体有两个很重要的节点,第一个在头部,中医的名称叫做百汇穴, 另外一个节点在腰部,中医的名称叫做命门如果要保护自己的脑部磁场不受到外界有害信号的攻击,最简单的
oracle 存储过程执行权限 daizj oracle 存储过程权限执行者调用者
在数据库系统中存储过程是必不可少的利器，存储过程是预先编译好的为实现一个复杂功能的一段Sql语句集合。它的优点我就不多说了，说一下我碰到的问题吧。我在项目开发的过程中需要用存储过程来实现一个功能，其中涉及到判断一张表是否已经建立，没有建立就由存储过程来建立这张表。 CREATE OR REPLACE PROCEDURE TestProc IS fla
为mysql数据库建立索引 dengkane mysql 性能索引
前些时候，一位颇高级的程序员居然问我什么叫做索引，令我感到十分的惊奇，我想这绝不会是沧海一粟，因为有成千上万的开发者（可能大部分是使用MySQL的）都没有受过有关数据库的正规培训，尽管他们都为客户做过一些开发，但却对如何为数据库建立适当的索引所知较少，因此我起了写一篇相关文章的念头。最普通的情况，是为出现在where子句的字段建一个索引。为方便讲述，我们先建立一个如下的表。
学习C语言常见误区如何看懂一个程序如何掌握一个程序以及几个小题目示例 dcj3sjt126com c 算法
如果看懂一个程序，分三步 1、流程 2、每个语句的功能 3、试数如何学习一些小算法的程序尝试自己去编程解决它，大部分人都自己无法解决如果解决不了就看答案关键是把答案看懂，这个是要花很大的精力，也是我们学习的重点看懂之后尝试自己去修改程序，并且知道修改之后程序的不同输出结果的含义照着答案去敲调试错误
centos6.3安装php5.4报错 dcj3sjt126com centos6
报错内容如下: Resolving Dependencies --> Running transaction check ---> Package php54w.x86_64 0:5.4.38-1.w6 will be installed --> Processing Dependency: php54w-common(x86-64) = 5.4.38-1.w6 for
JSONP请求 flyer0126 jsonp
使用jsonp不能发起POST请求。 It is not possible to make a JSONP POST request. JSONP works by creating a <script> tag that executes Javascript from a different domain; it is not pos
Spring Security（03）——核心类简介 234390216 Authentication
核心类简介目录 1.1 Authentication 1.2 SecurityContextHolder 1.3 AuthenticationManager和AuthenticationProvider 1.3.1 &nb
在CentOS上部署JAVA服务 java--hhf java jdk centos Java服务
本文将介绍如何在CentOS上运行Java Web服务，其中将包括如何搭建JAVA运行环境、如何开启端口号、如何使得服务在命令执行窗口关闭后依旧运行第一步：卸载旧Linux自带的JDK ①查看本机JDK版本 java -version 结果如下 java version "1.6.0"
oracle、sqlserver、mysql常用函数对比[to_char、to_number、to_date] ldzyz007 oracle mysql SQL Server
oracle &n
记Protocol Oriented Programming in Swift of WWDC 2015 ningandjin protocol WWDC 2015 Swift2.0
其实最先朋友让我就这个题目写篇文章的时候，我是拒绝的，因为觉得苹果就是在炒冷饭，把已经流行了数十年的OOP中的“面向接口编程”还拿来讲，看完整个Session之后呢，虽然还是觉得在炒冷饭，但是毕竟还是加了蛋的，有些东西还是值得说说的。通常谈到面向接口编程，其主要作用是把系统设计和具体实现分离开，让系统的每个部分都可以在不影响别的部分的情况下，改变自身的具体实现。接口的设计就反映了系统
搭建 CentOS 6 服务器(15) - Keepalived、HAProxy、LVS rensanning keepalived
（一）Keepalived （1）安装 # cd /usr/local/src # wget http://www.keepalived.org/software/keepalived-1.2.15.tar.gz # tar zxvf keepalived-1.2.15.tar.gz # cd keepalived-1.2.15 # ./configure # make &a
ORACLE数据库SCN和时间的互相转换 tomcat_oracle oracle sql
SCN（System Change Number 简称 SCN）是当Oracle数据库更新后，由DBMS自动维护去累积递增的一个数字，可以理解成ORACLE数据库的时间戳，从ORACLE 10G开始，提供了函数可以实现SCN和时间进行相互转换；　　用途：在进行数据库的还原和利用数据库的闪回功能时，进行SCN和时间的转换就变的非常必要了；　　操作方法：　　1、通过dbms_f
Spring MVC 方法注解拦截器 xp9802 spring mvc
应用场景，在方法级别对本次调用进行鉴权，如api接口中有个用户唯一标示accessToken,对于有accessToken的每次请求可以在方法加一个拦截器，获得本次请求的用户，存放到request或者session域。 python中，之前在python flask中可以使用装饰器来对方法进行预处理，进行权限处理先看一个实例,使用@access_required拦截： ?

信息检索与智能问答