jessie_weiqing

【笔记1-2】基于维基百科的开放域问题问答系统DrQA

Reading Wikipedia to Answer Open-Domain Questions

（一）论文概述（摘要+简介）
（二）相关研究
（三）DrQA

1. Document Retriever （提取文章）
2. Document Reader （回答问题）

2.1 Paragraph encoding
2.2 Question encoding
2.3 Prediction

（四）数据介绍

1. 维基百科
2. SQuAD
3. 开放域QA
4. Distant supervision （DS）

（五）实验
（六）结论

https://arxiv.org/pdf/1704.00051.pdf
Reading Wikipedia to Answer Open-Domain Questions

最近在读陈丹琦学姐的博士毕业论文，论文里面涉及到的关键论文和模型都会在近期进行总结，以帮助理解毕业论文中的相关模型以及思想。

【笔记1-1】基于对话的问答系统CoQA (Conversational Question Answering)

【笔记1-3】斯坦福机器阅读理解模型Stanford Attentive Reader

【笔记1-4】陈丹琦毕业论文 NEURAL READING COMPREHENSION AND BEYOND

（一）论文概述（摘要+简介）

出发点： 以往的机器阅读理解任务所包含的数据集都十分有限，不仅局限于某一个领域，而且往往是基于文章进行答案检索，这对于人们日常生活中的检索需求而言，不太相符。而维基百科作为一个随时更新的知识库，有着很多人们感兴趣的内容，如果能让机器也能阅读这样海量的知识文档，并准确回答我们所需的问题，这对于我们检索并了解知识而言十分有用，因此提出了这个基于维基百科的开放域问题问答系统DrQA。

该文章以维基百科作为知识来源，建立了一个开放域问答系统DrQA，用于处理大规模机器阅读任务（MRS, machine reading at scale）。

模型包含两个部分，分别是Document Retriever和Document Reader，分别用于从广大的数据来源中提取与问题相关的文章，根据提取的文章找到问题的答案，完成阅读理解工作。

实验结果表明文章建立的两个部分的模型和其他已有的模型相比效果较好；多任务学习以及远距离监督的结合对于这一项任务而言十分有效。

（二）相关研究

根据作者在文中用到的思想，方法和数据，对以下相关研究进行了对比分析：

以往的开放域回答都基于非结构化的文档展开，尽管随着knowledge bases（KBs）的发展，许多数据实现了创新，但KBs依旧存在不完整，模式固定的缺点。
对于机器阅读理解的发展，现在已经有了很多表现较好的模型，但除了传统的数据库之外，这些模型的表现还没有在开放域问题上得到检验。
对于维基百科这一数据来源，有过将维基百科与其他数据结合，用维基百科进行阅读理解答案修正的研究，但该文章将维基百科作为唯一数据来源，以明确模型在大规模机器阅读任务（MRS）上的表现。
使用网页完成问答的模型还有AskMSR, DeepQA, YodaQA, 但这些模型都有多个数据来源，为该文章模型的表现评估提供了一个参考上界。
多任务学习和任务迁移也是经常用于机器阅读的工具，尤其是自然语言处理领域。以往的研究都致力于通过多任务学习实现多个问答数据集的结合：利用任务迁移来提高模型在数据集上的表现；利用数据集的多样性提供一个能回答各种问题的工具。

（三）DrQA

总体上，DrQA具有以下几个特点：

将bigram与TF-IDF结合，使用哈希降维，减少存储空间；
段落的字符编码考虑了词嵌入，词性，与问题相关的硬注意力以及软注意力；
通过远程监督为传统数据集扩充样本，结合多任务学习；
使用维基百科作为唯一数据来源，不需要预先划定段落重点；

1. Document Retriever （提取文章）

模型概述：
对于相关文章提取部分，作者采用了经典的信息检索（非机器学习）思想来缩小搜索范围：分别计算问题和文章的bigram的TF-IDF向量，然后结合两个TF-IDF得到与问题最相关的五篇文章。

这种基于统计的做法可以保证检索速度。缺点在于完全基于统计的做法忽略了词与词之间的内在含义的关联性，且与Document Reader分离，无法进行端对端训练。

具体实现：

对语料单词进行清洗，包括去停词等过滤操作
统计所有的bigram，并对bigram做同样规则的清洗得到最终的bigram
将这些bigram进行murmur3 hashing得到每个bigram的id（如果哈系特征数目设置过小，可能会有两个不同bigram的id相同，文章用了特征数目为2^24，可以尽量避免这种哈希冲突）
根据TF-IDF公式计算每个bigram的IDF向量以及TF向量，将IDF乘以TF得到TF-IDF向量
将问题的TF-IDF向量与文章的TF-IDF向量相乘取最大的前五个的文章的索引，得到与问题最相关的5篇文章（因为TF-IDF是衡量一个词（或其他形式的元组）对一个文档的重要性，如果一些词既对于问题很重要，又对于文章很重要，那么就可以得出结论这个问题与这个文章的关联性很大）

2. Document Reader （回答问题）

模型概述：
给定一个带有 $l$ 个记号（token） ${q_1,......,q_l\}$ 的问题 $q$ 以及一个包含 $n$ 个段落的文档（或文档集合）每个段落 $p$ 包含 $m$ 个记号 ${p_1,......,p_m\}$

轮流对每个段落应用一个RNN模型，得到预测的答案。

2.1 Paragraph encoding

将每一个token $p_i$ 转换成特征向量 $\tilde{\mathbf{p_i}}\in \mathbb{R}^d$
将特征向量 $\tilde{\mathbf{p}}$ 作为多层双向RNN（LSTM）的输入，取各隐藏层的隐藏单元得到 $\mathbf{p}$
$\{\mathbf{p_1,......p_m}\} = RNN(\{\tilde{\mathbf{p_1}},......,\tilde{\mathbf{p_m}}\})$
RNN输出得到的 $\mathbf{p_i}$ 包含了token $p_i$ 附近的上下文信息

需要特别指出的是，这里的特征向量 $\tilde{\mathbf{p_i}}$ 并不像传统的embedding矩阵那么简单，而是由以下三个部分组成：

word embedding： $f_{emb}(p_i) = \mathbf{E}(p_i)$
使用训练好的300维Glove词向量，保留绝大多数词向量，对出现频率最高的1000个单词进行fine-tune，比如常见的who, when, how, what, where，这些单词对于QA系统十分关键；
Exact match： $f_{exact\_match}(p_i) = \mathbb{I}(p_i\in q)$
引入了三个二值特征，分别表示该单词是否对应于问题中的某一个单词，是否是小写原始形式，是否是词根形式，这三个特征对于结果十分有效；
Token features： $f_{token}(p_i) = (\mathbf{POS}(p_i),\mathbf{NER}(p_i),\mathbf{TF}(p_i))$
这个特征用来描述词本身的属性，包括词性(part-of-speech, POS)、命名体(named entity recognition, NER)以及归一化的词频(term frequency, TF)，三者拼接组成一个向量；
Aligned question embedding： $f_{align}(p_i) = \sum _{j} a_{i,j}\mathbf{E}(q_j)$
这个特征用来描述paragraph中每个单词与question中每个单词对齐的embedding，用 $a_{ij}$ 表示paragraph中的单词 $p_i$ 与question中的单词 $q_j$ 的相似度，称为attention score。
$a_{i,j} = \frac{exp(\alpha(\mathbf{E}(p_i))\cdot\alpha(\mathbf{E}(q_j)))}{\sum_{j'}exp(\alpha(\mathbf{E}(p_i))\cdot \alpha(\mathbf{E}(q_{j'})))}$
其计算方式为：将每个embedding $\mathbf{E}$ 经过一层ReLU激活函数的全连接网络，各自相乘并且归一化。
特征跟Exact match中的第一个二值化特征很像，但exact match从名字就可以看出是判断是否完全一样，而这里是用相似度来度量，即使两个单词不一样，意思相近的话，相似度也会高，相当于软注意力机制，Exact Match则相当于硬注意力机制；

2.2 Question encoding

Question的编码简单一些：

将token $q_i$ 的word embedding $\mathbf{q_i}$ 作为RNN的输入
将RNN的隐含单元加权拼接到一起组成一个向量： $\{\mathbf{q_1},......,\mathbf{q_l}\} \rightarrow \mathbf{q}$ ,
$\mathbf{q}=\sum_{j}b_j \mathbf{q_j}$ ，其中权重因子 $b_j$ 通过将每个单词的embedding $\mathbf{q_j}$ 乘以一个可以学习的权重向量 $\mathbf{w}$ 并经过softmax得到:
$b_j = \frac{exp(\mathbf{w}\cdot \mathbf{q_j})}{\sum_{j'}exp(\mathbf{w}\cdot \mathbf{q_{j'}})}$

2.3 Prediction

由于最终的答案一定是从paragraph中生成的，因此只用找到答案在paragraph中的单词区间，即找到开始字符和结束字符各自的位置即可。

对于开始和结束的位置，训练两个分类器，将段落向量 $\{\mathbf{p_1,......p_m}\}$ 和问题向量 $\mathbf{q}$ 作为输入，获取 $\mathbf{p_i}$ 和 $\mathbf{q}$ 之间的相似度，通过两个带有exp函数的线性网络分别计算每个字符成为开始字符和结束字符的概率：
$P_{start}(i) \propto exp(\mathbf{p_i}\mathbf{W_s}\mathbf{q})$ $P_{end}(i) \propto exp(\mathbf{p_i}\mathbf{W_e}\mathbf{q})$ 在预测的过程中，选择从token $i$ 到token $i^{'}$ 的最佳范围，该最佳范围满足： $\leq i' \leq i+15$ 且 $P_{start}(i) * P_{end}(i')$ 最大。

在训练过程中，将 $P_{start}(i)$ 和 $P_{end}(i')$ 记为start_score和end_score，则损失函数由两个部分相加得到，即start_score与target_start的负对数似然函数加end_score与target_end的负对数似然函数得到最终的损失函数，进而可以使用反向传播来更新所有参数。

（四）数据介绍

1. 维基百科

wikipedia：作为寻找问题答案的知识库
只保留文字，一共5075182篇文章和9008962个不同的字符

2. SQuAD

SQuAD：用来训练document reader
基于维基百科的机器阅读数据集，训练集包含87k个示例，开发集包含10k个示例，以及一个很大的隐藏测试集，可以通过Creator获取。
每个样本包含一个自然段、问题和人工答案，通常用exact string match与F1 score两种评估方法，都是在字符级别进行评估。

SQuAD是最大的问答数据集，但本文的模型定位是用于开放领域的问答系统，所以仅用SQuAD数据集训练和评估Document Reader的机器阅读理解能力，在SQuAD验证集上做测试。
与其他论文中的测试不同的是，这里作者剔除了自然段，仅仅给出问题以及wikipedia数据库，让模型自己去匹配对应的自然段然后找出答案。

3. 开放域QA

CuratedTREC、WebQuestions、WikiMovies：用来测试模型在开放域数据集上的表现，并用于衡量多任务学习和DS的效果。

与SQuAD不同，这三个数据集只包含问题和答案，没有关联的文档或段落，因此无法用来直接训练Document Reader。
作者采取了Mintz在论文Distant supervision for relation extraction without labelled data中提出的Distant Supervised方法来构建训练集，该方法的核心思想是基于已有的关系库来为训练样本匹配文章。（见下）

4. Distant supervision （DS）

具体步骤：
（1）基于数据集中的问题，使用document retriever提取相关性最高的5篇文章。
（2）对于五篇文章中的所有段落，抛弃不包含与已知答案完全匹配（no exact match）的段落，抛弃小于25个字大于1500个字的段落，若有的段落中包含命名实体，抛弃那些不包含命名实体的段落
（3）对于留下来的所有段落，从段落中找出包含答案的span，这里是基于word水平的，也就是unigram，首先找到段落中包含答案的完整区间[start, end]，然后基于20 token window，从start向左延展20个word，从end向右延展20个word（要保证左右两边不能溢出，溢出则取边界）得到一个备选小段落
（4）从备选小段落中找出最有可能的5个小段落，要与问题进行比较。分别对每个小段落统计它的bigram，同时也统计问题的bigram，最后统计每个小段落的bigram与问题的bigram有多少交集，最后对交集求和，求和总数最多的5个小段落为最有可能的段落。比如小段落的bigram是{‘i am’:2, ‘you are’:3, ‘how are’: 1}，问题的bigram是{‘i am’: 3, ‘you are’: 1}，交集是{‘i am’:2, ‘you are’:1}，求和就是3次。

（五）实验

（1）首先对document retriever进行测试，结果表明这一文档检索工具比wikipedia search的效果更好，尤其是在引入bigram哈希的时候。

（2）然后对document reader部分进行测试。

在具体实现过程中，作者使用三层双向LSTM，包含128个隐藏单元，对段落和问题进行编码，使用Stanford CoreNLP toolkit做标记（tokenization）词性生成以及命名实体标签。按照段落长度对训练样本进行排序，将样本分成大小为32的mini-batch，使用adamax作为优化器，对词嵌入和LSTM隐藏单元使用p=0.3的dropout

结果表明，作者提出的这个理论上较为简单的模型表现很好，并对前文所述的特征向量进行了切除分析。分析结果表明只去除 $f_{align}$ 这个特征对模型表现影响不大，但是同时去除 $f_{align}, f_{exact_match}$ 模型的表现就会大幅度下降，这可能是因为两者的作用相似又互补。

（3）最后对DrQA模型整体进行实验，将DrQA用于前述数据库，并对比分析多任务学习和远距离监督的效果。

先在SQuAD上训练一个简单地document reader，然后基于SQuAD预训练一个document reader并使用每个数据集的远距离监督（DS）训练集对模型进行fine-tune，最后在SQuAD以及其他DS训练集上集合训练一个document reader。

结果表明引入DS和多任务学习对模型的提升效果不明显，表明其中存在任务迁移，而DS的单独引入对模型的提升可能是由于额外数据的引入，最终最好的模型是multitask (DS)

（六）结论

本文基于MSR任务，利用维基百科构建了一个开放域的问答系统DrQA，由document retriever和document reader两个部分组成，分别负责文章提取和阅读理解。实验结果表明，引入多任务学习以及远距离监督（DS）的模型效果最好。

mysql数据库学号数据类型_MySQL数据库学习笔记（二）----MySQL数据类型艾萨里昂之光 mysql数据库学号数据类型
【正文】上一章节中，我们学习了MySQL软件的安装，既然软件都装好了，现在就正式开始MySQL的基础知识的学习吧，即使是零基础，也要一步一个脚印。恩，首先要学习的就是MySQL的数据类型。一、数据类型：1、整型(xxxint)2、浮点型(float和double)3、定点数(decimal)4、字符串(char,varchar,xxxtext)5、二进制数据(xxxBlob)6、日期时间类型二、数
打造金融数据新引擎，看永洪科技助力头部农信社搭建一站式分析平台永洪科技金融数据可视化 BI 数据分析大数据
在数字化转型的浪潮中，金融行业作为经济发展的核心引擎，正加速探索数字化、智能化的新路径。永洪科技，近日成功助力某省农村信用社联合社（简称：Z企业）完成了其数字化转型的重要一步，通过部署先进的商业智能解决方案，为Z企业的业务升级与效能提升注入了强劲动力。随着智能金融时代的来临，以大数据、人工智能、移动互联等新兴技术为核心的金融科技持续赋能银行金融业务数字化、智能化、开放化的发展，为金融机构营销体系的
笔记本Win7系统无线网名称显示乱码解决方案 mmoo_python windows
笔记本Win7系统无线网名称显示乱码解决方案在使用Windows7操作系统的笔记本电脑时，用户可能会遇到无线网络名称显示乱码的问题。这一问题不仅影响了用户识别无线网络的便利性，还可能阻碍正常的网络连接。本文将详细介绍解决这一问题的方法，帮助用户恢复无线网名称的正常显示。具体解决方法1.打开控制面板首先，我们需要进入Windows7的控制面板。可以通过点击开始菜单，然后在搜索框中输入“控制面板”来快
mysql笔记 m0_67015473 mysql 笔记
mysql日志分析错误日志日志默认开启，查询showvariableslike“%error_log%”，日志存在于/var/log/mysqld.log二进制日志日志默认开启，记录所有的DDL(Create等)和DML(insert等)，但不包括数据查询（SELECT、SHOW)语句作用：灾难时的数据恢复mysql的主从复制查询showvariableslike“%log_bin%”，日志存在于
学习笔记——GPU 鹤岗小串 gpu算力分布式信息与通信系统架构硬件架构运维笔记
本文为学习笔记，故只对知识点依据自己的理解作概要总结，方便以后复习激活记忆。注：本文中GPU的讲解以A100型号为例，V100跟A100的架构差别不大也可适用，但是其他架构可能会有所出入。一、GPU硬件结构NVIDIAA100GPU的硬件结构HBM2：显存MemoryController：负责控制HBM2和L2Cache之间的通信High-SpeedHub：GPU总线，将NVLink、PCIE、E
【QT入门】 Qt槽函数五种常用写法介绍不吃~香菜 QT入门 qt 开发语言槽函数信号槽
声明：该专栏为本人学习Qt知识点时候的笔记汇总，希望能给初学的朋友们一点帮助(加油！)往期回顾：【QT入门】实现一个简单的图片查看软件-CSDN博客【QT入门】图片查看软件(优化)-CSDN博客【QT入门】lambda表达式(函数)详解-CSDN博客【QT入门】Qt槽函数五种常用写法介绍一、信号槽基本概念Qt的信号槽是一种用于处理事件和通信的机制，是Qt框架中的一个重要特性。信号槽机制使得对象之间
【QT入门】qmake和cmake的简单区别不吃~香菜 QT入门 qt 开发语言学习 qmake cmake
声明：该专栏为本人学习Qt知识点时候的笔记汇总，希望能给初学的朋友们一点帮助(加油！)往期回顾：【QT入门】Windows平台下QT的编译过程-CSDN博客【QT入门】VS2019+QT的开发环境配置-CSDN博客【QT入门】VS2019和QTCreator如何添加第三方模块-CSDN博客【QT入门】qmake和cmake的简单区别qmake和cmake是两种常用的构建工具，用于自动化构建C++项
景联文科技：以高质量数据标注推动人工智能领域创新与发展景联文科技科技人工智能数据标注
在当今这个由数据驱动的时代，高质量的数据标注对于推动机器学习、自然语言处理（NLP）、计算机视觉等领域的发展具有不可替代的重要性。数据标注过程涉及对原始数据进行加工，通过标注特定对象的特征来生成能够被机器学习模型识别和使用的编码格式，从而使数据更具有意义和可解读性。数据标注的主要类型包括：图像标注：指在图片中标识出目标物体的位置、形状或类别等信息，如自动驾驶技术中的行人、车辆及交通标志的识别。文本
SpringAI集成DeepSeek 一诚学编程 java 人工智能 spring boot
1、利用spring-ai-openai集成DeepSeek1.1、在DeepSeek开放平台创建APIKEY1.2、创建SpringBoot工程，引入依赖4.0.0org.springframework.bootspring-boot-starter-parent3.3.8org.examplespringai-deepseek1.0-SNAPSHOT17171.0.0-M5org.spring
端到端的NLP框架（Haystack） deepdata_cn NLP 自然语言处理人工智能
Haystack是一个端到端的NLP框架，专门用于构建基于文档的问答系统，是实现RAG的理想选择。它提供了数据预处理、文档存储、检索和生成等一系列组件，支持多种语言模型和检索器。提供可视化界面，方便用户进行配置和调试；支持多模态数据，可处理文本、图像等多种类型的数据；具有可扩展性，可根据需求添加自定义组件。2020年在自然语言处理技术快速发展，对高效、易用且灵活的端到端NLP框架需求日益增长的背景
客服机器人怎么才能精准的回答用户问题？玩人工智能的辣条哥 AI面试机器人客服机器人
环境：客服机器人问题描述：客服机器人怎么才能精准的回答用户问题？解决方案：客服机器人要精准回答用户问题，需综合技术、数据和用户体验等多方面因素。以下是关键策略和步骤：1.精准理解用户意图自然语言处理（NLP）技术分词与实体识别：提取关键词（如“订单号”“退货”）和实体（如时间、地点）。意图分类：通过机器学习模型（如BERT、Transformer）将问题归类（如“售后”“支付”）。上下文理解记录对
读书笔记五 ---大数据之路--数仓分层 qq_38215991 big data 大数据
数据分层在流式数据模型中,数据模型整体上分为五层。ODS层跟离线系统的定义一样,ODS层属于操作数据层,是直接从业务系统采集过来的最原始数据（进行了数据清洗）,包含了所有业务的变更过程,数据粒度也是最细的。在这一层,实时和离线在源头上是统一的,这样的好处是用同一份数据加工出来的指标,口径基本是统一的,可以更方便进行实时和离线问数据比对。例如:原始的订单变更记录数据、服务器引擎的访同日志。（原始数据
Roblox 开源 AI 3D 生成模型，游戏开发迎来智能化变革 Yvette-W IT职业圈人工智能 3d 游戏
如果说过去的3D游戏开发需要建模师一笔一划地雕刻细节，如今AI的加入正在彻底改变这一模式。Roblox最新发布的3D生成AI模型——Cube，允许开发者用简单的文本指令，快速生成3D物体。更重要的是，Roblox还开放了Cube的开源版本，这意味着不仅Roblox开发者，任何游戏开发团队甚至个人创作者，都可以利用这项技术来提升创作效率。这一突破不仅能让游戏开发变得更快、更简单，也让AI在3D生成领
统一的视频动作模型三谷秋水计算机视觉机器学习人工智能计算机视觉深度学习机器学习人工智能
25年3月来自斯坦福大学的论文“UnifiedVideoActionModel”。统一的视频和动作模型对机器人技术具有重大意义，其中视频为动作预测提供丰富的场景信息，而动作为视频预测提供动态信息。然而，有效地结合视频生成和动作预测仍然具有挑战性，当前基于视频生成的方法在动作准确性和推理速度方面难以与直接策略学习的性能相匹配。为了弥补这一差距，引入统一的视频动作模型（UVA），它联合优化视频和动作预
侯捷 C++ 课程学习笔记：深入掌握 C++ 高阶特性 —— 实践与心得分享清水白石008 C++学习笔记课程教程 c++学习笔记
侯捷C++课程学习笔记：深入掌握C++高阶特性——实践与心得分享自从开始接触侯捷C++系列精品课程以来，我对C++语言有了全新的认识与深入理解。这套课程不仅系统地梳理了C++的基础知识，更从实际案例中展示了许多高阶特性和工程实战技巧。作为一名长期从事C++开发的专业人士，我深深感受到侯捷老师讲解中那种由浅入深、逻辑严密的魅力，也正是这种教学风格让我在短时间内掌握了不少难以琢磨的知识点。今天，我将结
WHAM 人体3d重建部署笔记 AI算法网奇深度学习宝典 3d 笔记
目录依赖项：mmpose的依赖项：demo脚本WHAM:ReconstructingWorld-groundedHumanswithAccurate3DMotion2024依赖项：pipinstallmmposemmpose的依赖项：mmcv>=2.0.0,=3.0.0,=0.4.0,<1.0.0demo脚本Youcantrywithoneexamplarvideo:pythondemo.py--
SpringBoot原理篇-SpringBoot配置优先级-Bean管理-起步依赖原理-自动配置两种方案-源码跟踪-自定义starter 汐栊 spring boot java spring
目录SpringBoot原理篇:配置文件优先级:Bean管理:Bean的作用域:第三方Bean:注意事项:起步依赖的原理:自动配置原理:自动配置:方案一:方案二:个人理解的SpringBoot的自动化配置原理：自动配置-@Conditionnal:自定义starter:SpringBoot原理篇:配置文件优先级:SpringBoot中支持的三种格式的配置文件:1.properties:server
达梦数据库学习笔记 lwq979991632 数据库
达梦数据库学习资料一、操作系统安装1、配置信息CPU：4核心内存：4G网络：NAT2.安装包选择选择带GUI的服务器，勾选Java平台、KDE二、安装前准备1.数据库远程访问：关闭防火墙systemctlstopfirewalld（禁用）systemctldisablefirewalld(停止，关闭开机自启动)systemctlstatusfirewalld（查看状态）2.安装gcc包rpm-qa
抖音视频数据获取实战：从API调用到热门内容挖掘爱搞技术的猫猫 API 音视频
在短视频流量为王的时代，掌握抖音热门视频数据已成为内容运营、竞品分析及营销决策的关键。本文将手把手教你通过抖音开放平台API获取视频详情数据，并提供完整的代码实现及商业化应用思路。一、抖音API权限申请与核心接口抖音API需企业资质认证，个人开发者权限受限。以下是接入流程：企业开发者认证•登录开放平台，选择注册，提交信息等材料。•完成认证后，创建应用（如“视频数据分析工具”），获取ClientKe
Ubuntu和Windows系统之Mamba_ssm安装 Netceor Python ubuntu windows linux
Mamba的论文：https://arxiv.org/abs/2312.00752Mamba的github：https://github.com/state-spaces/mamba一、Ubuntu安装直接新建一个环境是最好的，不然很容易产生各种冲突#创建环境和相关包condacreate-nmambapython=3.10.13condaactivatemambacondainstallcuda
【自学笔记】Linux基础知识点总览-持续更新 Long_poem 笔记 linux 运维
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录Linux基础知识点总览目录Linux简介文件和目录结构常用命令文件操作目录操作权限管理文本处理Shell脚本基础进程管理用户和组管理网络配置总结Linux基础知识点总览目录Linux简介文件和目录结构常用命令文件操作目录操作权限管理文本处理Shell脚本基础进程管理用户和组管理网络配置Linux简介Linux是一个基于Uni
深入了解盘古大模型：技术、应用与未来 Hardess-god Literature review 人工智能
随着人工智能技术的迅猛发展，预训练大模型已成为AI领域最前沿、最热门的研究方向之一。近年来，中国自主研发的大模型之一——盘古模型（PanGuModel）逐渐进入公众视野，凭借其强大的性能和广泛的应用前景，引发了行业内外的广泛关注。什么是盘古大模型？盘古大模型是华为公司联合多家科研机构共同研发的超大规模预训练语言模型。该模型以中文数据为主进行训练，旨在推动中文自然语言处理（NLP）以及跨模态应用的技
python语言程序设计基础,python编程代码大全 Rtee1 python 开发语言服务器
大家好，小编为大家解答python语言程序设计基础第二版课后答案的问题。很多人还不知道PYTHON语言程序设计实践教程(陈东)答案，现在让我们一起来看看吧！目录1Python基本语法元素￲1.1程序设计基本方法1.1.1计算机与程序设计1.1.2编译与解释1.1.3程序的基本编写方法—IPO1.1.4计算机编程1.2Python开发环境配置1.2.1Python语言概述1.2.2Python程序的
c++算法赛万能模板个人笔记适用蓝桥杯，天梯赛，acm等赛事 a东方青个人笔记 c++算法笔记
算法笔记-更新与2025-3-22点赞收藏+关注持续更新算法基础二分整数二分//在一个单调区间里面去找答案boolcheck(intx){/*...*/}//检查x是否满足某种性质//区间[l,r]被划分成[l,mid]和[mid+1,r]时使用：intbsearch_1(intl,intr){while(l>1;if(check(mid))r=mid;//check()判断mid是否满足性质el
【Azure 架构师学习笔记】- Azure Networking(1) -- Service Endpoint 和 Private Endpoint 發糞塗牆 Azure 架构师学习笔记 Azure 网络安全 azure Network
本文属于【Azure架构师学习笔记】系列。本文属于【AzureNetworking】系列。前言最近公司的安全部门在审计云环境安全性时经常提到serviceendpoint（SE）和priavateendpoint（PE）的术语，为此做了一些研究储备。云计算的本质就是网络，默认情况下资源间及外部都是通过公网也就是互联网访问。为了安全，Azure引入了SE和PE等服务。云环境网络流动主要有两个：inb
NLP高频面试题（七）——GPT和Bert的mask有什么区别？ Chaos_Wang_ NLP常见面试题自然语言处理 gpt bert
GPT和BERT的Mask机制对比：核心区别与优化策略在NLP领域，GPT和BERT是最具代表性的预训练语言模型之一。它们都在训练过程中使用了Mask机制来引导模型学习语言表示，但具体实现方式和目标却有所不同。本文将深入探讨GPT和BERT的Mask方法的核心区别，并分析其优化策略。1.BERT的Mask机制：基于MLM（MaskedLanguageModel）BERT（Bidirectional
知识图谱中NLP新技术魔王阿卡纳兹知识图谱入门大数据治理与分析知识图谱自然语言处理人工智能
知识图谱与自然语言处理（NLP）的结合是当前人工智能领域的前沿方向，其技术发展呈现多维度融合与场景深化的特点。以下从核心技术突破、应用场景创新及未来趋势三个层面，系统梳理知识图谱中NLP的最新进展：一、核心技术突破基于预训练模型的图谱构建与增强预训练语言模型与知识嵌入融合：以BERT、KEPLER为代表的模型通过联合优化知识嵌入（KE）和语言建模目标，将知识图谱中的结构化知识融入预训练过程，显著提
计算机基础：编码02，有符号数编码，原码水饺编程 MFC学习笔记 Win32学习笔记 c++windows mfc c语言
专栏导航本节文章分别属于《Win32学习笔记》和《MFC学习笔记》两个专栏，故划分为两个专栏导航。读者可以自行选择前往哪个专栏。（一）WIn32专栏导航上一篇：计算机基础：编码01，无符号数编码回到目录下一篇：计算机基础：编码03，根据十进制数，求其原码（二）MFC专栏导航上一篇：计算机基础：编码01，无符号数编码回到目录下一篇：计算机基础：编码03，根据十进制数，求其原码本节前言上一节，我是讲解
「Kubernetes Objects」- Service（学习笔记） @20210227 k4nzdroid
Service，服务，用于暴露Pod以供访问。官方文档及手册KubernetesAPIv1.18/Servicev1coreService?Pod会被创建，并且还会消失，这由ReplicaSets控制。每个Pod都有自己的IP地址，但是这些IP地址不能视为可靠的。那么，如果前端的一部分Pod依赖于后端的Pod，那前端的这些Pod如何找出并追踪后端的Pod？ServiceService是一个抽象，定
k8s学习笔记（3）--- kubernetes核心技术概念梦谜 k8s基础知识 k8基本核心概念
kubernetes核心技术概念1.容器（Container）2.API对象3.集群（Cluster）4.Master5.Node6.Pod7.复制控制器（ReplicationController，RC）8.副本集（ReplicaSet，RS）9.部署(Deployment)10.服务（Service）11.任务（Job）12.定时任务（CronJob）13.后台支撑服务集（DaemonSet）
jQuery 跨域访问的三种方式 No 'Access-Control-Allow-Origin' header is present on the reque qiaolevip 每天进步一点点学习永无止境跨域众观千象
XMLHttpRequest cannot load http://v.xxx.com. No 'Access-Control-Allow-Origin' header is present on the requested resource. Origin 'http://localhost:63342' is therefore not allowed access. test.html:1
mysql 分区查询优化 annan211 java 分区优化 mysql
分区查询优化引入分区可以给查询带来一定的优势，但同时也会引入一些bug. 分区最大的优点就是优化器可以根据分区函数来过滤掉一些分区，通过分区过滤可以让查询扫描更少的数据。所以，对于访问分区表来说，很重要的一点是要在where 条件中带入分区，让优化器过滤掉无需访问的分区。可以通过查看explain执行计划，是否携带 partitions
MYSQL存储过程中使用游标 chicony Mysql存储过程
DELIMITER $$ DROP PROCEDURE IF EXISTS getUserInfo $$ CREATE PROCEDURE getUserInfo(in date_day datetime)-- -- 实例-- 存储过程名为：getUserInfo-- 参数为：date_day日期格式:2008-03-08-- BEGINdecla
mysql 和 sqlite 区别 Array_06 sqlite
转载： http://www.cnblogs.com/ygm900/p/3460663.html mysql 和 sqlite 区别 SQLITE是单机数据库。功能简约，小型化，追求最大磁盘效率 MYSQL是完善的服务器数据库。功能全面，综合化，追求最大并发效率 MYSQL、Sybase、Oracle等这些都是试用于服务器数据量大功能多需要安装，例如网站访问量比较大的。而sq
pinyin4j使用 oloz pinyin4j
首先需要pinyin4j的jar包支持；jar包已上传至附件内方法一:把汉字转换为拼音；例如：编程转换后则为biancheng /** * 将汉字转换为全拼 * @param src 你的需要转换的汉字 * @param isUPPERCASE 是否转换为大写的拼音； true:转换为大写；fal
微博发送私信随意而生微博
在前面文章中说了如和获取登陆时候所需要的cookie，现在只要拿到最后登陆所需要的cookie，然后抓包分析一下微博私信发送界面 http://weibo.com/message/history?uid=****&name=**** 可以发现其发送提交的Post请求和其中的数据，让后用程序模拟发送POST请求中的数据，带着cookie发送到私信的接入口，就可以实现发私信的功能了。
jsp 香水浓 jsp
JSP初始化容器载入JSP文件后，它会在为请求提供任何服务前调用jspInit()方法。如果您需要执行自定义的JSP初始化任务，复写jspInit()方法就行了 JSP执行这一阶段描述了JSP生命周期中一切与请求相关的交互行为，直到被销毁。当JSP网页完成初始化后
在 Windows 上安装 SVN Subversion 服务端 AdyZhang SVN
在 Windows 上安装 SVN Subversion 服务端2009-09-16高宏伟哈尔滨市道里区通达街291号最佳阅读效果请访问原地址：http://blog.donews.com/dukejoe/archive/2009/09/16/1560917.aspx 现在的Subversion已经足够稳定，而且已经进入了它的黄金时段。我们看到大量的项目都在使
android开发中如何使用 alertDialog从listView中删除数据？ aijuans android
我现在使用listView展示了很多的配置信息，我现在想在点击其中一条的时候填出 alertDialog,点击确认后就删除该条数据，（ ArrayAdapter ，ArrayList，listView 全部删除），我知道在下面的onItemLongClick 方法中参数 arg2 是选中的序号，但是我不知道如何继续处理下去 1 2 3
jdk-6u26-linux-x64.bin 安装 baalwolf linux
1.上传安装文件(jdk-6u26-linux-x64.bin) 2.修改权限 [root@localhost ~]# ls -l /usr/local/jdk-6u26-linux-x64.bin 3.执行安装文件 [root@localhost ~]# cd /usr/local [root@localhost local]# ./jdk-6u26-linux-x64.bin&nbs
MongoDB经典面试题集锦 BigBird2012 mongodb
1.什么是NoSQL数据库？NoSQL和RDBMS有什么区别？在哪些情况下使用和不使用NoSQL数据库？ NoSQL是非关系型数据库，NoSQL = Not Only SQL。关系型数据库采用的结构化的数据，NoSQL采用的是键值对的方式存储数据。在处理非结构化/半结构化的大数据时；在水平方向上进行扩展时；随时应对动态增加的数据项时可以优先考虑使用NoSQL数据库。在考虑数据库的成熟
JavaScript异步编程Promise模式的6个特性 bijian1013 JavaScript Promise
Promise是一个非常有价值的构造器，能够帮助你避免使用镶套匿名方法，而使用更具有可读性的方式组装异步代码。这里我们将介绍6个最简单的特性。在我们开始正式介绍之前，我们想看看Javascript Promise的样子： var p = new Promise(function(r
[Zookeeper学习笔记之八]Zookeeper源代码分析之Zookeeper.ZKWatchManager bit1129 zookeeper
ClientWatchManager接口 //接口的唯一方法materialize用于确定那些Watcher需要被通知 //确定Watcher需要三方面的因素1.事件状态 2.事件类型 3.znode的path public interface ClientWatchManager { /** * Return a set of watchers that should
【Scala十五】Scala核心九：隐式转换之二 bit1129 scala
隐式转换存在的必要性，在Java Swing中，按钮点击事件的处理，转换为Scala的的写法如下： val button = new JButton button.addActionListener( new ActionListener { def actionPerformed(event: ActionEvent) {
Android JSON数据的解析与封装小Demo ronin47
转自：http://www.open-open.com/lib/view/open1420529336406.html package com.example.jsondemo; import org.json.JSONArray; import org.json.JSONException; import org.json.JSONObject; impor
[设计]字体创意设计方法谈 brotherlamp UI ui自学 ui视频 ui教程 ui资料
从古至今，文字在我们的生活中是必不可少的事物，我们不能想象没有文字的世界将会是怎样。在平面设计中，UI设计师在文字上所花的心思和功夫最多，因为文字能直观地表达UI设计师所的意念。在文字上的创造设计，直接反映出平面作品的主题。如设计一幅戴尔笔记本电脑的广告海报，假设海报上没有出现“戴尔”两个文字，即使放上所有戴尔笔记本电脑的图片都不能让人们得知这些电脑是什么品牌。只要写上“戴尔笔
单调队列-用一个长度为k的窗在整数数列上移动，求窗里面所包含的数的最大值 bylijinnan java 算法面试题
import java.util.LinkedList; /* 单调队列滑动窗口单调队列是这样的一个队列：队列里面的元素是有序的，是递增或者递减题目：给定一个长度为N的整数数列a(i),i=0,1,...,N-1和窗长度k. 要求：f(i) = max{a(i-k+1),a(i-k+2),..., a(i)},i = 0,1,...,N-1 问题的另一种描述就
struts2处理一个form多个submit chiangfai struts2
web应用中，为完成不同工作，一个jsp的form标签可能有多个submit。如下代码： <s:form action="submit" method="post" namespace="/my"> <s:textfield name="msg" label="叙述：">
shell查找上个月，陷阱及野路子 chenchao051 shell
date -d "-1 month" +%F 以上这段代码，假如在2012/10/31执行，结果并不会出现你预计的9月份，而是会出现八月份，原因是10月份有31天，9月份30天，所以-1 month在10月份看来要减去31天，所以直接到了8月31日这天，这不靠谱。野路子解决：假设当天日期大于15号
mysql导出数据中文乱码问题 daizj mysql 中文乱码导数据
解决mysql导入导出数据乱码问题方法：１、进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+----------------------------------------+ | Variable_name&nbs
SAE部署Smarty出现：Uncaught exception 'SmartyException' with message 'unable to write dcj3sjt126com PHP smarty sae
对于SAE出现的问题：Uncaught exception 'SmartyException' with message 'unable to write file...。官方给出了详细的FAQ：http://sae.sina.com.cn/?m=faqs&catId=11#show_213 解决方案为： 01 $path
《教父》系列台词 dcj3sjt126com
Your love is also your weak point. 你的所爱同时也是你的弱点。 If anything in this life is certain, if history has taught us anything, it is that you can kill anyone. 不顾家的人永远不可能成为一个真正的男人。 &
mongodb安装与使用 dyy_gusi mongo
一.MongoDB安装和启动,widndows和linux基本相同 1.下载数据库, linux:mongodb-linux-x86_64-ubuntu1404-3.0.3.tgz 2.解压文件,并且放置到合适的位置 tar -vxf mongodb-linux-x86_64-ubun
Git排除目录 geeksun git
在Git的版本控制中，可能有些文件是不需要加入控制的，那我们在提交代码时就需要忽略这些文件，下面讲讲应该怎么给Git配置一些忽略规则。有三种方法可以忽略掉这些文件，这三种方法都能达到目的，只不过适用情景不一样。 1. 针对单一工程排除文件这种方式会让这个工程的所有修改者在克隆代码的同时，也能克隆到过滤规则，而不用自己再写一份，这就能保证所有修改者应用的都是同一
Ubuntu 创建开机自启动脚本的方法 hongtoushizi ubuntu
转载自： http://rongjih.blog.163.com/blog/static/33574461201111504843245/ Ubuntu 创建开机自启动脚本的步骤如下： 1) 将你的启动脚本复制到 /etc/init.d目录下以下假设你的脚本文件名为 test。 2) 设置脚本文件的权限 $ sudo chmod 755
第八章流量复制/AB测试/协程 jinnianshilongnian nginx lua coroutine
流量复制在实际开发中经常涉及到项目的升级，而该升级不能简单的上线就完事了，需要验证该升级是否兼容老的上线，因此可能需要并行运行两个项目一段时间进行数据比对和校验，待没问题后再进行上线。这其实就需要进行流量复制，把流量复制到其他服务器上，一种方式是使用如tcpcopy引流；另外我们还可以使用nginx的HttpLuaModule模块中的ngx.location.capture_multi进行并发
电商系统商品表设计 lkl
DROP TABLE IF EXISTS `category`; -- 类目表 /*!40101 SET @saved_cs_client = @@character_set_client */; /*!40101 SET character_set_client = utf8 */; CREATE TABLE `category` ( `id` int(11) NOT NUL
修改phpMyAdmin导入SQL文件的大小限制 pda158 sql mysql
　用phpMyAdmin导入mysql数据库时，我的10M的数据库不能导入，提示mysql数据库最大只能导入2M。　　 phpMyAdmin数据库导入出错：　　You probably tried to upload too large file. Please refer to documentation for ways to workaround this limit.
Tomcat性能调优方案 Sobfist apache jvm tomcat 应用服务器
一、操作系统调优对于操作系统优化来说，是尽可能的增大可使用的内存容量、提高CPU的频率，保证文件系统的读写速率等。经过压力测试验证，在并发连接很多的情况下，CPU的处理能力越强，系统运行速度越快。。【适用场景】任何项目。二、Java虚拟机调优应该选择SUN的JVM，在满足项目需要的前提下，尽量选用版本较高的JVM，一般来说高版本产品在速度和效率上比低版本会有改进。 J
SQLServer学习笔记 vipbooks 数据结构 xml
1、create database school 创建数据库school 2、drop database school 删除数据库school 3、use school 连接到school数据库，使其成为当前数据库 4、create table class(classID int primary key identity not null) 创建一个名为class的表，其有一