最AI的小PAI

智能问答系统：问句预处理、检索和深度语义匹配技术

更多干货内容敬请关注「平安寿险PAI」（公众号ID：PAL-AI），文末有本期分享内容资料获取方式。

智能问答系统是人机交互的核心技术之一，常见的应用场景主要是智慧客服。通过构建该系统，机器人可以快速找到与用户问题相匹配的答案并自动回答，从而大大减少企业的人力成本；除了提供专业领域的问答功能外，还可实现闲聊、私人助手等问答服务。

尽管业界在智能问答领域已经取得了令人瞩目的成就，但是智能问答系统还远未完美，在知识获取和对用户问句理解等核心技术上仍有较大的提升空间。

3月14日，由平安寿险AI团队在Paper Weekly直播间进行的主题为「智能问答系统」的技术分享，由资深算法工程师谢舒翼主讲，其内容分5个部分：

寿险的智能问答系统整体框架介绍
问句预处理核心技术
检索和深度语义匹配技术
基于深度学习的问答排序算法介绍
算法效果评估方案

分享老师：谢舒翼

平安人寿智能平台团队资深算法工程师。北航计算机系本硕，ACMer，Topcoder，多次获得各类编程赛冠军、数学竞赛一等奖。曾在百度、MSRA实习，任职于阿里巴巴，现为平安寿险人工智能研发团队资深算法工程师，主要研究方向为智能问答系统、知识图谱、NLP 相关算法。

以下是根据本期技术分享内容整理的文字稿。

一、框架介绍

首先介绍平安人寿智能问答引擎算法架构，如下图：

从问题输入开始，这里包括用户的问题以及语境中心提供上下文，其中包含用户的历史对话信息以及一些关于用户意图的结构化数据。

用户的问题输入后，首先进入预处理模块。在预处理模块里，分词、词性标注、实体识别都是比较成熟的技术，配合业务专用名词词典，我们采用Hanlp工具来做；多意图识别则用分类来做，主要处理用户一句话里有多个问题的意图，并给予不同的回答；问句改写主要是对保险名词的缩写和全称做改写；情感分析主要是通过句法分析去判断用户的话语是肯定意图或是否定意图。

预处理结束后，会进入检索模块。如果预处理经过纠错和问句改写，就会是多个query并行进入检索，触发ES字面检索和深度语义匹配。经过这两个检索模块得到的答案后，我们会从知识库以及Redis本地存储，把答案拿到后做多路结果归并。然后简单计算字面得分、语义得分、关键词得分，编辑距离作为LR的feature。

还有保险实体对齐，主要是重要名词、疾病、地区等的对齐。在排序模块里，比如用户问的问题是关于A保险，匹配的答案是B保险，处理的方式是在实体对齐的时候把答案去除，剩余的答案会做深度语义精排。

排序后，就进入输出模块。在输出模块里，有直接问输出、推荐问输出等，如果阈值比较低，还会做问句澄清。在输出模块，关联问可能会用到用户画像。

二、问句预处理核心技术

1. 长难句

为什么需要做长难句？因为用户在进行语音输入时，可能会提交一段很长的话（如下图示例），而一般在知识库里检索的标准问其实是比较精短的。用比较长的用户问题去匹配一个比较短的问题，算法上存在一定困难，因此我们会进行长难句的句子压缩。

做长难句的句子压缩比较直观的一种方法是语法树分析+关键词典。

第一步，通过标点或空格分割长句成若干个短句，然后对短句分类，去掉口水语句。
第二步，基于概率和句法分析的句子压缩方案，只保留主谓宾等核心句子成分。配合保险关键词典，确保关键词被保留。

关于句子压缩通用的方法分为两种：一种是抽取式（extractive），另一种是生成式（abstractive）。

从传统的TextRank抽取式，到深度学习中采用RNN、CNN单元处理，再引入Attention、Self-Attention、机器生成摘要的方式，这些方式跟人类思维越来越像，都建立在对整段句子的理解之上。与此同时，生成摘要的效果，也常常令人惊艳。

抽取式：即压缩之后的句子，所有的成分都来自原来用户提问的句子。
生成式：主要基于带有Attention模型的seq2seq实现的。简单描述的话，它可以被看作一个概率模型。概率模型可以确定哪些词保留、删除或被改写。这里用到copynet和pointer-generate这两个思路，去解决OOV和低频词的问题，效果比较显著。

去年ByteCup赛题是对文章生成摘要，其中冠军方案是基于transformer去做的。该方案在原先的transformer的Encoder端加了NER和POS特征，得到了较好的效果。

2. 纠错

纠错模块主要是为了处理用户输入出现错别字的情况，因为错别字可能会对后面的模型识别造成影响，所以需要先进行纠错动作。

比较直观的做法是基于字典和规则的纠错。在寿险的业务场景里，保险名词是非常重要的，所以基于字典主要指的是是基于保险关键词的字典。

如下图例子，“在背景哪里可以买一生保”，其中“一”（应为“e”）是一个错别字。根据字典可以将这个错别字纠出来，但“背景”（应为“北京”）在此之中是无法被纠错的。

因此我们做了基于Transformer的通用纠错模型。这个思路是，在Encoder端输入句子的拼音以及相对比较关键的词，这个关键词与词典匹配的话，就无需再转成拼音。经过纠错模型后，Decoder端将拼音转成汉字。

这块的训练数据集主要用到寿险已落地应用的智慧客服的一些线上日志，经过标注的形成文本训练集。

3. 指代消解

有时候用户的问题是带上下文信息的。比如，用户第一句话问，“感冒可以投保平安福吗？得到回答后，用户可能会接着问，“那癌症呢？”

第二句话“那癌症呢？”其实缺少动词和宾语，单单把这句话放到后面的匹配算法中，或许无法得到比较精确的答案，所以需要通过指代消解的方案做问句补全。例如可以用“癌症”去替换上文的“感冒”，然后得到一个指代消解的输出结果，即“癌症可以投保平安福吗？”

其实现思路是：分词→词性标注→依存句法分析→主谓宾提取→实体替换/指代消解

比如下面的例子，第一句话中，“感冒”与“投保”是一个主谓关系，“可以”与“投保”是一个状中关系，“平安福”和“投保”又是动宾关系，其中，投保是一个核心词。

这块基于策略的方案，其能够解决的问题也是有限的，目前主要是用来解决一些保险实体或者是疾病名称（如下图例子）。

下面介绍业界通用方案的三种思路：

Mention Pair models：将所有的指代词（短语）与所有被指代的词（短语）视作一系列pair，对每个pair二分类决策成立与否。
Mention ranking models：显式地将mention作为query，对所有candidate做rank，得分最高的就被认为是指代消解项。
Entity-Mention models：一种更优雅的模型，找出所有的entity及其对话上下文。根据对话上下文聚类，在同一个类中的mention消解为同一个entity。但这种方法其实用得不多。

首先把先行词候选项的embedding放到输入层，然后将先行词feature，即当前词的前、后词embedding放入输入层。

Mention是用word embedding作为输入，Mention Features是用Mention前后的词，Additional Features考虑到的比较重要的因素是距离因素。

有一个很直观的思路是，代消解项和前面的先行词，肯定是离代消解项比较近的词，作为正确消解的概率会更大一些。

中间经过前馈的神经网络，用的是Relu激活函数。损失函数主要是用max martin，其实也是hinge loss的变种。这里用了一个分段的损失函数，同时涉及到一个增强学习的reward方法。

三、检索和深度语义匹配技术

1. ElasticSearch字面检索

目前字面检索用的是ElasticSearch，这是一个基于lucene的高可用分布式开源搜索引擎。

除了ElasticSearch外，其实还有Solr搜索引擎。选择前者的原因是，在处理实时的搜索应用时，ES的效率明显比Solr要高。线上的产品其实对运行时间有较高的要求，整个系统跑下来要求控制在100毫秒以内。

我们会根据知识库去建立所有数据的索引，同时支持一些分类和机构的查询。

其中ES的分词进行了统一配置的动作，里面配置了保险专用名词和同义词。ES默认为TFIDF的算法，但也支持BM25的算法。ES搜索结果的得分则会被零到一的归一化以及分片优化。

2. 孪生网络

接下来介绍深度语义匹配模块，其中主要使用的是孪生网络Siamese CBOW。

词向量会得到预训练，然后用求和取平均的方式来表征句向量，对标准问和相似问进行训练，添加负采样，损失函数为Contrastive Loss，让正样本之间的句向量表征尽量相似。预先算出语料的所有句向量表征，将用户问题通过模型转化成句向量，搜索语料里最相似的若干个句向量作为候选答案列表。

而孪生网络的优化点，首先是word embedding，寿险这边的线上系统主要使用的是词向量及字向量。

关于字向量，这里推荐一篇论文：《Character-based Neural Networks for Sentence Pair Modeling》2018, character-based ngram。

直观来看词向量和字向量的区别，词的表达能力比字强。日常常用汉字为6000-7000，但词的组合有很多种。

实验发现，在样本足够多的情况下，用词向量的效果一般会更好；但如果样本很小，则应选择用字向量。

这里提到上下文词向量，这是去年NLP界比较火的技术，包括Elmo、GPT以及谷歌Bert，它们主要提供的是经过海量语料训练的可迁移模型。

而关于带上下文的词向量，在此之前，word2vec不能很好的表示一词多义的问题。经过Elmo语言模型后，不同的上下文同一个词的word embedding可能是不一样的。

后面要做的是知识清洗，输入的数据源和训练数据源必须保证是准确的。

再就是做数据扩充，上文也提到可以引入预训练的Bert模型更强的表征。

对于孪生网络，两边的模型除了CBOW以外，也可以支持LSTM、RNN、CNN。

一个小优化点是，网络output的位置可以使用Attention，而不是直接对每个时刻的输出求均值。

下图是2017年Kaggle问答比赛的冠军方案，该方案其实是在孪生网络的模型框架下用了曼哈顿LSTM，从而达到了一个最优效果。

3. BERT for QA

BERT这一块的主要工作是，在BERT之后做一层微调。我们会自定义Fine-tune这块的Processor，然后把BERT表征之后的句向量再接一个孪生网络进行训练。

实验结果显示，加入BERT表征会比之前存的词向量准确率提升3个点左右。

4. 交互矩阵

前文提到的孪生网络Siamese CBOW其实是一个表示模型。深度语义匹配除了表示模型以外，还有一类是交互模型。从论文看，前面一种叫做representation model，后面这种交互模型主要是叫interaction model。

这里先简单介绍交互模型MatchPyramid的思路，其主要是借鉴了CNN的处理图像时的原理，因为CNN就是在提取像素、区域之间的相关性，进而提取图像的特征。

假设有两句话，需要计算两句话的相似度。第一句话有M个单词，第二句话有N个单词，那么它们的相似度矩阵就是MN。MN里面的数字怎么确定呢？

第1种方案，如果单词相同就是1，否则为0
第2种方案，计算词向量的余弦距离
第3种方案，计算词向量的内积

表示成相似度矩阵之后，就可以通过卷积提取feature map，再通过最大池化max pooling去抽取一些更高维的特征，最后再经过多层感知机得到相似度匹配得分。

5. MatchZoo

这里给大家推荐一个优秀的开源工具：MatchZoo，这是一个开源的Python环境下基于TensorFlow开发的文本匹配工具，实现了主流的20多种深度语义匹配算法。其主要用Keras实现，代码结构非常好。

我们也基于这个工具，做了MV-LSTM，ESIM的算法。

6. 知识库和知识指引

下面介绍一下检索算法。通过语义搜索和句向量的表达之后，需要从已建好的语义向量索引里，搜索最近邻的N个答案。

Annoy搜索算法：建立一个数据结构，使得查询一个向量的最近邻向量的时间复杂度是次线性。二叉树，随机选2个点聚类，超平面分割。同一批数据建立多棵树，检索答案合并排序。
小问题：第一次查询的速度比较慢；近似算法，准确率逼近100%。

四、基于深度学习的问答排序算法介绍

1. Deeprank

通过索引可以得到若干个答案，将这若干个答案合并去除重复的答案之后，就进入排序模块。接下来将详细介绍我们采用的深度学习排序算法。

使用n-gram 窗口，可以捕捉更长的上下文语义
将query和document 的语义向量及其相似度拼接成新的特征向量输入 MLP 层进行 learning to rank
可以在 learng2rank 模型的输入向量中方便地融入外部特征
支持 end-to-end 的 matching + ranking 任务

首先做分词，每一个词向量的维度矩阵就是sentence matrix这个矩阵高度。一列其实就是一个单词的word embedding，然后把每一个单词的word embedding拼接起来就变成我们需要的sentence matrix。

sentence matrix出来之后，会经过好几个过滤器去提取特征，例如下图是用tri-gram来提取。

把这些特征提取之后拼接在一起，有多个Filter的话就会生成多个Feature maps。多个卷积Feature maps提取好之后，会经过pooling层，把每个Feature maps做Pooling后，再把Pooling拼接到一起。

中间看到的Similarity Matching有个矩阵M。矩阵M是在模型里是通过参数训练得到的；Xd是用户匹配的问题；Xq是用户问题经过Pooing后提取的特征。

通过XdMXq得到Xsim，得到Join Layer。除了Xsim向量以外，Join Layer还会有额外Feature，包括TFIDF的特征、两句话之间共现词的特征，还有其他统计的特征。

实验发现，共现词特征其实影响比较大，加上这个特征之后大概会有2-3个点的提升。

过了join Layer之后，最后那层是隐层，也是一个MLP多层感知机，最后经过softmax就会得到答案。

排序打分方案
打分方案主要分5级打分，S、A、B、C、D：S=完全匹配，A=非常相关，B=相关，C、D基本上不怎么相关。

该排序打分模型支持对pointwise和pairwise方法进行训练。假设只是pointwise，就看用户的问题跟匹配的问句是否相关；pairwise的话，就看用户匹配的两个问题，针对用户的query到底哪个更加相关。

2. DRMM+PACRR

下面再介绍一个state of art的方法，是去年谷歌提出的DRMM+PACRR的排序方案，这个方法目前还在实验中。

这个方案的主要思路也是先做卷积，但不一样的是它会做两层池化：首先是max pooling，然后是row-wise max pooling，再将两层拼接，经过全连接层。使用相同的MLP网络独立地计算每一个q-term encoding（矩阵的每一行）的分数，再通过一个线性层得到query与doc的相关性得分。

五、算法效果评估方案

1. 话术澄清

排序结束后，根据用户问题最相关的答案得分从高到低做排序，然后到输出层。

假设排序最高得分的答案置信度不够高，就会触发话术澄清，然后让用户确认是否在问这样的问题。

例如下面介绍的意图图谱，就是意图不明确的时候可以反问用户以确认，可应用在任务型机器人，也可用于QA。

意图图谱的节点代表一个个意图节点。这些“意图”之间的关系包括**需求澄清（disambiguation）、需求细化（depth extension）、需求横向延展（breadth extension ）**等。

下图所示的例子中，当“阿拉斯加”的意思是“阿拉斯加州”时，与之关联的意图是城市、旅游等信息。当“阿拉斯加”的含义是“阿拉斯加犬”时，它延伸的意图是宠物狗、宠物狗护理，以及如何喂食等。

假设用户问“哪里可以买到阿拉斯加犬”，那“阿拉斯加”必定代表“阿拉斯加犬”；如果用户问“阿拉斯加今天的天气如何？”，那“阿拉斯加”必定代表“阿拉斯加州”。

2. 自动化测试框架+验证集+效果评估

做完话术澄清后，结合答案的输出结果，根据业务需求可以提供：

直接回答：提供Top1答案
推荐问：提供Top3答案
关联问：基于大数据推荐算法挖掘
搜索式问答：非保险类问题，答案可以来自网络wiki
闲聊：结合检索式+生成式模型两种方式。我们有10万检索语料，如果用户闲聊问题命中了检索语料，就直接给答案，如果没有命中，而且是非专业问题，就用生成模型给用户生成一个答案。

以下是问答评估指标：

关于效果评估主要有五大验证集和测试集。测试集主要是调好的模型，去测试准确率相关的指标；验证集主要是模型调参。

测试集主要依靠以下方式获得：

Badcase测试集：依靠日常业务体验，或者亲自体验和不断进行测试，发现bad case并收集起来并且不断累积。
线上日志抽样测试集：每周从线上日志抽样，获得最新的用户问题做标注。
高频问测试集：基于大量数据进行高频问统计。不管模型或算法有改动，都会跑高频问测试集，保证Top100高频问准确率100%。
字面鲁棒性验证集：根据知识库语料，用算法删除里面的非关键词，或增加一些噪音，又或者把里面的同义词做转换等等，有十几种方式生成字面鲁棒性验证集。这里主要是测模型的间断性。
语义验证集：根据业务需求，做全面的测试样例覆盖，再根据有特点的线上日志做标注抽样。

六、附录：

附录1：迁移学习

迁移学习解决的问题主要是，在数据集非常少的场景下，可以用作问答训练的语句非常少，就需要从数据集大的场景已经训练好的模型做迁移学习。

这里推荐ACL2018的论文。这个迁移学习在问答系统上的创新，准确率比state of art模型略低，但比单纯的表示模型高，比QPS高，同时支持大规模线上系统。

它在传统迁移学习的框架上，引入了半正定协方差矩阵，对输出层的域内以及域间信息权重进行建模；引入对抗损失，增强shared 层的抗噪能力。

附录2：基于知识图谱的问答——KBQA

基于知识图谱的问答模块，需要解决两个核心问题：①如何理解问题语义，并用计算机可以接受的形式进行表示（问题的理解和表示）；②以及如何将该问题表示关联到知识图谱的结构化查询中（语义关联）。

前文提到的Siamese CBOW模型是对词向量相加求平均。

举个例子： “谢霆锋的爸爸是谁？”和“谢霆锋是谁的爸爸？” 这两个问题，分词之后词是完全一样的，如果用词向量相加求平均，最后得到的句向量一样，无法区分。而知识图谱可以解决简单逻辑推理的问题。

基于模版的方法：自然语言查询–>意图识别(Intention Recognition)–>实体链指(Entity Linking)+关系识别(Relation Detection) -->查询语句拼装(Query Construction)–>返回结果选择(Answering Selection)
基于语义解析的方法
基于神经网络的方法
附录3：阅读理解式问答

基于阅读理解的问答，适用数据类型为（给定一个问题Q和一个与Q相关的文档D，自动得到Q对应的答案A）非结构化文本，主要的方法有匹配式，抽取式和生成式。

匹配式：给出文章、问题和答案集，从答案集中选出最高得分的答案，像选择题。例如Attentive-reader、Impatient-reader。
抽取式：即从文档中抽取出答案，前提是文档中包括问题答案。抽取式的一般框架是：Embedder+Encoder+Interaction-layer+Answer。主要模型有Match-LSTM、R-NET、BiDAF。
生成式：其答案形式是：①答案完全在某篇原文；②答案分别出现在多篇文章中；③答案一部分出现在原文，一部分出现在问题中；④答案的一部分出现在原文，另一部分是生成的新词；⑤答案完全不在原文出现（Yes / No 类型)。常见模型：改进的R-Net、S-NET、R3-NET。
附录4：DeepRank

深度语义排序模型介绍，主要解决相关度排序（relevance matching）。

DRMM：Deep relevance matching model. Relevance matching is different from semantic matching!

1.Matching Histogram Mapping

2.Feed forward Matching Network

3.Term Gating Network

Semantic matching vs Relevance matching: 根据query去找到相关性更大的documents，这里的相关性可以理解为相同关键字，相同主旨等等，但是句式（问句&答句），长短（短查询&长文本）等等可能都不相同。

semantic matching忽略了查询术语的重要性，而NLP的matching tasks则是指两句话的大意相同，matching tasks是更严谨的一种matching。

1.输入：query中的每个词和doc所有词产生term pair，对于每一个pair使用相似度计算，按照得分区间来统计直方图的个数

2.前馈神经网络：Zi = tanh(WiZi-1+b)

3.对于每个query词产生的zi，最后通过一个gating network gi 生成最后的分数，类似于注意力机制，s=sigma(GiZi)，Gi权重通过学习得来

（参考论文：A Deep Relevance Matching Model for Ad-hoc Retrieval）

资料获取

本期直播视频及资料获取方式如下：

1 / **扫码关注「平安寿险PAI」

2 / 后台回复“智能问答系统”即可获取下载链接

你可能感兴趣的:(智能问答系统：问句预处理、检索和深度语义匹配技术)

unity转微信小游戏：激励广告和插屏广告的添加使用会潜水的小火龙 unity转微信小游戏 unity 微信游戏引擎
unity转微信小游戏：激励广告和插屏广告的添加使用微信小游戏广告开通及创建unity添加使用微信小游戏广告激励广告插屏广告微信小游戏广告开通及创建微信小游戏注册用户达到500人后，24小时后进入网页版小程序点击小程序左侧流量主进去开通。开通流量主后，在广告管理点击新建广告位创建广告。创建完广告后广告管理下面对应广告会显示广告位名称、广告位ID、广告位状态、操作等。广告位名称：可以自定义主要用来区
FISCO BCOS（二十三）———maven和gradle引入FISCO BCOS Javasdk 林中有神君 #FISCO BCOS 2.8.0 maven java mybatis
build.gradle引入依赖dependencies{compile('org.fisco-bcos.java-sdk:fisco-bcos-java-sdk:2.7.2')
【diffusers极速入门（四）】EMA 操作是什么？多恩Stone Diffusion AIGC Transformer 人工智能深度学习 pytorch python AIGC diffusers
系列文章目录【diffusers极速入门（一）】pipeline实际调用的是什么？call方法!【diffusers极速入门（二）】如何得到扩散去噪的中间结果？Pipelinecallbacks管道回调函数【diffusers极速入门（三）】生成的图像尺寸与UNet和VAE之间的关系本文将介绍diffusers中常见的EMA操作。提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章
【diffusers极速入门（六）】缓存梯度和自动放缩学习率以及代码详解多恩Stone AIGC Diffusion 编程学习 diffusers pytorch AI Deep learning AIGC python
系列文章目录【diffusers极速入门（一）】pipeline实际调用的是什么？call方法!【diffusers极速入门（二）】如何得到扩散去噪的中间结果？Pipelinecallbacks管道回调函数【diffusers极速入门（三）】生成的图像尺寸与UNet和VAE之间的关系【diffusers极速入门（四）】EMA操作是什么？【diffusers极速入门（五）】扩散模型中的Schedul
一文了解Sublime Text基本使用教程 SUDO-1 sublime text 编辑器
SublimeText是一个非常受欢迎的跨平台源代码编辑器，以其高性能、轻量级和高度可定制性而闻名。下面是一些基本的使用技巧和配置方法，帮助你更高效地使用SublimeText：安装与基本设置安装：访问官方网站下载对应操作系统的版本。按照安装向导提示进行安装。基本设置：调整字体大小和行间距以适应个人喜好。设置自动完成和代码补全功能。启用行号显示。基本功能多光标编辑：使用Ctrl+D(Windows
PingCAP TiDB数据库专员PCTA认证笔记 handsomestWei 数据库 tidb 数据库
tidb-pcta-notePingCAPTiDB数据库专员PCTA认证笔记相关链接官网认证中心TiDB社区体系架构数据库设计存算分离。三层架构：PD（PlacementDriver）负责集群元信息管理和调度，TiDB负责sql计算，TiKV负责存储存储引擎1、基于LSM-Tree的RocksDB引擎，比B-Tree写入更快，用空间置换写入延迟2、数据冗余副本：multiraft-group副本机
python中!ls -r_光学现象的Python实现 weixin_39838798 python中!ls -r
“Youwillseelightinthedarkness。Youwillmakesomesenseofthis.”“你终将于黑暗中触摸白昼，它将如影般随行。”如果说20世纪是电子的世界，那么21世纪就是光学的舞台。光学和光子学无处不在：智能手机和计算设备上的显示方式，互联网中承载信息的光纤，先进的精密制造，大量的生物医学应用终端，全光衍射神经网络等。对光学的深入理解为每一个学习物理和工程的同学带
Diffusion中guidance_scale 的理解不当菜鸡的程序媛 Diffusion 人工智能 stable diffusion
guidance_scale是一个控制生成图像引导程度的参数。它的含义和使用与论文Imagen:PhotorealisticText-to-ImageDiffusionModelswithComposableConditions中的公式(2)的引导权重类似。1.Classifier-FreeGuidance的背景Classifier-FreeGuidance是一种在扩散模型中提高生成样本质量的方法
正则表达式小米人er 我的博客正则表达式
正则表达式，又称正规表示法、常规表示法（RegularExpression，在代码中常简写为regex、regexp或RE），是一种用于匹配和处理文本的强大工具，它使用特定的字符和符号组合来描述文本模式。以下是关于正则表达式的基本介绍和使用方法：基本概念字符类：用方括号[]表示，用于匹配方括号内的任意一个字符。例如，[abc]可以匹配a、b或c中的任意一个字符。元字符：具有特殊含义的字符。例如^表
【游戏设计原理】85 - 菲兹定律 tealcwu #游戏设计的100个原理游戏游戏策划
1.什么是菲兹定律菲兹定律描述了目标大小、目标距离与到达目标所需时间之间的关系。目标越大、离起始点越近，人们越容易快速而精确地点击它。相反，目标越小或距离越远，操作的难度就越高。2.适用场景菲兹定律适用于以下场景：游戏设计战斗与瞄准：决定目标的大小和移动速度，平衡挑战与玩家体验。操控设计：控制器（如鼠标、手柄）精度与速度的优化。用户界面设计（UI/UX）按钮布局：将常用的功能按钮设计得更大，放置在
老大说了，即使你是女程序员，这性能调优你也得拿下！码炫课堂-码哥性能调优数据库程序人生 java redis 分布式队列数据库
【悟思维】项目架构决定性能？优秀的架构胜过一万次的调优这个问题很容易理解，一个单节点（一台应用服务器+一台数据库服务器）的系统架构，任凭你使出浑身解数来调优也不可能让系统达到百万级并发，别说百万级了，上万并发都不可能。不说其他的，在一个性能相对不错的物理机上，mysql最多也就能承载3500-4500的QPS，你说你能调优调到上万并发？？在目前来看如果不借助于其他组件或者其他技术手段是不太可能的。
xgboost在spark集群使用指南一颗小草333 算法 mapreduce spark 数据挖掘
简介XGBoost是一个优化的分布式梯度增强库，具有高效、灵活和可移植性。在梯度增强框架下实现了机器学习算法。XGBoost提供了一种并行树增强(也称为GBDT、GBM)，可以快速、准确地解决许多数据科学问题。相同的代码在主要的分布式环境(Hadoop、SGE、MPI)上运行，可以解决数十亿个示例的训练问题。xgb相对于gbt所做的改进：1.2.3.XGBoost可以使用R、python、java
RTMP|RTSP播放器只解码视频关键帧功能探讨音视频牛哥 RTSP播放器 RTMP播放器大牛直播SDK 实时音视频音视频 rtsp播放器 rtmp播放器 rtsp player rtmp player 大牛直播SDK
技术背景我们在做RTMP|RTSP直播播放器的时候，遇到过这样的技术诉求，在一些特定的应用场景中，可能只需要关键帧的信息，例如视频内容分析系统，可能只对关键帧进行分析，以提取特征、检测对象或场景变化。鉴于关键帧包含完整的图像信息，解码时不需要依赖其他帧，可以独立解码。相比之下，预测帧（P帧）和双向预测帧（B帧）需要参考其他帧的信息进行解码，在这种情况下，仅解码关键帧可以满足需求，同时避免不必要的解
6-scala特质 qwy715229258163 scala scala 开发语言后端
特质(Traits)用于在类(Class)之间共享程序接口(Interface)和字段(Fields)。它们类似于Java8的接口。类和对象(Objects)可以扩展特质，但是特质不能被实例化，因此特质没有参数。定义一个特质最简化的特质就是关键字trait+标识符：traitHairColor特征作为泛型类型和抽象方法非常有用。traitIterator[A]{defhasNext:Boolean
【安装cudnn】 Eternal-Student linux linux
官网下载并安装如果打算使用深度学习框架，如TensorFlow或PyTorch，并且需要GPU加速，可能还需要安装NVIDIA的cuDNN库，它是一个GPU加速的深度神经网络库。officialweb:https://developer.nvidia.com/cudnn下载具体：cuDNN9.5.0Downloads历史版本下载：https://developer.nvidia.com/rdp/c
从bash 换到 zsh 卜夋 Debian/Linux shell zsh
看见zsh漂亮的主题和强大的功能，准备了解一波zsh。使用zsh首先的安装zsh,本文所说只针对debian系，其它的可作为参考。查看系统当前安装的shellcat/etc/shells可以看出我的shell变量是上面那些，我已经安装了zsh,如果没有安装的话，执行sudoaptinstallzsh切换zshsudousermod-s/bin/zshusername//chsh-s/usr/bin
【FISCO BCOS】二十三、部署WeBASE-Node-Manager 奈何不吃鱼 FISCO BCOS 区块链 FISCO BCOS Linux 运维 WeBASE
WeBASE-Node-Manager是WeBASE的子组件之一，可以处理前端页面所有web请求，管理各个节点的状态，管理链上所有智能合约，对区块链的数据进行统计、分析，对异常交易的审计，私钥管理等，今天我们来部署WeBASE-Node-Manager。环境：ubuntu22、已搭建单机四节点（节点已启动）、安装并配置java环境、安装并配置mysql环境、已部署节点前置服务（服务已启动）关于以上
SpringBoot使用 easy-captcha 实现验证码登录功能八月五实战项目 spring boot 后端 java
文章目录一、环境准备1.解决思路2.接口文档3.redis下载二、后端实现1.引入依赖2.添加配置3.后端代码实现4.前端代码实现在前后端分离的项目中，登录功能是必不可少的。为了提高安全性，通常会加入验证码验证。easy-captcha是一个简单易用的验证码生成库，支持多种类型的验证码（如字符、中文、算术等）。本文将介绍如何在SpringBoot后端和Vue.js前端中集成easy-captcha
python实战项目27：boss直聘招聘数据可视化分析 wp_tao Python副业接单实战项目信息可视化 python 数据分析
boss直聘招聘数据可视化分析一、数据预处理二、数据可视化三、完整代码一、数据预处理在上一篇博客中，笔者已经详细介绍了使用selenium爬取南昌市web前端工程师的招聘岗位数据，数据格式如下：这里主要对薪水列进行处理，为方便处理，将日薪和周薪的数据删除，将带有13薪和14薪的数据也删除，计算出最低薪资、最高薪资和平均薪资三列。数据预处理代码如下：importpandasaspddf=pd.rea
Pytorch深度学习指南卷I --编程基础（A Beginner‘s Guide）第1章一个简单的回归 liuhui244 深度强化学习深度学习 pytorch 回归
本章正式开始使用pytorch的接口来实现对应的numpy的学习的过程，来学习模型的实现，我们会介绍numpy是如何学习的，以及我们如何一步步的通过torch的接口来实现简单化的过程，优雅的展示我们的代码，已经我们的代码完成的事情numpy的线性回归在此之前，先看看现在的numpy实现的学习的过程是什么样的#引入计算模块importnumpyasnpfromsklearn.linear_model
Playwright 跟踪查看器：深入探索与高级用法三带俩王 python playwright
在现代Web开发和自动化测试中，Playwright已经成为了一个强大的工具。而Playwright的跟踪查看器（TraceViewer）更是为开发者和测试人员提供了深入了解和分析测试过程的强大功能。本文将深入探讨Playwright跟踪查看器的高级用法，帮助你更好地利用这个工具来优化你的Web开发和测试流程。一、Playwright跟踪查看器简介Playwright跟踪查看器是一个用于查看和分析
Playwright 与 WebView2：高级用法探索三带俩王 python playwright
在现代Web自动化和测试领域，Playwright以其强大的功能和易用性脱颖而出。而当与WebView2结合时，更是开启了一系列令人兴奋的高级应用场景。本文将深入探讨Playwright与WebView2的结合使用，展示其高级用法，帮助你在Web开发和测试中发挥更大的作用。一、Playwright与WebView2简介1.PlaywrightPlaywright是一个由微软开发的强大的Web自动化
Python 3 中使用 SMTP 发送邮件：高级技巧与应用三带俩王 python 网络服务器
在现代的软件开发和自动化流程中，发送电子邮件是一项常见的任务。Python3提供了强大的工具来实现这一功能，特别是通过使用SMTP（SimpleMailTransferProtocol）协议。本文将深入探讨Python3中使用SMTP发送邮件的高级用法，展示其在不同场景下的灵活性和强大功能。一、SMTP简介SMTP是一种用于发送电子邮件的协议。它允许客户端（如Python程序）与邮件服务器进行通信
Python 在股票分析中的高级应用：挖掘金融数据的深度洞察三带俩王 python 金融开发语言
在当今的金融世界中，股票分析是投资者和金融从业者必备的技能。Python作为一种强大且灵活的编程语言，为股票分析提供了丰富的工具和技术。本文将深入探讨使用Python进行股票分析的高级用法，涵盖从数据获取与清洗、高级分析指标计算到机器学习和深度学习在股票分析中的应用等多个方面。一、数据获取与预处理：构建坚实的分析基础1.数据来源与获取直接从证券交易所获取数据：许多证券交易所提供了数据接口，例如，上
Python 中的complex(real[, imag])函数：高级用法与强大功能三带俩王 python 开发语言算法
在Python中，complex(real[,imag])函数是一个用于创建复数的强大工具。复数在数学、物理学、工程学等领域中有着广泛的应用，而Python的complex类型为我们提供了便捷的方式来处理复数。本文将深入探讨complex(real[,imag])函数的高级用法，展示其在不同场景下的强大功能。一、复数的基本概念复数是由实数和虚数组成的数，通常表示为a+bj的形式，其中a和b是实数，
【scala】含有list子集的递归方法记录层数深度 lisacumt scala list
样例使用scala语言编写。特点：RecursiveData对象中包含一个成员child含有多个RecursiveData子对象。思路：递归方法中传入一个：int作为parent的深度，传入一个set记录所以深度集合。同一深度int+1不会影响相同深度的结果，set又可以将统一深度层去重。容易犯错误：使用单独对象记录，应为是递归是树形结构，随着层数和枝叶增加，会多计算，如recWrong方法就是错
JAVA：访问者模式（Visitor Pattern）的技术指南拾荒的小海螺设计模式 java 访问者模式开发语言
1、简述访问者模式（VisitorPattern）是一种行为型设计模式，允许你将操作分离到不同的对象中，而无需修改对象本身的结构。这种模式特别适合复杂对象结构中对其元素进行操作的场景。本文将介绍访问者模式的核心概念、优缺点，并通过详细代码示例展示如何在实际应用中实现访问者模式。设计模式样例：https://gitee.com/lhdxhl/design-pattern-example.git2、什
DTD - XML 构建模块 kekexi1i xml 算法
XML和HTML文档的主要的构建模块是元素标签。XML文档构建模块所有的XML文档（以及HTML文档）均由以下简单的构建模块构成：元素属性实体PCDATACDATA元素元素是XML以及HTML文档的主要构建模块。HTML元素的例子是"body"和"table"。XML元素的例子是"note"和"message"。元素可包含文本、其他元素或者是空的。空的HTML元素的例子是"hr"、"br"以及"i
03-19-多元函数-雅可比矩阵草莓奶忻人工智能数学基础矩阵线性代数
文章目录课程地址1.雅可比矩阵的定义2.雅可比矩阵与线性变换2.1示例12.2示例22.3示例33.泰勒展开与雅可比矩阵4.总结示例"示例1"中的JFJ_FJF1.函数定义2.雅可比矩阵的定义3.逐项计算偏导数4.构建雅可比矩阵5.几何意义6.小结课程地址03-19-多元函数-雅可比矩阵从这张图中可以看出，这里讲解了雅可比矩阵JFJ_FJF的定义、组成以及在线性变换和泰勒展开中的应用。下面逐部分解
如何在 Ubuntu 18.04 上升级 gcc 到 9.4：一步步详细指南草莓奶忻 #Linux ubuntu linux 运维 c++
文章目录问题描述问题解决1.添加Toolchain测试PPA2.安装GCC和G++3.更新替代版本4.验证安装5.出现报错在执行sudoaptinstallgcc-9g++-9时，出现以下报错。解决方案更换默认的Ubuntu软件源问题描述在尝试编译PyTorch时遇到的报错提示需要GCC版本9.3或更高，但系统中安装的是版本7.5.0。因此，需要升级GCC到至少9.3版本。damon@damon-
开发者关心的那些事圣子足道 ios 游戏编程 apple 支付
我要在app里添加IAP，必须要注册自己的产品标识符（product identifiers）。产品标识符是什么？产品标识符（Product Identifiers）是一串字符串，它用来识别你在应用内贩卖的每件商品。App Store用产品标识符来检索产品信息，标识符只能包含大小写字母（A-Z）、数字（0-9）、下划线（-）、以及圆点(.)。你可以任意排列这些元素，但我们建议你创建标识符时使用
负载均衡器技术Nginx和F5的优缺点对比 bijian1013 nginx F5
对于数据流量过大的网络中，往往单一设备无法承担，需要多台设备进行数据分流，而负载均衡器就是用来将数据分流到多台设备的一个转发器。目前有许多不同的负载均衡技术用以满足不同的应用需求，如软/硬件负载均衡、本地/全局负载均衡、更高
LeetCode[Math] - #9 Palindrome Number Cwind java Algorithm 题解 LeetCode Math
原题链接：#9 Palindrome Number 要求：判断一个整数是否是回文数，不要使用额外的存储空间难度：简单分析：题目限制不允许使用额外的存储空间应指不允许使用O(n)的内存空间，O(1)的内存用于存储中间结果是可以接受的。于是考虑将该整型数反转，然后与原数字进行比较。注：没有看到有关负数是否可以是回文数的明确结论，例如
画图板的基本实现 15700786134 画图板
要实现画图板的基本功能，除了在qq登陆界面中用到的组件和方法外，还需要添加鼠标监听器，和接口实现。首先，需要显示一个JFrame界面： public class DrameFrame extends JFrame { //显示
linux的ps命令被触发 linux
Linux中的ps命令是Process Status的缩写。ps命令用来列出系统中当前运行的那些进程。ps命令列出的是当前那些进程的快照，就是执行ps命令的那个时刻的那些进程，如果想要动态的显示进程信息，就可以使用top命令。要对进程进行监测和控制，首先必须要了解当前进程的情况，也就是需要查看当前进程，而 ps 命令就是最基本同时也是非常强大的进程查看命令。使用该命令可以确定有哪些进程正在运行
Android 音乐播放器下一曲连续跳几首歌肆无忌惮_ android
最近在写安卓音乐播放器的时候遇到个问题。在MediaPlayer播放结束时会回调 player.setOnCompletionListener(new OnCompletionListener() { @Override public void onCompletion(MediaPlayer mp) { mp.reset(); Log.i("H
java导出txt文件的例子知了ing java servlet
代码很简单就一个servlet,如下： package com.eastcom.servlet; import java.io.BufferedOutputStream; import java.io.IOException; import java.net.URLEncoder; import java.sql.Connection; import java.sql.Resu
Scala stack试玩, 提高第三方依赖下载速度矮蛋蛋 scala sbt
原文地址： http://segmentfault.com/a/1190000002894524 sbt下载速度实在是惨不忍睹, 需要做些配置优化下载typesafe离线包, 保存为ivy本地库 wget http://downloads.typesafe.com/typesafe-activator/1.3.4/typesafe-activator-1.3.4.zip 解压r
phantomjs安装(linux，附带环境变量设置) ，以及casperjs安装。 alleni123 linux spider
1. 首先从官网 http://phantomjs.org/下载phantomjs压缩包，解压缩到/root/phantomjs文件夹。 2. 安装依赖 sudo yum install fontconfig freetype libfreetype.so.6 libfontconfig.so.1 libstdc++.so.6 3. 配置环境变量 vi /etc/profil
JAVA IO FileInputStream和FileOutputStream，字节流的打包输出百合不是茶 java核心思想 JAVA IO操作字节流
在程序设计语言中，数据的保存是基本，如果某程序语言不能保存数据那么该语言是不可能存在的，JAVA是当今最流行的面向对象设计语言之一，在保存数据中也有自己独特的一面，字节流和字符流 1，字节流是由字节构成的，字符流是由字符构成的字节流和字符流都是继承的InputStream和OutPutStream ,java中两种最基本的就是字节流和字符流类 FileInputStream
Spring基础实例（依赖注入和控制反转） bijian1013 spring
前提条件：在http://www.springsource.org/download网站上下载Spring框架，并将spring.jar、log4j-1.2.15.jar、commons-logging.jar加载至工程1.武器接口 package com.bijian.spring.base3; public interface Weapon { void kil
HR看重的十大技能 bijian1013 提升能力 HR 成长
一个人掌握何种技能取决于他的兴趣、能力和聪明程度，也取决于他所能支配的资源以及制定的事业目标，拥有过硬技能的人有更多的工作机会。但是，由于经济发展前景不确定，掌握对你的事业有所帮助的技能显得尤为重要。以下是最受雇主欢迎的十种技能。　　一、解决问题的能力　　每天，我们都要在生活和工作中解决一些综合性的问题。那些能够发现问题、解决问题并迅速作出有效决
【Thrift一】Thrift编译安装 bit1129 thrift
什么是Thrift The Apache Thrift software framework, for scalable cross-language services development, combines a software stack with a code generation engine to build services that work efficiently and s
【Avro三】Hadoop MapReduce读写Avro文件 bit1129 mapreduce
Avro是Doug Cutting(此人绝对是神一般的存在）牵头开发的。开发之初就是围绕着完善Hadoop生态系统的数据处理而开展的（使用Avro作为Hadoop MapReduce需要处理数据序列化和反序列化的场景）,因此Hadoop MapReduce集成Avro也就是自然而然的事情。这个例子是一个简单的Hadoop MapReduce读取Avro格式的源文件进行计数统计，然后将计算结果
nginx定制500，502，503，504页面 ronin47 nginx　错误显示
server { listen 80; error_page 500/500.html; error_page 502/502.html; error_page 503/503.html; error_page 504/504.html; location /test {return502;}} 配置很简单，和配
java-1.二叉查找树转为双向链表 bylijinnan 二叉查找树
import java.util.ArrayList; import java.util.List; public class BSTreeToLinkedList { /* 把二元查找树转变成排序的双向链表题目：输入一棵二元查找树，将该二元查找树转换成一个排序的双向链表。要求不能创建任何新的结点，只调整指针的指向。 10 / \ 6 14 / \
Netty源码学习-HTTP-tunnel bylijinnan java netty
Netty关于HTTP tunnel的说明： http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/socket/http/package-summary.html#package_description 这个说明有点太简略了一个完整的例子在这里： https://github.com/bylijinnan
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别 coder_xpf jquery json map val()
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别数据库查询出来的map有一个字段为空通过System.out.println()输出 JSONUtil.serialize(map)： {"one":"1","two":"nul
Hibernate缓存总结 cuishikuan 开源 ssh javaweb hibernate缓存三大框架
一、为什么要用Hibernate缓存？ Hibernate是一个持久层框架，经常访问物理数据库。为了降低应用程序对物理数据源访问的频次，从而提高应用程序的运行性能。缓存内的数据是对物理数据源中的数据的复制，应用程序在运行时从缓存读写数据，在特定的时刻或事件会同步缓存和物理数据源的数据。二、Hibernate缓存原理是怎样的？ Hibernate缓存包括两大类：Hib
CentOs6 dalan_123 centos
首先su - 切换到root下面1、首先要先安装GCC GCC-C++ Openssl等以来模块：yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel2、再安装ncurses模块yum -y install ncurses-develyum install ncurses-devel3、下载Erang
10款用 jquery 实现滚动条至页面底端自动加载数据效果 dcj3sjt126com JavaScript
无限滚动自动翻页可以说是web2.0时代的一项堪称伟大的技术，它让我们在浏览页面的时候只需要把滚动条拉到网页底部就能自动显示下一页的结果，改变了一直以来只能通过点击下一页来翻页这种常规做法。无限滚动自动翻页技术的鼻祖是微博的先驱：推特(twitter)，后来必应图片搜索、谷歌图片搜索、google reader、箱包批发网等纷纷抄袭了这一项技术，于是靠滚动浏览器滚动条
ImageButton去边框&Button或者ImageButton的背景透明 dcj3sjt126com imagebutton
在ImageButton中载入图片后，很多人会觉得有图片周围的白边会影响到美观，其实解决这个问题有两种方法一种方法是将ImageButton的背景改为所需要的图片。如：android:background="@drawable/XXX" 第二种方法就是将ImageButton背景改为透明，这个方法更常用在XML里； <ImageBut
JSP之c:foreach eksliang jsp forearch
原文出自：http://www.cnblogs.com/draem0507/archive/2012/09/24/2699745.html <c:forEach>标签用于通用数据循环，它有以下属性属性描述是否必须缺省值 items 进行循环的项目否无 begin 开始条件否 0 end 结束条件否集合中的最后一个项目 step 步长否 1
Android实现主动连接蓝牙耳机 gqdy365 android
在Android程序中可以实现自动扫描蓝牙、配对蓝牙、建立数据通道。蓝牙分不同类型，这篇文字只讨论如何与蓝牙耳机连接。大致可以分三步：一、扫描蓝牙设备： 1、注册并监听广播： BluetoothAdapter.ACTION_DISCOVERY_STARTED BluetoothDevice.ACTION_FOUND BluetoothAdapter.ACTION_DIS
android学习轨迹之四：org.json.JSONException: No value for hyz301 json
org.json.JSONException: No value for items 在JSON解析中会遇到一种错误，很常见的错误 06-21 12:19:08.714 2098-2127/com.jikexueyuan.secret I/System.out﹕ Result:{"status":1,"page":1,&
干货分享：从零开始学编程系列汇总 justjavac 编程
程序员总爱重新发明轮子，于是做了要给轮子汇总。从零开始写个编译器吧系列 (知乎专栏) 从零开始写一个简单的操作系统 (伯乐在线) 从零开始写JavaScript框架 (图灵社区) 从零开始写jQuery框架 (蓝色理想 ) 从零开始nodejs系列文章 (粉丝日志) 从零开始编写网络游戏
jquery-autocomplete 使用手册 macroli jquery Ajax 脚本
jquery-autocomplete学习一、用前必备官方网站：http://bassistance.de/jquery-plugins/jquery-plugin-autocomplete/ 当前版本：1.1 需要JQuery版本：1.2.6 二、使用 <script src="./jquery-1.3.2.js" type="text/ja
PLSQL-Developer或者Navicat等工具连接远程oracle数据库的详细配置以及数据库编码的修改超声波 oracle plsql
　　在服务器上将Oracle安装好之后接下来要做的就是通过本地机器来远程连接服务器端的oracle数据库，常用的客户端连接工具就是PLSQL-Developer或者Navicat这些工具了。刚开始也是各种报错，什么TNS:no listener;TNS:lost connection;TNS:target hosts...花了一天的时间终于让PLSQL-Developer和Navicat等这些客户
数据仓库数据模型之：极限存储--历史拉链表 superlxw1234 极限存储数据仓库数据模型拉链历史表
在数据仓库的数据模型设计过程中，经常会遇到这样的需求： 1. 数据量比较大; 2. 表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查看某一个用户在过去某一段时间内，更新过几次等等; 4. 变化的比例和频率不是很大，比如，总共有10
10点睛Spring MVC4.1-全局异常处理 wiselyman spring mvc
10.1 全局异常处理使用@ControllerAdvice注解来实现全局异常处理; 使用@ControllerAdvice的属性缩小处理范围 10.2 演示演示控制器 package com.wisely.web; import org.springframework.stereotype.Controller; import org.spring