zkq_1986

【NLP】DSSM深度结构化语义模型原理

DSSM

Deep Structured Semantic Model

DSSM的结构

Learning Deep Structured Semantic Models for Web Search using Clickthrough Data以及其后续文章

A Multi-View Deep Learning Approach for Cross Domain User Modeling in Recommendation Systems的实现Demo。

1. 数据

DSSM，对于输入数据是Query对，即Query短句和相应的展示，展示中分点击和未点击，分别为正负样，同时对于点击的先后顺序，也是有不同赋值，具体可参考论文。

对于我的Query数据本人无权开放，还请自行寻找数据。

2. word hashing

原文使用3-grams，对于中文，我使用了uni-gram，因为中文本身字有一定代表意义（也有论文拆笔画），对于每个gram都使用one-hot编码代替，最终可以大大降低短句维度。

3. 结构

结构图：

把条目映射成低维向量。
计算查询和文档的cosine相似度。

3.1 输入

这里使用了TensorBoard可视化，所以定义了name_scope:

with tf.name_scope('input'):
    query_batch = tf.sparse_placeholder(tf.float32, shape=[None, TRIGRAM_D], name='QueryBatch')
    doc_positive_batch = tf.sparse_placeholder(tf.float32, shape=[None, TRIGRAM_D], name='DocBatch')
    doc_negative_batch = tf.sparse_placeholder(tf.float32, shape=[None, TRIGRAM_D], name='DocBatch')
    on_train = tf.placeholder(tf.bool)

1
2
3
4
5

3.2 全连接层

我使用三层的全连接层，对于每一层全连接层，除了神经元不一样，其他都一样，所以可以写一个函数复用。

l n = W n x + b 1

def add_layer(inputs, in_size, out_size, activation_function=None):
    wlimit = np.sqrt(6.0 / (in_size + out_size))
    Weights = tf.Variable(tf.random_uniform([in_size, out_size], -wlimit, wlimit))
    biases = tf.Variable(tf.random_uniform([out_size], -wlimit, wlimit))
    Wx_plus_b = tf.matmul(inputs, Weights) + biases
    if activation_function is None:
        outputs = Wx_plus_b
    else:
        outputs = activation_function(Wx_plus_b)
    return outputs

1
2
3
4
5
6
7
8
9
10

其中，对于权重和Bias，使用了按照论文的特定的初始化方式：

    wlimit = np.sqrt(6.0 / (in_size + out_size))
    Weights = tf.Variable(tf.random_uniform([in_size, out_size], -wlimit, wlimit))
    biases = tf.Variable(tf.random_uniform([out_size], -wlimit, wlimit))

1
2
3

Batch Normalization

def batch_normalization(x, phase_train, out_size):
    """
    Batch normalization on convolutional maps.
    Ref.: http://stackoverflow.com/questions/33949786/how-could-i-use-batch-normalization-in-tensorflow
    Args:
        x:           Tensor, 4D BHWD input maps
        out_size:       integer, depth of input maps
        phase_train: boolean tf.Varialbe, true indicates training phase
        scope:       string, variable scope
    Return:
        normed:      batch-normalized maps
    """
    with tf.variable_scope('bn'):
        beta = tf.Variable(tf.constant(0.0, shape=[out_size]),
                           name='beta', trainable=True)
        gamma = tf.Variable(tf.constant(1.0, shape=[out_size]),
                            name='gamma', trainable=True)
        batch_mean, batch_var = tf.nn.moments(x, [0], name='moments')
        ema = tf.train.ExponentialMovingAverage(decay=0.5)

        def mean_var_with_update():
            ema_apply_op = ema.apply([batch_mean, batch_var])
            with tf.control_dependencies([ema_apply_op]):
                return tf.identity(batch_mean), tf.identity(batch_var)

        mean, var = tf.cond(phase_train,
                            mean_var_with_update,
                            lambda: (ema.average(batch_mean), ema.average(batch_var)))
        normed = tf.nn.batch_normalization(x, mean, var, beta, gamma, 1e-3)
    return normed

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30

单层

with tf.name_scope('FC1'):
    # 激活函数在BN之后，所以此处为None
    query_l1 = add_layer(query_batch, TRIGRAM_D, L1_N, activation_function=None)
    doc_positive_l1 = add_layer(doc_positive_batch, TRIGRAM_D, L1_N, activation_function=None)
    doc_negative_l1 = add_layer(doc_negative_batch, TRIGRAM_D, L1_N, activation_function=None)

with tf.name_scope('BN1'):
    query_l1 = batch_normalization(query_l1, on_train, L1_N)
    doc_l1 = batch_normalization(tf.concat([doc_positive_l1, doc_negative_l1], axis=0), on_train, L1_N)
    doc_positive_l1 = tf.slice(doc_l1, [0, 0], [query_BS, -1])
    doc_negative_l1 = tf.slice(doc_l1, [query_BS, 0], [-1, -1])
    query_l1_out = tf.nn.relu(query_l1)
    doc_positive_l1_out = tf.nn.relu(doc_positive_l1)
    doc_negative_l1_out = tf.nn.relu(doc_negative_l1)
······

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

合并负样本

with tf.name_scope('Merge_Negative_Doc'):
    # 合并负样本，tile可选择是否扩展负样本。
    doc_y = tf.tile(doc_positive_y, [1, 1])
    for i in range(NEG):
        for j in range(query_BS):
            # slice(input_, begin, size)切片API
            doc_y = tf.concat([doc_y, tf.slice(doc_negative_y, [j * NEG + i, 0], [1, -1])], 0)

1
2
3
4
5
6
7

3.3 计算cos相似度

with tf.name_scope('Cosine_Similarity'):
    # Cosine similarity
    # query_norm = sqrt(sum(each x^2))
    query_norm = tf.tile(tf.sqrt(tf.reduce_sum(tf.square(query_y), 1, True)), [NEG + 1, 1])
    # doc_norm = sqrt(sum(each x^2))
    doc_norm = tf.sqrt(tf.reduce_sum(tf.square(doc_y), 1, True))

    prod = tf.reduce_sum(tf.multiply(tf.tile(query_y, [NEG + 1, 1]), doc_y), 1, True)
    norm_prod = tf.multiply(query_norm, doc_norm)

    # cos_sim_raw = query * doc / (||query|| * ||doc||)
    cos_sim_raw = tf.truediv(prod, norm_prod)
    # gamma = 20
    cos_sim = tf.transpose(tf.reshape(tf.transpose(cos_sim_raw), [NEG + 1, query_BS])) * 20

1
2
3
4
5
6
7
8
9
10
11
12
13
14

3.4 定义损失函数

with tf.name_scope('Loss'):
    # Train Loss
    # 转化为softmax概率矩阵。
    prob = tf.nn.softmax(cos_sim)
    # 只取第一列，即正样本列概率。
    hit_prob = tf.slice(prob, [0, 0], [-1, 1])
    loss = -tf.reduce_sum(tf.log(hit_prob))
    tf.summary.scalar('loss', loss)

1
2
3
4
5
6
7
8

3.5选择优化方法

with tf.name_scope('Training'):
    # Optimizer
    train_step = tf.train.AdamOptimizer(FLAGS.learning_rate).minimize(loss)

1
2
3

## 3.6 开始训练

# 创建一个Saver对象，选择性保存变量或者模型。
saver = tf.train.Saver()
# with tf.Session(config=config) as sess:
with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    train_writer = tf.summary.FileWriter(FLAGS.summaries_dir + '/train', sess.graph)
    start = time.time()
    for step in range(FLAGS.max_steps):
        batch_id = step % FLAGS.epoch_steps
        sess.run(train_step, feed_dict=feed_dict(True, True, batch_id % FLAGS.pack_size, 0.5))

1
2
3
4
5
6
7
8
9
10

GitHub完整代码 https://github.com/InsaneLife/dssm

Multi-view DSSM实现同理，可以参考GitHub：multi_view_dssm_v3

CSDN原文：http://blog.csdn.net/shine19930820/article/details/79042567

上面是 DSSM 训练的架构图:

输入的是一个 query 和这个query相关的 doc ，这里的输入特征可以是最简单的 one-hot ,而需要 train 的是这个query下各个doc的相关性( DSSM 里面使用点击率来代替相关性)
由于这种 one-hot 的输入可能会有两个问题:
1. 导致 vocabulary 太大
2. 会出现 oov 的问题
  
  因此输入特征之后的第一层是做一个叫做 Word Hashinging 的操作
接下来就是传统的神经网络了
$$l_i=f(W_il_{i-1}+b_i),i = 2,…,N-1 \\
y=f(W_Nl_{N-1}+b_N) $$

这里的 f 是激活函数，文中使用$tanh$来计算:$f(x)=\frac{1-e^{-2x}}{1+e^{-2x}}$
得到的$y$就是语义特征了,query和doc之间的相关性就可以直接使用特想之间的相似性来度量，这里使用cosine来计算
$$R(Q,D)=cosine(y_Q,y_D) = \frac{y_Q^Ty_D}{||y_Q||||y_D||}$$
最终得到的相似度就可以去训练query和doc的相关性了

因此整个结构就可以看做做了一层 Word Hashing 之后去训练 DNN 网络

Word Hashing

Word Hashing 是paper非常重要的一个 trick ，以英文单词来说，比如 good ，他可以写成 #good# ，然后按tri-grams来进行分解为 #go goo ood od# ，再将这个tri-grams灌入到 bag-of-word 中，这种方式可以非常有效的解决 vocabulary 太大的问题(因为在真实的web search中vocabulary就是异常的大)，另外也不会出现 oov 问题，因此英文单词才26个，3个字母的组合都是有限的，很容易枚举光。
那么问题就来了，这样两个不同的单词会不会产出相同的tri-grams，paper里面做了统计，说了这个冲突的概率非常的低，500K个word可以降到30k维，冲突的概率为0.0044%

但是在中文场景下，这个 Word Hashing 估计没有这么有效了
因为直接使用了word hashing，因为无法记录上下文信息

训练DSSM

上面是前向计算过程，在进行训练的时候需要计算给定 Query 下与 Doc 的相关性:
$$P(D|Q) = \frac{exp(\gamma R(Q,D))}{\sum_{d_i \in D} exp(\gamma R(Q,D))}$$

最终他需要优化的损失函数为:
$$L(\Lambda) = - \text{log} \prod_{(Q,D^+)} P(D^+|Q)$$

$D^+$表示被点击的文档，这里就是最大化点击文档的相关性的最大似然

CDSSM

CDSSM (又称 CLSM :Convolutional latent semantic model)在一定程度上他可以弥补 DSSM 会丢失上下文的问题,他的结构也很简单，主要是将DNN 替换成了 CNN

他的前向步骤主要计算如下:

1. 使用指定滑窗大小对输入序列取窗口数据（称为 word-n-gram ）
2. 对于这些 word-n-gram 按 letter-trigram 进行转换构成representation vector(其实就是 Word Hashing )
3. 对窗口数据进行一次卷积层的处理(窗口里面含有部分上下文)
4. 使用 max-pooling 层来取那些比较重要的 word-n-gram
5. 再过一次FC层计算语义向量
6. 他最终输出的还是128维

> 因为使用 CDSSM 来做语义匹配的工作也是比较合适的

## DSSM-LSTM
既然是为了记录输入句子的上下文，这个无疑是 Lstm 这个模型更为擅长，因此又有了一种 Lstm 来构造的 DSSM 模型

【NLP】DSSM深度结构化语义模型原理_第2张图片

这篇相对于 CDSMM 来说改的更为简单，其实就是将原始 DSSM 的模型替换为了 LSTM 模型…

MV-DSSM

MV-DSSM 里面的 MV 为 Multi-View ，一般可以理解为多视角的 DSSM ，在原始的DSSM中需要训练的有 Query 和 Doc 这两类的embedding,同时里面 DNN 的所有权重都是共享的，而 MV-DSSM 他可以训练不止两类的训练数据，同时里面的深度模型的参数是相互独立:

【NLP】DSSM深度结构化语义模型原理_第3张图片

基于 Multi-View 的 DSSM 是的参数变多了，由于多视角的训练，输入的语料也可以变得不同，自由度也更大了，但是随之带来的问题就是训练会变得越来越困难^_^

总结

DSSM 类的模型其实在计算相似度的时候最后一步除了使用Cosine，可能再接入一个MLP会更加好，因为Cosine是完全无参的。

DSSM 的优势:

DSSM 看起来在真实检索场景下可行性很高，一方面是直接使用了用户天然的点击数据，出来的结果可行度很高，另一方面文中的doc可以使用title来表示，同时这个部分都是可以离线进行语义向量计算的，然后最终query和doc的语义相似性也是相当诱人
DSSM 出的结果不仅可以直接排序，还可以拿中间见过做文章: semantic feature 可以天然的作为 word embedding 嘛

DSSM 的劣势:

用户信息较难加入(不过可以基于 MVDSSM 改造)
貌似训练时间很长啊

参考

Huang P S, He X, Gao J, et al. Learning deep structured semantic models for web search using clickthrough data[C]// ACM International Conference on Conference on Information & Knowledge Management. ACM, 2013:2333-2338.
Shen, Yelong, et al. “A latent semantic model with convolutional-pooling structure for information retrieval.” Proceedings of the 23rd ACM International Conference on Conference on Information and Knowledge Management. ACM, 2014.
Palangi, Hamid, et al. “Semantic modelling with long-short-term memory for information retrieval.” arXiv preprint arXiv:1412.6629 (2014).
Elkahky, Ali Mamdouh, Yang Song, and Xiaodong He. “A multi-view deep learning approach for cross domain user modeling in recommendation systems.” Proceedings of the 24th International Conference on World Wide Web. International World Wide Web Conferences Steering Committee, 2015.

转载自：http://ju.outofmemory.cn/entry/316660

https://blog.csdn.net/shine19930820/article/details/79042567

你可能感兴趣的:(NLP)

Python 如何使用 Bert 进行中文情感分析程序员徐师兄 Python 入门专栏 python bert 开发语言情感分析
前言在自然语言处理（NLP）领域，情感分析是一个非常常见且重要的应用。情感分析通常用于识别文本中的情感，例如判断一条微博或评论是正面、负面还是中性。在过去的几年中，随着深度学习的发展，BERT（BidirectionalEncoderRepresentationsfromTransformers）模型迅速成为了处理自然语言的强大工具。BERT是一种基于Transformer架构的预训练模型，它能够
深入理解旋转位置编码（RoPE）及其在大型语言模型中的应用 tangjunjun-owen 语言模型-多模态大模型语言模型人工智能自然语言处理 RoPE 旋转位置编码
文章目录前言一、旋转位置编码原理1、RoPE概述2、复数域内的旋转1、位置编码生成2、应用位置编码二、RoPE的实现细节1、RotaryEmbedding类设计2、apply_rotary_pos_emb函数3、demo_apply_rotary_pos_emb函数三、完整RoPE代码Demo前言随着自然语言处理（NLP）领域的快速发展，预训练的语言模型如BERT、GPT系列、PaLM、Qwen等
[python][whl]pyltp的whl格式文件所有版本下载地址汇总 FL1623863129 Python python 开发语言
pyltp：Python中的中文自然语言处理工具在数字化时代，自然语言处理（NLP）成为了与机器进行交互的关键技术。对于中文，由于其独特的语言结构和复杂性，专门的工具和库显得尤为重要。pyltp正是这样一个为中文NLP任务设计的Python库，它封装了LTP（LanguageTechnologyPlatform）的核心功能，使得开发者能够轻松地在Python环境中进行中文文本的处理和分析。pylt
Java 大视界 -- Java 大数据文本分析与自然语言处理：从文本挖掘到智能对话一只蜗牛儿 java 大数据自然语言处理
在当今的信息化时代，数据成为了重要的资源。特别是文本数据，随处可见，如社交媒体、新闻网站、技术文档、客户反馈等，这些都包含着大量的潜在信息。因此，如何从海量的文本中提取有价值的信息，成为了大数据分析领域的重要课题。Java作为一种高效、灵活的编程语言，在大数据文本分析与自然语言处理（NLP）中发挥着至关重要的作用。本文将介绍如何利用Java开发大数据文本分析和自然语言处理（NLP）应用，带领你从文
未登录词 Out-of-Vocabulary, OOV risc123456 nlp
未登录词oov未登录词（Out-of-Vocabulary,OOV）是指在训练数据中没有出现过的词汇，但在测试数据或实际应用中却出现了。未登录词是自然语言处理（NLP）任务中常见的挑战之一，因为它们可能导致模型无法正确处理或理解这些词汇，从而影响模型的性能。以下是一些关于未登录词的详细解释和处理方法：###未登录词的来源1.**罕见词**：在训练数据中出现次数非常少的词，可能在训练过程中被忽略或未
大语言模型原理与工程实践：预训练数据构建 AI大模型应用之禅 AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理与工程实践：预训练数据构建1.背景介绍大语言模型（LargeLanguageModels,LLMs）近年来在自然语言处理（NLP）领域取得了显著的进展。诸如GPT-3、BERT等模型在各种任务中表现出色，从文本生成到情感分析，再到机器翻译，几乎无所不能。这些模型的成功很大程度上依赖于预训练数据的质量和规模。预训练数据的构建不仅影响模型的性能，还决定了模型的泛化能力和应用范围。在本文中
大语言模型原理与工程实践：网页数据 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理与工程实践：网页数据1.背景介绍在当今信息爆炸的时代，网页数据成为了大数据的重要来源之一。网页数据不仅包含了丰富的文本信息，还包括了图像、视频、音频等多媒体内容。大语言模型（LargeLanguageModels,LLMs）作为自然语言处理（NLP）领域的前沿技术，能够从海量的网页数据中提取有价值的信息，进行文本生成、情感分析、问答系统等多种任务。大语言模型的成功离不开深度学习技术的
使用VolcEngine Maas Chat进行语言模型对话的入门指南 dagGAIYD 语言模型人工智能自然语言处理 python
技术背景介绍VolcEngineMaasChat模型提供了一种便捷的方式进行对话接口的设计与实现，特别是对于自然语言处理(NLP)应用。通过简单的API调用，开发者可以轻松集成强大的AI对话能力到他们的应用中。本文将指导您如何使用VolcEngineMaasChat进行对话交互。核心原理解析VolcEngineMaasChat利用大语言模型来处理和生成自然语言，在接收到用户的输入后，模型会通过分析
使用ModelScope实现高效句嵌入生成 dagGAIYD python
技术背景介绍在自然语言处理（NLP）任务中，向量化文本（嵌入）是许多下游任务（如语义搜索、文本分类、问答系统等）的核心步骤之一。通过将文本转换为密集向量表示，我们可以在高维向量空间中构建更加高效的表示和检索算法。ModelScope是阿里云开源的一个模型和数据集管理平台，提供了大量预训练模型，涵盖了各种领域和任务。ModelScopeEmbeddings是一个与LangChain社区集成的工具类，
Transformer架构原理详解：多头注意力（MultiHead Attention） AI大模型应用之禅 AI大模型与大数据 java python javascript kotlin golang 架构人工智能
Transformer,多头注意力,Multi-HeadAttention,机器翻译,自然语言处理,深度学习1.背景介绍近年来，深度学习在自然语言处理（NLP）领域取得了显著进展。传统的循环神经网络（RNN）在处理长序列数据时存在效率低下和梯度消失等问题。为了解决这些问题，谷歌于2017年提出了Transformer架构，并将其应用于机器翻译任务，取得了突破性的成果。Transformer的核心创
多头潜在注意力（MLA）是怎么来的，什么原理，能用简单的示例解释么百态老人学习
多头潜在注意力（Multi-HeadLatentAttention，简称MLA）是一种改进的注意力机制，旨在提高自然语言处理（NLP）模型的推理效率和性能。其核心思想是通过低秩联合压缩键（Key）和值（Value），减少推理过程中所需的内存和计算资源，从而实现更高效的处理。MLA的原理在传统的多头注意力机制（MHA）中，每个输入token的键和值需要被缓存，这导致了巨大的内存开销。具体来说，对于每
从0到1打造企业AI知识库-课程目录 MaxCode-1 人工智能 AIGC 知识图谱 Langchain Xinference
课程名称：「从0到1打造企业AI知识库：实用指南与生产落地」课程目录第一章：AI企业知识库的前景与价值1.企业知识库的概念与意义1.1什么是企业知识库？-企业知识库的核心组成-企业知识库的类型1.2企业知识库如何赋能内部协作与创新。2.AI在知识库中的作用AI赋能的核心技术：NLP、知识图谱、大模型。AI知识库的未来趋势与行业案例。第二章：搭建企业知识库的整体规划3.从需求分析到方案设计识别业务场
深度学习Transformer框架 Clown爱电脑深度学习 transformer 人工智能自然语言处理机器学习
Transformer是一种深度学习框架，专门用于处理序列数据。它是2017年由Vaswani等人提出的，在NLP领域取得了很大的成功。Transformer的主要优势在于它可以并行地处理输入序列中的所有元素，并且不依赖于序列长度。它使用了self-attention机制，可以在序列中不同位置的元素之间建立联系。这使得Transformer在许多NLP任务中取得了最先进的性能。此外，Transfo
Transformer模型全面解析：工作原理、应用与未来展望* 泰山AI AI大模型应用开发 transformer
概述：深入探讨Transformer模型的工作原理，分析其在NLP领域的应用场景，并展望其未来发展趋势。本文为您提供关于Transformer模型的全面指南。正文Transformer模型全面解析：工作原理、应用与未来展望在人工智能的浪潮中，Transformer模型以其强大的性能和广泛的应用场景，成为了自然语言处理（NLP）领域的一颗璀璨明星。本文将对Transformer模型进行深入剖析，从工
一切皆是映射：Transformer架构全面解析 AI天才研究院计算大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
背景介绍自2017年，Transformer（自注意力机制）架构的问世以来，它已经成为自然语言处理（NLP）领域的主流技术之一。Transformer架构的出现，使得自然语言处理的任务变得更加简单、高效，同时也为许多其他领域提供了灵感。通过深入剖析Transformer，我们可以更好地理解其核心概念、原理和实际应用场景。这篇文章将全面解析Transformer架构，从核心概念到实际应用，帮助读者深
2.6 聚焦：Word Embedding 少林码僧 AI大模型应用实战专栏 word embedding
聚焦：WordEmbeddingWordEmbedding（词嵌入）是一种将词语转化为低维向量表示的技术，使得词语在数学空间中具有语义上的相似性。它是自然语言处理（NLP）中不可或缺的一部分，为文本数据提供了强大的表示能力。与传统的基于词频的词袋模型（Bag-of-Words）相比，WordEmbedding能够捕捉到词语之间更深层的语义和上下文信息。1.词嵌入的定义与作用WordEmbeddin
Transformer架构原理详解：编码器（Encoder）和解码器（Decoder） AI大模型应用之禅 AI大模型与大数据 java python javascript kotlin golang 架构人工智能
Transformer,编码器,解码器,自注意力机制,多头注意力,位置编码,序列到序列,自然语言处理1.背景介绍近年来，深度学习在自然语言处理（NLP）领域取得了显著进展，其中Transformer架构扮演着至关重要的角色。自2017年谷歌发布了基于Transformer的机器翻译模型BERT以来，Transformer及其变体在各种NLP任务上取得了突破性的成果，例如文本分类、问答系统、文本摘要
ChatGPT 绘图的工作原理
ChatGPT的绘图功能结合了自然语言处理（NLP）和图像生成的技术，这种综合能力依赖于预训练模型（如GPT-4）和图像生成模型（如DALL-E）之间的紧密协作。ChatGPT本质上是一个大规模的语言模型，但通过与图像生成模型集成，它得以执行基于描述生成图像的任务。接下来，我们将从模型架构、训练方法、推理机制和一些技术挑战等方面，详细讨论ChatGPT进行绘图的工作原理。
2024 年技术盘点与展望：从 AI 辅助到个人成长的多元探索 109702008 杂谈人工智能
一、引言2024年，技术领域的发展日新月异，我在这片汹涌的浪潮中不断探索与成长。这一年，我不仅见证了人工智能技术的飞速发展，还通过AI辅助创作、AI赋能编程以及参与各类竞赛与课程，实现了个人技术的显著提升与视野的拓展。本文将从总结盘点的角度，回顾我在技术领域的成长历程，并对未来进行展望。二、AI辅助创作：提升写作效率与质量在自然语言处理技术（NLP）的推动下，AI写作工具成为了我的得力助手。这些工
17-7 向量数据库之野望7 - PostgreSQL 和pgvector 拉达曼迪斯II AIGC学习数据库管理工具 AI创业数据库 postgresql 人工智能机器学习 AIGC 搜索引擎
PostgreSQL是一款功能强大的开源对象关系数据库系统，它已将其功能扩展到传统数据管理之外，通过pgvector扩展支持矢量数据。这一新增功能满足了对高效处理高维矢量数据日益增长的需求，这些数据通常用于机器学习、自然语言处理(NLP)和推荐系统等应用。https://github.com/mazzasaverio/find-your-opensource-project什么是pgvector？
使用Python实现LLM的文本生成：风格迁移与内容控制二进制独立开发 GenAI与Python 非纯粹GenAI python 开发语言人工智能自然语言处理分布式语言模型 transformer
文章目录引言1.大型语言模型（LLM）概述1.1Transformer架构1.2预训练与微调2.文本生成基础2.1无条件生成2.2条件生成3.风格迁移3.1风格迁移的基本原理3.2使用Python实现风格迁移4.内容控制4.1内容控制的基本原理4.2使用Python实现内容控制5.高级技巧与优化5.1多轮对话生成5.2生成参数优化6.应用场景与未来展望结论引言随着自然语言处理（NLP）技术的快速发
ChatGPT详解 Loving_enjoy 实用技巧人工智能自然语言处理
ChatGPT是一款由OpenAI研发和维护的先进的自然语言处理模型（NLP），全名为ChatGenerativePre-trainedTransformer，于2022年11月30日发布。以下是对ChatGPT的详细介绍：###一、技术架构与原理1.**技术架构**：ChatGPT建立在Transformer架构之上，这是一种深度学习模型，特别适用于处理自然语言。其核心是自注意力机制，允许模型在
NLP 中文拼写检测纠正论文 Automatic-Corpus-Generation 代码后端java
拼写纠正系列NLP中文拼写检测实现思路NLP中文拼写检测纠正算法整理NLP英文拼写算法，如果提升100W倍的性能？NLP中文拼写检测纠正Paperjava实现中英文拼写检查和错误纠正？可我只会写CRUD啊！一个提升英文单词拼写检测性能1000倍的算法？单词拼写纠正-03-leetcodeedit-distance72.力扣编辑距离NLP开源项目nlp-hanzi-similar汉字相似度word-
【大模型】从零样本到少样本学习：一文读懂 Zero-shot、One-shot 和 Few-shot 的核心原理与应用！橙子小哥的代码世界 NLP自然语言理解大模型自然语言处理 sklearn 深度学习神经网络 tensorflow
《从零样本到少样本学习：一文读懂Zero-shot、One-shot和Few-shot的核心原理与应用！》正文：在自然语言处理（NLP）领域，Zero-shot、One-shot和Few-shot学习已经成为衡量大语言模型泛化能力的重要指标。尤其是在大规模预训练模型（如GPT系列）的推动下，这些技术得到了广泛应用和关注。本篇文章将带你全面了解这三种学习方法的核心概念、原理和实际应用场景。1.什么是
NLP 中文拼写检测纠正论文-07-NLPTEA-2020中文语法错误诊断共享任务概述后端java
拼写纠正系列NLP中文拼写检测实现思路NLP中文拼写检测纠正算法整理NLP英文拼写算法，如果提升100W倍的性能？NLP中文拼写检测纠正Paperjava实现中英文拼写检查和错误纠正？可我只会写CRUD啊！一个提升英文单词拼写检测性能1000倍的算法？单词拼写纠正-03-leetcodeedit-distance72.力扣编辑距离NLP开源项目nlp-hanzi-similar汉字相似度word-
NLP 中文拼写检测纠正论文-04-Learning from the Dictionary 后端java
拼写纠正系列NLP中文拼写检测实现思路NLP中文拼写检测纠正算法整理NLP英文拼写算法，如果提升100W倍的性能？NLP中文拼写检测纠正Paperjava实现中英文拼写检查和错误纠正？可我只会写CRUD啊！一个提升英文单词拼写检测性能1000倍的算法？单词拼写纠正-03-leetcodeedit-distance72.力扣编辑距离NLP开源项目nlp-hanzi-similar汉字相似度word-
NLP 中文拼写检测纠正论文-01-介绍了SIGHAN 2015 包括任务描述，数据准备，绩效指标和评估结果后端java
拼写纠正系列NLP中文拼写检测实现思路NLP中文拼写检测纠正算法整理NLP英文拼写算法，如果提升100W倍的性能？NLP中文拼写检测纠正Paperjava实现中英文拼写检查和错误纠正？可我只会写CRUD啊！一个提升英文单词拼写检测性能1000倍的算法？单词拼写纠正-03-leetcodeedit-distance72.力扣编辑距离NLP开源项目nlp-hanzi-similar汉字相似度word-
利用Langchain与Minimax进行自然语言处理的精彩指南 afTFODguAKBF langchain 自然语言处理 easyui python
#引言在人工智能的浪潮中，自然语言处理（NLP）成为了企业和个人用户的重要工具。Minimax作为一家中国初创企业，专注于提供优秀的语言模型服务。本篇文章将介绍如何使用Langchain库与Minimax进行交互，帮助开发者充分利用这一强大的AI工具。#主要内容##1.Minimax简介Minimax专注于自然语言处理，为企业和个人用户提供高效的语言模型服务。其API能处理多种自然语言任务，例如文
深入解读ChatGPT的工作原理及底层逻辑 NAR_鱼丸 ChatGPT 程序人生
ChatGPT的工作原理和底层逻辑可以从多个方面进行解读，主要包括其基本原理、核心技术、训练过程以及应用能力。工作原理涉及了深度学习模型、自然语言处理技术和文本生成算法等多个方面。通过预训练和微调，模型能够理解语言的语法和语义，并能够根据上下文生成符合语境的文本回复。基本原理ChatGPT是一种基于自然语言处理（NLP）和深度学习技术的聊天机器人。其基本原理是使用大量文本数据来训练深度神经网络模型
ChatGPT原理及其应用场景编程小郭 chatgpt 人工智能 ai
ChatGPT的原理及应用场景一、ChatGPT的原理ChatGPT，全名ChatGenerativePre-trainedTransformer，是OpenAI研发的一款聊天机器人程序，其背后依托的是人工智能技术和自然语言处理（NLP）的深厚功底。其工作原理可以从以下几个方面进行解析：GPT系列模型基础ChatGPT基于GPT（GenerativePre-trainedTransformer）技
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他