jack_201316888

各种词向量的原理和详细代码实战(word2vec，fasttext，glove，elmo，gpt，bert)

https://blog.csdn.net/laojie4124/article/details/102915141

从word2vec-->fasttext-->glove的原理及实战

    一、Word2Vec
        什么是Word2Vec
        Word2vec比较one-hot优点
        Word2Vec的两种训练方式
        Word2Vec需要注意的几个关键点
        Ｗord2Vec的实现方式
        Word2Vec的训练方式
        分别用tensorflow和gensim实现Word2Vec
    二、Fasttext
        是什么Fasttext
        Fasttext的优点
        Fasttext和其他词向量的对比
        Fasttext和CBOW对比
        Fasttext代码实战
    三、glove
        什么是glove
        glove的实现方式
        Glove与word2ec，LSA的训练方式比较
        Glove实战
    四、ELMO, GPT, BERT的发展与对比
    五、总结

一、Word2Vec
什么是Word2Vec

Word2Vec是一种词的表示，用一组固定维度的向量来表示一个词或者字
Word2vec比较one-hot优点

1.基于词袋模型的one-hot编码在判定同义词，相思句子的时候很无力。
2.word2vec充分利用了上下文信息，这是one-hot编码没有的。从此词向量的表示就成了一个稠密的固定维度向量，不再是稀疏向量。
3,由于word2vec充分利用了上下文信息，因此在判断相似词或者句子都有很好的效果，也就是在深层次的语义理解相关任务上有更好的效果。
Word2Vec的两种训练方式

    CBOW（用上下文预测中心词）
    Skip-gram（用中心词预测上下文）
    二者从实现方式来看，只是输入输出发生了变化

Word2Vec需要注意的几个关键点

word2vec的本质：无监督学习，因为输出并没有label，虽然从输入输出的形式上看，很像有监督学习，但其实并不是。
为什么不是有监督：词向量的本质可以看成只有一层的神经网络，因此必须有输入、输出。训练的过程并不是看最后预测的单词或者分类的结果，而是要获得神经网络中隐层的权重。这也符合词向量是神经网络模型中的副产品这一说法。

Ｗord2Vec的实现方式

首先说明，在word2vec模型的训练过程中，每个词都会作为中心词，和背景词，因此，每个词在训练结束后都有两个向量，一个是作为当它作为中心词的向量，另一个是作为背景词的向量。

    CBOW模型
    CBOW也叫连续词袋模型，用一个中心词前后的背景词来预测该中心词，例如：‘我’，‘爱’，‘红色’，‘这片’，‘土地’，窗口大小为2，就是用‘我’，‘爱’，‘这片’，‘土地’这四个背景词，来预测生成 ‘红色’ 这个中心词的条件概率。
    当CBOW模型训练完成时，我们得到两组向量，中心词和背景词，CBOW选用的是背景词向量作为最终词向量。
    Skip-gram模型
    Skip-gram也叫跳字模型，用一个中心词来预测它在文本序列周围的背景词。例如：‘我’，‘爱’，‘红色’，‘这片’，‘土地’，窗口大小为2，就是用 ‘红色’生成与它距离不超过2个词的背景词 ‘我’，‘爱’，‘这片’，‘土地’的条件概率。
    当Skip-gram模型训练完成时，我们得到两组向量，中心词和背景词，Skip-gram选用的是中心词向量作为最终词向量。

Word2Vec的训练方式

负采样（常用）
层序softmax

分别用tensorflow和gensim实现Word2Vec

这里讲两种实现Word2Vec的代码，一种是利用tensorflow实现，另一种是调包实现，主要是方便想改进Word2Vec和想快速使用的两种同学。

使用gensim快速使用Word2Vec

import jieba
import re
from gensim.models import word2vec

# 读取停用词
stop_words = []
with open('../data/stopword.txt', 'r', encoding='utf-8') as f_reader:
    for line in f_reader:
        line = line.replace('\r','').replace('r','').strip()
        stop_words.append(line)
print(len(stop_words))
stop_words = set(stop_words)
print(len(stop_words))

# 文本处理
sentences = []
rules = '[\u4e00-\u9fa5]+'
pattern = re.compile(rules)
f_writer = open('../data/分好词的笑傲江湖.txt', 'w', encoding='utf-8')

with open('../data/笑傲江湖.txt', 'r', encoding='utf-8') as f_reader:
    for line in f_reader:
        line = line.replace('\r','').replace('\n', '').strip()
        if line == '' or line is None:
            continue
        line = ' '.join(jieba.cut(line))
        seg_list = pattern.findall(line)
        word_list = []
        for word in seg_list:
            if word not in stop_words:
                word_list.append(word)
        if len(word_list) > 0:
            sentences.append(word_list) # [ [] , [] ...]
            line = ' '.join(word_list)
            f_writer.write(line+'\n')
            f_writer.flush()
f_writer.close()

# 训练
# sg=[0,1] 0是CBOW模型，1是skip-gram模型，默认为0
# window: 词向量的上下文最大距离，默认为5
# hs=[0,1] 0是负采样方法，1是层次softmax，默认为0
# min_count: 最小词频，少于这个频率的词不管，默认为5
model = word2vec.Word2Vec(sentences, iter=50, window=5, size=100, sg=0, hs=0, min_count=5)

# word2vec常用的几种方法

# 选出与某个词最相近的10个词
for e in model.most_similar(positive=['林平之'], topn=10):
print(e[0], e[1]) # word: similar_value

# 直接从文本加载训练语料
sentences2 = word2vec.Text8Corpus('../data/分好词的笑傲江湖.txt')

# 保存模型
model.save('./笑傲江湖.model')

# 加载模型
model2 = word2vec.Word2Vec.load('./笑傲江湖.model')

# 计算两个词语的相似度
sim_value = model.similarity('林平之','木高峰')
print(sim_value)

# 计算两个集合的相似度
list1 = ['劳德诺', '林平之']
list2 = ['劳德诺', '陆大有']
sim_value1 = model.n_similarity(list1,list2)
print(sim_value1)

# 选出集合中不同类型的词
list3 = ['劳德诺', '陆大有', '木高峰']
print(model.doesnt_match(list3))

# 查看词向量
print(model['劳德诺'])

使用tensorflow训练Word2Vec
给出几个重要的方法定义，非完整代码，贴出来太占空间，所有代码会在文末给出。

import re
import math
import random
import jieba
import collections
import numpy as np
import tensorflow as tf

data_index = 0
def generate_batch(batch_size, num_skips, skip_window):
    '''
    这步主要是获取中心词对应的窗口大小内的背景词作为label，自己好好调试，一步步看
    '''
    global data_index
    batch = np.ndarray(shape = (batch_size), dtype = np.int32)
    labels = np.ndarray(shape = (batch_size, 1), dtype = np.int32)
    span = 2*skip_window + 1
    buffer = collections.deque(maxlen = span)
    for _ in range(span):
        buffer.append(data[data_index])
        data_index = (data_index + 1) % len(data)
    for i in range(batch_size // num_skips):
        target = skip_window
        target_to_aviod = [skip_window]
        for j in range(num_skips):
            while target in target_to_aviod:
                target = random.randint(0, span-1)
            target_to_aviod.append(target)
            batch[i * num_skips + j] = buffer[skip_window]
            labels[i * num_skips + j] = buffer[target]
        buffer.append(data[data_index])
        data_index = (data_index + 1) % len(data)
    return batch , labels

# skip_gram model
batch_size = 128
embedding_size = 100
skip_window = 2
num_skips = 4
valid_window = 100
num_sampled = 64
learning_rate = 0.01

graph = tf.Graph()
with graph.as_default():
    # 输入数据
    train_inputs = tf.placeholder(dtype=tf.int32, shape=[batch_size])
    train_labels = tf.placeholder(dtype=tf.int32, shape=[batch_size, 1])
    valid_dataset = tf.constant(valid_examples, dtype=tf.int32)
    with tf.device('/cpu:0'):
        embeddings = tf.Variable(tf.random_uniform([vocabulary_size, embedding_size], -1.0, 1.0))
        embed = tf.nn.embedding_lookup(embeddings, train_inputs)

        # 从截断的正态分布中输出随机值。
        nce_weights = tf.Variable(tf.truncated_normal([vocabulary_size, embedding_size], stddev=1.0/math.sqrt(embedding_size)))
        nce_biases = tf.Variable(tf.zeros([vocabulary_size]), dtype=tf.float32)

        loss = tf.reduce_mean(tf.nn.nce_loss(weights=nce_weights, biases=nce_biases, inputs=embed, labels=train_labels,
                           num_sampled=num_sampled, num_classes=vocabulary_size))
        optimizer = tf.train.GradientDescentOptimizer(learning_rate).minimize(loss)

norm = tf.sqrt(tf.reduce_sum(tf.square(embeddings), 1, keep_dims=True))
normalized_embeddings = embeddings / norm

        valid_embeddings = tf.nn.embedding_lookup(normalized_embeddings, valid_dataset)
        similarity = tf.matmul(valid_embeddings, normalized_embeddings, transpose_b=True)
        init = tf.global_variables_initializer()

num_steps = 2000000
with tf.Session(graph=graph) as session:
init.run() # 初始化
print('initialized')

    average_loss = 0
    for step in range(num_steps):
        batch_inputs, batch_labels = generate_batch(batch_size, num_skips, skip_window)
        feed_dict = {train_inputs: batch_inputs, train_labels: batch_labels}

_, loss_val = session.run([optimizer, loss], feed_dict=feed_dict)

average_loss += loss_val

        if step % 2000 == 0:
            if step > 0:
                average_loss /= 2000
            print('Average loss at step ', step, ': ', average_loss)
            average_loss = 0
        if step % 10000 == 0: # 每10000步看看训练效果，获取与验证集中最相似的top_k个词
            sim = similarity.eval()
            for i in range(len(valid_word)):
                val_word = reverse_dictionary[valid_examples[i]]
                top_k = 8
                nearest = (-sim[i, :]).argsort()[: top_k]
                log_str = 'Nearest to %s:' % val_word
                for k in range(top_k):
                    close_word = reverse_dictionary[nearest[k]]
                    log_str = '%s %s' % (log_str, close_word)
                print(log_str)
    final_embeddings = normalized_embeddings.eval()

二、Fasttext
是什么Fasttext

Fasttext是一款文本分类与向量化的工具。目前最新版本0.9.1，与前面的几个版本改动较大，本篇文章主要用0.9.1来做讲解，毕竟人要往前看，哈哈。
Fasttext的优点

速度超快，根据Fcebook的报告，在普通的多核cpu上，10亿的词训练只要不到10分钟就训练好了。
Fasttext利用了词内的n-gram信息，和层次softmax的训练trick，使用n-gram信息，将上下文中每个词的都进行基于词的n-gram，最后将所有n-gram和原词相加，来代表上下文信息。这样可以在词与词之间建立联系。

Fasttext和其他词向量的对比

以往的词向量都是以词汇表中独立单词作为基本单元来进行训练学习，这会造成两个问题：

低频词，罕见词在文本中出现的次数不多，因此得不到足够的训练，效果不佳
未登录词，没在词汇表中出现的词，传统模型更加无能为力。

fasttext将词打散到字符级别，提取字的多种n-gram信息，丰富词内部的信息，最后一个词的向量由它的所有n-gram的向量求和得到。这样不但解决了低频词，未登录词的问题，还提高了效果。
Fasttext和CBOW对比

相同点：模型结构差不多，都是三层，输入层，隐含层，输出层，都是对多个词向量的叠加平均。
不同点：CBOW输入的是单词的上下文，fasttext输入的是多个单词及其n-grram特征，这些特征用来表示单个文档；CBOW的输入单词呗one-hot编码过，fasttext输入特征时被embedding过；CBOW的输出是目标词汇，fasttext是文档对应的类标。
Fasttext代码实战

# -*- coding:utf-8 -*-
import jieba
import fasttext

def process_data():
    # 文本处理
    stop_words = []
    with open('../data/stopword.txt', 'r', encoding='utf-8') as f_reader:
        for line in f_reader:
            line = line.replace('\r','').replace('r','').strip()
            stop_words.append(line)
    # print(len(stop_words))
    stop_words = list(set(stop_words))
    # print(len(stop_words))

    category = []
    f_writer = open('./train.txt', 'w', encoding='utf-8')
    with open('../data/news.train.txt', 'r', encoding='utf-8') as f_reader:
        for line in f_reader:
            line = line.replace('\r','').replace('\n', '').strip()
            line_list = line.split('\t')
            if len(line_list) == 2:
                seg_list = jieba.cut(line_list[1])
                word_list = []
                for word in seg_list:
                    if word not in stop_words:
                        word_list.append(word)
                line = ' '.join(word_list)
                line = '__label__' + line_list[0] + '\t' + line + '\n'
                f_writer.write(line)
                f_writer.flush()
                if line_list[0] not in category:
                    category.append(line_list[0])
    f_writer.close()
    return stop_words,category

if __name__ == '__main__':
    stopwords, category = process_data()
    # print(category)
    #
    # 利用fasttext做文本分类训练
    model = fasttext.train_supervised('./train.txt')
    model.save_model('./fasttext.model')

    # 测试集上的准确率和召回率
    train_result = model.test('./test.txt')
    print(train_result)

# 载入模型
model = fasttext.load_model('./fasttext.model')

    # 测试新的样本
    text = ['Google在开源BERT模型时已经在英文问答数据集SQuAD上获得SOTA值，经过我们的实验，BERT在处理中文问答任务时同样有十分出色的表现。这证明了BERT作为一种强大的预训练模型，的确可以很好地表征token的词义特征、语义特征、及句法特征']
    texts = []
    for word in jieba.cut(text[0]):
        if word not in stopwords:
            texts.append(word)
    process_text = [' '.join(texts)]
    label = model.predict(text, k=1)
    print(label)

    # 利用fasttext 指定模式训练词向量
    word2vec = fasttext.train_unsupervised('./train.txt', model='cbow') # model = 'skipgram‘
    print(word2vec.get_dimension()) # 获得向量维度
    print(word2vec.get_word_vector('篮球')) # 过去篮球的向量

# 查看训练的语料词
print(model.words)

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    57
    58
    59
    60
    61
    62
    63
    64
    65
    66
    67
    68
    69

三、glove
什么是glove

glove是一个基于全局词频统计的词表征工具，它可以把一个单词表达成一个由实数组成的向量，这些向量捕捉到了单词之间的一些语义特征，如相似性，类比性等。
glove的实现方式

    根据语料库构建一个共现矩阵（矩阵中每个值代表两个单词在特定窗口大小下共同出现的次数，一般是1，但是论文认为是d，同时提出一个衰减函数，随着窗口大小越大，距离越远的两个单词所占计数的权重更小）
    构建词向量和共现矩阵之间的近似关系
    构造loss function

共现矩阵的样子：
在这里插入图片描述
Glove与word2ec，LSA的训练方式比较

LSA也是基于共现矩阵进行训练的，只不过采用的是SVD奇异值分解的矩阵分解技术对大矩阵进行降维，SVD的复杂度是很高的，所以它的计算代价比较大，同时它对所有单词的统计权重都是一致的，而这些在glove中都被克服了。
word2vec的两种模式都是基于局部滑动窗口计算的，即该方法只利用了局部的上下文特征。
LSA和word2vec是两大类方法的代表，一个利用了全局特征的矩阵分解方法，一个利用了局部的上下文特征，而Glove就是将这两种特征合并在一起，既使用了语料库的全局统计特征，也使用了局部的上下文特征（滑动窗口）。
Glove实战

由于训练时间原因，同时个人觉得在大部分任务上word2vec和glove的效果其实差不多，并没有论文说的那么好，因此直接使用一些工具训练好的glove向量，mxnet中有大量训练好的词向量，包括word2vec，fasttext，glove词向量都有，这里教大家如何调用mxnet中训练好的词向量，同理可以使用其中其他训练好的词向量。

from mxnet import nd
from mxnet.contrib import text

# 得到里面所有glove训练好的模型，直接调出来用，方便
# glove可以换成word2vec，fasttext等
# 这里的输出结果就是mxnet下所有训练好的glove向量的名字
glove_vec = text.embedding.get_pretrained_file_names("glove")

print(glove_vec)

# 调用你要选择的训练好的词向量
glove_6b50d = text.embedding.create('glove', pretrained_file_name="glove.6B.50d.txt")

word_size = len(glove_6b50d)
print(word_size)

#词的索引
index = glove_6b50d.token_to_idx['happy']
print(index)

#索引到词
word = glove_6b50d.idx_to_token[1752]
print(word)

#词向量
print(glove_6b50d.idx_to_vec[1752])

# Glove应用
#余弦相似度
def cos_sim(x, y):
return nd.dot(x,y)/(x.norm() * y.norm())

a = nd.array([4,5])
b = nd.array([400,500])
print(cos_sim(a,b))

#求近义词
def norm_vecs_by_row(x):
# 分母中添加的 1e-10 是为了数值稳定性。
return x / (nd.sum(x * x, axis=1) + 1e-10).sqrt().reshape((-1, 1))

def get_knn(token_embedding, k, word):
    word_vec = token_embedding.get_vecs_by_tokens([word]).reshape((-1, 1))
    vocab_vecs = norm_vecs_by_row(token_embedding.idx_to_vec)
    dot_prod = nd.dot(vocab_vecs, word_vec)
    indices = nd.topk(dot_prod.reshape((len(token_embedding), )), k=k+1,
                      ret_typ='indices')
    indices = [int(i.asscalar()) for i in indices]
    # 除去输入词。
    return token_embedding.to_tokens(indices[1:])

sim_list = get_knn(glove_6b50d,10, 'baby')
print(sim_list)

sim_val = cos_sim(glove_6b50d.get_vecs_by_tokens('baby'), glove_6b50d.get_vecs_by_tokens('babies'))
print(sim_val)

print(get_knn(glove_6b50d,10,'computer'))

print(get_knn(glove_6b50d,10,'run'))

print(get_knn(glove_6b50d,10,'love'))

#求类比词
#vec(c)+vec(b)−vec(a)
def get_top_k_by_analogy(token_embedding, k, word1, word2, word3):
    word_vecs = token_embedding.get_vecs_by_tokens([word1, word2, word3])
    word_diff = (word_vecs[1] - word_vecs[0] + word_vecs[2]).reshape((-1, 1))
    vocab_vecs = norm_vecs_by_row(token_embedding.idx_to_vec)
    dot_prod = nd.dot(vocab_vecs, word_diff)
    indices = nd.topk(dot_prod.reshape((len(token_embedding), )), k=k,
                      ret_typ='indices')
    indices = [int(i.asscalar()) for i in indices]
    return token_embedding.to_tokens(indices)

#验证vec(son)+vec(woman)-vec(man) 与 vec(daughter) 两个向量之间的余弦相似度
def cos_sim_word_analogy(token_embedding, word1, word2, word3, word4):
    words = [word1, word2, word3, word4]
    vecs = token_embedding.get_vecs_by_tokens(words)
    return cos_sim(vecs[1] - vecs[0] + vecs[2], vecs[3])

word_list = get_top_k_by_analogy(glove_6b50d,1,'man','woman','son')

print(word_list)

word_list = get_top_k_by_analogy(glove_6b50d,1,'man','son','woman')
print(word_list)

sim_val = cos_sim_word_analogy(glove_6b50d, 'man','woman','son','daughter')
print(sim_val)

word_list = get_top_k_by_analogy(glove_6b50d,1,'beijing','china','tokyo')

print(word_list)

word_list = get_top_k_by_analogy(glove_6b50d,1,'bad','worst','big')

print(word_list)

word_list = get_top_k_by_analogy

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    57
    58
    59
    60
    61
    62
    63
    64
    65
    66
    67
    68
    69
    70
    71
    72
    73
    74
    75
    76
    77
    78
    79
    80
    81
    82
    83
    84
    85
    86
    87
    88
    89
    90
    91
    92
    93
    94
    95
    96
    97
    98
    99
    100

四、ELMO, GPT, BERT的发展与对比

待续
五、总结

这里针对三种词向量来进行简单的原理讲解和实战代码，在面试过程中如果问到词向量，这些内容大概率都是会问的，当然有些还会问公式，推导过程，以及你是否没有调包直接复现过（大部分针对wrod2vec），因此这里使用了tensorflow复现word2vec
的skipgram模式，对于公式，有很多好的博客介绍的很详细，这篇文章主要是针对实践部分，毕竟懂了原理也得会应用在自己的项目上，以上所有的代码以及所使用数据集，如有想要的大佬，可以留邮箱或者私信我，我看到及时发给你，理论可能不是很详细，大伙想深入理解理论，就看看其他大佬优秀的文章吧。

从 “啃书焦虑” 到 “项目通关”：NLP 学习的破局之道木旭林晖自然语言处理学习人工智能
嘿，你好。在CSDN上潜水这么久，我总能看到很多像你我当年一样，怀揣着NLP大厂梦的同学。我猜，你的收藏夹里一定塞满了“NLP必读清单”，书架上可能还放着那本厚得像砖头一样的《统计学习方法》或者“龙书”。每天深夜，你可能都在跟一个又一个复杂的数学公式死磕。什么最大熵模型、什么CRF（条件随机场）的推导……你觉得自己离“精通”越来越近，但心里却越来越慌。为什么慌？因为你打开招聘软件，看到JD（职位描
Promptify：简化NLP任务的高效工具箱金斐茉
Promptify：简化NLP任务的高效工具箱PromptifyPromptEngineering|PromptVersioning|UseGPTorotherpromptbasedmodelstogetstructuredoutput.JoinourdiscordforPrompt-Engineering,LLMsandotherlatestresearch项目地址:https://gitcod
Promptify与ReActAgent frostmelody 人工智能
一、Promptify定位：NLP任务的「自动化流水线」1.解决什么问题？传统LLM应用开发痛点：反复调试：需手工编写/调整prompt格式（如调整分隔符、示例数量）兼容性差：不同模型需重写适配代码输出不稳定：非结构化文本需额外解析Promptify用标准化流水线解决上述问题，将复杂prompt工程简化为三行代码：model=OpenAI(api_key)#选择模型prompter=Prompte
理解不同层的表示（layer representations）科学禅道高维表示人工智能深度学习
在机器学习和深度学习领域，特别是在处理音频和自然语言处理（NLP）任务时，"层的表示"（layerrepresentations）通常是指神经网络不同层在处理输入数据时生成的特征或嵌入。这些表示捕获了输入数据的不同层次的信息。1.层的表示（layerrepresentations）为了更好地理解这一概念，我们可以从以下几个方面进行解释：1.深度神经网络结构深度神经网络（DNN）通常由多个层组成，每
【深度学习解惑】如果用RNN实现情感分析或文本分类，你会如何设计数据输入？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 分类人工智能机器学习神经网络
以下是用RNN实现情感分析/文本分类时数据输入设计的完整技术方案：1.引言与背景介绍情感分析/文本分类是NLP的核心任务，目标是将文本映射到预定义类别（如正面/负面情感）。RNN因其处理序列数据的天然优势成为主流方案。核心挑战在于如何将非结构化的文本数据转换为适合RNN处理的数值化序列输入。2.原理解释文本到向量的转换流程：原始文本分词建立词汇表词索引映射词嵌入层序列向量关键数学表示：词嵌入表示：
大语言模型(LLM)量化基础知识(一) -派神- RAG NLP ChatGPT 语言模型人工智能自然语言处理
承接各类AI相关应用开发项目(包括但不限于大模型微调、RAG、AI智能体、NLP、机器学习算法、运筹优化算法、数据分析EDA等)!!!有意愿请私信!!!随着大型语言模型(LLM)的参数数量的增长,与其支持硬件（加速器内存）增长速度之间的差距越来越大，如下图所示：上图显示，从2017年到2022年，语言模型的大小显著增加：2017年：Transformer模型（0.05B参数）2018年：GPT（0
对话云蝠智能：大模型如何让企业呼叫系统从 “成本中心” 变身 “价值枢纽”？ MARS_AI_ 人工智能自然语言处理信息与通信交互
在人工智能重塑企业服务的浪潮中，云蝠智能（南京星蝠科技有限公司旗下品牌）以深厚的技术积累和行业实践，逐步成长为国内智能外呼领域的标杆企业。其发展路径揭示了技术自主创新与场景深度结合的必然性。一、技术架构：全栈自研奠定领先基础云蝠智能的核心竞争力源于其全链路自研技术体系。该架构覆盖语音识别（ASR）、自然语言处理（NLP）、语音合成（TTS）及软交换六大层级，实现从基础设施到操作层的闭环设计。这一分
Jenkins JNLP与SSH节点连接方式对比及连接断开问题解决方案 tianyuanwo devops jenkins ssh 运维
一、JNLPvsSSH连接方式优缺点对比对比维度JNLP（JavaWebStart）SSH（SecureShell）核心原理代理节点主动连接Jenkins主节点，通过加密通道通信，支持动态资源分配。Jenkins通过SSH协议远程登录代理节点执行命令，需预先配置SSH服务。适用场景容器化环境（如Kubernetes）、需要跨平台或动态扩缩容的场景。传统物理机/虚拟机、静态节点或简单命令执行场景。安
用AI写一个自动记录手机支付记录的小插件教程python
要实现一个自动记录手机支付记录的小插件，核心是利用AI技术解析支付通知短信/通知栏消息。以下是通过训练让AI写代码实现方案：基础方案：手动输入+AI分类（无需权限）#使用Python+Tkinter（界面）+简易NLP分类importtkinterastkfromdatetimeimportdatetimeimportreclassPaymentTracker:def__init__(self):
AI 销售系统：重塑销售格局的科技利器小柔说科技人工智能科技 java
在数字化浪潮汹涌澎湃的当下，人工智能（AI）正以前所未有的速度渗透到各个行业，销售领域也不例外。AI销售系统作为一种融合了先进人工智能技术的创新工具，正逐渐成为企业提升销售效率、优化客户体验、增强市场竞争力的关键因素。一、AI销售系统的概念与核心技术AI销售系统是基于人工智能技术构建的一套综合性销售管理平台，它整合了自然语言处理（NLP）、机器学习（ML）、数据分析、预测建模等多种核心技术。通过这
【炼丹炉】Conda环境离线迁移黑白象炼丹笔记自然语言处理 pip python anaconda linux
1.背景笔者所在公司最近要在局域网内部署NLP算法模型，由于需求方对数据安全有严格要求，新服务器所在局域网不能直接访问Internet，因此需要将模型所需的运行环境离线迁移到新服务器中。2.方案2.1conda-packconda-pack是一个命令行工具，用于打包conda环境。该命令会将坏境中安装的软件包的二进制文件进行打包。注：本方法不需要下载安装包，因此，conda-pack需要指定平台和
NLP市场规模将破千千亿，哪些岗位会成为新风口？ duolapig 人工智能
近年来，自然语言处理（NLP）技术在全球范围内掀起了一场“语言革命”。从智能客服到机器翻译，从情感分析到内容生成，NLP正以惊人的速度重塑人类与机器的交互方式。艾媒咨询数据显示，2023年中国NLP市场规模已达660亿元，预计2027年将突破千亿大关。这一数字背后，不仅是技术迭代的加速，更是一场深刻的人才需求变革。在AI大模型浪潮的推动下，新的职业风口正在形成，而这场变革的核心逻辑，是技术与产业融
RNN、LSTM、GRU详解昔颜1121 人工智能 rnn python
RNN、LSTM、GRU详解在深度学习领域，序列数据（如语音识别、机器翻译、文本生成等）广泛应用于自然语言处理（NLP）、时间序列预测、语音和视频处理等任务中。针对序列数据，循环神经网络（RNN,RecurrentNeuralNetwork）及其改进版本——长短时记忆网络（LSTM,LongShort-TermMemory）和门控循环单元（GRU,GatedRecurrentUnit）成为处理时序
小白的进阶之路系列之十六----人工智能从初步到精通pytorch综合运用的讲解第九部分金沙阳人工智能 pytorch python
从零开始学习NLP在这个由三部分组成的系列中，你将构建并训练一个基本的字符级循环神经网络(RNN)来对单词进行分类。你将学习如何从零开始构建循环神经网络NLP的基本数据处理技术如何训练RNN以识别单词的语言来源。从零开始学自然语言处理：使用字符级RNN对名字进行分类我们将构建并训练一个基本的字符级循环神经网络(RNN)来对单词进行分类。展示了如何预处理数据以建模NLP。特别是，这些教程展示了如何以
使用Hugging Face的BGE模型进行文本嵌入 lirxx 人工智能 langchain
在文本嵌入领域，BGE（BeijingAcademyofArtificialIntelligenceEmbeddings）模型是开源界的佼佼者。由北京智源人工智能研究院（BAAI）开发，BGE模型以其高效的嵌入性能和开放性获得了广泛的认可。本文将通过HuggingFace平台展示如何使用BGE模型进行文本嵌入。技术背景介绍文本嵌入是将文本数据转换为可计算向量的过程，这在自然语言处理（NLP）中具有
第8章：智能菜谱生成器——语言模型如何解析烹饪秘方白嫖不白嫖深度求索-DeepSeek 语言模型人工智能自然语言处理
第8章：智能菜谱生成器——语言模型如何解析烹饪秘方从语义理解到操作执行的完整技术解密工业案例背景：法国里昂的Bocused’Or国际烹饪大赛选手手册中记载这样一道经典指令：“将酱汁熬煮至Nappé状态（即勺子划过痕迹缓慢回填）”。当传统NLP系统将其简单译为"煮浓"，新一代Transformer模型却精准解析出粘度为1500-2000cP的物性指标，并据此生成控温方案。这背后的核心技术便是基于烹饪
WebRTC 语音激活检测(VAD)算法 u013250861 Audio webrtc 算法语音识别
语音激活检测最早应用于电话传输和检测系统当中，用于通信信道的时间分配，提高传输线路的利用效率。激活检测属于语音处理系统的前端操作，在语音检测领域意义重大。但是目前的语音激活检测，尤其是检测人声开始和结束的端点始终是属于技术难点，各家公司始终处于能判断，但是不敢保证判别准确性的阶段。通常搭建机器人聊天系统主要包括以下三个方面:语音转文字(ASR/STT)语义内容(NLU/NLP)文字转语音(TTS)
Java企业技术趋势分析：AI驱动下的Spring AI、LangChain4j与RAG系统架构在未来等你 Java场景面试宝典 AI 技术编程 Java Spring
【Java企业技术趋势分析：AI驱动下的SpringAI、LangChain4j与RAG系统架构】开篇在当今快速发展的技术环境中，人工智能（AI）正在以前所未有的速度重塑企业的技术架构和业务流程。Java作为企业级开发的主流语言之一，在AI应用落地方面也迎来了新的机遇和挑战。从自然语言处理（NLP）到机器学习（ML），再到生成式AI（GenerativeAI），Java开发者正在积极拥抱这些新兴技
【资源共享】eBook分享大集合天堂的鸽子杂七杂八资源分享
文章目录eBook分享大集合服务器系统类(9)机器学习类(17)NLP算法类(19)网络类(6)程序语言类C/C++语言(8)Python语言(14)Java语言(14)PHP语言(4)C#/.NET语言(21)Web技术(12)数据库类Oracle(5)MySQL(8)SQLServer(10)大数据类(11)其他系列IT思维类(15)架构设计类(11)敏捷开发类(21)面试精华文档Java(3
预训练目标：BERT 更适配 “理解类” 任务
在NLP任务中，更倾向于用BERT而非GPT做预训练，核心原因与两者的模型设计、任务适配性、资源成本有关，具体可从以下维度拆解：一、预训练目标：BERT更适配“理解类”任务BERT的双向预训练目标：通过掩码语言模型（MLM）和下一句预测（NSP），强制模型学习上下文的双向语义依赖（比如用“[MASK]是水果”的前后文猜“苹果”），天生适合文本理解、分类、问答等任务。GPT的单向预训练目标：基于自回
PyABSA 入门指南：基于深度学习的情感分析工具包是纯一呀 DeepLearning AI NLP 深度学习人工智能 NLP
在自然语言处理（NLP）领域，情感分析（SentimentAnalysis）一直是热门任务之一。而基于方面的情感分析（Aspect-BasedSentimentAnalysis，ABSA），则是更细粒度的分析方式——不仅判断正负情绪，还识别情绪对象（方面）和具体情感极性（如好/差）。什么是PyABSA？PyABSA（PythonAspect-BasedSentimentAnalysis）是一个专为
AI智能时代SEO优化，AISEO-人工智能搜索引擎优化 weixin_ggwwsscc 人工智能搜索引擎 deepseek AI seo
AI驱动的关键词精准匹配与语义理解传统的关键词排名规则主要依赖于关键词的字面匹配，即网站内容中出现的关键词与用户搜索词完全一致或高度相似时，才有可能获得较好的排名。然而，随着AI技术在搜索引擎中的广泛应用，这一局面正在发生深刻改变。如今的搜索引擎借助自然语言处理（NLP）和机器学习算法，能够深入理解用户搜索词背后的语义和意图，实现更精准的内容匹配。AI智能时代SEO优化，AISEO-人工智能搜索引
大语言模型应用指南：多模态大语言模型 AI天才研究院 AI人工智能与大数据 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型应用指南：多模态大语言模型作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：多模态大语言模型(MMLM),多媒体数据处理,自然语言理解,图像文本生成,应用场景探索1.背景介绍1.1问题的由来随着人工智能技术的迅速发展，特别是自然语言处理(NLP)领域的突破，大型语言模型(LargeLanguageModels,LLMs)成为研究热点。
Milvus 向量数据库详解与实践指南 JJJ@666 基础知识(人工智能AI)milvus 向量数据库图像检索推荐系统
一、Milvus核心介绍1.什么是Milvus？Milvus是一款开源、高性能、可扩展的向量数据库，专门为海量向量数据的存储、索引和检索而设计。它支持近似最近邻搜索（ANN），适用于图像检索、自然语言处理（NLP）、推荐系统、语义搜索、智能问答、多模态数据处理等AI应用场景。它能够高效处理：嵌入向量（Embeddings）特征向量（FeatureVectors）任何高维数值向量2.核心特性特性说明
【AI论文】MultiFinBen：一个用于金融大语言模型评估的多语言、多模态且具备难度感知能力的基准测试集东临碣石82 人工智能金融语言模型
摘要：近期，大型语言模型（LLMs）的进展加速了金融自然语言处理（NLP）及其应用的发展，然而现有的基准测试仍局限于单语言和单模态场景，往往过度依赖简单任务，无法反映现实世界金融交流的复杂性。我们推出了MultiFinBen，这是首个针对全球金融领域定制的多语言、多模态基准测试集，用于在特定领域任务上跨模态（文本、视觉、音频）和语言环境（单语言、双语、多语言）对大型语言模型进行评估。我们引入了两个
小白的进阶之路系列之十七----人工智能从初步到精通pytorch综合运用的讲解第十部分金沙阳人工智能 pytorch python
NLP从零开始：使用字符级RNN生成姓名这是我们“NLP从零开始”系列三部分教程中的第二部分。在第一个教程中，我们使用了RNN将姓名分类到其语言来源。这次我们将反过来，从语言生成姓名。>pythonsample.pyRussianRUSRovakovUantovShavakov>pythonsample.pyGermanGERGerrenErengRosher>pythonsample.pySpa
6月19日复盘四万二千人工智能 transformer
6月19日复盘二、分词与词向量分词和词向量是NLP的基础技术。1.分词分词是将连续的文本分割成独立的词汇单元（tokens）的过程。这些单元可以是单词、符号或子词。1.1中文特性中文句子由连续的汉字组成，没有明显的词边界：词与词之间没有分隔符英文：Ilovenaturallanguageprocessing.中文：我喜欢自然语言处理。词是最基本的语义单元。为了处理文本信息，须将连续的序列分割成有意
程序代码篇---ESP32-S3小智固件 Atticus-Orion 深度学习篇程序代码篇上位机知识篇 AI Esp32-S3 小智
Q1：ESP32-S3小智语音对话系统的整体架构是怎样的？A1：该系统采用“语音采集→唤醒词检测→ASR→NLP→TTS→语音播放”的流水线架构：硬件层：ESP32-S3芯片+麦克风阵列（如INMP441）+扬声器（如MAX98357A）。驱动层：ESP-IDF或Arduino框架提供的I2S、ADC、DAC驱动。算法层：唤醒词检测：基于MicroML（如TensorFlowLiteMicro）。
NLPIR智能语义：大数据精准挖掘是信息化发展趋势 weixin_33778544 大数据数据库人工智能
随着信息技术的高速发展、数据库管理系统的广泛应用，人们积累的数据量急剧增长，大量的信息给人们带来方便的同时，也带来了诸如：信息过量难以消化，信息真假难以辨识，信息安全难以保证，信息形式不一致难以统一处理等问题。如何从海量的数据中提取有用的知识成为当务之急。数据挖掘就是为顺应这种需要应运而生发展起来的数据处理技术。数据挖掘就是对观测到的数据集进行分析，目的是发现未知的关系和以数据拥有者可以理解并对其
从代码学习深度学习 - 情感分析及数据集 PyTorch版飞雪白鹿€ #自然语言处理深度学习 pytorch
文章目录前言1.认识数据集：aclImdb基本信息数据结构特点2.解压与读取数据2.1解压文件2.2读取评论与标签3.预处理数据集3.1词元化与构建词汇表3.2分析评论长度3.3截断与填充4.创建数据迭代器5.整合所有步骤总结前言欢迎来到“从代码学习深度学习”系列！今天，我们将深入探讨自然语言处理（NLP）中的一个核心任务：情感分析。随着互联网的普及，从产品评论、社交媒体到论坛讨论，我们每天都在产
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，

各种词向量的原理和详细代码实战(word2vec，fasttext，glove，elmo，gpt，bert)

你可能感兴趣的:(NLP)