紫砂痕

卷积神经网络+TextCNN文本分类

卷积神经网络

1. 卷积

1.1 卷积的定义
1.2 卷积的运算
1.3 卷积神经网络
参考链接：

2. 反卷积（转置卷积）

参考链接

3. 池化 pooling

参考链接

4. TextCNN 的原理
5. TextCNN 实现文本分类

5.1 导入数据并分词
5.2 word2vec向量化
5.3 TextCNN

卷积运算的定义、动机（稀疏权重、参数共享、等变表示）。一维卷积运算和二维卷积运算。
反卷积(tf.nn.conv2d_transpose)
池化运算的定义、种类（最大池化、平均池化等）、动机。
Text-CNN的原理。
利用Text-CNN模型来进行文本分类。

1. 卷积

1.1 卷积的定义

我们称 $(f * g) (x)$ 为 $f, g$ 的卷积，其连续的定义为：
$S(x)=(f*g)(x)=\int f(\tau)g(x- \tau)d\tau$
其离散定义为：
$S(x)=(f*g)(x)=\sum f(\tau)g(x- \tau)d\tau$

将其放在图像里分析， $f (x)$ 可以理解为原始像素点(source pixel)，所有的原始像素点叠加起来，就是原始图了。 $g (x)$ 可以称为作用点，所有作用点合起来我们称为卷积核（Convolution kernel）。 $S (x)$ 为feature map。
下面给出一维卷积和二维卷积的定义：

** 一维卷积**
$S(x)=(f*g)(x)=\sum f(\tau)g(x-\tau)$
这里 $f, g$ 是离散序列，若是连续序列，将累加变成积分即可
** 二维卷积**
$S(i,j)=(I*K)(i,j)=\sum_m \sum_nI(m,n) K(i-m,j-n)$
卷积满足交换律，故有
$S(i,j)=(I*K)(i,j)=\sum_m \sum_nI(i-m,j-n) K(m,n)$

这里 $I, K$ 是离散序列，若是连续序列，将累加变成积分即可

对一维卷积的运算不再做过多介绍，下面侧重介绍二维卷积的运算

1.2 卷积的运算

下面我们举个简单的例子来看看，卷积的运算：

假设输入矩阵 $f$ 为

卷积核 $g$ 为

求 $f * g$

求解过程：

将卷积核g旋转180°，即
将卷积核 $g$ 的中心对准 $f$ 的第一个元素，然后 $g$ 和 $f$ 重叠的元素相乘， $g$ 中不与 $f$ 重叠的地方x用0代替，再将相乘后h对应的元素相加，得到结果矩阵中Y的第一个元素。

所以结果矩阵中的第一个元素是：
$Y 11 = - 1 * 0 + - 2 * 0 + - 1 * 0 + 0 * 0 + 0 * 1 + 0 * 2 + 1 * 0 + 2 * 5 + 1 * 6 = 16$

$f$ 中的每一个元素都用这样的方法来计算，得到的卷积结果矩阵为:

上图来理解以下二维卷积：

还不理解的同学可以去看看以下链接里面的第一个动图：
https://blog.csdn.net/glory_lee/article/details/77899465

当输入为多维图像（或者多通道特征图）时，多通道卷积如下图所示，图中输入图像尺寸为 $6 \times 6$ ，通道数为3，卷积核有2个，每个尺寸为 $3 \times 3$ ，通道数为3（与输入图像通道数一致），卷积时，仍是以滑动窗口的形式，从左至右，从上至下，3个通道的对应位置相乘求和，输出结果为2张 $4 \times 4$ 的特征图。一般地，当输入为 $m \times n \times c$ 时，每个卷积核为 $k \times k \times c$ ，即每个卷积核的通道数应与输入的通道数相同（因为多通道需同时卷积），输出的特征图数量与卷积核数量一致，这里不再赘述。

1.3 卷积神经网络

我们先获取一个感性认识，下图是一个卷积神经网络的示意图：

如上图所示，一个卷积神经网络由若干卷积层、Pooling层、全连接层组成。你可以构建各种不同的卷积神经网络，它的常用架构模式为：

INPUT -> [[CONV]*N -> POOL?]*M -> [FC]*K

也就是N个卷积层叠加，然后(可选)叠加一个Pooling层，重复这个结构M次，最后叠加K个全连接层。

对于上图展示的卷积神经网络：

INPUT -> CONV-> POOL -> CONV -> POOL -> FC -> FC

按照上述模式可以表示为：

INPUT ->[[CONV]*1 -> POOL]*2 -> [FC]*2

也就是：N=1, M=2, K=2。

三维的层结构

从上图我们可以发现卷积神经网络的层结构和全连接神经网络的层结构有很大不同。全连接神经网络每层的神经元是按照一维排列的，也就是排成一条线的样子；而卷积神经网络每层的神经元是按照三维排列的，也就是排成一个长方体的样子，有宽度、高度和深度。

对于上图展示的神经网络，我们看到输入层的宽度和高度对应于输入图像的宽度和高度，而它的深度为1。接着，第一个卷积层对这幅图像进行了卷积操作(后面我们会讲如何计算卷积)，得到了三个Feature Map。这里的"3"可能是让很多初学者迷惑的地方，实际上，就是这个卷积层包含三个Filter，也就是三套参数，每个Filter都可以把原始输入图像卷积得到一个Feature Map，三个Filter就可以得到三个Feature Map。至于一个卷积层可以有多少个Filter，那是可以自由设定的。也就是说，卷积层的Filter个数也是一个超参数。我们可以把Feature Map可以看做是通过卷积变换提取到的图像特征，三个Filter就对原始图像提取出三组不同的特征，也就是得到了三个Feature Map，也称做三个通道(channel)。

继续观察上图，在第一个卷积层之后，Pooling层对三个Feature Map做了下采样(后面我们会讲如何计算下采样)，得到了三个更小的Feature Map。接着，是第二个卷积层，它有5个Filter。每个Fitler都把前面下采样之后的3个Feature Map卷积在一起，得到一个新的Feature Map。这样，5个Filter就得到了5个Feature Map。接着，是第二个Pooling，继续对5个Feature Map进行下采样，得到了5个更小的Feature Map。

上图所示网络的最后两层是全连接层。第一个全连接层的每个神经元，和上一层5个Feature Map中的每个神经元相连，第二个全连接层(也就是输出层)的每个神经元，则和第一个全连接层的每个神经元相连，这样得到了整个网络的输出。

参考链接：

https://blog.csdn.net/glory_lee/article/details/77899465
https://zhuanlan.zhihu.com/p/57575810
https://zhuanlan.zhihu.com/p/30994790
https://www.cnblogs.com/P3nguin/p/7777239.html
https://blog.csdn.net/rainbow0210/article/details/53750537
https://www.cnblogs.com/shine-lee/p/9932226.html

2. 反卷积（转置卷积）

转置卷积在文献中也被称为去卷积或 fractionally strided convolution。
我们一直都可以使用直接的卷积实现转置卷积。对于下图的例子，我们在一个 2×2 的输入（周围加了 2×2 的单位步长的零填充）上应用一个 3×3 核的转置卷积。上采样输出的大小是 4×4。

有趣的是，通过应用各种填充和步长，我们可以将同样的 2×2 输入图像映射到不同的图像尺寸。下面，转置卷积被用在了同一张 2×2 输入上（输入之间插入了一个零，并且周围加了 2×2 的单位步长的零填充），所得输出的大小是 5×5。

观察上述例子中的转置卷积能帮助我们构建起一些直观认识。但为了泛化其应用，了解其可以如何通过计算机的矩阵乘法实现是有益的。从这一点上我们也可以看到为何「转置卷积」才是合适的名称。在卷积中，我们定义 C 为卷积核，Large 为输入图像，Small 为输出图像。经过卷积（矩阵乘法）后，我们将大图像下采样为小图像。这种矩阵乘法的卷积的实现遵照：C x Large = Small。下面的例子展示了这种运算的工作方式。它将输入平展为 16×1 的矩阵，并将卷积核转换为一个稀疏矩阵（4×16）。然后，在稀疏矩阵和平展的输入之间使用矩阵乘法。之后，再将所得到的矩阵（4×1）转换为 2×2 的输出。

现在，如果我们在等式的两边都乘上矩阵的转置 CT，并借助「一个矩阵与其转置矩阵的乘法得到一个单位矩阵」这一性质，那么我们就能得到公式 CT x Small = Large，如下图所示。

这里可以看到，我们执行了从小图像到大图像的上采样。这正是我们想要实现的目标。现在。你就知道「转置卷积」这个名字的由来了。
以上内容来自链接：
https://blog.csdn.net/qq_38906523/article/details/80520950

参考链接

https://blog.csdn.net/qq_38906523/article/details/80520950
https://blog.csdn.net/qq_38906523/article/details/80520950

3. 池化 pooling

Pooling层主要的作用是下采样，通过去掉Feature Map中不重要的样本，进一步减少参数数量。Pooling的方法很多，最常用的是Max Pooling。Max Pooling实际上就是在nn的样本中取最大值，作为采样后的样本值。下图是22 max pooling：

除了Max Pooing之外，常用的还有Mean Pooling——取各样本的平均值。

对于深度为D的Feature Map，各层独立做Pooling，因此Pooling后的深度仍然为D。

参考链接

https://www.cnblogs.com/baiting/p/6101981.html

4. TextCNN 的原理

TextCNN的详细过程原理图见下：

TextCNN详细过程：第一层是图中最左边的7乘5的句子矩阵，每行是词向量，维度=5，这个可以类比为图像中的原始像素点了。然后经过有 filter_size=(2,3,4) 的一维卷积层，每个filter_size 有两个输出 channel。第三层是一个1-max pooling层，这样不同长度句子经过pooling层之后都能变成定长的表示了，最后接一层全连接的 softmax 层，输出每个类别的概率。

5. TextCNN 实现文本分类

基于THUCNews数据集，用TextCNN 实现文本多分类问题

5.1 导入数据并分词

5.2 word2vec向量化

from gensim.models.word2vec import Word2Vec
from gensim.corpora.dictionary import Dictionary
from gensim.models.word2vec import Word2Vec
from gensim.corpora.dictionary import Dictionary
import random
from keras.preprocessing import sequence
import multiprocessing

# set parameters:
cpu_count = multiprocessing.cpu_count() # 4
vocab_dim = 100
n_iterations = 1  # ideally more..
n_exposures = 10 # 所有频数超过10的词语
window_size = 4
maxlen = 200
def create_dictionaries(model=None,content=None):
if (content is not None) and (model is not None):
        gensim_dict = Dictionary()
        gensim_dict.doc2bow(model.wv.vocab.keys(), allow_update=True)
        #  freqxiao10->0 所以k+1
        w2indx = {v: k+1 for k, v in gensim_dict.items()}#所有频数超过10的词语的索引,(k->v)=>(v->k)
        w2vec = {word: model[word] for word in w2indx.keys()}#所有频数超过10的词语的词向量, (word->model(word))
	def parse_dataset(combined): # 闭包-->临时使用
            ''' 
            Words become integers
            '''
            data=[]
            for sentence in combined:
                new_txt = []
                for word in sentence:
                    try:
                        new_txt.append(w2indx[word])
                    except:
                        new_txt.append(0) # freqxiao10->0
                data.append(new_txt)
            return data # word=>index
        content=parse_dataset(content)
        content= sequence.pad_sequences(content, maxlen=maxlen)#每个句子所含词语对应的索引，所以句子中含有频数小于10的词语，索引为0
        return w2indx, w2vec,content
    else:
        print ("No data provided...")
def shuffle_content(content):
    random.shuffle(content)   
    return content
 #创建词语字典，并返回每个词语的索引，词向量，以及每个句子所对应的词语索引
def word2vec_train(content):
    model = Word2Vec(size=vocab_dim,
                     min_count=n_exposures,
                     window=window_size,
                     workers=cpu_count,
                     iter=n_iterations)
    model.build_vocab(content) # input: list
#    model.train(combined)
    model.train(content, epochs=20, total_examples=model.corpus_count)
    model.save('Word2vec_model.pkl')
    index_dict, word_vectors,content = create_dictionaries(model=model,content=content)
    return   index_dict, word_vectors, content
    
index_dict, word_vectors,content=word2vec_train(train_content)

5.3 TextCNN

import tensorflow as tf
import numpy as np
import pandas as pd
import os
from sklearn.model_selection import train_test_split
class TextCNN(object):
    def __init__(self):
        self.text_length = 200  # 文本长度
        self.num_classer = 10  # 类别数
        self.vocab_size = 5000  # 词汇表达小
        self. word_vec_dim = 64  # 词向量维度
        self.filter_width = 2  # 卷积核尺寸
        self.filter_width_list = [2, 3, 4]  # 卷积核尺寸列表
        self.num_filters = 5  # 卷积核数目
        self.dropout_prob = 0.5  # dropout概率
        self.learning_rate = 0.005  # 学习率
        self.iter_num = 10  # 迭代次数
        self.batch_size = 64  # 每轮迭代训练多少数据
        self.model_save_path = './model/'  # 模型保存路径
        self.model_name = 'textcnn_model'  # 模型的命名
        self.embedding = tf.get_variable('embedding', [self.vocab_size, self.word_vec_dim])
        self.fc1_size = 32  # 第一层全连接的神经元个数
        self.fc2_size = 64  # 第二层全连接的神经元个数
        self.fc3_size = 10  # 第三层全连接的神经元个数
        # 定义初始化网络权重函数
    def get_weight(self, shape, regularizer):
        w = tf.Variable(tf.truncated_normal(shape, stddev=0.1))
        tf.add_to_collection('losses', tf.contrib.layers.l2_regularizer(regularizer)(w))  # 为权重加入L2正则化
        return w
        # 定义初始化偏置项函数
    def get_bias(self, shape):
        b = tf.Variable(tf.ones(shape))
        return b
        # 生成批次数据
    def batch_iter(self, x, y):
        data_len = len(x)
        num_batch = int((data_len - 1) / self.batch_size) + 1
        indices = np.random.permutation(np.arange(data_len))  # 随机打乱一个数组
        x_shuffle = x[indices]  # 随机打乱数据
        y_shuffle = y[indices]  # 随机打乱数据
        for i in range(num_batch):
        start = i * self.batch_size
            end = min((i + 1) * self.batch_size, data_len)
            yield x_shuffle[start:end], y_shuffle[start:end]
    # 模型1，使用多种卷积核
    def model_1(self, x, is_train):
        # embedding层
        embedding_res = tf.nn.embedding_lookup(self.embedding, x)	
        pool_list = []
        for filter_width in self.filter_width_list:
            # 卷积层
            conv_w = self.get_weight([filter_width, self.word_vec_dim, self.num_filters], 0.01)
            conv_b = self.get_bias([self.num_filters])
            conv = tf.nn.conv1d(embedding_res, conv_w, stride=1, padding='VALID')
            conv_res = tf.nn.relu(tf.nn.bias_add(conv, conv_b))
            # 最大池化层
            pool_list.append(tf.reduce_max(conv_res, reduction_indices=[1]))
        pool_res = tf.concat(pool_list, 1)
        # 第一个全连接层
        fc1_w = self.get_weight([self.num_filters * len(self.filter_width_list), self.fc1_size], 0.01)
        fc1_b = self.get_bias([self.fc1_size])
        fc1_res = tf.nn.relu(tf.matmul(pool_res, fc1_w) + fc1_b)
        if is_train:
            fc1_res = tf.nn.dropout(fc1_res, 0.5)
            # 第二个全连接层
        fc2_w = self.get_weight([self.fc1_size, self.fc2_size], 0.01)
        fc2_b = self.get_bias([self.fc2_size])
        fc2_res = tf.nn.relu(tf.matmul(fc1_res, fc2_w) + fc2_b)
        if is_train:
            fc2_res = tf.nn.dropout(fc2_res, 0.5)
            # 第三个全连接层
        fc3_w = self.get_weight([self.fc2_size, self.fc3_size], 0.01)
        fc3_b = self.get_bias([self.fc3_size])
        fc3_res = tf.matmul(fc2_res, fc3_w) + fc3_b
        return fc3_res

高效快速教你DeepSeek如何进行本地部署并且可视化对话大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
科技文章：高效快速教你DeepSeek如何进行本地部署并且可视化对话摘要：随着自然语言处理（NLP）技术的进步，DeepSeek作为一款基于深度学习的语义搜索技术，广泛应用于文本理解、对话系统及信息检索等多个领域。本文将探讨如何高效快速地在本地部署DeepSeek，并结合可视化工具实现对话过程的监控与分析。通过详尽的步骤、案例分析与代码示例，帮助开发者更好地理解和应用DeepSeek技术。同时，本
NLP高频面试题（十）——目前常见的几种大模型架构是啥样的 Chaos_Wang_ NLP常见面试题自然语言处理架构人工智能
深入浅出：目前常见的几种大模型架构解析随着Transformer模型的提出与发展，语言大模型迅速崛起，已经成为人工智能领域最为关注的热点之一。本文将为大家详细解析几种目前常见的大模型架构，帮助读者理解其核心差异及适用场景。1.什么是LLM（大语言模型）？LLM通常指参数量巨大、能够捕捉丰富语义信息的Transformer模型，它们通过海量的文本数据训练而成，能够实现高度逼真的文本生成、复杂的语言理
哈尔滨工业大学DeepSeek公开课人工智能：大模型原理技术与应用-从GPT到DeepSeek｜附视频下载方法你觉得205 人工智能机器学习大数据 ai 知识图谱 python 运维
导读INTRODUCTION今天继续哈尔滨工业大学车万翔教授带来了一场主题为“DeepSeek技术前沿与应用”的报告。本报告深入探讨了大语言模型在自然语言处理（NLP）领域的核心地位及其发展历程，从基础概念出发，延伸至语言模型在机器翻译、拼音输入法、语音识别等任务中的关键作用。强调了语言模型不仅辅助其他NLP任务，本身也蕴含大量知识，如地理信息、语义理解和推理能力。随着技术的发展，尤其是trans
大模型学习终极指南：从新手到专家的必经之路，全网最详尽解析，你敢挑战吗？大模型入门教程学习人工智能 AI 大模型大模型学习大模型教程 AI大模型
随着人工智能技术的飞速发展，大模型（Large-ScaleModels）已经成为推动自然语言处理（NLP）、计算机视觉（CV）等领域进步的关键因素。本文将为您详细介绍从零开始学习大模型直至成为专家的全过程，包括所需掌握的知识点、学习资源以及实践建议等。无论您是初学者还是有一定基础的专业人士，都能从中获得有价值的指导。一、基础知识准备在开始学习大模型之前，需要先掌握一些基础知识，这些知识将为后续的学
大模型Agent 和 RAG 的关系大数据追光猿大模型语言模型人工智能学习方法 transformer
Agent和RAG（Retrieval-AugmentedGeneration）是两种在自然语言处理（NLP）和人工智能领域中广泛使用的技术，它们在功能、目标和实现方式上既有区别又有联系。以下是它们的关系及其协同作用的详细分析。1.Agent和RAG的定义（1）Agent定义：Agent是一种智能体，能够感知环境并采取行动以完成特定任务。在NLP领域，Agent通常指一个基于大语言模型（LLM）的
景联文科技提供高质量文本标注服务，驱动AI技术发展景联文科技科技人工智能
文本标注是指在原始文本数据上添加标签的过程，这些标签可以用来指示特定的实体、关系、事件等信息，以帮助计算机理解和处理这些数据。文本标注是自然语言处理（NLP）领域的一个重要环节，它通过为文本的不同部分提供具体的含义和上下文信息，增强机器学习和深度学习模型对文本内容的理解能力。标注类型情感分析情感极性：确定文本表达的情感倾向，如正面、负面或中立。强度评估：衡量情感的强烈程度，从轻微到极端不等。命名实
景联文科技：以高质量数据标注推动人工智能领域创新与发展景联文科技科技人工智能数据标注
在当今这个由数据驱动的时代，高质量的数据标注对于推动机器学习、自然语言处理（NLP）、计算机视觉等领域的发展具有不可替代的重要性。数据标注过程涉及对原始数据进行加工，通过标注特定对象的特征来生成能够被机器学习模型识别和使用的编码格式，从而使数据更具有意义和可解读性。数据标注的主要类型包括：图像标注：指在图片中标识出目标物体的位置、形状或类别等信息，如自动驾驶技术中的行人、车辆及交通标志的识别。文本
端到端的NLP框架（Haystack） deepdata_cn NLP 自然语言处理人工智能
Haystack是一个端到端的NLP框架，专门用于构建基于文档的问答系统，是实现RAG的理想选择。它提供了数据预处理、文档存储、检索和生成等一系列组件，支持多种语言模型和检索器。提供可视化界面，方便用户进行配置和调试；支持多模态数据，可处理文本、图像等多种类型的数据；具有可扩展性，可根据需求添加自定义组件。2020年在自然语言处理技术快速发展，对高效、易用且灵活的端到端NLP框架需求日益增长的背景
客服机器人怎么才能精准的回答用户问题？玩人工智能的辣条哥 AI面试机器人客服机器人
环境：客服机器人问题描述：客服机器人怎么才能精准的回答用户问题？解决方案：客服机器人要精准回答用户问题，需综合技术、数据和用户体验等多方面因素。以下是关键策略和步骤：1.精准理解用户意图自然语言处理（NLP）技术分词与实体识别：提取关键词（如“订单号”“退货”）和实体（如时间、地点）。意图分类：通过机器学习模型（如BERT、Transformer）将问题归类（如“售后”“支付”）。上下文理解记录对
深入了解盘古大模型：技术、应用与未来 Hardess-god Literature review 人工智能
随着人工智能技术的迅猛发展，预训练大模型已成为AI领域最前沿、最热门的研究方向之一。近年来，中国自主研发的大模型之一——盘古模型（PanGuModel）逐渐进入公众视野，凭借其强大的性能和广泛的应用前景，引发了行业内外的广泛关注。什么是盘古大模型？盘古大模型是华为公司联合多家科研机构共同研发的超大规模预训练语言模型。该模型以中文数据为主进行训练，旨在推动中文自然语言处理（NLP）以及跨模态应用的技
NLP高频面试题（七）——GPT和Bert的mask有什么区别？ Chaos_Wang_ NLP常见面试题自然语言处理 gpt bert
GPT和BERT的Mask机制对比：核心区别与优化策略在NLP领域，GPT和BERT是最具代表性的预训练语言模型之一。它们都在训练过程中使用了Mask机制来引导模型学习语言表示，但具体实现方式和目标却有所不同。本文将深入探讨GPT和BERT的Mask方法的核心区别，并分析其优化策略。1.BERT的Mask机制：基于MLM（MaskedLanguageModel）BERT（Bidirectional
知识图谱中NLP新技术魔王阿卡纳兹知识图谱入门大数据治理与分析知识图谱自然语言处理人工智能
知识图谱与自然语言处理（NLP）的结合是当前人工智能领域的前沿方向，其技术发展呈现多维度融合与场景深化的特点。以下从核心技术突破、应用场景创新及未来趋势三个层面，系统梳理知识图谱中NLP的最新进展：一、核心技术突破基于预训练模型的图谱构建与增强预训练语言模型与知识嵌入融合：以BERT、KEPLER为代表的模型通过联合优化知识嵌入（KE）和语言建模目标，将知识图谱中的结构化知识融入预训练过程，显著提
一文说清楚什么是预训练（Pre-Training）、微调（Fine-Tuning），零基础小白建议收藏！！小城哇哇人工智能语言模型 AI大模型大模型微调预训练 agi LLM
前言预训练和微调是现代AI模型的核心技术，通过两者的结合，机器能够在处理复杂任务时表现得更为高效和精准。预训练为模型提供了广泛的语言能力，而微调则确保了模型能够根据特定任务进行细化和优化。近年来，人工智能（AI）在各个领域的突破性进展，尤其是在自然语言处理（NLP）方面，引起了广泛关注。两项重要的技术方法——预训练和微调，成为了AI模型发展的基石。预训练通常是指在大规模数据集上进行模型训练，以帮助
GitHub项目推荐--基于LLM的开源爬虫项目惟贤箬溪穷玩Ai github 爬虫
以下是一些基于大语言模型（LLM，LargeLanguageModel）的开源爬虫项目，它们结合了自然语言处理（NLP）技术与爬虫的功能，能在一定程度上提升爬取的智能化和精度。这些项目可以用于自动化抓取、内容提取、数据分析等任务。1.GPT-3WebScraper简介：这是一个基于OpenAIGPT-3模型的网页抓取工具，利用GPT-3的自然语言理解能力来生成有用的爬虫策略、处理网页内容并提取有价
使用大语言模型API在AI应用中的实现 qq_37836323 人工智能语言模型自然语言处理 python
随着人工智能技术的迅速发展，大语言模型（LLM）在自然语言处理（NLP）领域的应用越来越广泛。本文将介绍如何使用大语言模型API来实现一些基础的AI应用，并提供一个简单的demo代码，帮助大家更好地理解和使用这些技术。大语言模型API简介大语言模型（如GPT-4）能够理解和生成类似人类的文本。这些模型可以应用于各种任务，包括文本生成、语言翻译、情感分析、对话系统等。为了方便国内用户访问这些强大的模
【NLP】 API在大语言模型中的应用 Nerous_ 深度学习自然语言处理语言模型人工智能
大语言模型（LargeLanguageModels,LLMs）通过API（应用程序接口）为开发者提供了便捷的调用方式，使其能够快速集成自然语言处理能力到各类应用中。以下是API在LLM中的核心应用场景及技术实现细节：一、核心应用场景自然语言理解与生成应用示例：智能客服：解析用户问题并生成回复（如ChatGPTAPI）。内容创作：自动生成文章、广告文案或代码（如OpenAI的GPT-4）。技术实现：
自动语音识别（ASR）：技术、应用与未来 ajie1117 语音识别人工智能
自动语音识别（ASR）：技术、应用与未来1.ASR简介自动语音识别（ASR，AutomaticSpeechRecognition）是一种将语音转换为文本的技术。它利用人工智能（AI）、深度学习和自然语言处理（NLP）技术来识别和理解人类的语言，使计算机能够与人类进行更自然的交互。2.ASR的工作原理ASR的核心流程通常包括以下几个步骤：语音信号采集：通过麦克风或其他设备获取音频数据。预处理：去除噪
《深度剖析：BERT与GPT——自然语言处理架构的璀璨双星》人工智能深度学习
在自然语言处理（NLP）的广袤星空中，BERT（BidirectionalEncoderRepresentationsfromTransformers）与GPT（GenerativePretrainedTransformer）系列模型宛如两颗最为耀眼的星辰，引领着NLP技术不断迈向新的高度。它们基于独特的架构设计，以强大的语言理解与生成能力，彻底革新了NLP的研究与应用范式，成为学界和业界竞相探索
Hugging Face预训练GPT微调ChatGPT（微调入门！新手友好！） y江江江江机器学习大模型 gpt chatgpt
HuggingFace预训练GPT微调ChatGPT（微调入门！新手友好！）在实战中，⼤多数情况下都不需要从0开始训练模型，⽽是使⽤“⼤⼚”或者其他研究者开源的已经训练好的⼤模型。在各种⼤模型开源库中，最具代表性的就是HuggingFace。HuggingFace是⼀家专注于NLP领域的AI公司，开发了⼀个名为Transformers的开源库，该开源库拥有许多预训练后的深度学习模型，如BERT、G
详解如何通过Python的BeautifulSoup爬虫+NLP标签提取+Dijkstra规划路径和KMeans聚类分析帮助用户规划旅行路线 mosquito_lover1 python beautifulsoup 爬虫 kmeans 自然语言处理
系统模块：数据采集模块（爬虫）：负责从目标网站抓取地点数据（如名称、经纬度、描述等）数据预处理模块（标签算法）：对抓取到的地点数据进行清洗和分类。根据地点特征（如经纬度、描述文本）打上标签（如“适合家庭”、“适合冒险”）。地理数据处理模块（地图API）：使用地图API获取地点的详细信息（如地址、距离、路径等）。计算地点之间的距离或路径。路径规划模块：根据用户输入的起点和终点，规划最优路径。支持多种
大规模语言模型从理论到实践分布式训练的集群架构 AI智能涌现深度研究 DeepSeek R1 &大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大规模语言模型从理论到实践分布式训练的集群架构作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习技术的飞速发展，大规模语言模型（LargeLanguageModels,LLMs）在自然语言处理（NaturalLanguageProcessing,NLP）领域取得了突破性进展。LLMs，如BERT、GPT-3等，通
实战LLM强化学习——使用GRPO（DeepSeek R1出圈算法）大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
引言近年来，深度强化学习（DRL）已经成为解决复杂决策问题的一个强有力工具，尤其是在自然语言处理（NLP）领域的广泛应用。通过不断优化决策策略，DRL能在大量数据中学习最佳行为，尤其是大型语言模型（LLM）在任务中展现出的巨大潜力。然而，随着模型规模的扩大和任务复杂性的增加，传统的强化学习算法开始暴露出训练效率低、收敛速度慢等问题。为了解决这些挑战，DeepSeek公司提出了一个新的强化学习算法—
混合整数非线性规划的松弛与分解方法 Waiyuet Fung 混合整数非线性规划松弛方法分解技术启发式算法全局优化
背景简介混合整数非线性规划（MINLPs）作为运筹学中的一个重要领域，涉及到优化问题的连续和离散变量混合，在工程设计、生产调度、资源分配等多个领域发挥着关键作用。本书由I.Nowak撰写，旨在深入探讨这一复杂的优化问题及其解决方案。MINLPs基础概念在本书的第一部分，Nowak介绍了MINLPs的基本概念。MINLPs的目标是寻找一组连续和整数变量的最优组合，以最小化或最大化某个非线性目标函数。
文本纠错（Text Correction） dundunmm 人工智能数据挖掘文本纠错人工智能数据挖掘文本纠错深度学习
文本纠错（TextCorrection）是自然语言处理（NLP）中的一个重要任务，旨在自动检测并修正文本中的错误，包括拼写、语法、语义等层面的错误。其核心目标是通过算法模型将错误文本转换为符合语言规范的表达。该任务在自动写作辅助、搜索引擎优化、智能客服、教育等多个领域具有广泛应用。输入：包含错误的原始文本（如“我明天要去北京，希望天汽好。”）输出：修正后的规范文本（如“我明天要去北京，希望天气好。
使用CharacterTextSplitter实现文本按字符拆分 bavDHAUO python
在文本处理任务中，按字符进行拆分是一种简单且有效的方法。本篇文章将介绍如何使用CharacterTextSplitter类对文本进行按字符拆分，并生成适用于下游任务的LangChainDocument对象。技术背景介绍文本拆分是自然语言处理（NLP）中的一个基础步骤，尤其在大文本分块处理、文本摘要等任务中。CharacterTextSplitter是langchain-text-splitters
【产品小白】什么是AI产品经理百事不可口y 产品经理的一步一步人工智能产品经理学习产品运营内容运营用户运营
一、AI产品经理的定义与角色定位AI产品经理是人工智能技术与商业应用之间的核心桥梁，负责将复杂的AI技术转化为满足市场需求的产品。需同时具备技术理解力、商业洞察力和用户思维，既要参与算法选型与数据建模，又要定义产品功能与市场策略，是贯穿产品全生命周期的关键角色。与传统互联网产品经理相比，AI产品经理的独特之处在于：技术深度参与：需理解机器学习、自然语言处理（NLP）、计算机视觉等技术原理，并参与数
人工智能（AI）系统化学习路线 xiaoyu❅ python 人工智能学习
一、为什么需要系统化学习AI？人工智能技术正在重塑各行各业，但许多初学者容易陷入误区：❌盲目跟风：直接学习TensorFlow/PyTorch，忽视数学与算法基础。❌纸上谈兵：只看理论不写代码，无法解决实际问题。❌方向模糊：对CV/NLP/RL等细分领域缺乏认知，难以针对性提升。正确的学习姿势：“金字塔式”分层学习（理论→算法→框架→应用→工程化），逐步构建完整的AI知识体系。二、人工智能学习路线
NLP高频面试题（三）——普通RNN的梯度消失和梯度爆炸问题 Chaos_Wang_ NLP常见面试题自然语言处理 rnn 人工智能
普通RNN（循环神经网络）的梯度消失和梯度爆炸问题是指在训练深层或长序列的RNN模型时出现的两种典型问题：一、梯度消失（VanishingGradient）梯度消失是指在反向传播过程中，梯度逐层传播时变得越来越小，最终趋于接近0，导致模型前层的参数难以更新。原因：在反向传播时，每一层的梯度是通过链式法则计算得到的。因为链式求导中不断乘以一个较小的数值（小于1），随着层数或时间步的增加，梯度将指数级
使用LangChain实现大规模语言模型自发现推理结构 VYSAHF langchain 语言模型人工智能 python
使用LangChain实现大规模语言模型自发现推理结构在现代自然语言处理(NLP)的研究中，大规模语言模型（LLMs）已经展示了强大的能力。然而，在应对复杂的推理问题时，传统的提示方法常常力不从心。这篇文章将带您了解SELF-DISCOVER，一种新兴的框架，如何通过LangChain来实现自动化、动态化的推理结构构建，以提高LLMs的性能。技术背景介绍大规模语言模型（如GPT-4和PaLM2）已
【论文精读】PatchTST-基于分块及通道独立机制的Transformer模型打酱油的葫芦娃时序预测算法时序预测 PatchTST Transformer 预训练微调表征学习
《ATIMESERIESISWORTH64WORDS:LONG-TERMFORECASTINGWITHTRANSFORMERS》的作者团队来自PrincetonUniversity和IBMResearch，发表在ICLR2023会议上。动机Transformer模型因其自注意力机制在处理序列数据方面的优势，在自然语言处理（NLP）、计算机视觉（CV）、语音等多个领域取得了巨大成功。这种机制使得模型
Java 并发包之线程池和原子计数 lijingyao8206 Java计数 ThreadPool 并发包 java线程池
对于大数据量关联的业务处理逻辑，比较直接的想法就是用JDK提供的并发包去解决多线程情况下的业务数据处理。线程池可以提供很好的管理线程的方式，并且可以提高线程利用率，并发包中的原子计数在多线程的情况下可以让我们避免去写一些同步代码。这里就先把jdk并发包中的线程池处理器ThreadPoolExecutor 以原子计数类AomicInteger 和倒数计时锁C
java编程思想抽象类和接口百合不是茶 java 抽象类接口
接口c++对接口和内部类只有简介的支持,但在java中有队这些类的直接支持 1 ,抽象类 : 如果一个类包含一个或多个抽象方法,该类必须限定为抽象类(否者编译器报错) 抽象方法 : 在方法中仅有声明而没有方法体 package com.wj.Interface;
[房地产与大数据]房地产数据挖掘系统 comsci 数据挖掘
随着一个关键核心技术的突破,我们已经是独立自主的开发某些先进模块,但是要完全实现,还需要一定的时间... 所以,除了代码工作以外,我们还需要关心一下非技术领域的事件..比如说房地产 &nb
数组队列总结沐刃青蛟数组队列
数组队列是一种大小可以改变，类型没有定死的类似数组的工具。不过与数组相比，它更具有灵活性。因为它不但不用担心越界问题，而且因为泛型（类似c++中模板的东西）的存在而支持各种类型。以下是数组队列的功能实现代码： import List.Student; public class
Oracle存储过程无法编译的解决方法 IT独行者 oracle 存储过程　
今天同事修改Oracle存储过程又导致2个过程无法被编译，流程规范上的东西，Dave 这里不多说，看看怎么解决问题。 1. 查看无效对象 XEZF@xezf(qs-xezf-db1)> select object_name,object_type,status from all_objects where status='IN
重装系统之后oracle恢复文强chu oracle
前几天正在使用电脑，没有暂停oracle的各种服务。突然win8.1系统奔溃，无法修复，开机时系统提示正在搜集错误信息，然后再开机，再提示的无限循环中。无耐我拿出系统u盘准备重装系统，没想到竟然无法从u盘引导成功。晚上到外面早了一家修电脑店，让人家给装了个系统，并且那哥们在我没反应过来的时候，直接把我的c盘给格式化了并且清理了注册表，再装系统。然后的结果就是我的oracl
python学习二（一些基础语法）小桔子 pthon 基础语法
紧接着把！昨天没看继续看django 官方教程，学了下python的基本语法与c类语言还是有些小差别： 1.ptyhon的源文件以UTF-8编码格式 2. / 除结果浮点型 // 除结果整形 % 除取余数 * 乘 ** 乘方 eg 5**2 结果是5的2次方25 _&
svn 常用命令 aichenglong SVN 版本回退
1 svn回退版本 1)在window中选择log,根据想要回退的内容,选择revert this version或revert chanages from this version 两者的区别: revert this version:表示回退到当前版本(该版本后的版本全部作废) revert chanages from this versio
某小公司面试归来 alafqq 面试
先填单子，还要写笔试题，我以时间为急，拒绝了它。。时间宝贵。老拿这些对付毕业生的东东来吓唬我。。面试官很刁难，问了几个问题，记录下； 1，包的范围。。。public,private,protect. --悲剧了 2，hashcode方法和equals方法的区别。谁覆盖谁.结果，他说我说反了。 3，最恶心的一道题，抽象类继承抽象类吗？（察，一般它都是被继承的啊） 4，stru
动态数组的存储速度比较集合框架百合不是茶集合框架
集合框架：自定义数据结构(增删改查等) package 数组; /** * 创建动态数组 * @author 百合 * */ public class ArrayDemo{ //定义一个数组来存放数据 String[] src = new String[0]; /** * 增加元素加入容器 * @param s要加入容器
用JS实现一个JS对象，对象里有两个属性一个方法 bijian1013 js对象
<html> <head> </head> <body> 用js代码实现一个js对象，对象里有两个属性，一个方法 </body> <script> var obj={a:'1234567',b:'bbbbbbbbbb',c:function(x){
探索JUnit4扩展：使用Rule bijian1013 java 单元测试 JUnit Rule
在上一篇文章中，讨论了使用Runner扩展JUnit4的方式，即直接修改Test Runner的实现(BlockJUnit4ClassRunner)。但这种方法显然不便于灵活地添加或删除扩展功能。下面将使用JUnit4.7才开始引入的扩展方式——Rule来实现相同的扩展功能。 1. Rule &n
[Gson一]非泛型POJO对象的反序列化 bit1129 POJO
当要将JSON数据串反序列化自身为非泛型的POJO时，使用Gson.fromJson(String, Class)方法。自身为非泛型的POJO的包括两种： 1. POJO对象不包含任何泛型的字段 2. POJO对象包含泛型字段，例如泛型集合或者泛型类 Data类 a.不是泛型类， b.Data中的集合List和Map都是泛型的 c.Data中不包含其它的POJO
【Kakfa五】Kafka Producer和Consumer基本使用 bit1129 kafka
0.Kafka服务器的配置一个Broker，一个Topic Topic中只有一个Partition（） 1. Producer： package kafka.examples.producers; import kafka.producer.KeyedMessage; import kafka.javaapi.producer.Producer; impor
lsyncd实时同步搭建指南——取代rsync+inotify ronin47
1. 几大实时同步工具比较 1.1 inotify + rsync 最近一直在寻求生产服务服务器上的同步替代方案，原先使用的是 inotify + rsync，但随着文件数量的增大到100W+，目录下的文件列表就达20M，在网络状况不佳或者限速的情况下，变更的文件可能10来个才几M，却因此要发送的文件列表就达20M，严重减低的带宽的使用效率以及同步效率；更为要紧的是，加入inotify
java-9. 判断整数序列是不是二元查找树的后序遍历结果 bylijinnan java
public class IsBinTreePostTraverse{ static boolean isBSTPostOrder(int[] a){ if(a==null){ return false; } /*1.只有一个结点时，肯定是查找树 *2.只有两个结点时，肯定是查找树。例如{5,6}对应的BST是 6 {6,5}对应的BST是
MySQL的sum函数返回的类型 bylijinnan java spring sql mysql jdbc
今天项目切换数据库时，出错访问数据库的代码大概是这样： String sql = "select sum(number) as sumNumberOfOneDay from tableName"; List<Map> rows = getJdbcTemplate().queryForList(sql); for (Map row : rows
java设计模式之单例模式 chicony java设计模式
在阎宏博士的《JAVA与模式》一书中开头是这样描述单例模式的：　　作为对象的创建模式，单例模式确保某一个类只有一个实例，而且自行实例化并向整个系统提供这个实例。这个类称为单例类。单例模式的结构　　单例模式的特点：单例类只能有一个实例。单例类必须自己创建自己的唯一实例。单例类必须给所有其他对象提供这一实例。　　饿汉式单例类 publ
javascript取当月最后一天 ctrain JavaScript
 <script language=javascript> var current = new Date(); var year = current.getYear(); var month = current.getMonth(); showMonthLastDay(year, mont
linux tune2fs命令详解 daizj linux tune2fs 查看系统文件块信息
一.简介： tune2fs是调整和查看ext2/ext3文件系统的文件系统参数，Windows下面如果出现意外断电死机情况，下次开机一般都会出现系统自检。Linux系统下面也有文件系统自检，而且是可以通过tune2fs命令，自行定义自检周期及方式。二.用法： Usage: tune2fs [-c max_mounts_count] [-e errors_behavior] [-g grou
做有中国特色的程序员 dcj3sjt126com 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有
Android：TextView属性大全 dcj3sjt126com textview
android:autoLink 设置是否当文本为URL链接/email/电话号码/map时，文本显示为可点击的链接。可选值(none/web/email/phone/map/all) android:autoText 如果设置，将自动执行输入值的拼写纠正。此处无效果，在显示输入法并输
tomcat虚拟目录安装及其配置 eksliang tomcat配置说明 tomca部署web应用 tomcat虚拟目录安装
转载请出自出处：http://eksliang.iteye.com/blog/2097184 1.-------------------------------------------tomcat 目录结构 config：存放tomcat的配置文件 temp ：存放tomcat跑起来后存放临时文件用的 work ：当第一次访问应用中的jsp
浅谈：APP有哪些常被黑客利用的安全漏洞 gg163 APP
首先，说到APP的安全漏洞，身为程序猿的大家应该不陌生；如果抛开安卓自身开源的问题的话，其主要产生的原因就是开发过程中疏忽或者代码不严谨引起的。但这些责任也不能怪在程序猿头上，有时会因为BOSS时间催得紧等很多可观原因。由国内移动应用安全检测团队爱内测（ineice.com）的CTO给我们浅谈关于Android 系统的开源设计以及生态环境。 1. 应用反编译漏洞：APK 包非常容易被反编译成可读
C#根据网址生成静态页面 hvt Web .net C#asp.net hovertree
HoverTree开源项目中HoverTreeWeb.HVTPanel的Index.aspx文件是后台管理的首页。包含生成留言板首页，以及显示用户名，退出等功能。根据网址生成页面的方法： bool CreateHtmlFile(string url, string path) { //http://keleyi.com/a/bjae/3d10wfax.htm stri
SVG 教程（一）天梯梦 svg
SVG 简介 SVG 是使用 XML 来描述二维图形和绘图程序的语言。学习之前应具备的基础知识：继续学习之前，你应该对以下内容有基本的了解： HTML XML 基础如果希望首先学习这些内容，请在本站的首页选择相应的教程。什么是SVG？ SVG 指可伸缩矢量图形 (Scalable Vector Graphics) SVG 用来定义用于网络的基于矢量
一个简单的java栈 luyulong java 数据结构栈
public class MyStack { private long[] arr; private int top; public MyStack() { arr = new long[10]; top = -1; } public MyStack(int maxsize) { arr = new long[maxsize]; top
基础数据结构和算法八：Binary search sunwinner Algorithm Binary search
Binary search needs an ordered array so that it can use array indexing to dramatically reduce the number of compares required for each search, using the classic and venerable binary search algori
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！刘星宇 c 面试
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！ 1.gets()函数问：请找出下面代码里的问题： #include<stdio.h> int main(void) { char buff[10]; memset(buff,0,sizeof(buff));
ITeye 7月技术图书有奖试读获奖名单公布 ITeye管理员活动 ITeye 试读
ITeye携手人民邮电出版社图灵教育共同举办的7月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 7月试读活动回顾： http://webmaster.iteye.com/blog/2092746 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《Java性能优化权威指南》

卷积神经网络+TextCNN文本分类