Asia-Lee

TextCNN文本分类（keras实现）

前言：

一、论文笔记

二、Keras文本预处理

1、读取数据集

2、将文字转换成数字特征

3、将每条文本转换为数字列表

4、将每条文本设置为相同长度

5、将每个词编码转换为词向量

6、Keras文本预处理代码实现

三、基于keras的TextCNN模型的构建、训练与测试

1、基础版CNN（模仿LeNet-5）

2、简单版TextCNN

3、使用Word2Vec词向量的TextCNN

四、绘制TextCNN模型结构图

1、环境配置

2、绘制模型图

五、keras模型的保存与加载

前言：

深度学习模型在计算机视觉与语音识别方面取得了卓越的成就，在 NLP 领域也是可以的。将卷积神经网络CNN应用到文本分类任务，利用多个不同size的kernel来提取句子中的关键信息（类似 n-gram 的关键信息），从而能够更好地捕捉局部相关性。

文本分类是自然语言处理领域最活跃的研究方向之一，目前文本分类在工业界的应用场景非常普遍，从新闻的分类、商品评论信息的情感分类到微博信息打标签辅助推荐系统，了解文本分类技术是NLP初学者比较好的切入点，较简单且应用场景高频。

一、论文笔记

1、Yoon Kim在2014年 “Convolutional Neural Networks for Sentence Classification” 论文中提出TextCNN（利用卷积神经网络对文本进行分类的算法）（该论文翻译）。

上图很好地诠释了模型的框架。假设我们有一些句子需要对其进行分类。句子中每个词是由n维词向量组成的，也就是说输入矩阵大小为m*n，其中m为句子长度。CNN需要对输入样本进行卷积操作，对于文本数据，filter不再横向滑动，仅仅是向下移动，有点类似于N-gram在提取词与词间的局部相关性。图中共有三种步长策略，分别是2,3,4，每个步长都有两个filter（实际训练时filter数量会很多）。在不同词窗上应用不同filter，最终得到6个卷积后的向量。然后对每一个向量进行最大化池化操作并拼接各个池化值，最终得到这个句子的特征表示，将这个句子向量丢给分类器进行分类，至此完成整个流程。

（1）嵌入层（Embedding Layer）

通过一个隐藏层, 将 one-hot 编码的词投影到一个低维空间中，本质上是特征提取器，在指定维度中编码语义特征。这样, 语义相近的词, 它们的欧氏距离或余弦距离也比较近。（作者使用的单词向量是预训练的，方法为fasttext得到的单词向量，当然也可以使用word2vec和GloVe方法训练得到的单词向量）。

（2）卷积层（Convolution Laye）

在处理图像数据时，CNN使用的卷积核的宽度和高度的一样的，但是在text-CNN中，卷积核的宽度是与词向量的维度一致！这是因为我们输入的每一行向量代表一个词，在抽取特征的过程中，词做为文本的最小粒度。而高度和CNN一样，可以自行设置（通常取值2,3,4,5），高度就类似于n-gram了。由于我们的输入是一个句子，句子中相邻的词之间关联性很高，因此，当我们用卷积核进行卷积时，不仅考虑了词义而且考虑了词序及其上下文（类似于skip-gram和CBOW模型的思想）。

（3）池化层（Pooling Layer）

因为在卷积层过程中我们使用了不同高度的卷积核，使得我们通过卷积层后得到的向量维度会不一致，所以在池化层中，我们使用1-Max-pooling对每个特征向量池化成一个值，即抽取每个特征向量的最大值表示该特征，而且认为这个最大值表示的是最重要的特征。当我们对所有特征向量进行1-Max-Pooling之后，还需要将每个值给拼接起来。得到池化层最终的特征向量。在池化层到全连接层之前可以加上dropout防止过拟合。

（4）全连接层（Fully connected layer）

全连接层跟其他模型一样，假设有两层全连接层，第一层可以加上’relu’作为激活函数，第二层则使用softmax激活函数得到属于每个类的概率。

（5）TextCNN的小变种

在词向量构造方面可以有以下不同的方式： CNN-rand: 随机初始化每个单词的词向量通过后续的训练去调整。 CNN-static: 使用预先训练好的词向量，如word2vec训练出来的词向量，在训练过程中不再调整该词向量。 CNN-non-static: 使用预先训练好的词向量，并在训练过程进一步进行调整。 CNN-multichannel: 将static与non-static作为两通道的词向量。

（6）参数与超参数

sequence_length （Q: 对于CNN, 输入与输出都是固定的，可每个句子长短不一, 怎么处理? A: 需要做定长处理, 比如定为n, 超过的截断, 不足的补0. 注意补充的0对后面的结果没有影响，因为后面的max-pooling只会输出最大值，补零的项会被过滤掉）
num_classes （多分类, 分为几类）
vocabulary_size （语料库的词典大小, 记为|D|）
embedding_size （将词向量的维度, 由原始的 |D| 降维到 embedding_size）
filter_size_arr （多个不同size的filter）

2、2015年“A Sensitivity Analysis of (and Practitioners' Guide to) Convolutional Neural Networks for Sentence Classification”论文详细地阐述了关于TextCNN模型的调参心得。

（1）TextCNN详细过程：

Embedding：第一层是图中最左边的7乘5的句子矩阵，每行是词向量，维度=5，这个可以类比为图像中的原始像素点。
Convolution：然后经过 kernel_sizes=(2,3,4) 的一维卷积层，每个kernel_size 有两个输出 channel。
MaxPolling：第三层是一个1-max pooling层，这样不同长度句子经过pooling层之后都能变成定长的表示。
FullConnection and Softmax：最后接一层全连接的 softmax 层，输出每个类别的概率。

（2）论文调参结论：

使用预训练的word2vec 、 GloVe初始化效果会更好。一般不直接使用One-hot。
卷积核的大小影响较大，一般取1~10，对于句子较长的文本，则应选择大一些。
卷积核的数量也有较大的影响，一般取100~600 ，同时一般使用Dropout（0~0.5）。
激活函数一般选用ReLU 和 tanh。
池化使用1-max pooling。
随着feature map数量增加，性能减少时，试着尝试大于0.5的Dropout。
评估模型性能时，记得使用交叉验证。

二、Keras文本预处理

1、读取数据集

2、将文字转换成数字特征

使用Tokenizer将文字转换成数字特征

使用Keras的Tokenizer模块实现转换。当我们创建了一个Tokenizer对象后，使用该对象的fit_on_texts()函数，可以将输入的文本中的每个词编号，编号是根据词频的，词频越大，编号越小。使用word_index属性可以看到每次词对应的编码。

3、将每条文本转换为数字列表

将数据集中的每条文本转换为数字列表，使用每个词的编号进行编号

使用该对象的texts_to_sequences（）函数，将每条文本转变成一个向量。

4、将每条文本设置为相同长度

使用pad_sequences()让每句数字影评长度相同

由于每句话的长度不唯一，需要将每句话的长度设置一个固定值。将超过固定值的部分截掉，不足的在最前面用0填充。

5、将每个词编码转换为词向量

使用Embedding层将每个词编码转换为词向量

Embedding层基于上文所得的词编码，对每个词进行one-hot编码，每个词都会是一个vocabulary_size维的向量；然后通过神经网络的训练迭代更新得到一个合适的权重矩阵（具体实现过程可以参考skip-gram模型），行大小为vocabulary_size，列大小为词向量的维度，将本来以one-hot编码的词向量映射到低维空间，得到低维词向量。需要声明一点的是Embedding层是作为模型的第一层，在训练模型的同时，得到该语料库的词向量。当然，也可以使用已经预训练好的词向量表示现有语料库中的词。

文本预处理目的：将每个样本转换为一个数字矩阵，矩阵的每一行表示一个词向量。

6、Keras文本预处理代码实现

from sklearn.model_selection import train_test_split
import pandas as pd
import jieba
from keras.preprocessing.text import Tokenizer
from keras.preprocessing.sequence import pad_sequences

if __name__=='__main__':
    dataset = pd.read_csv('sentiment_analysis/data_train.csv', sep='\t',names=['ID', 'type', 'review', 'label']).astype(str)
    cw = lambda x: list(jieba.cut(x))
    dataset['words'] = dataset['review'].apply(cw)
    tokenizer=Tokenizer()  #创建一个Tokenizer对象
    #fit_on_texts函数可以将输入的文本中的每个词编号，编号是根据词频的，词频越大，编号越小
    tokenizer.fit_on_texts(dataset['words'])
    vocab=tokenizer.word_index #得到每个词的编号
    x_train, x_test, y_train, y_test = train_test_split(dataset['words'], dataset['label'], test_size=0.1)
    # 将每个样本中的每个词转换为数字列表，使用每个词的编号进行编号
    x_train_word_ids=tokenizer.texts_to_sequences(x_train)
    x_test_word_ids = tokenizer.texts_to_sequences(x_test)
    #序列模式
    # 每条样本长度不唯一，将每条样本的长度设置一个固定值
    x_train_padded_seqs=pad_sequences(x_train_word_ids,maxlen=50) #将超过固定值的部分截掉，不足的在最前面用0填充
    x_test_padded_seqs=pad_sequences(x_test_word_ids, maxlen=50)

三、基于keras的TextCNN模型的构建、训练与测试

1、基础版CNN（模仿LeNet-5）

LeNet-5是卷积神经网络的作者Yann LeCun用于MNIST识别任务提出的模型。模型很简单，就是卷积池化层的堆叠，最后加上几层全连接层。将其运用在文本分类任务中。

#构建CNN分类模型(LeNet-5)
#模型结构：嵌入-卷积池化*2-dropout-BN-全连接-dropout-全连接
def CNN_model(x_train_padded_seqs, y_train, x_test_padded_seqs, y_test):
    model = Sequential()
    model.add(Embedding(len(vocab) + 1, 300, input_length=50)) #使用Embeeding层将每个词编码转换为词向量
    model.add(Conv1D(256, 5, padding='same'))
    model.add(MaxPooling1D(3, 3, padding='same'))
    model.add(Conv1D(128, 5, padding='same'))
    model.add(MaxPooling1D(3, 3, padding='same'))
    model.add(Conv1D(64, 3, padding='same'))
    model.add(Flatten())
    model.add(Dropout(0.1))
    model.add(BatchNormalization())  # (批)规范化层
    model.add(Dense(256, activation='relu'))
    model.add(Dropout(0.1))
    model.add(Dense(3, activation='softmax'))
    model.compile(loss='categorical_crossentropy',optimizer='adam',metrics=['accuracy'])
    one_hot_labels = keras.utils.to_categorical(y_train, num_classes=3)  # 将标签转换为one-hot编码
    model.fit(x_train_padded_seqs, one_hot_labels,epochs=5, batch_size=800)
    y_predict = model.predict_classes(x_test_padded_seqs)  # 预测的是类别，结果就是类别号
    y_predict = list(map(str, y_predict))
    print('准确率', metrics.accuracy_score(y_test, y_predict))
    print('平均f1-score:', metrics.f1_score(y_test, y_predict, average='weighted'))

2、简单版TextCNN

#构建TextCNN模型
#模型结构：词嵌入-卷积池化*3-拼接-全连接-dropout-全连接
def TextCNN_model_1(x_train_padded_seqs,y_train,x_test_padded_seqs,y_test):
    main_input = Input(shape=(50,), dtype='float64')
    # 词嵌入（使用预训练的词向量）
    embedder = Embedding(len(vocab) + 1, 300, input_length=50, trainable=False)
    embed = embedder(main_input)
    # 词窗大小分别为3,4,5
    cnn1 = Conv1D(256, 3, padding='same', strides=1, activation='relu')(embed)
    cnn1 = MaxPooling1D(pool_size=48)(cnn1)
    cnn2 = Conv1D(256, 4, padding='same', strides=1, activation='relu')(embed)
    cnn2 = MaxPooling1D(pool_size=47)(cnn2)
    cnn3 = Conv1D(256, 5, padding='same', strides=1, activation='relu')(embed)
    cnn3 = MaxPooling1D(pool_size=46)(cnn3)
    # 合并三个模型的输出向量
    cnn = concatenate([cnn1, cnn2, cnn3], axis=-1)
    flat = Flatten()(cnn)
    drop = Dropout(0.2)(flat)
    main_output = Dense(3, activation='softmax')(drop)
    model = Model(inputs=main_input, outputs=main_output)
    model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

    one_hot_labels = keras.utils.to_categorical(y_train, num_classes=3)  # 将标签转换为one-hot编码
    model.fit(x_train_padded_seqs, one_hot_labels, batch_size=800, epochs=10)
    #y_test_onehot = keras.utils.to_categorical(y_test, num_classes=3)  # 将标签转换为one-hot编码
    result = model.predict(x_test_padded_seqs)  # 预测样本属于每个类别的概率
    result_labels = np.argmax(result, axis=1)  # 获得最大概率对应的标签
    y_predict = list(map(str, result_labels))
    print('准确率', metrics.accuracy_score(y_test, y_predict))
    print('平均f1-score:', metrics.f1_score(y_test, y_predict, average='weighted'))

3、使用Word2Vec词向量的TextCNN

w2v_model=Word2Vec.load('sentiment_analysis/w2v_model.pkl')
# 预训练的词向量中没有出现的词用0向量表示
embedding_matrix = np.zeros((len(vocab) + 1, 300))
for word, i in vocab.items():
    try:
        embedding_vector = w2v_model[str(word)]
        embedding_matrix[i] = embedding_vector
    except KeyError:
        continue

#构建TextCNN模型
def TextCNN_model_2(x_train_padded_seqs,y_train,x_test_padded_seqs,y_test,embedding_matrix):
    # 模型结构：词嵌入-卷积池化*3-拼接-全连接-dropout-全连接
    main_input = Input(shape=(50,), dtype='float64')
    # 词嵌入（使用预训练的词向量）
    embedder = Embedding(len(vocab) + 1, 300, input_length=50, weights=[embedding_matrix], trainable=False)
    #embedder = Embedding(len(vocab) + 1, 300, input_length=50, trainable=False)
    embed = embedder(main_input)
    # 词窗大小分别为3,4,5
    cnn1 = Conv1D(256, 3, padding='same', strides=1, activation='relu')(embed)
    cnn1 = MaxPooling1D(pool_size=38)(cnn1)
    cnn2 = Conv1D(256, 4, padding='same', strides=1, activation='relu')(embed)
    cnn2 = MaxPooling1D(pool_size=37)(cnn2)
    cnn3 = Conv1D(256, 5, padding='same', strides=1, activation='relu')(embed)
    cnn3 = MaxPooling1D(pool_size=36)(cnn3)
    # 合并三个模型的输出向量
    cnn = concatenate([cnn1, cnn2, cnn3], axis=-1)
    flat = Flatten()(cnn)
    drop = Dropout(0.2)(flat)
    main_output = Dense(3, activation='softmax')(drop)
    model = Model(inputs=main_input, outputs=main_output)
    model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

    one_hot_labels = keras.utils.to_categorical(y_train, num_classes=3)  # 将标签转换为one-hot编码
    model.fit(x_train_padded_seqs, one_hot_labels, batch_size=800, epochs=20)
    #y_test_onehot = keras.utils.to_categorical(y_test, num_classes=3)  # 将标签转换为one-hot编码
    result = model.predict(x_test_padded_seqs)  # 预测样本属于每个类别的概率
    result_labels = np.argmax(result, axis=1)  # 获得最大概率对应的标签
    y_predict = list(map(str, result_labels))
    print('准确率', metrics.accuracy_score(y_test, y_predict))
    print('平均f1-score:', metrics.f1_score(y_test, y_predict, average='weighted'))

四、绘制TextCNN模型结构图

使用keras的plot_model()画出的TextCNN模型结构图

1、环境配置

（1）安装graphviz模块

首先，命令行pip install graphviz；其次，安装graphviz软件，官网下载：graphviz-2.38.msi ；最后，将安装目录中的graphviz-2.38\release\bin添加进Path环境变量。

（2）安装pydot模块

命令行pip install pydot

（3）在运行程序中加入下面两行代码

import os
os.environ["PATH"] += os.pathsep + 'C:/Program Files (x86)/Graphviz2.38/bin/'

2、绘制模型图

使用plot_model()画出模型图

from keras.utils import plot_model
    #生成一个模型图，第一个参数为模型，第二个参数为要生成图片的路径及文件名，还可以指定两个参数：
    #show_shapes:指定是否显示输出数据的形状，默认为False
    #show_layer_names:指定是否显示层名称，默认为True
    plot_model(model,to_file='sentiment_analysis/model.png',show_shapes=True,show_layer_names=False)

模型图如下：

五、keras模型的保存与加载

from keras.models import load_model

#模型的保存
model.save('model.h5')

#模型的加载
model=load_model('model.h5')

参考学习资料：

（1）Keras之文本分类实现

（2）使用Keras进行深度学习

（3）NLP论文

（4）卷积神经网络（CNN）在句子建模上的应用

（5）用深度学习（CNN RNN Attention）解决大规模文本分类问题 - 综述和实践

（6）深度学习在文本分类中的应用

（7）深度学习与文本分类总结第一篇--常用模型总结

（8）基于 word2vec 和 CNN 的文本分类：综述 & 实践

使用LoRA微调LLaMA3 想胖的壮壮深度学习人工智能
使用LoRA微调LLaMA3的案例案例概述在这个案例中，我们将使用LoRA微调LLaMA3模型，进行一个文本分类任务。我们将使用HuggingFace的Transformers库来完成这个过程。步骤一：环境搭建安装必要的Python包pipinstalltransformersdatasetstorch配置GPU环境确保你的环境中配置了CUDA和cuDNN，并验证GPU是否可用。importtor
RNN及其变体 EmbodiedTech 人工智能大模型自然语言处理
第三章RNN及其变体1认识RNN模型【根据RNN内部结构，可以分为哪几类】定义循环神经网络：一般接受的一序列进行输入，输出也是一个序列作用和应用场景RNN擅长处理连续语言文本，机器翻译、文本生成、文本分类、摘要生成RNN模型的分类根据输入与输出结构NVsN:输入和输出等长，应用场景：对联生成；词性标注；NERNVs1:输入N，输出为单值，应用场景：文本分类1VsN:输入是一个，输出为N，应用场景：
【NLP】 3. Distributional Similarity in NLP（分布式相似性） pen-ai NLP 机器学习自然语言处理分布式人工智能
DistributionalSimilarityinNLP（分布式相似性）分布式相似性（DistributionalSimilarity）是自然语言处理（NLP）中的核心概念，基于“相似的单词出现在相似的上下文中”这一假设。它用于衡量单词之间的相似性，广泛应用于词向量、信息检索、文本分类等任务。1.分布式假设（DistributionalHypothesis）分布式相似性基于以下假设：“Yoush
【基于PyTorch】多项式贝叶斯分类器实现中文文本情感分类任务鱼弦机器学习设计类系统 pytorch 分类人工智能
多项式贝叶斯分类器实现中文文本情感分类任务介绍多项式朴素贝叶斯（MultinomialNaiveBayes,MultinomialNB）是一种常用于文本分类的算法，特别适用于多类别文本分类。其在处理离散数据（如文本数据中的词频）时表现优异，可以用于情感分析、垃圾邮件检测等任务。应用使用场景情感分析：识别用户评论的情感，例如正面评论和负面评论。垃圾邮件检测：鉴别电子邮件是否为垃圾邮件。新闻分类：将新
NLP-二分类的应用-区分外卖评论好评/差评左岸Jason 算法 python kafka flink elasticsearch
目录一、概念二、二分类实战-划分好评/差评1.处理步骤2.实战代码一、概念文本分类一般可以分为二分类、多分类、多标签分类三种情况。二分类是指将一组文本分成两个类(0或1),比较常见的应用如垃圾邮件分类、电商网站的用户评价数据的正负面分类等,多分类是指将文本分成若干个类中的某一个类,比如说门户网站新闻可以归属到不同的栏目中(如政治、体育、社会、科技、金融等栏目)去。多标签分类指的是可以将文本分成若干
机器学习_重要知识点整理嘉羽很烦机器学习机器学习
机器学习重要知识点整理一、数学与理论基础1.概率与统计术语作用使用场景概率分布描述随机变量的取值概率，如正态分布、二项分布。数据建模（如高斯分布假设）、生成模型（如贝叶斯网络）。贝叶斯定理计算条件概率，更新先验知识以获得后验概率。贝叶斯分类器、文本分类（如垃圾邮件检测）。最大似然估计（MLE）通过数据最大化似然函数，估计模型参数。线性回归、逻辑回归参数估计。假设检验判断假设是否成立（如t检验、卡方
自然语言处理（NLP）技术介绍风吹晚风悠 gpt 人工智能 nlp 自然语言处理
自然语言处理（NLP）是一种涉及计算机和人类语言之间交流的技术。NLP技术可以应用于多个领域，例如机器翻译、情感分析、文本分类、问答系统等。以下是一些NLP技术的示例：机器翻译：NLP技术可用于将一个语言的文本自动翻译成另一个语言。例如，GoogleTranslate和百度翻译等在线翻译工具就使用了NLP技术。情感分析：NLP技术可用于分析文本中的情感和情感倾向。这可以帮助企业了解公众对其产品或服
基于Transformer的医学文本分类：从BERT到BioBERT Evaporator Core 人工智能 #深度学习 #DeepSeek快速入门 transformer 分类 bert
随着自然语言处理（NLP）技术的快速发展，Transformer模型在文本分类、情感分析、机器翻译等任务中取得了显著成果。在医学领域，文本数据（如电子病历、医学文献、临床报告）具有高度的专业性和复杂性，传统的NLP方法往往难以处理。Transformer模型，尤其是BERT及其变体，通过预训练和微调的方式，能够有效捕捉医学文本中的语义信息，为医学文本分类提供了强大的工具。本文将探讨Transfor
TF-IDF：文本挖掘中的关键词提取利器巷955 tf-idf
引言在自然语言处理（NLP）和文本挖掘中，TF-IDF是一种常用的技术，用于评估一个词在文档中的重要性。它不仅在信息检索领域广泛应用，还在文本分类、关键词提取等任务中发挥着重要作用。本文将详细介绍TF-IDF的原理，并通过一个实际的代码示例来展示如何使用TF-IDF从《红楼梦》中提取核心关键词。1.什么是TF-IDF？TF-IDF是一种统计方法，用于评估一个词在文档中的重要性。它由两部分组成：-T
RNN 实战指南：用 PyTorch 从零实现文本分类吴师兄大模型 PyTorch pytorch python 人工智能 RNN 循环神经网络文本分类开发语言
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
第20周：Pytorch文本分类入门 weixin_46620278 pytorch 分类人工智能
目录前言一、前期准备1.1环境安装导入包1.2加载数据1.3构建词典1.4生成数据批次和迭代器二、准备模型2.1定义模型2.2定义示例2.3定义训练函数与评估函数三、训练模型3.1拆分数据集并运行模型3.2使用测试数据集评估模型总结前言本文为[365天深度学习训练营]中的学习记录博客原作者：[K同学啊]说在前面本周任务：了解文本分类的基本流程、学习常用数据清洗方法、学习如何使用jieba实现英文分
NLP新手入门-第N1周：Pytorch文本分类入门 Oaix Nay 365天深度学习训练记录 pytorch 自然语言处理分类
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊|接辅导、项目定制目录一、课题背景和开发环境二、环境安装三、文本分类1.加载数据2.构建词典3.生成数据批次和迭代器4.定义模型5.定义实例6.定义训练函数与评估函数7.拆分数据集并运行模型8.使用测试数据集评估模型一、课题背景和开发环境第N1周：Pytorch文本分类入门Python3.8.12pytorch==1.8.1+cu111t
【Hugging Face】transformers 库中 model 的常用方法和属性彬彬侠 Hugging Face model 模型的属性和方法 transformers Hugging Face python
HuggingFacetransformers库中model的常用方法和属性在transformers库中，model代表预训练的Transformer模型，可用于文本分类、问答、文本生成等任务。不同任务的model可能会有不同的方法和属性，但它们共享许多常见功能。1.model的常见属性在加载AutoModel或AutoModelForXXX后，可以使用以下属性：fromtransformers
基于Python 和 DeepSeek API 实现文本分类修破立生大模型 python 人工智能
在自然语言处理（NLP）领域，文本分类是一项非常重要的任务，它可以帮助我们将大量的文本数据自动归类到不同的类别中。传统的文本分类方法有很多，而近年来，利用大模型进行文本分类逐渐成为一种流行且高效的方式。本文将介绍如何使用Python编写代码，结合DeepSeekAPI实现文本分类的功能，并探讨使用大模型方法进行文本分类与其他方法的区别。1代码概述我们的代码主要实现了以下几个功能：创建一个DeepS
大模型（LLM）的若干科普之问（七）：如何隔离LLM微调结果？人工干智能大模型编程 Python的高级知识 LLM
一、微调大模型LLM的微调是指在预训练好的大型语言模型基础上，通过特定任务的数据进行进一步训练，以提升模型在该任务上的性能。以下是微调的关键点：预训练模型：大模型LLM（如GPT、BERT等）通过大量通用文本进行预训练，学习语言的基本结构和知识。微调目的：使模型适应特定任务或领域，如文本分类、机器翻译、问答系统等。微调过程：数据准备：收集与任务相关的标注数据。模型调整：在预训练模型上继续训练，通常
词向量（Word Embedding）呵呵，不解释868 easyui 前端 javascript
词向量（WordEmbedding）是一种将自然语言中的单词映射到连续的向量空间的技术，使得语义相似的单词在向量空间中彼此接近。这种技术是现代自然语言处理（NLP）任务的基础之一，广泛应用于文本分类、机器翻译、问答系统等。###一、词向量的基本原理####1.离散表示vs连续表示传统的自然语言处理方法通常使用离散表示（如one-hot编码）来表示单词。然而，这种方法存在以下问题：-**维度灾难**
神经网络之CNN文本识别邪恶的贝利亚神经网络 cnn 人工智能
1.参考我的第一篇文章了解CNN概念神经网络之CNN图像识别(torchapi调用)-CSDN博客2.框架目前对NLP的研究分析应用最多的就是RNN系列的框架，比如RNN,GRU,LSTM等等，再加上Attention，基本可以认为是NLP的标配套餐了。但是在文本分类问题上，相比于RNN，CNN的构建和训练更为简单和快速，并且效果也不差，所以仍然会有一些研究。那么，CNN到底是怎么应用到NLP上的
【AI大模型】Transformers大模型库（九）：大模型微调之计算微调参数占比 LDG_AGI 人工智能
目录一、引言二、计算微调参数占比2.1概述2.2模型参数结构一览2.3微调参数占比计算三、总结一、引言这里的Transformers指的是huggingface开发的大模型库，为huggingface上数以万计的预训练大模型提供预测、训练等服务。Transformers提供了数以千计的预训练模型，支持100多种语言的文本分类、信息抽取、问答、摘要、翻译、文本生成。它的宗旨是让最先进的NLP技术人人
如何用AI写程序 Honmaple 人工智能
一、AI写程序之工具选择（一）主流AI编程工具介绍如今市面上有诸多AI编程工具可供选择，以下为大家介绍几种常见且实用的工具：ChatGPT：由OpenAI开发的一款基于Transformer架构的预训练模型，它的自然语言处理能力十分强大，能够理解和生成人类语言，并进行文本分类、情感分析、机器翻译等自然语言处理任务。它经过大量的训练和优化，可以准确地理解用户的意图和需求，从大量文本数据中提取有用信息
自然语言处理NLP入门 -- 第八节OpenAI GPT 在 NLP 任务中的应用山海青风人工智能 gpt 自然语言处理 python
在前面的学习中，我们已经了解了如何使用一些经典的方法和模型来处理自然语言任务，如文本分类、命名实体识别等。但当我们需要更强的语言生成能力时，往往会求助于更先进的预训练语言模型。OpenAI旗下的GPT系列模型（如GPT-3、GPT-3.5、GPT-4等）在生成文本方面拥有强大的表现。它们不仅能进行语言生成，也可用于诸多NLP任务，包括文本摘要和情感分析。本章将重点介绍：GPT的文本生成原理和应用场
自然语言处理入门：从基础概念到实战项目范范0825 自然语言处理人工智能
自然语言处理入门：从基础概念到实战项目一、引言自然语言处理（NaturalLanguageProcessing，简称NLP）是人工智能的重要分支，旨在让计算机能够理解、生成和处理人类语言。随着大数据和深度学习的发展，NLP技术在文本分类、机器翻译、问答系统、情感分析等领域得到了广泛应用。本文将从NLP的基础概念入手，逐步介绍关键技术，最终通过一个完整的实战项目帮助读者掌握如何在实际应用中使用NLP
深度、机器学习算法 yzx991013 机器学习算法人工智能
机器学习典型算法SVM（支持向量机）：它通过寻找一个最优超平面来对数据进行分类。在二分类问题中，能找到一个平面（低维）或超平面（高维），使不同类别的数据点尽可能远地分布在超平面两侧。在小样本、非线性数据处理上有优势，常用于文本分类、图像识别等领域。决策树：以树形结构展示决策过程，从根节点开始，依据特征值逐步向下划分，直到叶子节点得出分类或回归结果。它易于理解和解释，可处理数值型和分类型数据，但容易
如何在 Hugging Face 上下载和使用模型—全面指南 Hello.Reader 人工智能 python语言运维人工智能机器学习 ai
1.引言在自然语言处理（NLP）领域，HuggingFace已成为一个不可忽视的平台。无论你是从事学术研究还是在工业中应用NLP技术，HuggingFace都为你提供了丰富的预训练模型和工具库，这些资源大大加速了NLP任务的开发和部署。HuggingFace提供的模型库涵盖了从文本分类到文本生成、从机器翻译到问答系统等各种NLP任务。这些模型大多是由社区贡献并经过大规模数据训练的，使用它们可以帮助
朴素贝叶斯原理及sklearn中代码实战 Lewis@ sklearn 概率论机器学习
朴素贝叶斯（NaiveBayes）是一类基于贝叶斯定理的简单而有效的分类算法。它假设特征之间是相互独立的，即在给定目标变量的情况下，每个特征都不依赖于其他特征。尽管这个假设在实际中很难成立，朴素贝叶斯在许多场景下仍表现得非常好，特别是对于文本分类等高维数据的应用。1.贝叶斯定理贝叶斯定理表明给定一个事件发生的条件下另一个事件发生的概率：P(A∣B)=P(B∣A)⋅P(A)P(B){P(A|B)=\
人工智能训练师如何做文本数据标注？小宝哥Code 人工智能训练师人工智能
在人工智能训练中，文本数据标注是非常重要的一个环节。文本数据标注是对数据进行结构化、分类、分词、情感分析、命名实体识别（NER）等操作，为机器学习模型提供准确的输入。以下是常见的文本数据标注任务和对应的Python代码示例。1.文本分类标注文本分类标注是对文本数据进行分类的任务。通常我们会将文本数据标注为不同的类别，比如“体育”、“娱乐”、“政治”等。示例：假设我们有一组新闻文本，我们需要为其分配
使用 AnyscaleEmbeddings 进行文本嵌入 dgay_hua python
在自然语言处理（NLP）领域中，嵌入（Embedding）是一种将文本转换为向量表示的方法。今天，我们将通过AnyscaleEmbeddings类来演示如何进行文本嵌入，它能有效地将文本转换为高维向量，这在文本相似度计算、文本分类等任务中非常有用。1.技术背景介绍嵌入模型是NLP中的一种常见技术，它能够将语言数据映射为固定长度的高维向量。通过预训练模型（如BERT、GPT等），我们可以获得语义丰富
Python库 - transformers 司南锤 PYTHON库 python机器学习 python 开发语言
transformers库是由HuggingFace开发的一个非常流行的Python库，用于自然语言处理（NLP）任务。它提供了大量的预训练模型，这些模型可以用于各种NLP任务，如文本分类、问答、翻译、摘要生成等。以下是关于transformers库的详细介绍：1.主要特点预训练模型：transformers库包含了多种预训练的语言模型，如BERT、GPT、T5、XLNet等。这些模型在大规模文本
探秘 DeepSeek R1 模型：跨越多领域的科技奇迹，引领智能应用新浪潮羑悻的小杀马特. AI学习科技 deepseek AI大模型
DeepSeekR1模型功能强大，应用广泛。在自然语言处理、计算机视觉、推荐系统和医疗等领域都能发挥作用。本文介绍了其在各领域的应用场景和代码示例，助你深入了解它。目录编辑一、本篇背景：二、DeepSeekR1模型概述：2.1模型特点：2.2技术原理：三、自然语言处理领域的应用：3.1文本分类：3.1.1应用场景：3.1.2代码演示：3.2情感分析：3.2.1应用场景：3.2.2代码演示：3.3机
朴素贝叶斯模型在文本分类中的应用 Ash Butterfield nlp 分类数据挖掘人工智能
朴素贝叶斯（NaiveBayes）是一种基于贝叶斯定理的概率分类算法，广泛应用于文本分类任务中。它的核心思想是根据训练数据中不同类别的条件概率，预测新文本属于哪个类别。尽管其假设条件较为简单（假设特征之间相互独立），但朴素贝叶斯在许多实际应用中仍表现出色，特别是在处理文本分类任务时。本文将介绍朴素贝叶斯模型的基本原理、在文本分类中的应用以及其优缺点，并通过示例说明其具体实现。1.朴素贝叶斯模型的基
第N5周：Pytorch文本分类入门计算机真好丸 pytorch 分类人工智能
文章目录一、前期准备1.环境安装2.加载数据3.构建词典4.生成数据批次和迭代器二、准备模型1.定义模型2.定义实例三、训练模型1.拆分数据集并运行模型2.使用测试数据集评估模型本文为365天深度学习训练营中的学习记录博客原作者：K同学啊一、前期准备1.环境安装确保安装了torchtext与portalocker库2.加载数据importtorch#强制使用CPUdevice=torch.devi
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p

TextCNN文本分类（keras实现）

前言：

一、论文笔记

二、Keras文本预处理

1、读取数据集

2、将文字转换成数字特征

3、将每条文本转换为数字列表

4、将每条文本设置为相同长度

5、将每个词编码转换为词向量

6、Keras文本预处理代码实现

三、基于keras的TextCNN模型的构建、训练与测试

1、基础版CNN（模仿LeNet-5）

2、简单版TextCNN

3、使用Word2Vec词向量的TextCNN

四、绘制TextCNN模型结构图

1、环境配置

2、绘制模型图

五、keras模型的保存与加载

你可能感兴趣的:(文本分类)