福利2020

自然语言处理（NLP）：08-05 TextCNN短文本分类案例分享

TextCNN 短文本分类案例分享，学习更多工业界案例：数据分析可视化技术、TextCNN论文原理、词向量技术、tensorboardx效果可视化工具、TextCNN 短文本分类案例分享总结，让大家彻底掌握TextCNN 在文本分类领域应用，有任何问题请留言或者加入交流群：NLP技术交流群，让我们一起学习NLP。

自然语言处理（NLP）：08 TextCNN在短文本分类应用介绍
自然语言处理（NLP）：08-01 数据分析和文本分类效果对比
自然语言处理（NLP）：08-02 CNN文本分类论文讲解及TextCNN原理
自然语言处理（NLP）：08-03 词向量word2vec
自然语言处理（NLP）：08-04 tensorboardx 可视化
自然语言处理（NLP）：08-05 TextCNN短文本分类案例分享

文章目录

数据预处理
基于所有数据构建词典
文本离散化处理
文本数据集切分
自定义Dataset
DataLoader批量加载
构建词向量
- 词向量可视化
- - gensim工具加载词向量模型
  - 词向量应用
  - 词向量转换可视化表示
- 构建领域的词向量
- 词向量验证
模型训练
- 模型结构
- 训练方法定义

import warnings
warnings.filterwarnings('ignore')
import jieba
from data_processing import load_data
from collections import Counter
import numpy as np 

from dataset import MLDataset
from torch.utils.data import DataLoader
#from tqdm import tqdm

数据预处理

data_path = 'data/news/data.txt'
tokenizer = lambda x: jieba.lcut(x);
data, labels, max_seq_len = load_data(data_path, tokenizer)

0it [00:00, ?it/s]Building prefix dict from the default dictionary ...
Dumping model to file cache /var/folders/y4/m077y_dj1pd7blyvjrx9y30w0000gn/T/jieba.cache
Loading model cost 1.056 seconds.
Prefix dict has been built succesfully.
200000it [00:30, 6658.56it/s]

total_examples =  200000
label_count =  10
sentences example =  [['男子', '因', '家庭', '积怨', '杀死', '3', '名', '亲人', '重伤', '1', '人'], ['郭鹏', '：', '三亚', '房价', '不会', '下跌', '眼下', '正是', '买房', '最佳时机']]
labels example =  [5, 1]
max_seq_len =  21

基于所有数据构建词典

def build_vocab(data,max_size,min_freq = 3):
    """
    基于所有数据构建词表
    :param data:
            句子格式：[[word1,word2,word3....],[word11,word12,word13...]]
    :param max_size:最大词典的数量
    :param min_freq:
    :return:
           word_freqs: 词频－每个单词出现的次数 [ ('',-1),('',0),('创业',4),('风景',3) ......]
           dict_word2index: 每个单词对应的索引位置{ '':0,'':1,'创业':2,.... }
           dit_index2word： 每个位置对应的单词{ 0: '',1:'',2:'创业'.....}
    """
    
    word_freqs = [ ('',-1),('',-1) ]
    words = []
    for line in data:
        words.extend(line) # extend 和 append的区别： extend 每个单词放入list
    
    counter = Counter(words)
    # 词频从大到小进行排序
    counter_list = counter.most_common()[:max_size]
    for word,freq in counter_list:
        if freq >= min_freq:
            word_freqs.append( (word,freq) )
    
    # 构建word2index,index2word
    dict_word2index = dict()
    for word,freq in word_freqs:
        dict_word2index[word] = len(dict_word2index)
    dict_index2word = dict( zip(dict_word2index.values(), dict_word2index.keys() )  )
    
    vocab_size = len(dict_index2word)
    print('vocab_size = ',vocab_size)
    return vocab_size,word_freqs,dict_word2index,dict_index2word

max_size = 100000# 词典大小
min_freq = 1
vocab_size,word_freqs,dict_word2index,dict_index2word = build_vocab(data,max_size,min_freq)

vocab_size =  100002

文本离散化处理

def build_dataset(data,labels,dict_word2index,max_seq_len):
    """
        基于词表构建离散化数据
    :param data:
            句子格式：[[word1,word2,word3....],[word11,word12,word13...]]
    :param labels:
    :param dict_word2index:
                标签格式： ［5，3］
    :param max_seq_len: data中的文本最大的长度( 保证数据长度一致 ，不够的补0，否则截断）
    :return:
            离散化后的结果
           datasets:[[3899,2,62....],[3,4,1...]]
           labels:［5，3］
    """
    dataset = []
    indices = np.arange(len(labels))
    for i in indices:
        # i 第i行的数据
        new_line = []
        for word in data[i]:# data[i] 获取data列表中的第i个句子（列表类型） 
            if word in dict_word2index:
                index = dict_word2index.get(word)
            else:
                index = dict_word2index.get('')
            new_line.append(index)
        
        # 短句子： 最大的长度看齐
        pad_num = max_seq_len - len(new_line)
        while pad_num > 0:
            new_line.append(dict_word2index.get(''))
            pad_num -= 1
        
        # 长句子截断
        dataset.append( new_line[:max_seq_len] )
    
    # 返回最终的结果
    datasets,labels = np.array(dataset,dtype = np.int64),np.array(labels,dtype=np.int64)
    return datasets,labels


datasets,labels = build_dataset(data,labels,dict_word2index,max_seq_len)

datasets[:2]

array([[   37,    79,  1139, 28947,   917,    18,    60,  7961,  1469,
           26,    23,     1,     1,     1,     1,     1,     1,     1,
            1,     1,     1],
       [63425,     3,  6084,   354,   362,   324, 63426, 16772,  1750,
        15095,     1,     1,     1,     1,     1,     1,     1,     1,
            1,     1,     1]])

我们获取一条数据，查看原始文本数据如何

data0,label0 = datasets[0],labels[0]

data0_0 = [ dict_index2word.get(idx) for idx in data0 ]
print(data0_0)

['男子', '因', '家庭', '积怨', '杀死', '3', '名', '亲人', '重伤', '1', '人', '', '', '', '', '', '', '', '', '', '']

data[:2]

[['男子', '因', '家庭', '积怨', '杀死', '3', '名', '亲人', '重伤', '1', '人'],
 ['郭鹏', '：', '三亚', '房价', '不会', '下跌', '眼下', '正是', '买房', '最佳时机']]

dict_word2index.get('积怨')

max_seq_len

文本数据集切分

定义切分数据函数
切分数据集，训练集和验证集

datasets

array([[   37,    79,  1139, ...,     1,     1,     1],
       [63425,     3,  6084, ...,     1,     1,     1],
       [  366,  2482,   814, ...,     1,     1,     1],
       ...,
       [25006,   904,  6164, ...,     1,     1,     1],
       [ 1265,   594,  7558, ...,     1,     1,     1],
       [   17,   412,   952, ...,     1,     1,     1]])

labels

array([5, 1, 7, ..., 2, 4, 0])

# 使用sklearn中的切分
from sklearn.model_selection import train_test_split
X_train, X_val, y_train, y_val = train_test_split( datasets, labels, test_size=0.3, random_state=42)

print('len(X_train) = ',len(X_train))
print('len(X_val) = ',len(X_val))
print('*' * 60)
print('X_train = ',X_train[:2])
print('y_train = ',y_train[:2])

len(X_train) =  140000
len(X_val) =  60000
************************************************************
X_train =  [[   42     9    43  2376 14912     4  1208  1419     5     1     1     1
      1     1     1     1     1     1     1     1     1]
 [37521 14174     3 12932  1341  4077     2   893  6055   484  3008     1
      1     1     1     1     1     1     1     1     1]]
y_train =  [3 2]

分析一下我们切分后的数据分布

import numpy as np
from collections import Counter
train_data = dict(Counter(y_train))
val_data = dict(Counter(y_val))


#dict 类型的排序
train_data = dict(  sorted(train_data.items(),key=lambda x:x[0],reverse=False)  )
val_data = dict(  sorted(val_data.items(),key=lambda x:x[0],reverse=False)  ) 

print(train_data)
print(val_data)

{0: 13935, 1: 14038, 2: 13982, 3: 14025, 4: 14021, 5: 14038, 6: 13952, 7: 13956, 8: 14048, 9: 14005}
{0: 6065, 1: 5962, 2: 6018, 3: 5975, 4: 5979, 5: 5962, 6: 6048, 7: 6044, 8: 5952, 9: 5995}

自定义Dataset

type(X_train)

numpy.ndarray

X_train.shape

(140000, 21)

X_train

array([[   42,     9,    43, ...,     1,     1,     1],
       [37521, 14174,     3, ...,     1,     1,     1],
       [14386,   205,    24, ...,     1,     1,     1],
       ...,
       [27693,    28,    78, ...,     1,     1,     1],
       [   30,   687,    63, ...,     1,     1,     1],
       [  207,   666,    44, ...,     1,     1,     1]])

train_dataset = MLDataset(X_train,y_train)
val_dataset = MLDataset(X_val,y_val)

train_dataset.x_data

array([[   42,     9,    43, ...,     1,     1,     1],
       [37521, 14174,     3, ...,     1,     1,     1],
       [14386,   205,    24, ...,     1,     1,     1],
       ...,
       [27693,    28,    78, ...,     1,     1,     1],
       [   30,   687,    63, ...,     1,     1,     1],
       [  207,   666,    44, ...,     1,     1,     1]])

train_dataset.__len__()

train_dataset.__getitem__(0)

(array([   42,     9,    43,  2376, 14912,     4,  1208,  1419,     5,
            1,     1,     1,     1,     1,     1,     1,     1,     1,
            1,     1,     1]), 3)

DataLoader批量加载

可以通过batch_size 进行数据加载

help(DataLoader)

Help on class DataLoader in module torch.utils.data.dataloader:

class DataLoader(builtins.object)
 |  DataLoader(dataset, batch_size=1, shuffle=False, sampler=None, batch_sampler=None, num_workers=0, collate_fn=None, pin_memory=False, drop_last=False, timeout=0, worker_init_fn=None, multiprocessing_context=None)
 |  
 |  Data loader. Combines a dataset and a sampler, and provides an iterable over
 |  the given dataset.
 |  
 |  The :class:`~torch.utils.data.DataLoader` supports both map-style and
 |  iterable-style datasets with single- or multi-process loading, customizing
 |  loading order and optional automatic batching (collation) and memory pinning.
 |  
 |  See :py:mod:`torch.utils.data` documentation page for more details.
 |  
 |  Arguments:
 |      dataset (Dataset): dataset from which to load the data.
 |      batch_size (int, optional): how many samples per batch to load
 |          (default: ``1``).
 |      shuffle (bool, optional): set to ``True`` to have the data reshuffled
 |          at every epoch (default: ``False``).
 |      sampler (Sampler, optional): defines the strategy to draw samples from
 |          the dataset. If specified, :attr:`shuffle` must be ``False``.
 |      batch_sampler (Sampler, optional): like :attr:`sampler`, but returns a batch of
 |          indices at a time. Mutually exclusive with :attr:`batch_size`,
 |          :attr:`shuffle`, :attr:`sampler`, and :attr:`drop_last`.
 |      num_workers (int, optional): how many subprocesses to use for data
 |          loading. ``0`` means that the data will be loaded in the main process.
 |          (default: ``0``)
 |      collate_fn (callable, optional): merges a list of samples to form a
 |          mini-batch of Tensor(s).  Used when using batched loading from a
 |          map-style dataset.
 |      pin_memory (bool, optional): If ``True``, the data loader will copy Tensors
 |          into CUDA pinned memory before returning them.  If your data elements
 |          are a custom type, or your :attr:`collate_fn` returns a batch that is a custom type,
 |          see the example below.
 |      drop_last (bool, optional): set to ``True`` to drop the last incomplete batch,
 |          if the dataset size is not divisible by the batch size. If ``False`` and
 |          the size of dataset is not divisible by the batch size, then the last batch
 |          will be smaller. (default: ``False``)
 |      timeout (numeric, optional): if positive, the timeout value for collecting a batch
 |          from workers. Should always be non-negative. (default: ``0``)
 |      worker_init_fn (callable, optional): If not ``None``, this will be called on each
 |          worker subprocess with the worker id (an int in ``[0, num_workers - 1]``) as
 |          input, after seeding and before data loading. (default: ``None``)
 |  
 |  
 |  .. warning:: If the ``spawn`` start method is used, :attr:`worker_init_fn`
 |               cannot be an unpicklable object, e.g., a lambda function. See
 |               :ref:`multiprocessing-best-practices` on more details related
 |               to multiprocessing in PyTorch.
 |  
 |  .. note:: ``len(dataloader)`` heuristic is based on the length of the sampler used.
 |            When :attr:`dataset` is an :class:`~torch.utils.data.IterableDataset`,
 |            an infinite sampler is used, whose :meth:`__len__` is not
 |            implemented, because the actual length depends on both the
 |            iterable as well as multi-process loading configurations. So one
 |            should not query this method unless they work with a map-style
 |            dataset. See `Dataset Types`_ for more details on these two types
 |            of datasets.
 |  
 |  Methods defined here:
 |  
 |  __init__(self, dataset, batch_size=1, shuffle=False, sampler=None, batch_sampler=None, num_workers=0, collate_fn=None, pin_memory=False, drop_last=False, timeout=0, worker_init_fn=None, multiprocessing_context=None)
 |      Initialize self.  See help(type(self)) for accurate signature.
 |  
 |  __iter__(self)
 |  
 |  __len__(self)
 |  
 |  __setattr__(self, attr, val)
 |      Implement setattr(self, name, value).
 |  
 |  ----------------------------------------------------------------------
 |  Data descriptors defined here:
 |  
 |  __dict__
 |      dictionary for instance variables (if defined)
 |  
 |  __weakref__
 |      list of weak references to the object (if defined)
 |  
 |  multiprocessing_context

batch_size = 32
num_workers = 2
train_loader = DataLoader(dataset=train_dataset,batch_size=batch_size,shuffle=True,num_workers=num_workers)
val_loader = DataLoader(dataset=val_dataset,batch_size=batch_size,shuffle=False,num_workers=num_workers)

train_loader

next(iter(train_loader))

[tensor([[  490,  3710,   600,  1979,     2,   203, 20151,  8151,   850,     1,
              1,     1,     1,     1,     1,     1,     1,     1,     1,     1,
              1],
         [  102,    94, 12099, 16709,   126,   107, 38082,    15,    39,  2544,
             16,     1,     1,     1,     1,     1,     1,     1,     1,     1,
              1],
         [42638,   839,  5814, 31617, 78419,     2,  3001,   136,  1071,   638,
           4954,     4,     6,     5,     1,     1,     1,     1,     1,     1,
              1],
         [10757,   178,  1470,     7,  6113,  5486, 10967,     8,   799,  1674,
            226,     1,     1,     1,     1,     1,     1,     1,     1,     1,
              1],
         [25144,    72, 11991, 11992,   154,    82,   103,     1,     1,     1,
              1,     1,     1,     1,     1,     1,     1,     1,     1,     1,
              1],
         [  255,    27,  1221,  2947,   446,   236,   635,  2452,   324,     1,
              1,     1,     1,     1,     1,     1,     1,     1,     1,     1,
              1],
         [ 1812,  1612,    77,  4276,  1076,   279,    36,  1708,    52, 24206,
              4,     6,     5,     1,     1,     1,     1,     1,     1,     1,
              1],
         [ 7406,  1935,  1510,   795,   659,  6182,     1,     1,     1,     1,
              1,     1,     1,     1,     1,     1,     1,     1,     1,     1,
              1],
         [13437,   110, 17048,    79,  6250, 91282, 58400, 25647, 17281,     1,
              1,     1,     1,     1,     1,     1,     1,     1,     1,     1,
              1],
         [  448,    17,   728,  1210,     2,   909,   136,    17,    63,   728,
           7314,  2643, 13756,     1,     1,     1,     1,     1,     1,     1,
              1],
         [   98,  1618,     3,  1849,   949,   128,     2,  6618,   698,   185,
              1,     1,     1,     1,     1,     1,     1,     1,     1,     1,
              1],
         [ 4082,   445,  1458,   249,  1635,   153,   248,  4093,  1259,  8847,
              4,     6,     5,     1,     1,     1,     1,     1,     1,     1,
              1],
         [  367, 15823,  6347,    14,  2864, 23390,  4385, 58791,     2,  2732,
          20500,   152,   363,     9,   460,     1,     1,     1,     1,     1,
              1],
         [  398,    43,   312,     3,  1329, 84239,  2957,   139,     4,    21,
              5,     1,     1,     1,     1,     1,     1,     1,     1,     1,
              1],
         [ 3746,   930,  3867,   163, 97935,     1,     1,     1,     1,     1,
              1,     1,     1,     1,     1,     1,     1,     1,     1,     1,
              1],
         [  236,  1867,   874,  1142,     2,  5726,  3096,    61,   288, 35933,
             11,   218, 25644,     1,     1,     1,     1,     1,     1,     1,
              1],
         [ 2395,    12,  3977,   242,  2003,  6120,     1,     1,     1,     1,
              1,     1,     1,     1,     1,     1,     1,     1,     1,     1,
              1],
         [ 1439,  1613, 20255, 80303,   789,  1459,     1,     1,     1,     1,
              1,     1,     1,     1,     1,     1,     1,     1,     1,     1,
              1],
         [ 1918,  1260,   118,  1738,  9191,  1461,  3616,  1142,     1,     1,
              1,     1,     1,     1,     1,     1,     1,     1,     1,     1,
              1],
         [   96,     9,    69, 11876,     7,  4169,   802,  2824,     8,   792,
            104,     1,     1,     1,     1,     1,     1,     1,     1,     1,
              1],
         [   62,  1574,   909,  4100,     2,  1215,   154, 17126,  4937,    15,
          77221,    16,     4,     6,     5,     1,     1,     1,     1,     1,
              1],
         [27321, 20215,    24,  8095,  3352,     2,    27,  7435,  3990,  1740,
          20567,  8057,     1,     1,     1,     1,     1,     1,     1,     1,
              1],
         [ 6017,  1632, 12961,    61,  2487,  2257,   970,     1,     1,     1,
              1,     1,     1,     1,     1,     1,     1,     1,     1,     1,
              1],
         [ 3833,    13, 26354,  2149,   383,     0,    14,  1924,     2,  1468,
           8626,  7989,     4,    21,     5,     1,     1,     1,     1,     1,
              1],
         [ 1014,   311,    32,  8007,  4106,     2,  1579, 25251, 23017,     1,
              1,     1,     1,     1,     1,     1,     1,     1,     1,     1,
              1],
         [ 3626, 36881,   463,   890,  2364,  2840,     1,     1,     1,     1,
              1,     1,     1,     1,     1,     1,     1,     1,     1,     1,
              1],
         [ 1169,  1077,    47, 16051,   236,     2,  1013,  3272, 19092, 64410,
           9624,     1,     1,     1,     1,     1,     1,     1,     1,     1,
              1],
         [  177,   973, 32868,   315,   533,  4653, 25475,     1,     1,     1,
              1,     1,     1,     1,     1,     1,     1,     1,     1,     1,
              1],
         [ 5305,    60, 17951,     3,    96,     9,   678, 19757, 10915,  4860,
              1,     1,     1,     1,     1,     1,     1,     1,     1,     1,
              1],
         [ 7859,   191,   274,  1320,    14,   331,  2312,     2,   675, 15580,
           4414,     1,     1,     1,     1,     1,     1,     1,     1,     1,
              1],
         [   19,    60,  1316,  3890,  3718,  7834,    53,    23,  8950,     2,
           4174,  3856,  6643,    23,     1,     1,     1,     1,     1,     1,
              1],
         [ 4193,    14,  6945,  1693, 12750,    15,   655,   244, 97051,    16,
              1,     1,     1,     1,     1,     1,     1,     1,     1,     1,
              1]]),
 tensor([4, 3, 9, 8, 3, 1, 1, 4, 5, 0, 0, 5, 7, 3, 6, 1, 2, 6, 0, 8, 3, 9, 0, 9,
         4, 1, 1, 2, 3, 5, 5, 9])]

for i,(words,labels)  in enumerate(train_loader):
    print(i)
    print('*' * 60)
    print(words)
    print('*' * 60)
    print(labels)
    break

0
************************************************************
tensor([[ 3928, 26941,  1738,     2,    17,   368, 26118, 25529,  1519,     1,
             1,     1,     1,     1,     1,     1,     1,     1,     1,     1,
             1],
        [  472,   161,  5764,   403,    44,    11,    87,   339,  1386,   507,
          5702,     1,     1,     1,     1,     1,     1,     1,     1,     1,
             1],
        [ 2455,    27, 21532,  3439, 62060, 21748,   147,  4432,  6434,     2,
          4976,   205,     1,     1,     1,     1,     1,     1,     1,     1,
             1],
        [ 3139,   914, 27201,   145,     2,    82,   154,  1309,   126,    23,
          4521,     1,     1,     1,     1,     1,     1,     1,     1,     1,
             1],
        [ 1720,  3149,   405,    91,   662,  2003, 28034,    23, 56911,    23,
           364,     1,     1,     1,     1,     1,     1,     1,     1,     1,
             1],
        [  489,     0,   323,   422,     0,  1460,     2,   304, 11616,    11,
          4881,     1,     1,     1,     1,     1,     1,     1,     1,     1,
             1],
        [ 4068,  2608,     0,   513,     2,    90,   436, 46225,     1,     1,
             1,     1,     1,     1,     1,     1,     1,     1,     1,     1,
             1],
        [  196,    35,   354,   185,    10,  3127,  4268,     1,     1,     1,
             1,     1,     1,     1,     1,     1,     1,     1,     1,     1,
             1],
        [ 4539,   331, 10018,   179,  8652,  1937,    15, 16285,    16,  2104,
          1093,     1,     1,     1,     1,     1,     1,     1,     1,     1,
             1],
        [ 7236,    27,  2143, 18043,  1977, 15836,     2, 16123,  3125,  1258,
             1,     1,     1,     1,     1,     1,     1,     1,     1,     1,
             1],
        [15840,  4197,  2902,  5070,  9259,   905,     1,     1,     1,     1,
             1,     1,     1,     1,     1,     1,     1,     1,     1,     1,
             1],
        [24745,  4045,  2892,  2538,   363,    60,    81,   638,   207,  3012,
             4,     6,     5,     1,     1,     1,     1,     1,     1,     1,
             1],
        [   62,  5192,  1662,   145,  1620,   313,  8675,     2,  2631,  1569,
          2288,  6888,     1,     1,     1,     1,     1,     1,     1,     1,
             1],
        [ 1037,  4979,  3698,   238,    14,  4065, 32789,  1129,    45,  2081,
           318,     1,     1,     1,     1,     1,     1,     1,     1,     1,
             1],
        [ 1350,   951,   918,  2133,    26,  1147,     2, 18428,  1034,    12,
           141,   241,  1112,     1,     1,     1,     1,     1,     1,     1,
             1],
        [ 7047,   198,    13, 51933,  2912,     2,   203,  6302,  1024,   509,
         57170,    22,     1,     1,     1,     1,     1,     1,     1,     1,
             1],
        [  247,     9,  2448, 69387,  3000, 11227,     2,  2565,   463, 17930,
         27366,  1735, 12981,     1,     1,     1,     1,     1,     1,     1,
             1],
        [ 3051,    40,  6563, 16309,    13, 18391,   143,    92,  2605,  5104,
           477,    54,     1,     1,     1,     1,     1,     1,     1,     1,
             1],
        [ 1275,   392,  7925,  2858, 35808,     2,  1912,   196,  2530, 61561,
             1,     1,     1,     1,     1,     1,     1,     1,     1,     1,
             1],
        [   20,  1429,    95,    24,  1635, 27190,     2,  7978,   137,    69,
         34417,     1,     1,     1,     1,     1,     1,     1,     1,     1,
             1],
        [  650,   118,  7415,  1306,     2,   433,  3870,  3002,   633, 11879,
             0,    22,     1,     1,     1,     1,     1,     1,     1,     1,
             1],
        [  367,  3102,  5235,  2303,   853,     2,  2566,    36,  2552,   713,
         14612,     2,    31,    41,  2043,    74, 40140,     1,     1,     1,
             1],
        [ 2616, 45481,   745,  1621,   113,  4618,   209,  6496,     1,     1,
             1,     1,     1,     1,     1,     1,     1,     1,     1,     1,
             1],
        [   15,     0,    16,   383,  1153, 25143,     2,  6092,   492,  2838,
             4,     6,     5,     1,     1,     1,     1,     1,     1,     1,
             1],
        [27693,    28,    78,   406,     3,  4320,  2033,  1664,  3310,  5000,
             1,     1,     1,     1,     1,     1,     1,     1,     1,     1,
             1],
        [  302,   435,    12, 89376,   726,     2, 42645, 45168,     1,     1,
             1,     1,     1,     1,     1,     1,     1,     1,     1,     1,
             1],
        [  115,   514,     3,  4212,  2595,  3318,  4240,  4100,     1,     1,
             1,     1,     1,     1,     1,     1,     1,     1,     1,     1,
             1],
        [ 6300, 56493, 10786,     2,  4245,    29,   120,  1979,   188,   112,
             1,     1,     1,     1,     1,     1,     1,     1,     1,     1,
             1],
        [ 8814, 18649, 17074,    48,    12,   792, 78330,   726,     1,     1,
             1,     1,     1,     1,     1,     1,     1,     1,     1,     1,
             1],
        [  541,  1264,   221,     2,  1966,     2, 11420,   664,  9616,    22,
             1,     1,     1,     1,     1,     1,     1,     1,     1,     1,
             1],
        [   95, 17075, 11990, 56400,     3,   305,  7932, 17075,  2411, 13298,
          2838,     1,     1,     1,     1,     1,     1,     1,     1,     1,
             1],
        [ 1965,  3342,     3,   338,  2459,    20, 38637, 17655,     1,     1,
             1,     1,     1,     1,     1,     1,     1,     1,     1,     1,
             1]])
************************************************************
tensor([0, 3, 5, 3, 6, 5, 4, 1, 4, 6, 1, 5, 3, 5, 7, 4, 7, 1, 2, 8, 4, 7, 0, 9,
        1, 4, 3, 4, 8, 4, 7, 2])

构建词向量

https://github.com/Embedding/Chinese-Word-Vectors

词向量可视化

首先，我们了解下词向量，为方便大家了解词向量用途，我们通过可视化的方式给大家展示

gensim工具加载词向量模型

import gensim
from gensim.models import KeyedVectors
import warnings
warnings.filterwarnings('ignore')
sogou_word_model = KeyedVectors.load_word2vec_format('data/news/sgns.sogou.char',binary=False)

number_words = len(sogou_word_model.vocab)
print('number_words= ',number_words)
items = sogou_word_model.vocab.items()

number_words=  365076

词向量应用

我们看下词向量可以做些什么

获取某个词的相关词
获取某个词的向量，实现了文本的向量化表示

sogou_word_model.most_similar('北京大学')

[('北大', 0.6751739978790283),
 ('中国北京大学', 0.6405676603317261),
 ('北京大学经济系', 0.6353614330291748),
 ('北京大学化学系', 0.6258565187454224),
 ('北京大学经济学院', 0.6239113211631775),
 ('清华大学', 0.623389720916748),
 ('北京大学数学系', 0.6190596222877502),
 ('北京联合大学', 0.6075736880302429),
 ('北京大学国家发展研究院', 0.6050190329551697),
 ('北京大学社会学系', 0.6039434671401978)]

词向量转换可视化表示

这里大家可以把number_words设置更多的数据，这样可以展示更多的内容。为了演示，我们这里获取1000条

"""
Convert word2vec models to JSON database by cosine distance metric
"""
import json
# Name of output file
with open('custom_cosine_simialrity.json', 'w') as f:
    # number_words = len(model.vocab) # 考虑数据量大，这里我们取10000个词展示效果，了解
    number_words = 1000
    dic = {
     }
    for i in range(0, number_words):
        if i%100==0:
            print(i)
        stringA = list(items)[i][0]
        dic[stringA] = []
        nearest_words = sogou_word_model.most_similar(positive=[stringA], negative=[], topn=20)
        number_nearest_words = len(nearest_words)

        for j in range(0, number_nearest_words):
            dic[stringA].append({
     
                'w' : nearest_words[j][0],
                'd' : str(round(nearest_words[j][1], 3))
            })
    json.dump(dic, f, ensure_ascii=False, indent=4)
print("Finished!")

我们把custom_cosine_simialrity.json 拷贝到可视化项目展示下

word2vec-visualization/frontend/data/custom_cosine_simialrity.json

然后，我们启动服务 python -m http.server 8081，然后可以通过浏览器进行访问了

http://127.0.0.1:8081/

构建领域的词向量

原始数据-> 字典(word2index)-> 结合外部的词向量给我们的每个word 对应的一个向量结果，然后保存起来

from tqdm import tqdm

ROOT_PATH = 'data/news/'
# 提取预训练词向量
emb_dim = 300
pretrain_dir = ROOT_PATH + 'sgns.sogou.char'
filename_trimmed_dir = ROOT_PATH + 'embedding_SougouNews'

# 随机初始化词向量矩阵
print("vocab_size = ", vocab_size)
print('emb_dim = ', emb_dim)
print('pretrain_dir = ',pretrain_dir)
print('filename_trimmed_dir = ',filename_trimmed_dir)
embeddings = np.random.rand(vocab_size, emb_dim)
print("embeddings shape=", embeddings.shape)

word_embedding = []
# 构建领域词向量
with open(pretrain_dir, 'r', encoding='utf-8') as f:
    for i, line in enumerate(tqdm(f)):
        if i == 0:  # 若第一行是标题，则跳过
            continue
        splits = line.strip().split(" ")
        word = splits[0]
        if word in dict_word2index:
            idx = dict_word2index[word] # 词对应index
            feat = splits[1:] # 预训练 词 embedding的数据
            emb = [float(x) for x in feat]
            
            # 
            embeddings[idx] = np.asarray(emb,dtype='float32')
            
            
            # 
            word_embedding.append( "{} {}".format(word,feat))
print('final embeddings = ',embeddings.shape)
# 保存 词典中每个单词的向量  <单词_idx,向量>
np.savez_compressed(filename_trimmed_dir, embeddings=embeddings)

vocab_size =  100002
emb_dim =  300
pretrain_dir =  data/news/sgns.sogou.char
filename_trimmed_dir =  data/news/embedding_SougouNews


1238it [00:00, 6036.30it/s]

embeddings shape= (100002, 300)


365077it [00:20, 17690.22it/s]


final embeddings =  (100002, 300)

词向量验证

embedding_npz = np.load('data/news/embedding_SougouNews.npz')
print(embedding_npz['embeddings'].shape)
embedding_npz['embeddings']

(100002, 300)





array([[ 0.86068087,  0.88799588,  0.32389122, ...,  0.57952255,
         0.40938491,  0.34478832],
       [ 0.30103572,  0.9029473 ,  0.83626528, ...,  0.7544311 ,
         0.0582625 ,  0.88511525],
       [ 0.78581959,  0.33171605,  0.33091543, ...,  0.96064628,
         0.6581095 ,  0.51953195],
       ...,
       [-0.67065603,  0.18955401,  0.29267699, ...,  0.007438  ,
        -0.50046903, -0.603239  ],
       [ 0.27142355,  0.29432985,  0.16363384, ...,  0.42247807,
         0.19791253,  0.56313068],
       [ 0.99596462,  0.92187184,  0.53073177, ...,  0.78373915,
         0.0539841 ,  0.77132351]])

模型训练

模型结构

from importlib import import_module  

embedding = 'random'  
model_name = 'TextCNN'
num_epochs = 1        
dataset = 'data/news/'

x = import_module("models." + model_name)
config = x.Config(dataset,embedding)


model = x.Model(config)                            
model.to(config.device)  # 模型运行设备（cuda／cpu）        

print(model)

rando init embedding
Model(
  (embedding): Embedding(100002, 300)
  (convs): ModuleList(
    (0): Sequential(
      (0): Conv1d(300, 256, kernel_size=(3,), stride=(1,))
      (1): ReLU()
      (2): MaxPool1d(kernel_size=19, stride=19, padding=0, dilation=1, ceil_mode=False)
    )
    (1): Sequential(
      (0): Conv1d(300, 256, kernel_size=(4,), stride=(1,))
      (1): ReLU()
      (2): MaxPool1d(kernel_size=18, stride=18, padding=0, dilation=1, ceil_mode=False)
    )
    (2): Sequential(
      (0): Conv1d(300, 256, kernel_size=(5,), stride=(1,))
      (1): ReLU()
      (2): MaxPool1d(kernel_size=17, stride=17, padding=0, dilation=1, ceil_mode=False)
    )
  )
  (fc): Linear(in_features=768, out_features=10, bias=True)
)

训练方法定义

import torch
import torch.nn.functional as F
for i ,(feats,labels) in enumerate(train_loader):
    
    feats = feats.to(config.device)
    labels = labels.to(config.device)
    
    print('feats = ',feats.shape)
    print('labels = ',labels.shape)
    outputs = model(feats)
    print('outputs = ',outputs.shape)
    
    # < outputs,labels> -> CrossEntropy(outputs,labels)-> loss
    embed_x = model.embedding(feats)
    
    embed_x = embed_x.permute(0,2,1)
    
    
    
    print(embed_x.shape)
    
    
    out = [ conv(embed_x)  for conv in model.convs ]
    
    
    out = torch.cat(out,dim=1)
    print(out.shape)
    out = out.view(-1,out.size(1))
    print(out.shape)
    
    out = F.dropout(input = out,p = model.dropout)
    print(out.shape)
    
    
    out = model.fc( out )
    print(out.shape)
    break

feats =  torch.Size([32, 21])
labels =  torch.Size([32])
outputs =  torch.Size([32, 10])
torch.Size([32, 300, 21])
torch.Size([32, 768, 1])
torch.Size([32, 768])
torch.Size([32, 768])
torch.Size([32, 10])

# -*- coding: UTF-8 -*-
import pickle
from collections import OrderedDict
from importlib import import_module

import jieba
# 导入模型训练和评估模块
import torch
from flask import Flask, render_template
from flask import request

from data_processing import build_dataset_online
from json_utils import jsonify
from utils import load_config

# 导入模型训练和评估模块
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
app = Flask(__name__)

d_config = load_config('config_file')
print('d_config = ', d_config)
max_seq_len = d_config['vocab_size']
class_list = d_config['class_list']
print('class_list = ', class_list)
print('max_seq_len = ', max_seq_len)

# 加载词表文件
with open(d_config['vocab_file'], "rb") as f:
    dict_word2index = pickle.load(f)

d_config =  {'data_path': 'data/news/data.txt', 'vocab_file': 'data/news/word2index.pkl', 'model_name': 'TextCNN', 'learning_rate': 0.001, 'batch_size': 256, 'embedding_size': 300, 'num_classes': 10, 'dropout': 0.5, 'num_filters': 256, 'max_vocab_size': 100000, 'min_freq': 1, 'log_path': 'data/news/ckpts/TextCNN', 'ckpt_path': 'data/news/ckpts/TextCNN.ckpt', 'vocab_size': 100002, 'max_seq_len': 21, 'class_list': ['财经', '房产', '股票', '教育', '科技', '社会', '时政', '体育', '游戏', '娱乐']}
class_list =  ['财经', '房产', '股票', '教育', '科技', '社会', '时政', '体育', '游戏', '娱乐']
max_seq_len =  100002

def load_model():
    """
    初始化cnn 网络 ，这里我们 仅支持  外部词向量 ＋ 分词模式下的预测
    其他的模型方式： 大家尝试自己学更改

    :return:
    """
    embedding = 'embedding_SougouNews.npz'
    model_name = "TextCNN"
    dataset = "data/news/"
    m_file = import_module("models." + model_name)
    config = m_file.Config(dataset, embedding)

    # 模型训练
    model = m_file.Model(config).to(device)
    model.load_state_dict(torch.load(config.save_path, map_location='cpu'))
    model.eval()
    return model
# 加载cnn 模型以及配置信息
model = load_model()
word = True
if word:
    tokenizer = lambda x: jieba.lcut(x)  # 中文我们按照切词处理
else:
    tokenizer = lambda x: [y for y in x]

tokenizer = lambda x: jieba.lcut(x)

pre_trained init embedding

model

Model(
  (embedding): Embedding(100002, 300)
  (convs): ModuleList(
    (0): Sequential(
      (0): Conv1d(300, 256, kernel_size=(2,), stride=(1,))
      (1): ReLU()
      (2): MaxPool1d(kernel_size=20, stride=20, padding=0, dilation=1, ceil_mode=False)
    )
    (1): Sequential(
      (0): Conv1d(300, 256, kernel_size=(3,), stride=(1,))
      (1): ReLU()
      (2): MaxPool1d(kernel_size=19, stride=19, padding=0, dilation=1, ceil_mode=False)
    )
    (2): Sequential(
      (0): Conv1d(300, 256, kernel_size=(4,), stride=(1,))
      (1): ReLU()
      (2): MaxPool1d(kernel_size=18, stride=18, padding=0, dilation=1, ceil_mode=False)
    )
  )
  (fc): Linear(in_features=768, out_features=10, bias=True)
)

更多关于TextCNN 短文本分类详细案例：可以入群交流学习。
访问博客首页交流群或者私信留言。多谢

你可能感兴趣的:(自然语言处理,NLP,TextCNN,文本分类)

《神经网络与深度学习》(邱锡鹏) 内容概要【不含数学推导】 code_stream #机器学习神经网络
第1章绪论基本概念：介绍了人工智能的发展历程及不同阶段的特点，如符号主义、连接主义、行为主义等。还阐述了深度学习在人工智能领域的重要地位和发展现状，以及其在图像、语音、自然语言处理等多个领域的成功应用。术语解释人工智能：旨在让机器模拟人类智能的技术和科学。深度学习：一种基于对数据进行表征学习的方法，通过构建具有很多层的神经网络模型，自动从大量数据中学习复杂的模式和特征。第2章机器学习概述基本概念：
Python中的 redis keyspace 通知_python 操作redis psubscribe(‘__keyspace@0__ ‘) 2301_82243733 程序员 python 学习面试
最后Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习Python门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的Pytho
知识图谱的作用及其更新方式甜瓜瓜哥面试人工智能知识图谱人工智能
知识图谱的作用及其更新方式简介作用1.语义理解和推理2.信息检索3.推荐系统4.自然语言处理5.智能对话系统更新知识图谱的过程1.数据收集2.数据清洗和处理3.知识抽取4.知识融合5.验证和评估6.部署和应用总结简介知识图谱是一种以图形结构表示知识的方法，它包含了实体（如人物、地点、事物）以及它们之间的关系。知识图谱可以用于帮助计算机理解和处理自然语言，进行信息检索，进行推荐系统等多种应用。作用1
机器学习·文本数据读写处理 AAA顶置摸鱼 python 深度学习机器学习人工智能数据处理
前言在自然语言处理的第一步，需要面对的是各种各样以不同形式表现的文本数据，比如，txt、Excel中的表格数据，还有无法直接打开的pkl文件等。针对这些不同类型的数据，可以基于Python中的基本功能函数或者调用某些库进行读写以及作一些基本的处理。一、文本数据读写方法1.读写TXT文件读取方法：read()：读取整个文件，返回字符串。readline()：逐行读取，返回字符串。readlines(
AI编剧系统深度解析：从算法架构到影视工业化应用实战 Coderabo DeepSeek R1模型企业级应用人工智能算法
媒体娱乐行业革命：AI编剧创意辅助系统架构解析与实战应用一、行业背景与技术架构在流媒体内容需求激增的当下，传统编剧模式面临产能瓶颈。AI编剧创意辅助系统通过自然语言处理（NLP）、生成对抗网络（GAN）和知识图谱技术，构建了包含剧本生成、情节优化、角色塑造等模块的智能创作平台。核心架构分为：知识图谱层：整合影视剧本数据库（IMSDb）、维基百科等结构化数据NLP处理层：基于Transformer的
基于Python的搜索引擎的设计与实现 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据 java python javascript kotlin golang 架构人工智能
搜索引擎,Python,爬虫,自然语言处理,信息检索,索引,算法,数据库1.背景介绍在信息爆炸的时代，海量数据无处不在，高效地获取所需信息变得至关重要。搜索引擎作为信息获取的桥梁，扮演着不可或缺的角色。传统的搜索引擎往往依赖于庞大的服务器集群和复杂的算法，对资源消耗较大，且难以满足个性化搜索需求。基于Python的搜索引擎设计，则凭借Python语言的易学易用、丰富的第三方库和强大的社区支持，为开
【拥抱AI】如何实现AI外呼通话，并与客户达成确认奔跑草- 人工智能人工智能
实现AI外呼通话并与客户达成确认涉及多个技术组件和步骤。以下是一个基本的流程和技术方案，仅供参考。1.技术选型与准备主要技术组件语音识别（ASR）：将客户的语音转换为文本。自然语言处理（NLP）：理解和生成自然语言对话。语音合成（TTS）：将文本转换为客户可以听到的语音。呼叫平台/API：用于发起和管理电话呼叫。数据库：存储客户信息、通话记录等数据。业务逻辑层：处理对话管理和决策逻辑。2.系统架构
探索Vearch：高效的深度学习向量相似度搜索系统 scaFHIO 深度学习人工智能 python
Vearch是一个可扩展的分布式系统，用于高效搜索深度学习向量的相似度。在本文中，我们将介绍Vearch的技术背景及其核心原理，演示如何使用VearchPythonSDK进行安装和设置，并分析一些实际应用场景，最后提供一些实战建议。技术背景介绍随着深度学习技术的发展，向量相似度搜索在各类应用中变得越来越重要。从图像识别、推荐系统到自然语言处理，向量搜索可以极大地提升系统的性能。然而，随着数据量的增
华为的云端训练算力与迭代效率 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
华为云、云端训练、算力、迭代效率、人工智能、深度学习、模型训练、分布式训练、优化算法1.背景介绍人工智能（AI）技术近年来发展迅速，深度学习作为其核心驱动力，在图像识别、自然语言处理、语音识别等领域取得了突破性进展。然而，深度学习模型的训练需要海量数据和强大的计算资源，这成为AI技术发展面临的瓶颈之一。云计算作为一种新型的计算模式，为深度学习提供了强大的算力支持。华为云作为国内领先的云计算平台，在
AI外呼机器人：营销新利器还是骚扰电话的升级版？ yoloGina 客户管理外呼系统电话外呼人工智能机器人
"您好，这里是XX房产，最近有购房需求吗？""您好，您最近有种牙需求吗？"相信很多人都接到过类似的营销电话，而电话那头，很可能已经不是真人，而是AI外呼机器人。近年来，AI外呼系统凭借其高效率、低成本的优势，迅速在电销行业普及，成为企业营销的"新宠"。据统计，2022年中国AI外呼市场规模已达50亿元，预计2025年将突破100亿元。AI外呼系统的核心技术是语音识别和自然语言处理。通过深度学习海量
使用Cohere进行文本生成: 从安装到实战 shuoac python 开发语言
Cohere是一家加拿大初创公司，提供自然语言处理模型，帮助企业提升人机交互体验。本文将详细介绍如何使用Cohere进行文本生成，包括环境配置、核心原理、代码演示和实际应用场景分析。1.技术背景介绍随着自然语言处理技术的快速发展，基于大模型的文本生成应用在各行各业中展现出了巨大的潜力。Cohere提供了高效、易用的API，使得开发者能够快速集成高质量的文本生成能力。本文将带你一步步实现这些功能。2
【深度学习pytorch-93】Transformer 相比 RNN 的优势华东算法王 DL-pytorch 深度学习 pytorch transformer
Transformer相比RNN的优势Transformer和RNN（循环神经网络）都是自然语言处理（NLP）领域的重要架构，但它们的工作原理和应用方式有很大不同。Transformer由于其独特的结构和机制，在多个方面优于RNN。以下是Transformer相比RNN的主要优势：1.并行计算能力RNN的局限性RNN是按顺序处理输入的，即每个时间步的输出都依赖于前一个时间步的输出。这意味着，在训练
深度学习模型中的知识蒸馏是如何工作的? c++服务器开发深度学习人工智能
深度学习模型在多个领域，特别是计算机视觉和自然语言处理中，已经取得了革命性的进展。然而，随着模型复杂性和资源需求的不断攀升，如何将这些庞大模型的知识浓缩为更紧凑、更高效的形式，成为了当前研究的热点。知识蒸馏，作为一种将知识从复杂模型转移到更简单模型的策略，已经成为实现这一目标的有效工具。在本文中，我们将深入探究深度学习模型中知识蒸馏的概念、原理及其在各领域的应用，以期为读者提供一个全面而严谨的视角
《深入浅出AI》前言知识：深度学习基础总结 GoAI 深入浅出AI 人工智能深度学习机器学习 cnn rnn 生成对抗网络神经网络
个人主页:GoAI|公众号:GoAI的学习小屋|交流群:704932595|个人简介：掘金签约作者、百度飞桨PPDE、领航团团长、开源特训营导师、CSDN、阿里云社区人工智能领域博客专家、新星计划计算机视觉方向导师等，专注大数据与人工智能知识分享。AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成
怎么使用DeepSeek？DeepSeek使用教程轻创思维网络
1.简介DeepSeek是一款基于人工智能技术的智能搜索引擎和信息检索工具。它能够通过自然语言处理技术理解用户的查询需求，并提供精准、全面的搜索结果。无论您是想查找信息、解答问题还是进行创意写作，DeepSeek都能为您提供高效的支持。2.主要功能智能搜索：支持自然语言输入，快速获取精准结果。多语言支持：支持中文、英文及其他多种语言的输入和输出。知识库覆盖：整合海量互联网信息，覆盖百科、新闻、学术
自然语言处理NLP 01语言转换&语言模型伊一大数据&人工智能学习日志自然语言处理自然语言处理人工智能语言模型 nlp 机器学习深度学习
目录语言转化方式1.数据预处理（DataPreprocessing）(1)文本清理(2)分词(3)语言特殊处理2.特征提取（FeatureExtraction）(1)词袋模型（BagofWords,BoW）(2)TF-IDF(3)词嵌入（WordEmbedding）3.模型输入（ModelInput）(1)序列编码(2)预训练模型输入4.模型推理（ModelInference）(1)使用传统模型(
DeepSeek底层揭秘——多跳推理 9命怪猫 AI 人工智能大模型深度学习 ai 神经网络
1.多跳推理(1)定义多跳推理（Multi-hopReasoning）是一种复杂的推理技术，指模型在回答问题或解决任务时，需要跨越多个信息片段或知识点，逐步推导出最终答案，而不是直接从单一信息源中获取结果。每一次跨越称为一个“跳跃”（hop），多跳推理通常需要模型具备逻辑推理能力、上下文理解能力以及信息整合能力。例如，在自然语言处理（NLP）中，多跳推理任务可能需要模型从多个段落中提取相关信息，并
基于 HanLP 的句子结构分析与关系抽取梦落青云知识图谱 java HanLP
一、引言自然语言处理（NLP）是人工智能领域的重要分支，旨在让计算机理解和处理人类语言。句子结构分析和关系抽取是NLP中的关键任务，它们可以帮助我们理解句子的语法结构和语义关系。HanLP是一款功能强大的中文自然语言处理工具包，提供了丰富的功能，包括分词、词性标注、依存句法分析等。本文将介绍如何使用HanLP进行句子结构分析与关系抽取。二、HanLP简介HanLP是由汉语言技术实验室开发的开源中文
本地部署Deepseek：从零开始，打造你的私人AI助手！软件求生 #工作建议架构微服务云原生 java 开发语言
大家好，我是小米，一个31岁、热爱技术的“技术宅”。今天我要和大家分享一个超级酷炫的技术——本地部署Deepseek！如果你对AI感兴趣，或者想拥有一个属于自己的私人AI助手，那这篇文章绝对不容错过！Deepseek是什么？在开始之前，我们先来聊聊Deepseek到底是什么。简单来说，Deepseek是一个基于深度学习的AI模型，它可以帮助你完成各种任务，比如自然语言处理、图像识别、数据分析等等。
AI人工智能代理工作流AI Agent WorkFlow：自然语言处理在工作流中的应用 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能代理工作流AIAgentWorkFlow：自然语言处理在工作流中的应用关键词：AI代理工作流管理自然语言处理业务流程自动化交互式AI助手1.背景介绍1.1问题的由来随着数字化转型的深入，企业对提高运营效率的需求日益迫切。传统的业务流程处理方式，如手工操作、邮件交流等，既耗费时间又容易出错。为了解决这些问题，企业开始探索利用自动化技术来提高业务流程的效率和准确性。自然语言处理（NLP）技
《大模型应用开发极简入门》随记 hoypte 人工智能
术语：自然语言处理（NLP)人工智能（AI）大预言模型（LLM）机器学习（ML)深度学习（DL)内容LLM概述ML算法被称为人工神经网络DL是ML的一个分支最先开始简单语言模型吗，例如：n-gram模型（通过词频来根据前面的词预测句子里下一个词---可能生成不连贯的词），为了提升性能引入循环神经网络（RNN）和长短期记忆（LSTM）网络---处理大量数据效率还是不行。Transformer架构架构
Python库 - transformers 司南锤 PYTHON库 python机器学习 python 开发语言
transformers库是由HuggingFace开发的一个非常流行的Python库，用于自然语言处理（NLP）任务。它提供了大量的预训练模型，这些模型可以用于各种NLP任务，如文本分类、问答、翻译、摘要生成等。以下是关于transformers库的详细介绍：1.主要特点预训练模型：transformers库包含了多种预训练的语言模型，如BERT、GPT、T5、XLNet等。这些模型在大规模文本
【NLP-04】tranformers库保姆级使用教程---以BERT模型为例云天徽上 NLP bert 人工智能深度学习自然语言处理机器学习 numpy 信息可视化
安装要安装一个非常轻量级的Transformers库，您可以执行以下步骤：1、打开终端或命令提示符。2、运行以下命令来安装Transformers库：pipinstalltransformers这将使用pip工具从PythonPackageIndex（PyPI）下载并安装Transformers库。请确保您的计算机上已经安装了pip。然后，您可以在Python代码中导入Transformers库：
使用PGVecto.rs在Postgres中进行向量数据库操作 dgay_hua 数据库 python
使用PGVecto.rs在Postgres中进行向量数据库操作技术背景介绍向量数据库是一种用于存储和检索高维向量数据的数据库，非常适合应用于自然语言处理、推荐系统等领域。在这篇文章中，我们将介绍如何使用PGVecto.rs在Postgres中进行向量数据库操作。核心原理解析PGVecto.rs是基于Postgres的向量数据库实现，可以轻松地实现向量的存储和高效检索。它通过Postgres的扩展实
【Python】成功解决NameError: name ‘XXX’ is not defined 云天徽上 python运行报错解决记录 python 开发语言 pandas 机器学习 numpy
【Python】成功解决NameError:name‘XXX’isnotdefined欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是云天徽上，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够
LangChain大模型应用开发：工作流编排梦丶晓羽 langchain python 自然语言处理人工智能
介绍大家好，博主又来给大家分享知识了，那么今天又给大家分享什么内容呢？今天我要给大家分享的内容是LangChain工作流编排。那么什么是LangChain工作流编排呢？简单来说，LangChain工作流编排就是将多个与自然语言处理相关的组件，像提示模板、大语言模型、各种实用工具等巧妙地组合在一起，形成一个有条理、可执行的流程。LangChain提供了多种方式来实现这种编排，其中很有特色的就是链式调
DeepSeek-R1驱动下一代AIGC安全：全面解析智能内容合规审查技术体系与实战案例 Coderabo DeepSeek R1模型企业级应用 AIGC 安全
DeepSeek-R1赋能AIGC内容合规审查：技术实践与案例解析一、AIGC内容合规审查技术架构（此处展开约1500字的技术原理说明，涵盖深度学习模型、规则引擎、多模态检测等核心组件）二、核心实施步骤与代码实现1.文本内容预处理模块importrefromdeepseek_nlpimportTextCleanerdeftext_preprocessing(text):#特殊字符过滤cleaner
DeepSeek模型实战：从理论到应用的深度探索 CodeJourney. 人工智能算法数据库
一、引言在人工智能快速发展的当下，大型语言模型已成为自然语言处理领域的核心力量。DeepSeek模型作为其中的佼佼者，凭借其先进的架构和强大的性能，吸引了众多开发者和研究人员的关注。本文将深入探讨DeepSeek模型的技术原理，并通过实际案例展示其在不同场景下的应用，为读者提供从理论到实践的全面指导。二、DeepSeek模型技术剖析（一）架构基础DeepSeek模型基于Transformer架构构
DeepSeek 的创新融合：多行业应用实践探索 ♡喜欢做梦人工智能 deepseek
引言在数字化转型的浪潮中，技术的融合与创新成为推动各行业发展的关键力量。蓝耘平台作为行业内备受瞩目的创新平台，以其强大的资源整合能力和灵活的架构，为企业提供了高效的服务支持。而DeepSeek凭借先进的人工智能技术，在自然语言处理、数据分析等领域展现出卓越的性能。当蓝耘平台与DeepSeek携手，二者的优势互补为多行业解决方案带来了全新的应用实践方向，为企业解决复杂业务问题、提升运营效率提供了强大
【DeepSeek】DeepSeek 如何应用于政务系统？深度求索者政务
DeepSeek作为一款高性能、低成本的AI大模型，近期在政务系统中得到了广泛应用，其技术能力和场景适配性正在推动数字政府的智能化转型。以下从应用场景、技术支撑、实际成效及未来方向等方面进行深度解析：一、核心应用场景智能公文处理政策解读与文件起草：DeepSeek基于自然语言处理（NLP）技术，可自动生成公文初稿，结合政务语境提取关键信息，生成拟办意见。例如，深圳市龙岗区的公文校对时间从人工5分钟
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1