sevieryang

Python中实现文本分类（附代码、数据集）

本文将详细介绍文本分类问题并用Python实现这个过程。

引言

文本分类是商业问题中常见的自然语言处理任务，目标是自动将文本文件分到一个或多个已定义好的类别中。文本分类的一些例子如下：

分析社交媒体中的大众情感
鉴别垃圾邮件和非垃圾邮件
自动标注客户问询
将新闻文章按主题分类

本文将详细介绍文本分类问题并用Python实现这个过程：

文本分类是有监督学习的一个例子，它使用包含文本文档和标签的数据集来训练一个分类器。端到端的文本分类训练主要由三个部分组成：

1. 准备数据集：第一步是准备数据集，包括加载数据集和执行基本预处理，然后把数据集分为训练集和验证集。

特征工程：第二步是特征工程，将原始数据集被转换为用于训练机器学习模型的平坦特征（flat features），并从现有数据特征创建新的特征。

2. 模型训练：最后一步是建模，利用标注数据集训练机器学习模型。

3. 进一步提高分类器性能：本文还将讨论用不同的方法来提高文本分类器的性能。

注意：本文不深入讲述NLP任务，如果你想先复习下基础知识，可以通过这篇文章
https://www. analyticsvidhya.com/blo g/2017/01/ultimate-guide-to-understand-implement-natural-language-processing-codes-in-python/

准备好你的机器

先安装基本组件，创建Python的文本分类框架。首先导入所有所需的库。如果你没有安装这些库，可以通过以下官方链接来安装它们。

Pandas:https://pandas.pydata.org/pandas-docs/stable/install.html
Scikit-learn:http://scikit-learn.org/stable/install.html
XGBoost:http://xgboost.readthedocs.io/en/latest/build.html
TextBlob:http://textblob.readthedocs.io/en/dev/install.html
Keras:https://keras.io/#installation


     
     
     
     
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         #导入数据集预处理、特征工程和模型训练所需的库
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         from sklearn 
         
         
         
         import model_selection, preprocessing, linear_model, naive_bayes, metrics, svm
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         from sklearn.feature_extraction.text 
         
         
         
         import TfidfVectorizer, CountVectorizer
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         from sklearn 
         
         
         
         import decomposition, ensemble
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
         
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         import pandas, xgboost, numpy, textblob, string
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         from keras.preprocessing 
         
         
         
         import text, sequence
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         from keras 
         
         
         
         import layers, models, optimizers

一、准备数据集

在本文中，我使用亚马逊的评论数据集，它可以从这个链接下载：

https:// gist.github.com/kunalj1 01/ad1d9c58d338e20d09ff26bcc06c4235

这个数据集包含3.6M的文本评论内容及其标签，我们只使用其中一小部分数据。首先，将下载的数据加载到包含两个列（文本和标签）的pandas的数据结构（dataframe）中。

数据集链接：

https:// drive.google.com/drive/ folders/0Bz8a_Dbh9Qhbfll6bVpmNUtUcFdjYmF2SEpmZUZUcVNiMUw1TWN6RDV3a0JHT3kxLVhVR2M


     
     
     
     
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         #加载数据集
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         data = open(
         
         
         
         'data/corpus').read()
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         labels, texts = [], []
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         for i, line 
         
         
         
         in enumerate(data.split(
         
         
         
         "\n")):
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         content = line.split()
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         labels.append(content[
         
         
         
         0])
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         texts.append(content[
         
         
         
         1])
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
         
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         #创建一个dataframe，列名为text和label
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         trainDF = pandas.DataFrame()
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         trainDF[
         
         
         
         'text'] = texts
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         trainDF[
         
         
         
         'label'] = labels

接下来，我们将数据集分为训练集和验证集，这样我们可以训练和测试分类器。另外，我们将编码我们的目标列，以便它可以在机器学习模型中使用:


     
     
     
     
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         #将数据集分为训练集和验证集
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         train_x, valid_x, train_y, valid_y = model_selection.train_test_split(trainDF[
         
         
         
         'text'], trainDF[
         
         
         
         'label'])
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
         
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         # label编码为目标变量
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         encoder = preprocessing.LabelEncoder()
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         train_y = encoder.fit_transform(train_y)
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         valid_y = encoder.fit_transform(valid_y)

二、特征工程

接下来是特征工程，在这一步，原始数据将被转换为特征向量，另外也会根据现有的数据创建新的特征。为了从数据集中选出重要的特征，有以下几种方式：

计数向量作为特征
TF-IDF向量作为特征
- 单个词语级别
- 多个词语级别（N-Gram）
- 词性级别
词嵌入作为特征
基于文本/NLP的特征
主题模型作为特征

接下来分别看看它们如何实现：

2.1 计数向量作为特征

计数向量是数据集的矩阵表示，其中每行代表来自语料库的文档，每列表示来自语料库的术语，并且每个单元格表示特定文档中特定术语的频率计数：


     
     
     
     
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         #创建一个向量计数器对象
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         count_vect = CountVectorizer(analyzer=
         
         
         
         'word', token_pattern=
         
         
         
         r'\w{1,}')
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         count_vect.fit(trainDF[
         
         
         
         'text'])
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
         
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         #使用向量计数器对象转换训练集和验证集
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         xtrain_count =  count_vect.transform(train_x)
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         xvalid_count =  count_vect.transform(valid_x)

2.2 TF-IDF向量作为特征

TF-IDF的分数代表了词语在文档和整个语料库中的相对重要性。TF-IDF分数由两部分组成：第一部分是计算标准的词语频率（TF），第二部分是逆文档频率（IDF）。其中计算语料库中文档总数除以含有该词语的文档数量，然后再取对数就是逆文档频率。

TF(t)=（该词语在文档出现的次数）/（文档中词语的总数）

IDF(t)= log_e（文档总数/出现该词语的文档总数）

TF-IDF向量可以由不同级别的分词产生（单个词语，词性，多个词（n-grams））

词语级别TF-IDF：矩阵代表了每个词语在不同文档中的TF-IDF分数。
N-gram级别TF-IDF: N-grams是多个词语在一起的组合，这个矩阵代表了N-grams的TF-IDF分数。
词性级别TF-IDF：矩阵代表了语料中多个词性的TF-IDF分数。


       
       
       
       
        
        
        
        
         
         
         
         
          
          
          
          
         
         
         
         
         
         
         
         
          
          
          
          
           
           
           
           #词语级tf-idf
          
          
          
          
         
         
         
         
        
        
        
        
         
         
         
         
          
          
          
          
         
         
         
         
         
         
         
         
          
          
          
          
           
           
           
           tfidf_vect = TfidfVectorizer(analyzer=
           
           
           
           'word', token_pattern=
           
           
           
           r'\w{1,}', max_features=
           
           
           
           5000)
          
          
          
          
         
         
         
         
        
        
        
        
         
         
         
         
          
          
          
          
         
         
         
         
         
         
         
         
          
          
          
          
           
           
           
           tfidf_vect.fit(trainDF[
           
           
           
           'text'])
          
          
          
          
         
         
         
         
        
        
        
        
         
         
         
         
          
          
          
          
         
         
         
         
         
         
         
         
          
          
          
          
           
           
           
           xtrain_tfidf =  tfidf_vect.transform(train_x)
          
          
          
          
         
         
         
         
        
        
        
        
         
         
         
         
          
          
          
          
         
         
         
         
         
         
         
         
          
          
          
          
           
           
           
           xvalid_tfidf =  tfidf_vect.transform(valid_x)
          
          
          
          
         
         
         
         
        
        
        
        
         
         
         
         
          
          
          
          
         
         
         
         
         
         
         
         
          
          
          
           
          
          
          
          
         
         
         
         
        
        
        
        
         
         
         
         
          
          
          
          
         
         
         
         
         
         
         
         
          
          
          
          
           
           
           
           # ngram 级tf-idf
          
          
          
          
         
         
         
         
        
        
        
        
         
         
         
         
          
          
          
          
         
         
         
         
         
         
         
         
          
          
          
          
           
           
           
           tfidf_vect_ngram = TfidfVectorizer(analyzer=
           
           
           
           'word', token_pattern=
           
           
           
           r'\w{1,}', ngram_range=(
           
           
           
           2,
           
           
           
           3), max_features=
           
           
           
           5000)
          
          
          
          
         
         
         
         
        
        
        
        
         
         
         
         
          
          
          
          
         
         
         
         
         
         
         
         
          
          
          
          
           
           
           
           tfidf_vect_ngram.fit(trainDF[
           
           
           
           'text'])
          
          
          
          
         
         
         
         
        
        
        
        
         
         
         
         
          
          
          
          
         
         
         
         
         
         
         
         
          
          
          
          
           
           
           
           xtrain_tfidf_ngram =  tfidf_vect_ngram.transform(train_x)
          
          
          
          
         
         
         
         
        
        
        
        
         
         
         
         
          
          
          
          
         
         
         
         
         
         
         
         
          
          
          
          
           
           
           
           xvalid_tfidf_ngram =  tfidf_vect_ngram.transform(valid_x)
          
          
          
          
         
         
         
         
        
        
        
        
         
         
         
         
          
          
          
          
         
         
         
         
         
         
         
         
          
          
          
           
          
          
          
          
         
         
         
         
        
        
        
        
         
         
         
         
          
          
          
          
         
         
         
         
         
         
         
         
          
          
          
          
           
           
           
           #词性级tf-idf
          
          
          
          
         
         
         
         
        
        
        
        
         
         
         
         
          
          
          
          
         
         
         
         
         
         
         
         
          
          
          
          
           
           
           
           tfidf_vect_ngram_chars = TfidfVectorizer(analyzer=
           
           
           
           'char', token_pattern=
           
           
           
           r'\w{1,}', ngram_range=(
           
           
           
           2,
           
           
           
           3), max_features=
           
           
           
           5000)
          
          
          
          
         
         
         
         
        
        
        
        
         
         
         
         
          
          
          
          
         
         
         
         
         
         
         
         
          
          
          
          
           
           
           
           tfidf_vect_ngram_chars.fit(trainDF[
           
           
           
           'text'])
          
          
          
          
         
         
         
         
        
        
        
        
         
         
         
         
          
          
          
          
         
         
         
         
         
         
         
         
          
          
          
          
           
           
           
           xtrain_tfidf_ngram_chars =  tfidf_vect_ngram_chars.transform(train_x)
          
          
          
          
         
         
         
         
        
        
        
        
         
         
         
         
          
          
          
          
         
         
         
         
         
         
         
         
          
          
          
          
           
           
           
           xvalid_tfidf_ngram_chars =  tfidf_vect_ngram_chars.transform(valid_x)

2.3 词嵌入

词嵌入是使用稠密向量代表词语和文档的一种形式。向量空间中单词的位置是从该单词在文本中的上下文学习到的，词嵌入可以使用输入语料本身训练，也可以使用预先训练好的词嵌入模型生成，词嵌入模型有：Glove, FastText,Word2Vec。它们都可以下载，并用迁移学习的方式使用。想了解更多的词嵌入资料，可以访问：

https://www. analyticsvidhya.com/blo g/2017/06/word-embeddings-count-word2veec/

接下来介绍如何在模型中使用预先训练好的词嵌入模型，主要有四步：

1. 加载预先训练好的词嵌入模型

2. 创建一个分词对象

3. 将文本文档转换为分词序列并填充它们

4. 创建分词和各自嵌入的映射


     
     
     
     
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         #加载预先训练好的词嵌入向量
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         embeddings_index = {}
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         for i, line 
         
         
         
         in enumerate(open(
         
         
         
         'data/wiki-news-300d-1M.vec')):
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         values = line.split()
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         embeddings_index[values[
         
         
         
         0]] = numpy.asarray(values[
         
         
         
         1:], dtype=
         
         
         
         'float32')
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
         
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         #创建一个分词器
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         token = text.Tokenizer()
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         token.fit_on_texts(trainDF[
         
         
         
         'text'])
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         word_index = token.word_index
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
         
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         #将文本转换为分词序列，并填充它们保证得到相同长度的向量
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         train_seq_x = sequence.pad_sequences(token.texts_to_sequences(train_x), maxlen=
         
         
         
         70)
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         valid_seq_x = sequence.pad_sequences(token.texts_to_sequences(valid_x), maxlen=
         
         
         
         70)
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
         
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         #创建分词嵌入映射
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         embedding_matrix = numpy.zeros((len(word_index) + 
         
         
         
         1, 
         
         
         
         300))
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         for word, i 
         
         
         
         in word_index.items():
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         embedding_vector = embeddings_index.get(word)
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         if embedding_vector 
         
         
         
         is 
         
         
         
         not 
         
         
         
         None:
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         embedding_matrix[i] = embedding_vector

2.4 基于文本/NLP的特征

创建许多额外基于文本的特征有时可以提升模型效果。比如下面的例子：

文档的词语计数—文档中词语的总数量
文档的词性计数—文档中词性的总数量
文档的平均字密度--文件中使用的单词的平均长度
完整文章中的标点符号出现次数--文档中标点符号的总数量
整篇文章中的大写次数—文档中大写单词的数量
完整文章中标题出现的次数—文档中适当的主题（标题）的总数量
词性标注的频率分布
- 名词数量
- 动词数量
- 形容词数量
- 副词数量
- 代词数量

这些特征有很强的实验性质，应该具体问题具体分析。


     
     
     
     
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         trainDF[
         
         
         
         'char_count'] = trainDF[
         
         
         
         'text'].apply(len)
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         trainDF[
         
         
         
         'word_count'] = trainDF[
         
         
         
         'text'].apply(
         
         
         
         lambda x: len(x.split()))
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         trainDF[
         
         
         
         'word_density'] = trainDF[
         
         
         
         'char_count'] / (trainDF[
         
         
         
         'word_count']+
         
         
         
         1)
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         trainDF[
         
         
         
         'punctuation_count'] = trainDF[
         
         
         
         'text'].apply(
         
         
         
         lambda x: len(
         
         
         
         "".join(_ 
         
         
         
         for _ 
         
         
         
         in x 
         
         
         
         if _ 
         
         
         
         in string.punctuation)))
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         trainDF[
         
         
         
         'title_word_count'] = trainDF[
         
         
         
         'text'].apply(
         
         
         
         lambda x: len([wrd 
         
         
         
         for wrd 
         
         
         
         in x.split() 
         
         
         
         if wrd.istitle()]))
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         trainDF[
         
         
         
         'upper_case_word_count'] = trainDF[
         
         
         
         'text'].apply(
         
         
         
         lambda x: len([wrd 
         
         
         
         for wrd 
         
         
         
         in x.split() 
         
         
         
         if wrd.isupper()]))
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
         
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         trainDF[
         
         
         
         'char_count'] = trainDF[
         
         
         
         'text'].apply(len)
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         trainDF[
         
         
         
         'word_count'] = trainDF[
         
         
         
         'text'].apply(
         
         
         
         lambda x: len(x.split()))
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         trainDF[
         
         
         
         'word_density'] = trainDF[
         
         
         
         'char_count'] / (trainDF[
         
         
         
         'word_count']+
         
         
         
         1)
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         trainDF[
         
         
         
         'punctuation_count'] = trainDF[
         
         
         
         'text'].apply(
         
         
         
         lambda x: len(
         
         
         
         "".join(_ 
         
         
         
         for _ 
         
         
         
         in x 
         
         
         
         if _ 
         
         
         
         in string.punctuation)))
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         trainDF[
         
         
         
         'title_word_count'] = trainDF[
         
         
         
         'text'].apply(
         
         
         
         lambda x: len([wrd 
         
         
         
         for wrd 
         
         
         
         in x.split() 
         
         
         
         if wrd.istitle()]))
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         trainDF[
         
         
         
         'upper_case_word_count'] = trainDF[
         
         
         
         'text'].apply(
         
         
         
         lambda x: len([wrd 
         
         
         
         for wrd 
         
         
         
         in x.split() 
         
         
         
         if wrd.isupper()]))
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         pos_family = {
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         'noun' : [
         
         
         
         'NN',
         
         
         
         'NNS',
         
         
         
         'NNP',
         
         
         
         'NNPS'],
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         'pron' : [
         
         
         
         'PRP',
         
         
         
         'PRP$',
         
         
         
         'WP',
         
         
         
         'WP$'],
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         'verb' : [
         
         
         
         'VB',
         
         
         
         'VBD',
         
         
         
         'VBG',
         
         
         
         'VBN',
         
         
         
         'VBP',
         
         
         
         'VBZ'],
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         'adj' :  [
         
         
         
         'JJ',
         
         
         
         'JJR',
         
         
         
         'JJS'],
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         'adv' : [
         
         
         
         'RB',
         
         
         
         'RBR',
         
         
         
         'RBS',
         
         
         
         'WRB']
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         }
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
         
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         #检查和获得特定句子中的单词的词性标签数量
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         def check_pos_tag(x, flag):
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         cnt = 
         
         
         
         0
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         try:
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         wiki = textblob.TextBlob(x)
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         for tup 
         
         
         
         in wiki.tags:
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         ppo = list(tup)[
         
         
         
         1]
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         if ppo 
         
         
         
         in pos_family[flag]:
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         cnt += 
         
         
         
         1
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         except:
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         pass
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         return cnt
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
         
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         trainDF[
         
         
         
         'noun_count'] = trainDF[
         
         
         
         'text'].apply(
         
         
         
         lambda x: check_pos_tag(x, 
         
         
         
         'noun'))
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         trainDF[
         
         
         
         'verb_count'] = trainDF[
         
         
         
         'text'].apply(
         
         
         
         lambda x: check_pos_tag(x, 
         
         
         
         'verb'))
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         trainDF[
         
         
         
         'adj_count'] = trainDF[
         
         
         
         'text'].apply(
         
         
         
         lambda x: check_pos_tag(x, 
         
         
         
         'adj'))
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         trainDF[
         
         
         
         'adv_count'] = trainDF[
         
         
         
         'text'].apply(
         
         
         
         lambda x: check_pos_tag(x, 
         
         
         
         'adv'))
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         trainDF[
         
         
         
         'pron_count'] = trainDF[
         
         
         
         'text'].apply(
         
         
         
         lambda x: check_pos_tag(x, 
         
         
         
         'pron'))

2.5 主题模型作为特征

主题模型是从包含重要信息的文档集中识别词组（主题）的技术，我已经使用LDA生成主题模型特征。LDA是一个从固定数量的主题开始的迭代模型，每一个主题代表了词语的分布，每一个文档表示了主题的分布。虽然分词本身没有意义，但是由主题表达出的词语的概率分布可以传达文档思想。如果想了解更多主题模型，请访问：

https://www. analyticsvidhya.com/blo g/2016/08/beginners-guide-to-topic-modeling-in-python/

我们看看主题模型运行过程：


     
     
     
     
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         #训练主题模型
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         lda_model = decomposition.LatentDirichletAllocation(n_components=20, learning_method='online', max_iter=20)
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         X_topics = lda_model.fit_transform(xtrain_count)
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         topic_word = lda_model.components_
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         vocab = count_vect.get_feature_names()
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
         
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         #可视化主题模型
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         n_top_words = 10
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         topic_summaries = []
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         for i, topic_dist in enumerate(topic_word):
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         topic_words = numpy.array(vocab)[numpy.argsort(topic_dist)][:-(n_top_words+1):-1]
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         topic_summaries.append(' '.join(topic_words)

三、建模

文本分类框架的最后一步是利用之前创建的特征训练一个分类器。关于这个最终的模型，机器学习中有很多模型可供选择。我们将使用下面不同的分类器来做文本分类：

朴素贝叶斯分类器
线性分类器
支持向量机（SVM）
Bagging Models
Boosting Models
浅层神经网络
深层神经网络
- 卷积神经网络（CNN）
- LSTM
- GRU
- 双向RNN
- 循环卷积神经网络（RCNN）
- 其它深层神经网络的变种

接下来我们详细介绍并使用这些模型。下面的函数是训练模型的通用函数，它的输入是分类器、训练数据的特征向量、训练数据的标签，验证数据的特征向量。我们使用这些输入训练一个模型，并计算准确度。


     
     
     
     
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         def train_model(classifier, feature_vector_train, label, feature_vector_valid, is_neural_net=False):
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         # fit the training dataset on the classifier
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         classifier.fit(feature_vector_train, label)
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
         
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         # predict the labels on validation dataset
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         predictions = classifier.predict(feature_vector_valid)
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
         
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         if is_neural_net:
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         predictions = predictions.argmax(axis=
         
         
         
         -1)
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
         
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         return metrics.accuracy_score(predictions, valid_y)

3.1 朴素贝叶斯

利用sklearn框架，在不同的特征下实现朴素贝叶斯模型。

朴素贝叶斯是一种基于贝叶斯定理的分类技术，并且假设预测变量是独立的。朴素贝叶斯分类器假设一个类别中的特定特征与其它存在的特征没有任何关系。

想了解朴素贝叶斯算法细节可点击：

A Naive Bayes classifier assumes that the presence of a particular feature in a class is unrelated to the presence of any other feature


     
     
     
     
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         #特征为计数向量的朴素贝叶斯
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         accuracy = train_model(naive_bayes.MultinomialNB(), xtrain_count, train_y, xvalid_count)
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         print 
         
         
         
         "NB, Count Vectors: ", accuracy
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
         
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         #特征为词语级别TF-IDF向量的朴素贝叶斯
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         accuracy = train_model(naive_bayes.MultinomialNB(), xtrain_tfidf, train_y, xvalid_tfidf)
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         print 
         
         
         
         "NB, WordLevel TF-IDF: ", accuracy
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
         
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         #特征为多个词语级别TF-IDF向量的朴素贝叶斯
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         accuracy = train_model(naive_bayes.MultinomialNB(), xtrain_tfidf_ngram, train_y, xvalid_tfidf_ngram)
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         print 
         
         
         
         "NB, N-Gram Vectors: ", accuracy
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
         
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         #特征为词性级别TF-IDF向量的朴素贝叶斯
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         accuracy = train_model(naive_bayes.MultinomialNB(), xtrain_tfidf_ngram_chars, train_y, xvalid_tfidf_ngram_chars)
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         print 
         
         
         
         "NB, CharLevel Vectors: ", accuracy
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         #输出结果
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         NB, Count Vectors:  
         
         
         
         0.7004
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         NB, WordLevel TF-IDF:  
         
         
         
         0.7024
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         NB, N-Gram Vectors:  
         
         
         
         0.5344
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         NB, CharLevel Vectors:  
         
         
         
         0.6872

3.2 线性分类器

实现一个线性分类器（Logistic Regression）：Logistic回归通过使用logistic / sigmoid函数估计概率来度量类别因变量与一个或多个独立变量之间的关系。如果想了解更多关于logistic回归，请访问：

https://www. analyticsvidhya.com/blo g/2015/10/basics-logistic-regression/


     
     
     
     
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         # Linear Classifier on Count Vectors
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         accuracy = train_model(linear_model.LogisticRegression(), xtrain_count, train_y, xvalid_count)
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         print 
         
         
         
         "LR, Count Vectors: ", accuracy
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
         
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         #特征为词语级别TF-IDF向量的线性分类器
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         accuracy = train_model(linear_model.LogisticRegression(), xtrain_tfidf, train_y, xvalid_tfidf)
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         print 
         
         
         
         "LR, WordLevel TF-IDF: ", accuracy
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
         
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         #特征为多个词语级别TF-IDF向量的线性分类器
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         accuracy = train_model(linear_model.LogisticRegression(), xtrain_tfidf_ngram, train_y, xvalid_tfidf_ngram)
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         print 
         
         
         
         "LR, N-Gram Vectors: ", accuracy
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
         
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         #特征为词性级别TF-IDF向量的线性分类器
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         accuracy = train_model(linear_model.LogisticRegression(), xtrain_tfidf_ngram_chars, train_y, xvalid_tfidf_ngram_chars)
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         print 
         
         
         
         "LR, CharLevel Vectors: ", accuracy
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         #输出结果
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         LR, Count Vectors:  
         
         
         
         0.7048
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         LR, WordLevel TF-IDF:  
         
         
         
         0.7056
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         LR, N-Gram Vectors:  
         
         
         
         0.4896
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         LR, CharLevel Vectors:  
         
         
         
         0.7012

3.3 实现支持向量机模型

支持向量机（SVM）是监督学习算法的一种，它可以用来做分类或回归。该模型提取了分离两个类的最佳超平面或线。如果想了解更多关于SVM，请访问：

https://www. analyticsvidhya.com/blo g/2017/09/understaing-support-vector-machine-example-code/


     
     
     
     
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         #特征为多个词语级别TF-IDF向量的SVM
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         accuracy = train_model(svm.SVC(), xtrain_tfidf_ngram, train_y, xvalid_tfidf_ngram)
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         print 
         
         
         
         "SVM, N-Gram Vectors: ", accuracy
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         #输出结果
        
        
        
        
       
       
       
       
      
      
      
      
       
       
       
       
        
        
        
        
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
         SVM, N-Gram Vectors:  
         
         
         
         0.5296

3.4 Bagging Model

实现一个随机森林模型：随机森林是一种集成模型，更准确地说是Bagging model。它是基于树模型家族的一部分。如果想了解更多关于随机森林，请访问：

https://www. analyticsvidhya.com/blo g/2014/06/introduction-random-forest-simplified/

#特征为计数向量的RF
accuracy = train_model(ensemble.RandomForestClassifier(), xtrain_count, train_y, xvalid_count)
print "RF, Count Vectors: ", accuracy

#特征为词语级别TF-IDF向量的RF
accuracy = train_model(ensemble.RandomForestClassifier(), xtrain_tfidf, train_y, xvalid_tfidf)
print "RF, WordLevel TF-IDF: ", accuracy
#输出结果
RF, Count Vectors: 0.6972
RF, WordLevel TF-IDF: 0.6988

3.5 Boosting Model

实现一个Xgboost模型：Boosting model是另外一种基于树的集成模型。Boosting是一种机器学习集成元算法，主要用于减少模型的偏差，它是一组机器学习算法，可以把弱学习器提升为强学习器。其中弱学习器指的是与真实类别只有轻微相关的分类器（比随机猜测要好一点）。如果想了解更多，请访问：

https://www. analyticsvidhya.com/blo g/2016/01/xgboost-algorithm-easy-steps/

#特征为计数向量的Xgboost
accuracy = train_model(xgboost.XGBClassifier(), xtrain_count.tocsc(), train_y, xvalid_count.tocsc())
print "Xgb, Count Vectors: ", accuracy

#特征为词语级别TF-IDF向量的Xgboost
accuracy = train_model(xgboost.XGBClassifier(), xtrain_tfidf.tocsc(), train_y, xvalid_tfidf.tocsc())
print "Xgb, WordLevel TF-IDF: ", accuracy

#特征为词性级别TF-IDF向量的Xgboost
accuracy = train_model(xgboost.XGBClassifier(), xtrain_tfidf_ngram_chars.tocsc(), train_y, xvalid_tfidf_ngram_chars.tocsc())
print "Xgb, CharLevel Vectors: ", accuracy
#输出结果
Xgb, Count Vectors: 0.6324
Xgb, WordLevel TF-IDF: 0.6364
Xgb, CharLevel Vectors: 0.6548

3.6 浅层神经网络

神经网络被设计成与生物神经元和神经系统类似的数学模型，这些模型用于发现被标注数据中存在的复杂模式和关系。一个浅层神经网络主要包含三层神经元-输入层、隐藏层、输出层。如果想了解更多关于浅层神经网络，请访问：

https://www. analyticsvidhya.com/blo g/2017/05/neural-network-from-scratch-in-python-and-r/

def create_model_architecture(input_size):
# create input layer
input_layer = layers.Input((input_size, ), sparse=True)

# create hidden layer
hidden_layer = layers.Dense(100, activation="relu")(input_layer)

# create output layer
output_layer = layers.Dense(1, activation="sigmoid")(hidden_layer)

classifier = models.Model(inputs = input_layer, outputs = output_layer)
classifier.compile(optimizer=optimizers.Adam(), loss='binary_crossentropy')
return classifier

classifier = create_model_architecture(xtrain_tfidf_ngram.shape[1])
accuracy = train_model(classifier, xtrain_tfidf_ngram, train_y, xvalid_tfidf_ngram, is_neural_net=True)
print "NN, Ngram Level TF IDF Vectors", accuracy
#输出结果：
Epoch 1/1
7500/7500 [==============================] - 1s 67us/step - loss: 0.6909
NN, Ngram Level TF IDF Vectors 0.5296

3.7 深层神经网络

深层神经网络是更复杂的神经网络，其中隐藏层执行比简单Sigmoid或Relu激活函数更复杂的操作。不同类型的深层学习模型都可以应用于文本分类问题。

卷积神经网络

卷积神经网络中，输入层上的卷积用来计算输出。本地连接结果中，每一个输入单元都会连接到输出神经元上。每一层网络都应用不同的滤波器（filter）并组合它们的结果。

如果想了解更多关于卷积神经网络，请访问：

https://www. analyticsvidhya.com/blo g/2017/06/architecture-of-convolutional-neural-networks-simplified-demystified/

def create_cnn():
# Add an Input Layer
input_layer = layers.Input((70, ))

# Add the word embedding Layer
embedding_layer = layers.Embedding(len(word_index) + 1, 300, weights=[embedding_matrix], trainable=False)(input_layer)
embedding_layer = layers.SpatialDropout1D(0.3)(embedding_layer)

# Add the convolutional Layer
conv_layer = layers.Convolution1D(100, 3, activation="relu")(embedding_layer)

# Add the pooling Layer
pooling_layer = layers.GlobalMaxPool1D()(conv_layer)

# Add the output Layers
output_layer1 = layers.Dense(50, activation="relu")(pooling_layer)
output_layer1 = layers.Dropout(0.25)(output_layer1)
output_layer2 = layers.Dense(1, activation="sigmoid")(output_layer1)

# Compile the model
model = models.Model(inputs=input_layer, outputs=output_layer2)
model.compile(optimizer=optimizers.Adam(), loss='binary_crossentropy')

return model

classifier = create_cnn()
accuracy = train_model(classifier, train_seq_x, train_y, valid_seq_x, is_neural_net=True)
print "CNN, Word Embeddings", accuracy
#输出结果
Epoch 1/1
7500/7500 [==============================] - 12s 2ms/step - loss: 0.5847
CNN, Word Embeddings 0.5296

循环神经网络-LSTM

与前馈神经网络不同，前馈神经网络的激活输出仅在一个方向上传播，而循环神经网络的激活输出在两个方向传播（从输入到输出，从输出到输入）。因此在神经网络架构中产生循环，充当神经元的“记忆状态”，这种状态使神经元能够记住迄今为止学到的东西。RNN中的记忆状态优于传统的神经网络，但是被称为梯度弥散的问题也因这种架构而产生。这个问题导致当网络有很多层的时候，很难学习和调整前面网络层的参数。为了解决这个问题，开发了称为LSTM（Long Short Term Memory）模型的新型RNN：

如果想了解更多关于LSTM，请访问：

https://www. analyticsvidhya.com/blo g/2017/12/fundamentals-of-deep-learning-introduction-to-lstm/

def create_rnn_lstm():
# Add an Input Layer
input_layer = layers.Input((70, ))

# Add the word embedding Layer
embedding_layer = layers.Embedding(len(word_index) + 1, 300, weights=[embedding_matrix], trainable=False)(input_layer)
embedding_layer = layers.SpatialDropout1D(0.3)(embedding_layer)

# Add the LSTM Layer
lstm_layer = layers.LSTM(100)(embedding_layer)

# Add the output Layers
output_layer1 = layers.Dense(50, activation="relu")(lstm_layer)
output_layer1 = layers.Dropout(0.25)(output_layer1)
output_layer2 = layers.Dense(1, activation="sigmoid")(output_layer1)

# Compile the model
model = models.Model(inputs=input_layer, outputs=output_layer2)
model.compile(optimizer=optimizers.Adam(), loss='binary_crossentropy')

return model

classifier = create_rnn_lstm()
accuracy = train_model(classifier, train_seq_x, train_y, valid_seq_x, is_neural_net=True)
print "RNN-LSTM, Word Embeddings", accuracy
#输出结果
Epoch 1/1
7500/7500 [==============================] - 22s 3ms/step - loss: 0.6899
RNN-LSTM, Word Embeddings 0.5124

循环神经网络-GRU

门控递归单元是另一种形式的递归神经网络,我们在网络中添加一个GRU层来代替LSTM。

defcreate_rnn_gru():

# Add an Input Layer
input_layer = layers.Input((70, ))

# Add the word embedding Layer
embedding_layer = layers.Embedding(len(word_index) + 1, 300, weights=[embedding_matrix], trainable=False)(input_layer)
embedding_layer = layers.SpatialDropout1D(0.3)(embedding_layer)

# Add the GRU Layer
lstm_layer = layers.GRU(100)(embedding_layer)

# Add the output Layers
output_layer1 = layers.Dense(50, activation="relu")(lstm_layer)
output_layer1 = layers.Dropout(0.25)(output_layer1)
output_layer2 = layers.Dense(1, activation="sigmoid")(output_layer1)

# Compile the model
model = models.Model(inputs=input_layer, outputs=output_layer2)
model.compile(optimizer=optimizers.Adam(), loss='binary_crossentropy')

return model

classifier = create_rnn_gru()
accuracy = train_model(classifier, train_seq_x, train_y, valid_seq_x, is_neural_net=True)
print "RNN-GRU, Word Embeddings", accuracy
#输出结果
Epoch 1/1
7500/7500 [==============================] - 19s 3ms/step - loss: 0.6898
RNN-GRU, Word Embeddings 0.5124

双向RNN

RNN层也可以被封装在双向层中，我们把GRU层封装在双向RNN网络中。

defcreate_bidirectional_rnn():
# Add an Input Layer
input_layer = layers.Input((70, ))

# Add the word embedding Layer
embedding_layer = layers.Embedding(len(word_index) + 1, 300, weights=[embedding_matrix], trainable=False)(input_layer)
embedding_layer = layers.SpatialDropout1D(0.3)(embedding_layer)

# Add the LSTM Layer
lstm_layer = layers.Bidirectional(layers.GRU(100))(embedding_layer)

# Add the output Layers
output_layer1 = layers.Dense(50, activation="relu")(lstm_layer)
output_layer1 = layers.Dropout(0.25)(output_layer1)
output_layer2 = layers.Dense(1, activation="sigmoid")(output_layer1)

# Compile the model
model = models.Model(inputs=input_layer, outputs=output_layer2)
model.compile(optimizer=optimizers.Adam(), loss='binary_crossentropy')

return model

classifier = create_bidirectional_rnn()
accuracy = train_model(classifier, train_seq_x, train_y, valid_seq_x, is_neural_net=True)
print "RNN-Bidirectional, Word Embeddings", accuracy
#输出结果
Epoch 1/1
7500/7500 [==============================] - 32s 4ms/step - loss: 0.6889
RNN-Bidirectional, Word Embeddings 0.5124

循环卷积神经网络

如果基本的架构已经尝试过，则可以尝试这些层的不同变体，如递归卷积神经网络，还有其它变体，比如：

层次化注意力网络（Sequence to Sequence Models with Attention）
具有注意力机制的seq2seq（Sequence to Sequence Models with Attention）
双向循环卷积神经网络
更多网络层数的CNNs和RNNs

defcreate_rcnn():
# Add an Input Layer
input_layer = layers.Input((70, ))

# Add the word embedding Layer
embedding_layer = layers.Embedding(len(word_index) + 1, 300, weights=[embedding_matrix], trainable=False)(input_layer)
embedding_layer = layers.SpatialDropout1D(0.3)(embedding_layer)

# Add the recurrent layer
rnn_layer = layers.Bidirectional(layers.GRU(50, return_sequences=True))(embedding_layer)

# Add the convolutional Layer
conv_layer = layers.Convolution1D(100, 3, activation="relu")(embedding_layer)

# Add the pooling Layer
pooling_layer = layers.GlobalMaxPool1D()(conv_layer)

# Add the output Layers
output_layer1 = layers.Dense(50, activation="relu")(pooling_layer)
output_layer1 = layers.Dropout(0.25)(output_layer1)
output_layer2 = layers.Dense(1, activation="sigmoid")(output_layer1)

# Compile the model
model = models.Model(inputs=input_layer, outputs=output_layer2)
model.compile(optimizer=optimizers.Adam(), loss='binary_crossentropy')

return model

classifier = create_rcnn()
accuracy = train_model(classifier, train_seq_x, train_y, valid_seq_x, is_neural_net=True)
print "CNN, Word Embeddings", accuracy
#输出结果
Epoch 1/1
7500/7500 [==============================] - 11s 1ms/step - loss: 0.6902
CNN, Word Embeddings 0.5124

进一步提高文本分类模型的性能

虽然上述框架可以应用于多个文本分类问题，但是为了达到更高的准确率，可以在总体框架中进行一些改进。例如，下面是一些改进文本分类模型和该框架性能的技巧：

1. 清洗文本：文本清洗有助于减少文本数据中出现的噪声，包括停用词、标点符号、后缀变化等。这篇文章有助于理解如何实现文本分类：

https://www. analyticsvidhya.com/blo g/2014/11/text-data-cleaning-steps-python/

2. 组合文本特征向量的文本/NLP特征：特征工程阶段，我们把生成的文本特征向量组合在一起，可能会提高文本分类器的准确率。

模型中的超参数调优：参数调优是很重要的一步，很多参数通过合适的调优可以获得最佳拟合模型，例如树的深层、叶子节点数、网络参数等。

3. 集成模型：堆叠不同的模型并混合它们的输出有助于进一步改进结果。如果想了解更多关于模型集成，请访问：

https://www. analyticsvidhya.com/blo g/2015/08/introduction-ensemble-learning/

写在最后

本文讨论了如何准备一个文本数据集，如清洗、创建训练集和验证集。使用不同种类的特征工程，比如计数向量、TF-IDF、词嵌入、主题模型和基本的文本特征。然后训练了多种分类器，有朴素贝叶斯、Logistic回归、SVM、MLP、LSTM和GRU。最后讨论了提高文本分类器性能的多种方法。

python学习交流群;125240963

你从这篇文章受益了吗？可以在下面评论中分享你的观点和看法。

原文链接：https://www.analyticsvidhya.com/blog/2018/04/a-comprehensive-guide-to-understand-and-implement-text-classification-in-python/

作者： Shivam Bansal

翻译：申利彬

校对：丁楠雅

你可能感兴趣的:(#,AI算法=建模2_高级=)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
高级编程--XML+socket练习题 masa010 java 开发语言
1.北京华北2114.8万人上海华东2,500万人广州华南1292.68万人成都华西1417万人（1）使用dom4j将信息存入xml中（2）读取信息，并打印控制台（3）添加一个city节点与子节点（4）使用socketTCP协议编写服务端与客户端，客户端输入城市ID，服务器响应相应城市信息（5）使用socketTCP协议编写服务端与客户端，客户端要求用户输入city对象，服务端接收并使用dom4j
每日一题——第八十九题互联网打工人no1 C语言程序设计每日一练 c语言
题目：在字符串中找到提取数字，并统计一共找到多少整数，a123xxyu23&8889，那么找到的整数为123，23，8889//思想：#include#include#includeintmain(){charstr[]="a123xxyu23&8889";intcount=0;intnum=0;//用于临时存放当前正在构建的整数。boolinNum=false;//用于标记当前是否正在读取一个整
每日一题——第八十一题互联网打工人no1 C语言程序设计每日一练 c语言
打印如下图案:#includeintmain(){inti,j;charch='A';for(i=1;i<5;i++,ch++){for(j=0;j<5-i;j++){printf("");//控制空格输出}for(j=1;j<2*i;j++)//条件j<2*i{printf("%c",ch);//控制字符输出}printf("\n");}return0;}
每日一题——第八十二题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将一个控制台输入的字符串中的所有元音字母复制到另一字符串中#include#include#include#include#defineMAX_INPUT1024boolisVowel(charp);intmain(){charinput[MAX_INPUT];charoutput[MAX_INPUT];printf("请输入一串字符串：\n");fgets(input,sizeof(inp
每日一题——第八十三题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将输入的整形数字输出,输出1990，输出"1990"#include#defineMAX_INPUT1024intmain(){intarrr_num[MAX_INPUT];intnum,i=0;printf("请输入一个数字：");scanf_s("%d",&num);while(num!=0){arrr_num[i++]=num%10;num/=10;}printf("\"");for(
git常用命令笔记咩酱-小羊 git 笔记
###用习惯了idea总是不记得git的一些常见命令，需要用到的时候总是担心旁边站了人~~~记个笔记@_@，告诉自己看笔记不丢人初始化初始化一个新的Git仓库gitinit配置配置用户信息gitconfig--globaluser.name"YourName"gitconfig--globaluser.email"[email protected]"基本操作克隆远程仓库gitclone查看
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
利用LangChain的StackExchange组件实现智能问答系统 nseejrukjhad langchain microsoft 数据库 python
利用LangChain的StackExchange组件实现智能问答系统引言在当今的软件开发世界中，StackOverflow已经成为程序员解决问题的首选平台之一。而LangChain作为一个强大的AI应用开发框架，提供了StackExchange组件，使我们能够轻松地将StackOverflow的海量知识库集成到我们的应用中。本文将详细介绍如何使用LangChain的StackExchange组件
如何部分格式化提示模板:LangChain中的高级技巧 nseejrukjhad langchain java 服务器 python
标题:如何部分格式化提示模板:LangChain中的高级技巧内容:如何部分格式化提示模板:LangChain中的高级技巧引言在使用大型语言模型(LLM)时,提示工程是一个关键环节。LangChain提供了强大的提示模板功能,让我们能更灵活地构建和管理提示。本文将介绍LangChain中一个高级特性-部分格式化提示模板,这个技巧可以让你的提示管理更加高效和灵活。什么是部分格式化提示模板?部分格式化提
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
高级 ECharts 技巧：自定义图表主题与样式 SnowMan1993 echarts 信息可视化数据分析
ECharts是一个强大的数据可视化库，提供了多种内置主题和样式，但你也可以根据项目的设计需求，自定义图表的主题与样式。本文将介绍如何使用ECharts自定义图表主题，以提升数据可视化的吸引力和一致性。1.什么是ECharts主题？ECharts的主题是指定义图表样式的配置项，包括颜色、字体、线条样式等。通过预设主题，你可以快速更改图表的整体风格，而自定义主题则允许你在此基础上进行个性化设置。2.
【PG】常见数据库、表属性设置江无羡数据库
PG的常见属性配置方法数据库复制、备份相关表的复制标识单表操作批量表操作链接数据库复制、备份相关表的复制标识单表操作通过ALTER语句单独更改一张表的复制标识。ALTERTABLE[tablename]REPLICAIDENTITYFULL;批量表操作通过代码块的方式，对某个schema中的所有表一起更新其复制标识。SELECTtablename,CASErelreplidentWHEN'd'TH
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
每日一题——第八十八题互联网打工人no1 C语言程序设计每日一练 c语言
题目：输入一个9位的无符号整数，判断其是否有重复数字#include#include#includeintmain(){charnum_str[10];printf("请输入一个9位数的无符号数：");scanf_s("%9d",&num_str);if(strlen(num_str)!=9){printf("输入的不是一个9位无符号整数，请重新输入");}else{if(hasDuplicate
开发者关心的那些事圣子足道 ios 游戏编程 apple 支付
我要在app里添加IAP，必须要注册自己的产品标识符（product identifiers）。产品标识符是什么？产品标识符（Product Identifiers）是一串字符串，它用来识别你在应用内贩卖的每件商品。App Store用产品标识符来检索产品信息，标识符只能包含大小写字母（A-Z）、数字（0-9）、下划线（-）、以及圆点(.)。你可以任意排列这些元素，但我们建议你创建标识符时使用
负载均衡器技术Nginx和F5的优缺点对比 bijian1013 nginx F5
对于数据流量过大的网络中，往往单一设备无法承担，需要多台设备进行数据分流，而负载均衡器就是用来将数据分流到多台设备的一个转发器。目前有许多不同的负载均衡技术用以满足不同的应用需求，如软/硬件负载均衡、本地/全局负载均衡、更高
LeetCode[Math] - #9 Palindrome Number Cwind java Algorithm 题解 LeetCode Math
原题链接：#9 Palindrome Number 要求：判断一个整数是否是回文数，不要使用额外的存储空间难度：简单分析：题目限制不允许使用额外的存储空间应指不允许使用O(n)的内存空间，O(1)的内存用于存储中间结果是可以接受的。于是考虑将该整型数反转，然后与原数字进行比较。注：没有看到有关负数是否可以是回文数的明确结论，例如
画图板的基本实现 15700786134 画图板
要实现画图板的基本功能，除了在qq登陆界面中用到的组件和方法外，还需要添加鼠标监听器，和接口实现。首先，需要显示一个JFrame界面： public class DrameFrame extends JFrame { //显示
linux的ps命令被触发 linux
Linux中的ps命令是Process Status的缩写。ps命令用来列出系统中当前运行的那些进程。ps命令列出的是当前那些进程的快照，就是执行ps命令的那个时刻的那些进程，如果想要动态的显示进程信息，就可以使用top命令。要对进程进行监测和控制，首先必须要了解当前进程的情况，也就是需要查看当前进程，而 ps 命令就是最基本同时也是非常强大的进程查看命令。使用该命令可以确定有哪些进程正在运行
Android 音乐播放器下一曲连续跳几首歌肆无忌惮_ android
最近在写安卓音乐播放器的时候遇到个问题。在MediaPlayer播放结束时会回调 player.setOnCompletionListener(new OnCompletionListener() { @Override public void onCompletion(MediaPlayer mp) { mp.reset(); Log.i("H
java导出txt文件的例子知了ing java servlet
代码很简单就一个servlet,如下： package com.eastcom.servlet; import java.io.BufferedOutputStream; import java.io.IOException; import java.net.URLEncoder; import java.sql.Connection; import java.sql.Resu
Scala stack试玩, 提高第三方依赖下载速度矮蛋蛋 scala sbt
原文地址： http://segmentfault.com/a/1190000002894524 sbt下载速度实在是惨不忍睹, 需要做些配置优化下载typesafe离线包, 保存为ivy本地库 wget http://downloads.typesafe.com/typesafe-activator/1.3.4/typesafe-activator-1.3.4.zip 解压r
phantomjs安装(linux，附带环境变量设置) ，以及casperjs安装。 alleni123 linux spider
1. 首先从官网 http://phantomjs.org/下载phantomjs压缩包，解压缩到/root/phantomjs文件夹。 2. 安装依赖 sudo yum install fontconfig freetype libfreetype.so.6 libfontconfig.so.1 libstdc++.so.6 3. 配置环境变量 vi /etc/profil
JAVA IO FileInputStream和FileOutputStream，字节流的打包输出百合不是茶 java核心思想 JAVA IO操作字节流
在程序设计语言中，数据的保存是基本，如果某程序语言不能保存数据那么该语言是不可能存在的，JAVA是当今最流行的面向对象设计语言之一，在保存数据中也有自己独特的一面，字节流和字符流 1，字节流是由字节构成的，字符流是由字符构成的字节流和字符流都是继承的InputStream和OutPutStream ,java中两种最基本的就是字节流和字符流类 FileInputStream
Spring基础实例（依赖注入和控制反转） bijian1013 spring
前提条件：在http://www.springsource.org/download网站上下载Spring框架，并将spring.jar、log4j-1.2.15.jar、commons-logging.jar加载至工程1.武器接口 package com.bijian.spring.base3; public interface Weapon { void kil
HR看重的十大技能 bijian1013 提升能力 HR 成长
一个人掌握何种技能取决于他的兴趣、能力和聪明程度，也取决于他所能支配的资源以及制定的事业目标，拥有过硬技能的人有更多的工作机会。但是，由于经济发展前景不确定，掌握对你的事业有所帮助的技能显得尤为重要。以下是最受雇主欢迎的十种技能。　　一、解决问题的能力　　每天，我们都要在生活和工作中解决一些综合性的问题。那些能够发现问题、解决问题并迅速作出有效决
【Thrift一】Thrift编译安装 bit1129 thrift
什么是Thrift The Apache Thrift software framework, for scalable cross-language services development, combines a software stack with a code generation engine to build services that work efficiently and s
【Avro三】Hadoop MapReduce读写Avro文件 bit1129 mapreduce
Avro是Doug Cutting(此人绝对是神一般的存在）牵头开发的。开发之初就是围绕着完善Hadoop生态系统的数据处理而开展的（使用Avro作为Hadoop MapReduce需要处理数据序列化和反序列化的场景）,因此Hadoop MapReduce集成Avro也就是自然而然的事情。这个例子是一个简单的Hadoop MapReduce读取Avro格式的源文件进行计数统计，然后将计算结果
nginx定制500，502，503，504页面 ronin47 nginx　错误显示
server { listen 80; error_page 500/500.html; error_page 502/502.html; error_page 503/503.html; error_page 504/504.html; location /test {return502;}} 配置很简单，和配
java-1.二叉查找树转为双向链表 bylijinnan 二叉查找树
import java.util.ArrayList; import java.util.List; public class BSTreeToLinkedList { /* 把二元查找树转变成排序的双向链表题目：输入一棵二元查找树，将该二元查找树转换成一个排序的双向链表。要求不能创建任何新的结点，只调整指针的指向。 10 / \ 6 14 / \
Netty源码学习-HTTP-tunnel bylijinnan java netty
Netty关于HTTP tunnel的说明： http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/socket/http/package-summary.html#package_description 这个说明有点太简略了一个完整的例子在这里： https://github.com/bylijinnan
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别 coder_xpf jquery json map val()
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别数据库查询出来的map有一个字段为空通过System.out.println()输出 JSONUtil.serialize(map)： {"one":"1","two":"nul
Hibernate缓存总结 cuishikuan 开源 ssh javaweb hibernate缓存三大框架
一、为什么要用Hibernate缓存？ Hibernate是一个持久层框架，经常访问物理数据库。为了降低应用程序对物理数据源访问的频次，从而提高应用程序的运行性能。缓存内的数据是对物理数据源中的数据的复制，应用程序在运行时从缓存读写数据，在特定的时刻或事件会同步缓存和物理数据源的数据。二、Hibernate缓存原理是怎样的？ Hibernate缓存包括两大类：Hib
CentOs6 dalan_123 centos
首先su - 切换到root下面1、首先要先安装GCC GCC-C++ Openssl等以来模块：yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel2、再安装ncurses模块yum -y install ncurses-develyum install ncurses-devel3、下载Erang
10款用 jquery 实现滚动条至页面底端自动加载数据效果 dcj3sjt126com JavaScript
无限滚动自动翻页可以说是web2.0时代的一项堪称伟大的技术，它让我们在浏览页面的时候只需要把滚动条拉到网页底部就能自动显示下一页的结果，改变了一直以来只能通过点击下一页来翻页这种常规做法。无限滚动自动翻页技术的鼻祖是微博的先驱：推特(twitter)，后来必应图片搜索、谷歌图片搜索、google reader、箱包批发网等纷纷抄袭了这一项技术，于是靠滚动浏览器滚动条
ImageButton去边框&Button或者ImageButton的背景透明 dcj3sjt126com imagebutton
在ImageButton中载入图片后，很多人会觉得有图片周围的白边会影响到美观，其实解决这个问题有两种方法一种方法是将ImageButton的背景改为所需要的图片。如：android:background="@drawable/XXX" 第二种方法就是将ImageButton背景改为透明，这个方法更常用在XML里； <ImageBut
JSP之c:foreach eksliang jsp forearch
原文出自：http://www.cnblogs.com/draem0507/archive/2012/09/24/2699745.html <c:forEach>标签用于通用数据循环，它有以下属性属性描述是否必须缺省值 items 进行循环的项目否无 begin 开始条件否 0 end 结束条件否集合中的最后一个项目 step 步长否 1
Android实现主动连接蓝牙耳机 gqdy365 android
在Android程序中可以实现自动扫描蓝牙、配对蓝牙、建立数据通道。蓝牙分不同类型，这篇文字只讨论如何与蓝牙耳机连接。大致可以分三步：一、扫描蓝牙设备： 1、注册并监听广播： BluetoothAdapter.ACTION_DISCOVERY_STARTED BluetoothDevice.ACTION_FOUND BluetoothAdapter.ACTION_DIS
android学习轨迹之四：org.json.JSONException: No value for hyz301 json
org.json.JSONException: No value for items 在JSON解析中会遇到一种错误，很常见的错误 06-21 12:19:08.714 2098-2127/com.jikexueyuan.secret I/System.out﹕ Result:{"status":1,"page":1,&
干货分享：从零开始学编程系列汇总 justjavac 编程
程序员总爱重新发明轮子，于是做了要给轮子汇总。从零开始写个编译器吧系列 (知乎专栏) 从零开始写一个简单的操作系统 (伯乐在线) 从零开始写JavaScript框架 (图灵社区) 从零开始写jQuery框架 (蓝色理想 ) 从零开始nodejs系列文章 (粉丝日志) 从零开始编写网络游戏
jquery-autocomplete 使用手册 macroli jquery Ajax 脚本
jquery-autocomplete学习一、用前必备官方网站：http://bassistance.de/jquery-plugins/jquery-plugin-autocomplete/ 当前版本：1.1 需要JQuery版本：1.2.6 二、使用 <script src="./jquery-1.3.2.js" type="text/ja
PLSQL-Developer或者Navicat等工具连接远程oracle数据库的详细配置以及数据库编码的修改超声波 oracle plsql
　　在服务器上将Oracle安装好之后接下来要做的就是通过本地机器来远程连接服务器端的oracle数据库，常用的客户端连接工具就是PLSQL-Developer或者Navicat这些工具了。刚开始也是各种报错，什么TNS:no listener;TNS:lost connection;TNS:target hosts...花了一天的时间终于让PLSQL-Developer和Navicat等这些客户
数据仓库数据模型之：极限存储--历史拉链表 superlxw1234 极限存储数据仓库数据模型拉链历史表
在数据仓库的数据模型设计过程中，经常会遇到这样的需求： 1. 数据量比较大; 2. 表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查看某一个用户在过去某一段时间内，更新过几次等等; 4. 变化的比例和频率不是很大，比如，总共有10
10点睛Spring MVC4.1-全局异常处理 wiselyman spring mvc
10.1 全局异常处理使用@ControllerAdvice注解来实现全局异常处理; 使用@ControllerAdvice的属性缩小处理范围 10.2 演示演示控制器 package com.wisely.web; import org.springframework.stereotype.Controller; import org.spring