老程序猿1111

如何开发用于情感分析的N-gram多通道卷积神经网络-电影评论的情感分析代码实现

用于文本分类和情感分析的标准深度学习模型使用单词嵌入层和一维卷积神经网络。

可以通过使用多个并行卷积神经网络来扩展模型，该网络使用不同的内核大小读取源文档。实际上，这为文本创建了一个多通道卷积神经网络，用于读取具有不同n-gram大小（单词组）的文本。

在本教程中，您将了解如何开发一个多通道卷积神经网络，用于文本电影评论数据的情绪预测。

完成本教程后，您将了解：

如何准备电影评论文本数据进行建模。
如何在Keras中开发用于文本的多通道卷积神经网络。

如何评估看不见的电影评论数据的拟合模型。
教程概述
本教程分为4个部分; 他们是：
1. 电影评论数据集
2. 数据准备
3. 开发多渠道模型
4. 评估模型
Python环境
本教程假定您已安装Python 3 SciPy环境。
您必须安装Keras（2.0或更高版本）或TensorFlow或Theano后端。
本教程还假设您安装了scikit-learn，Pandas，NumPy和Matplotlib。
电影评论数据集
电影评论数据是Bo Pang和Lillian Lee在21世纪初从imdb.com网站上检索到的电影评论的集合。收集的评论作为他们自然语言处理研究的一部分提供。
评论最初于2002年发布，但更新和清理版本于2004年发布，称为“v2.0”。
该数据集包含从imdb.com托管的rec.arts.movies.reviews新闻组的档案中抽取的1,000张正面和1,000张负面电影评论。作者将此数据集称为“极性数据集”。

我们的数据包含2000年之前写的1000份正面和1000份负面评论，每个作者的评论上限为20（每位作者共312位）。我们将此语料库称为极性数据集。

- 感伤教育：基于最小削减的主观性总结的情感分析，2004。
数据已经有所清理; 例如：
- 数据集仅包含英语评论。
- 所有文本都已转换为小写。
- 标点符号周围有空格，如句点，逗号和括号。
- 文本每行分为一个句子。
该数据已用于一些相关的自然语言处理任务。对于分类，机器学习模型（例如支持向量机）对数据的性能在高70％到低80％（例如78％-82％）的范围内。
更复杂的数据准备可以看到高达86％的结果，交叉验证10倍。如果我们希望在现代方法的实验中使用这个数据集，这给了我们80年代中期的球场。

...根据下游极性分类器的选择，我们可以实现高度统计上的显着改善（从82.8％到86.4％）

- 感伤教育：基于最小削减的主观性总结的情感分析，2004。
您可以从此处下载数据集：
- 代码实现群：225215316资源共享QQ群：755786769
解压缩文件后，您将拥有一个名为“ txt_sentoken ”的目录，其中包含两个子目录，其中包含负面和正面评论的文本“ neg ”和“ pos ”。对于每个neg和pos，每个文件存储一个评论，命名约定为cv000到cv999。
接下来，我们来看看加载和准备文本数据。

数据准备

在本节中，我们将看看3件事：

将数据分成训练和测试集。
加载和清理数据以删除标点符号和数字。
准备所有评论并保存到文件。

分为X训练和测试装置

我们假装我们正在开发一个系统，可以预测文本电影评论的情绪是积极的还是消极的。

这意味着在开发模型之后，我们需要对新的文本评论进行预测。这将要求对这些新评论执行所有相同的数据准备，就像对模型的训练数据执行一样。

我们将通过在任何数据准备之前拆分训练和测试数据集来确保将此约束纳入我们模型的评估中。这意味着测试集中的数据中的任何知识可以帮助我们更好地准备数据（例如，使用的单词）在用于训练模型的数据的准备中是不可用的。

话虽如此，我们将使用最近100个正面评论和最后100个负面评论作为测试集（100条评论），其余1,800条评论作为训练数据集。

这是90％的列车，10％的数据分割。

通过使用评论的文件名可以轻松实现拆分，其中评论为000至899的评论用于培训数据，而评论为900以上的评论用于测试。

装载和清洁评论

文本数据已经非常干净; 没有太多准备工作。

不会因细节问题而陷入困境，我们将按以下方式准备数据：

在白色空间的分裂标记。
从单词中删除所有标点符号。
删除所有不完全由字母字符组成的单词。
删除所有已知停用词的单词。
删除长度<= 1个字符的所有单词。

我们可以将所有这些步骤放入一个名为clean_doc（）的函数中，该函数将从文件加载的原始文本作为参数，并返回已清理的标记列表。我们还可以定义一个函数load_doc（），它从文件中加载文档，以便与clean_doc（）函数一起使用。下面列出了清理第一次正面评价的示例。

 
            1 
          
            2 
          
            3 
          
            4 
          
            5 
          
            6 
          
            7 
          
            8 
          
            9 
          
            10 
          
            11 
          
            12 
          
            13 
          
            14 
          
            15 
          
            16 
          
            17 
          
            18 
          
            19 
          
            20 
          
            21 
          
            22 
          
            23 
          
            24 
          
            25 
          
            26 
          
            27 
          
            28 
          
            29 
          
            30 
          
            31 
          
            32 
          
            33 
          
            34 
          
           from  
           nltk 
           . 
           corpus  
           import  
           stopwords 
          
           import  
           string 
          
           # load doc into memory 
          
           def  
           load_doc 
           ( 
           filename 
           ) 
           : 
          
           # open the file as read only 
          
           file 
             
           = 
             
           open 
           ( 
           filename 
           , 
             
           'r' 
           ) 
          
           # read all text 
          
           text 
             
           = 
             
           file 
           . 
           read 
           ( 
           ) 
          
           # close the file 
          
           file 
           . 
           close 
           ( 
           ) 
          
           return 
             
           text 
          
           # turn a doc into clean tokens 
          
           def  
           clean_doc 
           ( 
           doc 
           ) 
           : 
          
           # split into tokens by white space 
          
           tokens 
             
           = 
             
           doc 
           . 
           split 
           ( 
           ) 
          
           # remove punctuation from each token 
          
           table 
             
           = 
             
           str 
           . 
           maketrans 
           ( 
           '' 
           , 
             
           '' 
           , 
             
           string 
           . 
           punctuation 
           ) 
          
           tokens 
             
           = 
             
           [ 
           w 
           . 
           translate 
           ( 
           table 
           ) 
             
           for 
             
           w 
             
           in 
             
           tokens 
           ] 
          
           # remove remaining tokens that are not alphabetic 
          
           tokens 
             
           = 
             
           [ 
           word 
             
           for 
             
           word 
             
           in 
             
           tokens  
           if 
             
           word 
           . 
           isalpha 
           ( 
           ) 
           ] 
          
           # filter out stop words 
          
           stop_words 
             
           = 
             
           set 
           ( 
           stopwords 
           . 
           words 
           ( 
           'english' 
           ) 
           ) 
          
           tokens 
             
           = 
             
           [ 
           w 
             
           for 
             
           w 
             
           in 
             
           tokens  
           if 
             
           not 
             
           w 
             
           in 
             
           stop_words 
           ] 
          
           # filter out short tokens 
          
           tokens 
             
           = 
             
           [ 
           word 
             
           for 
             
           word 
             
           in 
             
           tokens  
           if 
             
           len 
           ( 
           word 
           ) 
             
           > 
             
           1 
           ] 
          
           return 
             
           tokens 
          
           # load the document 
          
           filename 
             
           = 
             
           'txt_sentoken/pos/cv000_29590.txt' 
          
           text 
             
           = 
             
           load_doc 
           ( 
           filename 
           ) 
          
           tokens 
             
           = 
             
           clean_doc 
           ( 
           text 
           ) 
          
           print 
           ( 
           tokens 
           )

 
            1 
          
            2 
          
            3 
          
            4 
          
            5 
          
            6 
          
            7 
          
            8 
          
            9 
          
            10 
          
            11 
          
            12 
          
            13 
          
            14 
          
            15 
          
            16 
          
            17 
          
            18 
          
            19 
          
            20 
          
            21 
          
            22 
          
            23 
          
            24 
          
            25 
          
            26 
          
            27 
          
            28 
          
            29 
          
            30 
          
            31 
          
            32 
          
            33 
          
            34 
          
           from  
           nltk 
           . 
           corpus  
           import  
           stopwords 
          
           import  
           string 
          
           # load doc into memory 
          
           def  
           load_doc 
           ( 
           filename 
           ) 
           : 
          
           # open the file as read only 
          
           file 
             
           = 
             
           open 
           ( 
           filename 
           , 
             
           'r' 
           ) 
          
           # read all text 
          
           text 
             
           = 
             
           file 
           . 
           read 
           ( 
           ) 
          
           # close the file 
          
           file 
           . 
           close 
           ( 
           ) 
          
           return 
             
           text 
          
           # turn a doc into clean tokens 
          
           def  
           clean_doc 
           ( 
           doc 
           ) 
           : 
          
           # split into tokens by white space 
          
           tokens 
             
           = 
             
           doc 
           . 
           split 
           ( 
           ) 
          
           # remove punctuation from each token 
          
           table 
             
           = 
             
           str 
           . 
           maketrans 
           ( 
           '' 
           , 
             
           '' 
           , 
             
           string 
           . 
           punctuation 
           ) 
          
           tokens 
             
           = 
             
           [ 
           w 
           . 
           translate 
           ( 
           table 
           ) 
             
           for 
             
           w 
             
           in 
             
           tokens 
           ] 
          
           # remove remaining tokens that are not alphabetic 
          
           tokens 
             
           = 
             
           [ 
           word 
             
           for 
             
           word 
             
           in 
             
           tokens  
           if 
             
           word 
           . 
           isalpha 
           ( 
           ) 
           ] 
          
           # filter out stop words 
          
           stop_words 
             
           = 
             
           set 
           ( 
           stopwords 
           . 
           words 
           ( 
           'english' 
           ) 
           ) 
          
           tokens 
             
           = 
             
           [ 
           w 
             
           for 
             
           w 
             
           in 
             
           tokens  
           if 
             
           not 
             
           w 
             
           in 
             
           stop_words 
           ] 
          
           # filter out short tokens 
          
           tokens 
             
           = 
             
           [ 
           word 
             
           for 
             
           word 
             
           in 
             
           tokens  
           if 
             
           len 
           ( 
           word 
           ) 
             
           > 
             
           1 
           ] 
          
           return 
             
           tokens 
          
           # load the document 
          
           filename 
             
           = 
             
           'txt_sentoken/pos/cv000_29590.txt' 
          
           text 
             
           = 
             
           load_doc 
           ( 
           filename 
           ) 
          
           tokens 
             
           = 
             
           clean_doc 
           ( 
           text 
           ) 
          
           print 
           ( 
           tokens 
           )

运行该示例加载并清除一个电影评论。

打印清洁评论中的标记以供审阅。

 
             1 
           
             2 
           
             ... 
           
             'creepy', 'place', 'even', 'acting', 'hell', 'solid', 'dreamy', 'depp', 'turning', 'typically', 'strong', 'performance', 'deftly', 'handling', 'british', 'accent', 'ians', 'holm', 'joe', 'goulds', 'secret', 'richardson', 'dalmatians', 'log', 'great', 'supporting', 'roles', 'big', 'surprise', 'graham', 'cringed', 'first', 'time', 'opened', 'mouth', 'imagining', 'attempt', 'irish', 'accent', 'actually', 'wasnt', 'half', 'bad', 'film', 'however', 'good', 'strong', 'violencegore', 'sexuality', 'language', 'drug', 'content']

清除所有评论并保存

我们现在可以使用该功能来清理评论并将其应用于所有评论。

为此，我们将在下面开发一个名为process_docs（）的新函数，它将遍历目录中的所有评论，清理它们并将它们作为列表返回。

我们还将为函数添加一个参数，以指示函数是处理序列还是测试评论，这样可以过滤文件名（如上所述），并且只清理和返回所请求的那些列车或测试评论。

完整功能如下所列。

 
          1 
        
          2 
        
          3 
        
          4 
        
          5 
        
          6 
        
          7 
        
          8 
        
          9 
        
          10 
        
          11 
        
          12 
        
          13 
        
          14 
        
          15 
        
          16 
        
          17 
        
          18 
        
          19 
        
          20 
        
          21 
        
          22 
        
          23 
        
          24 
        
          25 
        
          26 
        
          27 
        
          28 
        
          29 
        
          30 
        
          31 
        
          32 
        
          33 
        
          34 
        
         from  
         nltk 
         . 
         corpus  
         import  
         stopwords 
        
         import  
         string 
        
         # load doc into memory 
        
         def  
         load_doc 
         ( 
         filename 
         ) 
         : 
        
         # open the file as read only 
        
         file 
           
         = 
           
         open 
         ( 
         filename 
         , 
           
         'r' 
         ) 
        
         # read all text 
        
         text 
           
         = 
           
         file 
         . 
         read 
         ( 
         ) 
        
         # close the file 
        
         file 
         . 
         close 
         ( 
         ) 
        
         return 
           
         text 
        
         # turn a doc into clean tokens 
        
         def  
         clean_doc 
         ( 
         doc 
         ) 
         : 
        
         # split into tokens by white space 
        
         tokens 
           
         = 
           
         doc 
         . 
         split 
         ( 
         ) 
        
         # remove punctuation from each token 
        
         table 
           
         = 
           
         str 
         . 
         maketrans 
         ( 
         '' 
         , 
           
         '' 
         , 
           
         string 
         . 
         punctuation 
         ) 
        
         tokens 
           
         = 
           
         [ 
         w 
         . 
         translate 
         ( 
         table 
         ) 
           
         for 
           
         w 
           
         in 
           
         tokens 
         ] 
        
         # remove remaining tokens that are not alphabetic 
        
         tokens 
           
         = 
           
         [ 
         word 
           
         for 
           
         word 
           
         in 
           
         tokens  
         if 
           
         word 
         . 
         isalpha 
         ( 
         ) 
         ] 
        
         # filter out stop words 
        
         stop_words 
           
         = 
           
         set 
         ( 
         stopwords 
         . 
         words 
         ( 
         'english' 
         ) 
         ) 
        
         tokens 
           
         = 
           
         [ 
         w 
           
         for 
           
         w 
           
         in 
           
         tokens  
         if 
           
         not 
           
         w 
           
         in 
           
         stop_words 
         ] 
        
         # filter out short tokens 
        
         tokens 
           
         = 
           
         [ 
         word 
           
         for 
           
         word 
           
         in 
           
         tokens  
         if 
           
         len 
         ( 
         word 
         ) 
           
         > 
           
         1 
         ] 
        
         return 
           
         tokens 
        
         # load the document 
        
         filename 
           
         = 
           
         'txt_sentoken/pos/cv000_29590.txt' 
        
         text 
           
         = 
           
         load_doc 
         ( 
         filename 
         ) 
        
         tokens 
           
         = 
           
         clean_doc 
         ( 
         text 
         ) 
        
         print 
         ( 
         tokens 
         )

# load all docs in a directory def process_docs(directory, is_trian): documents = list() # walk through all files in the folder for filename in listdir(directory): # skip any reviews in the test set if is_trian and filename.startswith('cv9'): continue if not is_trian and not filename.startswith('cv9'): continue # create the full path of the file to open path = directory + '/' + filename # load the doc doc = load_doc(path) # clean doc tokens = clean_doc(doc) # add to list documents.append(tokens) return documents
 
           1 
         
           2 
         
           3 
         
           4 
         
           5 
         
           6 
         
           7 
         
           8 
         
           9 
         
           10 
         
           11 
         
           12 
         
           13 
         
           14 
         
           15 
         
           16 
         
           17 
         
           18 
         
           19 
         
          # load all docs in a directory 
         
          def  
          process_docs 
          ( 
          directory 
          , 
            
          is_trian 
          ) 
          : 
         
          documents 
            
          = 
            
          list 
          ( 
          ) 
         
          # walk through all files in the folder 
         
          for 
            
          filename  
          in 
            
          listdir 
          ( 
          directory 
          ) 
          : 
         
          # skip any reviews in the test set 
         
          if 
            
          is_trian  
          and 
            
          filename 
          . 
          startswith 
          ( 
          'cv9' 
          ) 
          : 
         
          continue 
         
          if 
            
          not 
            
          is_trian  
          and 
            
          not 
            
          filename 
          . 
          startswith 
          ( 
          'cv9' 
          ) 
          : 
         
          continue 
         
          # create the full path of the file to open 
         
          path 
            
          = 
            
          directory 
            
          + 
            
          '/' 
            
          + 
            
          filename 
         
          # load the doc 
         
          doc 
            
          = 
            
          load_doc 
          ( 
          path 
          ) 
         
          # clean doc 
         
          tokens 
            
          = 
            
          clean_doc 
          ( 
          doc 
          ) 
         
          # add to list 
         
          documents 
          . 
          append 
          ( 
          tokens 
          ) 
         
          return 
            
          documents

我们可以将此功能称为负面培训评论，如下所示：

 
           1 
         
          negative_docs 
            
          = 
            
          process_docs 
          ( 
          'txt_sentoken/neg' 
          , 
            
          True 
          )

接下来，我们需要列车和测试文件的标签。我们知道我们有900份培训文件和100份测试文件。我们可以使用Python列表理解为列车和测试集的负（0）和正（1）评论创建标签。

最后，我们希望将准备好的训练和测试集保存到文件中，以便我们以后可以加载它们进行建模和模型评估。

下面命名为save_dataset（）的函数将使用pickle API将给定的准备数据集（X和y元素）保存到文件中。

 
           1 
         
           2 
         
           3 
         
           4 
         
          # save a dataset to file 
         
          def  
          save_dataset 
          ( 
          dataset 
          , 
            
          filename 
          ) 
          : 
         
          dump 
          ( 
          dataset 
          , 
            
          open 
          ( 
          filename 
          , 
            
          'wb' 
          ) 
          ) 
         
          print 
          ( 
          'Saved: %s' 
            
          % 
            
          filename 
          )

完整的例子

我们可以将所有这些数据准备步骤结合在一起。

下面列出了完整的示例。

 
           1 
         
           2 
         
           3 
         
           4 
         
           5 
         
           6 
         
           7 
         
           8 
         
           9 
         
           10 
         
           11 
         
           12 
         
           13 
         
           14 
         
           15 
         
           16 
         
           17 
         
           18 
         
           19 
         
           20 
         
           21 
         
           22 
         
           23 
         
           24 
         
           25 
         
           26 
         
           27 
         
           28 
         
           29 
         
           30 
         
           31 
         
           32 
         
           33 
         
           34 
         
           35 
         
           36 
         
           37 
         
           38 
         
           39 
         
           40 
         
           41 
         
           42 
         
           43 
         
           44 
         
           45 
         
           46 
         
           47 
         
           48 
         
           49 
         
           50 
         
           51 
         
           52 
         
           53 
         
           54 
         
           55 
         
           56 
         
           57 
         
           58 
         
           59 
         
           60 
         
           61 
         
           62 
         
           63 
         
           64 
         
           65 
         
           66 
         
           67 
         
           68 
         
           69 
         
           70 
         
          from  
          string 
            
          import  
          punctuation 
         
          from  
          os  
          import  
          listdir 
         
          from  
          nltk 
          . 
          corpus  
          import  
          stopwords 
         
          from  
          pickle  
          import  
          dump 
         
          # load doc into memory 
         
          def  
          load_doc 
          ( 
          filename 
          ) 
          : 
         
          # open the file as read only 
         
          file 
            
          = 
            
          open 
          ( 
          filename 
          , 
            
          'r' 
          ) 
         
          # read all text 
         
          text 
            
          = 
            
          file 
          . 
          read 
          ( 
          ) 
         
          # close the file 
         
          file 
          . 
          close 
          ( 
          ) 
         
          return 
            
          text 
         
          # turn a doc into clean tokens 
         
          def  
          clean_doc 
          ( 
          doc 
          ) 
          : 
         
          # split into tokens by white space 
         
          tokens 
            
          = 
            
          doc 
          . 
          split 
          ( 
          ) 
         
          # remove punctuation from each token 
         
          table 
            
          = 
            
          str 
          . 
          maketrans 
          ( 
          '' 
          , 
            
          '' 
          , 
            
          punctuation 
          ) 
         
          tokens 
            
          = 
            
          [ 
          w 
          . 
          translate 
          ( 
          table 
          ) 
            
          for 
            
          w 
            
          in 
            
          tokens 
          ] 
         
          # remove remaining tokens that are not alphabetic 
         
          tokens 
            
          = 
            
          [ 
          word 
            
          for 
            
          word 
            
          in 
            
          tokens  
          if 
            
          word 
          . 
          isalpha 
          ( 
          ) 
          ] 
         
          # filter out stop words 
         
          stop_words 
            
          = 
            
          set 
          ( 
          stopwords 
          . 
          words 
          ( 
          'english' 
          ) 
          ) 
         
          tokens 
            
          = 
            
          [ 
          w 
            
          for 
            
          w 
            
          in 
            
          tokens  
          if 
            
          not 
            
          w 
            
          in 
            
          stop_words 
          ] 
         
          # filter out short tokens 
         
          tokens 
            
          = 
            
          [ 
          word 
            
          for 
            
          word 
            
          in 
            
          tokens  
          if 
            
          len 
          ( 
          word 
          ) 
            
          > 
            
          1 
          ] 
         
          tokens 
            
          = 
            
          ' ' 
          . 
          join 
          ( 
          tokens 
          ) 
         
          return 
            
          tokens 
         
          # load all docs in a directory 
         
          def  
          process_docs 
          ( 
          directory 
          , 
            
          is_trian 
          ) 
          : 
         
          documents 
            
          = 
            
          list 
          ( 
          ) 
         
          # walk through all files in the folder 
         
          for 
            
          filename  
          in 
            
          listdir 
          ( 
          directory 
          ) 
          : 
         
          # skip any reviews in the test set 
         
          if 
            
          is_trian  
          and 
            
          filename 
          . 
          startswith 
          ( 
          'cv9' 
          ) 
          : 
         
          continue 
         
          if 
            
          not 
            
          is_trian  
          and 
            
          not 
            
          filename 
          . 
          startswith 
          ( 
          'cv9' 
          ) 
          : 
         
          continue 
         
          # create the full path of the file to open 
         
          path 
            
          = 
            
          directory 
            
          + 
            
          '/' 
            
          + 
            
          filename 
         
          # load the doc 
         
          doc 
            
          = 
            
          load_doc 
          ( 
          path 
          ) 
         
          # clean doc 
         
          tokens 
            
          = 
            
          clean_doc 
          ( 
          doc 
          ) 
         
          # add to list 
         
          documents 
          . 
          append 
          ( 
          tokens 
          ) 
         
          return 
            
          documents 
         
          # save a dataset to file 
         
          def  
          save_dataset 
          ( 
          dataset 
          , 
            
          filename 
          ) 
          : 
         
          dump 
          ( 
          dataset 
          , 
            
          open 
          ( 
          filename 
          , 
            
          'wb' 
          ) 
          ) 
         
          print 
          ( 
          'Saved: %s' 
            
          % 
            
          filename 
          ) 
         
          # load all training reviews 
         
          negative_docs 
            
          = 
            
          process_docs 
          ( 
          'txt_sentoken/neg' 
          , 
            
          True 
          ) 
         
          positive_docs 
            
          = 
            
          process_docs 
          ( 
          'txt_sentoken/pos' 
          , 
            
          True 
          ) 
         
          save_dataset 
          ( 
          [ 
          trainX 
          , 
          trainy 
          ] 
          , 
            
          'train.pkl' 
          ) 
         
          # load all test reviews 
         
          negative_docs 
            
          = 
            
          process_docs 
          ( 
          'txt_sentoken/neg' 
          , 
            
          False 
          ) 
         
          positive_docs 
            
          = 
            
          process_docs 
          ( 
          'txt_sentoken/pos' 
          , 
            
          False 
          ) 
         
          testX 
            
          = 
            
          negative_docs 
            
          + 
            
          positive_docs 
         
          testY 
            
          = 
            
          [ 
          0 
            
          for 
            
          _ 
            
          in 
            
          range 
          ( 
          100 
          ) 
          ] 
            
          + 
            
          [ 
          1 
            
          for 
            
          _ 
            
          in 
            
          range 
          ( 
          100 
          ) 
          ] 
         
          save_dataset 
          ( 
          [ 
          testX 
          , 
          testY 
          ] 
          , 
            
          'test.pkl' 
          )

运行该示例分别清除文本电影审阅文档，创建标签，并分别为train.pkl和test.pkl保存列车和测试数据集的准备数据。

现在我们准备开发我们的模型了。

开发多渠道模型

在本节中，我们将开发一个用于情感分析预测问题的多通道卷积神经网络。

本节分为3部分：

编码数据
定义模型。
完整的例子。

编码数据

第一步是加载已清理的训练数据集。

可以调用以下名为load_dataset（）的函数来加载pickle训练数据集。

 
           1 
         
           2 
         
           3 
         
           4 
         
           5 
         
          # load a clean dataset 
         
          def  
          load_dataset 
          ( 
          filename 
          ) 
          : 
         
          return 
            
          load 
          ( 
          open 
          ( 
          filename 
          , 
            
          'rb' 
          ) 
          ) 
         
          trainLines 
          , 
            
          trainLabels 
            
          = 
            
          load_dataset 
          ( 
          'train.pkl' 
          )

接下来，我们必须在训练数据集上安装Keras Tokenizer。我们将使用此标记器来定义嵌入层的词汇表，并将审阅文档编码为整数。

下面的函数create_tokenizer（）将创建一个给定文档列表的Tokenizer。

 
           1 
         
           2 
         
           3 
         
           4 
         
           5 
         
          # fit a tokenizer 
         
          def  
          create_tokenizer 
          ( 
          lines 
          ) 
          : 
         
          tokenizer 
            
          = 
            
          Tokenizer 
          ( 
          ) 
         
          tokenizer 
          . 
          fit_on_texts 
          ( 
          lines 
          ) 
         
          return 
            
          tokenizer

我们还需要知道输入序列的最大长度作为模型的输入并将所有序列填充到固定长度。

下面的函数max_length（）将计算训练数据集中所有评论的最大长度（单词数）。

 
           1 
         
           2 
         
           3 
         
          # calculate the maximum document length 
         
          def  
          max_length 
          ( 
          lines 
          ) 
          : 
         
          return 
            
          max 
          ( 
          [ 
          len 
          ( 
          s 
          . 
          split 
          ( 
          ) 
          ) 
            
          for 
            
          s 
            
          in 
            
          lines 
          ] 
          )

我们还需要知道嵌入层的词汇量大小。

这可以从准备好的Tokenizer计算，如下：

 
           1 
         
           2 
         
          # calculate vocabulary size 
         
          vocab_size 
            
          = 
            
          len 
          ( 
          tokenizer 
          . 
          word_index 
          ) 
            
          + 
            
          1

最后，我们可以整数编码并填充干净的电影评论文本。

下面名为encode_text（）的函数将编码和填充文本数据到最大查看长度。

 
           1 
         
           2 
         
           3 
         
           4 
         
           5 
         
           6 
         
           7 
         
          # encode a list of lines 
         
          def  
          encode_text 
          ( 
          tokenizer 
          , 
            
          lines 
          , 
            
          length 
          ) 
          : 
         
          # integer encode 
         
          encoded 
            
          = 
            
          tokenizer 
          . 
          texts_to_sequences 
          ( 
          lines 
          ) 
         
          # pad encoded sequences 
         
          padded 
            
          = 
            
          pad_sequences 
          ( 
          encoded 
          , 
            
          maxlen 
          = 
          length 
          , 
            
          padding 
          = 
          'post' 
          ) 
         
          return 
            
          padded

定义模型

用于文档分类的标准模型是使用嵌入层作为输入，接着是一维卷积神经网络，池化层，然后是预测输出层。

卷积层中的内核大小定义了卷积在输入文本文档中传递时要考虑的单词数，从而提供分组参数。

用于文档分类的多通道卷积神经网络涉及使用具有不同大小的内核的标准模型的多个版本。这允许一次以不同的分辨率或不同的n-gram（单词组）处理文档，同时模型学习如何最好地整合这些解释。

Yoon Kim在其2014年题为“ 用于句子分类的卷积神经网络 ”的论文中首次描述了这种方法。

在本文中，Kim尝试了静态和动态（更新）嵌入层，我们可以简化方法，而只关注使用不同的内核大小。

使用Kim的论文中的图表可以最好地理解这种方法：

如何开发用于情感分析的N-gram多通道卷积神经网络-电影评论的情感分析代码实现_第1张图片

用于文本的多通道卷积神经网络的描述。
摘自“用于句子分类的卷积神经网络”。

在Keras中，可以使用功能API定义多输入模型。

我们将定义一个带有三个输入通道的模型，用于处理4克，6克和8克的电影评论文本。

每个频道由以下元素组成：

输入层，用于定义输入序列的长度。
嵌入图层设置为词汇表的大小和100维实值表示。
一维卷积层，具有32个滤波器，内核大小设置为一次读取的字数。
Max Pooling图层用于合并卷积图层的输出。
展平图层以将三维输出减少为二维以进行连接。

三个通道的输出连接成一个矢量，并由Dense层和输出层处理。

下面的函数定义并返回模型。作为定义模型的一部分，将打印已定义模型的摘要，并创建模型图的图并将其保存到文件中。

 
           1 
         
           2 
         
           3 
         
           4 
         
           5 
         
           6 
         
           7 
         
           8 
         
           9 
         
           10 
         
           11 
         
           12 
         
           13 
         
           14 
         
           15 
         
           16 
         
           17 
         
           18 
         
           19 
         
           20 
         
           21 
         
           22 
         
           23 
         
           24 
         
           25 
         
           26 
         
           27 
         
           28 
         
           29 
         
           30 
         
           31 
         
           32 
         
           33 
         
           34 
         
           35 
         
          # define the model 
         
          def  
          define_model 
          ( 
          length 
          , 
            
          vocab_size 
          ) 
          : 
         
          # channel 1 
         
          inputs1 
            
          = 
            
          Input 
          ( 
          shape 
          = 
          ( 
          length 
          , 
          ) 
          ) 
         
          embedding1 
            
          = 
            
          Embedding 
          ( 
          vocab_size 
          , 
            
          100 
          ) 
          ( 
          inputs1 
          ) 
         
          conv1 
            
          = 
            
          Conv1D 
          ( 
          filters 
          = 
          32 
          , 
            
          kernel_size 
          = 
          4 
          , 
            
          activation 
          = 
          'relu' 
          ) 
          ( 
          embedding1 
          ) 
         
          drop1 
            
          = 
            
          Dropout 
          ( 
          0.5 
          ) 
          ( 
          conv1 
          ) 
         
          pool1 
            
          = 
            
          MaxPooling1D 
          ( 
          pool_size 
          = 
          2 
          ) 
          ( 
          drop1 
          ) 
         
          flat1 
            
          = 
            
          Flatten 
          ( 
          ) 
          ( 
          pool1 
          ) 
         
          # channel 2 
         
          inputs2 
            
          = 
            
          Input 
          ( 
          shape 
          = 
          ( 
          length 
          , 
          ) 
          ) 
         
          embedding2 
            
          = 
            
          Embedding 
          ( 
          vocab_size 
          , 
            
          100 
          ) 
          ( 
          inputs2 
          ) 
         
          conv2 
            
          = 
            
          Conv1D 
          ( 
          filters 
          = 
          32 
          , 
            
          kernel_size 
          = 
          6 
          , 
            
          activation 
          = 
          'relu' 
          ) 
          ( 
          embedding2 
          ) 
         
          drop2 
            
          = 
            
          Dropout 
          ( 
          0.5 
          ) 
          ( 
          conv2 
          ) 
         
          pool2 
            
          = 
            
          MaxPooling1D 
          ( 
          pool_size 
          = 
          2 
          ) 
          ( 
          drop2 
          ) 
         
          flat2 
            
          = 
            
          Flatten 
          ( 
          ) 
          ( 
          pool2 
          ) 
         
          # channel 3 
         
          inputs3 
            
          = 
            
          Input 
          ( 
          shape 
          = 
          ( 
          length 
          , 
          ) 
          ) 
         
          embedding3 
            
          = 
            
          Embedding 
          ( 
          vocab_size 
          , 
            
          100 
          ) 
          ( 
          inputs3 
          ) 
         
          conv3 
            
          = 
            
          Conv1D 
          ( 
          filters 
          = 
          32 
          , 
            
          kernel_size 
          = 
          8 
          , 
            
          activation 
          = 
          'relu' 
          ) 
          ( 
          embedding3 
          ) 
         
          drop3 
            
          = 
            
          Dropout 
          ( 
          0.5 
          ) 
          ( 
          conv3 
          ) 
         
          pool3 
            
          = 
            
          MaxPooling1D 
          ( 
          pool_size 
          = 
          2 
          ) 
          ( 
          drop3 
          ) 
         
          flat3 
            
          = 
            
          Flatten 
          ( 
          ) 
          ( 
          pool3 
          ) 
         
          # merge 
         
          merged 
            
          = 
            
          concatenate 
          ( 
          [ 
          flat1 
          , 
            
          flat2 
          , 
            
          flat3 
          ] 
          ) 
         
          # interpretation 
         
          dense1 
            
          = 
            
          Dense 
          ( 
          10 
          , 
            
          activation 
          = 
          'relu' 
          ) 
          ( 
          merged 
          ) 
         
          outputs 
            
          = 
            
          Dense 
          ( 
          1 
          , 
            
          activation 
          = 
          'sigmoid' 
          ) 
          ( 
          dense1 
          ) 
         
          model 
            
          = 
            
          Model 
          ( 
          inputs 
          = 
          [ 
          inputs1 
          , 
            
          inputs2 
          , 
            
          inputs3 
          ] 
          , 
            
          outputs 
          = 
          outputs 
          ) 
         
          # compile 
         
          model 
          . 
          compile 
          ( 
          loss 
          = 
          'binary_crossentropy' 
          , 
            
          optimizer 
          = 
          'adam' 
          , 
            
          metrics 
          = 
          [ 
          'accuracy' 
          ] 
          ) 
         
          # summarize 
         
          print 
          ( 
          model 
          . 
          summary 
          ( 
          ) 
          ) 
         
          plot_model 
          ( 
          model 
          , 
            
          show_shapes 
          = 
          True 
          , 
            
          to_file 
          = 
          'multichannel.png' 
          ) 
         
          return 
            
          model

首先运行该示例将打印准备好的训练数据集的摘要。

 
           1 
         
           2 
         
           3 
         
           Max document length: 1380 
         
           Vocabulary size: 44277 
         
           (1800, 1380)

接下来，打印已定义模型的摘要。

 
           1 
         
           2 
         
           3 
         
           4 
         
           5 
         
           6 
         
           7 
         
           8 
         
           9 
         
           10 
         
           11 
         
           12 
         
           13 
         
           14 
         
           15 
         
           16 
         
           17 
         
           18 
         
           19 
         
           20 
         
           21 
         
           22 
         
           23 
         
           24 
         
           25 
         
           26 
         
           27 
         
           28 
         
           29 
         
           30 
         
           31 
         
           32 
         
           33 
         
           34 
         
           35 
         
           36 
         
           37 
         
           38 
         
           39 
         
           40 
         
           41 
         
           42 
         
           43 
         
           44 
         
           45 
         
           46 
         
           47 
         
           48 
         
           49 
         
           50 
         
           51 
         
           ____________________________________________________________________________________________________ 
         
           Layer (type)                     Output Shape          Param #     Connected to 
         
           ==================================================================================================== 
         
           input_1 (InputLayer)             (None, 1380)          0 
         
           ____________________________________________________________________________________________________ 
         
           input_2 (InputLayer)             (None, 1380)          0 
         
           ____________________________________________________________________________________________________ 
         
           input_3 (InputLayer)             (None, 1380)          0 
         
           ____________________________________________________________________________________________________ 
         
           embedding_1 (Embedding)          (None, 1380, 100)     4427700     input_1[0][0] 
         
           ____________________________________________________________________________________________________ 
         
           embedding_2 (Embedding)          (None, 1380, 100)     4427700     input_2[0][0] 
         
           ____________________________________________________________________________________________________ 
         
           embedding_3 (Embedding)          (None, 1380, 100)     4427700     input_3[0][0] 
         
           ____________________________________________________________________________________________________ 
         
           conv1d_1 (Conv1D)                (None, 1377, 32)      12832       embedding_1[0][0] 
         
           ____________________________________________________________________________________________________ 
         
           conv1d_2 (Conv1D)                (None, 1375, 32)      19232       embedding_2[0][0] 
         
           ____________________________________________________________________________________________________ 
         
           conv1d_3 (Conv1D)                (None, 1373, 32)      25632       embedding_3[0][0] 
         
           ____________________________________________________________________________________________________ 
         
           dropout_1 (Dropout)              (None, 1377, 32)      0           conv1d_1[0][0] 
         
           ____________________________________________________________________________________________________ 
         
           dropout_2 (Dropout)              (None, 1375, 32)      0           conv1d_2[0][0] 
         
           ____________________________________________________________________________________________________ 
         
           dropout_3 (Dropout)              (None, 1373, 32)      0           conv1d_3[0][0] 
         
           ____________________________________________________________________________________________________ 
         
           max_pooling1d_1 (MaxPooling1D)   (None, 688, 32)       0           dropout_1[0][0] 
         
           ____________________________________________________________________________________________________ 
         
           max_pooling1d_2 (MaxPooling1D)   (None, 687, 32)       0           dropout_2[0][0] 
         
           ____________________________________________________________________________________________________ 
         
           max_pooling1d_3 (MaxPooling1D)   (None, 686, 32)       0           dropout_3[0][0] 
         
           ____________________________________________________________________________________________________ 
         
           flatten_1 (Flatten)              (None, 22016)         0           max_pooling1d_1[0][0] 
         
           ____________________________________________________________________________________________________ 
         
           flatten_2 (Flatten)              (None, 21984)         0           max_pooling1d_2[0][0] 
         
           ____________________________________________________________________________________________________ 
         
           flatten_3 (Flatten)              (None, 21952)         0           max_pooling1d_3[0][0] 
         
           ____________________________________________________________________________________________________ 
         
           concatenate_1 (Concatenate)      (None, 65952)         0           flatten_1[0][0] 
         
                                                                              flatten_2[0][0] 
         
                                                                              flatten_3[0][0] 
         
           ____________________________________________________________________________________________________ 
         
           dense_1 (Dense)                  (None, 10)            659530      concatenate_1[0][0] 
         
           ____________________________________________________________________________________________________ 
         
           dense_2 (Dense)                  (None, 1)             11          dense_1[0][0] 
         
           ==================================================================================================== 
         
           Total params: 14,000,337 
         
           Trainable params: 14,000,337 
         
           Non-trainable params: 0 
         
           ____________________________________________________________________________________________________

该模型相对较快，并且在训练数据集上显示出良好的技能。

 
           1 
         
           2 
         
           3 
         
           4 
         
           5 
         
           6 
         
           7 
         
           8 
         
           9 
         
           10 
         
           11 
         
           ... 
         
           Epoch 6/10 
         
           1800/1800 [==============================] - 30s - loss: 9.9093e-04 - acc: 1.0000 
         
           Epoch 7/10 
         
           1800/1800 [==============================] - 29s - loss: 5.1899e-04 - acc: 1.0000 
         
           Epoch 8/10 
         
           1800/1800 [==============================] - 28s - loss: 3.7958e-04 - acc: 1.0000 
         
           Epoch 9/10 
         
           1800/1800 [==============================] - 29s - loss: 3.0534e-04 - acc: 1.0000 
         
           Epoch 10/10 
         
           1800/1800 [==============================] - 29s - loss: 2.6234e-04 - acc: 1.0000

已定义模型的图表将保存到文件中，清楚地显示模型的三个输入通道。

如何开发用于情感分析的N-gram多通道卷积神经网络-电影评论的情感分析代码实现_第2张图片

文本多通道卷积神经网络图

该模型适用于许多时期并保存到文件model.h5中以供以后评估。

评估模型

在本节中，我们可以通过预测未见测试数据集中所有评论的情绪来评估拟合模型。

使用上一节中开发的数据加载函数，我们可以加载和编码训练和测试数据集。

 
           1 
         
           2 
         
           3 
         
           4 
         
           5 
         
           6 
         
           7 
         
           8 
         
           9 
         
           10 
         
           11 
         
           12 
         
           13 
         
           14 
         
           15 
         
           16 
         
          # load datasets 
         
          trainLines 
          , 
            
          trainLabels 
            
          = 
            
          load_dataset 
          ( 
          'train.pkl' 
          ) 
         
          testLines 
          , 
            
          testLabels 
            
          = 
            
          load_dataset 
          ( 
          'test.pkl' 
          ) 
         
          # create tokenizer 
         
          tokenizer 
            
          = 
            
          create_tokenizer 
          ( 
          trainLines 
          ) 
         
          # calculate max document length 
         
          length 
            
          = 
            
          max_length 
          ( 
          trainLines 
          ) 
         
          # calculate vocabulary size 
         
          vocab_size 
            
          = 
            
          len 
          ( 
          tokenizer 
          . 
          word_index 
          ) 
            
          + 
            
          1 
         
          print 
          ( 
          'Max document length: %d' 
            
          % 
            
          length 
          ) 
         
          print 
          ( 
          'Vocabulary size: %d' 
            
          % 
            
          vocab_size 
          ) 
         
          # encode data 
         
          trainX 
            
          = 
            
          encode_text 
          ( 
          tokenizer 
          , 
            
          trainLines 
          , 
            
          length 
          ) 
         
          testX 
            
          = 
            
          encode_text 
          ( 
          tokenizer 
          , 
            
          testLines 
          , 
            
          length 
          ) 
         
          print 
          ( 
          trainX 
          . 
          shape 
          , 
            
          testX 
          . 
          shape 
          )

我们可以加载保存的模型并在训练和测试数据集上进行评估。

下面列出了完整的示例。

 
           1 
         
           2 
         
           3 
         
           4 
         
           5 
         
           6 
         
           7 
         
           8 
         
           9 
         
           10 
         
           11 
         
           12 
         
           13 
         
           14 
         
           15 
         
           16 
         
           17 
         
           18 
         
           19 
         
           20 
         
           21 
         
           22 
         
           23 
         
           24 
         
           25 
         
           26 
         
           27 
         
           28 
         
           29 
         
           30 
         
           31 
         
           32 
         
           33 
         
           34 
         
           35 
         
           36 
         
           37 
         
           38 
         
           39 
         
           40 
         
           41 
         
           42 
         
           43 
         
           44 
         
           45 
         
           46 
         
           47 
         
           48 
         
           49 
         
           50 
         
           51 
         
           52 
         
           53 
         
           54 
         
           55 
         
          from  
          pickle  
          import  
          load 
         
          from  
          numpy  
          import  
          array 
         
          from  
          keras 
          . 
          preprocessing 
          . 
          text  
          import  
          Tokenizer 
         
          from  
          keras 
          . 
          preprocessing 
          . 
          sequence  
          import  
          pad_sequences 
         
          from  
          keras 
          . 
          models  
          import  
          load_model 
         
          # load a clean dataset 
         
          def  
          load_dataset 
          ( 
          filename 
          ) 
          : 
         
          return 
            
          load 
          ( 
          open 
          ( 
          filename 
          , 
            
          'rb' 
          ) 
          ) 
         
          # fit a tokenizer 
         
          def  
          create_tokenizer 
          ( 
          lines 
          ) 
          : 
         
          tokenizer 
            
          = 
            
          Tokenizer 
          ( 
          ) 
         
          tokenizer 
          . 
          fit_on_texts 
          ( 
          lines 
          ) 
         
          return 
            
          tokenizer 
         
          # calculate the maximum document length 
         
          def  
          max_length 
          ( 
          lines 
          ) 
          : 
         
          return 
            
          max 
          ( 
          [ 
          len 
          ( 
          s 
          . 
          split 
          ( 
          ) 
          ) 
            
          for 
            
          s 
            
          in 
            
          lines 
          ] 
          ) 
         
          # encode a list of lines 
         
          def  
          encode_text 
          ( 
          tokenizer 
          , 
            
          lines 
          , 
            
          length 
          ) 
          : 
         
          # integer encode 
         
          encoded 
            
          = 
            
          tokenizer 
          . 
          texts_to_sequences 
          ( 
          lines 
          ) 
         
          # pad encoded sequences 
         
          padded 
            
          = 
            
          pad_sequences 
          ( 
          encoded 
          , 
            
          maxlen 
          = 
          length 
          , 
            
          padding 
          = 
          'post' 
          ) 
         
          return 
            
          padded 
         
          # load datasets 
         
          trainLines 
          , 
            
          trainLabels 
            
          = 
            
          load_dataset 
          ( 
          'train.pkl' 
          ) 
         
          testLines 
          , 
            
          testLabels 
            
          = 
            
          load_dataset 
          ( 
          'test.pkl' 
          ) 
         
          # calculate max document length 
         
          length 
            
          = 
            
          max_length 
          ( 
          trainLines 
          ) 
         
          # calculate vocabulary size 
         
          vocab_size 
            
          = 
            
          len 
          ( 
          tokenizer 
          . 
          word_index 
          ) 
            
          + 
            
          1 
         
          print 
          ( 
          'Max document length: %d' 
            
          % 
            
          length 
          ) 
         
          print 
          ( 
          'Vocabulary size: %d' 
            
          % 
            
          vocab_size 
          ) 
         
          # encode data 
         
          trainX 
            
          = 
            
          encode_text 
          ( 
          tokenizer 
          , 
            
          trainLines 
          , 
            
          length 
          ) 
         
          testX 
            
          = 
            
          encode_text 
          ( 
          tokenizer 
          , 
            
          testLines 
          , 
            
          length 
          ) 
         
          print 
          ( 
          trainX 
          . 
          shape 
          , 
            
          testX 
          . 
          shape 
          ) 
         
          # load the model 
         
          model 
            
          = 
            
          load_model 
          ( 
          'model.h5' 
          ) 
         
          # evaluate model on training dataset 
         
          loss 
          , 
            
          acc 
            
          = 
            
          model 
          . 
          evaluate 
          ( 
          [ 
          trainX 
          , 
          trainX 
          , 
          trainX 
          ] 
          , 
            
          array 
          ( 
          trainLabels 
          ) 
          , 
            
          verbose 
          = 
          0 
          ) 
         
          print 
          ( 
          'Train Accuracy: %f' 
            
          % 
            
          ( 
          acc* 
          100 
          ) 
          ) 
         
          # evaluate model on test dataset dataset 
         
          loss 
          , 
            
          acc 
            
          = 
            
          model 
          . 
          evaluate 
          ( 
          [ 
          testX 
          , 
          testX 
          , 
          testX 
          ] 
          , 
          array 
          ( 
          testLabels 
          ) 
          , 
            
          verbose 
          = 
          0 
          ) 
         
          print 
          ( 
          'Test Accuracy: %f' 
            
          % 
            
          ( 
          acc* 
          100 
          ) 
          )

运行该示例将在训练和测试数据集上打印模型的技能。

 
           1 
         
           2 
         
           3 
         
           4 
         
           5 
         
           6 
         
           Max document length: 1380 
         
           Vocabulary size: 44277 
         
           (1800, 1380) (200, 1380) 
         
           Train Accuracy: 100.000000 
         
           Test Accuracy: 87.500000

我们可以看到，正如预期的那样，训练数据集的技能非常出色，这里的准确率为100％。

我们还可以看到模型对看不见的测试数据集的技能也非常令人印象深刻，达到87.5％，高于2014年论文中报告的模型的技能（尽管不是直接的苹果对苹果比较）。

 
           1 
         
           2 
         
           3 
         
           4 
         
           5 
         
           6 
         
           7 
         
           8 
         
           9 
         
           10 
         
           11 
         
           12 
         
           13 
         
           14 
         
           15 
         
           16 
         
           17 
         
           18 
         
           19 
         
           20 
         
           21 
         
           22 
         
           23 
         
           24 
         
           25 
         
           26 
         
           27 
         
           28 
         
           29 
         
           30 
         
           31 
         
           32 
         
           33 
         
           34 
         
          from  
          nltk 
          . 
          corpus  
          import  
          stopwords 
         
          import  
          string 
         
          # load doc into memory 
         
          def  
          load_doc 
          ( 
          filename 
          ) 
          : 
         
          # open the file as read only 
         
          file 
            
          = 
            
          open 
          ( 
          filename 
          , 
            
          'r' 
          ) 
         
          # read all text 
         
          text 
            
          = 
            
          file 
          . 
          read 
          ( 
          ) 
         
          # close the file 
         
          file 
          . 
          close 
          ( 
          ) 
         
          return 
            
          text 
         
          # turn a doc into clean tokens 
         
          def  
          clean_doc 
          ( 
          doc 
          ) 
          : 
         
          # split into tokens by white space 
         
          tokens 
            
          = 
            
          doc 
          . 
          split 
          ( 
          ) 
         
          # remove punctuation from each token 
         
          table 
            
          = 
            
          str 
          . 
          maketrans 
          ( 
          '' 
          , 
            
          '' 
          , 
            
          string 
          . 
          punctuation 
          ) 
         
          tokens 
            
          = 
            
          [ 
          w 
          . 
          translate 
          ( 
          table 
          ) 
            
          for 
            
          w 
            
          in 
            
          tokens 
          ] 
         
          # remove remaining tokens that are not alphabetic 
         
          tokens 
            
          = 
            
          [ 
          word 
            
          for 
            
          word 
            
          in 
            
          tokens  
          if 
            
          word 
          . 
          isalpha 
          ( 
          ) 
          ] 
         
          # filter out stop words 
         
          stop_words 
            
          = 
            
          set 
          ( 
          stopwords 
          . 
          words 
          ( 
          'english' 
          ) 
          ) 
         
          tokens 
            
          = 
            
          [ 
          w 
            
          for 
            
          w 
            
          in 
            
          tokens  
          if 
            
          not 
            
          w 
            
          in 
            
          stop_words 
          ] 
         
          # filter out short tokens 
         
          tokens 
            
          = 
            
          [ 
          word 
            
          for 
            
          word 
            
          in 
            
          tokens  
          if 
            
          len 
          ( 
          word 
          ) 
            
          > 
            
          1 
          ] 
         
          return 
            
          tokens 
         
          # load the document 
         
          filename 
            
          = 
            
          'txt_sentoken/pos/cv000_29590.txt' 
         
          text 
            
          = 
            
          load_doc 
          ( 
          filename 
          ) 
         
          tokens 
            
          = 
            
          clean_doc 
          ( 
          text 
          ) 
         
          print 
          ( 
          tokens 
          )

你可能感兴趣的:(计算机类,人工智能,深度学习,计算机毕业设计,计算机毕设代做,tensorflow)

芦花鞋一四许叶晗
又是在一个寒冷的夏日里，青铜和葵花决定今天一起去卖芦花鞋，奶奶亲手给他们做了一碗热乎乎的粥对他们说:“就靠你们两挣生活费了这碗粥赶紧趁热喝了吧！”于是青铜和葵花喝完了奶奶给她们做的粥，就准备去镇上卖卢花鞋，这回青铜和葵花穿着新的芦花鞋来到了镇上。青铜这回看到了很多人都在卖，用手势表达对葵花说:“这回有好多人在抢我们生意呢！我们必须得吆喝起来。”葵花点了点头。可是谁知他们也大声的叫，卖芦花喽！卖芦花
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
2020-01-25 晴岚85
郑海燕坚持分享590天2020.1.24在生活中只存在两个问题。一个问题是：你知道想要达成的目标是什么，但却不知道如何才能达成；另一个问题是：你不知道你的目标是什么。前一个是行动的问题，后一个是结果的问题。通过制定具体的下一步行动，可以解决不知道如何开始行动的问题。而通过去想象结果，对结果做预估，可以解决找不着目标的问题。对于所有吸引我们注意力，想要完成的任务，你可以先想象一下，预期的结果究竟是什
一百九十四章. 自相矛盾巨木擎天
唉！就这么一夜，林子感觉就像过了很多天似的，先是回了阳间家里，遇到了那么多不可思议的事情儿。特别是小伙伴们，第二次与自己见面时，僵硬的表情和恐怖的气氛，让自己如坐针毡，打从心眼里难受！还有东子，他现在还好吗？有没有被人欺负？护城河里的小鱼小虾们，还都在吗？水不会真的干枯了吧？那对相亲相爱漂亮的太平鸟儿，还好吧！春天了，到了做窝、下蛋、喂养小鸟宝宝的时候了，希望它们都能够平安啊！虽然没有看见家人，也
开心蒋泳频
从无比抗拒来上课到接受，感动，收获～看着波哥成长，晶晶幸福笑容满面。感觉自己做的事情很有意义，很开心！还有3个感召目标就是还有三个有缘人，哈哈。明天感召去明日计划：8：30-11：00小公益11：00-21点上班，感召图片发自App图片发自App图片发自App
放下是一段成长的修行小莳玥
人来到这个世界上，只有两件事：生和死。一件事已经做完了，另一件你还急什么呢?是人，都有七情六欲。是心，都有喜怒哀乐，这些再正常不过了。别总抱怨自己活得累，过得辛苦。永远记住：舒坦是留给死人的。苦，才是生活；累，才是工作；变，才是命运；忍，才是历练；容，才是智慧；静，才是修养；舍，才会得到；做，才会拥有。人生，活得太清楚，才是最大的不明白。有些事，看得很清，却说不清；有些人，了解很深，却猜不透；有些
活给自己看，笑容才灿烂听着了么
白岩松说“有时候，我们活得很累，并非生活过于刻薄，而是我们太容易被外界的氛围所感染，被他人的情绪所左右。”心情是自己的。若只是活在别人的眼里、嘴里，便掌握不了让自己开心的主动权。人活着，不是为了活给别人看的，唯有做最真实的自己，活给自己看，笑容才灿烂。诚然，世事纷繁复杂，人人都有一张嘴，管也管不了。永远有人欣赏你，也永远有人批评你，不可能做到让所有人都满意，开心做自己才是最重要的。人生苦短，有太多
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
【华为OD机试真题2023B卷 JAVA&JS】We Are A Team 若博豆 java 算法华为 javascript
华为OD2023（B卷）机试题库全覆盖，刷题指南点这里WeAreATeam时间限制：1秒|内存限制：32768K|语言限制：不限题目描述：总共有n个人在机房，每个人有一个标号（1<=标号<=n），他们分成了多个团队，需要你根据收到的m条消息判定指定的两个人是否在一个团队中，具体的：1、消息构成为：abc，整数a、b分别代
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
2.0践行没有你的参与就不完美 x秀丽x
亲爱的伙伴们早上好，今天早上我们开了一次班委竞选的会议，全程只有20多个人参与，宫班本着对大家负责任的态度告诉我们，此次竞选作废，原因是这没有达到2.0的100%参会要求，如果没有大家的参与那么这个班委选出来还有什么意义，这说明选出来的人也是不一定是我们大家心目中认可的那个人，所以为了让大家的这个90天能够更好的激发出自己的的“做”的能力，那么要从第一次竞选班委的会议开始做到100%出席会议，竞选
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
阶段总结反思轻争
马上就要进入10月份了，今天做一下前段时间的总结和反思。前段时间，日更、英语、健身、护肤坚持的比较好。阅读、书法坚持的不好。1.中间被迫停更半个多月，其余时间一直在坚持日更挑战。偶尔也有不想写的时候，就做一下摘抄。因为阅读（输入）没跟上来，所以写作（输出）质量有待进一步加强。2.英语做到了一周至少学习5天，每次不少于30分钟，但是小班课没有跟上更新速度，下一步要争取利用零碎时间补听小班课。3.减肥
冬天短期的暴利小生意有哪些？那些小生意适合新手做？一起高省
短期生意不失为创业的一个商机，不过短期生意的商机是转瞬即逝的，而且这类生意也很难作为长期的生意去做，那冬天短期暴利小生意查看更多关于短期暴利小生意的文章有哪些呢?给大家先推荐一个2023年风口项目吧，真很不错的项目，全程零投资，当做副业来做真的很稳定，不管你什么阶层的人，或多或少都网购吧？你们知道网购是可以拿提成，拿返利，拿分佣的吗？你们知道很多优惠券群里面，天天群主和管理发一些商品吗？他们其实在
怎么做淘客赚钱(2022最新免费淘客盈利的方法) 高省_飞智666600
很多人都不知道什么是淘宝客，今天小编为大家解答一下吧。淘宝客，现在简称淘客，是时下比较流行的一个词语，特质为淘宝店推广商品获取提成的人，这些人没有自己的产品，只是在淘宝里面选择适合自己的产品，在自己比较熟悉的领域推广，把产品卖出去之后，会从淘宝店家那里获得百分之五到百分之五十左右的佣金。淘宝客付出的是什么呢？时间。你需要花时间去选适合自己推广的产品，需要花时间去选自己的推广方法，如果你打算自己做个
那个严厉的启蒙老师小米星的天空
本文参加鹏哥教师节征文活动我的启蒙老师李老师，大概是唯一动手打过我，但是我仍然很感恩的老师吧。李老师当年四十多岁，擅长珠心算教学，算是我们乡镇小学的王牌老师。李老师很严厉，不仅要骂学生，还要动手打人，他的大眼睛一瞪，全班同学都瑟瑟发抖。在九十年代，家长不像现在这样宠溺孩子。许多家长都跟老师说，管得严一点，不听话就给我打。那时候棍棒教育是很正常的，教室里的木质米尺，常常因为被用来打调皮男生的屁股而折
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
EIO国际确定性的交易（3/10）资管，资金委托安全吗？古城鹏哥
大家可能都知道资金托管，账户是自己开，钱在自己的账户上，密码是由自己掌控，别人提不走你账户的资金，每天可以看下到自己的账户，也可以看到交易流水。现金只能提到自己的银行卡中。账户由技术人员或操作人员，或者是机构团队帮你操作账户，产生盈利和收入，以获得的利润来分配盈利，技术强硬和做的时间久了过硬技术团队，会保证你的资金本金，不会让你的本金亏损的按照一定比例分配收入。所以在这个过程当中一定要看清楚技术的
2018-07-20 韻梅
念亲爱的好感谢亲爱的每天照顾我们！因为有你我们心里踏实！念儿子的好儿子感谢你昨晚为我们煎手抓饼，让我们感到你满满的爱与幸福:你煎的与外边买的没有区别，也是脆脆的金黄黄的！我也不担心你的温饱问题，因为你能自己做简单的点心啊！儿子已经长大了，妈妈可要享福了咯！儿子加油！只要你敢想敢行动定能会成功的！
我希望，你快乐浅香笑
你总说，你过于沉闷我知道，那只是你的外衣你低垂的眉眼里常盛开你从未言语的笑意你总说，请忽视你的悲伤我知道，你对他人暖意的安慰是如此的渴望！其实那滑落的泪珠不是没人心疼你总说，你喜欢一个人的角落在那里你安然的做自己我知道，人生来就是群居动物没谁喜欢一直孤独的旅程你总说，总说……我知道，都知道试着放开自己吧，给予他人你的美丽，拥抱他人的善意你知道的，我希望，你快乐啊
4招写出高价值文章 zhiliner
文章写得泛泛是因为思考得不够深，思考得越深文章会越有价值。拿到一个主题一定要去深入挖掘事件背后的东西，比如人物困境以及趋势性的东西。写作过程中有几个深度思考的方法一、解剖，让旧素材焕发新意作为一个写作者，我们能够做的最大贡献，就是给出自己看世界的角度。解剖其实就是把这个话题相关的信息都列出来，详细的列出来，看清楚它的内部。我们看到一个老话题或者一段旧素材的时候，不要只看这个素材或者话题本身，一定要
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
2022-08-28 蔚蓝一片晴
初三暑假培训收获点滴从8月25至8月27日三天两晚的培训结束了，回到家中，该静下心来整理一下触动心灵的收获，成为成长的积淀。1.在优秀团队中快速成长与提升，做一名反思成长型教师一名专业型教师的教学指导包括了教学原理知识、案例知识、策略知识。面对教学中的遇到的有趣的情形、问题会去研究其理，寻找更好的教法学法对策。从新手到成熟型教师，再走向专业型教师，需要的是觉醒与反思，多进行案例研究，从案例中观察、
中原焦点团队网络初中级30期阴丽丽坚持分享第三百八十八次2022.10.18分享约练次数（74）咨询师（6）来访者（53）观察者（15）阴丽丽
今天是忙碌的一天，一早起来，总想着找点把事情弄完，可总也弄不完。就这样弄着吧！孩子的事，自己的事都在那里搁置着，不想做，有点欧！今天总体还不错，只是在下午起床时走神了俩小时，也算是给自己的放松吧！今日难得1.儿子乖巧、听话，努力配合，一天下来也是忙忙碌碌，这真的很难得！2.儿子今天录的视频被班主任认可，这真的很难得3.我今天早上做核酸时，自己把教案整了一下，这真的很难得
做好总书记心中的新青年漂洋过海来看岐岐
习近平总书记在党的二十大报告中强调：“广大青年要坚定不移听党话、跟党走，怀抱梦想又脚踏实地，敢想敢为又善作善成，立志做有理想、敢担当、能吃苦、肯奋斗的新时代好青年。”青年的本领要从基层一线的服务中来，主动跟群众交友，促膝长谈交心，深入基层，为民排忧解难。俗话说，事业都是拼搏出来的，但事业取得成功的前提是要有过硬的本领、足够精湛的技艺，只要肯学习，坚持学以致用，努力求得真知、锤炼本领，就一定会有所收
ViewController添加button按钮解析。（翻译）张亚雄 c
<div class="it610-blog-content-contain" style="font-size: 14px"></div>// ViewController.m // Reservation software // // Created by 张亚雄 on 15/6/2.
mongoDB 简单的增删改查开窍的石头 mongodb
在上一篇文章中我们已经讲了mongodb怎么安装和数据库/表的创建。在这里我们讲mongoDB的数据库操作在mongo中对于不存在的表当你用db.表名他会自动统计下边用到的user是表明，db代表的是数据库添加(insert):
log4j配置 0624chenhong log4j
1) 新建java项目 2) 导入jar包，项目右击，properties—java build path—libraries—Add External jar，加入log4j.jar包。 3) 新建一个类com.hand.Log4jTest package com.hand; import org.apache.log4j.Logger; public class
多点触摸(图片缩放为例) 不懂事的小屁孩多点触摸
多点触摸的事件跟单点是大同小异的，上个图片缩放的代码，供大家参考一下 import android.app.Activity; import android.os.Bundle; import android.view.MotionEvent; import android.view.View; import android.view.View.OnTouchListener
有关浏览器窗口宽度高度几个值的解析换个号韩国红果果 JavaScript html
1 元素的 offsetWidth 包括border padding content 整体的宽度。 clientWidth 只包括内容区 padding 不包括border。 clientLeft = offsetWidth -clientWidth 即这个元素border的值 offsetLeft 若无已定位的包裹元素
数据库产品巡礼：IBM DB2概览蓝儿唯美 db2
IBM DB2是一个支持了NoSQL功能的关系数据库管理系统，其包含了对XML，图像存储和Java脚本对象表示（JSON）的支持。DB2可被各种类型的企业使用，它提供了一个数据平台，同时支持事务和分析操作，通过提供持续的数据流来保持事务工作流和分析操作的高效性。 DB2支持的操作系统 DB2可应用于以下三个主要的平台: 工作站，DB2可在Linus、Unix、Windo
java笔记5 a-john java
控制执行流程： 1，true和false 利用条件表达式的真或假来决定执行路径。例：（a==b）。它利用条件操作符“==”来判断a值是否等于b值，返回true或false。java不允许我们将一个数字作为布尔值使用，虽然这在C和C++里是允许的。如果想在布尔测试中使用一个非布尔值，那么首先必须用一个条件表达式将其转化成布尔值，例如if(a!=0)。 2，if-els
Web开发常用手册汇总 aijuans PHP
一门技术，如果没有好的参考手册指导,很难普及大众。这其实就是为什么很多技术，非常好，却得不到普遍运用的原因。正如我们学习一门技术，过程大概是这个样子： ①我们日常工作中，遇到了问题，困难。寻找解决方案，即寻找新的技术； ②为什么要学习这门技术？这门技术是不是很好的解决了我们遇到的难题，困惑。这个问题，非常重要，我们不是为了学习技术而学习技术，而是为了更好的处理我们遇到的问题，才需要学习新的
今天帮助人解决的一个sql问题 asialee sql
今天有个人问了一个问题，如下： type AD value A
意图对象传递数据百合不是茶 android 意图Intent Bundle对象数据的传递
学习意图将数据传递给目标活动; 初学者需要好好研究的 1,将下面的代码添加到main.xml中 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http:/
oracle查询锁表解锁语句 bijian1013 oracle object session kill
一.查询锁定的表如下语句，都可以查询锁定的表语句一： select a.sid, a.serial#, p.spid, c.object_name, b.session_id, b.oracle_username, b.os_user_name from v$process p, v$s
mac osx 10.10 下安装 mysql 5.6 二进制文件［tar.gz］征客丶 mysql osx
场景：在 mac osx 10.10 下安装 mysql 5.6 的二进制文件。环境：mac osx 10.10、mysql 5.6 的二进制文件步骤：[所有目录请从根“/”目录开始取，以免层级弄错导致找不到目录] 1、下载 mysql 5.6 的二进制文件，下载目录下面称之为 mysql5.6SourceDir；下载地址：http://dev.mysql.com/downl
分布式系统与框架 bit1129 分布式
RPC框架 Dubbo 什么是Dubbo Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含: 远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。集群容错: 提供基于接
那些令人蛋痛的专业术语白糖_ spring Web SSO IOC
spring 【控制反转(IOC)/依赖注入(DI)】：由容器控制程序之间的关系，而非传统实现中，由程序代码直接操控。这也就是所谓“控制反转”的概念所在：控制权由应用代码中转到了外部容器，控制权的转移，是所谓反转。简单的说：对象的创建又容器(比如spring容器)来执行，程序里不直接new对象。 Web 【单点登录(SSO)】：SSO的定义是在多个应用系统中，用户
《给大忙人看的java8》摘抄 braveCS java8
函数式接口：只包含一个抽象方法的接口 lambda表达式：是一段可以传递的代码你最好将一个lambda表达式想象成一个函数，而不是一个对象，并记住它可以被转换为一个函数式接口。事实上，函数式接口的转换是你在Java中使用lambda表达式能做的唯一一件事。方法引用：又是要传递给其他代码的操作已经有实现的方法了，这时可以使
编程之美-计算字符串的相似度 bylijinnan java 算法编程之美
public class StringDistance { /** * 编程之美计算字符串的相似度 * 我们定义一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为： * 1.修改一个字符（如把“a”替换为“b”）; * 2.增加一个字符（如把“abdd”变为“aebdd”）; * 3.删除一个字符（如把“travelling”变为“trav
上传、下载压缩图片 chengxuyuancsdn 下载
/** * * @param uploadImage --本地路径(tomacat路径) * @param serverDir --服务器路径 * @param imageType --文件或图片类型 * 此方法可以上传文件或图片.txt,.jpg,.gif等 */ public void upload(String uploadImage,Str
bellman-ford(贝尔曼-福特)算法 comsci 算法 F#
Bellman-Ford算法(根据发明者 Richard Bellman 和 Lester Ford 命名)是求解单源最短路径问题的一种算法。单源点的最短路径问题是指：给定一个加权有向图G和源点s，对于图G中的任意一点v，求从s到v的最短路径。有时候这种算法也被称为 Moore-Bellman-Ford 算法，因为 Edward F. Moore zu 也为这个算法的发展做出了贡献。与迪科
oracle ASM中ASM_POWER_LIMIT参数 daizj ASM oracle ASM_POWER_LIMIT 磁盘平衡
ASM_POWER_LIMIT 该初始化参数用于指定ASM例程平衡磁盘所用的最大权值，其数值范围为0~11，默认值为1。该初始化参数是动态参数，可以使用ALTER SESSION或ALTER SYSTEM命令进行修改。示例如下： SQL>ALTER SESSION SET Asm_power_limit=2;
高级排序:快速排序 dieslrae 快速排序
public void quickSort(int[] array){ this.quickSort(array, 0, array.length - 1); } public void quickSort(int[] array,int left,int right){ if(right - left <= 0
C语言学习六指针_何谓变量的地址一个指针变量到底占几个字节 dcj3sjt126com C语言
# include <stdio.h> int main(void) { /* 1、一个变量的地址只用第一个字节表示 2、虽然他只使用了第一个字节表示，但是他本身指针变量类型就可以确定出他指向的指针变量占几个字节了 3、他都只存了第一个字节地址，为什么只需要存一个字节的地址，却占了4个字节，虽然只有一个字节，但是这些字节比较多，所以编号就比较大，
phpize使用方法 dcj3sjt126com PHP
phpize是用来扩展php扩展模块的，通过phpize可以建立php的外挂模块,下面介绍一个它的使用方法,需要的朋友可以参考下安装（fastcgi模式）的时候，常常有这样一句命令：代码如下: /usr/local/webserver/php/bin/phpize 一、phpize是干嘛的？ phpize是什么？ phpize是用来扩展php扩展模块的，通过phpi
Java虚拟机学习 - 对象引用强度 shuizhaosi888 JAVA虚拟机
本文原文链接：http://blog.csdn.net/java2000_wl/article/details/8090276 转载请注明出处！无论是通过计数算法判断对象的引用数量，还是通过根搜索算法判断对象引用链是否可达，判定对象是否存活都与“引用”相关。引用主要分为：强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Wea
.NET Framework 3.5 Service Pack 1（完整软件包）下载地址 happyqing .net 下载 framework
Microsoft .NET Framework 3.5 Service Pack 1（完整软件包） http://www.microsoft.com/zh-cn/download/details.aspx?id=25150 Microsoft .NET Framework 3.5 Service Pack 1 是一个累积更新，包含很多基于 .NET Framewo
JAVA定时器的使用 jingjing0907 java timer 线程定时器
1、在应用开发中，经常需要一些周期性的操作，比如每5分钟执行某一操作等。对于这样的操作最方便、高效的实现方式就是使用java.util.Timer工具类。 privatejava.util.Timer timer; timer = newTimer(true); timer.schedule( newjava.util.TimerTask() { public void run()
Webbench 流浪鱼 webbench
首页下载地址 http://home.tiscali.cz/~cz210552/webbench.html Webbench是知名的网站压力测试工具，它是由Lionbridge公司（http://www.lionbridge.com）开发。 Webbench能测试处在相同硬件上，不同服务的性能以及不同硬件上同一个服务的运行状况。webbench的标准测试可以向我们展示服务器的两项内容：每秒钟相
第11章动画效果（中） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
windows下制作bat启动脚本. sanyecao2314 java cmd 脚本 bat
java -classpath C:\dwjj\commons-dbcp.jar;C:\dwjj\commons-pool.jar;C:\dwjj\log4j-1.2.16.jar;C:\dwjj\poi-3.9-20121203.jar;C:\dwjj\sqljdbc4.jar;C:\dwjj\voucherimp.jar com.citsamex.core.startup.MainStart
Java进行RSA加解密的例子 tomcat_oracle java
加密是保证数据安全的手段之一。加密是将纯文本数据转换为难以理解的密文；解密是将密文转换回纯文本。　　数据的加解密属于密码学的范畴。通常，加密和解密都需要使用一些秘密信息，这些秘密信息叫做密钥，将纯文本转为密文或者转回的时候都要用到这些密钥。　　对称加密指的是发送者和接收者共用同一个密钥的加解密方法。　　非对称加密(又称公钥加密)指的是需要一个私有密钥一个公开密钥，两个不同的密钥的
Android_ViewStub 阿尔萨斯 ViewStub
public final class ViewStub extends View java.lang.Object android.view.View android.view.ViewStub 类摘要： ViewStub 是一个隐藏的，不占用内存空间的视图对象，它可以在运行时延迟加载布局资源文件。当 ViewSt