mimimya

python+机器学习方法进行情感分析

不是有词典匹配的方法了吗？怎么还搞多个机器学习方法。

因为词典方法和机器学习方法各有千秋。

机器学习的方法精确度更高，因为词典匹配会由于语义表达的丰富性而出现很大误差，而机器学习方法不会。而且它可使用的场景更多样。无论是主客观分类还是正负面情感分类，机器学习都可以完成任务。而无需像词典匹配那样要深入到词语、句子、语法这些层面。

回复此公众号“web”获取源码，以及word版原文查看。向小编咨询问题，联系微信：hai299014

而词典方法适用的语料范围更广，无论是手机、电脑这些商品，还是书评、影评这些语料，都可以适用。但机器学习则极度依赖语料，把手机语料训练出来的的分类器拿去给书评分类，那是注定要失败的。

使用机器学习进行情感分析，可以换一个相同意思的说法，就是用有监督的（需要人工标注类别）机器学习方法来对文本进行分类。

这点与词典匹配有着本质的区别。词典匹配是直接计算文本中的情感词，得出它们的情感倾向分值。而机器学习方法的思路是先选出一部分表达积极情感的文本和一部分表达消极情感的文本，用机器学习方法进行训练，获得一个情感分类器。再通过这个情感分类器对所有文本进行积极和消极的二分分类。最终的分类可以为文本给出0或1这样的类别，也可以给出一个概率值，比如”这个文本的积极概率是90%，消极概率是10%“。

Python 有良好的程序包可以进行情感分类，那就是Python 自然语言处理包，Natural Language Toolkit ，简称NLTK 。

NLTK 当然不只是处理情感分析，NLTK 有着整套自然语言处理的工具，从分词到实体识别，从情感分类到句法分析，完整而丰富，功能强大。实乃居家旅行，越货杀人之必备良药。

两本NLTK 的参考书，非常好用。一本是《Python 自然语言处理》，这是《Natural Language Processing with Python》的中文翻译版，是志愿者翻译没有出版社出版的，开源精神万岁！另一本是《Python Text Processing with NLTK 2.0 Cookbook》，这本书写得清晰明了，虽然是英文版的，看起来也很舒服。特别值得一提的是，该书作者Jacob 就是NLTK 包的主要贡献者之一。而且他的博客中有一系列的文章是关于使用机器学习进行情感分类的，我的代码可以说是完全基于他的，在此表示我的感谢。

其实还有国外作者也被他启发，用Python 来处理情感分类。比如这篇文章，写得特别详细认真，也是我重点参考的文章，他的代码我也有所借用。

Jacob 在文章中也有提到，近段时间NLTK 新增的scikit-learn 的接口，使得它的分类功能更为强大好用了，可以用很多高端冷艳的分类算法了。于是我又滚过去看scikit-learn 。简直是天赐我好工具，妈妈再也不用担心我用不了机器学习啦！

有了scikit-learn 的接口，NLTK 做分类变得比之前更简单快捷，但是相关的结合NLTK 和 sciki-learn 的文章实在少，这篇文章是仅有的讲得比较详细的把两者结合的，在此也表示感谢。

但对于我而言还是有点不够的，因为中文和英文有一定的差别，而且上面提到的一些博客里面的代码也是需要改动的。终于把一份代码啃完之后，能写出一个跑得通的中文情感分类代码了。接下来会介绍它的实现思路和具体代码。

在这个系列的文章里面，机器学习都可以认为是有监督的分类方法。

总体流程如图：

图1：机器学习的流程和结构（摘自《Natural Language Processing with Python》）

一、有监督意味着需要人工标注，需要人为的给文本一个类标签。

比如我有5000条商品评论，如果我要把这些评论分成积极和消极两类。那我就可以先从里面选2000条评论，然后对这2000条数据进行人工标注，把这2000条评论标为“积极”或“消极”。这“积极”和“消极”就是类标签。

假设有1000条评论被标为“积极”，有1000条评论被标为“消极”。（两者数量相同对训练分类器是有用的，如果实际中数量不相同，应该减少和增加数据以使得它们数量相同）

二、之后就要选择特征。

特征就是分类对象所展现的部分特点，是实现分类的依据。我们经常会做出分类的行为，那我们依据些什么进行分类呢？

举个例子，如果我看到一个年轻人，穿着新的正装，提着崭新的公文包，快步行走，那我就会觉得他是一个刚入职的职场新人。在这里面，“崭新”，“正装”，“公文包”，“快步行走”都是这个人所展现出的特点，也是我用来判断这个人属于哪一类的依据。这些特点和依据就是特征。可能有些特征对我判断更有用，有些对我判断没什么用，有些可能会让我判断错误，但这些都是我分类的依据。

我们没办法发现一个人的所有特点，所以我们没办法客观的选择所有特点，我们只能主观的选择一部分特点来作为我分类的依据。这也是特征选择的特点，需要人为的进行一定选择。

而在情感分类中，一般从“词”这个层次来选择特征。

比如这句话“手机非常好用！”，我给了它一个类标签“Positive”。里面有四个词（把感叹号也算上），“手机”，“非常”，“好用”，“！”。我可以认为这4个词都对分类产生了影响，都是分类的依据。也就是无论什么地方出现了这四个词的其中之一，文本都可以被分类为“积极”。这个是把所有词都作为分类特征。

同样的，对这句话，我也可以选择它的双词搭配（Bigrams）作为特征。比如“手机非常”，“非常好用”，“好用！”这三个搭配作为分类的特征。以此类推，三词搭配（Trigrams），四词搭配都是可以被作为特征的。

三、再之后特征要降维。

特征降维说白了就是减少特征的数量。这有两个意义，一个是特征数量减少了之后可以加快算法计算的速度（数量少了当然计算就快了），另一个是如果用一定的方法选择信息量丰富的特征，可以减少噪音，有效提高分类的准确率。

所谓信息量丰富，可以看回上面这个例子“手机非常好用！”，很明显，其实不需要把“手机”，“非常”，“好用”，“！”这4个都当做特征，因为“好用”这么一个词，或者“非常好用”这么一个双词搭配就已经决定了这个句子是“积极”的。这就是说，“好用”这个词的信息量非常丰富。

那要用什么方法来减少特征数量呢？答案是通过一定的统计方法找到信息量丰富的特征。

统计方法包括：词频（Term Frequency）、文档频率（Document Frequency）、互信息（Pointwise Mutual Information）、信息熵（Information Entropy）、卡方统计（Chi-Square）等等。

在情感分类中，用词频选择特征，也就是选在语料库中出现频率高的词。比如我可以选择语料库中词频最高的2000个词作为特征。用文档频率选特征，是选在语料库的不同文档中出现频率最高的词。而其它三个，太高端冷艳，表示理解得还不清楚，暂且不表。。。

不过意思都是一样的，都是要通过某个统计方法选择信息量丰富的特征。特征可以是词，可以是词组合。

四、把语料文本变成使用特征表示。

在使用分类算法进行分类之前，第一步是要把所有原始的语料文本转化为特征表示的形式。

还是以上面那句话做例子，“手机非常好用！”

如果在NLTK 中，如果选择所有词作为特征，其形式是这样的：[ {“手机”: True, “非常”: True, “好用”: True, “！”: True} , positive]

如果选择双词作为特征，其形式是这样的：[ {“手机非常”: True, “非常好用”: True, “好用！”: True} , positive ]

如果选择信息量丰富的词作为特征，其形式是这样的：[ {“好用”: True} , positive ]

（NLTK需要使用字典和数组两个数据类型，True 表示对应的元素是特征。至于为什么要用True 这样的方式，我也不知道。。。反正见到的例子都是这样的。。。有空再研究看是不是可以不这样的吧）

无论使用什么特征选择方法，其形式都是一样的。都是[ {“特征1”: True, “特征2”: True, “特征N”: True, }, 类标签 ]

五、把用特征表示之后的文本分成开发集和测试集，把开发集分成训练集和开发测试集。

机器学习分类必须有数据给分类算法训练，这样才能得到一个（基于训练数据的）分类器。

有了分类器之后，就需要检测这个分类器的准确度。

根据《Python 自然语言处理》的方法，数据可以分为开发集合测试集。开发集专门用于不断调整和发现最佳的分类算法和特征维度（数量），测试集应该一直保持“不被污染”。在开发集开发完毕之后，再使用测试集检验由开发集确定的最佳算法和特征维度的效果。具体如图：

图2：开发集和测试集（摘自《Natural Language Processing with Python》）

一般来说，训练集的数量应该远大于测试集，这样分类算法才能找出里面的规律，构建出高效的分类器。

用回前面的例子。假设2000条已经标注了积极和消极的评论数据，开发集可以是随机的1600条，测试集是剩余的随机400条。然后开发集中，训练集可以是随机的1400条，开发测试集是200条。

六、用不同的分类算法给训练集构建分类器，用开发测试集检验分类器的准确度（选出最佳算法后可以调整特征的数量来测试准确度）。

这个时候终于可以使用各种高端冷艳的机器学习算法啦！

我们的目标是：找到最佳的机器学习算法。

可以使用朴素贝叶斯（NaiveBayes），决策树（Decision Tree）等NLTK 自带的机器学习方法。也可以更进一步，使用NLTK 的scikit-learn 接口，这样就可以调用scikit-learn 里面的所有，对，是所有机器学习算法了。我已经忍不住的泪流满面。

其实方法很容易。只要以下五步。

1. 仅仅使用开发集（Development Set）。

2. 用分类算法训练里面的训练集（Training Set），得出分类器。

3. 用分类器给开发测试集分类（Dev-Test Set），得出分类结果。

4. 对比分类器给出的分类结果和人工标注的正确结果，给出分类器的准确度。

5. 使用另一个分类算法，重复以上三步。

在检验完所有算法的分类准确度之后，就可以选出最好的一个分类算法了。

在选出最好的分类算法之后，就可以测试不同的特征维度对分类准确度的影响了。一般来说，特征太少则不足以反映分类的所有特点，使得分类准确率低；特征太多则会引入噪音，干扰分类，也会降低分类准确度。所以，需要不断的测试特征的数量，这样才可以得到最佳的分类效果。

七、选择出开发集中最佳的分类算法和特征维度，使用测试集检验得出情感分类的准确度。

在终于得到最佳分类算法和特征维度（数量）之后，就可以动用测试集。

直接用最优的分类算法对测试集进行分类，得出分类结果。对比分类器的分类结果和人工标注的正确结果，给出分类器的最终准确度。

用Python 进行机器学习及情感分析，需要用到两个主要的程序包：nltk 和 scikit-learn

nltk 主要负责处理特征提取（双词或多词搭配需要使用nltk 来做）和特征选择（需要nltk 提供的统计方法）。

scikit-learn 主要负责分类算法，评价分类效果，进行分类等任务。

接下来会有四篇文章按照以下步骤来实现机器学习的情感分析。

1. 特征提取和特征选择（选择最佳特征）

2. 赋予类标签，分割开发集和测试集

3. 构建分类器，检验分类准确度，选择最佳分类算法
4.存储和使用最佳分类器进行分类，分类结果为概率值

首先是特征提取和选择

一、特征提取方法

1. 把所有词作为特征

def bag_of_words(words):
    return dict([(word, True) for word in words])

返回的是字典类型，这是nltk 处理情感分类的一个标准形式。

2. 把双词搭配（bigrams）作为特征

import nltk
from nltk.collocations import BigramCollocationFinder
from nltk.metrics import BigramAssocMeasures

def bigram(words, score_fn=BigramAssocMeasures.chi_sq, n=1000):
    bigram_finder = BigramCollocationFinder.from_words(words)  #把文本变成双词搭配的形式
    bigrams = bigram_finder.nbest(score_fn, n) #使用了卡方统计的方法，选择排名前1000的双词
    return bag_of_words(bigrams)

除了可以使用卡方统计来选择信息量丰富的双词搭配，还可以使用其它的方法，比如互信息（PMI）。而排名前1000也只是人工选择的阈值，可以随意选择其它值，可经过测试一步步找到最优值。

3. 把所有词和双词搭配一起作为特征

def bigram_words(words, score_fn=BigramAssocMeasures.chi_sq, n=1000):
    bigram_finder = BigramCollocationFinder.from_words(words)
    bigrams = bigram_finder.nbest(score_fn, n)
    return bag_of_words(words + bigrams)  #所有词和（信息量大的）双词搭配一起作为特征

二、特征选择方法

有了提取特征的方法后，我们就可以提取特征来进行分类学习了。但一般来说，太多的特征会降低分类的准确度，所以需要使用一定的方法，来“选择”出信息量最丰富的特征，再使用这些特征来分类。

特征选择遵循如下步骤：

1. 计算出整个语料里面每个词的信息量

2. 根据信息量进行倒序排序，选择排名靠前的信息量的词

3. 把这些词作为特征

1. 计算出整个语料里面每个词的信息量

1.1 计算整个语料里面每个词的信息量

from nltk.probability import FreqDist, ConditionalFreqDist

def create_word_scores():
    posWords = pickle.load(open('D:/code/sentiment_test/pos_review.pkl','r'))
  .....
    return word_scores #包括了每个词和这个词的信息量

1.2 计算整个语料里面每个词和双词搭配的信息量

def create_word_bigram_scores():
    posdata = pickle.load(open('D:/code/sentiment_test/pos_review.pkl','r'))
    negdata = pickle.load(open('D:/code/sentiment_test/neg_review.pkl','r'))
    
   .....
    return word_scores

2. 根据信息量进行倒序排序，选择排名靠前的信息量的词

def find_best_words(word_scores, number):
    best_vals = sorted(word_scores.iteritems(), key=lambda (w, s): s, reverse=True)[:number] #把词按信息量倒序排序。number是特征的维度，是可以不断调整直至最优的
    best_words = set([w for w, s in best_vals])
    return best_words

然后需要对find_best_words 赋值，如下：

word_scores_1 = create_word_scores()
word_scores_2 = create_word_bigram_scores()

3. 把选出的这些词作为特征（这就是选择了信息量丰富的特征）

def best_word_features(words):
    return dict([(word, True) for word in words if word in best_words])

三、检测哪中特征选择方法更优

见构建分类器，检验分类准确度，选择最佳分类算法

第一步，载入数据。

要做情感分析，首要的是要有数据。

数据是人工已经标注好的文本，有一部分积极的文本，一部分是消极的文本。

文本是已经分词去停用词的商品评论，形式大致如下：[[word11, word12, ... word1n], [word21, word22, ... , word2n], ... , [wordn1, wordn2, ... , wordnn]]

这是一个多维数组，每一维是一条评论，每条评论是已经又该评论的分词组成。

#! /usr/bin/env python2.7
#coding=utf-8

pos_review = pickle.load(open('D:/code/sentiment_test/pos_review.pkl','r'))
neg_review = pickle.load(open('D:/code/sentiment_test/neg_review.pkl','r'))

我用pickle 存储了相应的数据，这里直接载入即可。

第二步，使积极文本的数量和消极文本的数量一样。

from random import shuffle

shuffle(pos_review) #把积极文本的排列随机化
size = int(len(pos_review)/2 - 18)
pos = pos_review[:size]
neg = neg_review

我这里积极文本的数据恰好是消极文本的2倍还多18个，所以为了平衡两者数量才这样做。

第三步，赋予类标签。

def pos_features(feature_extraction_method):
    posFeatures = []
   ....
        negFeatures.append(negWords)
    return negFeatures

这个需要用特征选择方法把文本特征化之后再赋予类标签。

第四步、把特征化之后的数据数据分割为开发集和测试集

train = posFeatures[174:]+negFeatures[174:]
devtest = posFeatures[124:174]+negFeatures[124:174]
test = posFeatures[:124]+negFeatures[:124]

这里把前124个数据作为测试集，中间50个数据作为开发测试集，最后剩下的大部分数据作为训练集。

在把文本转化为特征表示，并且分割为开发集和测试集之后，我们就需要针对开发集进行情感分类器的开发。测试集就放在一边暂时不管。

开发集分为训练集（Training Set）和开发测试集（Dev-Test Set）。训练集用于训练分类器，而开发测试集用于检验分类器的准确度。

为了检验分类器准确度，必须对比“分类器的分类结果”和“人工标注的正确结果”之间的差异。

所以第一步，是要把开发测试集中，人工标注的标签和数据分割开来。第二步是使用训练集训练分类器；第三步是用分类器对开发测试集里面的数据进行分类，给出分类预测的标签；第四步是对比分类标签和人工标注的差异，计算出准确度。

一、分割人工标注的标签和数据

dev, tag_dev = zip(*devtest) #把开发测试集（已经经过特征化和赋予标签了）分为数据和标签

二到四、可以用一个函数来做

def score(classifier):
    classifier = SklearnClassifier(classifier) #在nltk 中使用scikit-learn 的接口
    classifier.train(train) #训练分类器

    pred = classifier.batch_classify(testSet) #对开发测试集的数据进行分类，给出预测的标签
    return accuracy_score(tag_test, pred) #对比分类预测结果和人工标注的正确结果，给出分类器准确度

之后我们就可以简单的检验不同分类器和不同的特征选择的结果

import sklearn
.....
print 'NuSVC`s accuracy is %f' %score(NuSVC())

1. 我选择了六个分类算法，可以先看到它们在使用所有词作特征时的效果：

BernoulliNB`s accuracy is 0.790000
MultinomiaNB`s accuracy is 0.810000
LogisticRegression`s accuracy is 0.710000
SVC`s accuracy is 0.650000
LinearSVC`s accuracy is 0.680000
NuSVC`s accuracy is 0.740000

2. 再看使用双词搭配作特征时的效果（代码改动如下地方即可）

posFeatures = pos_features(bigrams)
negFeatures = neg_features(bigrams)

结果如下：

BernoulliNB`s accuracy is 0.710000
MultinomiaNB`s accuracy is 0.750000
LogisticRegression`s accuracy is 0.790000
SVC`s accuracy is 0.750000
LinearSVC`s accuracy is 0.770000
NuSVC`s accuracy is 0.780000

3. 再看使用所有词加上双词搭配作特征的效果

posFeatures = pos_features(bigram_words)
negFeatures = neg_features(bigram_words)

结果如下：

BernoulliNB`s accuracy is 0.780000
MultinomiaNB`s accuracy is 0.780000
LogisticRegression`s accuracy is 0.780000
SVC`s accuracy is 0.600000
LinearSVC`s accuracy is 0.790000
NuSVC`s accuracy is 0.790000

可以看到在不选择信息量丰富的特征时，仅仅使用全部的词或双词搭配作为特征，分类器的效果并不理想。

接下来将使用卡方统计量（Chi-square）来选择信息量丰富的特征，再用这些特征来训练分类器。

4. 计算信息量丰富的词，并以此作为分类特征

word_scores = create_word_scores()
best_words = find_best_words(word_scores, 1500) #选择信息量最丰富的1500个的特征

posFeatures = pos_features(best_word_features)
negFeatures = neg_features(best_word_features)

结果如下：

BernoulliNB`s accuracy is 0.870000
MultinomiaNB`s accuracy is 0.860000
LogisticRegression`s accuracy is 0.730000
SVC`s accuracy is 0.770000
LinearSVC`s accuracy is 0.720000
NuSVC`s accuracy is 0.780000

可见贝叶斯分类器的分类效果有了很大提升。

5. 计算信息量丰富的词和双词搭配，并以此作为特征

word_scores = create_word_bigram_scores()
best_words = find_best_words(word_scores, 1500) #选择信息量最丰富的1500个的特征

posFeatures = pos_features(best_word_features)
negFeatures = neg_features(best_word_features)

结果如下：

BernoulliNB`s accuracy is 0.910000
MultinomiaNB`s accuracy is 0.860000
LogisticRegression`s accuracy is 0.800000
SVC`s accuracy is 0.800000
LinearSVC`s accuracy is 0.750000
NuSVC`s accuracy is 0.860000

可以发现贝努利的贝叶斯分类器效果继续提升，同时NuSVC 也有很大的提升。

此时，我们选用BernoulliNB、MultinomiaNB、NuSVC 作为候选分类器，使用词和双词搭配作为特征提取方式，测试不同的特征维度的效果。

dimension = ['500','1000','1500','2000','2500','3000']

for d in dimension:
    word_scores = create_word_scores_bigram()
    best_words = find_best_words(word_scores, int(d))

    posFeatures = pos_features(best_word_features)
    negFeatures = neg_features(best_word_features)


    train = posFeatures[174:]+negFeatures[174:]
    devtest = posFeatures[124:174]+negFeatures[124:174]
    test = posFeatures[:124]+negFeatures[:124]
    dev, tag_dev = zip(*devtest)

    print 'Feature number %f' %d
    print 'BernoulliNB`s accuracy is %f' %score(BernoulliNB())
    print 'MultinomiaNB`s accuracy is %f' %score(MultinomialNB())
    print 'LogisticRegression`s accuracy is %f' %score(LogisticRegression())
    print 'SVC`s accuracy is %f' %score(SVC())
    print 'LinearSVC`s accuracy is %f' %score(LinearSVC())
    print 'NuSVC`s accuracy is %f' %score(NuSVC())
    print

结果如下（很长。。）：

Feature number 500

BernoulliNB`s accuracy is 0.880000
MultinomiaNB`s accuracy is 0.850000
LogisticRegression`s accuracy is 0.740000
SVC`s accuracy is 0.840000
LinearSVC`s accuracy is 0.700000
NuSVC`s accuracy is 0.810000

Feature number 1000
BernoulliNB`s accuracy is 0.860000
MultinomiaNB`s accuracy is 0.850000
LogisticRegression`s accuracy is 0.750000
SVC`s accuracy is 0.800000
LinearSVC`s accuracy is 0.720000
NuSVC`s accuracy is 0.760000

Feature number 1500
BernoulliNB`s accuracy is 0.870000
MultinomiaNB`s accuracy is 0.860000
LogisticRegression`s accuracy is 0.770000
SVC`s accuracy is 0.770000
LinearSVC`s accuracy is 0.750000
NuSVC`s accuracy is 0.790000

Feature number 2000
BernoulliNB`s accuracy is 0.870000
MultinomiaNB`s accuracy is 0.850000
LogisticRegression`s accuracy is 0.770000
SVC`s accuracy is 0.690000
LinearSVC`s accuracy is 0.700000
NuSVC`s accuracy is 0.800000

Feature number 2500
BernoulliNB`s accuracy is 0.850000
MultinomiaNB`s accuracy is 0.830000
LogisticRegression`s accuracy is 0.780000
SVC`s accuracy is 0.700000
LinearSVC`s accuracy is 0.730000
NuSVC`s accuracy is 0.800000

Feature number 3000
BernoulliNB`s accuracy is 0.850000
MultinomiaNB`s accuracy is 0.830000
LogisticRegression`s accuracy is 0.780000
SVC`s accuracy is 0.690000
LinearSVC`s accuracy is 0.710000
NuSVC`s accuracy is 0.800000

把上面的所有测试结果进行综合可汇总如下：

不同分类器的不同特征选择方法效果

	bag_of_words	bigrams	bigram_words	best_word_feature	best_word_bigram_feature
BernoulliNB	0.79	0.71	0.78	0.87	0.91
MultinomiaNB	0.81	0.75	0.78	0.86	0.86
LogisticRegression	0.71	0.79	0.78	0.73	0.8
SVC	0.65	0.75	0.6	0.77	0.8
LinearSVC	0.68	0.77	0.79	0.72	0.75
NuSVC	0.74	0.78	0.79	0.78	0.86

候选分类器在不同特征维度下的效果

	500	1000	1500	2000	2500	3000
BernoulliNB	0.88	0.86	0.87	0.87	0.85	0.85
MultinomiaNB	0.85	0.85	0.86	0.85	0.83	0.83
NuSVC	0.81	0.76	0.79	0.7	0.8	0.8

综合来看，可以看出特征维数在500 或 1500的时候，分类器的效果是最优的。

所以在经过上面一系列的分析之后，可以得出如下的结论：

Bernoulli 朴素贝叶斯分类器效果最佳

词和双词搭配作为特征时效果最好

当特征维数为1500时效果最好

为了不用每次分类之前都要训练一次数据，所以可以在用开发集找出最佳分类器后，把最佳分类器存储下来以便以后使用。然后再使用这个分类器对文本进行分类。

一、使用测试集测试分类器的最终效果

word_scores = create_word_bigram_scores() #使用词和双词搭配作为特征
best_words = find_best_words(word_scores, 1500) #特征维度1500

posFeatures = pos_features(best_word_features)
negFeatures = neg_features(best_word_features)

trainSet = posFeatures[:500] + negFeatures[:500] #使用了更多数据
testSet = posFeatures[500:] + negFeatures[500:]
test, tag_test = zip(*testSet)

def final_score(classifier):
    classifier = SklearnClassifier(classifier)
    classifier.train(trainSet)
    pred = classifier.batch_classify(test)
    return accuracy_score(tag_test, pred)

print final_score(BernoulliNB()) #使用开发集中得出的最佳分类器

其结果是很给力的：

0.979166666667

二、把分类器存储下来

（存储分类器和前面没有区别，只是使用了更多的训练数据以便分类器更为准确）

word_scores = create_word_bigram_scores()
best_words = find_best_words(word_scores, 1500)

posFeatures = pos_features(best_word_features)
negFeatures = neg_features(best_word_features)

trainSet = posFeatures + negFeatures

BernoulliNB_classifier = SklearnClassifier(BernoulliNB())
BernoulliNB_classifier.train(trainSet)
pickle.dump(BernoulliNB_classifier, open('D:/code/sentiment_test/classifier.pkl','w'))

在存储了分类器之后，就可以使用该分类器来进行分类了。

三、使用分类器进行分类，并给出概率值

给出概率值的意思是用分类器判断一条评论文本的积极概率和消极概率。给出类别也是可以的，也就是可以直接用分类器判断一条评论文本是积极的还是消极的，但概率可以提供更多的参考信息，对以后判断评论的效用也是比单纯给出类别更有帮助。

1. 把文本变为特征表示的形式

要对文本进行分类，首先要把文本变成特征表示的形式。而且要选择和分类器一样的特征提取方法。

#! /usr/bin/env python2.7
#coding=utf-8

moto = pickle.load(open('D:/code/review_set/senti_review_pkl/moto_senti_seg.pkl','r')) #载入文本数据

def extract_features(data):
    feat = []
    for i in data:
        feat.append(best_word_features(i))
    return feat

moto_features = extract_features(moto) #把文本转化为特征表示的形式

注：载入的文本数据已经经过分词和去停用词处理。

2. 对文本进行分类，给出概率值

import pickle
import sklearn

clf = pickle.load(open('D:/code/sentiment_test/classifier.pkl')) #载入分类器

pred = clf.batch_prob_classify(moto_features) #该方法是计算分类概率值的
p_file = open('D:/code/sentiment_test/score/Motorala/moto_ml_socre.txt','w') #把结果写入文档
for i in pred:
    p_file.write(str(i.prob('pos')) + ' ' + str(i.prob('neg')) + '\n')
p_file.close()

最后分类结果如下图：

前面是积极概率，后面是消极概率

折腾了这么久就为了搞这么一个文件出来。。。这伤不起的节奏已经无人阻挡了吗。。。

不过这个结果确实比词典匹配准确很多，也算欣慰了。。。

转载：http://chuansong.me/n/460790547763

你可能感兴趣的:(文本数据挖掘,数据挖掘,机器学习,情感分析,文本数据挖掘)

Copilot 概述计算机萍萍学姐 copilot copilot 人工智能机器学习
Copilot是什么？它有什么用途？Copilot是由人工智能公司和GitHub合作开发的一个基于人工智能的代码提示工具，它可以利用机器学习技术和大量训练数据生成高质量的代码。Copilot的目标是在保持代码质量和可读性的前提下，提高开发者的编码效率，使得编码工作更为高效和便捷。Copilot的出现是解决编程过程中可能遇到的一些难点和瓶颈问题，特别是在快速迭代的敏捷开发场景中，提高编码效率和减少编
让旅游更智能：基于AR的旅游导览应用解析 Echo_Wish Python 笔记 Python算法旅游 ar restful
友友们好！我的新专栏《Python进阶》正式启动啦！这是一个专为那些渴望提升Python技能的朋友们量身打造的专栏，无论你是已经有一定基础的开发者，还是希望深入挖掘Python潜力的爱好者，这里都将是你不可错过的宝藏。在这个专栏中，你将会找到：●深入解析：每一篇文章都将深入剖析Python的高级概念和应用，包括但不限于数据分析、机器学习、Web开发等。●实战案例：通过丰富的实战案例，带你一步步实现
【AI日志分析】基于机器学习的异常检测：告别传统规则的智能进阶人工智能机器学习深度学习
摘要随着系统规模的扩大和复杂性增加，传统基于规则的日志分析方法难以识别隐藏的复杂异常模式。本文将介绍基于机器学习的日志异常检测技术，包括模型选择、特征工程及实现步骤。通过具体的代码示例与图表，展示如何高效检测异常日志，并提供应用场景与优化策略。引言日志是系统运行状态的关键数据来源，但面对海量日志数据，传统规则式分析显得力不从心。机器学习能够根据日志的历史数据和行为模式，通过训练模型检测异常情况，不
理论五、大模型-Prompt 伯牙碎琴大模型 prompt
一、prompt是什么在大型语言模型集成中，"prompt"是指您向模型提供的输入文本或指令，以引导模型生成特定类型的响应。这个prompt可以是一个问题、一段描述、一个任务说明，甚至是一部分对话历史记录等。通过设计和优化prompt，您可以引导模型生成符合预期的回复或完成特定的任务。在集成大型语言模型时，良好设计的prompt可以帮助模型更准确地理解您的意图，并生成更符合预期的结果。因此，对于不
300行ABAP代码实现一个最简单的区块链原型
在多模态模型的架构上，ChatGPT的绘图能力主要依赖以下几个核心组件：跨模态编码器（Cross-ModalEncoder）：跨模态编码器的作用是将文本和图像的特征进行对齐。GPT可以将用户输入的文本描述转换为文本特征表示，然后利用跨模态编码器将这些特征映射到图像特征空间。这种方式确保模型能够理解描述性语言中不同细节是如何与图像特征对应的。
Redis学习笔记1【数据类型和常用命令】 Rinai_R Redis学习笔记 redis 学习笔记数据库经验分享
Redis学习笔记基础语法1.数据类型String:最基本的类型，可以存储任何数据，例如文本或数字。示例值为helloworld。Hash:用于存储键值对，适合存储对象或结构体。示例值为{"name":"Jack","age":21}。List:有序的字符串列表，适用于队列等场景。示例值为[A->B->C]。Set:不重复的元素集合，适用于需要唯一性的场景。示例值为{A,B,C}。SortedSe
Edge-TTS：Python中的微软Edge在线文本转语音服务葛佩蔷
Edge-TTS：Python中的微软Edge在线文本转语音服务edge-ttsUseMicrosoftEdge'sonlinetext-to-speechservicefromPythonWITHOUTneedingMicrosoftEdgeorWindowsoranAPIkey项目地址:https://gitcode.com/gh_mirrors/ed/edge-tts项目基础介绍和主要编程语
python+ollama本地大模型批量识别PDF，总结摘要以及关键词并输出EXCEL。月野难浔丶 python pdf 开发语言
现在市场上有很多PDF文件的识别，转化，等等。有些业务可能需要总结摘要和关键词等等一系列的操作。然而随着AI的兴起，本地大模型的部署，这些成为一种很方便的方法，接下来我将为各位介绍我所使用的方法。本篇文章旨在自动化处理PDF文档，提取并清理文本数据，然后使用一种大型模型生成摘要和关键词。最后，处理结果会被整理并输出到Excel文件中，便于后续分析和查看。人工智能（AI）是一种模拟人类智能的科技，它
python edge_tts（文本转音频) Oscar_0208 python 音视频
1.安装插件edge-ttspipinstalledge-tts2.文本转音频""":paramvoice:指定声音名称:paramcontent:文本内容:paramaudioFile:音频输出文件:paramvttFile:字幕输出文件"""asyncdefcreate_tts_mp3(voice:str,content:str,audioFile:str,vttFile:str)->None
利用LangChain实现网页内容爬取并总结 WorkAgent python langchain ai 人工智能
背景利用LangChain中load_summarize_chain实现网页内容爬取并总结。亮点：网页内容过长，导致超过LLM的token限制，使用LangChain中load_summarize_chain实现。Map-reduce思想：先对长文本进行切分map阶段-对每段进行summaryreduce-对每个map再进行总结实现长文本内容总结案例实现：背景：想查找某个产品的生产厂商，需要先去网
Debian常用命令梅见十柒软件工程 debian 运维
以下是完整的Linux命令大全，适用于Debian、Ubuntu及其衍生系统，涵盖系统管理、文件操作、磁盘管理、用户管理、网络调试、安全、进程管理等多个方面。目录基本命令关机与重启文件和目录管理文件搜索挂载文件系统磁盘空间管理用户和群组管理文件和目录权限文件的特殊属性打包和压缩文件DEB包管理查看文件内容文本处理字符设置和文件格式转换文件系统分析初始化文件系统SWAP文件系统备份与恢复光盘操作网络
python中文版软件下载-Python IDLE(Python集成开发环境)v3.7中文版编程大乐趣
PythonIDLE是一款汉化版的Python集成开发环境，是一款专门用于各类非商业Python开发的选择，不过一般下载正版的python后，IDLE会自动安装，软件涵盖了语法加亮、段落缩进、基本文本编辑、TABLE键控制、调试程序等功能，这款PythonIDLE是汉化版的，将idlelib.zip解压后替换Python安装目录下的Lib文件夹中的idlelib文件夹即可替代Python原版的ID
帮助应用打造场景化语音服务 harmonyos
课程简介本课程是【HarmonyOS主题课：HarmonyOSSDK开放能力】的第18课。本课程专注于助力应用构建场景化语音服务。深入介绍SpeechKit及其重要组件，如朗读控件可将文本转化为自然流畅的语音输出，为用户提供有声阅读体验；AI字幕控件（AICaption）能精准识别语音并生成实时字幕，在视频播放、直播等场景大显身手。详细阐述其广泛的适用场景，包括教育学习辅助、无障碍信息传播等领域。
帮助应用实现实时语音与文本的相互转换 harmonyos
课程简介本课程是【HarmonyOS主题课：HarmonyOSSDK开放能力】的第10课。本课程专为助力应用实现实时语音与文本相互转换而设。课程将深入讲解CoreSpeechKit这一基础语音服务，详细阐述其语音识别（SpeechRecognizer）能力，使开发者能精准掌握语音转文本的技术要点与应用方式。同时全面剖析文本转语音（TextToSpeech）功能，包括其原理、参数设置及优化策略。通过
[python][whl]pyltp的whl格式文件所有版本下载地址汇总 FL1623863129 Python python 开发语言
pyltp：Python中的中文自然语言处理工具在数字化时代，自然语言处理（NLP）成为了与机器进行交互的关键技术。对于中文，由于其独特的语言结构和复杂性，专门的工具和库显得尤为重要。pyltp正是这样一个为中文NLP任务设计的Python库，它封装了LTP（LanguageTechnologyPlatform）的核心功能，使得开发者能够轻松地在Python环境中进行中文文本的处理和分析。pylt
【Python】已完美解决：ERROR: Could not find a version that satisfies the requirement re 屿小夏 python 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
Perl语言的语法糖网络空间站包罗万象 golang 开发语言后端
Perl语言的语法糖引言在编程语言的世界中，语法糖是一种极其重要的概念。它是指那些通过简单的语法或特定格式来增强语言可读性的功能，不仅可以简化代码，还能使得代码更加优雅。在众多编程语言中，Perl以其灵活性和强大的文本处理能力而著称。然而，Perl的语法糖更是其魅力所在，它不仅提高了开发效率，还使得代码更加直观易读。本文将深入探讨Perl语言中的语法糖，分析它们的工作原理及其对开发过程的影响。一、
下载马斯克Grok-1模型的实战代码 herosunly 大模型 grok-1 下载模型实战代码
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了下载马斯克Grok-1模型的实战代码，希望能对学习大模型的同学们有所帮助
吴恩达深度学习笔记（七）——机器学习策略子非鱼icon 深度学习自学笔记深度学习机器学习人工智能神经网络吴恩达
一、正交化通俗的理解就是：要能够诊断出系统性能瓶颈在哪里，以有策略刚好解决这个问题。一个“按钮”只负责解决一件事情。二、单一数字评估指标准确率（precision）：在分类器中标记为猫的例子中，有多少是真的猫召回率（recall）：对于所有的真猫图片，你的分类器正确识别了多少。但如果有两个评估指标，就很难去选择一个更好的分类器，如下图所示。所以有一个结合这两个指标的标准方法，也即F1分数，定义如下
Java 大视界 -- Java 大数据文本分析与自然语言处理：从文本挖掘到智能对话一只蜗牛儿 java 大数据自然语言处理
在当今的信息化时代，数据成为了重要的资源。特别是文本数据，随处可见，如社交媒体、新闻网站、技术文档、客户反馈等，这些都包含着大量的潜在信息。因此，如何从海量的文本中提取有价值的信息，成为了大数据分析领域的重要课题。Java作为一种高效、灵活的编程语言，在大数据文本分析与自然语言处理（NLP）中发挥着至关重要的作用。本文将介绍如何利用Java开发大数据文本分析和自然语言处理（NLP）应用，带领你从文
大模型：LangChain技术讲解玉成226 【大模型】langchain
一、什么是LangChain1、介绍LangChain是一个用于开发由大型语言模型提供支持的Python框架。它提供了一系列工具和组件，帮助我们将语言模型集成到自己的应用程序中。有了它之后，我们可以更轻松地实现对话系统、文本生成、文本分类、问答系统等功能。2、LangChain官网文档官网：https://python.langchain.com/docs/introduction/3、LangC
数据挖掘：定义、挑战与应用黑色叉腰丶大魔王数据挖掘人工智能
一、数据挖掘的定义（一）概念阐述数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它融合了数据库技术、统计学、机器学习、人工智能等多学科的理论和方法，旨在通过对数据的深入分析和处理，发现有价值的模式、关联、趋势等，从而为决策提供支持。（二）与相关概念的区别与联系数据库管理：数据库管理侧重于数据的存储、组织、检索和维护
Perl 语言入门学习喵丶派对适用的技巧 perl
Perl是一种自由和通用的脚本语言，特别适用于文本处理。它的设计者是LarryWall，最初是为了简化Unix系统管理任务而开发的。Perl具有丰富的正则表达式功能、内置的数据结构、强大的文件处理能力以及灵活的语法，使得它成为了许多系统管理员和网络管理员的首选工具。Perl的特点：简洁的语法：Perl的语法非常简单，易于学习和阅读。它的代码通常很紧凑，易于编写和维护。跨平台：Perl可以在几乎所有
使用Google Vertex AI Search进行企业级高级搜索 hgSdaegva 人工智能 python
技术背景介绍GoogleVertexAISearch（前称为EnterpriseSearchonGenerativeAIAppBuilder）是GoogleCloud提供的VertexAI机器学习平台的一部分。VertexAISearch允许组织快速建立由生成式AI驱动的搜索引擎，为客户和员工提供服务。它基于各种GoogleSearch技术，包括语义搜索，通过使用自然语言处理和机器学习技术来推断内
在EverlyAI上运行LLM模型——以LLAMA为例 HGWAcsdgvs llama python
在EverlyAI上运行LLM模型——以LLAMA为例技术背景介绍EverlyAI是一个强大的云平台，允许你在云中大规模运行机器学习模型。它还提供了对多种大型语言模型（LLM）的API访问。在这篇文章中，我们将展示如何使用EverlyAI的API来调用LLAMA模型。通过这种方式，你可以在云端轻松地运行和测试你的语言模型。核心原理解析LLAMA模型是一个强大的变压器模型，它具有数十亿个参数，能够处
Perl语言的软件开发工具 Code侠客行包罗万象 golang 开发语言后端
Perl语言的软件开发工具引言Perl是一种功能强大且灵活的高级编程语言，自1987年由拉里·沃尔（LarryWall）创建以来，就广泛应用于文本处理、系统管理、网络编程、Web开发等多个领域。作为一种脚本语言，Perl以其简洁的语法和强大的正则表达式处理能力而受到开发者的青睐。在实际开发过程中，虽然没有像Java或Python那样广泛流行，但Perl也有着自己独特的生态系统，其中包括许多强大的开
自动化评估：利用机器学习算法评估 AI天才研究院大数据AI人工智能 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1评估的意义评估在各个领域都扮演着至关重要的角色，例如教育、人力资源、医疗保健等。传统评估方式通常依赖人工，费时费力且容易受到主观因素的影响。随着机器学习技术的不断发展，自动化评估逐渐成为一种趋势，它能够提高评估效率、降低成本并减少人为偏差。1.2机器学习在评估中的优势机器学习算法能够从大量数据中学习规律，并根据这些规律对新的数据进行预测或分类。在评估领域，机器学习可以用于：自动评
微信小程序技术架构图流着口水看上帝微信小程序小程序
一、视图层1.WXML（WeiXinMarkupLanguage）这是微信小程序的标记语言，类似于HTML。它用于构建小程序的页面结构。例如，通过标签来定义各种视图元素，如（类似于HTML中的）用于布局，用于显示文本等。它具有数据绑定功能，通过双大括号{{}}语法可以将数据动态地显示在页面元素中。比如，定义一个变量name，在WXML中可以通过{{name}}来显示变量name的值。2.WXSS（
Level2逐笔成交逐笔委托毫秒记录：今日分享优质股票数据20250122 2401_89140926 python 金融数据库大数据
逐笔委托逐笔成交下载链接:https://pan.baidu.com/s/1WP6eGLip3gAbt7yFKg4XqA?pwd=7qtx提取码:7qtxLevel2逐笔成交逐笔委托数据分享下载通过Level2逐笔成交和逐笔委托这种每一笔的毫秒级别的数据可以分析出很多有用的点，包括主力意图，虚假动作，让任何操作无所遁形。适合交易大师来分析主力规律，也适合人工智能领域的机器学习，数据量大且精准。以下
大语言模型原理与工程实践：预训练数据构建 AI大模型应用之禅 AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理与工程实践：预训练数据构建1.背景介绍大语言模型（LargeLanguageModels,LLMs）近年来在自然语言处理（NLP）领域取得了显著的进展。诸如GPT-3、BERT等模型在各种任务中表现出色，从文本生成到情感分析，再到机器翻译，几乎无所不能。这些模型的成功很大程度上依赖于预训练数据的质量和规模。预训练数据的构建不仅影响模型的性能，还决定了模型的泛化能力和应用范围。在本文中
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。