机器学习实战教程(五):朴素贝叶斯实战篇

机器学习实战教程(五):朴素贝叶斯实战篇_第1张图片

 

一、前言

        上篇文章机器学习实战教程(四):朴素贝叶斯基础篇_M_Q_T的博客-CSDN博客讲解了朴素贝叶斯的基础知识。本篇文章将在此基础上进行扩展,你将看到以下内容:

  • 拉普拉斯平滑
  • 垃圾邮件过滤(Python3)
  • 新浪新闻分类(sklearn)

二、朴素贝叶斯改进之拉普拉斯平滑

        上篇文章提到过,算法存在一定的问题,需要进行改进。那么需要改进的地方在哪里呢?利用贝叶斯分类器对文档进行分类时,要计算多个概率的乘积以获得文档属于某个类别的概率,即计算p(w0|1)p(w1|1)p(w2|1)。如果其中有一个概率值为0,那么最后的成绩也为0。我们拿出上一篇文章的截图。

机器学习实战教程(五):朴素贝叶斯实战篇_第2张图片

        从上图可以看出,在计算的时候已经出现了概率为0的情况。如果新实例文本,包含这种概率为0的分词,那么最终的文本属于某个类别的概率也就是0了。显然,这样是不合理的,为了降低这种影响,可以将所有词的出现数初始化为1,并将分母初始化为2。这种做法就叫做拉普拉斯平滑(Laplace Smoothing)又被称为加1平滑,是比较常用的平滑方法,它就是为了解决0概率问题。

        除此之外,另外一个遇到的问题就是下溢出,这是由于太多很小的数相乘造成的。学过数学的人都知道,两个小数相乘,越乘越小,这样就造成了下溢出。在程序中,在相应小数位置进行四舍五入,计算结果可能就变成0了。为了解决这个问题,对乘积结果取自然对数。通过求对数可以避免下溢出或者浮点数舍入导致的错误。同时,采用自然对数进行处理不会有任何损失。下图给出函数f(x)和ln(f(x))的曲线。

        机器学习实战教程(五):朴素贝叶斯实战篇_第3张图片

        检查这两条曲线,就会发现它们在相同区域内同时增加或者减少,并且在相同点上取到极值。它们的取值虽然不同,但不影响最终结果。因此我们可以对上篇文章的trainNB0(trainMatrix, trainCategory)函数进行更改,修改如下: 

def trainNB0(trainMatrix, trainCategory):
    numTrainDocs = len(trainMatrix)  # 计算训练的文档数目
    numWords = len(trainMatrix[0])  # 计算每篇文档的词条数
    pAbusive = sum(trainCategory) / float(numTrainDocs)  # 文档属于侮辱类的概率
    p0Num = np.ones(numWords);
    p1Num = np.ones(numWords)  # 创建numpy.ones数组,词条出现数初始化为1,拉普拉斯平滑
    p0Denom = 2.0;
    p1Denom = 2.0  # 分母初始化为2,拉普拉斯平滑
    for i in range(numTrainDocs):
        if trainCategory[i] == 1:  # 统计属于侮辱类的条件概率所需的数据,即P(w0|1),P(w1|1),P(w2|1)···
            p1Num += trainMatrix[i]
            p1Denom += sum(trainMatrix[i])
        else:  # 统计属于非侮辱类的条件概率所需的数据,即P(w0|0),P(w1|0),P(w2|0)···
            p0Num += trainMatrix[i]
            p0Denom += sum(trainMatrix[i])
    p1Vect = np.log(p1Num / p1Denom)  # 取对数,防止下溢出         
    p0Vect = np.log(p0Num / p0Denom)
    return p0Vect, p1Vect, pAbusive   #返回属于侮辱类的条件概率数组,属于非侮辱类的条件概率数组,文档属于侮辱类的概率
        

运行代码,就可以得到如下结果:

myVocabList:
 ['maybe', 'take', 'my', 'to', 'stupid', 'dalmation', 'cute', 'how', 'is', 'garbage', 'love', 'problems', 'not', 'mr', 'steak', 'quit', 'has', 'stop', 'I', 'food', 'flea', 'dog', 'so', 'posting', 'worthless', 'help', 'him', 'park', 'ate', 'please', 'licks', 'buying']
p0V:
 [-3.25809654 -3.25809654 -1.87180218 -2.56494936 -3.25809654 -2.56494936
 -2.56494936 -2.56494936 -2.56494936 -3.25809654 -2.56494936 -2.56494936
 -3.25809654 -2.56494936 -2.56494936 -3.25809654 -2.56494936 -2.56494936
 -2.56494936 -3.25809654 -2.56494936 -2.56494936 -2.56494936 -3.25809654
 -3.25809654 -2.56494936 -2.15948425 -3.25809654 -2.56494936 -2.56494936
 -2.56494936 -3.25809654]
p1V:
 [-2.35137526 -2.35137526 -3.04452244 -2.35137526 -1.65822808 -3.04452244
 -3.04452244 -3.04452244 -3.04452244 -2.35137526 -3.04452244 -3.04452244
 -2.35137526 -3.04452244 -3.04452244 -2.35137526 -3.04452244 -2.35137526
 -3.04452244 -2.35137526 -3.04452244 -1.94591015 -3.04452244 -2.35137526
 -1.94591015 -3.04452244 -2.35137526 -2.35137526 -3.04452244 -3.04452244
 -3.04452244 -2.35137526]
classVec:
 [0, 1, 0, 1, 0, 1]
pAb:
 0.5

Process finished with exit code 0

        瞧,这样我们得到的结果就没有问题了,不存在0概率。当然除此之外,我们还需要对代码进行修改classifyNB(vec2Classify, p0Vec, p1Vec, pClass1)函数,修改如下:

"""
函数说明:朴素贝叶斯分类器分类函数
 
Parameters:
    vec2Classify - 待分类的词条数组
    p0Vec - 非侮辱类的条件概率数组
    p1Vec -侮辱类的条件概率数组
    pClass1 - 文档属于侮辱类的概率
Returns:
    0 - 属于非侮辱类
    1 - 属于侮辱类
Modify:
    2022-12-14
"""
def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
    p1 = sum(vec2Classify * p1Vec) + np.log(pClass1)        #对应元素相乘。logA * B = logA + logB,所以这里加上log(pClass1)
    p0 = sum(vec2Classify * p0Vec) + np.log(1.0 - pClass1)
    if p1 > p0:
        return 1
    else:
        return 0

为啥这么改?因为取自然对数了。logab = loga + logb。

这样,我们的朴素贝叶斯分类器就改进完毕了。

三、朴素贝叶斯之过滤垃圾邮件

在上篇文章那个简单的例子中,我们引入了字符串列表。使用朴素贝叶斯解决一些现实生活中的问题时,需要先从文本内容得到字符串列表,然后生成词向量。下面这个例子中,我们将了解朴素贝叶斯的一个最著名的应用:电子邮件垃圾过滤。首先看一下使用朴素贝叶斯对电子邮件进行分类的步骤:

  • 收集数据:提供文本文件。
  • 准备数据:将文本文件解析成词条向量。
  • 分析数据:检查词条确保解析的正确性。
  • 训练算法:使用我们之前建立的trainNB0()函数。
  • 测试算法:使用classifyNB(),并构建一个新的测试函数来计算文档集的错误率。
  • 使用算法:构建一个完整的程序对一组文档进行分类,将错分的文档输出到屏幕上。

1、收集数据

数据我已经为大家准备好了,可以在该Github上下载: 数据集下载

有两个文件夹ham和spam,spam文件下的txt文件为垃圾邮件。

2、准备数据

对于英文文本,我们可以以非字母、非数字作为符号进行切分,使用split函数即可。编写代码如下:

# -*- coding: UTF-8 -*-
import re

"""
函数说明:接收一个大字符串并将其解析为字符串列表

Parameters:
    无
Returns:
    无
Modify:
    2022-12-14
"""


def textParse(bigString):  # 将字符串转换为字符列表
    listOfTokens = re.split(r'\W+', bigString)  # 将特殊符号作为切分标志进行字符串切分,即非字母、非数字
    return [tok.lower() for tok in listOfTokens if len(tok) > 2]  # 除了单个字母,例如大写的I,其它单词变成小写


"""
函数说明:将切分的实验样本词条整理成不重复的词条列表,也就是词汇表

Parameters:
    dataSet - 整理的样本数据集
Returns:
    vocabSet - 返回不重复的词条列表,也就是词汇表
Modify:
    2022-12-14
"""


def createVocabList(dataSet):
    vocabSet = set([])  # 创建一个空的不重复列表
    for document in dataSet:
        vocabSet = vocabSet | set(document)  # 取并集
    return list(vocabSet)


if __name__ == '__main__':
    docList = []
    classList = []
    for i in range(1, 26):  # 遍历25个txt文件
        wordList = textParse(open('spam/%d.txt' % i, 'r').read())  # 读取每个垃圾邮件,并字符串转换成字符串列表
        docList.append(wordList)
        classList.append(1)  # 标记垃圾邮件,1表示垃圾文件
        wordList = textParse(open('ham/%d.txt' % i, 'r').read())  # 读取每个非垃圾邮件,并字符串转换成字符串列表
        docList.append(wordList)
        classList.append(0)  # 标记非垃圾邮件,1表示垃圾文件
    vocabList = createVocabList(docList)  # 创建词汇表,不重复
    print(vocabList)

        这样我们就得到了词汇表,结果如下图所示:

['about', 'program', 'jay', 'increase', 'of_penisen1argement', 'want', 
'lined', 'severepain', '66343', 'fedex', 'easily', 'millions', 'time',
 'far', '138', 'income', 'turd', 'featured', '180', 'store', '750', 
'superb', 'they', 'success', 'mba', 'level', '14th', 'great', 'www', 
'accepted', 'wallets', 'help', 'private', 'capabilities', 'gas', 'hours',
 'arvind', 'proven', 'others', '199', 'running', '322', 'will', 'starting',
 'courier', 'germany', 'don抰', 'notification', 'bags', 'town', 'fermi',
 'made', 'changing', 'should', 'nvidia', '625', 'everything', 'customized',
 'came', 'today', 'concise', 'accept', 'experts', 'buyviagra', 'interesting',
 'since', 'create', 'aged', 'julius', 'foaming', 'heard', 'transformed',
 'welcome', 'fda', 'save', 'gain', 'google', 'assistance', '86152', 'ready',
 'both', 'competitive', '90563', 'signed', 'computing', 'sorry', 'amazing',
 'moderately', 'reliever', 'sounds', 'design', 'instead', 'differ', 'major',
 'pavilion', 'located', 'girl', 'brand', 'incoming', 'art', 'magazine', 
'view', 'code', 'what', 'mandarin', 'jpgs', 'work', 'least', 'tent', 'meet',
 'via', 'being', 'safe', 'price', 'harderecetions', 'generation', 'questions',
 'insights', 'canadian', 'discussions', 'uses', '588', 'forward', 'giants', 'adobe', 
'john', 'answer', 'pictures', 'cards', 'information', 'length', 'just', 'station', 'keep', 'worldwide', 'two', '10mg', 'knocking', 'things', '570', 'quality', 
'plane', 'placed', 'discreet', 'changes', 'encourage', 'pricing', 'huge', 'was', 
'while', 'storage', '366', 'book', 'lunch', 'articles', 'wrote', 'net', 'cold', 'forum', 
'219', 'creative', 'often', 'had', 'could', 'new', 'service', 'back', 'find', 
'cost', 'father', 'specifications', 'coast', 'network', 'suggest', 'link', 'same',
 'you抮e', 'faster', 'has', '492', 'blue', 'ambiem', 'speedpost', '174623', 'most', 'vicodin', '300x', 'cuda', 'sure', 'don', 'ordercializviagra', 'survive', 'spaying', '2011', 'thank', 'plugin', 'tour', 'programming', 'update', 'drunk', 'low', 'buy', 'such', 'said', 'away', 'can', 'right', 'assigning', 'opportunity', 'perhaps', 'inside', 'fine', 'thing', 'enough', 'wednesday', 'pretty', 'hommies', 'support', 'october', 'control', 'ideas', 'hangzhou', 'where', 'class', 'shipping', '15mg', 'mathematician', 'jose', 'days', 'train', 'past', 'automatically', 'come', 'exhibit', 'glimpse', 'well', 'cartier', 'focusing', 'gains', 'percocet', 'thanks', 'ferguson', 'below', 'stepp', 'roofer', 'item', 'location', 'either', 'issues', '562', 'trusted', 'fbi', 'cheap', 'style', 'doors', 'recieve', 'mandatory', 'safest', 'supplement', 'share', 'some', 'mail', 'hello', 'haloney', 'management', 'there', 'how', 'softwares', 'grow', 'school', '100', 'dhl', 'drugs', 'works', 'gpu', '513', 'mathematics', 'pills', 'going', 'mailing', 'microsoft', '195', 'all', 'release', '119', 'inconvenience', 'good', 'latest', 'not', 'finance', '30mg', 'items', 'fast', 'discount', 'thirumalai', 'chapter', 'watson', 'writing', 'jar', 'inform', 'requested', 'based', 'phone', 'add', 'approach', 'example', 'viagranoprescription', 'know', 'using', 'knew', 'modelling', 'please', 'required', 'possible', 'biggerpenis', 'address', 'listed', 'members', 'trip', 'dozen', 'linkedin', 'benoit', 'prepared', 'than', 'bin', 'way', 'ones', '129', 'through', 'important', 'advocate', 'website', 'noprescription', 'hydrocodone', 'then', 'fundamental', 'amex', 'looking', 'shipment', 'went', 'money', 'explosive', 'products', 'enjoy', 'shape', 'access', 'thread', 'group', 'quantitative', '5mg', 'call', 'message', 'talked', 'ups', 'year', 'any', 'pain', 'creation', 'edit', 'comment', 'tool', 'your', 'when', 'those', 'because', 'day', 'serial', 'cannot', 'might', 'ultimate', 'announcement', 'hermes', 'done', 'windows', 'professional', 'province', 'yourpenis', 'web', 'mandelbrot', 'for', 'automatic', 'pro', '203', 'died', 'kerry', 'hotels', 'free', 'femaleviagra', 'business', 'home', 'oris', 'have', 'focus', 'need', 'thailand', 'acrobat', 'genuine', '225', 'regards', 'narcotic', 'and', '385', 'stuff', 'attaching', 'brained', 'status', 'received', 'museum', 'take', 'launch', 'food', 'been', 'watchesstore', 'wilmott', 'yay', 'wasn', 'doctor', 'rude', 'off', 'zach', 'like', 'try', 'thickness', 'http', 'job', 'zolpidem', 'cats', 'bargains', 'door', 'cs5', '120', 'famous', 'jqplot', 'would', 'rent', 'horn', 'endorsed', 'storedetailview_98', '430', 'site', 'yesterday', 'here', 'experience', 'close', 'pages', 'peter', 'email', 'one', 'definitely', 'brands', 'parallel', 'oem', 'sent', 'photoshop', 'window', 'guaranteeed', 'too', 'top', 'see', 'from', 'february', 'high', 'holiday', 'this', 'strategic', 'whybrew', 'moneyback', '325', 'connection', 'jquery', 'titles', 'pick', 'monte', 'inches', 'who', 'vuitton', 'retirement', 'cheers', 'mom', 'chinese', 'once', '396', 'leaves', 'fans', 'python', 'them', 'hamm', 'scenic', 'tesla', 'winter', 'follow', 'game', '100mg', 'ma1eenhancement', 'borders', 'bike', 'finder', 'chance', 'another', 'more', '200', 'butt', 'may', 'computer', 'natural', 'designed', 'get', '2010', '130', 'brandviagra', 'prototype', 'are', 'moderate', 'number', 'doggy', 'used', 'com', 'rock', 'much', 'warranty', 'features', 'scifinance', 'naturalpenisenhancement', '0nline', 'invitation', 'car', 'cca', 'out', 'decision', 'hope', 'told', 'bad', 'betterejacu1ation', 'individual', 'codeine', 'behind', 'model', 'thousand', 'team', 'over', '291', 'riding', 'specifically', '292', 'york', 'bettererections', 'groups', 'prices', 'source', 'china', 'significantly', 'derivatives', 'methylmorphine', 'sites', 'herbal', '25mg', 'held', 'having', 'guy', 'longer', 'got', 'docs', 'supporting', 'inspired', 'that', '50mg', 'life', 'office', 'tabs', 'expertise', 'series', 'contact', '2007', 'louis', 'development', 'fractal', 'only', 'with', 'ryan', 'doing', 'learn', 'saw', 'withoutprescription', 'nature', 'bathroom', 'upload', 'logged', 'rain', 'freeviagra', 'sophisticated', 'includes', '50092', 'runs', 'yeah', 'vivek', 'the', 'extended', 'but', 'eugene', 'incredib1e', 'certified', 'grounds', 'think', 'selected', 'express', 'volume', 'delivery', 'place', 'note', 'reservation', 'owner', 'sky', 'sliding', 'hold', 'ofejacu1ate', 'also', 'order', 'phentermin', 'his', 'couple', 'download', 'color', 'carlo', 'favorite', 'tickets', 'party', 'approved', 'these', 'functionalities', 'tiffany', 'pharmacy', 'commented', 'hotel', 'lists', 'treat', 'plus', 'arolexbvlgari', 'now', 'generates', 'pill', 'needed', 'wilson', 'earn', 'jewerly', '1924', 'reply', 'watches', 'online', 'must', 'tokyo', 'full', 'you', 'dior', 'does', 'copy', 'expo', 'enabled', 'intenseorgasns', 'thought', 'permanantly', 'page', 'jocelyn', 'each', 'cat', 'ems', 'risk', 'opioid', 'core', 'financial', 'improving', 'reputable', 'name', 'let', 'check', '100m', 'pls', 'strategy', 'effective', 'troy', 'visa', 'methods', 'analgesic', 'files', 'wholesale', 'gucci', 'working', 'use', '156', 'credit', 'dusty', 'per', 'file', 'night', 'care']

Process finished with exit code 0

        根据词汇表,我们就可以将每个文本向量化。我们将数据集分为训练集和测试集,使用交叉验证的方式测试朴素贝叶斯分类器的准确性。编写代码如下:

# -*- coding: UTF-8 -*-
import numpy as np
import random
import re

"""
函数说明:将切分的实验样本词条整理成不重复的词条列表,也就是词汇表

Parameters:
    dataSet - 整理的样本数据集
Returns:
    vocabSet - 返回不重复的词条列表,也就是词汇表
Modify:
    2022-12-14
"""


def createVocabList(dataSet):
    vocabSet = set([])  # 创建一个空的不重复列表
    for document in dataSet:
        vocabSet = vocabSet | set(document)  # 取并集
    return list(vocabSet)


"""
函数说明:根据vocabList词汇表,将inputSet向量化,向量的每个元素为1或0

Parameters:
    vocabList - createVocabList返回的列表
    inputSet - 切分的词条列表
Returns:
    returnVec - 文档向量,词集模型
Modify:
    2022-12-14
"""


def setOfWords2Vec(vocabList, inputSet):
    returnVec = [0] * len(vocabList)  # 创建一个其中所含元素都为0的向量
    for word in inputSet:  # 遍历每个词条
        if word in vocabList:  # 如果词条存在于词汇表中,则置1
            returnVec[vocabList.index(word)] = 1
        else:
            print("the word: %s is not in my Vocabulary!" % word)
    return returnVec  # 返回文档向量


"""
函数说明:根据vocabList词汇表,构建词袋模型

Parameters:
    vocabList - createVocabList返回的列表
    inputSet - 切分的词条列表
Returns:
    returnVec - 文档向量,词袋模型
Modify:
    2022-12-14
"""


def bagOfWords2VecMN(vocabList, inputSet):
    returnVec = [0] * len(vocabList)  # 创建一个其中所含元素都为0的向量
    for word in inputSet:  # 遍历每个词条
        if word in vocabList:  # 如果词条存在于词汇表中,则计数加一
            returnVec[vocabList.index(word)] += 1
    return returnVec  # 返回词袋模型


"""
函数说明:朴素贝叶斯分类器训练函数

Parameters:
    trainMatrix - 训练文档矩阵,即setOfWords2Vec返回的returnVec构成的矩阵
    trainCategory - 训练类别标签向量,即loadDataSet返回的classVec
Returns:
    p0Vect - 非侮辱类的条件概率数组
    p1Vect - 侮辱类的条件概率数组
    pAbusive - 文档属于侮辱类的概率
Modify:
    2022-12-14
"""


def trainNB0(trainMatrix, trainCategory):
    numTrainDocs = len(trainMatrix)  # 计算训练的文档数目
    numWords = len(trainMatrix[0])  # 计算每篇文档的词条数
    pAbusive = sum(trainCategory) / float(numTrainDocs)  # 文档属于侮辱类的概率
    p0Num = np.ones(numWords);
    p1Num = np.ones(numWords)  # 创建numpy.ones数组,词条出现数初始化为1,拉普拉斯平滑
    p0Denom = 2.0;
    p1Denom = 2.0  # 分母初始化为2,拉普拉斯平滑
    for i in range(numTrainDocs):
        if trainCategory[i] == 1:  # 统计属于侮辱类的条件概率所需的数据,即P(w0|1),P(w1|1),P(w2|1)···
            p1Num += trainMatrix[i]
            p1Denom += sum(trainMatrix[i])
        else:  # 统计属于非侮辱类的条件概率所需的数据,即P(w0|0),P(w1|0),P(w2|0)···
            p0Num += trainMatrix[i]
            p0Denom += sum(trainMatrix[i])
    p1Vect = np.log(p1Num / p1Denom)  # 取对数,防止下溢出
    p0Vect = np.log(p0Num / p0Denom)
    return p0Vect, p1Vect, pAbusive  # 返回属于侮辱类的条件概率数组,属于非侮辱类的条件概率数组,文档属于侮辱类的概率


"""
函数说明:朴素贝叶斯分类器分类函数

Parameters:
    vec2Classify - 待分类的词条数组
    p0Vec - 非侮辱类的条件概率数组
    p1Vec -侮辱类的条件概率数组
    pClass1 - 文档属于侮辱类的概率
Returns:
    0 - 属于非侮辱类
    1 - 属于侮辱类
Modify:
    2022-12-14
"""


def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
    p1 = sum(vec2Classify * p1Vec) + np.log(pClass1)  # 对应元素相乘。logA * B = logA + logB,所以这里加上log(pClass1)
    p0 = sum(vec2Classify * p0Vec) + np.log(1.0 - pClass1)
    if p1 > p0:
        return 1
    else:
        return 0


"""
函数说明:接收一个大字符串并将其解析为字符串列表

Parameters:
    无
Returns:
    无
Modify:
    2022-12-14
"""


def textParse(bigString):  # 将字符串转换为字符列表
    listOfTokens = re.split(r'\W+', bigString)  # 将特殊符号作为切分标志进行字符串切分,即非字母、非数字
    return [tok.lower() for tok in listOfTokens if len(tok) > 2]  # 除了单个字母,例如大写的I,其它单词变成小写


"""
函数说明:测试朴素贝叶斯分类器

Parameters:
    无
Returns:
    无
Modify:
    2022-12-14
"""


def spamTest():
    docList = [];
    classList = [];
    fullText = []
    for i in range(1, 26):  # 遍历25个txt文件
        wordList = textParse(open('spam/%d.txt' % i, 'r').read())  # 读取每个垃圾邮件,并字符串转换成字符串列表
        docList.append(wordList)
        fullText.append(wordList)
        classList.append(1)  # 标记垃圾邮件,1表示垃圾文件
        wordList = textParse(open('ham/%d.txt' % i, 'r').read())  # 读取每个非垃圾邮件,并字符串转换成字符串列表
        docList.append(wordList)
        fullText.append(wordList)
        classList.append(0)  # 标记非垃圾邮件,1表示垃圾文件
    vocabList = createVocabList(docList)  # 创建词汇表,不重复
    trainingSet = list(range(50))
    testSet = []  # 创建存储训练集的索引值的列表和测试集的索引值的列表
    for i in range(10):  # 从50个邮件中,随机挑选出40个作为训练集,10个做测试集
        randIndex = int(random.uniform(0, len(trainingSet)))  # 随机选取索索引值
        testSet.append(trainingSet[randIndex])  # 添加测试集的索引值
        del (trainingSet[randIndex])  # 在训练集列表中删除添加到测试集的索引值
    trainMat = []
    trainClasses = []  # 创建训练集矩阵和训练集类别标签系向量
    for docIndex in trainingSet:  # 遍历训练集
        trainMat.append(setOfWords2Vec(vocabList, docList[docIndex]))  # 将生成的词集模型添加到训练矩阵中
        trainClasses.append(classList[docIndex])  # 将类别添加到训练集类别标签系向量中
    p0V, p1V, pSpam = trainNB0(np.array(trainMat), np.array(trainClasses))  # 训练朴素贝叶斯模型
    errorCount = 0  # 错误分类计数
    for docIndex in testSet:  # 遍历测试集
        wordVector = setOfWords2Vec(vocabList, docList[docIndex])  # 测试集的词集模型
        if classifyNB(np.array(wordVector), p0V, p1V, pSpam) != classList[docIndex]:  # 如果分类错误
            errorCount += 1  # 错误计数加1
            print("分类错误的测试集:", docList[docIndex])
    print('错误率:%.2f%%' % (float(errorCount) / len(testSet) * 100))


if __name__ == '__main__':
    spamTest()

        运行结果如下:

                机器学习实战教程(五):朴素贝叶斯实战篇_第4张图片

        函数spamTest()会输出在10封随机选择的电子邮件上的分类错误概率。既然这些电子邮件是随机选择的,所以每次的输出结果可能有些差别。如果发现错误的话,函数会输出错误的文档的此表,这样就可以了解到底是哪篇文档发生了错误。如果想要更好地估计错误率,那么就应该将上述过程重复多次,比如说10次,然后求平均值。相比之下,将垃圾邮件误判为正常邮件要比将正常邮件归为垃圾邮件好。为了避免错误,有多种方式可以用来修正分类器,这些内容会在后续文章中进行讨论。

        这部分代码获取:代码获取

四、朴素贝叶斯之新浪新闻分类(Sklearn)

1、中文语句切分

        考虑一个问题,英文的语句可以通过非字母和非数字进行切分,但是汉语句子呢?就比如我打的这一堆字,该如何进行切分呢?我们自己写个规则?

        幸运地是,这部分的工作不需要我们自己做了,可以直接使用第三方分词组件,即jieba,没错就是"结巴"。

        jieba已经兼容Python2和Python3,使用如下指令直接安装即可:

pip3 install jieba

Python中文分词组件使用简单:

  • 民间教程:jieba首页、文档和下载 - Python中文分词组件 - OSCHINA - 中文开源技术交流社区
  • 官方教程:GitHub - fxsjy/jieba: 结巴中文分词

新闻分类数据集我也已经准备好,可以到我的Github进行下载:数据集下载

数据集已经做好分类,分文件夹保存,分类结果如下:

        数据集已经准备好,接下来,让我们直接进入正题。切分中文语句,编写如下代码:

# -*- coding: UTF-8 -*-
import os
import jieba


def TextProcessing(folder_path):
    folder_list = os.listdir(folder_path)  # 查看folder_path下的文件
    data_list = []  # 训练集
    class_list = []

    # 遍历每个子文件夹
    for folder in folder_list:
        new_folder_path = os.path.join(folder_path, folder)  # 根据子文件夹,生成新的路径
        files = os.listdir(new_folder_path)  # 存放子文件夹下的txt文件的列表

        j = 1
        # 遍历每个txt文件
        for file in files:
            if j > 100:  # 每类txt样本数最多100个
                break
            with open(os.path.join(new_folder_path, file), 'r', encoding='utf-8') as f:  # 打开txt文件
                raw = f.read()

            word_cut = jieba.cut(raw, cut_all=False)  # 精简模式,返回一个可迭代的generator
            word_list = list(word_cut)  # generator转换为list

            data_list.append(word_list)
            class_list.append(folder)
            j += 1
    print(data_list)
    print(class_list)


if __name__ == '__main__':
    # 文本预处理
    folder_path = './SogouC/Sample'  # 训练集存放地址
    TextProcessing(folder_path)

         代码运行结果如下所示,可以看到,我们已经顺利将每个文本进行切分,并进行了类别标记。

机器学习实战教程(五):朴素贝叶斯实战篇_第5张图片

2、文本特征选择

        我们将所有文本分成训练集和测试集,并对训练集中的所有单词进行词频统计,并按降序排序。也就是将出现次数多的词语在前,出现次数少的词语在后进行排序。编写代码如下:

# -*- coding: UTF-8 -*-
import os
import random
import jieba

"""
函数说明:中文文本处理

Parameters:
    folder_path - 文本存放的路径
    test_size - 测试集占比,默认占所有数据集的百分之20
Returns:
    all_words_list - 按词频降序排序的训练集列表
    train_data_list - 训练集列表
    test_data_list - 测试集列表
    train_class_list - 训练集标签列表
    test_class_list - 测试集标签列表
Modify:
    2022-12-18
"""


def TextProcessing(folder_path, test_size=0.2):
    folder_list = os.listdir(folder_path)  # 查看folder_path下的文件
    data_list = []  # 数据集数据
    class_list = []  # 数据集类别

    # 遍历每个子文件夹
    for folder in folder_list:
        new_folder_path = os.path.join(folder_path, folder)  # 根据子文件夹,生成新的路径
        files = os.listdir(new_folder_path)  # 存放子文件夹下的txt文件的列表

        j = 1
        # 遍历每个txt文件
        for file in files:
            if j > 100:  # 每类txt样本数最多100个
                break
            with open(os.path.join(new_folder_path, file), 'r', encoding='utf-8') as f:  # 打开txt文件
                raw = f.read()

            word_cut = jieba.cut(raw, cut_all=False)  # 精简模式,返回一个可迭代的generator
            word_list = list(word_cut)  # generator转换为list

            data_list.append(word_list)  # 添加数据集数据
            class_list.append(folder)  # 添加数据集类别
            j += 1

    data_class_list = list(zip(data_list, class_list))  # zip压缩合并,将数据与标签对应压缩
    random.shuffle(data_class_list)  # 将data_class_list乱序
    index = int(len(data_class_list) * test_size) + 1  # 训练集和测试集切分的索引值
    train_list = data_class_list[index:]  # 训练集
    test_list = data_class_list[:index]  # 测试集
    train_data_list, train_class_list = zip(*train_list)  # 训练集解压缩
    test_data_list, test_class_list = zip(*test_list)  # 测试集解压缩

    all_words_dict = {}  # 统计训练集词频
    for word_list in train_data_list:
        for word in word_list:
            if word in all_words_dict.keys():
                all_words_dict[word] += 1
            else:
                all_words_dict[word] = 1

    # 根据键的值倒序排序
    all_words_tuple_list = sorted(all_words_dict.items(), key=lambda f: f[1], reverse=True)
    all_words_list, all_words_nums = zip(*all_words_tuple_list)  # 解压缩
    all_words_list = list(all_words_list)  # 转换成列表
    return all_words_list, train_data_list, test_data_list, train_class_list, test_class_list


if __name__ == '__main__':
    # 文本预处理
    folder_path = './SogouC/Sample'  # 训练集存放地址
    all_words_list, train_data_list, test_data_list, train_class_list, test_class_list = TextProcessing(folder_path,
                                                                                                        test_size=0.2)
    print(all_words_list)

        all_words_list就是将所有训练集的切分结果通过词频降序排列构成的单词合集。观察一下打印结果,不难发现,这里包含了很多标点符号,很显然,这些标点符号是不能作为新闻分类的特征的。总不能说,应为这个文章逗号多,所以它是xx类新闻吧?为了降低这些高频的符号对分类结果的影响,我们应该怎么做呢?答曰:抛弃他们! 除了这些,还有"在","了"这样对新闻分类无关痛痒的词。并且还有一些数字,数字显然也不能作为分类新闻的特征。所以要消除它们对分类结果的影响,我们可以定制一个规则。

[',', '的', '\u3000', '。', '\n', ' ', '、', '在', '了', '“', '”', '是', ';', '和', '&', 'nbsp', ':', '\x00', '中国', '有', '也', '我', '就', '对', '—', '上', '为', '这', '他', '都', '将', '中', '年', '公司', '不', '你', '而', '游客', '月', '旅游', '一个', '要', '与', '人', '到', '自己', '(', ')', '等', '说', ';', '可以', '从', '导弹', '大陆', '考生', '但', '个', '会', '(', ')', '.', '火炮', '多', '认为', '日', '台军', '3', '5', '能', '来', '北京', '时间', '还', '把', '以', '没有', '后', '让', '《', '》', '志愿', '已经', '并', '一种', '解放军', '地', '1', '新', '各种', '[', ']', '企业', '时', '美国', '进行', '市场', '被', '前', '更', '大', '我们', '用', '很', '下', '9', '2', '成为', '做', '%', '黄金周', '支付', '10', '…', '药', '4', '发展', '仿制', '工作', '如果', '学校', '很多', '可', '可能', '2005', '最', '五一', '?', '给', '这样', '他们', ',', '复习', '远程', '增长', '选择', '又', '一定', '学习', '这些', '主要', '建设', '大家', '问题', '6', '作战', '向', '射程', '家', '目前', '分析', '时候', '部署', '因为', '7', '亿美元', '比', '着', '专业', '出', '辅导班', '通过', '管理', '一', '去', '能力', '技术', '完全', '使', '由', '期间', '看', '记者', '钱', '部分', '其中', '作为', '就是', '小', '重要', '填报', '考试', '所以', '快', '文章', '8', '基础', '今年', '开始', '过', '银行', '表现', '它', '比赛', '毕业生', '但是', '表示', '上海', '计划', '60', '已', '部队', '需要', '得', '为了', '所', '这个', '2006', '不是', '她', '销售', '几乎', '16', '品牌', '专家', '万人次', '提高', '对于', '训练', '军事', '.', '资料', '拥有', '那些', '还是', '当', '科学', '用户', '要求', '老师', '希望', '坦克', '只有', '必须', '由于', '却', '讲', '阵地', '新浪', '什么', '影响', '或', '收入', '20', '达到', '最后', '活动', '一旦', '相对', '接待', '高', '同时', '则', '!', '设计', '该', '据', '根据', '提供', '全国', '机会', '现在', '里', '许多', '项目', '起', '其', '印度', '考古', '不用', '想', '一些', '【', '】', '饰', '第', '专利', '以上', '其他', '彻底', '情况', '30', '系统', '参加', '00', '知道', '题', '来源', '考研', '实验室', '网络', '0', '比较', '分', '公里', '经济', '好', '装备', '-', '而且', '们', '电话', '及', '应该', '发现', '距离', '国家', '于', '大批', '游戏', '重点', '手机', '岛屿', '角度', '阿里', '耿大勇', '一直', 'A', '最大', '协议', '数字', '看到', '出现', ':', '方面', '准备', '力气', '一家', '员工', '孩子', '日本', '睡眠', '沿海', '摧毁', '图', '压制', '告诉', '"', '成功', '因此', '-', '行业', '包括', '所有', '11', '12', '两个', '这种', '人才', '全军', 'MBA', '数学', '台湾', '置于', '袁', '挑衅', '数独', '全面', '如', '获得', '内', '第一', '再', '决定', '相关', '了解', '还有', '国内', '作用', '随着', '历史', '排名', '发展观', '招聘', '自寻死路', '世界领先', '型号', '开战', '金贵', '海量', '之内', '费多', '廉价', '纳斯', '教育', '文化', '那', '药厂', '进入', '去年', '显示', '预期', '不会', '然后', '建议', '服务', '吸引', '占', '0', '=', '大学', '牛奶', "'", '据此', '新型', '目标', '左右', '完成', '使用', '未来', '非常', '不同', '经过', '不能', '军队', '录取', '有关', '结果', '共', '利用', '战场', '平台', '+', '我军', '人数', '东引岛', '掌握', '内容', '能够', '代表', '正在', '赔偿', '只', '是否', '各', '价值', '介绍', '这是', '理由', '今天', '喜欢', '以及', '连续', 'VS', '知识点', '图库', '武器', '往往', '英语', '来说', '/', '最佳', '努力', '组织', '之后', '得到', '愿意', '31', '然而', '号', '院校', '过程', '才能', '一批', '小时', '一下', '注意', '电脑', '应', '地方', '概念', '某', '一年', '领导', '不仅', '超过', '消息', '米', '此前', '本场', '同比', '旅行社', '景区', '游', '来自', '一次', '营养', '写作', '词汇', '如何', '社会', '环境', '相当', '指出', '型', '之', '考虑', '大量', '方式', '第一次', '每个', '像', '分钟', '面对', '人们', '基本', '2004', '发布', '业务', '认证', '对手', '学员', '知识', '分别', '特点', '增加', '特别', '休闲', '越来越', '大学生', '王治郅', '詹姆斯', '沈阳市', '埃及', '思路', '呢', '其实', '具有', '产品', '统计', '研究', '调查', '原因', '此外', '甚至', '网上', '位', '每', '才', '不少', '不过', '容易', '只是', '关键', '正', '客户', '不断', '事情', '1', '世界', '当时', '指挥', '各型', '消费', '条件', '交易', '上午', '备考', '感觉', '学生', '起来', '数据', '过去', 'M', '数量', '之间', '发生', '原', '达', '预计', '期', '那么', '18', '15', '之前', '提前', '且', '中心', '这家', '知名', '建立', '吗', '创造', '加强', '理解', '参与', '亿元', '100', '报道', '生活', '经验', '信息化', '实现', '功能', '应用', '关国光', '万', '客场', '球', '我省', '职业', '著名', '复试', '姚明', '东莞', '伯德', '回家', '过年', '教材', '不要', '城市', '跟', '一页', '欧洲', '文物', '14', '每股', '而是', '有些', '信息', '密码', '批次', '单位', '本科', '公布', '同学', '一样', '阅读', '秒', '顾客', '标志', '标准', '以下', '关系', '投入', '资源', '同事', '即', '补充', '如此', '举办', '·', '安排', '找到', '工程', '虽然', '官兵', '=', '解题', '公式', '形成', '尽管', '感到', '晋升', '火力', '广东', '帮助', '俄罗斯', '失眠', '泰国', '口技', '下载', '标题', '振保', '评选', '遗址', 'H股', '股东', '不足', '关于', '比如', '出来', '优秀', '香港', '导演', '生产', '竞争', '自身', '战争', '一场', '模拟', '双方', '这里', '上市', '医药', 'r', '开展', '主动', '最近', '力量', '整个', '推出', '首先', '全球', '收益', '名', '一位', '实施', '更加', '展示', '开通', '补报', '本报', '有效', '三个', '正式', '结束', '或者', '第二', '很大', '只能', '综合', '较', '熟悉', '总结', '不再', '变得', '很快', '再次', '提升', '因素', '感受', '进一步', '经理', '有限公司', '办法', '第三方', '13', '以来', '邮票', '支持', '关注', '战斗', '进攻', '联系', '促进', '水平', 'n', '胜利', '三分', '旅游者', '设立', '规则', '岁', '啊', '吸收', '运动', '家长', '元', '升旗', '法国', '关键字', '美国在线', '东部', '内容摘要', '电视', '广播', '曹国伟', '听课', '十大', '涉及', '心理', '任何', '只要', '核心', '商业', '学', '这么', '满足', '发挥', '基地', '地区', '曾', '协会', '共同', '24', '稳定', '类似', '意味着', '40', '一起', '发出', '17', '几年', '增幅', '状态', '因', '采取', '网站', '按照', '可选报', '未', '终于', '考', '口语', '完', '吃', '听', '题型', '尤其', '类', '每天', '三', '积极', '商业银行', '带来', '战略', '培养', '产生', '效果', '一切', '最终', '网上支付', '规模', '电子', '牙膏', '‘', '’', '人士', '机构', '2', '8', '举行', '本书', '正是', '提出', '合作', '负责', '从事', '场位', '方向', '矩阵', '一般', '最好', '南京', '景点', '各地', '研究所', '职位', '没', '国防', '万元', '!', '充足', '出境', 'NBA', '米勒', '罚球', '敏华', '埃弗顿', '旅游业', '初盘', '方法', '原则', '十分', '花', '针对', '辅导', '25', '真的', '多年', '展开', '打', '优势', '练习', 'A', '诉讼', '从而', '销售额', '一半', '制药', '领域', '先后', '签订', '至', '平均', '价格', 'n', '受到', '失去', '泰华', '这一', '女兵', '保证', '顺利', '需', '操作', '27', '直接', '听力', '考场', '坚持', '连', '考前', '广告', '难', '预测', '现场', '太', '总', '实力', '明显', '本报记者', '即将', '动力', '具体', '同期', '回到', '变成', '采用', '我国', '款', '此次', '纳入', '透露', '5', '保障', '大师', '荷兰', '两年', '相互', '一天', '爱', '精神', '突出', '宣布', '首次', '足彩', '强', '传统', '点', '参看', 'r', '|', '概率', '性质', '别人', '非', '主场', '谁', '吧', '佛罗伦萨', '切沃', '投诉', '乡村', '出境游', '根本', '业绩', '走', '的话', '安妮', '呼叫', '改革', '汪力', '任', '攻击', '海上', '去年同期', '东南亚', '长', '身高', '生长', '人体', '国旗', '家教', '求职', '兵器', '短程', '战术导弹', '点穴', '机票', '连队', '月份', '高清晰', '语法', '雅思', '广州', '提醒', '意义', '狗', '垃圾', '几个', '轻松', '当然', '叫', '真正', '做到', '说明', '出品', '张爱玲', '二', '高级', '国际', '战术', '练', '培训', '主题', '评估', '出台', '仅', '下降', '一项', '继续', '至少', '200', '难度', '速度', '政府', '生物制药', '生物', '其次', '快速', '阶段', '市营率', '年度', '有望', '集中', '已有', '这次', '它们', '商店', 'www', 'com', '招生', '修改', '请', '固定', '调剂', '持续', '近', '故障', '离开', '成绩', '技巧', '英文', '大部分', '独立', '另外', '先', '词', '题目', '背', '迅速', '高度', '投资者', '相比', '依然', '自然', '人口', '似乎', '觉得', '活力', '真实', '成', '总经理', '鼓励', '贯彻', '无疑', '事件', '称', '围绕', '意见', '团队', '3', '便', '日电', '红', '战胜', '晚上', '入睡', '学院', '各级', '年代', '充分', '担任', '增强', '理论', '学科', '刚刚', '诺基亚', '总部', '昨天', '汽车', '表明', '主队', '简单', '这部分', '平时', '列', '线性代数', '例如', '函数', '}', '辅导书', 'CEO', '账户', '工具', '机制', '财务', '取得', '带', '联赛', '第三', '防守', '赛季', '表演', '公民', '商机', '报', '线', '简历', '季泽', '干部', '全部', '研发', '春节', '必要', '二外', '食物', '法', '经典', '想起', '女士', '专门', '随后', '此时', '公斤', '军方', '应届', '免费', '玩', '华纳', '兄弟', '第一季度', 'BBC', '安契塔', '红玫瑰', '白玫瑰', '参考书', '坐', '应对', '吴建业', '广大', '程度', '疯狂', '记忆', '既', '写', '大多数', '有所', '加入', '原著', '完善', '武器装备', '意识', '重视', '直升机', '士兵', '一份', '措施', 'a', 'e', 'i', 't', '行为', '药物', '合同', '利润', '购买', '承诺', '空间', 'o', '~', '另', '医疗', '美元', '压力', '批准', '显著', '化学', '80', '咨询', '接近', '19', '低腰裤', '行动', '约', '报名', '按', '点击', '听到', '收到', '体会', '篇文章', '并且', '300', '不好', '推动', '董事长', '内部', '钱币', '形象', '细节', '安全', '冰山', '看来', '属于', '使得', '一点', '巨大', '需求', '护理', '委员会', '始终', '程序', '缺乏', '律师', '4', '出版', '总数', 'AK', '详细', '骗局', '或许', '在于', '是因为', '课程', '不但', '制定', '身体', '突破', '既然', '解决', '协调', '演习', '人员', '结合', '集团', '注重', '索爱', '三星', '保险公司', '重大', '轮不出', '本轮', '话', '初数', '每年', '微积分', '解', '积分', '向量', '若', 'α', '好好', '{', '考题', '同', '变化', '沈足', '当地', '正常', '明确', '罗马', '一分', '全省', '门票', '往年', '看看', '上司', '换', '留下', '就要', '部门', '造成', '推荐', '指导', '站', '战斗力', '时代', '人家', '万美元', '月球', '地点', '赢得', '省内', '出游', '35', '韩国', '民族', '历年', '50', '搜索', '适合', '上年', 'var', '三九生化', '莫斯科', '国歌', '太和', '负责人', '投', '分公司', '面试', '对方', '计算机', '雄风', '骑士队', '奇才队', '休斯', '琼斯', '乔丹', '建中', '绍常', '裁员', '电子游戏', '笔记', '民事', '宋一欣', '科龙电器', '会计师', '两会', '话题', '议论文', '课', '情感', '传播', '到处', '不必', '怎么', '一部分', '存在', '吴', '而言', '外国人', '汉语', '同样', '想到', '现实', '很难', '否则', '副', '音乐', '爱情', '感情', '不错', '体系', '德国', '23', '高达', '到期', '预算', '表达', '控制', '工业', '反', '强大', '不可', '2008', '冲击', '青睐', '拓展', '21', '日前', '规定', '纷纷', '重新', 'cn', '代码', '登记', '特征', '具备', '宣传', '为准', '不到', '显然', '范围', '下来', '以前', '后来', '仍然', '均', '者', '书', '单词', '一道', '心态', '毕竟', '除了', '强烈', '金融', '口', '服务业', '激烈', '良好', '投资', '经营', '总监', '等待', '风格', '为主', '联结', '更为', '外界', '更大', '英国', '个人', '身处', '信心', '首席', '指引', '口腔', '保健', '获悉', '效率', '下属', '有着', '启动', '6', '图书', '之一', '票', '丰富', '骨', '从此', '网页', '大型', '联合', '放弃', '采购', '可是', '执行', '出版社', '这时', '避免', '四', '面临', '之中', '来到', '第二炮兵', '如今', '演练', '指挥员', '实战', '发射', '适应', '建成', '仿真', '蓝军', '次', '该院', '一名', '一体化', '教学', '多个', '整体', '本报讯', '车贷险', '极大', '很强', '两队', '做题', '比例', '尺', '相当于', '常见', '体现', '计算', '求', '出题', '应当', 'B', '某些', '整理', '成立', '间', '随机变量', '分布', '靠', '狂妄', '也许', '挑战', '模式', '众多', '意外', '增值', '营销', '低', '厦门', '球队', '回来', '悬念', '德甲', '领先', '两次', '本赛季', '迎来', '狼堡', '一线', '打出', '奖金', '天', '备受', '节日', '观光', '各大', '自驾车', '拉动', '医务人员', '广东省', '打击', '突然', '会议', '地位', '邓珉', '哪里', '诊断', '老板', '总是', '有点', '方案', '或是', '七巧', '于是', '任务', '思想', '全', '新闻', '防空', '运用', '检验', '储备', '试验', '人民', '飞行器', 'X', '大奖', '这项', '飞行', '哈尔滨', '高峰', '热', '机场', '上车', '?', '坚持到底', '真题', '含有', '生长激素', '分泌', '喝牛奶', '诱导', '目的地', 'NewWin', 'width', 'height', '转让', '广场', '曹', '跨国公司', '几天', '年前', '解释', '实弹', '自卫队', '盾', '拦截', '位于', '二型', '反舰导弹', '开出', '校长', '中等职业', '澳大利亚', '曼桢', '连长', '千里', '地址', '解约', '巴黎', '雅虎', '连续剧', '电影', '娇蕊', 'CFO', '作好', '戴尔公司', '麻烦', '拳击', '提起', '事务所', '金字塔', '宁波', '肇庆', '思维', '背诵', '误区', '近年来', '健康', '思考', '即使', '→', '外文', '想法', '搞', '语言', '主演', '白流苏', '获奖', '剧情简介', '色彩', '式', '研制', '飞机', '45', '博物馆', '突击', '制作', '近日', 'P', 'C', '报告', '经常', '一系列', '限制', '手段', '力求', '联邦', '医疗保险', '利益', '大约', '节约', '中有', '形式', '法律', '手中', '回报', '逐渐', '更是', '美', 'x', '一笔', '金额', '还要', '联邦贸易委员会', '法庭', '办公室', '提交', '多达', 'B', '降低', '保护', '发言人', '第一个', '不得不', '严重', '及时', '现象', '保持', '理想', '申请', '1000', '22', '以军', '政策', '身材', '须', '登录', '拨打', '名称', '准确', '第二次', '本人', '相应', '高职', '专科', '四个', '媒体', '输入', '一番', '考完', '为什么', '当天', '所在', '清楚', '说话', '托福', '想象', '一是', '那个', '喝', '文字', '评论', '150', '句子', '究竟', '不够', '问', '下面', '肯定', '调整', '课后', '结构', '苏宁', '电器', '主力', '资金', '强势', '令人', '热点', '来看', '效应', '短线', '风险', '后面', '一张', '相信', '信任', '开放', '收缩', '率', '日益', '等等', '定位', '多数', '独特', '上网', '适当', '心中', '水面', '根基', '沟通', '分为', '紧密', '整合', '清晰', '一套', '印象', '对此', '商户', '央行', '文件', '主导', '牙防组', '用品', '认监委', '陈述', '将会', '自', '停止', '江苏', '合法', '此后', '市', '农民', '占有', '卫生', '儿童', '大史记', '26', '首发式', '足够', '收藏', '时期', '一路', '三年', '5000', '自豪', '新华网', '组成', '明年', '设备', '竞标', '网', '----', '心', '还会', '毕业', '那时', '年轻', '走进', '喜爱', '无论', '下午', '过分', '能否', '处于', '通讯员', '时节', '对抗', '中学', '设置', '科技', '指挥所', '时而', '大大', '观念', '战法', '拿出', '群', '课题', '700', '资费', '降价', '移动', '责任', '取胜', '一句', '方程', '失分', '余绳', '答案', '×', '灵活', '有限', '极限', '导数', '易', '归纳', 'Ax', '无', '组', '最高', '较大', '把握', '方便', '覆盖', '难以', '通常', '市值', '注册', '70', '习惯', '背后', '精力', '策略', '行', '保级', '这场', '冠军', '轻易', '米兰', '红狼', '追求', '估计', '40%', '球员', '水', '增多', '道路', '火车站', '农业', '组团', '火爆', '购物', '交通', '专项', '有人', '通知', '为此', '主办', '体制', '行政', '复杂', '药方', '生意', '路上', '引起', '却是', '必然', '跳槽', '猎头', '连连', '杂志', '本来', '女人', '人民军队', '中央军委', '轨道', '普遍', '一遍', '推进', '演兵场', '自主', '军事训练', '考核', '机动', '参谋长', '评价', '空中', '以人为本', '士官', '沈阳军区', '军区', '110', '制造', '群众', '公路', '宇航局', '得以', '四川', '量', '山西', '港澳', '长假', '龙江', '当代', '截至', '农家', '山', '家庭', '跨专业', '34', '后期', '心里', '以后', '湖南', '亚洲', '原料', '改变', '长得', '水果', '消化', '蛋白质', '饮用', '钙', '不当', '人为', '担心', '声', '促使', '合适', '维生素', '大长', '今', 'url', 'str', '股权', '审计', '响起', '四年', '祖国', '奥运会', '申奥', '华人', '门', '潍柴', '股份', '中华民族', '无人', '贡献', '费用', '半导体', '好像', '114', '该团', '隐患', '列装', '性能', '防御', '宙斯', 'SM3', '配置', '小岛', '层次', '天弓', '马祖', '目的', '福建', '命中率', '双手', '邮差', '公牛队', '马龙', '前来', '结婚', '生命', '5%', '清华大学', '与其', '娱乐', '1997', '照相', '澳', '睡觉', 'Telia', '两款', '一致', '入围', '入选', '发掘', '参评', '客队', '庄家', '上课', '边', '小偷', '科龙', '虚假', '您', '宁波市', '题材', '难点', '怎样', '8000', '生动', '据统计', '共有', '鉴于', '破坏', '碰到', '800', '课堂', '例子', '一篇', '名著', '范文', '提到', '此', '个性', '讲座', '倾城', '之恋', '故事', '普通话', '别名', '许鞍华', '周润发', '届', '小说', '讲述', '情节', '味道', '风情', '教练机', '伊朗', '扩大', '弹道导弹', '设施', '之争', '反恐', '唯一', '一座', '爱好者', '1999', 'X', '一款', '年内', '面市', '左洛复', '制造商', '证明', '意思', '实际上', '钻', '斗争', '一方面', '披露', '生效', '热情', '年销售额', 'p', '获准', '落实', 'S', '33', '较为', '庞大', '制剂', '成本', '动摇', '寡头', '市场竞争', '46', '120', '违规', '新华社', '严格', '她们', '时尚', '查询', '普通', '高等学校', '忘记', '恢复', '对象', '选项', '材料', '方', '二批', '三批', '本', '征集', '高分', '编辑', 'ETS', '笔者', '布', '疲惫', '我要', '分成', '计时', '返回', '对话', '遇到', '实验', '回答', '留言', '读', '一段', '前者', '后者', '段', '学会', '本身', '插', '常用', '写法', '打下', '前提', '感谢', '不如', '多少', '拿到', '指数', '繁荣', '周二', '切记', '设想', '每每', '所作', '研讨会', '扬特', '图案', '影子', '识别', '观众', '有没有', '那样', 'Terry', '现有', '诸多', '零售', '开发', '偏高', '另一方面', '黄鼎杰', '图片', '哪', '的确', '图标', '国有', '加上', '居然', '台', '期望', '构造', '战役', '如同', '露出', '令', '所谓', '命运', '身上', '董事', '度', '忽视', '类型', '高水平', '管理者', '引进', '树立', '典范', '发放', '逐步', '内涵', '2001', '75', '人民币', '支撑', '主体', '态度', '接口', '威胁', '牌照', '接受', '财经', '证券', '规范', '重组', '品', '倾向', '强调', '资格', '9', '区', '负担', '极', '大城市', '人均', '出版界', '六个', '枚', '除', '外', '深入', '多项', '古钱币', '最早', '直至', '2000', '目睹', '文明', '前所未有', '前进', '地说', '主席', '沙特', '承包', '石化', '赴', '年底', '土地', '得知', '多次', '融入', '整整', '报考', '实际', '痛苦', '陕西', '认真', '大脑', '白天', '加深', '跑', '心情', '锻炼', '顽强', '意志', '考验', '幸福', '你们', '加油', '特约记者', '主任', '打仗', '技能', '当中', '简直', '高素质', '蓝', '态势', '视景', '观察', '对策', '战役学', '融合', '遴选', '终端', '主流', '在内', '大幅', '刺激', '30%', '竟然', '原来', '还款', '胜负彩', '序列', '受欢迎', '几率', '此场位', '帕尔马', '彩路', '投注', '和平', '太奇', '学者', '少', '绝对值', '不等式', '数列', '技巧性', '多种', '同一个', '抓', '定理', '开阔', '绳子', '设', '算', '相遇', '试题', '三分之一', '重', '充分性', '这门', '差', '齐次', '进而', '参数', '惟一', '判断', '综合性', '伴随', '随即', 'D', '总之', '习题', '动手', '过来', '现状', '称为', '信用', '困扰', '银行卡', '梦想', '推广', '二是', '一轮', '俱乐部', '天气', '遭遇', '绝对', '场上', '厦门队', '拿', '本期', '之战', '意甲', '欧冠', '大战', '参考', '五大', '尤文图斯', '对阵', '允许', '夺冠', '奇迹', '种种', '95%', '拿下', '极为', '第四', '昔日', '生死', '输', '转化', '平局', '世界杯', '国', '今日', '渠道', '加快', '市民', '七天', '餐饮', '治理', '贿赂', '告知', '上缴', '某个', '指定', '下发', '食品', '南方', '以便', '巨头', '绝症', '身影', '经理人', '调走', '往', '想要', '承担', '路平', '没想到', '询问', '人人', '任职', '高管', '处处', '弄', '跳', '坚实', '完美', '实在', '白', '嫁给', '常常', '夫妇', '履行', '新世纪', '历史使命', '自觉', '贯彻落实', '武警部队', '作出', '委托', '轮训', '军营', '依据', '战机', '炮弹', '实兵演习', '务实', '作风', '道', '陆军', '地面', '战车', '机械化', '成都军区', '与此同时', '构成', '培训班', '不难', '营养素', '成果', '性', '有力', '首期', '招收', '女', '师团', '海军', '后勤', '饮食', '取代', '住', '跨越', '跨越式', '确保', '民营企业', '配套', '俄', '附近', '国防建设', '边防', '条', '支援', '边境', '官员', '大奖赛', '登陆', '戴尔', '基金会', '着陆', '参赛', '发射点', '别的', '作品展', '摄', '五大连池', '享受', '牡丹江', '旅游局', '大连', '线路', '长线', '海南', '休息', '编排', '万余', '大赛', '2.5', '之外', '考上', '早期', '没考', '早', '热门', '快乐', '很少', '从来', '背单词', '篇', '走出', '正确', '路', '生食', '肉', '鲜奶', '含', '性激素', '乳糖酶', '喝奶', '最多', '摄入', '物质', '早晨', '胃', '氨基酸', '空腹', '热量', '加工', '并非', '及其', '有益', '放松', '上床', '一条', '接触', '弹击', '火车', '最快', '证实', '年龄', '银川市', '累计', '7%', '山东', '河南', '新马泰', '人物', 'screen', 'xc', 'yc', '搜狗', 'sogou', '28', '界', '东北亚', '旅游圈', '周边国家', '三九医药', '持有', '万股', '这才', '难忘', '不愿', '升起', '漂亮', '激动', '获胜', '时刻', '所有人', '最为', '国外', '联盟', '北京故宫', '神秘', '国人', '高潮', '本次', '交流', '当年', '更好', '帮', '家教中心', '大三', '打听', '家里', '01', '设在', '同意', '接到', '找', '营', '跟踪', '排除', '雷达', '雾岛', '闽江', '北端', '台湾当局', '激怒', '主战', '世纪', '500', '皇帝', '投手', '手', '罚', '这边', '拍', '接下来', '绝杀', '命中', '今晚', '周日', '送信', '82', '那里', '文华', '编剧', '韩', '女儿', '供求', '匹配', '万名', '万个', '电信', '金融证券', '贸易', '数', '职能', '领到', 'Qunar', '天益游', '放在', '教育局', '研修班', '绝大部分', '教师', '职业院校', '炼金', '馆', '原创', '风靡', '刊登', '定价', '以为', '祝鸿才', '姐姐', '装甲团', '带领', '项', '尽早', '赞赏', '该型', '基础知识', '全连', '第一炮', '高速', '初步', '友邻', '射击', '每周', '发', '杭州', '大酒店', '中国书画', '李铁', '埃弗顿队', '秘密', '基恩', '曼联', '普吉岛', '出国', '航线', '到来', '吸引力', '客源', '各国', '外出', '下车', '拍照', '瑞典', 'MP3', '苹果公司', '男子', '盗版', '电讯', '净收入', '旅行', '超薄', '三星公司', 'SGH', '英国广播公司', '黑客', '57', '起诉', '垃圾邮件', '娶', '王士洪', '汪延', '分析师', '下滑', '评级', '收购', '徐苹芳', '指', '评委', '澳彩', '嫌疑', '普研', '进度', '例题', '美分', '留在', '买', '想想看', '不爽', '行政处罚', '顾雏军', '被告', '诉讼费', '一对', '外国游客', '驻', '中文', '长三角', '走廊', '紧', '开拓', '常考', '环保', '广泛', '权利', '为例', '疏远', '疾病', '养狗会', '人类', '面面俱到', '自圆其说', '记住', '提问', '在场', '英语专业', '侧重于', '侧重', '谈判', '衔接', '分类', '联想', '之类', '个性化', '八股文', '先生', '真情流露', '挥洒自如', '名师', '格式', '凸显', '想着', '权威', '观点', '1984', '收场', '夜晚', '拉', '也罢', '改编', '美术', '摄影', '片长', '粤语', '关锦鹏', '范柳原', '缪骞', '金马奖', '服装设计', '香港电影', '本片', '同名', '一部', '那种', '对白', '局限', '前后', '拉锯', '敏感', '重现', '猎鹰', '飞行员', '备战', '突袭', '加紧', '得不偿失', '以色列', '协同', '居民', '为期', '两周', '高强度', '从容', '前线', '铁甲', '圣地', '专题', '珍贵', '老虎', '峰', '印巴', '殊死', '步枪', '读者', '集成', '优点', '软件', '老年人', '厂商', '游说', '成分', '陷阱', '若干', '换回', '230', '支', '降', '抗抑郁', '美国联邦', 'h', '反驳', '处方药', '操纵', '针锋相对', 'F', 'D', '近期', '签定', '高额', '现金', '维持', '竞争对手', '份', '赛诺菲', '安万特', '波立维', '百时', '施贵宝', '长达', '导致', '缩水', '独享', '作出反应', '巡回', '给予', '驳回', '分享', '成长', '趋势', 'I', 'm', 'y', '补助', '格外', '缓解', '大户', '以外', '310', '生物制剂', '远高于', '不至于', '垄断', '03', '81', '64', '55', '穿', '关禁闭', '电', '全方位', '北方', '司令部', '穿着', '纪律', '抱怨', '军装', '同情', '交到', '考试院', 'gk', 'bbn', '声讯', '供', '日期', '采集', '批', '艺术类', '五个', '再行', '分数线', '审查', '北京市', '确定', '框中', '流程', '苏琳', '生', '不许', '耐心', '声音', '女孩', '机考', 'TOEFL', '安慰', '工作人员', '考好', '总共', '记', '样子', 'academic', '第一篇', '写出', '左侧', '库', '熟练掌握', '解题技巧', '考点', '临时', '连贯', '套路', '词汇量', '三种', '那句话', '原文', '没戏', '怨声载道', '听说', '搜狐', '早市', '涨停', '虽', '抛', '略有', '回落', '意愿', '解析', '中石化', '带动', '多头', '盘中', '迹象', '前期', '军工', '铁栅栏', '冷冰冰', '脸', '敷衍', '推诿', '恶语相向', '发自', '醒目', 'm', '苹果', '易于', '笑声', '几家', '恐怕', '弱势', '猎食', '汹涌', '格局', '银行业务', '贷款', '症结', '反应', '完备', '不容忽视', '干脆', '中国区', '创意', '某家', '营业厅', '四大', '圆形', '名字', '前卫', '活泼', '有趣', '眼球', '咖啡', '此基础', '元素', '拉近', '远远不够', '认同感', '银行业', '掀起', '争取', '别', '倾覆', '外面', '激励', '长久', '源泉', '倘若', '缺少', '难逃', '不觉', '错误', '聚焦', '忽略', '忠实', '可惜', '股价', '68%', '外部', '运营', '金钱', '奖励', '渣打银行', '名为', '传递', '自豪感', '星仔', '抽象', '流失', '减少', '不易', '见', '牢固', '艾瑞', '复合', '2007', '手机用户', '网民', '结算', '所说', '觉醒', '传出', '清算', '张', '日报', '采访', '之所以', '无序', '临近', '争议', '独家', '清洁', '工业协会', '下称', '认可', '不利于', '诸如', '法规', '昨日', '反对', '推行', '一词', '权', '尚', '试点', '病', '农村', '寿命', '倍', '传世', '邮币', '珍藏', '故宫', '据介绍', '古代', '珍品', '真品', '收录', '古币', '大事记', '五千年', '中华', '立体', '呈现', '面前', '4000', '原始', '贝币', '刀币', '珍稀', '第二枚', '小龙', '材质', '天然', '铁', '最少', '册', '决不', '再版', '策划', '兴衰', '乃至', '眼前', '祖', '上下', '直观', '人大', '部长', '国家文物局', '专家组', '理事长', '环', '承办', '联合体', '一举', '延布', '万吨', '装置', '派出', '年初', '施工', '单打独斗', '三方', '中外', '果然', '派', '国内外', '作者', '思维习惯', '竟', '无情', '刻骨铭心', '永远', '两', '博士', '校园', '督促', '历程', '些许', '颇', '明智', '折磨', '日子', '运筹帷幄', '如愿以偿', '决不能', '混日子', '做出', '清醒', '记忆力', '事半功倍', '看书', '锻炼身体', '400', '跑道', '黑博士', '吃饭', '清新', '舒适', '冬天', '疲劳', '枯燥', '承受', '艰辛', '宿舍', '不见', '付出', '互相', '特约', '深入研究', '离不开', '逼真', '导弹部队', '背景', '论证', '依托', '监测', '一体', '到底', '果断', '下达', '命令', '红军', '两军', '虚拟', '陷入', '瘫痪', '三维', '数据库', '用于', '场景', '地形', '深深', '攻关', '课目', '试训', '实践', '有机', '硝烟', '打赢', '惊喜', '军种', '学科群', '效能', '场所', '学术', '带头人', '多万元', '一大批', '中青年', '科研', '下调', '周末', '摩托罗拉', '降幅', '20%', '市场部', '外资', '机型', '华北地区', '必将', '退出', '本月', '100%', '被保险人', '逾期', '拉齐奥', '分出', '胜负', '次数', '帕勒莫', '梅西纳', '杜伊斯堡', '最难', '初等数学', '必考', '其它', '千万', '上来', '求解', '折于', '三折', '井外', '四折', '未知', '变量', '方程组', '长时间', '量井', '两人', '透过', '表面', '逆向', '极值', '定', '相关性', '几种', '得分', '搞清', '秩', '≤', '+', '行列式', 'b', '零', '代数', '灵活性', '转换', '运算', '分散', '比重', '密度', '基本概念', '命题', '这方面', '充分利用', '上市公司', '这句', '网易', '创业', '曾经', '胡同', '自信', '夸张', '消费者', '手机号码', '邮件地址', '本质', '区别', '汇款', '代收', '预付费', '卡', '点卡', 'VISA卡', 'VISA', '缺位', '产物', '商品', '代替', '母公司', '创新', '安全性', '除此之外', '暂停', '两天', '全程', '记录', '市场推广', '捆绑', '上面', '自然而然', '用到', '活跃', '一件', '有过', '惨败', '长春队', '脚下', '蓝狮', '换帅', '不败', '冷静', '抵达', '将士', '许博', '普科', '两名', '回归', '全队', '输给', '长春', '队员', '困难', '库夫曼', '满意', '虎视眈眈', '狭路相逢', '仍', '保留', '三大', '理性', '三场', 'AC', '留', '形势', '王', '尤文', '失误', '击败', '雷吉纳', '冠军联赛', '战意', '指望', '气', '相差', '沃尔夫斯堡', '两支', '处在', '换取', '降级', '厄运', '凯泽', '胜', '级', '几支', '球迷', '总收入', '以往', '假日', '预警', '不断完善', '进一步提高', '各类', '达成', '理念', '相继', '集散中心', '地铁', '充分发挥', '欢迎', '三是', '改善', '测算', '傅家边', '江心洲', '示范点', '接待量', '夫子庙', '37%', '人次', '购销', '诈骗', '卫生厅', '谨防', '月底', '拉开帷幕', '行政部门', '近来', '红包', '回扣', '款项', '首届', '百强', '年会', '高峰论坛', '医药产业', '各项', '运行', '统计数据', '影响力', '周围', '反省', '晋级', '升职', '绿叶', '房地产', '物业公司', '项目经理', '不停', '失语', '衡量', '勇于', '看重', '盯', '一亩', '企划', '助理', '各色', '等到', '导向', '自闭', '良机', '交往', '不妨', '客服', '刚', '上任', '不久', '不满', '成效', '属', '调试', '越', '薪水', '不让', '边缘化', '念头', '频繁', '积累', '眼中', '候选人', '认准', '下去', '他人', '跟不上', '步伐', '种', '力', '前程无忧', '金锁记', '唯美', '京城', '妓院', '生下', '一子', '由此', '众人', '妻子', '坚定', '维护', '名声', '老', '一个个', '岁月', '渐渐', '灵魂', '引领', '各个领域', '日新月异', '指导方针', '旗帜', '着眼于', '举措', '国防大学', '军团', '党委', '编写', '制度', '北京军区', '现代化', '三军', '劲吹', '求真务实', '之风', '装甲车', '军事演习', '预案', '观摩', '通报', '一级', '二级', '纵深', '探索', '陆空', '步', '走上', '遏制', '激发', '抗菌', '指着', '换发', '加', '强度', '供给', '转向', '哨楼', '医院', '战士', '局域网', '公开', '遍布', '燃油', '走向', '陆续', '空军', '航空', '选拔', '军', '95', '学士', '食堂', '市场化', '经费', '物资', '济南', '战区', '财力', '精确', '迈出', '余家', '行列', '谱写', '实兵演练', '秩序井然', '驻军', '西部', '有利', '班', '文明村', '生态', '少数民族', '军民共建点', '军民', '广西', '看着', '由衷', '不懈', '航天', '选定', '参赛者', '原型', '级别', '地球', '盘旋', '距', '第一名', '采纳', '私人', '航天器', '一号', '飞入', '全世界', '文化节', '艺术', '镜泊湖', '风景区', '司', '春回大地', '据省', '假日办', '9.2', '呈现出', '低于', '避开', '扎龙', '自然保护区', '延续', '重庆', '沈阳', '云南', '省内游', '主旋律', '出行', '在家', '踏上', '实惠', '特色', '创', '歌舞', '绝大多数', '登山', '乐园', '全家', '兴', '村', '朝鲜', '乡', '街津口', '游览', '收获', '挺', '干什么', '父母', '就业', '在职', '状况', '拼', '气馁', '中途', '大有人在', '决心', '恰当', '浪费', '青春', '活', '大有', '太多', '文科', '兴趣', '刷', '北京第二外国语学院', '持久战', '模拟题', '那题', '没见', '一味', '功夫', '全都', '复习资料', '同志', '天天', '时隔', '一段时间', '定期', '一刹那', '奋斗', '氛围', '一个月', '美眉', '排', '我报', '档案', '不了', '幸运', '一所', '朋友', '西方人', '北欧', '食', '男人', '荷兰人', '发育', '漫长', '动物性', '激素', '有助于', '两种', '催眠', '血清素', '一杯', '镇静', '吗啡', '饮奶', '抑制', '长期', '讲究', '豆类', '有利于', '不宜', '被动', '师', '越是', '紧张', '焦虑', '消除', '睡前', '户外', '入眠', '借助', '闭目', '双眼', '眼睛', '掩', '头', '睡', '平淡', '淅沥', '有助', '微量', '安稳', '姿势', '右', '出差', '足量', '尽量', '营养物质', '取决于', '以下几点', '女童', '男童', '90', '体格', '能量', '养成', '过多地', '有益于', '列入', '4%', '桂林', '银川', '海外', '遍', '美食', '合理', 'function', 'if', '|', 'LoadWin', 'name', 'window', 'ah', 'aw', '蒙古国', '事宜', '国资委', '年报', '净资产', '2.55', '变为', '变动', '业内人士', '大郅', '体育', '天安门广场', '升旗仪式', '五星红旗', '谈到', '骄傲', '经历', '回国', '逛', '建筑', '成员', '想念', '赛场', '聊', '成就', '八月', '十五', '之际', '故宫博物院', '中秋', '招待会', '各界', '精英', '抒发', '追思', '举杯', '邀月', '纪念', '周年', '抗日战争', '陈鲁豫', '主持', '光明', '濮存昕', '朗诵', '古今', '铭记', '复兴', '今夜', '男高音', '歌唱家', '莫华伦', '遗产', '仪式', '见证', '同一', '高考', '北师大', '大四', '许', '高三', '半天', '找个', '呀', '过来人', '葛庆', '听听', '说法', '我会', '干涉', '小峰', '干吗', '青少年', '认识', '自称', '打来', '警方', '袁是', '令小', '没投', '姓', '正要', '岗', '意向', '欣喜若狂', '当即', '煞有介事', '三天', '日到', '体检', '所知', '纳闷', '分点', '亟待', '加盟', '丰厚', '工资', '住房', '待遇', '向小袁', '作', '动心', '预订', '车票', '直达车', '只好', '冷静下来', '袁才', '不对劲', '详细资料', '招聘启事', '查不到', '报警', '民警', '急于', '不法分子', '骗进', '传销', '窝点', '市场报', '团', '谭正', '改进', '厂家', '查找', '前不久', '谭', '大胆', '看法', '列装后', '筛选', '中新网', 'MD', '舰', '护卫舰', '此类', '吨', '轨迹', '出发', '日本政府', '毫米', '东森', '此举', '国防部', '东引', '呼应', '第一道', '防线', '境外', '事实上', '陆海空军', '台海', '毒刺', '建', '小小的', '饱和', '遭到', '中美关系', '汉光', '战力', '保存', '之下', '受损', '勉强', '岛上', '沙滩', '处', '空降', '捕鲸', '叉', '重量', '超', '投篮', '运球', '传球', '嘴', '只言片语', '纳斯罚', '向伯德', '投中', '两米', '开外', '三分球', '36', '宽', '厚', '葬送', '同步', '一丝', '女神', '神奇', '险胜', '罚篮', '攻心', '马上', '包夹', '立刻', '底线', '立即', '皮蓬', '1996', '总决赛', '星期天', '终场', '平', '两分', '压哨', '干扰', '每位', '预言', '进', '一块', '队', '显摆', '最常', '步行者队', '嘿', '菜鸟', '罚进', '哀乐', '中年', '影业公司', '桑弧', '石', '陈绍常', '陈', '创办', '小学', '劝', '刘之权', '外地', '说服', '岳父', '深知', '旺盛', '3515', '空缺', '并不多', '148', '外企', '人才需求', '浙江省', '乐观', '消费品', '通讯', '3G', '硕士', '高层次', '保险业务', '有意', '五位', '年薪', '八大', '网友', '自从', '中奖人', '合伙人', '惊讶', '每次', '回去', '一刻', '省', '加大', '教学质量', '副校长', '局长', '席卷', '报纸', '黄金时间', '每月', '一同', '痴迷', '推敲', '智力', '半生', '缘', '彩色片', '1998', '世钧', '曼璐', '自已', '部件', '一口', '清', '实装', '这位', '千方百计', '重任', '地域', '直', '部', '比武', '扎实', '多名', '说明书', '原理', '操作规程', '授课', '讲课', '奔袭', '敌阵', '尖刀', '发起', '校炮', '催生', '二层', '上海市', '29', '多功能厅', '卖', '展', '工体', '北路', '新中', '西街', '留洋', '续约', '替', '显得', '筹码', '违约金', '周边', '旺季', '多万人次', '海啸', '飞往', '度假', '一周', '心目', '南部', '一大', '新亮点', '牌', '风光', '羡慕', '悉尼', '淡季', '陈超英', '短时间', '顺口溜', '贪多', '休闲游', '趋于', '1300', '杰克逊', '关闭', '大规模', '下跌', '法新社', '零售店', '6280', 'Z140', '六款', '播放', '福克斯', 'iTunes', '节目', '民意测验', '成年', '十个', '游戏机', '花费', 'BitTorrent', '影片', '作法', '15%', 'Royal', 'KPN', 'NV', '3.83', '道琼斯', '漫游费', '沃达丰', '漫游', '欧洲委员会', '电信展', 'X820', '内置', '像素', '摄像头', '联播', '第一步', '审判', '被判', '入狱', '检方', '遭', '入侵', '发动', '获益', '1994', 'Rose', '叶玉卿', '玫瑰', '太太', '外边', '接替', 'COO', '出任', '段永基', 'TOM', '弥补', '无线', '致使', '财报', '%', '两位', '董事会', '官', '新闻学', '硕士学位', '获', '2003', '龙', '遗憾', '落选', '揭晓', '考古学', '浙江', '嵊州', '黄山', '洪江', '高庙', '至今', '发表', '文物保护', '涵盖', '经', '增添', '忍痛割爱', '河南省', '猫', '耳', '福建省', '06032', '期王智', '解盘', '补', '平手', '恩波利', '输盘', '乌迪内斯', '盘', '想必', '科隆', '多特蒙德', '美因兹', '斯图加特', '栏目', '学过', '解惑', '损失', '师资', '讲解', '联考', '有的放矢', '缺课', '典型', '强化', '强化训练', '针对性', '有备而来', '课上', '巩固', '做好', '个别', '单独', '博览群书', '精读', '一本', '基本上', '道题', '每题', '3.5', '挤时间', '熟练', '高等教育出版社', '上下册', '大学本科', '通用', '多元', '附有', '完后', '两本书', '力度', '留守', '十', '副刊', '颠簸', '省去', '长沙', '亲', '赶', '做梦', '清静', '厨房', '小强', '长相', '厮守', '拽', '息息相关', '庙会', '商场', '你娘', '娘', '渴望', '深圳', '锦标赛', '国家体育总局', '跆拳道', '管理中心', '冬训', '多位', '余万股', '前置条件', '焦急', '代理', '启事', 'A股', '想方设法', '此案', '前置程序', '德勤', '中国证监会', '刑事', '科龙案', '原告', '委员', '谷', '泰铢', '铢', '王宫', '必去', '讲解员', '近几年', '航班', '迅猛', '埃菲尔铁塔', '卢浮宫', '红磨坊', '店铺', '导游', '富士', '旅游部', '三角洲', '副总经理', '艾哈迈德', '酒店', '私家车', '江西', '鼎湖山', '山泉', '泼水节', '广', '狭窄', '通病', '拓宽', '上周末', '启德', '图书馆', '一堂', '265', '犯罪', '无话可说', '道德', '以养', '上要', '亲近', '家人', '遛狗', '冲凉', '浪费时间', '忠诚', '狡诈', '侵犯', '邻居', '排泄', '心虚', '挑出', '两三点', '绰绰有余', '可回收', '可降解', '难倒', '场合', '用不上', '八级', '文学名著', '商务英语', '背到', 'Z', '却说', '不来', '怎么办', '剔除', 'dog', 'pig', '词才', '举', '如由', '奢侈', '贫穷', '救助', '难民', '相关联', '串通', '写作水平', '外国名著', '可望而不可及', '说得好', '大山', '大牛', '鲁迅', '孔乙己', '名篇', '学得', '写作文', '下笔', '自若', '争相', '千人一面', '味同嚼蜡', '改装', '东西', '标新立异', '旁征博引', '多用', '翔实', '事例', '画蛇添足', '邵氏', '公司出品', '传奇', '不见得', '圆满', '胡琴', '咿咿呀呀', '拉着', '万盏', '灯火', '拉过来', '不尽', '苍凉', '不问', '---', '邵逸夫', '蓬草', '区丁平', '何东尼', '作曲', '林敏怡', '作词', '林敏聪', '演唱', '汪明荃', '95min', 'Love', 'in', 'a', 'FallenCity', '曹建南', '金像奖', '改编自', '怀旧', '爱情故事', '陷落', '成全', '捕捉到', '男女之间', '似假', '微妙', '拘紧', '欠', '前半部', '描写', '离婚', '娘家', '饱爱', '兄嫂', '讽刺', '欺凌', '后半部', '风流', '浪子', '缪演', '细腻', '女子', '塑造', '而周', '卖弄', '俊雅', '潇洒', '幸而', '独有', '尖刻', '嘲讽', '四十年代', '展翅', 'L15', '研制成功', '首飞', '初', '第三代', '防', '更新', '储存', '本着', '放进来', '本土', '侵略者', '之仗', '烟幕', '驻华', '武官', '打过仗', '英国海军', '驱逐舰', '伊朗核', 'F', '16I', '战斗机', '二战', 'PzH2000', '自行', '榴弹炮', '行销', '适应性', '美军', '几可乱', '中练', '占领区', '打交道', '开赴', '行记', '装甲兵', '不乏', '馆藏', '容错过', '好去处', '预知', '屠戮', '血战', '沉思', '对峙', '锡亚琴', '冰川', '咽喉', '卡吉尔之战', '厮杀', 'G36', 'SCAR', '3DMax', '专仿', '共存', '医药保健', '试图', '产销', '该类', '立法', '延缓', '业', '协会会长', 'k', '家正', '阻止', '2010', '常用药', '如期', '胆固醇', '药舒降', '普拉固', '前列腺', '药保列治', '130', '药品', 'R', '指责', '逐年', '使用率', '两家', '行会', '私下里', '同盟', '舞弊', '延迟', '空子', '由来已久', '内耗', '诞生', '第一份', '家向', '推迟', '借机', '压缩', '美国联邦贸易委员会', '两起', '判决', '催化', '一宗', '38', '美国市场', '延后', '2011', '赔偿金', '这份', '纳税人', '药费', '期后', '先灵葆雅', '最高法院', '随意', '暴利', '白宫', '传票', '触犯', '竞争法', '势不可挡', '年里', '抵挡', '递增', '医药行业', '&', '780', '医疗保健', '服务中心', '开支', '381', '减缩', '305', '不畅', '美国政府', '便宜', '夏天', '辉瑞公司', '畅销', '美国公司', 'K', 'v', '药有', '正视', '前景', '销售总额', '相当可观', '复杂程度', '因而', '领先地位', '赶超', '分流', '或成', '局面', '加剧', 'T', 's', 'E', '惊人', '年收入', '同行业', '160', '简化', '新药', '备案', '报批', '把持', '份额', '将要', 'd', '47', 'l', 'g', '61', '华生', '71', '98', '禁止', '可不是', '巴勒斯坦', '以色列国防军', '军纪', '符合', '追赶', '潮流', '改成', '爱美', '天性', '指挥官', '严重威胁', '改过', '军需', '符合规定', '军裤', '网址', 'jeea', '1606790', '京', '目录', '填写', '宜先', '草拟', '表', '设定', '初始密码', '牢记', '凭此', '携带', '身份证', '照顾', '选中', '第一批', '第二批', '第三批', '批内', '各选报', '实行', '参照', '分数', '优先', '低分', '顺序', '一次性', '投档', '务必', '音频', '日程安排', '步骤', '浏览器', 'bjeea', '校验码', '页', '选报', '服从', '走读', '周折', '多伦多', '托福考试', 'Server', '苦苦', '中间', '置成', '开放式', 'cube', '隔音', '楼层', '容纳', '移民', '四五十岁', '印度人', '南韩', 'Kingston', '亚裔', '男孩', '吓住', '原以为', '当场', '好歹', '心灵', '周后', '决无', '但要', '反应速度', '作笔记', '内答', '解答', '其间', '第二个', '个长', 'long', 'lectures', '答题', '明白', '完毕', '休息时间', '带点', '各给', '耳机', '麦克风', '有点像', 'answer', 'machine', '先给', '一段话', '口头', '概括', 'student', 'life', '段子', '内读', '225', '写文章', '所读', '屏幕', '字数', '第二篇', '内写', '是从', '作文题', '中选', '打字', '手写', '考试内容', '处理', '解法', '更长', '臭', '记笔记', '选题', '排序', '仅靠', '模版', '尽可能', '驳论', '文和', '阅读文章', '勤加', '6000', '题均', '改写', '插入', '文章内容', '满脑子', '听不懂', '上去', '精听', '着手', '辅以', '泛', '有质', '听上', '各位', '英语口语', '想不通', '加考', '我建', '议', '埋怨', '上练', '录音机', '日常生活', 'practical', '喜', '欢', '失之交臂', '遣词造句', '反应速度快', '键盘', '社区', '焦点', '个股', '002024', '该股', '开盘', '其后', '获利盘', '压下', '买盘', '下该', '股', '封于', '可见', '拉升', '盘面', '层面', '小幅', '探低', '回升', '上扬', '翻红', '之强', '瞠目结舌', '情形', '需谨慎', '必竟', '上攻', '消耗', '动能', '退温', '外扩散', '活跌', '板块', '有色金属', '地产股', '向外', '航天航空', '规避', '技术性', '回调', '追高', '范松璐', '金融服务', 'TerryTyrrell', '饶有兴趣', '别出心裁', '麦当劳', '苹果电脑', '缺', '可口可乐', '索性', 'CocaCash', '引发', '台下', '一阵阵', '会心', '深远', '掏钱', '未必', '适逢其时', '应求', '与众不同', '暗流', 'WTO', '金融市场', '外资银行', '发生变化', '萌生', '社会福利', '房屋', '私有', '老龄化', '个人消费', '总体性', '平衡', '中小型', '收费', '现存', '不良贷款', '比率', '实战经验', '消费性', '缺失', '某种', '滞后', '鲜有', '差异化', '为本', '鲜明形象', '面目', '雷同', '一模一样', '似曾相识', '无从', '分辨', '字体', '隐', '颜色', '形状', '极其', '改换', '视觉', '些', '区分', '性会', '美国银行', '照片', '乍一看', '难以想象', '酒吧', '明快', '点缀', '夺人', '心焦', '超前', '人会', '放心', '放进去', '友善', '亲切', '保安', '制服', '识别系统', '高标准', '心智', '一幅', '海面', '表述', '深藏不露', '对内', '愿景', 'p', 'e', 'llin', 'g', 'tru', 'th', '终究', '间会犯', '注意力', '拥护者', 'Debora', 'Chatwin', '大使', '星期日', '泰晤士报', '2002', '最佳雇主', '雇员', '好评', '股息', '全股', '6.3%', '上涨幅度', '盖勒', '普', '结果显示', '激情', '关系不大', '形同', '梦游', '粗暴', '冷漠', '伤及', '更是如此', '多一些', '反思', '领导层', '修固', '细分', '产品开发', '风险管理', '职员', '超越', '积极向上', '长远', '士气', '低落', 'TaketheLead', '人力资源', '加以', '管理层', '重获', '代言人', '卡通人物', 'StarMan', '榜样', '录像带', '通讯录', 'JustSayThankYou', '说句', '谢谢您', '表扬', '星', '卡片', '谢谢', '刊物', '更名', 'TheLeader', '对外', '深化', '满意度', '上升', '更深', '大伙儿', '更要', '看上去', '深埋在', '水下', '依靠', '修为', '年均', '增长率', '102.7%', '605', '亿个', '亿多', 'YeePay', '执行官', '唐彬', '低端', '不在乎', '视而不见', '网关', '外包', '正如', 'eNet', '硅谷动力', '商务', '运营部', '张磊', '代理商', '崛起', '采取措施', '暴露出', '监管', '弊病', '6688', '商城', '拖欠', '挪用', '明例', '第二号', '另一家', '商好购', '何明', '攀', '理财', '防止', '欺诈', '易观', '今年底', '金融业', '大限', '洗牌', '在所难免', '服务商', '出局', '再起', '风波', '书面形式', '监督管理', '递交', '数条', '还称', '即便', '保健用品', '征求意见', '稿', '征求', '过后', '卫生部', '司将', '部颁标准', '雪豹', '日化', '童渝于', '知情', '担当', '轻工', '于用', '名正言顺', '范畴', '功能性', '字面', '主管部门', '卫生部门', '消息人士', '数百家', '成型', '浮出', '卫生系统', '血缘', '在此之前', '十多年', '李纲告', '紧急', '用词', '不明朗', '日讯', '潘跃', '中国红十字会总会', '博爱', '论坛', '县', '试点工作', '亿', '合作医疗', '减轻', '致贫', '返贫', '资源分配', '均衡', '城乡差异', '贫困地区', '死亡率', '文物出版社', '太庙', '这套', '问世', '722', '朝代', '更替', '八卷', '每卷', '设有', '百科', '版块', '历史风云', '厚重', '史上', '出世', '惊', '四座', '引人瞩目', '六项', '最全', '第一部', '断代', '实物', '佐证', '大全', '多枚', '同类', '望其项背', '货币', '骨贝', '蚁鼻钱', '秦', '半两', '一化', '沿承', '清朝', '一枚', '方孔圆', '宣统', '通宝', '1888', '金币', '贝', '铜', '铅锡', '银', '镍', '远古', '布币', '数十枚', '文革', '老纪', '特票', '发行', '翰墨', '林', '酝酿', '筹备', '积', '历史学家', '之力', '之功', '所得', '书中', '均经', '权威部门', '鉴定', '锈迹', '斑驳', '饱经', '沧桑', '进程', '王朝', '更迭', '起落', '跃然', '秦皇汉', '武到', '唐宗宋', '春秋战国', '隋唐', '明清', '光绪', '民国', '尘封', '典籍', '鲜活', '七百余', '载体', '冲击力', '数千年', '灿烂', '中华文明', '脚步', '该书', '策划人', '饶声勇', '脉搏', '回声', '绝唱', '薪火相传', '百世', '系', '尽汇', '常会', '副委员长', '布赫', '文化部', '郑欣淼', '组长', '博协', '北京市人民政府', '顾问团', '顾问', '吕济民', '中华全国集邮联合会', '秘书长', '盛名', '副会长', '杜耀西', '出席', '秀世', '全国政协', '张克辉', '撰写', '贺信', '985', '015', '中国石化集团', '年产', '聚乙烯', '聚丙烯', '承包商', '7.5', '4.65', '解放日报', '尾声', '多人', '竣工', '运往', '海岸边', '四五百名', '施工人员', '奋战', '异国', '红海', '西岸', '权衡利弊', '携手', '知根知底', '一拍即合', '优势互补', '远远地', '身后', '承包合同', '仪表', '电气设备', '其余', '大宗', '53', '工程设计', '化工', '总体规划', '上海石化', '扬子', '杜邦', '纤维', '承包工程', '蝴蝶飞飞', '关心', '关键问题', '关键性', '利器', '路径', '初恋', '迷恋', '持久', '那场', '执手', '相看', '往日', '难挥', '那份', '漂泊', '何处', '栖息', '浓情', '酿', '泪滴', '高山流水', '寻觅', '苛求', '爱恨', '随缘', '聚散', '相依', '八岁', '攻读', '博士学位', '三十岁', '天生', '虚荣', '直到现在', '匆忙', '借鉴', '一般来说', '有名气', '名校', '盲目', '毕业证', '学有所成', '腰缠万贯', '享有', '声誉', '师范大学', '爱好', '严谨', '治学', '决胜千里', '先秦文学', '秘笈', '明天', '心中有数', '周密安排', '作息时间', '散漫', '人要', '生物钟', '最强', '回忆', '革命', '本钱', '舍友', '约定', '起床', '操场', '沿', '每圈', '三圈', '我用', '人民日报', '8100', '晨', '赖床', '不起', '刚好', '一整天', '少量', '调节', '洗澡', '晚自习', '坚持不懈', '闷热', '严酷', '冰冻', '打退堂鼓', '教室', '饭堂', '三点一线', '单调', '倍感', '乏味', '整日', '孤寂', '之感', '坚定信念', '阳光', '总在', '风雨', '测试', '并未', '换来', '所要', '无时无刻', '悉心', '眼神', '促发', '无尽', '但愿', '甜蜜', '互相理解', '刘', '一代', '王永孝', '阳春', '浓浓的', '气息', '扑面而来', '甄明安', '已有近', '和平时期', '培育', '熏陶', '锤炼', '过硬', '胆识', '严峻', '谈何容易', '素有', '百', '一杆', '枪', '之称', '要素', '号手', '困难重重', '打造', '紧迫感', '牵动', '上上下下', '院长', '李体林', '亲自', '挂帅', '机关', '业务部门', '调研', '集', '导调', '多功能', '练真功', '上旬', '某型', '只见', '显示屏', '瞬息万变', '第一波', '猛烈地', '硝烟弥漫', '斗智斗勇', '袭', '角色', '置身', '强敌', '手忙脚乱', '场面', '模块', '实体', '生成', '真实性', '立体感', '身临其境', '根植', '师生', '参演', '训法', '炮火', '砥砺', '本领', '七个', '撑起', '更让人', '学等', '有别', '互有', '软件开发', '集中力量', '模拟系统', '联合作战', '多套', '软件系统', '学科知识', '交会点', '战术学', '模拟实验', '自动化', '联为', '互通', '构建', '跨学科', '综合利用', '牵引', '吸纳', '教研室', '教员', '建设项目', '信息技术', '交流中心', '学科专业', '交会', '学科建设', '评为', '重点学科', '博士后', '流动站', '挂牌', '段志敏', '中国移动', '北京地区', '昨天下午', '徐正飞', '索尼', '爱立信', '新机型', '总裁', '范志军', '调低', '李英辉', '安邦', '财险', '贷款人', '银行贷款', '险种', '车贷', '赔付率', '不堪重负', '须代其', '条款', '履约', '第一位', '降到', '第二位', '先由', '追偿', '06020', '31111331331', '06025', '330300', '06024', '3133313', '美因茨', '无望', '各门', '得数', '天下', '变换', '性强', '引申', '细心', '稍微', '一不留神', '就会少', '必考题', '以点带面', '二项式', '量井深', '求井深', '这道题', '费', '考虑一下', '出井', '深', '甲乙', '相向', '而行', '追及', '等量', '抽象思维', '必要性', '较强', '变幻莫测', '判断题', '思维能力', '游刃有余', '可导', '微分', '驻点', '最值', '几句话', '条线', '广义', '判', '收敛', '面积', '不管怎么', '翻来覆去', '条理化', '方框图', '此处', '省略', '纵横交错', '环环相扣', '渗透', '多变', '内在联系', '所学', '融会贯通', '切入点', 's', 'AB', '分块', '可知', '解系', '组秩', '阶', '必有', '非零解', '无穷', '多解', '≠', '可用', '克莱姆', '法则', '维', '数值', '线性', '中非', '零子', '阶数', '定义', '<', '阶子式', '全为', '凡此种种', '千丝万缕', '时要', '串联', '张冠李戴', '还应', '逻辑性', '叙述', '简明', '逆', '转置', '相互间', '稳拿', '随机', '乘法', '全概', '贝叶斯', '考分', '独立性', '着重', 'Y', 'DX', 'DY', 'E', 'XY', 'EXEY', '而会出', '归', '求得', '题干', '考纲', '列表', '有所突破', '教科书', '不同点', '推理', '突破口', '琢磨', '十分困难', '求教', '信誉', '解决问题', '动脑', '动手做', '练习题', '温故而知新', '陈雪频', '实习', '唐翔', '叫做', '曾任', '副总裁', '我能', '对面', '一步之遥', '创业者', '留待', '考证', '这笔', '账', '百度', '几千万', '号称', '利差', '总和', '所查', '3000', '借用', '产业', '差异', '坚信', '市场前景', '非常广阔', '便利', '户外广告', '写道', '鲜明', '对比', '对应', '信用卡', '借记卡', '邮局', '多种形式', '底层', '差别', '单一', '电子商务', '瓶颈', '补位', '页面', '端口', '中介', '买家', '确认', '买卖双方', '暂时', '保管', '货款', '阿里巴巴', '支付宝', 'eBay', 'Paypal', '贝宝', '中小', '不太可能', '同行', '邮政', '回款', '付款', '中止', '自动', '回复', '监控', '交易系统', '强制', '以供', '遵守', '监督', '过滤', '引擎', '出较', '撒手锏', '喜好', '至关重要', '相', '致力', '门户', '强迫', '交易过程', '附加', '单推', '找准', '目光', '放到', '普通用户', '线型', '带入', '未注册', '互动', '商业模式', '端', '绝不', '信誓旦旦', '违背', '流量', '数据资料', '促销', '商业机会', 'DCM', '半岛', '基金', '首批', '风险投资', '第二轮', '融资', '水到渠成', '挑选', '风投', '入', '生存', '取得成功', '脚踏实地', '绝不能', '抱', '投机', '周六', '今天下午', '升班马', '三连胜', '四轮', '骄人', '战绩', '失利', '赢来', '顿时', '化为乌有', '何兵', '面对现实', '保级战', '全力', '争胜', '场地', '本周一', '赛前', '灰心丧气', '相反', '充满', '必胜', '队长', '汪强', '足以', '全取', '最坏', '主教练', '非常高兴', '主力阵容', '出战', '几轮', '赢球', '有句', '俗话', '勇者胜', '到时候', '刘淼', '意德', '收官', '归属', '彩民', '不敢', '稳胆来', '做以', '剖析', '仅供', '四国', '本国', '王尤文', '早已', '上岸', '嫡系', '雷吉纳队', '栽倒', '尤文则', '小弟', '坏', '美梦', '死敌', '败', '或平', '搭上', '末班车', '任何人', '幻想', '国米', '死拼', '意大利杯', '第三天', '夺杯', '与否', '体力', '圣', '罗西', '球场', '王子', '托蒂', '复出', '登场', '象征性', '如愿', '比分', '尤文以', '重金', '重炮', '托尼', '率领', '主客场', '前列', '跻身', '其队', '此翻', '飞驴', '保住', '踏入', '联盟杯赛', '场', '一战', '不论怎样', '翻盘', '输赢', '好象', '过关', '各取', '互不', '伤', '不大可能', '和凯泽', '油条', '榜眼', '位置', '榜尾', '顾头不顾尾', '毛病', '濒临', '这回', '只许', '境地', '只失', '十四个', '可能性', '劣势', '狂', '轰乱', '炸式', '更惨', '最有', '战平', '60%', '场次', '基准', '已掉', '取悦', '进功', '足球', '于二到', '强队', '商报', '吕中', '赵文', '992.49', '19.4%', '70.93', '24.1%', '信息反馈', '维权', '一倍', '总量', '28.4%', '16.7%', '处理意见', '协商', '处理完毕', '日益完善', '各市', '标识', '咨询中心', '服务设施', '显现', '满意率', '内外', '秦淮河', '整治', '配套工程', '绿', '博园', '奥体中心', '新景点', '包装', '农民收入', '素质', '农村面貌', '监测点', '体验', '溧水', '园', '浦口', '帅旗', '农庄', '迎湖', '桃园', '数千', '岛', '四是', '丰富多彩', '节庆', '好戏连台', '公园', '玄武湖', '选拔赛', '祭孔', '乐舞', '明孝陵', '大明', '华章', '展演', '229', '旅游区', '节日期间', '海内外', '1914.5', '22.8%', '2.08', '24.3%', '五是', '中山陵', '13%', '41.28', '本省', '24.68', '59.8%', '22.83', '28.9%', '6935', '27.3%', '六是', '住宿', '红红火火', '苏州', '无锡', '常州', '镇江', '扬州', '徐州', '连云港', '八市', '39', '零售额', '7.12', '30.9%', '轰轰烈烈', '骗子', '趁机', '提示', '中央', '手机短信', '信件', '自查自纠', '收受', '汇入', '账号', '宽大处理', '医疗机构', '紧急通知', '受骗上当', '药品监督管理局', '暨', '成都', '标点', '主办方', '品种', '中药', '会上', '分析方法', '依照', '中成药', '既有', '工业生产', '彰显', '议程', '最具', '药企', '事业', '更上层楼', '打拼', '依旧', '原地', '徘徊', '失语症', '人事主管', '两任', '老总', '原地不动', '困惑', '人事工作', '应付', '老同志', '比较稳定', '塌实', '就让', '默默无闻', '陪衬', '抢眼', '红花', '定性', '搬', '产出', '千万别', '赔本', '买卖', '捅破', '这层', '窗户纸', '重用', '自闭症', '出色', '破格', '路线', '手底下', '没兵', '协助', '心仪已久', '远不如', 'PK', '一向', '盯准', '例会', '讨论', '一言不发', '不好意思', '来得及', '平日', '聚会', '难见', '用人', '所长', '对路平', '睁一只眼', '闭一只眼', '不免', '嘀咕', '说路平', '小农意识', '眼里', '一摊', '没错', '顾虑', '反作用力', '断送', '职场', '伙伴', '价值链', '盘算着', '眼前利益', '路平要', '能者多劳', '点子', '人缘', '玩转', '症', '项目部', '极度', '公司总部', '排班', '整顿', '忙乱', '有序', '一片', '倒伐之声', '当下', '忙', '团团转', '单间', '会客', '聊天', '上班', '自由散漫', '高压手段', '管', '亲信', '监视', '言行', '中层', '惟独', '辞职', '欲望', '泼辣', '强悍', '接受方', '初见成效', '表率', '严人', '宽己', '服众', '强权', '万灵药', '身为', '制定者', '裁判', '一时', '短期', '供应商', '水能载舟', '覆舟', '早些', '柔性', '管理手段', '激进', '以身作则', '口服心服', '丢盔卸甲', '多动症', '开心', '跳越', '迷茫', '出头', 'IT', '数码产品', '当成', '涨薪', '跳板', '断', '下家', '领', '近一年来', '倒', '没什么', '非分之想', '上个月', '换成', '看不顺眼', '卡得', '动', '大不了', '走人', '频率', '过快', '并不大', '平级', '甘心', '多动', '此人', '忠诚度', '值得', '怀疑', '稍', '不如意', '弃暗投明', '频频', '跳成', '资本', '谈不上', '中高层', '干满', '埋头', '咸鱼', '翻生', '再换', '稳扎稳打', '步步为营', '擦肩而过', '非典型', '红眼病', '容不得', '能干', '冷嘲热讽', '营养不良', '骨质', '疏松', '主见', '人云亦云', '老好人', 'N', '抑郁症', '非黑', '出自', '〈', '人力资本', '〉', '继', '大宅门', '橘子', '豪华', '家族', '大戏', '清末', '民初', '小镇', '天真烂漫', '少女', '曹七巧', '刘欣饰', '姜家', '少爷', '邵峰饰', '一见钟情', '可七巧', '哥哥', '曹大年', '刘永生', '贪图', '钱财', '妹妹', '患有', '软骨病', '老二', '钟泽', '气壳', '答应', '婚事', '失望', '至极', '仲泽', '婚宴', '酩酊大醉', '令七巧', '心痛', '欲裂', '沉沦', '夜宿', '冒险', '劝阻', '酒醉', '同居', '一晚', '怀孕', '招致', '非议', '仲泽为', '临终时', '声称', '亲生', '父亲', '姜', '老太太', '奚美娟', '亦', '自家', '痛斥', '对七巧', '大伯', '泽', '程前', '倾吞', '家产', '圈套', '误会', '重重', '纯洁', '摧残', '消逝', '人格', '扭曲', '性情', '冷酷', '亲手', '毁掉', '儿女', '婚姻', '刻薄', '自私', '终日', '鸦片', '麻痹', '强军', '兴军', '方略', '阔步前进', '贾永', '曹智', '繁重', '又快又好', '胡锦涛', '全过程', '潮平两岸阔', '风正一帆悬', '党', '牢固确立', '进展', '军委', '研讨班', '编印', '读本', '发全', '中心组', '政治', '院校教育', '各级党委', '研究部署', '军师', '辅导材料', '抓团', '理论工作者', '阐释', '高质量', '研究成果', '文艺', '优秀作品', '音像', '读物', '总政治部', '八荣八耻', '须知', '歌曲', '唱响', '座座', '召开', '江泽民', '座谈会', '规划', '破解', '重点难点', '谋划', '遵循', '检查', '准绳', '转发', '旅', '号召', '瞄着', '实干', '革命化', '正规化', '长足进展', '裁减', '员额', '适度', '政治觉悟', '成批', '涌现', '贴近', '纵横驰骋', '看得见', '看不见', '无线电波', '往复', '穿梭', '金秋', '代号', '北剑', '对抗性', '内蒙古草原', '深处', '不设', '战斗行动', '观察员', '现', '秋日', '战火', '回眸', '军事学术', '总编辑', '胡文龙', '感慨', '紧贴', '从难从严', '解放军四总部', '一贯', '表彰', '名单', '整体防护', '威慑', '仗', '兵', '陆海空', '天电', '打通', '壁垒', '实兵', '训练场', '蓝天', '空地', '携', '轻型', '分队', '耳目一新', '吕登明', '完整', '搬进', '网络空间', '计算机网络', '驾驶', '战舰', '器材', '军事素质', '相同', '高新技术', '7000', '余场次', '危机', '维护和平', '内裤', '袜到', '温寒', '棉衣', '皮鞋', '兵龄', '武警总部', '王君', '夏常服', '从里到外', '新品种', '十六七件', '透视', '历年来', '十余次', '换装', '军服', '一处处', '食谱', '基层', '饮食结构', '温饱型', '营养型', '边海防', '木制', '铁塔', '永久', '砖木', '钢筋', '混凝土', '会诊', '患病', '不论', '何方', '入党', '提干', '考学', '选取', '评议', '补习学校', '点点滴滴', '治军', '来玉', '楔环', '扳手', '亚平', '开启', '活门', '南海舰队', '军械', '大队', '荣誉室', '命名', '革新', '引人注目', '旅和', '济南军区', '某摩', '步师', '训练大纲', '编修', '兰州军区', '建设性', '写入', '一群', '平均年龄', '42', '师职', '深造', '金桂', '飘香', '多所', '普通高校', '万余名', '国防生', '大学校园', '第八', '女飞行员', '航天员', '大专', '学历', '舰长', '军官', '学位', '科学管理', '中频', '添', '公交车', '开进', '大院', '自办', '军人', '适用房', '后勤保障', '社会化', '竞争机制', '物资供应', '配送', '煤气', '供应', '粮油', '交由', '办理', '率达', '/', '驻澳门部队', '珠海', '采购供应', '管理员', '方仁迎', '大联勤', '体制改革', '历史性', '半机械化', '机遇期', '军费', '管好', '刀刃', '用出', '效益', '紧迫', '限度', '预算编制', '管理信息系统', '严格执行', '收支平衡', '旅团', '生活费', '规范化', '达标率', '85', '批转', '总后勤部', '大力加强', '节约型', '蔚然成风', '顶层', '走以', '验证', '制导', '弹药', '电子对抗', '刚刚开始', '高科技', '试点单位', '武汉', '军代局', '实力雄厚', '国有企业', '军品', '合格率', '99', '解放思想', '开拓创新', '转变', '更具', '统筹兼顾', '大局', '军民团结', '新篇章', '山东半岛', '一幕', '按时', '胶南市', '清理', '海域', '村庄', '疏散', '百艘', '渔船', '静静', '泊进', '港湾', '迷人', '海滩', '空无一人', '经济社会', '共识', '双拥', '模范城', '江门市', '教育网', '时机', '新增', '改扩建', '上千', '大专院校', '科研院所', '高技术', '知识讲座', '万余次', '万多人次', '交通不便', '闭塞', '万里', '通上', '无论是', '海拔', '神仙', '湾', '哨所', '帕米尔高原', '之巅', '红其拉甫', '前哨', '子弟兵', '义不容辞', '职责', '一曲曲', '拥政爱民', '乐章', '川藏公路', '西藏', '生命线', '担负', '进藏', '运输', '川藏', '兵站部', '汽车兵', '沿线', '援建', '小康村', '雪域', '高原', '人文景观', '海南岛', '125', '初具规模', '新疆', '内蒙古', '民族团结', '移风易俗', '创建', '和谐社区', '家园', '遍及', '万多个', '赋予', '浦寨', '界碑', '旁', '户', '村落', '排雷', '商贾', '云集', '边城', '边寨', '一天天', '富', '高兴', '驻守', '中越', '某团', '哨长', '魏', '远航', '和谐', '统一', '亿万', '富国强兵', '美国宇航局', '选出', '设计方案', '美宇航局', '副局长', '加利福尼亚州', '竞赛', '出能', '第一阶段', '秒钟', '米处', '第二级', '高得', '米外', '一处', '崎岖', '设计师', '伯特', '鲁坦', '宇宙飞船', '亚', '建造', '中央大街', '盛装', '开幕', '历时', '绘画', '民乐', '巡展', '王世义', '杜怀宇', '游人', '畔', '欣赏', '漫山遍野', '映山红', '张克非', '翻了一番', '汉科', '花草', '初绽', '黑龙江', '涌动', '勃勃生机', '179.6', '8.08', '6.02', '入境', '1.85', '外汇收入', '552', '安全事故', '欢声笑语', '几', '气温', '预热', '非但', '反而', '更胜', '火', '惬意', '中旬', '进出', '省外', '太平', '运送', '旅客', '余人次', '火热', '管理处', '处长', '王洪国', '多家', '百余人', '湖北', '辽宁', '持平', '千山', '华东', '五市', '电视剧', '热播', '闻名', '乔家大院', '异军突起', '踊跃', '游以', '三线', '四线', '春光明媚', '草木', '返绿', '洋溢着', '生机', '温馨', '居住地', '人游', '太阳岛', '顶级', '艺术家', '展销', '引来', '5.52', '127.8', '76.9', '413.3', '极地馆', '白鲸', '海狮', '动物', '日均', '龙珠', '二龙山', '哈市', '千人', '1.66', '8.5', '达子', '香', '旅游节', '1.2', '30.76', '游乐园', '154', '209', '42.5', '1.41', '28.2', '兴凯湖', '1.35', '虎头', '开发区', '大庆油田', '1.29', '寂寞', '乡间', '来车', '尽', '友朋', '相邀', '乘', '大客车', '风格各异', '市郊', '齐齐哈尔', '伊春', '朴实', '山野', '民舍', '小屋', '湿地', '别墅', '省内外', '踏青', '采摘', '野菜', '徜徉', '水边', '或赏', '品味', '炖菜', '尽情', '世外桃源', '悠闲', '恬静', '都市生活', '村野', '情趣', '香炉', '帽儿', '松', '峰山', '十四', '屯', '铁力', '年丰', '民族自治', '同江', '赫哲村', '宾客盈门', '多处', '可观', '经济效益', '哈尔滨市', '租赁', '面包车', '越野车', '车型', '抢订', '一空', '玉泉', '狩猎场', '长寿', '横道', '河子', '五营', '森林公园', '赫哲族', '渔村', '黑龙江日报', 'kiidy', '花落', '繁枝', '千万片', '犹自', '多情', '学雪', '随风', '转', '春天', '莺', '飞草长', '树绿', '花香', '常景', '美丽', '多大', '风景', '聪明人', '太笨', '每件事', '想成', '特', '使劲', '大事', '没想', '不考', '逃避', '校园生活', '友', '大军', '不屑一顾', '事实', '并不一定', '前程似锦', '两三年', '经验丰富', '有所作为', '这要', '一步', '只管', '俗话说', '不来电', '建树', '迫不得已', '主', '来讲', '理', '转文', '文转理', '理工类', '考数', '数四', '要是', '心理学', '法学', '浓厚', '胜出', '依人', '而定', '研究生', '划', '不幸', '再三', '自视', '没上', '回头', '引以为戒', '题海战术', '选手', '研友', '只顾', '大方向', '计算能力', '错', '大半', '折腾', '原题', '做过', '一头雾水', '基本功', '必不可少', '高难度', '宏观', '微观', '两手', '硬', '专业课', '十几遍', '记不清', '读书笔记', '早上', '精神病人', '语感', '220', '240', '反反复复', '好多遍', '牛', '七八', '做些', '几百篇', '最起码', '后悔', '奉劝', '六级', '大意', '坐镇', '学了', '放纵', '打打', '排球', '研友们', '侃侃', '自我调节', '考得', '不怕', '十个月', '三百多个', '日日夜夜', '寝室', '四姐妹', '哪个', '偷懒', '谴责', '可贵', '姐妹', '不学', '百般', '劝说', '她俩', '北京化工大学', '理工大学', '肠子', '都悔青', '恨', '335', '差额', '要排', '48', '太热', '心想', '晚', '无头', '苍蝇', '湘潭', '复试线', '呵呵', '339', '320', '回', '回不去', '学长', '丫', '安心', '调', '350', '有名', '欣喜', '导师', '阎友兵', '教授', '学术研究', '做人', '处事', '好榜样', '下定决心', '考博', '圆', '梦', '辛酸苦辣', '冷暖自知', '为啥', '人类学家', '旧石器时代', '先祖', '茹毛饮血', '食肉', '高大', '血丝', '生菜', '色拉', '仍旧', '米面', '烹调', '阿尔卑斯山', '以北', '日耳曼', '久', '生肉', '1.8', '酷爱', '乳制品', '世界之最', '营养学家', '谷物', '薯类', '凝聚', '素', '蛋白', '多胺', '缓慢', '身材矮小', '肉食', '素食', '熟食', '~', '激素水平', '当代人', '四代', '遗传基因', '百万年', '冬夜', '世世代代', '昂首', '全人类', '小牛', '数月', '里长', '小孩', '数年', '内长', '珠峰', '类食品', '鱼类', '海鲜', '海藻', '肉类', '蛋类', '菌类', '坚果', '种子', '蔬菜', '可生', '母乳', '加热', '晚是', '最佳时机', '早餐', '成份', '美英', '医学专家', '合成', '色氨酸', '使人', '麻醉', '大脑皮层', '小肠', '分解', '肠', '排空', '来不及', '排到', '大肠', '再有', '消耗掉', '大材小用', '傍晚', '临睡', '半小时', '避', '必需', '含量', '高且', '好处', '肠蠕动', '停留时间', '缩短', '淀粉类', '馒头', '面包', '玉米粥', '等同', '搭配', '鞣酸', '同吃', '浓茶', '柿子', '结块', '成团', '偏爱', '营养价值', '鲜牛奶', '大多', '微量元素', '无机盐', '生理', '说来', '要止', '止', '苦恼', '轻度', '自我', '调理', '就常', '得益', '归纳如下', '平常', '强行', '适得其反', '多天', '紧张不安', '得不到', '短寿', '生病', '所致', '危害', '寻求', '提及', '稍加', '自愈', '症状', '求医', '算不了', '病而', '延误', '治疗', '身心', '松驰', '散步', '一会儿', '洗个', '沐浴', '水泡', '脚', '就寝', '有百利而无一害', '具体方法', '功', '民间', '流传', '简而', '易行', '入静', '先合', '微微', '张开', '缝', '运作', '交感神经', '张力', '睡意', '蒙胧', '鸣天', '鼓法', '仰卧', '左掌', '左耳', '右掌', '右耳', '指头', '后脑勺', '呼呼', '响声', '微累', '为止', '慢慢', '靠近', '枕', '两后', '安放', '于身', '两侧', '便会', '聆听', '节律', '音响', '蟋蟀', '滴水', '春雨', '磁带', '音带', '条件反射', '饮热', '饮', '加糖', '胰岛素', '氨酸', '脑细胞', '人脑', '样式', '镇定', '安神', '睡姿', '为宜', '因人而异', '侧卧', '为佳', '养生', '曹慈山', '睡诀', '卧屈', '左足', '屈', '左臂', '手上', '承头', '伸右足', '右手', '股间', '侧卧位', '全身', '睡得', '食用', '香蕉', '橘', '橙', '梨', '一类', '芳香', '味', '神经系统', '糖分', '大脑皮质', '而易', '若因', '在外', '适应环境', '而致', '应先', '调适', '有备无患', '不致', '助眠', '之法', '太阳能', '骨骼', '肌肉', '如意', '遗传', '莫错', '少年', '何时', '汉族', '突增', '蛋', '豆及', '磷及', '锰', '矿化', '变短', '变厚', 'C', '骨细胞', '间质', '缺陷', '变脆', '荤', '有素', '偏食', '吃零食', '莫', '体育运动', '机体', '新陈代谢', '加速', '血液循环', '骨组织', '体长', '增高', '不妨一试', '见习', '张昱', '该市', '17.6', '454.18', '14%', '24%', '外来', '13.76', '4180.34', '21.24%', '32.5%', '过夜', '5.78', '2987.97', '21.4%', '30.7%', '一日游', '7.98', '1192.37', '21%', '接团', '321', '1.21', '7734', '青海', '安徽', '包机', '专列', '63', '宁夏', '不看', '赶上', '追着', '看过', '曲折', '迭起', '俊男靓女', '亲情', '友情', '感人', '台词', '励志', '向上', '善', '打动', '人心', '日韩剧', '中见', '真情', '戏剧性', '丰满', '贴近生活', '演员', '分寸', '包含', '画面', 'null', 'WinOpen', 'closed', 'win', '_', 'poll', '418', 'else', 'focus', 'scrollbars', 'resizable', 'location', 'innerHeight', 'innerWidth', 'availHeight', 'availWidth', 'left', 'screenX', 'top', 'screenY', 'return', 'open', '456', '427', '东南亚地区', '大力', '争抢', '中国国家旅游局', '特区', '游外', '首选', '之地', '小娜', '000999', '000403', '发布公告', '38.11', '6162.1064', '1906.0936', '法人股', '振兴', '恒源', '煤业', '重大进展', '三九集团', '亏损', '5.21', '亏损额', '1.98', '0.05', '净利润', '收购价格', '券商', '投行', '所签', '审计报告', '法律效力', '年度报告', '出具', '非标', '质疑', '各方', '不知', '步入', '三次', '天地', 'mvp', '朱冲', '奴隶', '凌晨', '随', '中国男篮', '两眼', '紧盯', '轻声', '唱', '热爱祖国', '冉冉升起', '一共', '初中', '十几年', '不变', '只会', '滞美不归', '脑子里', '浮现', '四环', '五环路', '雄伟', '随处可见', '新奥运', '宣传牌', '严肃', '领奖台', '形象大使', '代表团', '亲眼看到', '萨马兰奇', '心潮澎湃', '奏国歌', '早就', '大使馆', '无比', '孤独', '中国大使馆', '长城', '对接', '记得', '巴特尔', '球馆', '台上', '匆匆', '几句', '人太少', '状元秀', '地替', '感到高兴', '夜幕', '日晚', '时值', '佳节', '农历', '中秋节', '冠名', '赞助', '邀月颂', '之夜', '演艺界', '企业界', '汇聚', '古老', '宫内', '憧憬', '共度', '建院', '推向', '田青', '凤凰卫视', '当家花旦', '景行', '灯光', '璀璨', '高朋满座', '文化氛围', '浓郁', '戏曲界', '演奏', '与会者', '奉献', '思乡曲', '二泉映月', '曲目', '表演家', '吴俊全', '水调歌头', '雪落', '诗歌', '昌盛', '期盼', '书画界', '泼墨', '鉴赏', '古画', '墨宝', '以作', '艺术表演', '家们', '舞台', '精彩', '与会', '嘉宾', '阵阵', '掌声', '乘着', '朗朗', '月色', '畅谈', '祈盼', '独唱', '小提琴', '演奏家', '陈曦', '主持人', '北京故宫博物院', '八十周年', '八十年', '弘扬', '抗日', '六十周年', '日寇', '华北', '方面军', '统辖', '第十一', '投降', '紫禁城', '太和殿', '荣辱', '伟大胜利', '六十年', '纪念活动', '非同小可', '继往开来', '伟大', '各族人民', '据悉', '内燃机', '骨干企业', '首都', '文化产业', '凭借', '振奋', '文化交流', '开辟', '传承', '书法', '晚会', '一曲', '留给', '322', '079', '付费', '百元', '不领情', '功课', '刚一', '雇用', '当起', '数十位', '研一', '元至', '高校', '家住', '六里桥', '正读', '儿子', '假到', '事儿', '家里人', '怕', '忙不过来', '当报', '风气', '心里有数', '不太大', '抉择', '北京师范大学', '签好', '天到', '家中', '亲戚', '怎么样', '光看', '葛庆笑', '男女生', '女生', '乐此不疲', '妈妈', '请来', '查查', '就行了', '花钱', '雇人', '作主', '反倒', '主意', '做法', '心理咨询', '宗春山', '更多地', '内心', '应考', '客观', '误导', '专家建议', '应有', '尊重', '险遭', '名企', 'http', 'sina', '文', '董宾', '高立英', '北空', '喜讯', '三载', '迎刃而解', '赞扬', '打靶', '几次', '多次派', '察觉', '久拖', '未决', '敏锐地', '察觉到', '再次出现', '推定', '某项', '计算机程序', '冲突', '对近', '百样', '抽样', '检测', '应急', '清除', '满堂红', '看似', '偶然', '了然于心', '记下', '几大本', '心得', '几十种', '逐一', '推测', '上万', '采样', '共同社', '夏威夷', '近海', '海基型', '拦截导弹', '幕僚长', '斋藤', '隆', '力争', '协调性', '由此可见', '日美', '共享', '确立', '预定', '阿拉伯海', '补给', 'KIRISHIMA', '7250', '神奈川县', '横须贺', '太平洋', '联合演习', '迄今为止', '现役', '203', '口径', '巨炮', '该炮', '96', '弹丸', '倾泻', '可怕', '台独', '离', '仅约', '台军方', '分析家', '挑衅性', '电视台', '可达', '岸射型', '扼制', '制海', '军事优势', '高官', '放话', '自北', '东海舰队', '吓阻', '尖端', '长短', '渐进', '基隆', '两处', '借此', '台澎金马', '空域', '捍卫', '空防', '反击', '前沿阵地', '决战', '构想', '新鲜事', '简氏', '防务', '周刊', '兴建', '越过', '打击面', '特质', '垂直', '战备', '低空', '台湾海峡', '两类', '三类', '武拒统', '图谋', '金门', '乌丘', '四岛', '军事力量', '企图', '金马', '二岛', '防卫', '这道', '壮', '壮胆', '诸岛', '眼皮底下', '不管', '有多强', '抵挡不住', '大炮', '轰击', '弹药库', '过于', '高层', '战事', '爆发', '半数以上', '军火库', '外岛会', '一座座', '孤岛', '当局', '别有用心', '当前', '升温', '布什', '陈水扁', '很想', '回应', '换得', '分离', '暴露', '弱点', '修复', '裁定', '敌方', '遥控', '首波', '雷达站', '反导弹', '首度', '高唱', '反导', '军力', '词典', '列岛', '东端', '长期以来', '军马', '防区', '据点', '反共', '救国军', '指挥部', '停泊', '船舰', '中柱', '港', '山岳', '地质', '花岗岩', '四周', '悬崖峭壁', '海边', '水深', '最浅', '两栖登陆', '若想', '占领', '此岛', '惟有', '预防', '中山', '研究院', '仿照', '第二代', '亚音速', '中程', '相似', '正常式', '气动', '布局', '弹长', '直径', '折叠式', '弹翼', '翼展', '所带', '燃料', '视距', '攻击能力', '巡航速度', '马赫', '巡航', '金口', '吓', '奇才', '全能', '113', '总比分', '东区', '半决赛', '施展', '一回', '混', '出众', '老前辈', '看齐', '张嘴', '战败', '纳斯有', '一双', '独得', '双', '双唇', '抖', '不进', '唇间', '吐出', '骑士', '两秒', '说起', '选择地', '起跳', '出手', '皮球', '当球', '进筐', '全场', '惊呼', '举起', '一投', '耗尽', '加时赛', '未得', '直到', '剩', '犯规', '82%', '罚球线', '习惯性', '绕身', '三周', '罚中', '手感', '深吸', '一口气', '身边', '胸口', '低着头', '轻轻地', '说道', '错失', '终结', '第三场', '第五场', '较量', '强攻', '上篮', '制胜球', '表情', '凝重', '动作', '腰间', '绕球', '绝不会', '心急', '方寸大乱', '偏得', '罚时', '离谱', '反攻', '发话', '小兵', '下手', '诺言', '想不到', '达蒙', '失两球', '主帅', '布朗', '布置', '主攻', '接应', '交给', '丹尼尔斯', '重蹈', '几场', '覆辙', '将球', '传给', '一旁', '巴特勒', '盯防', '一击', '80%', '两罚', '糟糕', '刚才', '莫过于', '球星', '那句', '翻版', '97', '公牛', '爵士', '第六场', '杀得', '难解难分', '战成', '关头', '一边', '绰号', '心惊胆战', '砸', '筐', '飞人', '回合', '胯下', '急停', '后撤', '一记', '稳稳', '跳投', '终场哨', '响', '篮筐', '84', '这一球', '年来', '各有', '绝活', '言语', '天皇巨星', '招来', '自信心', '巨星', '各不相同', '先知', '送', '线外', '地板', '凯尔特人', '平分', '界外球', '接球', '投进', '赢下', '第二名', '1986', '全明星', '一进', '休息室', '夺得', '那届', '炫耀', '超人', '招时', '一副', '上帝', '凡人', '训诫', '模样', '投呀', '投篮不中', '差点', '守住', '得手', '别以为', '母语', '征战', '不比', '几位', '上乘之作', '打得', '护齿', '吞下去', '火箭队', '105', '92', '中锋', '钱德勒', '说完', '头上', '连得', '役', '砍', '对决', '太嫩', '百分之百', '雷杰', '心理素质', '超强', '擅长', '新秀', '落后', '开玩笑', '当伯德', '球时', '顶尖', '接着', '真是', '蠢到', '十八层', '地狱', '回忆录', '往事', '1949', '黑白', '挥', '李', '浣', '青', '朱嘉琛', '其妻', '英年早逝', '赖', '照料', '续弦', '挚友', '后母', '虐待', '之苦', '打消', '续娶', '之念', '迁居', '音讯', '杳然', '某日', '叩见', '谋求', '在校', '任教', '成人', '长子', '供职', '力劝', '退休', '颐养', '晚年', '辞呈', '继任', '恳请', '捐款', '赋闲在家', '成家', '往来', '日疏', '常来', '谈心', '事业心', '生命力', '经敏华', '诚挚', '邀请', '托', '求婚', '忽然', '异样', '觉察到', '已爱', '上敏华', '爱着', '坚决', '宣称', '名义', '将敏华', '撤职', '绍常为', '毅然', '他俩', '开学', '婴儿', '呱呱坠地', '无处不在', '喜悦', '障碍', '最新', '月薪', '七成', '平平', '责任感', '吃苦', '适应能力', '致命伤', '省市', '5.8', '访问', '5800', '受访', '3108', '6.5', '就业机会', '提供者', '收入水平', '外资企业', '1169', '2.8', '超出', '2.2', '2.3', '江苏省', '发达', '平均收入', '对称', '供需矛盾', '排行', '招', '3.8', '3.9', '投身', '依次', '互联网', '位列', '固网', '新兴', 'NGN', 'IPTV', '稀缺', 'Intel', '本科生', '之路', '急缺', '业务人员', '只招', '两三名', '批发', '分列', '保险业', '721', '倒数', '无人问津', '倚重', '满腔', '抱负', '据说', '招聘会', '就业指导', '最缺', '2.96', '3.03', '8770', '9480', '工艺', '2866', '人力', '资源管理', '第八位', '看人脸色', '社会关系', '累', '半死', '赚', '技术含量', '不体面', '有意思', '外贸', '尴尬', '跨国企业', '医学院', '宁愿', '低工资', '更能', '意志品质', '兼具', '专业知识', '百万元', '有价无市', '给付', '合办', '夺宝奇兵', '好多', '人中', '二十位', '轻松愉快', '领票', '咖啡店', '浓香', '至始', '终有', '诠释', '上周五', '六点', '钟', '陆陆续续', '领奖', '哪儿', '搜索引擎', '庄臣', '治国', '发到', '先来', '惊诧', '多中', '好几位', '家离', '远', '贵阳', '兰州', '害怕', '接送', '不由得', '欢乐', '合影', '消失', '余名', '清华园', '充电', '薄弱', '改造', '而成', '131', '9500', '4800', '在校生', '硬件', '国家级', '示范校', '所万人', '分管', '国家教育部', '成人教育', '企业家', '经验交流', '研修', '理论知识', '教学管理', '学养', '打造出', '一支', '双师型', '教师队伍', '市长', '王玲', '李梦玲', '教育部', '职成司', '副司长', '刘占山', '陈吉宁', '开班', '校', '光明日报', '创立', '兴起', '标志性', '当初', '天才', '诘难', '精炼', '篇目', '独迷', '打开', '迷宫', '晕头转向', '数独迷', 'Sudoku', '源自', '两百年', '盲眼', '瑞士', '数学家', '欧拉', '发明', '拉丁', '方格', '但数', '独一', '日文', 'す', 'う', 'ど', 'く', '独', '当今', '乐事', '无需', '翻译', '国界', '痴狂', '还进', '电视节目', '克罗地亚', '各家', '报纸杂志', '填数', '万份', '纽约时报', '推崇', '纵横', '字谜', '刊上', '数不胜数', '重演', '人手', '魔方', '盛况', '推究', '数独热', '拼图游戏', '再者', '属性', '无数', '举世闻名', '难题', '数论', '流行', '深层次', '3D', '网游', '华丽', '玩法', '事物', '丧失', '变化无穷', '数学计算', '逻辑推理', '老少', '男女', '算不上', '卡住', '地解出', '而生', '满足感', '棒极了', '混乱', '中理出', '头绪', '随时', '心情愉快', '一阵', '狂风', '中小学生', '随之', '都市', '白领', '人手一册', '境界', '三峡', '159', '004', '东方', '陈健忠', '125min', 'Eighteen', 'Springs', 'Half', 'Life', 'Fate', '吴倩莲', '顾曼桢', '黎', '明', '沈世均', '黄', '磊', '许叔惠', '吴辰君', '石翠芝', '梅艳芳', '顾曼璐', '葛', '优', '王志文', '张豫槿', '电影协会', '主角奖', '金像', '配角奖', '和曼桢', '工厂', '做工', '恋人', '早年', '丧父', '舞女', '妓女', '有妇之夫', '保全', '生育', '曼璐以', '怨毒', '夫', '合谋', '令祝', '强奸', '姐夫', '恋情', '死后', '重逢', '前情', '后缘', '难续', '张连军', '熊言春', '韩光', '张旭', '航', '主人公', '小传', '荣立', '一等功', '二等功', '三等功', '树为', '精通', '百余', '性能参数', '百余个', '百余种', '常见故障', '手到病除', '拼搏精神', '佳绩', '貌不惊人', '中尉军官', '蕴藏', '责无旁贷', '使命', '勇担', '不负众望', '精兵', '深夜', '陌生', '搏杀', '胶着状态', '奇兵', '而降', '雷霆万钧', '之势', '腹地', '端掉', '陆战', '之王', '厉害', '参谋', '倍加', '时任', '八连', '蜜月', '仅仅', '新婚', '心急火燎', '赶回', '本事', '登台', '人选', '打擂', '一双双', '注视', '功底', '过关斩将', '脱颖而出', '任命', '第一任', '2600', '多页', '建言', '监造', '住进', '挑灯夜战', '消化吸收', '谦虚', '好学', '感染', '半个', '二十几天', '录像', '后刻入', '光盘', '做成', '对照', '实车', '摸索', '问不倒', '不住', '多面手', '两级', '常委', '首当其冲', '教练员', '维修', '员', '探路', '敢为人先', '铸', '辉煌', '受领', '请缨', '陆地', '其练', '实练', '精', '怎能', '克敌制胜', '铁路', '输送', '百公里', '列装仅', '全程参加', '无一', '掉队', '优异', '跑龙套', '勇闯', '利刃', '恶劣', '战斗性能', '实弹演习', '请求', '运', '见到', '启封', '炮管', '校正', '转瞬即逝', '实弹射击', '拉开', '钻入', '轰', '怒吼', '出膛', '穿甲弹', '击中', '远距离', '靶标', '首发', '演习场', '沸腾', '到场', '啧啧称奇', '首长', '交口称赞', '部经', '评定', '得出结论', '敢为天下先', '果敢', '时不我待', '危机意识', '发展史', '写下', '浓重', '严格要求', '尝试', '观', '瞄', '仪器', '昂贵', '热成像仪', '接收', '玻璃', '万多元', '训为', '消极', '保', '详实', '警戒', '全连无一', '漏训', '勇于创新', '初冬', '科尔沁草原', '滴水成冰', '编成', '大功率', '电子干扰', '孤军奋战', '会以', '失败', '告终', '危急关头', '急中生智', '简易', '记号', '队形', '靠拢', '而后', '引导', '全营', '部对', '处置', '敌', '情', '大为', '少量列', '装', '新老', '新一轮', '刻苦', '泡', '啃下', '装甲', '战', '大部头', '著作', '两代', '战技术', '定量分析', '靠前', '诸元', '传老', '余种', '前年', '全师', '学习室', '多媒体', '课件', '一专多能', '行进', '107', '华辰', '国际饭店', '四层', '会议厅', '海路', '希尔顿', '厅', '中山东路', '319', '上海图书馆', '展厅', '淮海中路', '1555', '大厦', '一层', '济南市', '马鞍山', '宴会', '大厅', '朝阳门', '北大街', '预', '中国画', '风貌', '油画', '三层', '书画', '095', '334', '辽沈', '晚报', '刊载', '利物浦', '阐述', '老东家', '内幕', '全文如下', '纠正', '伤病', '买进', '教练', '游戏规则', '决策层', '去意', '谈过', '邓肯', '弗格森', '心生', '离意', '能换个', '自由', '寻找', '能不花', '一分钱', '身价', '多万英镑', '中转', '会期', '租借', '别队', '不菲', '转会费', '势必会', '去向', '新东家', '解释一下', '分手', '表态', '留用', '领得', '远投', '得付', '新名词', '每到', '遥远', '周期', '出入境', '尚未', '全国假日办', '涌', '复苏', '胡明明', '第四次', '躺', '晒', '太阳', '回头客', '国家旅游局', '前往', '普吉', '印度洋', '出访', '走马观花', '郭明', '蒙古', '山水相连', '旅游界', '渊源', '韩流', '两国之间', '繁忙', '韩中', '增至', '师刘斌', '周边旅游', '夏季', '北亚', '无国界', '全力以赴', '两国', '互办', '机遇', '北上', '心动', '观察家', '扇形', '惠及', '邻邦', '刘斌', '抢', '潮', '之先', '东盟', '推波助澜', '东北亚地区', '双向', '流动', '南北', '睦邻友好', '纽带', '中国政府', '聪明', '大加', '印度政府', '内需', '休闲活动', '新华', '每日电讯', '链接', '面孔', '要不是', '多点', '张姓', '初到', '占来', '5.2%', '澳大利亚联邦政府', '据澳', '16.5%', '2014', '来澳', '届时', '客源国', '亿澳元', '四五', '本是', '赴法', '在此期间', '两倍', '总想', '内以', '一时间', '一问', '求全', '写照', '迷上', '欧美', '50%', '成熟', '费罗', '达州', '维尔', '犹他州', '奥格登', '亚利桑那州', '图森', '秋天', '精简', '拨号上网', '用户数量', '奥兰多', '维尔和', '杜勒斯', '削减', '尼古拉斯', '格', '拉汉姆', '归咎于', '会员中心', '英特网', '会员', '头脑', '电脑知识', '通', '日趋', '减弱', '近一半', '通信', '排行榜', '前十', '中索', '十位', 'K750i', '3120', '5140i', 'Z300i', '第五', 'W810i', 'X660', 'Z520i', 'W800i', '第六', '第九', '移动电话', '78', '得出', '业内', 'Music', 'Store', '每部', '1.99', '盾牌', '越狱', '吸血鬼', '猎人', '巴菲', 'ABC', 'CBS', 'NBC', '美联社', '有四人', '45%', '因特网', '多于', '网络游戏', '两百', '42%', '26%', '六分之一', '在线', '玩游戏', '冒险游戏', '娱乐业', 'Warner', 'Brothers', '第一家', '公司总裁', 'Tsujihara', '10%', '转化成', '租用', 'DVD', '拷贝', '此项', '不得而知', '蝙蝠侠', '玩酷', '世代', 'P2P', '网路上', '打败', '线上', '剽窃', '替代性', 'In2Movies', '旗下', '百视', '地区性', '2.74', '销售收入', '37.2', '2.3%', '21.4', '新举措', '迫于', '沃达丰公司', 'Vodafone', '低价', '幅度', '收取', '缴纳', 'Sviaz', 'ExpoComm', '6.9', '66', '克', '播放器', '容量', '80MB', '视频', '录制', '蓝牙', '输出', '滑盖式', 'D900', '厚度', '稍大', 'Quad', 'band', 'GSM', '路透社', '本周', '听众', '期待', '频道', '该项', '之初', '仅限于', '电缆', '无线电', '温布尔登', '赛事', '加纳', '贝内特', 'Jana', 'Bennett', '步幅', '激动人心', '服刑', '骇客', '地下', '蠕虫', '要员', '十一月', '被捕', '起遭', '案件', '被控', '侵入', '四十万', '余部', '或称', '僵尸', '网路', 'bot', 'nets', '损害', '受害', '寄发', '服务器', '洛杉矶', '指控', '承认', '密谋', '违反', '诈欺', '滥用', '损及', '坦承', '散播', '发送', '恶意', '软体', '莫柴克', '一连串', '犯行', '负有责任', '加州', '五十万', '电脑系统', '受', '波及', '限于', '家用电脑', '庭上', '一万五千', '不法', '没收', '逾', '六万美元', '一辆', 'W', '电脑设备', '章田', '编译', '久而久之', '变', '墙上', '一抹', '蚊子', '血', '床前', '明月光', '便是', '衣服', '一粒', '饭', '粘子', '心口', '一颗', '朱砂', '痣', '--', '刘恒林', '亦华', '杜可风', '朴若木', '110min', '分级', '芬兰', 'K', 'Red', 'White', '赵文宣', '佟振保', '冲', '王娇蕊', '孟烟郦', '女主角', '剧本', '美术设计', '造型', '圣洁', '妻', '热烈', '情妇', '赵文瑄', '外商', '谋', '租', '老同学', '屋子', '振', '初恋情人', '拒绝', '求欢', '获取', '柳下惠', '风情万种', '总令振保', '想入非非', '士洪去', '新加坡', '做生意', '几番', '灵', '乍暖还寒', '雨', '陈冲', '囚住', '令振保', '所料', '不及', '真', '真相', '病倒', '病房', '一面', '不想', '此情', '责难', '收拾', '纷乱', '泪珠', '出奇', '母亲', '撮合', '振保带', '悲凉', '牺牲', '感', '单薄', '静如', '止水', '孟烟鹂', '新娘', '笼统', '白净', '无法', '唤起', '性欲', '嫖妓', '阴影', '光泽', '烟鹂', '猬', '狎', '裁缝', '关系暧昧', '放浪形骸', '公共汽车', '巧遇', '中年人', '俗艳', '花开花落', '泪光', '幻影', '旧日', '善良', '一点一点', '逼近', '歇斯底里', '发作', '好人', '□', '陆琼琼', '辞去', '一职', '升任', '掌舵', '多方', '第四任', '掌门', '出人意外', '方兴东', '当家', '稳健', '传闻中', '可靠', '接任', '洽谈', '分歧', '迟迟', '谈', '营收', '4590', '0.15', '25%', '股票', '买入', '八位', '卖出', '收盘', '28.52', '比上', '交易日', '上涨', '0.07%', '马海邻', '确切', '汪延则', '总裁兼', '他于', '主管', '副总', '兼', '运营官', '复旦大学', '奥克拉荷', '马', '1993', '奥斯', '町', '普华永道', '其人', '鹰派', 'IDG', '杰出', '讯', '深圳网', '两笔', '奠定', '多样性', '稳定性', '非凡', '滑坡', '广告业务', '忧虑', '力挽狂澜', '汪延于', '茅道临', '传闻', '起于', '下半年', '昨晚', '高层人士', '季报', '人事变动', '黄涛', '评审', '报社', '昨天晚上', '门头沟', '东胡林', '开评', '申报', '充分考虑', '区域', '余项', '召集', '旧', '石器时代', '宋元', '各个', '遗存', '东海', '平潭', '碗', '礁', '清代', '沉船', '符合国家', '规程', '缺一不可', '较远', '厚古薄今', '评判', '丰收年', '参选', '文保', '以此', '张忠培', '被迫', '抢救', '发掘出来', '文物古迹', '湖南省', '贵州', '威宁', '贵州省', '鹤壁', '刘庄', '鹤壁市', '工作队', '浦城', '商代', '窑群', '考古队', '博物院', '绛县', '横水', '西周', '墓地', '山西省', '韩城', '梁带村', '陕西省考古研究所', '句容', '金坛', '周代', '土墩', '墓', '南京博物院', '黄杨', '庄', '汉代', '聚落', '山西大同', '沙岭', '北魏', '壁画墓', '卡利亚里', '国际米兰', '杯赛', '对国米', '平赔', '冠军杯', '名额', '不容', '有失', '低水', '紫百合', '阿斯科利', '仅为', '连胜', '平半', '浅盘', '分明', '该队', '半盘', '赢盘', '刻意', '稳妥', '首回合', '看高', '半线', '此战', '无关紧要', '可任', '胆选', '特雷维索', '正佳', '乌鸡', '势头', '就此', '中断', '比勒菲尔德', '高开', '意图', '引', '拜仁', '慕尼黑', '至多', '连赢', '两盘', '已到', '其盘', '冷落', '汉堡', '不莱梅', '半球盘', '尚无', '欧赔', '不符', '诱下', '沙尔克', '04VS', '水位', '盘路', '反弹', '抢分', '凯泽斯劳', '滕', '命悬', '赔率', '256', '2048', '302', '热潮', '衍生物', '褒贬不一', '入学考试', '忘', '过时', '应试', '备', '是非', '数目', '鱼龙混杂', '考友', '稍有不慎', '给出', '深入浅出', '顺利完成', '千差万别', '办学', '资深', '宝贵财富', '资料库', '走势', '各校', '考入', '管理水平', '义务', '象', '倡导', '小组', '口碑', '满天飞', '各种各样', '师兄', '师姐', '亲身', '选到', '指导意义', '选', '林立', '无所适从', '服务水平', '万能', '辅助', '再就是', '提前准备', '该课', '课前预习', '认真听讲', '紧凑', '每堂', '跟上', '懂', '也好', '回顾', '重抄', '脉络', '理清', '架构', '疑难问题', '一环', '众所周知', '科目', '可谓', '一只', '拦路虎', '背功', '强压', '底子薄', '早点', '英语水平', '出于', '跟风', '不上', '没底', '各异', '常规', '英语课', '短', '信息量', '淡化', '读写', '复习方法', '应量', '良好效果', '几千个', '认会', '词义', '绝非', '贯穿', '在析句', '言中', '棋子', '下棋', '不畏', '英语考试', '人不考', '棋中马', '棋局', '摆在', '难句', '难名', '泽汉', '考查', '实质性', '几项', '再来', '远远', '毫无准备', '松懈', '情绪', '段时间', '环节', '占用', '少而精', '下课', '趁热打铁', '老师上课', '操练', '主旨', '题及', '哪些', '课后复习', '两套', '而无须', '多花', '每科', '几本', '售书', '通用版', '名望', '所选', '满足要求', '前要', '快慢', '49', '不成', '出错', '改正', '重中之重', '只能靠', '纯熟', '参考书目', '较差', '没学过', '工龄', '很长', '遗忘', '分科', '科一科', '四科', '高中', '里面', '浅显易懂', '一看', '眼高手低', '致命', '线性关系', '看透', '线性方程组', '同济大学', '高等数学', '上册', '下册', '古典', '概型', '机械', '大纲', '基本一致', '冲刺', '书店', '必备', '想取', '好生', '数学四', '大有裨益', '太深', '太难', '考察', '机工', '版', '这本', '统编', '吻合', '思路清晰', '中要', '关键在于', '每科有', '一至', '两本', '即可', '书读', '透', '充裕', '两三遍', '做做', '从中', '个人电脑', '盈利', '一度', '创下', '新低', '当季', '亿至', '抢夺', '市场份额', '打折', '官凯文', '罗林斯', '声明', '中说', '售后服务', '产品质量', '自我安慰', 'XINHUANET', 'com2006', '02', '字号', '背景色', '英明', '难道', '有钱', '没钱', '咱', '造', '孽', '潮涌', '首都国际机场', '北京站', '北京西站', '南站', '北京北站', '请问', '恐慌', '瘦小', '被装', '绿皮', '儿', '车里', '愿望', '纠缠', '真想', '不孝子', '老爹', '老娘', '正盼', '常回家', '没法', '前一天', '心安理得', '旅途劳顿', '劳顿', '半夜三更', '搏票', '讨厌', '赔笑脸', '值班', '坐火车', '牛车', '需猫', '窝里', '窗外', '风生水', '风云变幻', '省钱', '苏三去', '西站', '人潮', '人海', '中花', '块钱', '高价', '硬卧', '飞机票', '有生以来', '头等舱', '售票员', '张飞', '诚然', '火车票', '只花', '块', '加车', '肉痛', '侄子', '外甥', '表嫂', '表姐', '前生', '这年头', '不装个', '百八十块', '拿不出手', '畅通', '企盼', '情景', '百万雄师', '大江', '江', '立马', '百万', '外地人', '返乡', '北京城', '宽阔', '马路', '少数几个', '几辆车', '溜达', '气派', '关掉', '大睡', '五', '牵挂', '鸟', '忍受', '爱犬', '口粮', '饥饿', '死', '打个', '慰问', '六', '光顾', '小窝', '穷', '坐在', '马桶', '写给', '情书', '积攒', '零食', '七', '爹娘', '大姑', '拜年', '通宵', '搓麻', '颈椎', '医生', '急刹车', '没事', '脖子', '断掉', 'N年', '应酬', '吹牛', '女友', '八', '一把', '大大小小', '民俗', 'B06', 'B09', '专版', '凑', '返券', '逛庙会', '燕子', '李三', '大刀', '王五们', '来串', '糖葫芦', '坨', '棉花', '糖', '九', '离愁别绪', '不孝', '走掉', '难受', '少些', '离愁', '路费', '钱省', '寄给', '不舒', '舒坦', '坦地', '呆', '啥时候', '不行', '偏偏', '挤死', '偿命', '春运', '何况', '放鞭炮', '京郊', '小院', '小住', '延庆', '泡温泉', '密云', '滑雪', '值得羡慕', '此刻', '珍惜', '至于', '对家', '思念', '带到', '华夏', '时报', '贾文军', '深圳市', '龙岗', '体育中心', '拉开战幕', '健儿', '角逐', '51', '91', '代表队', '崔', '富国', '优秀人才', '科龙德', '勤案', '新进展', '所涉', '望闻达', '事务所律师', '秦桢凯', '境内', '外科', '流通', '仲裁', '事项', '证券报', '电子信箱', '七八位', '己', '有待', '首位', '状告', '涂勇则', '持股', '尽快', '诉上', '公堂', '最高人民法院', '司法解释', '财政部', '法院', '认定', '有罪', '判决书', '两者', '以先', '听证', '上半年', '编制', '财务报告', '罪案', '佛山市', '人民检察院', '立案', '提起公诉', '权益', '不成问题', '万事俱备', '只欠东风', '谈及', '责任人员', '失职', '监事会', '承担责任', '关联', '控股', '德勤华', '永', '或德勤', '关黄陈', '诉讼法', '合并', '故其', '支出', '要少', '代理律师', '筹集', '岳敬飞', '何军', '说些', '热线电话', '010', '51005100', '搜狐网', '栏目组', '搭', '桥梁', '注', '注明', '月初', '旅游展', '博览会', '国门', '之旅', '西班牙', '埃菲社', '亿人次', '3200', '巨人', '2020', '输出国', '西', '班牙', '专门人才', '直通', '足迹', '尼罗河', '卢克索', '帝王', '王后', '必游', '无穷的', '神秘感', '平稳', '炎热', '从小', '心驰神往', '去过', '常去', '向往', '三四', '政局', '动荡', '取消', '原定', '朱塔玛', '丝瑞婉', '新线路', '优惠', '折扣', '特地到', '中国银行', '北京分行', '兑换', '冷门', '币种', '同机', '上次', '港元', '能换', '不能不', '地处', '曼谷', '老城区', '第二天', '名叫', '帕拉', '提', '兴奋', '不怎么', '流利', '笑', 'No.1', '瑞佳', '纳', '亚尔', '第一条', '北部', '金三角', '第二条', '佛教', '第三条', '水乡', '不下', '旅行团', '最想', '多样', '72.56', '塔布', '塔是', '古塔', '印度教', '伊斯兰教', '交融', '旅游团', '领队', '国庆节', '整天', '响个', '泰姬陵', '穿鞋', '大理', '踩', '火盆', '尽管如此', '中国东方航空公司', '办事处', '朱先生', '新德里', '座位', '空', '满员', '乘客', '迎接', '开办', '532', '3100', '节假日', '每逢', '新年', '专人', '登塔', '赠送', '印有', '恭喜发财', '新春愉快', '字样', '纪念品', '获赠', '五一节', '鲜花', '玲', '兰花', '鲁昂', '开设', '中文网站', '伊勒', '维莱', '讷', '省政府', '事务', '敞开大门', '与日俱增', '法国政府', '香榭丽舍大街', '巴黎圣母院', '凯旋门', '之处', '街道', '免税店', '法国人', '开', '十有八九', '售货员', '配有', '中文版', '源', '看中', '潜能', '立国', '列为', '来源国', '团体', '山麓', '专场', '庆祝', '新春佳节', '旅游景点', '解说', '面向', '免税商店', '购物中心', '聘请', '服务员', '导购', '小姐', '地名', '汉字', '标写', '东京', '车站', '简体中文', '金融机构', '银联', '饭店', '刷卡', '万多', '多亿', '不值一提', '比前', '乔杜里', '常说', '潜在', '投巨资', '手册', '代表处', '温文尔雅', '东方人', '气质', '太小', '小费', '总体', '购买力', '公共场所', '大声', '喧哗', '乱', '扔', '随地吐痰', '价格不菲', '群体', '震惊', '市中心', '太仓促', '失掉', '挑剔', '奢侈品', '阔气', '劲', '编了', '真棒', '刚下', '早起', '晚睡', '挑', '高档商品', '卖得', '脱销', '天游', '游完', '搞定', '晚饭', '自费', '游遍', '难以置信', '年轻人', '下次', '再也', '团来', '星星', '有近', '万人', '纸', '草画', '模型', '铜盘', '金银', '首饰', '公费', '入住', '高档', '排场', '不小', '印度工业联合会', '五星级', '宾馆', '入住率', '大大提高', '工艺品', '▲', '特派记者', '任建民', '黄培昭', '彦', '张莉霞', '唐惠颖', '汪', '析', '时报讯', '旅程', '退烧', '喜笑颜开', '216', '新高', '全市', '也就是说', '单项', '600', '农家饭', '屋', '享', '农家乐', '周边地区', '亮点', '看点', '高速公路', '国内游', '增长幅度', '人气旺盛', '西安', '甬金', '金华', '呈', '快速增长', '中广网', '何伟奇', '仇文确', '106', '同期相比', '16%', '55.95', '10.2%', '2.09', '12.4%', '七星岩', '十里', '走单骑', '自行车', '环湖', '德庆', '醇正', '岭面', '古迹', '封开', '萝筐', '节', '梦多奇', '溶洞', '怀集', '燕峰峡', '温泉', '漂流', '广宁', '竹海', '造纸', '访古', '生态园', '寻梦', '新意', '日日', '景', '新体验', '如诗如画', '肇庆市', '增设', '一目了然', '服务质量', '志愿者', '到达', '提供方便', '广播网']

        一个简单的规则可以这样制定:首先去掉高频词,至于去掉多少个高频词,我们可以通过观察去掉高频词个数和最终检测准确率的关系来确定。除此之外,去除数字,不把数字作为分类特征。同时,去除一些特定的词语,比如:"的","一","在","不","当然","怎么"这类的对新闻分类无影响的介词、代词、连词。怎么去除这些词呢?可以使用已经整理好的stopwords_cn.txt文本。下载地址:点我下载

这个文件是这个样子的:

机器学习实战教程(五):朴素贝叶斯实战篇_第6张图片

         所以我们可以根据这个文档,将这些单词去除,不作为分类的特征。我们先去除前100个高频词汇,然后编写代码如下:

# -*- coding: UTF-8 -*-
import os
import random
import jieba

"""
函数说明:中文文本处理

Parameters:
    folder_path - 文本存放的路径
    test_size - 测试集占比,默认占所有数据集的百分之20
Returns:
    all_words_list - 按词频降序排序的训练集列表
    train_data_list - 训练集列表
    test_data_list - 测试集列表
    train_class_list - 训练集标签列表
    test_class_list - 测试集标签列表
Modify:
    2022-12-18
"""


def TextProcessing(folder_path, test_size=0.2):
    folder_list = os.listdir(folder_path)  # 查看folder_path下的文件
    data_list = []  # 数据集数据
    class_list = []  # 数据集类别

    # 遍历每个子文件夹
    for folder in folder_list:
        new_folder_path = os.path.join(folder_path, folder)  # 根据子文件夹,生成新的路径
        files = os.listdir(new_folder_path)  # 存放子文件夹下的txt文件的列表

        j = 1
        # 遍历每个txt文件
        for file in files:
            if j > 100:  # 每类txt样本数最多100个
                break
            with open(os.path.join(new_folder_path, file), 'r', encoding='utf-8') as f:  # 打开txt文件
                raw = f.read()

            word_cut = jieba.cut(raw, cut_all=False)  # 精简模式,返回一个可迭代的generator
            word_list = list(word_cut)  # generator转换为list

            data_list.append(word_list)  # 添加数据集数据
            class_list.append(folder)  # 添加数据集类别
            j += 1

    data_class_list = list(zip(data_list, class_list))  # zip压缩合并,将数据与标签对应压缩
    random.shuffle(data_class_list)  # 将data_class_list乱序
    index = int(len(data_class_list) * test_size) + 1  # 训练集和测试集切分的索引值
    train_list = data_class_list[index:]  # 训练集
    test_list = data_class_list[:index]  # 测试集
    train_data_list, train_class_list = zip(*train_list)  # 训练集解压缩
    test_data_list, test_class_list = zip(*test_list)  # 测试集解压缩

    all_words_dict = {}  # 统计训练集词频
    for word_list in train_data_list:
        for word in word_list:
            if word in all_words_dict.keys():
                all_words_dict[word] += 1
            else:
                all_words_dict[word] = 1

    # 根据键的值倒序排序
    all_words_tuple_list = sorted(all_words_dict.items(), key=lambda f: f[1], reverse=True)
    all_words_list, all_words_nums = zip(*all_words_tuple_list)  # 解压缩
    all_words_list = list(all_words_list)  # 转换成列表
    return all_words_list, train_data_list, test_data_list, train_class_list, test_class_list


"""
函数说明:读取文件里的内容,并去重

Parameters:
    words_file - 文件路径
Returns:
    words_set - 读取的内容的set集合
Modify:
    2022-12-18
"""


def MakeWordsSet(words_file):
    words_set = set()  # 创建set集合
    with open(words_file, 'r', encoding='utf-8') as f:  # 打开文件
        for line in f.readlines():  # 一行一行读取
            word = line.strip()  # 去回车
            if len(word) > 0:  # 有文本,则添加到words_set中
                words_set.add(word)
    return words_set  # 返回处理结果


"""
函数说明:文本特征选取

Parameters:
    all_words_list - 训练集所有文本列表
    deleteN - 删除词频最高的deleteN个词
    stopwords_set - 指定的结束语
Returns:
    feature_words - 特征集
Modify:
    2022-12-18
"""


def words_dict(all_words_list, deleteN, stopwords_set=set()):
    feature_words = []  # 特征列表
    n = 1
    for t in range(deleteN, len(all_words_list), 1):
        if n > 1000:  # feature_words的维度为1000
            break
            # 如果这个词不是数字,并且不是指定的结束语,并且单词长度大于1小于5,那么这个词就可以作为特征词
        if not all_words_list[t].isdigit() and all_words_list[t] not in stopwords_set and 1 < len(
                all_words_list[t]) < 5:
            feature_words.append(all_words_list[t])
        n += 1
    return feature_words


if __name__ == '__main__':
    # 文本预处理
    folder_path = './SogouC/Sample'  # 训练集存放地址
    all_words_list, train_data_list, test_data_list, train_class_list, test_class_list = TextProcessing(folder_path,
                                                                                                        test_size=0.2)

    # 生成stopwords_set
    stopwords_file = './stopwords_cn.txt'
    stopwords_set = MakeWordsSet(stopwords_file)

    feature_words = words_dict(all_words_list, 100, stopwords_set)
    print(feature_words)

        运行结果如下:

['作战', '增长', '仿制', '发展', '学校', '远程', '可能', '企业', '通过', '主要', '复习', '建设', '选择', '比赛', '时候', '万人次', '学习', '很多', '一定', '品牌', '接待', '完全', '射程', '工作', '期间', '目前', '分析', '银行', '部署', '记者', '辅导班', '专业', '问题', '部分', '能力', '开始', '上海', '重要', '考试', '亿美元', '填报', '部队', '管理', '文章', '今年', '技术', '军事', '阵地', '训练', '表现', '需要', '坦克', '达到', '活动', '电话', '相对', '基础', '国家', '拥有', '现在', '几乎', '提高', '科学', '日本', '希望', '情况', '经济', '资料', '要求', '收入', '服务', '历史', '来源', '准备', '最后', '影响', '老师', '装备', '计划', '印度', '提供', '设计', '参加', '表示', '实验室', '压制', '机会', '一次', '这是', '不同', '大批', '知道', '考研', '支付', '专利', '不用', '公里', '了解', '比较', '两个', '数字', '一家', '耿大勇', '休闲', '应该', '距离', '员工', '角度', '阿里', '游戏', '岛屿', '进入', '相关', '指挥', '重点', '手机', '景区', '一直', '方式', '力气', '孩子', '彻底', '沿海', '摧毁', '睡眠', '最大', '必须', '告诉', '文化', '越来越', '全军', '决定', '专家', '不能', '产品', '作用', '数学', 'MBA', '台湾', '挑衅', '置于', '数独', '利用', '战场', '世界', '出现', '吸引', '介绍', '全面', '系统', '建议', '左右', '考虑', '这种', '全国', '看到', '纳斯', '自寻死路', '世界领先', '型号', '开战', '金贵', '海量', '之内', '费多', '廉价', '发展观', '组织', '基本', '包括', '人数', '图库', '地方', '未来', '药厂', '东莞', '教育', '沈阳市', '牛奶', '一批', '信息化', '显示', '国内', '香港', '景点', '方面', '完成', '第一', '我军', '同比', '不会', '一下', '成功', '排名', '录取', '著名', 'VS', '预期', '消费者', '东引岛', '正在', '实现', '消费', '最佳', '非常', '去年', '旅行社', '能够', '喜欢', '新型', '第一次', '数据', '每个', '获得', '销售', '顾客', '关系', '推出', '分期付款', '使用', '赔偿', '知识点', '东南亚', '理由', '新浪', '军队', '网上', '火力', '目标', '旅游者', '全球', '泰国', '英语', '努力', '小时', '领导', '结果', '消息', '注意', '得到', '是否', '电脑', '指出', '代表', '院校', '医疗', '项目', '连续', '辽宁队', '协议', '内容', '概念', '营养', '演练', '面对', '之间', '埃及', '特别', '标志', '南京', '更加', '对手', '容易', '不断', '复试', '分钟', '广东', '医院', '经验', '利苑', '大学生', '写作', '词汇', '詹姆斯', '学员', '武器', '俄罗斯', '认证', '王治郅', '起来', '补充', '蓝军', '不少', '预计', '增加', '条件', '感觉', '韩国', '环境', '设立', '研究', '掌握', '不要', '关键', '特点', '这家', '发现', '知名', '支持', '之后', '免息', '回家', '今天', '此前', '思路', '中心', '各型', '信息', '很快', '加强', '这次', '超过', '商机', '一年', '一样', '大量', '开通', '欧洲', '统计', '媒体', '生活', '结束', '知识', '亿元', '整个', '每天', '市民', '其实', '发布', '建立', '往往', '理解', '事情', '原因', '大学', '当时', '三个', '职业', '过程', '备考', '帮助', '伯德', '姚明', '过年', '我省', '综合', '攻击', '战斗', '坚持', '实施', '进攻', '方法', '旅游业', '报道', '变得', '一位', '提前', '十分', '举行', '一起', '举办', '安排', '教材', '主动', '数量', '去年同期', '投入', '稳定', '社会', '协会', '集团', '单位', '感受', '进一步', '以下', '满足', '人才', '同事', '参与', '同学', '本科', '阅读', '酒家', '食物', '意味着', 'H股', '股东', '业务', '口技', '之前', '解题', '公式', '元老', '运动', '标题', '上午', '功能', '公布', '电视', '下载', '密码', '批次', '晋升', '振保', '失眠', '本报', '网络', '首次', '出境', '资源', '创造', '公民', '法国', '广播', '城市', '最近', '促进', '感到', '优秀', '我国', '力量', '展开', '产生', '官兵', '失去', '有效', '提升', '同期', '三分', '竞争', '很大', '邮票', '之一', '不再', '国际', '熟悉', '发出', '因素', '价值', '收益', '压力', '办法', '万元', '模拟', '工程', '过去', '具有', '简历', '网站', '根本', '预测', '听课', '规则', '关键字', '美国在线', '东部', '内容摘要', '用户', '补报', '家长', '战争', '升旗', '吸收', '刚刚', '迅速', '红军', '采取', '经理', '总部', '增幅', '这一', '只能', '有限公司', '一般', '平均', '女士', '尤其', '一半', '正式', '关注', '变成', '战略', '积极', '合作', '出境游', '负责人', '发挥', '即将', '团队', '充分', '展示', '真正', '形成', '再次', '联系', '胜利', '总结', '培训', '开展', '昨天', '乡村', '出游', '一场', '主场', '第二', '最好', '本书', '大师', '找到', '医药', '广州', '生产', '类似', '相当', '一页', '回到', '敏华', '辽足', '马林', '唐尧东', '几个', '每股', '分公司', '面试', '场位', '米勒', '罚球', 'NBA', '充足', '题型', '沈阳', '围棋', '牙膏', '海上', '基地', '可选报', '埃弗顿', '口语', '国防', '矩阵', '装甲团', '保障', '几年', '打击', '宣布', '机构', '航线', '月份', '专门', '时代', '自然', '负责', '广告', '一天', '购买', '连队', '战胜', '现场', '持续', '辅导', '精神', '取得', '成绩', '上年', '迎来', '突破', '下降', '轻松', '联赛', '客场', '心理', '程度', '制药', '透露', '商业', '本报记者', '董事长', '动力', '不足', '商业银行', '具体', '培养', '效果', '依然', '考场', '练习', '听力', '方向', '各地', '人士', '避免', '费用', '简单', '实力', '传统', '俱乐部', '提醒', '荷兰', '诉讼', '上市', '销售额', '涉及', '泰华', '骗局', '核心', '学生', '网上支付', '考前', '性质', '语法', '概率', '参看', '呼叫', '高清晰', '东北亚', '机票', '双方', '纳入', '水平', '安妮', '投诉', '改革', '汪力', '家教', '短程', '战术导弹', '点穴', '国旗', '身高', '生长', '人体', '命令', '拉动', '制定', '突然', '平台', '快速', '为主', '控制', '一体化', '降价', '诺基亚', '带来', '终于', '平时', '几天', '最高', '春节', '提出', '观光', '相比', '留下', '垃圾', '操作', '困难', '人员', '离开', '理论', '晚上', '指导', '标准', '继续', '毕竟', '规模', '干部', '独立', '固定', '七天', '调查', '交通', '上网', '门票', '比例', '体会', '近年来', '优势', '佛罗伦萨', '切沃', '表明', '似乎', '防守', '赛季', '多年', '领域', '觉得', '大多数', '大部分', '活力', '真实', '一项', '鼓励', '高级', '贯彻', '发生', '做到', '真的', '必要', '不好', '调剂', '保证', '二外', '共同', '无疑', '招生', '更是', '季泽', '免费', '患者', '明显', '饮食', '新加坡', '空间', '听到', '地区', '目的地', '想起', '应用', '高度', '难度']

Process finished with exit code 0

        可以看到,我们已经滤除了那些没有用的词组,这个feature_words就是我们最终选出的用于新闻分类的特征。随后,我们就可以根据feature_words,将文本向量化,然后用于训练朴素贝叶斯分类器。这个向量化的思想和第三章的思想一致,因此不再累述。

3、使用Sklearn构建朴素贝叶斯分类器

        数据已经处理好了,接下来就可以使用sklearn构建朴素贝叶斯分类器了。

        官方英文文档地址:文档地址

        朴素贝叶斯是一类比较简单的算法,scikit-learn中朴素贝叶斯类库的使用也比较简单。相对于决策树,KNN之类的算法,朴素贝叶斯需要关注的参数是比较少的,这样也比较容易掌握。在scikit-learn中,一共有3个朴素贝叶斯的分类算法类。分别是GaussianNB,MultinomialNB和BernoulliNB。其中GaussianNB就是先验为高斯分布的朴素贝叶斯,MultinomialNB就是先验为多项式分布的朴素贝叶斯,而BernoulliNB就是先验为伯努利分布的朴素贝叶斯。上篇文章讲解的先验概率模型就是先验概率为多项式分布的朴素贝叶斯。

机器学习实战教程(五):朴素贝叶斯实战篇_第7张图片

         

对于新闻分类,属于多分类问题。我们可以使用MultinamialNB()完成我们的新闻分类问题。另外两个函数的使用暂且不再进行扩展,可以自行学习。MultinomialNB假设特征的先验概率为多项式分布,即如下式:

其中, P(Xj = Xjl | Y = Ck)是第k个类别的第j维特征的第l个取值条件概率。mk是训练集中输出为第k类的样本个数。λ为一个大于0的常数,常常取值为1,即拉普拉斯平滑,也可以取其他值。

接下来,我们看下MultinamialNB这个函数,只有3个参数:

参数说明如下:

  • alpha:浮点型可选参数,默认为1.0,其实就是添加拉普拉斯平滑,即为上述公式中的λ ,如果这个参数设置为0,就是不添加平滑;
  • fit_prior:布尔型可选参数,默认为True。布尔参数fit_prior表示是否要考虑先验概率,如果是false,则所有的样本类别输出都有相同的类别先验概率。否则可以自己用第三个参数class_prior输入先验概率,或者不输入第三个参数class_prior让MultinomialNB自己从训练集样本来计算先验概率,此时的先验概率为P(Y=Ck)=mk/m。其中m为训练集样本总数量,mk为输出为第k类别的训练集样本数。
  • class_prior:可选参数,默认为None。

总结如下:

机器学习实战教程(五):朴素贝叶斯实战篇_第8张图片

        除此之外,MultinamialNB也有一些方法供我们使用:

机器学习实战教程(五):朴素贝叶斯实战篇_第9张图片

        MultinomialNB一个重要的功能是有partial_fit方法,这个方法的一般用在如果训练集数据量非常大,一次不能全部载入内存的时候。这时我们可以把训练集分成若干等分,重复调用partial_fit来一步步的学习训练集,非常方便。GaussianNB和BernoulliNB也有类似的功能。 在使用MultinomialNB的fit方法或者partial_fit方法拟合数据后,我们可以进行预测。此时预测有三种方法,包括predict,predict_log_proba和predict_proba。predict方法就是我们最常用的预测方法,直接给出测试集的预测类别输出。predict_proba则不同,它会给出测试集样本在各个类别上预测的概率。容易理解,predict_proba预测出的各个类别概率里的最大值对应的类别,也就是predict方法得到类别。predict_log_proba和predict_proba类似,它会给出测试集样本在各个类别上预测的概率的一个对数转化。转化后predict_log_proba预测出的各个类别对数概率里的最大值对应的类别,也就是predict方法得到类别。具体细节不再讲解,可参照官网手册。

        了解了这些,我们就可以编写代码,通过观察取不同的去掉前deleteN个高频词的个数与最终检测准确率的关系,确定deleteN的取值:

# -*- coding: UTF-8 -*-
from sklearn.naive_bayes import MultinomialNB
import matplotlib.pyplot as plt
import os
import random
import jieba

"""
函数说明:中文文本处理

Parameters:
    folder_path - 文本存放的路径
    test_size - 测试集占比,默认占所有数据集的百分之20
Returns:
    all_words_list - 按词频降序排序的训练集列表
    train_data_list - 训练集列表
    test_data_list - 测试集列表
    train_class_list - 训练集标签列表
    test_class_list - 测试集标签列表
Author:
    Jack Cui
Blog:
    http://blog.csdn.net/c406495762
Modify:
    2017-08-22
"""


def TextProcessing(folder_path, test_size=0.2):
    folder_list = os.listdir(folder_path)  # 查看folder_path下的文件
    data_list = []  # 数据集数据
    class_list = []  # 数据集类别

    # 遍历每个子文件夹
    for folder in folder_list:
        new_folder_path = os.path.join(folder_path, folder)  # 根据子文件夹,生成新的路径
        files = os.listdir(new_folder_path)  # 存放子文件夹下的txt文件的列表

        j = 1
        # 遍历每个txt文件
        for file in files:
            if j > 100:  # 每类txt样本数最多100个
                break
            with open(os.path.join(new_folder_path, file), 'r', encoding='utf-8') as f:  # 打开txt文件
                raw = f.read()

            word_cut = jieba.cut(raw, cut_all=False)  # 精简模式,返回一个可迭代的generator
            word_list = list(word_cut)  # generator转换为list

            data_list.append(word_list)  # 添加数据集数据
            class_list.append(folder)  # 添加数据集类别
            j += 1

    data_class_list = list(zip(data_list, class_list))  # zip压缩合并,将数据与标签对应压缩
    random.shuffle(data_class_list)  # 将data_class_list乱序
    index = int(len(data_class_list) * test_size) + 1  # 训练集和测试集切分的索引值
    train_list = data_class_list[index:]  # 训练集
    test_list = data_class_list[:index]  # 测试集
    train_data_list, train_class_list = zip(*train_list)  # 训练集解压缩
    test_data_list, test_class_list = zip(*test_list)  # 测试集解压缩

    all_words_dict = {}  # 统计训练集词频
    for word_list in train_data_list:
        for word in word_list:
            if word in all_words_dict.keys():
                all_words_dict[word] += 1
            else:
                all_words_dict[word] = 1

    # 根据键的值倒序排序
    all_words_tuple_list = sorted(all_words_dict.items(), key=lambda f: f[1], reverse=True)
    all_words_list, all_words_nums = zip(*all_words_tuple_list)  # 解压缩
    all_words_list = list(all_words_list)  # 转换成列表
    return all_words_list, train_data_list, test_data_list, train_class_list, test_class_list


"""
函数说明:读取文件里的内容,并去重

Parameters:
    words_file - 文件路径
Returns:
    words_set - 读取的内容的set集合
Author:
    Jack Cui
Blog:
    http://blog.csdn.net/c406495762
Modify:
    2017-08-22
"""


def MakeWordsSet(words_file):
    words_set = set()  # 创建set集合
    with open(words_file, 'r', encoding='utf-8') as f:  # 打开文件
        for line in f.readlines():  # 一行一行读取
            word = line.strip()  # 去回车
            if len(word) > 0:  # 有文本,则添加到words_set中
                words_set.add(word)
    return words_set  # 返回处理结果


"""
函数说明:根据feature_words将文本向量化

Parameters:
    train_data_list - 训练集
    test_data_list - 测试集
    feature_words - 特征集
Returns:
    train_feature_list - 训练集向量化列表
    test_feature_list - 测试集向量化列表
Author:
    Jack Cui
Blog:
    http://blog.csdn.net/c406495762
Modify:
    2017-08-22
"""


def TextFeatures(train_data_list, test_data_list, feature_words):
    def text_features(text, feature_words):  # 出现在特征集中,则置1                                               
        text_words = set(text)
        features = [1 if word in text_words else 0 for word in feature_words]
        return features

    train_feature_list = [text_features(text, feature_words) for text in train_data_list]
    test_feature_list = [text_features(text, feature_words) for text in test_data_list]
    return train_feature_list, test_feature_list  # 返回结果


"""
函数说明:文本特征选取

Parameters:
    all_words_list - 训练集所有文本列表
    deleteN - 删除词频最高的deleteN个词
    stopwords_set - 指定的结束语
Returns:
    feature_words - 特征集
Author:
    Jack Cui
Blog:
    http://blog.csdn.net/c406495762
Modify:
    2017-08-22
"""


def words_dict(all_words_list, deleteN, stopwords_set=set()):
    feature_words = []  # 特征列表
    n = 1
    for t in range(deleteN, len(all_words_list), 1):
        if n > 1000:  # feature_words的维度为1000
            break
            # 如果这个词不是数字,并且不是指定的结束语,并且单词长度大于1小于5,那么这个词就可以作为特征词
        if not all_words_list[t].isdigit() and all_words_list[t] not in stopwords_set and 1 < len(
                all_words_list[t]) < 5:
            feature_words.append(all_words_list[t])
        n += 1
    return feature_words


"""
函数说明:新闻分类器

Parameters:
    train_feature_list - 训练集向量化的特征文本
    test_feature_list - 测试集向量化的特征文本
    train_class_list - 训练集分类标签
    test_class_list - 测试集分类标签
Returns:
    test_accuracy - 分类器精度
Author:
    Jack Cui
Blog:
    http://blog.csdn.net/c406495762
Modify:
    2017-08-22
"""


def TextClassifier(train_feature_list, test_feature_list, train_class_list, test_class_list):
    classifier = MultinomialNB().fit(train_feature_list, train_class_list)
    test_accuracy = classifier.score(test_feature_list, test_class_list)
    return test_accuracy


if __name__ == '__main__':
    # 文本预处理
    folder_path = './SogouC/Sample'  # 训练集存放地址
    all_words_list, train_data_list, test_data_list, train_class_list, test_class_list = TextProcessing(folder_path,
                                                                                                        test_size=0.2)

    # 生成stopwords_set
    stopwords_file = './stopwords_cn.txt'
    stopwords_set = MakeWordsSet(stopwords_file)

    test_accuracy_list = []
    deleteNs = range(0, 1000, 20)  # 0 20 40 60 ... 980
    for deleteN in deleteNs:
        feature_words = words_dict(all_words_list, deleteN, stopwords_set)
        train_feature_list, test_feature_list = TextFeatures(train_data_list, test_data_list, feature_words)
        test_accuracy = TextClassifier(train_feature_list, test_feature_list, train_class_list, test_class_list)
        test_accuracy_list.append(test_accuracy)

    plt.figure()
    plt.plot(deleteNs, test_accuracy_list)
    plt.title('Relationship of deleteNs and test_accuracy')
    plt.xlabel('deleteNs')
    plt.ylabel('test_accuracy')
    plt.show()

        运行结果如下:

机器学习实战教程(五):朴素贝叶斯实战篇_第10张图片

 

机器学习实战教程(五):朴素贝叶斯实战篇_第11张图片

         我们绘制出了deleteNs和test_accuracy的关系,这样我们就可以大致确定去掉前多少的高频词汇了。每次运行程序,绘制的图形可能不尽相同,我们可以通过多次测试,来决定这个deleteN的取值,然后确定这个参数,这样就可以顺利构建出用于新闻分类的朴素贝叶斯分类器了。我测试感觉450还不错,最差的分类准确率也可以达到百分之50以上。将if __name__ == '__main__'下的代码修改如下:

机器学习实战教程(五):朴素贝叶斯实战篇_第12张图片

 

五、总结

  • 在训练朴素贝叶斯分类器之前,要处理好训练集,文本的清洗还是有很多需要学习的东西。
  • 根据提取的分类特征将文本向量化,然后训练朴素贝叶斯分类器。
  • 去高频词汇数量的不同,对结果也是有影响的的。
  • 拉普拉斯平滑对于改善朴素贝叶斯分类器的分类效果有着积极的作用。
  • 如有问题,请留言。如有错误,还望指正,谢谢!

 

参考:

[1]https://cuijiahua.com/blog/2017/11/ml_5_bayes_2.html

[2]《机器学习实战》

你可能感兴趣的:(机器学习,人工智能,python,算法,学习)