Claire_chen_jia

python自然语言处理 | 学习分类文本

本章解决问题

我们怎样才能识别语言数据中能明显用于对其分类的特征？
我们怎样才能构建语言模型，用于自动执行语言处理任务？
从这些模型中我们可以学到哪些关于语言的知识？

这里写目录标题

1 有监督分类
- 1.1 性别鉴定
- 1.2 选择正确的特征
- 1.3 文档分类
- 1.4 词性标注
- 1.5 探索上下文语境
- 1.6 序列分类
- 1.7 其他序列分类方法
2 有监督分类的更多例子
- 2.1 句子分割
- 2.2 识别对话行为类型
- 2.3 识别文字蕴含
- 2.4 扩展到大型数据集
3 评估
- 3.1 测试集
- 3.2 准确度
- 3.3 精确度和召回率
- 3.4 混淆矩阵
- 3.5 交叉验证
4 决策树
5 朴素贝叶斯分类器
6 最大熵分类器
- 6.1 最大熵模型
- 6.2 熵的最大化
- 6.3 生成式分类器对比条件式分类器
7 为语言模式建模
8 小结
9 练习

1 有监督分类

分类是为给定的输入选择正确的类标签的任务。在基本的分类任务中，每个输入被认为是与所有其它输入隔离的，并且标签集是预先定义的。这里是分类任务的一些例子：

判断一封电子邮件是否是垃圾邮件。
从一个固定的主题领域列表中，如“体育”、“技术”和“政治”，决定新闻报道的主题是什么。
决定词 bank 给定的出现是用来指河的坡岸、一个金融机构、向一边倾斜的动作还是在金融机构里的存储行为。

有监督分类：一个分类称为有监督的，如果它的建立基于训练语料的每个输入包含正确标签。有监督分类使用的框架图如1.1所示。

a：在训练过程中，特征提取器用来将每一个输入值转换为特征集。这些特征集捕捉每个输入中应被用于对其分类的基本信息。特征集与标签的配对被送入机器学习算法，生成模型。
b:在预测过程中，相同的特征提取器被用来将未见过的输入转换为特征集。之后，这些特征集被送入模型产生预测标签。

1.1 性别鉴定

在4中，我们看到，男性和女性的名字有一些鲜明的特点。以a，e和i结尾的很可能是女性，而以k，o，r，s和t结尾的很可能是男性。让我们建立一个分类器更精确地模拟这些差异。下面用性别鉴定的分类来示例。

创建一个分类器的第一步是决定输入的什么样的特征是相关的，以及如何为那些特征编码。

在这个例子中，我们一开始只是寻找一个给定的名称的最后一个字母。以下特征提取器函数建立一个字典，包含有关给定名称的相关信息：

"""
1. 创建一个分类器的第一步是决定输入的什么样的特征是相关的，以及如何为那些特征编码。
这里的特征是以a，e和i结尾的很可能是女性，而以k，o，r，s和t结尾的很可能是男性
"""
# 定义了一个特征提取器
def gender_features(word):
    return {"last_letter": word[-1]}
gender_features("Shrek")

"""2 准备一个例子和对应类标签的列表"""
from nltk.corpus import names
labeled_names = ([(name, "male") for name in names.words("male.txt")]) + \
[(name, "female") for name in names.words("female.txt")]

import random
random.shuffle(labeled_names)

"""
3 使用特征提取器处理names数据，并划分特征集的结果链表为一个训练集和一个测试集。
训练集用于训练一个新的“朴素贝叶斯”分类器。
"""
import nltk
featuresets = [(gender_features(n), gender) for (n, gender) in labeled_names]  # features = (特征，标签)
train_set, test_set = featuresets[500:], featuresets[:500]  # 划分训练集和测试集
classifier = nltk.NaiveBayesClassifier.train(train_set)   # 通过训练得到模型

"""4 使用模型"""
print(classifier.classify(gender_features("Neo")))
print(classifier.classify(gender_features("Trinity")))

"""5 检查分类器，确定哪些特征对于区分名字的性别是最有效的"""
classifier.show_most_informative_features(5)
print(nltk.classify.accuracy(classifier, test_set))

在处理大型语料库时，构建一个包含每一个实例的特征的单独的列表会使用大量的内存。在这些情况下，使用函数`nltk.classify.apply_features’，返回一个行为像一个列表而不会在内存存储所有特征集的对象。如下：

from nltk.classify import apply_features
train_set = apply_features(gender_features, labeled_names[500:])  # 训练集
test_set = apply_features(gender_features, labeled_names[:500])   # 测试集

1.2 选择正确的特征

特征提取通过反复试验和错误的过程建立的，由哪些信息是与问题相关的直觉指引的。它通常以“厨房水槽”的方法开始，包括你能想到的所有特征，然后检查哪些特征是实际有用的。我们在1.2中对名字性别特征采取这种做法。

def gender_features2(name):
    features = {}
    features["first_letter"] = name[0].lower()
    features["last_letter"] = name[-1].lower()
    for letter in "abcdefghijklmnopqrstuvwxyz":
        features["count({})".format(letter)] = name.lower().count(letter)
        features["has({})".format(letter)] = (letter in name.lower())
    return features

然而，你要用于一个给定的学习算法的特征的数目是有限的——如果你提供太多的特征，那么该算法将高度依赖你的训练数据的特性，而一般化到新的例子的效果不会很好。这个问题被称为过拟合，当运作在小训练集上时尤其会有问题。

# 考虑太多特征导致这个系统的精度比只考虑每个名字最后一个字母的分类器的精度低约1％
featuresets = [(gender_features2(n), gender) for (n, gender) in labeled_names]
train_set, test_set = featuresets[500:], featuresets[:500]
classifier = nltk.NaiveBayesClassifier.train(train_set)
print(nltk.classify.accuracy(classifier, test_set))         # 书上这样说的低1%，可是这里由之前的0.762--> 0.766 ,优化了？  不过太多特征，降低处理效率

一旦初始特征集被选定，完善特征集的一个非常有成效的方法是错误分析。

"""首先，我们选择一个开发集，包含用于创建模型的语料数据。然后将这种开发集分为训练集和开发测试集。"""
train_names = labeled_names[1500:]  # 训练集用于训练模型
devtest_names = labeled_names[500:1500]  # 开发测试集用于进行错误分析
test_names = labeled_names[:500]  # 测试集是用于测试

"""已经将语料分为适当的数据集，我们使用训练集训练一个模型，然后在开发测试集上运行"""
train_set = [(gender_features(n), gender) for (n, gender) in train_names]
devtest_set = [(gender_features(n), gender) for (n, gender) in devtest_names]
test_set = [(gender_features(n), gender) for (n, gender) in test_names]
classifier = nltk.NaiveBayesClassifier.train(train_set)
print(nltk.classify.accuracy(classifier, devtest_set))

"""使用开发测试集，我们可以生成一个分类器预测名字性别时的错误列表"""
errors = []
for (name, tag) in devtest_names:
    guess = classifier.classify(gender_features(name))
    if guess != tag:
        errors.append((tag, guess, name))

"""
然后，可以检查个别错误案例，在那里该模型预测了错误的标签，
尝试确定什么额外信息将使其能够作出正确的决定（或者现有的哪部分信息导致其做出错误的决定）。
然后可以相应的调整特征集
"""
count = 0
for (tag, guess, name) in sorted(errors):
    print("correct={:<8} guess={:<8s} name={:<30}".format(tag, guess, name))
    count += 1
    if count >10:
        break

明确指出一些多个字母的后缀可以指示名字性别。例如，yn结尾的名字显示以女性为主，尽管事实上，n结尾的名字往往是男性；以ch结尾的名字通常是男性，尽管以h结尾的名字倾向于是女性。因此，调整我们的特征提取器包括两个字母后缀的特征。

def gender_features(word):
    return {"suffix1": word[-1:],
           "suffix2": word[-2:]}

"""使用新的特征提取器重建分类器,提高1个百分点，0.763 --> 0.773"""
train_set = [(gender_features(n), gender) for (n, gender) in train_names]
devtest_set = [(gender_features(n), gender) for (n, gender) in devtest_names]
classifier = nltk.NaiveBayesClassifier.train(train_set)
print(nltk.classify.accuracy(classifier, devtest_set))

1.3 文档分类

使用这些语料库，我们可以建立分类器，自动给新文档添加适当的类别标签。

首先，我们构造一个标记了相应类别的文档清单。对于这个例子，我们选择电影评论语料库，将每个评论归类为正面或负面。

"构造一个标记了相应类别的文档清单"
from nltk.corpus import movie_reviews
documents = [(list(movie_reviews.words(fileid)), category)
                         for category in movie_reviews.categories()
                         for fileid in movie_reviews.fileids(category)]
random.shuffle(documents)

接下来，我们为文档定义一个特征提取器，这样分类器就会知道哪些方面的数据应注意（1.4）。对于文档主题识别，我们可以为每个词定义一个特性表示该文档是否包含这个词。为了限制分类器需要处理的特征的数目，我们一开始构建一个整个语料库中前2000个最频繁词的列表。然后，定义一个特征提取器，简单地检查这些词是否在一个给定的文档中。

"构建一个整个语料库中前2000个最频繁词的列表"
all_words = nltk.FreqDist(w.lower() for w in movie_reviews.words())
word_features = list(all_words)[:2000]

def document_features(document):
    document_words = set(document)
    features = {}
    for word in word_features:
        features["contains({})".format(word)] = (word in document_words)
    return features

已经定义了我们的特征提取器，可以用它来训练一个分类器，为新的电影评论加标签。

"""训练分类器"""
featuresets = [(document_features(d), c) for (d,c) in documents]
train_set, test_set = featuresets[100:], featuresets[:100]
classifier = nltk.NaiveBayesClassifier.train(train_set)
print(nltk.classify.accuracy(classifier, test_set))  # 0.83，还好？

1.4 词性标注

训练一个分类器来算出哪个后缀最有信息量

from nltk.corpus import brown

suffix_fdist = nltk.FreqDist()
# 获得后缀的计数的字典
for word in brown.words():
    word = word.lower()
    suffix_fdist[word[-1:]] += 1
    suffix_fdist[word[-2:]] += 1
    suffix_fdist[word[-3:]] += 1

common_suffixes = [suffix for (suffix, count) in suffix_fdist.most_common(100)]
print(common_suffixes)

"""定义一个特征提取器函数，检查给定的单词的这些后缀"""
def pos_features(word):
    features = {}
    for suffix in common_suffixes:
        features["endswith({})".format(suffix)] = word.lower().endswith(suffix)
    return features

特征提取函数的行为就像有色眼镜一样，强调我们的数据中的某些属性（颜色），并使其无法看到其他属性。分类器在决定如何标记输入时，将完全依赖它们强调的属性。在这种情况下，分类器将只基于一个给定的词拥有（如果有）哪个常见后缀的信息来做决定。

"""用它来训练一个新的“决策树”标记分类器"""
tagged_words = brown.tagged_words(categories='news')
featuresets = [(pos_features(n), g) for (n,g) in tagged_words]

size = int(len(featuresets) * 0.1)
train_set, test_set = featuresets[size:], featuresets[:size]

classifier = nltk.DecisionTreeClassifier.train(train_set)
nltk.classify.accuracy(classifier, test_set)

classifier.classify(pos_features("cats"))

# 决策树模型的一个很好的性质是它们往往很容易解释——我们甚至可以指示NLTK将它们以伪代码形式输出：
print(classifier.pseudocode(depth = 4))
"""
1. 可以看到分类器一开始检查一个词是否以逗号结尾——如果是，它会得到一个特别的标记","。
2. 接下来，分类器检查词是否以"the"尾，这种情况它几乎肯定是一个限定词。这个“后缀”被决策树早早使用是因为词"the"太常见。
3. 分类器继续检查词是否以"s"结尾。如果是，那么它极有可能得到动词标记VBZ（除非它是这个词"is"，它有特殊标记BEZ）.
4. 如果不是，那么它往往是名词（除非它是标点符号“.”）。
5. 实际的分类器包含这里显示的if-then语句下面进一步的嵌套，参数depth=4 只显示决策树的顶端部分。
"""

1.5 探索上下文语境

通过增加特征提取函数，我们可以修改这个词性标注器来利用各种词内部的其他特征，例如词长、它所包含的音节数或者它的前缀。
然而，只要特征提取器仅仅看着目标词，我们就没法添加依赖词出现的上下文语境特征。

为了采取基于词的上下文的特征，我们必须修改以前为我们的特征提取器定义的模式。不是只传递已标注的词，我们将传递整个（未标注的）句子，以及目标词的索引。

"""使用依赖上下文的特征提取器定义一个词性标记分类器。"""
def pos_features(sentence, i):
    features = {"suffix(1)": sentence[i][-1:],
               "suffix(2)": sentence[i][-2:],
               "suffix(3)": sentence[i][-3:]}
    if i == 0:
        features["prev-word"] = ""
    else:
        features["prev-word"] = sentence[i - 1]
    return features

pos_features(brown.sents()[0],8)

tagged_sents = brown.tagged_sents(categories='news')
featuresets =[]
for tagged_sent in tagged_sents:
    untagged_sent= nltk.tag.untag(tagged_sent)
    for i,(word,tag) in enumerate(tagged_sent):
        featuresets.append((pos_features(untagged_sent,i), tag))

size = int(len( featuresets)*0.1)
train_set,test_set = featuresets[size:],featuresets[:size]
classifier = nltk.NaiveBayesClassifier.train(train_set)
nltk.classify.accuracy(classifier,test_set)  # 加入句子后，利用上下文特征提高了我们的词性标注器的准确性。

1.6 序列分类

为了捕捉相关的分类任务之间的依赖关系，我们可以使用联合分类器模型，收集有关输入，选择适当的标签。
在词性标注的例子中，各种不同的序列分类器模型可以被用来为一个给定的句子中的所有的词共同选择词性标签。

一种序列分类器策略，称为连续分类或贪婪序列分类，是为第一个输入找到最有可能的类标签，然后使用这个问题的答案帮助找到下一个输入的最佳的标签。这个过程可以不断重复直到所有的输入都被贴上标签。

在下面例子中演示了这一策略。

首先，我们必须扩展我们的特征提取函数使其具有参数history，它提供一个我们到目前为止已经为句子预测的标记的列表。
history中的每个标记对应sentence中的一个词。但是请注意，history将只包含我们已经归类的词的标记，也就是目标词左侧的词。
因此，虽然是有可能查看目标词右边的词的某些特征，但查看那些词的标记是不可能的（因为我们还未产生它们）。

# sentence:上下文
# i：词语后缀
# history：目标词左侧的词的标记
def pos_features(sentence, i, history): 
    features = {"suffix(1)": sentence[i][-1:],
                 "suffix(2)": sentence[i][-2:],
                 "suffix(3)": sentence[i][-3:]}
    if i == 0:
        features["prev-word"] = ""
        features["prev-tag"] = ""
    else:
        features["prev-word"] = sentence[i - 1]
        features["prev-tag"] = history[i - 1]
    return features

class ConsecutivePosTagger(nltk.TaggerI): 

    def __init__(self, train_sents):
        train_set = []
        for tagged_sent in train_sents:
            untagged_sent = nltk.tag.untag(tagged_sent)
            history = []
            for i, (word, tag) in enumerate(tagged_sent):
                featureset = pos_features(untagged_sent, i, history)
                train_set.append( (featureset, tag) )
                history.append(tag)
        self.classifier = nltk.NaiveBayesClassifier.train(train_set)

    def tag(self, sentence):
        history = []
        for i, word in enumerate(sentence):
            featureset = pos_features(sentence, i, history)
            tag = self.classifier.classify(featureset)
            history.append(tag)
        return zip(sentence, history)

tagged_sents = brown.tagged_sents(categories='news')
size = int(len(tagged_sents) * 0.1)
train_sents, test_sents = tagged_sents[size:], tagged_sents[:size]
tagger = ConsecutivePosTagger(train_sents)
print (tagger.evaluate(test_sents))

1.7 其他序列分类方法

转型联合分类的工作原理是为输入的标签创建一个初始值，然后反复提炼那个值，尝试修复相关输入之间的不一致。

Brill标注器中描述的，是这种策略的一个很好的例子。

另一种方案是为词性标记所有可能的序列打分，选择总得分最高的序列。

隐马尔可夫模型
最大熵马尔可夫模型
线性链条件随机场模型

2 有监督分类的更多例子

2.1 句子分割

句子分割可以看作是一个标点符号的分类任务：每当我们遇到一个可能会结束一个句子的符号，如句号或问号，我们必须决定它是否终止了当前句子。

"""1 获得一些已被分割成句子的数据，将它转换成一种适合提取特征的形式"""
sents = nltk.corpus.treebank_raw.sents()
tokens = [] 
boundaries = set()
offset = 0
for sent in sents:
    tokens.extend(sent)  # tokens是单独句子标识符的合并列表
    offset += len(sent)
    boundaries.add(offset - 1)  # boundaries是一个包含所有句子边界词符索引的集合

"""2 需要指定用于决定标点是否表示句子边界的数据特征"""
def punct_features(tokens, i):
    return {'next-word-capitalized': tokens[i+1][0].isupper(),
             'prev-word': tokens[i-1].lower(),
             'punct': tokens[i],
             'prev-word-is-one-char': len(tokens[i-1]) == 1}

"""
3 基于这一特征提取器，我们可以通过选择所有的标点符号创建一个加标签的特征集的列表，然后标注它们是否是边界标识符
"""
featuresets = [(punct_features(tokens, i), (i in boundaries))
                for i in range(1, len(tokens)-1)
                if tokens[i] in '.?!']

"""
4 使用这些特征集，我们可以训练和评估一个标点符号分类器
"""
size = int(len(featuresets) * 0.1)
train_set, test_set = featuresets[size:], featuresets[:size]
classifier = nltk.NaiveBayesClassifier.train(train_set)
print(nltk.classify.accuracy(classifier, test_set)) # 0.936026936026936

使用这种分类器进行断句，我们只需检查每个标点符号，看它是否是作为一个边界标识符；在边界标识符处分割词列表。原理实现如下：

def segment_sentences(words):
    start = 0
    sents = []
    for i, word in enumerate(words):
        if word in '.?!' and classifier.classify(punct_features(words, i)) == True:
            sents.append(words[start:i+1])
            start = i+1
    if start < len(words):
        sents.append(words[start:])
    return sents

2.2 识别对话行为类型

NPS聊天语料库，在1中的展示过，包括超过10,000个来自即时消息会话的帖子。这些帖子都已经被贴上15 种对话行为类型中的一种标签，例如“陈述”，“情感”，“yn问题”和“Continuer”。

因此，我们可以利用这些数据建立一个分类器，识别新的即时消息帖子的对话行为类型。

"""
1 第一步是提取基本的消息数据。我们将调用xml_posts()来得到一个数据结构，表示每个帖子的XML注释：
"""
posts = nltk.corpus.nps_chat.xml_posts()[:10000]

"""
2 第二步 我们将定义一个简单的特征提取器，检查帖子包含什么词
"""
def dialogue_act_features(post):
    features = {}
    for word in nltk.word_tokenize(post):
        features['contains({})'.format(word.lower())] = True
    return features

"""
3 最后，我们通过为每个帖子提取特征（使用post.get(‘class’)获得一个帖子的对话行为类型）构造训练和测试数据，并创建一个新的分类器
"""
featuresets = [(dialogue_act_features(post.text), post.get('class'))
               for post in posts]
size = int(len(featuresets) * 0.1)
train_set, test_set = featuresets[size:], featuresets[:size]
classifier = nltk.NaiveBayesClassifier.train(train_set)
print(nltk.classify.accuracy(classifier, test_set)) # 0.667

2.3 识别文字蕴含

识别文字蕴含（RTE）是判断文本T的一个给定片段是否蕴含着另一个叫做“假设”的文本（已经在5讨论过）。
应当强调，文字和假设之间的关系并不一定是逻辑蕴涵，而是一个人是否会得出结论：文本提供了合理的证据证明假设是真实的。

识别方法：
1. 在我们的RTE 特征探测器（2.2）中，我们让词（即词类型）作为信息的代理，我们的**特征计数词重叠的程度和假设中有而文本中没有的词的程度**（由hyp_extra()方法获取）。
2. 不是所有的词都是同样重要的——命名实体，如人、组织和地方的名称，可能会更为重要，这促使我们分别为words和nes（命名实体）提取不同的信息。3. 此外，一些高频虚词作为“停用词”被过滤掉。

def rte_features(rtepair):
    extractor = nltk.RTEFeatureExtractor(rtepair)
    features = {}
    features['word_overlap'] = len(extractor.overlap('word'))
    features['word_hyp_extra'] = len(extractor.hyp_extra('word'))
    features['ne_overlap'] = len(extractor.overlap('ne'))
    features['ne_hyp_extra'] = len(extractor.hyp_extra('ne'))
    return features

# 说明这些特征的内容，我们检查前面显示的文本/假设对34的一些属性
rtepair = nltk.corpus.rte.pairs(['rte3_dev.xml'])[33]
extractor = nltk.RTEFeatureExtractor(rtepair)
print(extractor.text_words)
print(extractor.hyp_words)
print(extractor.overlap('word'))
print(extractor.overlap('ne'))
print(extractor.hyp_extra('word'))

# 这些特征表明假设中所有重要的词都包含在文本中，因此有一些证据支持标记这个为True。
# nltk.classify.rte_classify模块使用这些方法在合并的RTE测试数据上取得了刚刚超过58％的准确率。这个数字并不是很令人印象深刻的，还需要大量的努力，更多的语言学处理，才能达到更好的结果。

2.4 扩展到大型数据集

安装其他软件包

3 评估

3.1 测试集

# 从一个反映单一的文体（如新闻）的数据源随机分配句子，创建训练集和测试集
import random
from nltk.corpus import brown
tagged_sents = list(brown.tagged_sents(categories='news'))
random.shuffle(tagged_sents)
size = int(len(tagged_sents) * 0.1)
train_set, test_set = tagged_sents[size:], tagged_sents[:size]

缺陷：

训练集和测试集均取自同一文体，所以我们不能相信评估结果可以推广到其他文体
调用random.shuffle()，测试集中包含来自训练使用过的相同的文档的句子

# 稍好的做法是确保训练集和测试集来自不同的文件
file_ids = brown.fileids(categories='news')
size = int(len(file_ids) * 0.1)
train_set = brown.tagged_sents(file_ids[size:])
test_set = brown.tagged_sents(file_ids[:size])

# 要执行更令人信服的评估，可以从与训练集中文档联系更少的文档中获取测试集
train_set = brown.tagged_sents(categories='news')
test_set = brown.tagged_sents(categories='fiction')

3.2 准确度

准确度：测量测试集上分类器正确标注的输入的比例

posts = nltk.corpus.nps_chat.xml_posts()[:10000]

def dialogue_act_features(post):
    features = {}
    for word in nltk.word_tokenize(post):
        features['contains({})'.format(word.lower())] = True
    return features

featuresets = [(dialogue_act_features(post.text), post.get('class'))
               for post in posts]

size = int(len(featuresets) * 0.1)
train_set, test_set = featuresets[size:], featuresets[:size]
classifier = nltk.NaiveBayesClassifier.train(train_set)
print('Accuracy: {:4.2f}'.format(nltk.classify.accuracy(classifier, test_set)))

3.3 精确度和召回率

真阳性是相关项目中我们正确识别为相关的。
真阴性是不相关项目中我们正确识别为不相关的。
假阳性（或I 型错误）是不相关项目中我们错误识别为相关的。
假阴性（或II型错误）是相关项目中我们错误识别为不相关的。

精确度，表示我们发现的项目中有多少是相关的，TP/(TP+FP)。
召回率，表示相关的项目中我们发现了多少，TP/(TP+FN)。
F-度量值（或F-Score），组合精确度和召回率为一个单独的得分，
F-度量值定义为精确度和召回率的调和平均数(2 × Precision × Recall) / (Precision + Recall)。

3.4 混淆矩阵

对角线项目（即cells |ii|）表示正确预测的标签，非对角线项目表示错误，如下例

brown_tagged_sents = brown.tagged_sents(categories='news')
brown_sents = brown.sents(categories='news')
size = int(len(brown_tagged_sents) * 0.9)
train_sents = brown_tagged_sents[:size]
test_sents = brown_tagged_sents[size:]
t0 = nltk.DefaultTagger('NN')
t1 = nltk.UnigramTagger(train_sents, backoff=t0)
t2 = nltk.BigramTagger(train_sents, backoff=t1)

这个混淆矩阵显示常见的错误，包括NN替换为了JJ（1.6%的词），NN替换为了NNS（1.5%的词）。注意点（.）表示值为0 的单元格，对角线项目——对应正确的分类——用尖括号标记。

3.5 交叉验证

交叉验证：在不同的测试集上执行多个评估，然后组合这些评估的得分。

具体而言，将原始语料细分为N个子集称为折叠。对于每一个这些的折叠，我们使用除这个折叠中的数据外其他所有数据训练模型，然后在这个折叠上测试模型。即使个别的折叠可能是太小了而不能在其上给出准确的评价分数，综合评估得分是基于大量的数据，因此是相当可靠的。
采用交叉验证的优势是，它可以让我们研究不同的训练集上性能变化有多大。如果我们从所有N个训练集得到非常相似的分数，然后我们可以相当有信心，得分是准确的。另一方面，如果N个训练集上分数很大不同，那么，我们应该对评估得分的准确性持怀疑态度。

4 决策树

python机器学习 | 决策树算法介绍及实现

5 朴素贝叶斯分类器

python机器学习 | 朴素贝叶斯算法介绍及实现

6 最大熵分类器

6.1 最大熵模型

6.2 熵的最大化

6.3 生成式分类器对比条件式分类器

生成式模型与条件式模型之间的差别类似与一张地形图和一张地平线的图片之间的区别。虽然地形图可用于回答问题的更广泛，制作一张精确的地形图也明显比制作一张精确的地平线图片更加困难。

7 为语言模式建模

8 小结

9 练习

https://blog.csdn.net/qq_34505594/article/details/79495984

你可能感兴趣的:(python,自然语言处理)

如何安装python3.7.4_银河麒麟安装Python3.7.4以及升级自带OpenSSL weixin_39873191 如何安装python3.7.4
银河麒麟安装Python3.7.4以及升级自带OpenSSL升级OpenSSL1.下载opensslwgethttps://www.openssl.org/source/openssl-1.1.1a.tar.gztar-zxvfopenssl-1.1.1a.tar.gzcdopenssl-1.1.1a2.编译安装./config--prefix=/usr/local/opensslno-zlib#
python多进程编程_深入理解python多进程编程 weixin_39620001 python多进程编程
1、python多进程编程背景python中的多进程最大的好处就是充分利用多核cpu的资源，不像python中的多线程，受制于GIL的限制，从而只能进行cpu分配，在python的多进程中，适合于所有的场合，基本上能用多线程的，那么基本上就能用多进程。在进行多进程编程的时候，其实和多线程差不多，在多线程的包threading中，存在一个线程类Thread，在其中有三种方法来创建一个线程，启动线程，
python多进程编程实例_Python多进程编程multiprocessing代码实例 weixin_39791386 python多进程编程实例
在多线程与多进程的比较这一篇中记录了多进程编程的一种方式.下面记录一下多进程编程的别一种方式,即使用multiprocessing编程importmultiprocessingimporttimedefget_html(n):time.sleep(n)print('subprocess%s'%n)returnnif__name__=='__main__':#多进程编程process=multipr
python打开一个软件并进行操作_模拟试卷 B weixin_39551611
原标题：模拟试卷B一、单项选择题1.关于算法的描述，以下选项中错误的是算法是指解题方案的准确而完整的描述算法具有可行性、确定性、有穷性的基本特征算法的复杂度主要包括时间复杂度和数据复杂度算法的基本要素包括数据对象的运算和操作及算法的控制结构2.关于数据结构的描述，以下选项中正确的是数据结构指相互有关联的数据元素的集合数据的存储结构是指反映数据元素之间逻辑关系的数据结构数据的逻辑结构有顺序、链接、索
python之openpyxl模块 weixin_34248849 python 数据结构与算法测试
一.Python操作EXCEL库的简介1.1Python官方库操作excelPython官方库一般使用xlrd库来读取Excel文件，使用xlwt库来生成Excel文件，使用xlutils库复制和修改Excel文件，这三个库只支持到Excel2003。1.2第三方库openpyxl介绍第三方库openpyxl（可读写excel表），专门处理Excel2007及以上版本产生的xlsx文件，xls和x
python使用多进程multiprocessing 小蜗笔记 python python
python使用多进程multiprocessing1多进程解释2进程的演示3进程池方法4pool.map()的解析pool.map()的基本用法返回值语法示例注意事项适用场景5pool.join()详解示例注意事项pool.join()的运行逻辑阻塞特性的影响对计算速度的影响示例总结6apply_async(),apply(),和pool.map()`apply_async()`特性：语法：`a
centos下安裝python 白小白的小白 python python centos
更新系统文件yumupdateyuminstallzlib-develbzip2-developenssl-develncurses-develsqlite-develreadline-develtk-devellibffi-develgccmake下载安装包并解压wgethttps://www.python.org/ftp/python/3.7.6/Python-3.7.6.tar.xztar-
将python文件(.py)打包为可执行文件(.exe)的多种方法，看这一篇就够了，万字教学，全网最全！！！盲敲代码的阿豪 python实用知识点 python 可执行程序代码打包
文章目录前言1、PyInstaller库的使用（最简单，常用）1.1安装PyInstaller1.2常用参数及使用1.3其它参数（了解）1.4案例演示2、cx_Freeze库的使用2.1安装cx_Freeze2.2创建打包脚本2.3运行打包文件2.4参数说明2.5案例演示3、py2exe库的使用3.1安装py2exe3.2创建打包脚本3.3运行打包文件3.4参数说明3.5案例演示3.6常见问题4、
通过python代码实现向钉钉群内自动推送消息，详细步骤及代码，超实用教学！！！盲敲代码的阿豪 python实用知识点 python 钉钉自动化发消息
文章目录前言一、创建钉钉群机器人二、以文本格式发送信息三、以MarkDown格式发送信息四、以Link格式发送信息前言我们在使用钉钉时，通常会创建或加入多个群聊，身为群聊的管理者，当我们需要及时、并按时的向这些群聊推送一些固定信息，若通过人力来解决肯定非常耗时、耗力，这时我们就可以考虑开发一个自动化脚本来实现这个功能，本篇文章我将教会大家，如何使用python开发程序，实现向钉钉群内自动发送消息。
Python3-excel文档操作（二）：利用openpyxl库处理excel表格：在excel表格中插入图片 liranke Python学习笔记 python openpyxl python处理excel load_workbook
1.简介excel表中可以插入图片，使用openpyxl库可以实现这个功能。2.代码：#-*-coding:utf-8-*-importosimportsysimporttimeimportopenpyxlfromopenpyxlimportload_workbookfromopenpyxl.drawing.imageimportImagedefopenxls_insert_img(fname,i
基于Python的多元医疗知识图谱构建与应用研究（上） Allen_LVyingbo python 医疗高效编程研发 python 知识图谱健康医疗
一、引言1.1研究背景与意义在当今数智化时代，医疗数据呈爆发式增长，如何高效管理和利用这些数据，成为提升医疗服务质量的关键。传统医疗数据管理方式存在数据孤岛、信息整合困难等问题，难以满足现代医疗对精准诊断和个性化治疗的需求。知识图谱作为一种知识表示和管理技术，为医疗领域带来了新的解决方案。它能够将海量的医疗信息以结构化、语义化的方式组织起来，揭示疾病、症状、药物、治疗方法等实体之间的复杂关系，从而
PostgreSQL - pgvector 插件构建向量数据库并进行相似度查询花千树-010 RAG 数据库 postgresql AI编程
在现代的机器学习和人工智能应用中，向量相似度检索是一个非常重要的技术，尤其是在文本、图像或其他类型的嵌入向量的操作中。本文将介绍如何在PostgreSQL中安装pgvector插件，用于存储和检索向量数据，并展示如何通过Python脚本向数据库插入向量并执行相似度查询。一、安装PostgreSQL并配置pgvector插件1.安装PostgreSQL首先，确保你已经安装了PostgreSQL。可以
MoviePy视频编辑和处理Python库的版本问题解决：No module named ‘moviepy.editor‘ 封步宇AIGC 文字音频视频自动化工具 python 音视频 ffmpeg 人工智能
MoviePy是一个强大的Python库，用于视频编辑和处理。它支持多种基本操作，如视频剪切、拼接、插入标题，以及更高级的视频合成（非线性编辑）、视频处理和自定义特效创建。MoviePy能够读写包括GIF在内的常见音频和视频格式，并且兼容Windows、Mac和Linux操作系统，支持Python2.7和3.x版本MoviePy基于ffmpeg和ImageMagick，提供了易于使用的API，能够
《CPython Internals》阅读笔记：p177-p220 codists 读书笔记 python
《CPythonInternals》学习第11天，p177-p220总结，总计44页。一、技术总结1.memoryallocationinC(1)staticmemeoryallocationMemoryrequirementsarecalculatedatcompiletimeandallocatedbytheexecutablewhenitstarts.(2)automaticmemeorya
厦门租房信息分析展示（pycharm+python爬虫+pyspark+pyecharts）（踩坑记录）吃西红柿的鸡蛋大数据 hadoop spark python
厦门租房信息分析展示（pycharm+python爬虫+pyspark+pyecharts）（踩坑记录）项目地址http://dblab.xmu.edu.cn/blog/2307/踩坑:Spark分析文件rent_analyse.py改变Spark读取csv文件的写法sparkContext=SparkContext("local","rent_analyse")sqlContext=SQLCon
AI行业高压与人才健康：纪念Felix Hill，并探讨AI代码生成工具的价值前端
今天，我们怀着沉痛的心情悼念GoogleDeepMind研究科学家FelixHill，这位杰出的AI学者在41岁的年纪离开了我们。他的离世引发了我们对AI行业高压环境与人才健康问题的深刻反思。Felix生前曾公开表达AI行业前所未有的压力，这促使我们思考如何利用技术，例如AI代码生成器，来改善开发者的工作环境，提升效率，守护人才健康。FelixHill在自然语言处理和人工智能领域取得了令人瞩目的成
《CPython Internals》阅读笔记：p250-p284 python
《CPythonInternals》学习第14天，250-p284总结，总计25页。一、技术总结介于我觉得作者写得乱七八糟的，读完我已经不想说话了，所以今日无技术总结。二、英语总结(生词：2)1.spawn(1)spawn:来自于词根expandere。(2)expandere:ex-("out")+pandere("tospread")spawn原来的意思是“spreadingoutoffish
Python使用moviepy模块编辑视频时，有可能会出现“TypeError: ‘module‘ object is not callable”的错误提示 CodeWG python 开发语言
Python使用moviepy模块编辑视频时，有可能会出现“TypeError:‘module‘objectisnotcallable”的错误提示。这个错误提示表明在调用函数或方法时，试图调用一个不可被调用的对象。这个问题通常是由于导入moviepy模块时，模块本身并不是可以被调用的对象而导致的。要解决这个问题，我们需要检查代码中导入moviepy模块的语句是否有误。moviepy模块中最常用的类
使用PyCharm运行Python程序代码艺术巧匠 python pycharm java Python
使用PyCharm运行Python程序PyCharm是一种功能强大的Python集成开发环境（IDE），它提供了许多方便的功能来开发、调试和运行Python程序。在本文中，我将向您展示如何使用PyCharm来运行Python程序，并提供相应的源代码示例。步骤1：安装PyCharm首先，您需要从JetBrains官方网站下载并安装PyCharm。根据您的操作系统，选择适合您的版本。安装过程非常简单，
API接口在电商的应用及收益前端后端运维数据挖掘api
一、API接口在电商的核心应用场景（一）商品数据管理与展示在电商平台，商品信息的准确与实时更新极为关键。借助API接口，能轻松实现商品数据从供应商系统到电商平台的同步。例如，使用Python结合Requests库编写代码，从外部API获取商品数据：importrequestsurl="https://example.com/api/products"response=requests.get(ur
使用Scrapy抓取图片网站的图片：完整教程与实战案例 Python爬虫项目 2025年爬虫实战项目 scrapy 爬虫 python 音视频开发语言 selenium
引言在互联网时代，图片已经成为我们生活和工作中不可或缺的一部分。随着社交媒体、电子商务、新闻网站等平台的普及，图片的需求量和使用量不断增加。因此，如何高效、便捷地抓取网站上的图片，成为了许多数据工程师、爬虫开发者以及数据科学家需要解决的问题。Scrapy是Python中一个非常强大且广泛使用的爬虫框架。它不仅提供了强大的抓取能力，还能够轻松地处理大规模数据抓取和高效的数据存储。Scrapy适合处理
AI代码生成工具的未来：杨立昆的洞见与AI革命前端
近年来，人工智能（AI）领域取得了令人瞩目的进展，特别是以大型语言模型为代表的AI技术，在自然语言处理、图像生成等领域展现出强大的能力。然而，深度学习先驱杨立昆（YannLeCun）却对现有的AI系统提出了尖锐的批评，他认为目前的AI系统“理解能力远不如猫”，缺乏对真实世界的理解和常识。这引发了人们对AI未来发展方向的思考，也为我们探讨AI代码生成工具，以及AI技术对人类社会的影响提供了新的视角。
银河麒麟v10安装 python 3.12.5版本 sageparadise python 银河麒麟
1、官网下载python3.12.52、安装前检查opensslopensslversion#OpenSSL1.1.1f31Mar2020如果提示openssl1.1.1无需安装openssl,否则需要安装，下载openssltar-zxfopenssl-1.1.1s.tar.gzcdopenssl-1.1.1s/./config-fPIC--prefix=/usr/include/openssl
未来教育：AI知识库如何重塑学习体验知识管理知识库知识库软件
在科技日新月异的今天，教育领域正经历着前所未有的变革。人工智能（AI）技术的快速发展，特别是AI知识库的广泛应用，正在重塑我们的学习体验，使之变得更加高效、个性化和智能化。本文将深入探讨AI知识库如何影响未来教育，以及它如何为学习者提供前所未有的学习体验。一、AI知识库：教育领域的智能助手AI知识库，作为结合了人工智能技术的知识管理系统，不仅能够存储和处理海量信息，还能通过自然语言处理、机器学习等
当ABAP遇见普罗米修斯
Python中的class体内定义方法时，如果没有显式地包含self参数，有时候依然可以被调用。这是一个非常有趣的话题，因为它涉及到对Python中类与对象之间关系的更深理解。要理解为什么这种情况下方法依然能够被调用，我们需要逐步拆解Python类的构造方式以及方法绑定的原理。
ai照片放大python源码_AI新时代-大牛教你使用python+Opencv完成人脸解锁（附源码）... weixin_39639505 ai照片放大python源码
好吧，伙计们，我回来了。说我拖更不写文章的可以过来用你的小拳拳狠命地捶我胸口....那么今天我们来讲关于使用python+opencv+face++来实现人脸验证及人脸解锁。代码量同样不多，你可以将这些代码运用在其它一些智能领域，如智能家居，进门的时候判断你是谁，也可以加入机器学习判断来的人是客人还是熟人。在讲之前我们会先适当的拓扑一下关于人脸识别的知识点。OK废话少说下面开始正是话题。解锁原理：
如何用python爬取公众号文章_如何使用 Python 爬取微信公众号文章 weixin_39524574
我比较喜欢看公众号，有时遇到一个感兴趣的公众号时，都会感觉相逢恨晚，想一口气看完所有历史文章。但是微信的阅读体验挺不好的，看历史文章得一页页的往后翻，下一次再看时还得重复操作，很是麻烦。于是便想着能不能把某个公众号所有的文章都保存下来，这样就很方便自己阅读历史文章了。话不多说，下面我就介绍如何使用Python爬取微信公众号所有文章的。主要有以下步骤：1使用Fiddler抓取公众号接口数据2使用Py
做python少儿编程教程-超好玩的Python少儿编程 weixin_37988176
1.作者有14年的计算机培训经验，能抓住青少年的学习心理。2.超过180分钟的视频讲解，可下载也可扫码直接观看。《超好玩的Python少儿编程》是写给青少年读者的编程学习用书，主要通过游戏及作品的实例来讲解Python的编程方法，引导青少年在快乐中学习编程。通过游戏编程实例及有趣的作品，让青少年参与其中，培养他们独立分析问题和解决问题的能力，提高他们的探索精神，为今后进一步深入学习编程打好基础。《
python no module name _lzma,安装/编译pylzma（LZMA Python绑定）蓝精灵国王乄 python no module name _lzma
I'vealreadypostedthisquestionontheauthorswebsite,butIthoughtImightaskhereaswell.I'vebeentryingtoinstallpylzmawiththissetup:Windows7x64Python2.6.6x64theamd64compilercomingfromwindowsserver2003sdkcloned
寻找优质股票数据接口：市面上哪些数据接口值得信赖财云量化 python炒股自动化量化交易程序化交易股票数据接口数据准确性服务稳定性值得信赖股票量化接口股票API接口
炒股自动化：申请官方API接口，散户也可以python炒股自动化（0），申请券商API接口python炒股自动化（1），量化交易接口区别Python炒股自动化（2）：获取股票实时数据和历史数据Python炒股自动化（3）：分析取回的实时数据和历史数据Python炒股自动化（4）：通过接口向交易所发送订单Python炒股自动化（5）：通过接口查询订单，查询账户资产股票量化，Python炒股，CSDN
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end