ChenVast

【机器学习】使用朴素贝叶斯和其他文本分类器预测Reddit新闻情绪

了解如何预测Reddit开采的新闻标题的情绪

在我们之前的文章中，我们介绍了一些情绪分析的基础知识，我们收集并分类政治头条。现在，我们可以使用该数据来训练二元分类器，以预测标题是正还是负。

文章资源

笔记本： GitHub

库：熊猫，numpy，scikit-learn，matplotlib，seaborn，nltk，imblearn

简要介绍分类及我们面临的一些问题

第一个问题：不平衡的数据集

加载数据集

将标题转换为特征

准备训练

平衡数据

朴素贝叶斯

交叉验证

让我们绘制我们的结果

SCIKIT-LEARN中的其他分类算法

集合分类器

最后的话

帮助我们改进这篇文章和系列

简要介绍分类及我们面临的一些问题

分类是基于训练数据集识别新的，看不见的观察的类别的过程，其具有已知的类别。

在我们的例子中，我们的头条新闻是观察，正面/负面情绪是类别。这是一个二元分类问题 - 我们试图预测标题是正面还是负面。

第一个问题：不平衡的数据集

机器学习中最常见的问题之一是使用不平衡的数据集。正如我们将在下面看到的，我们有一个略微不平衡的数据集，其中负数多于正数。

与欺诈检测等问题相比，我们的数据集不是超级不平衡的。有时你会有数据集，其中正类只有训练数据的1％，其余为负数。

我们要小心解释不平衡数据的结果。使用我们的分类器生成分数时，您可能会达到高达90％的准确度，这通常被称为准确性悖论。

我们可能具有90％准确度的原因是由于我们的模型检查数据并决定始终预测为负，从而导致高精度。

有很多方法可以解决这个问题，例如::

收集更多数据：可以通过添加更多次要类示例来帮助平衡数据集。
更改指标：使用混淆矩阵，精确度，召回或F1分数（精确度和召回的组合）。
对数据进行过采样：从少数类中的示例中随机抽样属性以创建更多“假”数据。
惩罚模式：在模型上实施额外成本，以便在培训期间对少数群体类别进行分类错误。这些惩罚使模型偏向于少数群体。

在我们的数据集中，我们的正面例子比负面例子少，我们将探索不同的指标并利用称为SMOTE的过采样技术。

让我们建立一些基本的导入：

import math
import random
from collections import defaultdict
from pprint import pprint

# 防止将来/弃用警告显示在输出
import warnings
warnings.filterwarnings(action='ignore')

import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

# 设置绘图的全局样式
sns.set_style(style='white')
sns.set_context(context='notebook', font_scale=1.3, rc={'figure.figsize': (16,9)})

这些是整个笔记本中使用的基本导入，通常在每个数据科学项目中导入。当我们使用sklearn和其他库时，将会提出更具体的导入。

加载数据集

首先让我们加载我们在上一篇文章中创建的数据集：

df = pd.read_csv('reddit_headlines_labels.csv', encoding='utf-8')
df.head()

现在我们在数据框中有数据集，让我们删除中性（0）标题标签，这样我们就可以专注于只对正面或负面进行分类：

df = df[df.label != 0]
df.label.value_counts()

-1    758
 1    496
Name: label, dtype: int64

我们的数据框现在只包含正面和负面的例子，我们再次确认我们有更多的负面而不是正面。

让我们进入头条新闻的特色化。

将标题转换为特征

为了训练我们的分类器，我们需要将单词的标题转换为数字，因为算法只知道如何使用数字。

要进行这种转换，我们将使用CountVectorizersklearn。这是将单词转换为要素的非常简单的类。

与我们手动标记化和小写文本的上一个教程不同，CountVectorizer将为我们处理此步骤。我们需要做的只是将其作为头条新闻。

让我们使用一个小例子来展示如何将单词向量化为数字：

from sklearn.feature_extraction.text import CountVectorizer

s1 = "Senate panel moving ahead with Mueller bill despite McConnell opposition"
s2 = "Bill protecting Robert Mueller to get vote despite McConnell opposition"

vect = CountVectorizer(binary=True)
X = vect.fit_transform([s1, s2])

X.toarray()

array([[1, 1, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1],
       [0, 1, 1, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0]], dtype=int64)

我们在这里做的是关于类似主题的两个标题并将它们矢量化。

vect使用默认参数设置标记化和小写字。最重要的是，我们设置了binary=True这样我们得到的输出为0（该句子中不存在单词）或1（该句子中存在单词）。

vect根据它在你给出的所有文本中看到的所有单词构建词汇表，然后在当前句子中存在该单词时指定0或1。为了更清楚地看到这一点，让我们看一下映射到第一句的特征名称：

list(zip(X.toarray()[0], vect.get_feature_names()))

[(1, 'ahead'), (1, 'bill'), (1, 'despite'), (0, 'get'), (1, 'mcconnell'), (1, 'moving'), (1, 'mueller'), (1, 'opposition'), (1, 'panel'), (0, 'protecting'), (0, 'robert'), (1, 'senate'), (0, 'to'), (0, 'vote'), (1, 'with')]

这是第一句的矢量化映射。你可以看到有一个1映射到'前面'因为'前面'出现了s1。但是如果我们看一下s2：

list(zip(X.toarray()[1], vect.get_feature_names()))

[(0, 'ahead'), (1, 'bill'), (1, 'despite'), (1, 'get'), (1, 'mcconnell'), (0, 'moving'), (1, 'mueller'), (1, 'opposition'), (0, 'panel'), (1, 'protecting'), (1, 'robert'), (0, 'senate'), (1, 'to'), (1, 'vote'), (0, 'with')]

因为那个词没有出现在'前方'，所以有一个0 s2。但请注意，每行包含到目前为止看到的每个单词。

当我们将其扩展到数据集中的所有标题时，这个词汇量将会增长很多。像上面打印的那样的每个映射最终将成为矢量化器遇到的所有单词的长度。

现在让我们将矢量化器应用到我们的所有标题中：

vect = CountVectorizer(max_features=1000, binary=True)
X = vect.fit_transform(df.headline)

X.toarray()

array([[0, 0, 0, ..., 0, 1, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ...,
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]], dtype=int64)

请注意，矢量图默认情况下将所有内容存储在稀疏数组中，并使用X.toarray()向我们显示密集版本。稀疏数组的效率要高得多，因为每行中的大多数值都是0.换句话说，大多数标题只有十几个字，每行包含所见过的每个字，稀疏数组只存储非零值索引。

您还会注意到我们有一个新的关键字参数; max_features。这基本上是按频率排列的要考虑的单词数。所以1000值意味着我们只想看1000个最常见的单词作为特征。

现在我们知道矢量化是如何工作的，让我们在行动中使用它。

准备训练

在训练，甚至矢量化之前，让我们将数据分成训练和测试集。在对数据进行任何操作之前执行此操作非常重要，因此我们有一个新的测试集。

from sklearn.model_selection import train_test_split

X = df.headline
y = df.label

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

我们的测试尺寸为0.2或20％。这意味着，X_test和y_test包含我们的数据，我们保留对测试的20％。

现在让我们只在训练集上拟合矢量化器并执行矢量化。

重申一下，重要的是不要将矢量化器放在所有数据上，因为我们需要一个干净的测试集来评估性能。在一切上拟合矢量化器会导致数据泄漏，导致不可靠的结果，因为矢量化器不应该知道未来的数据。

我们可以适应矢量化器并X_train一步变换：

from sklearn.feature_extraction.text import CountVectorizer

vect = CountVectorizer(max_features=1000, binary=True)

X_train_vect = vect.fit_transform(X_train)

X_train_vect 现在转换为正确的格式以提供Naive Bayes模型，但我们首先考虑平衡数据。

平衡数据

似乎可能有比正面标题（hmm）更多的负面标题，因此我们有更多的负面标签而不是正面标签。

counts = df.label.value_counts()
print(counts)

print("\nPredicting only -1 = {:.2f}% accuracy".format(counts[-1] / sum(counts) * 100))

-1    758
 1    496
Name: label, dtype: int64

Predicting only -1 = 60.45% accuracy

我们可以从上面看到，我们的负数略多于正数，使得我们的数据集略有不平衡。

通过计算我们的模型是否仅选择预测-1，更大的类，我们将获得约60％的准确度。这意味着在我们的二元分类模型中，随机几率为50％，60％的准确度不会告诉我们太多。我们肯定希望看到精度和召回而不是准确性。

我们可以通过使用称为SMOTE 的过采样形式来平衡我们的数据。SMOTE着眼于小班，在我们的案例中肯定，并创建新的综合训练样例。了解更多关于该算法在这里。

注意：我们必须确保我们只对列车数据进行过采样，这样我们就不会将任何信息泄露给测试集。

让我们用imblearn库来执行SMOTE ：

from imblearn.over_sampling import SMOTE

sm = SMOTE()

X_train_res, y_train_res = sm.fit_sample(X_train_vect, y_train)

unique, counts = np.unique(y_train_res, return_counts=True)
print(list(zip(unique, counts)))

[(-1, 601), (1, 601)]

这些班级现在已经为火车组平衡了。我们可以继续训练朴素贝叶斯模型。

朴素贝叶斯

对于我们的第一个算法，我们将使用极其快速和多功能的朴素贝叶斯模型。

让我们从sklearn中实例化一个并将其与我们的训练数据相匹配：

from sklearn.naive_bayes import MultinomialNB

nb = MultinomialNB()

nb.fit(X_train_res, y_train_res)

nb.score(X_train_res, y_train_res)

0.9201331114808652

Naive Bayes已经成功完成了我们所有的训练数据，并准备进行预测。你会发现我们得分为92％。这是合适的分数，而不是实际的准确度分数。接下来您将看到我们需要使用我们的测试集来获得准确性的良好估计。

让我们对测试集进行矢量化，然后使用该测试集来预测每个测试标题是正面还是负面。由于我们避免任何数据泄漏，我们只是改造而不是改装。我们也不会使用SMOTE进行过采样。

X_test_vect = vect.transform(X_test)

y_pred = nb.predict(X_test_vect)

y_pred

array([-1, -1, -1, -1, -1, -1,  1,  1,  1,  1,  1, -1,  1, -1,  1,  1,  1,
        1, -1, -1,  1, -1, -1, -1, -1,  1,  1,  1, -1, -1,  1, -1,  1,  1,
       -1, -1,  1,  1,  1, -1,  1,  1,  1, -1,  1, -1,  1, -1,  1, -1,  1,
        1,  1,  1,  1, -1, -1,  1,  1, -1, -1, -1,  1,  1,  1,  1, -1, -1,
       -1, -1,  1, -1,  1, -1, -1, -1, -1,  1, -1,  1,  1, -1, -1, -1, -1,
       -1, -1, -1, -1, -1, -1,  1,  1, -1,  1,  1,  1, -1, -1, -1, -1,  1,
        1,  1,  1,  1, -1,  1,  1,  1, -1, -1,  1,  1, -1,  1, -1, -1,  1,
       -1, -1, -1, -1, -1,  1, -1,  1, -1,  1,  1, -1,  1,  1,  1, -1, -1,
       -1, -1,  1, -1, -1, -1,  1,  1,  1, -1, -1, -1, -1,  1, -1,  1, -1,
       -1,  1, -1,  1, -1, -1, -1, -1, -1,  1,  1,  1,  1,  1, -1,  1, -1,
        1, -1, -1, -1, -1,  1, -1,  1,  1,  1,  1, -1, -1, -1,  1, -1, -1,
       -1,  1, -1, -1, -1, -1, -1, -1, -1,  1,  1, -1,  1, -1, -1, -1,  1,
       -1,  1, -1, -1,  1, -1, -1,  1, -1, -1,  1, -1,  1, -1, -1, -1, -1,
       -1,  1,  1, -1,  1, -1, -1,  1,  1,  1, -1, -1,  1, -1,  1,  1, -1,
       -1, -1,  1, -1,  1,  1,  1, -1,  1, -1,  1, -1, -1], dtype=int64)

y_pred现在包含测试集的每一行的预测。使用此预测结果，我们可以将其传递给具有真实标签的sklearn指标，以获得准确度分数，F1分数，并生成混淆矩阵：

from sklearn.metrics import accuracy_score, f1_score, confusion_matrix

print("Accuracy: {:.2f}%".format(accuracy_score(y_test, y_pred) * 100))
print("\nF1 Score: {:.2f}".format(f1_score(y_test, y_pred) * 100))
print("\nCOnfusion Matrix:\n", confusion_matrix(y_test, y_pred))

Accuracy: 74.50%

F1 Score: 68.93

COnfusion Matrix:
 [[116  41]
 [ 23  71]]

我们可以看到我们的模型已经以75％的准确度预测了标题的情绪，但是看看混淆矩阵，我们可以看到它没有做出那么好的工作分类。

对于混淆矩阵的细分，我们有：

116预测为负（-1），为负（-1）。真正的否定。
71预测为阳性（+1），为阳性（+1）。真实的。
23预测为负（-1），但为正（+1）。假阴性。
41预测为阳性（+1），但为阴性（-1）。误报。

所以我们的分类器正在得到很多负面因素，但是有大量的错误预测。我们将看看我们是否可以使用下面的其他分类器来改进这些指标。

交叉验证

现在让我们使用交叉验证，我们在不同位置对相同数据生成10次不同的训练和测试集。

现在，我们建立了通常80％的数据作为培训，20％作为测试。单个测试集上的预测准确性并没有说明泛化。为了更好地了解我们的分类器的泛化能力，我们可以使用两种不同的技术：

1）K折交叉验证：将这些例子随机分成kk等大小的子集（通常为10）。在kk子集中，单个子样本用于测试模型，剩余的k-1k-1子集用作训练数据。然后将交叉验证技术重复kk次，从而产生这样的过程，其中每个子集仅使用一次作为测试集的一部分。最后，计算kk运行的平均值。这种方法的优点是每个例子都用于训练和测试集。

2）蒙特卡罗交叉验证：随机将数据集拆分为训练和测试数据，运行模型，然后对结果取平均值。该方法的优点是列车/测试分裂的比例不依赖于迭代次数，这对于非常大的数据集是有用的。另一方面，如果您没有经历足够的迭代，则此方法的缺点是可能永远不会在测试子集中选择某些示例，而其他示例可能被选择多次。

有关这两种方法之间差异的更好解释，请查看以下答案：https：//stats.stackexchange.com/a/60967

来自sklearn图书馆的相关课程是ShuffleSplit。这首先执行shuffle，然后将数据拆分为train / test。由于它是一个迭代器，它将执行随机shuffle并为每次迭代分割。这是上面提到的蒙特卡罗方法的一个例子。

通常情况下，我们可以使用sklearn.model_selection.cross_val_score自动计算每个折叠的分数，但我们将展示手动分割ShuffleSplit。

此外，如果你熟悉cross_val_score你，你会注意到它的ShuffleSplit工作方式不同。所述n_splits参数ShuffleSplit是时间随机化数据的数量，然后把它分解80/20，而cv在参数cross_val_score是折叠的数量。通过使用n_splits较大的数据集，我们可以很好地逼近较大数据集的真实性能，但绘制起来更难。

from sklearn.model_selection import ShuffleSplit

X = df.headline
y = df.label

ss = ShuffleSplit(n_splits=10, test_size=0.2)
sm = SMOTE()

accs = []
f1s = []
cms = []

for train_index, test_index in ss.split(X):
    
    X_train, X_test = X.iloc[train_index], X.iloc[test_index]
    y_train, y_test = y.iloc[train_index], y.iloc[test_index]
    
    # Fit vectorizer and transform X train, then transform X test
    X_train_vect = vect.fit_transform(X_train)
    X_test_vect = vect.transform(X_test)
    
    # Oversample
    X_train_res, y_train_res = sm.fit_sample(X_train_vect, y_train)
    
    # Fit Naive Bayes on the vectorized X with y train labels, 
    # then predict new y labels using X test
    nb.fit(X_train_res, y_train_res)
    y_pred = nb.predict(X_test_vect)
    
    # Determine test set accuracy and f1 score on this fold using the true y labels and predicted y labels
    accs.append(accuracy_score(y_test, y_pred))
    f1s.append(f1_score(y_test, y_pred))
    cms.append(confusion_matrix(y_test, y_pred))
    
print("\nAverage accuracy across folds: {:.2f}%".format(sum(accs) / len(accs) * 100))
print("\nAverage F1 score across folds: {:.2f}%".format(sum(f1s) / len(f1s) * 100))
print("\nAverage Confusion Matrix across folds: \n {}".format(sum(cms) / len(cms)))

Average accuracy across folds: 72.95%

Average F1 score across folds: 66.43%

Average Confusion Matrix across folds: 
 [[115.6  39. ]
 [ 28.9  67.5]]

看起来平均准确度和F1分数都与我们在上面的单个折叠上看到的相似。

让我们绘制我们的结果

fig, (ax1, ax2) = plt.subplots(2, 1, sharex=True, figsize=(16,9))

acc_scores = [round(a * 100, 1) for a in accs]
f1_scores = [round(f * 100, 2) for f in f1s]

x1 = np.arange(len(acc_scores))
x2 = np.arange(len(f1_scores))

ax1.bar(x1, acc_scores)
ax2.bar(x2, f1_scores, color='#559ebf')

# Place values on top of bars
for i, v in enumerate(list(zip(acc_scores, f1_scores))):
    ax1.text(i - 0.25, v[0] + 2, str(v[0]) + '%')
    ax2.text(i - 0.25, v[1] + 2, str(v[1]))

ax1.set_ylabel('Accuracy (%)')
ax1.set_title('Naive Bayes')
ax1.set_ylim([0, 100])

ax2.set_ylabel('F1 Score')
ax2.set_xlabel('Runs')
ax2.set_ylim([0, 100])

sns.despine(bottom=True, left=True)  # Remove the ticks on axes for cleaner presentation

plt.show()

在一些运行之间，F1得分波动超过15个点，这可以用更大的数据集来补救。让我们看看其他算法是如何做的。

SCIKIT-LEARN中的其他分类算法

正如你所看到的Naive Bayes表现得相当不错，所以让我们试试其他分类器吧。

我们将使用与之前相同的shuffle分割，但现在我们将在每个循环中运行几种类型的模型：

from sklearn.naive_bayes import BernoulliNB
from sklearn.linear_model import LogisticRegression, SGDClassifier
from sklearn.svm import LinearSVC
from sklearn.ensemble import RandomForestClassifier
from sklearn.neural_network import MLPClassifier

X = df.headline
y = df.label

cv = ShuffleSplit(n_splits=20, test_size=0.2)

models = [
    MultinomialNB(),
    BernoulliNB(),
    LogisticRegression(),
    SGDClassifier(),
    LinearSVC(),
    RandomForestClassifier(),
    MLPClassifier()
]

sm = SMOTE()

# Init a dictionary for storing results of each run for each model
results = {
    model.__class__.__name__: {
        'accuracy': [], 
        'f1_score': [],
        'confusion_matrix': []
    } for model in models
}

for train_index, test_index in cv.split(X):
    X_train, X_test  = X.iloc[train_index], X.iloc[test_index]
    y_train, y_test = y.iloc[train_index], y.iloc[test_index]
    
    X_train_vect = vect.fit_transform(X_train)    
    X_test_vect = vect.transform(X_test)
    
    X_train_res, y_train_res = sm.fit_sample(X_train_vect, y_train)
    
    for model in models:
        model.fit(X_train_res, y_train_res)
        y_pred = model.predict(X_test_vect)
        
        acc = accuracy_score(y_test, y_pred)
        f1 = f1_score(y_test, y_pred)
        cm = confusion_matrix(y_test, y_pred)
        
        results[model.__class__.__name__]['accuracy'].append(acc)
        results[model.__class__.__name__]['f1_score'].append(f1)
        results[model.__class__.__name__]['confusion_matrix'].append(cm)

我们现在为每个模型存储了一堆准确度分数，f1分数和混淆矩阵。让我们一起平均这些以获得模型和折叠的平均分数：

for model, d in results.items():
    avg_acc = sum(d['accuracy']) / len(d['accuracy']) * 100
    avg_f1 = sum(d['f1_score']) / len(d['f1_score']) * 100
    avg_cm = sum(d['confusion_matrix']) / len(d['confusion_matrix'])
    
    slashes = '-' * 30
    
    s = f"""{model}\n{slashes}
        Avg. Accuracy: {avg_acc:.2f}%
        Avg. F1 Score: {avg_f1:.2f}
        Avg. Confusion Matrix: 
        \n{avg_cm}
        """
    print(s)

MultinomialNB
------------------------------
        Avg. Accuracy: 74.70%
        Avg. F1 Score: 69.63
        Avg. Confusion Matrix: 
        
[[114.05  36.4 ]
 [ 27.1   73.45]]
        
BernoulliNB
------------------------------
        Avg. Accuracy: 75.32%
        Avg. F1 Score: 67.96
        Avg. Confusion Matrix: 
        
[[122.75  27.7 ]
 [ 34.25  66.3 ]]
        
LogisticRegression
------------------------------
        Avg. Accuracy: 74.80%
        Avg. F1 Score: 68.31
        Avg. Confusion Matrix: 
        
[[119.2   31.25]
 [ 32.    68.55]]
        
SGDClassifier
------------------------------
        Avg. Accuracy: 71.75%
        Avg. F1 Score: 65.31
        Avg. Confusion Matrix: 
        
[[112.6   37.85]
 [ 33.05  67.5 ]]
        
LinearSVC
------------------------------
        Avg. Accuracy: 73.01%
        Avg. F1 Score: 66.61
        Avg. Confusion Matrix: 
        
[[115.55  34.9 ]
 [ 32.85  67.7 ]]
        
RandomForestClassifier
------------------------------
        Avg. Accuracy: 69.64%
        Avg. F1 Score: 52.74
        Avg. Confusion Matrix: 
        
[[132.    18.45]
 [ 57.75  42.8 ]]
        
MLPClassifier
------------------------------
        Avg. Accuracy: 74.14%
        Avg. F1 Score: 67.43
        Avg. Confusion Matrix: 
        
[[118.75  31.7 ]
 [ 33.2   67.35]]

我们得到了一些相当不错的结果，但总的来说，我们需要更多的数据来确定哪一个表现最好。

由于我们仅在大约300个示例的测试集大小上运行度量标准，因此精度的0.5％差异意味着只有大约2个示例与其他模型正确分类。如果我们的测试集合为10,000，那么准确度的0.5％差异将等于50个正确分类的标题，这更令人放心。

随机森林和多项式朴素贝叶斯之间的区别非常明显，但多项式和伯努利朴素贝叶斯之间的区别并非如此。为了进一步比较这两者，我们需要更多数据。

让我们看看合奏是否可以带来更好的效果。

集合分类器

在我们单独评估每个分类器之后，让我们看看集成是否有助于改进我们的指标。

我们将使用VotingClassifier默认为多数规则投票的sklearn 。

from sklearn.ensemble import VotingClassifier

X = df.headline
y = df.label

cv = ShuffleSplit(n_splits=10, test_size=0.2)

models = [
    MultinomialNB(),
    BernoulliNB(),
    LogisticRegression(),
    SGDClassifier(),
    LinearSVC(),
    RandomForestClassifier(),
    MLPClassifier()
]

m_names = [m.__class__.__name__ for m in models]

models = list(zip(m_names, models))
vc = VotingClassifier(estimators=models)

sm = SMOTE()

# No need for dictionary now
accs = []
f1s = []
cms = []

for train_index, test_index in cv.split(X):
    X_train, X_test  = X.iloc[train_index], X.iloc[test_index]
    y_train, y_test = y.iloc[train_index], y.iloc[test_index]
    
    X_train_vect = vect.fit_transform(X_train)    
    X_test_vect = vect.transform(X_test)
    
    X_train_res, y_train_res = sm.fit_sample(X_train_vect, y_train)
    
    vc.fit(X_train_res, y_train_res)
    
    y_pred = vc.predict(X_test_vect)
    
    accs.append(accuracy_score(y_test, y_pred))
    f1s.append(f1_score(y_test, y_pred))
    cms.append(confusion_matrix(y_test, y_pred))

print("Voting Classifier")
print("-" * 30)
print("Avg. Accuracy: {:.2f}%".format(sum(accs) / len(accs) * 100))
print("Avg. F1 Score: {:.2f}".format(sum(f1s) / len(f1s) * 100))
print("Confusion Matrix:\n", sum(cms) / len(cms))

Voting Classifier
------------------------------
Avg. Accuracy: 75.78%
Avg. F1 Score: 68.51
Confusion Matrix:
 [[123.7  28.7]
 [ 32.1  66.5]]

尽管我们的大多数分类器都表现出色，但它与我们从Multinomial Naive Bayes得到的结果没有多大差别，这可能是令人惊讶的。肯定将一堆混合在一起会产生更好的结果，但这种性能差异的缺乏证明仍有许多领域需要探索。例如：

更多数据如何影响性能（由于我们的小数据集，最佳起点）
网格搜索每个模型的不同参数
通过查看模型相关性来调试集合
尝试不同风格的装袋，提升和堆叠

最后的话

到目前为止我们已经

来自Reddit / r / politics的挖掘数据
获得头条新闻的情绪评分
矢量化数据
通过几种类型的模型运行数据
合奏模型在一起

不幸的是，没有明显的获胜模式。有一对我们已经看到它肯定表现不佳，但有一些徘徊在相同的准确性。此外，混淆矩阵显示大约一半的正面标题被错误分类，因此还有很多工作要做。

既然您已经了解了这个管道的工作原理，那么代码和建模的架构还有很大的改进空间。我鼓励您在提供的笔记本中尝试所有这些。看看你可以利用什么其他的subreddits情绪，如股票，公司，产品等..有很多有价值的数据！

帮助我们改进这篇文章和系列

如果您对将本文和系列文章扩展到某些探索领域感兴趣，请在下面发表评论，我们会将其添加到内容管道中。

谢谢阅读！

原文：

https://www.learndatasci.com/tutorials/predicting-reddit-news-sentiment-naive-bayes-text-classifiers/

你可能感兴趣的:(机器学习,朴素贝叶斯,文本分类器,预测情绪,Machine,Learning,机器学习算法理论与实战)

PySpark实现获取S3上Parquet文件的数据结构，并自动在Snowflake里建表和生成对应的建表和导入数据的SQL weixin_30777913 python aws sql spark
PySpark实现S3上解析存储Parquet文件的多个路径，获取其中的数据Schema，再根据这些Schema，参考以下文本，得到创建S3路径Stage的SQL语句和上传数据到Snowflake数据库的SQL语句，同样的Stage路径只需创建一个Stage对象即可，并在S3上保存为SQL，并在Snowflake里创建对应的表，并在S3上存储创建表的SQL语句。要将存储在S3上的Parquet文件
PyTorch 中结合迁移学习和强化学习的完整实现方案小赖同学啊人工智能 pytorch 迁移学习人工智能
结合迁移学习（TransferLearning）和强化学习（ReinforcementLearning,RL）是解决复杂任务的有效方法。迁移学习可以利用预训练模型的知识加速训练，而强化学习则通过与环境的交互优化策略。以下是如何在PyTorch中结合迁移学习和强化学习的完整实现方案。1.场景描述假设我们有一个任务：训练一个机器人手臂抓取物体。我们可以利用迁移学习从一个预训练的视觉模型（如ResNet
大模型在高血压预测及围手术期管理中的应用研究报告 LCG元围术期危险因子预测模型研究人工智能算法机器学习
目录一、引言1.1研究背景与意义1.2研究目的1.3国内外研究现状二、大模型预测高血压的原理与方法2.1常用大模型介绍2.2数据收集与预处理2.3模型训练与验证三、术前风险预测与手术方案制定3.1术前风险因素分析3.2大模型预测术前风险的方法与结果3.3基于预测结果的手术方案制定四、术中风险预测与麻醉方案制定4.1术中风险因素分析4.2大模型实时监测与风险预测4.3基于预测结果的麻醉方案制定五、术
一文讲清楚自我学习和深度学习平凡而伟大(心之所向) 人工智能人工智能深度学习机器学习
自我学习（Self-Learning）和深度学习（DeepLearning）是两个不同的概念，但它们在某些应用场景中可以有交集。下面我们将分别介绍这两个概念，并探讨如何将它们结合起来用于自我学习系统。自我学习（Self-Learning）自我学习是指个体或系统通过自主探索、实践和反思来获取知识和技能的过程。它强调的是无需外部直接指导的学习方式，通常包括以下几个方面：自主性：学习者根据自己的兴趣、需
Linux Sed实战指南：从入门到精通 ivwdcwso 运维 linux 运维服务器
一、Sed核心概念与优势Sed（StreamEditor）是一种非交互式的流式文本编辑器，通过逐行处理实现自动化文本操作。其核心优势包括：无需打开文件：直接通过命令行操作文本流，适用于脚本自动化高效处理大文件：仅将当前处理行加载到内存，资源消耗低支持正则表达式：实现复杂模式匹配与替换原地编辑能力：通过-i选项直接修改源文件©ivwdcwso(ID:u012172506)二、Sed基础操作大全1.文
js基础二才不是小emo的小杨前端爬虫 javascript 前端 html
JavaScript基础下1事件处理JS事件（event）是当用户与网页进行交互时发生的事情，例如单机某个链接或按钮、在文本框中输入文本、按下键盘上的某个按键、移动鼠标等等。当事件发生时，您可以使用JavaScript中的事件处理程序（也可称为事件监听器）来检测并执行某些特定的程序。一般情况下事件的名称都是以单词on开头的，例如点击事件onclick、页面加载事件onload等。下表中列举了一些J
【量子退火（Quantum Annealing, QA）在Machine Learning Classification中的应用】搞技术的妹子机器学习量子计算人工智能
随着量子计算技术的发展，**量子退火（QuantumAnnealing,QA）成为了优化问题中一种潜力巨大的方法。它不仅可以用于求解传统优化问题，还被逐渐应用于机器学习领域，特别是机器学习分类（MachineLearningClassification）**任务中。在这篇博客中，我们将探讨量子退火在机器学习分类中的应用，并通过一个实际的案例来展示如何使用量子退火优化分类模型。什么是量子退火（Qua
二维随机变量 Shockang 机器学习数学通关指南机器学习人工智能数学概率论
前言本文隶属于专栏《机器学习数学通关指南》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见《机器学习数学通关指南》正文1.二维随机变量基础1.1基本定义二维随机变量(X,Y)(X,Y)(X,Y)是由两个定义在同一概率空间上的随机变量XXX和YYY组成的向量样本空间：每个试验结果e∈Se\inSe∈S对应到平面上的一个点(X(e),Y(e))(
似然函数与极大似然估计 Shockang 机器学习数学通关指南机器学习人工智能数学概率论
前言本文隶属于专栏《机器学习数学通关指南》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见《机器学习数学通关指南》正文1.似然函数：直观理解与数学定义核心概念似然函数是机器学习中参数估计的基石，它从数据与模型之间的关系出发，提供了一种优化参数的数学框架。直观理解：假设你正在调整相机参数以拍摄最清晰的照片。似然函数就像是一个"清晰度指标"，告诉
正交投影与内积空间：机器学习的几何基础 Shockang 机器学习数学通关指南机器学习人工智能线性代数数学
前言本文隶属于专栏《机器学习数学通关指南》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见《机器学习数学通关指南》正文1.内积空间的数学定义1.1代数定义✏️两个维度相同的向量a=[a1,…,an]\mathbf{a}=[a_1,\dots,a_n]a=[a1,…,an]和b=[b1,…,bn]\mathbf{b}=[b_1,\dots,b_
特征值与特征向量 Shockang 机器学习数学通关指南机器学习线性代数矩阵数学
前言本文隶属于专栏《机器学习数学通关指南》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见《机器学习数学通关指南》正文一、定义与数学表达特征向量：对于方阵AAA，若存在非零向量v\mathbf{v}v满足Av=λvA\mathbf{v}=\lambda\mathbf{v}Av=λv，则v\mathbf{v}v称为AAA的特征向量。特征值：对应
mac idea配置了八百次maven都不成功，mac source不生效 source ~/.bash_profile Alisa_wu666 idea maven source maven
终端输入open~/.bash_profile，检查内容：exportPATH=/usr/bin:/usr/sbin:/bin:/sbinexportJAVA_HOME=/Library/Java/JavaVirtualMachines/jdk1.8.0_181.jdk/Contents/HomeexportM2_HOME=/Users/nanwu/mooc/apache-maven-3.5.3e
LLM OS 系统架构详细设计 AI天才研究院 AI大模型企业级应用开发实战系统架构
LLMOS系统架构详细设计1.背景介绍近年来，大型语言模型（LargeLanguageModel,LLM）取得了飞速发展，在自然语言处理、对话系统、文本生成等领域展现出卓越的性能。然而，现有的LLM系统架构仍然存在诸多局限性，例如可扩展性不足、资源利用率低下、缺乏灵活的应用开发支持等。为了充分发挥LLM的潜力，迫切需要一个高效、灵活、易用的LLM操作系统（OperatingSystem,OS）。本
mac系统下安装pycharm 连小黑 python pycharm macos python
mac系统下安装pycharm前言Windows系统安装教程传送门链接:https://blog.csdn.net/lianxiaohei/article/details/121694126随着人工智能的不断发展，机器学习这门技术也越来越重要，也有很多人都因为做自动化，爬虫会学python，今天写的是pycharm编译器，在mac上如何安装,废话不多说，上步骤一、第一步下载示例：下载安装软件的第一
【机器学习】Reinforcement Learning-强化学习基本概念长相忆兮长相忆深度学习人工智能算法机器学习
1、Q值与V值1.1Q值和V值的定义Q值：也称为动作价值函数，评估动作的价值，它代表了智能体选择这个动作后，一直到最终状态奖励总和的期望，表示为Q(s,a)，其中s是状态，a是动作。V值：评估状态的价值，也称为状态价值函数，表示为V(s)，其中s是状态。它代表了智能体在这个状态下，一直到最终状态的奖励总和的期望。V值与动作无关只与状态有关。Q值和V值的概念是一致的，都是衡量在马可洛夫树上某一个节点
面向对象的前端开发_20多种面向前端开发人员的文档和指南（第11号） culi3118 编程语言 java javascript python html ViewUI
面向对象的前端开发It’sthattimeagaintogetlearning!Asbefore,I’vecollectedanumberofdifferentlearningresources,includingguides,docs,andotherusefulwebsitestohelpyougetuptospeedindifferentareasoffront-enddevelopment
【pyOCR】星星向前看 python
pyOCR是什么pyOCR，全称PythonOpticalCharacterRecognition，是一个Python库，用于文本识别。它集成了多个OCR（光学字符识别）引擎，包括Tesseract、OCRopus等，让开发者能够方便地进行文本识别操作。pyOCR支持多种格式的文档，如PDF、JPEG、PNG等，并能够识别多种语言的文本。使用pyOCR，开发者可以轻松地将图片中的文字转换为机器可处
机器学习笔记 - 监督学习备忘清单坐望云起深度学习从入门到精通监督学习线性模型支持向量机生成学习集成方法
一、监督学习简介给定一组数据点关联到一组结果，我们想要构建一个分类器，学习如何从预测。1、预测类型下表总结了不同类型的预测模型：2、模型类型下表总结了不同的模型：
DeepSeek 提示词技巧深度解析：从原理到实践悠悠空谷1615 经验分享深度学习语言模型
深度掌握AI交互：DeepSeek提示词技巧全解析突破认知：重新理解AI对话的本质在与DeepSeek等大语言模型交互时，我们需要建立全新的对话范式。不同于人类对话的模糊性与容错性，AI对话遵循"输入决定输出"的确定性原则。统计数据显示，经过专业提示词训练的用户，其获取有效答案的成功率可提升300%以上。要实现这种质的飞跃，需要掌握以下核心认知：1.信息解码机制：AI通过token化处理理解文本，
C++对象序列化库推荐：轻松实现数据持久化到文本文件 C语言小火车 C语言编程入门 c++java 开发语言
在C++开发中，将对象持久化保存到文本文件是常见需求。本文精选了4个高效、易用的序列化库，涵盖不同场景下的文本序列化方案，助你快速实现数据存储与传输。一、Cereal（推荐指数：⭐⭐⭐⭐⭐）核心特性多格式支持：原生支持JSON、XML和二进制格式，其中JSON/XML可直接保存为可读文本文件非侵入式设计：通过添加serialize模板函数实现序列化，无需修改现有类定义轻量级：纯头文件库，无需编译即
30段极简Python代码：这些小技巧你都Get了么 Python 学习者 Python
学Python怎样才最快，当然是实战各种小项目，只有自己去想与写，才记得住规则。本文是30个极简任务，初学者可以尝试着自己实现；本文同样也是30段代码，Python开发者也可以看看是不是有没想到的用法。Python是机器学习最广泛采用的编程语言，它最重要的优势在于编程的易用性。如果读者对基本的Python语法已经有一些了解，那么这篇文章可能会给你一些启发。作者简单概览了30段代码，它们都是平常非常
Linux: ASoC 声卡硬件参数的设置过程简析 JiMoKuangXiangQu #声音 &图像 Linux ASoC 声卡硬件参数
文章目录1.前言2.ASoC声卡设备硬件参数2.1将DAI、Machine平台的硬件参数添加到声卡2.2打开PCM流时将声卡硬件参数配置到PCM流2.3应用程序对PCM流参数进行修改调整1.前言限于作者能力水平，本文可能存在谬误，因此而给读者带来的损失，作者不做任何承诺。2.ASoC声卡设备硬件参数ASoC(ALSASystem-on-Chip)声卡驱动框架如下图所示：整个声卡驱动由CPUDAI驱
Python 正则表达式偶尔也有风_ python 正则表达式
正则表达式正则表达式（RegularExpression，简称正则或RegExp）是一种强大的文本模式匹配工具，被广泛应用于字符串的搜索、替换、验证等场景。Python的re库为正则表达式提供了丰富的支持，使得开发者能够在处理文本数据时更加高效和灵活。本文将深入探讨Python中的re库，包括基本语法、常见用法、高级技巧以及一些最佳实践，旨在帮助读者更全面地理解和运用正则表达式。什么是正则表达式？
Qt之QStateMachine等待南瓜大师-阿亮 qt 开发语言
在项目中经常需要等待，我们模拟0-30的数，假如我们其中5，25的数需要进行等待，等待用户处理完自己事情后，按下按钮继续，找Qt的项目中有一个QStateMachineqstatemmachine类提供了一个分层有限状态机。QStateMachine基于Statecharts的概念和符号。qstatemmachine是状态机框架的一部分。状态机管理一组状态（从QAbstractState继承的类）
python 正则表达式李昊哲小课大数据人工智能 python python 正则表达式数据分析人工智能大数据
#coding:utf-8importre常用函数代码3-1使用match函数匹配文本match函数，从字符串‌起始位置‌匹配正则表达式，返回Match对象（匹配失败返回None）。text1='自然语言处理是研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。'print('匹配的结果是：',re.match(r'自然语言处理
爬虫和词云一缕白烟爬虫 python numpy
目录爬虫词云1.1.引入库1.2.设置文件路径2.文本处理2.1读取文本2.2分词和过滤2.3统计词频:3.1默认颜色爬虫对于爬虫顾名思义就是爬的虫子，而对于网络上的爬虫的作用是爬取网页上的信息并且把它保存在用户的电脑中我的爬虫是由python来实现的对于python来说原始的库并不能满足对于爬虫的实现还需要添加一些额外的包比如BeautifulSoup包以及re正则包urllib包下边是添加的包
JavaWeb——HTML Clrove.11 JavaWeb html 前端
一、什么是HTMLHTML(HyperTextMarkupLanguage)：超文本标记语言超文本：超越了文本的限制，比普通文本更强大。除了文字信息还可以定义图片，音频，视频等。标记语言：由标签构成的语言HTML语言都是预定义好的。例如：使用展示超链接，使用展示图片，展示视频。HTML代码直接在浏览器中运行，HTML标签由浏览器解析。二、HTML基础语法HTML基本结构标题填写内容HTML标签不区
Vue.js表单输入绑定孤客网络科技工作室 vue.js vue.js 前端 javascript
表单输入绑定在前端处理表单时，我们常常需要将表单输入框的内容同步给JavaScript中相应的变量。手动连接值绑定和更改事件监听器可能会很麻烦：templatetext=event.target.value">v-model指令帮我们简化了这一步骤：template另外，v-model还可以用于各种不同类型的输入，、元素。它会根据所使用的元素自动使用对应的DOM属性和事件组合：文本类型的和元素会绑
MLM: 掩码语言模型的预训练任务 XianxinMao 语言模型人工智能自然语言处理
MLM:掩码语言模型的预训练任务掩码语言模型（MaskedLanguageModel,MLM）是一种用于训练语言模型的预训练任务，其核心目标是帮助模型理解和预测语言中的上下文关系。以下是对这一概念的详细说明：基本定义：MLM是一种通过将输入文本中的部分词语随机掩盖（即用掩码标记替代），让模型在观察到其他未掩盖词语的情况下，预测这些被掩盖词的任务。任务流程：首先，将一段文本输入到模型中。该文本的一部
Linux stdin、stdout和stderr详解 linux
一、标准流介绍在计算机编程中，标准流是计算机程序开始执行时与其环境之间预连接的输入和输出通信通道。这三种输入/输出(I/O)连接称为标准输入(stdin)、标准输出(stdout)和标准错误(stderr)。最初I/O是通过物理连接的系统控制台(通过键盘输入，通过监视器输出)发生的，但是标准流抽象了这一点。当通过交互式shell执行命令时，流通常连接到shell运行的文本终端，但可以通过重定向或管
解线性方程组 qiuwanchi
package gaodai.matrix; import java.util.ArrayList; import java.util.List; import java.util.Scanner; public class Test { public static void main(String[] args) { Scanner scanner = new Sc
在mysql内部存储代码 annan211 性能 mysql 存储过程触发器
在mysql内部存储代码在mysql内部存储代码，既有优点也有缺点，而且有人倡导有人反对。先看优点： 1 她在服务器内部执行，离数据最近，另外在服务器上执行还可以节省带宽和网络延迟。 2 这是一种代码重用。可以方便的统一业务规则，保证某些行为的一致性，所以也可以提供一定的安全性。 3 可以简化代码的维护和版本更新。 4 可以帮助提升安全，比如提供更细
Android使用Asynchronous Http Client完成登录保存cookie的问题 hotsunshine android
Asynchronous Http Client是android中非常好的异步请求工具除了异步之外还有很多封装比如json的处理，cookie的处理引用 Persistent Cookie Storage with PersistentCookieStore This library also includes a PersistentCookieStore whi
java面试题 Array_06 java 面试
java面试题第一，谈谈final, finally, finalize的区别。 final-修饰符（关键字）如果一个类被声明为final，意味着它不能再派生出新的子类，不能作为父类被继承。因此一个类不能既被声明为 abstract的，又被声明为final的。将变量或方法声明为final，可以保证它们在使用中不被改变。被声明为final的变量必须在声明时给定初值，而在以后的引用中只能
网站加速 oloz 网站加速
前序:本人菜鸟，此文研究总结来源于互联网上的资料，大牛请勿喷！本人虚心学习，多指教. 1、减小网页体积的大小，尽量采用div+css模式，尽量避免复杂的页面结构，能简约就简约。 2、采用Gzip对网页进行压缩； GZIP最早由Jean-loup Gailly和Mark Adler创建，用于UNⅨ系统的文件压缩。我们在Linux中经常会用到后缀为.gz
正确书写单例模式随意而生 java 设计模式单例
　　单例模式算是设计模式中最容易理解，也是最容易手写代码的模式了吧。但是其中的坑却不少，所以也常作为面试题来考。本文主要对几种单例写法的整理，并分析其优缺点。很多都是一些老生常谈的问题，但如果你不知道如何创建一个线程安全的单例，不知道什么是双检锁，那这篇文章可能会帮助到你。　　懒汉式，线程不安全　　当被问到要实现一个单例模式时，很多人的第一反应是写出如下的代码，包括教科书上也是这样
单例模式香水浓 java
懒汉调用getInstance方法时实例化 public class Singleton { private static Singleton instance; private Singleton() {} public static synchronized Singleton getInstance() { if(null == ins
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" AdyZhang apache http server
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" 每次到这一步都很小心防它的端口冲突问题，结果，特意留出来的80端口就是不能用，烦。解决方法确保几处： 1、停止IIS启动 2、把端口80改成其它（譬如90，800，，，什么数字都好） 3、防火墙(关掉试试) 在运行处输入 cmd 回车，转到apa
如何在android 文件选择器中选择多个图片或者视频？ aijuans android
我的android app有这样的需求，在进行照片和视频上传的时候，需要一次性的从照片/视频库选择多条进行上传但是android原生态的sdk中，只能一个一个的进行选择和上传。我想知道是否有其他的android上传库可以解决这个问题，提供一个多选的功能，可以使checkbox之类的，一次选择多个处理方法官方的图片选择器(但是不支持所有版本的androi，只支持API Level
mysql中查询生日提醒的日期相关的sql baalwolf mysql
SELECT sysid,user_name,birthday,listid,userhead_50,CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')),CURDATE(), dayofyear( CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')))-dayofyear(
MongoDB索引文件破坏后导致查询错误的问题 BigBird2012 mongodb
问题描述： MongoDB在非正常情况下关闭时，可能会导致索引文件破坏，造成数据在更新时没有反映到索引上。解决方案：使用脚本，重建MongoDB所有表的索引。 var names = db.getCollectionNames(); for( var i in names ){ var name = names[i]; print(name);
Javascript Promise bijian1013 JavaScript Promise
Parse JavaScript SDK现在提供了支持大多数异步方法的兼容jquery的Promises模式，那么这意味着什么呢，读完下文你就了解了。一.认识Promises “Promises”代表着在javascript程序里下一个伟大的范式，但是理解他们为什么如此伟大不是件简
[Zookeeper学习笔记九]Zookeeper源代码分析之Zookeeper构造过程 bit1129 zookeeper
Zookeeper重载了几个构造函数，其中构造者可以提供参数最多，可定制性最多的构造函数是 public ZooKeeper(String connectString, int sessionTimeout, Watcher watcher, long sessionId, byte[] sessionPasswd, boolea
【Java命令三】jstack bit1129 jstack
jstack是用于获得当前运行的Java程序所有的线程的运行情况(thread dump），不同于jmap用于获得memory dump [hadoop@hadoop sbin]$ jstack Usage: jstack [-l] <pid> (to connect to running process) jstack -F
jboss 5.1启停脚本　动静分离部署 ronin47
以前启动jboss，往各种xml配置文件，现只要运行一句脚本即可。start nohup sh /**/run.sh -c servicename -b ip -g clustername -u broatcast jboss.messaging.ServerPeerID=int -Djboss.service.binding.set=p
UI之如何打磨设计能力? brotherlamp UI ui教程 ui自学 ui资料 ui视频
在越来越拥挤的初创企业世界里，视觉设计的重要性往往可以与杀手级用户体验比肩。在许多情况下，尤其对于 Web 初创企业而言，这两者都是不可或缺的。前不久我们在《右脑革命：别学编程了，学艺术吧》中也曾发出过重视设计的呼吁。如何才能提高初创企业的设计能力呢?以下是 9 位创始人的体会。 1.找到自己的方式如果你是设计师，要想提高技能可以去设计博客和展示好设计的网站如D-lists或
三色旗算法 bylijinnan java 算法
import java.util.Arrays; /** 问题：假设有一条绳子，上面有红、白、蓝三种颜色的旗子，起初绳子上的旗子颜色并没有顺序，您希望将之分类，并排列为蓝、白、红的顺序，要如何移动次数才会最少，注意您只能在绳子上进行这个动作，而且一次只能调换两个旗子。网上的解法大多类似：在一条绳子上移动，在程式中也就意味只能使用一个阵列，而不使用其它的阵列来
警告:No configuration found for the specified action: \'s chiangfai configuration
1.index.jsp页面form标签未指定namespace属性。  <%@taglib prefix="s" uri="/struts-tags"%> ... <s:form action="submit" method="post"&g
redis -- hash_max_zipmap_entries设置过大有问题 chenchao051 redis hash
使用redis时为了使用hash追求更高的内存使用率，我们一般都用hash结构，并且有时候会把hash_max_zipmap_entries这个值设置的很大，很多资料也推荐设置到1000，默认设置为了512，但是这里有个坑 #define ZIPMAP_BIGLEN 254 #define ZIPMAP_END 255 /* Return th
select into outfile access deny问题 daizj mysql txt 导出数据到文件
本文转自：http://hatemysql.com/2010/06/29/select-into-outfile-access-deny%E9%97%AE%E9%A2%98/ 为应用建立了rnd的帐号，专门为他们查询线上数据库用的，当然，只有他们上了生产网络以后才能连上数据库，安全方面我们还是很注意的，呵呵。授权的语句如下： grant select on armory.* to rn
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
<?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('This example should only be run from a Web Brows
美国电影超短200句 dcj3sjt126com 电影
1. I see．我明白了。2. I quit! 我不干了!3. Let go! 放手!4. Me too．我也是。5. My god! 天哪!6. No way! 不行!7. Come on．来吧(赶快)8. Hold on．等一等。9. I agree。我同意。10. Not bad．还不错。11. Not yet．还没。12. See you．再见。13. Shut up!
Java访问远程服务 dyy_gusi httpclient webservice get post
随着webService的崛起，我们开始中会越来越多的使用到访问远程webService服务。当然对于不同的webService框架一般都有自己的client包供使用，但是如果使用webService框架自己的client包，那么必然需要在自己的代码中引入它的包，如果同时调运了多个不同框架的webService，那么就需要同时引入多个不同的clien
Maven的settings.xml配置 geeksun settings.xml
settings.xml是Maven的配置文件，下面解释一下其中的配置含义： settings.xml存在于两个地方： 1.安装的地方：$M2_HOME/conf/settings.xml 2.用户的目录：${user.home}/.m2/settings.xml 前者又被叫做全局配置，后者被称为用户配置。如果两者都存在，它们的内容将被合并，并且用户范围的settings.xml优先。
ubuntu的init与系统服务设置 hongtoushizi ubuntu
转载自： http://iysm.net/?p=178 init Init是位于/sbin/init的一个程序，它是在linux下，在系统启动过程中，初始化所有的设备驱动程序和数据结构等之后，由内核启动的一个用户级程序，并由此init程序进而完成系统的启动过程。 ubuntu与传统的linux略有不同，使用upstart完成系统的启动，但表面上仍维持init程序的形式。运行
跟我学Nginx+Lua开发目录贴 jinnianshilongnian nginx lua
使用Nginx+Lua开发近一年的时间，学习和实践了一些Nginx+Lua开发的架构，为了让更多人使用Nginx+Lua架构开发，利用春节期间总结了一份基本的学习教程，希望对大家有用。也欢迎谈探讨学习一些经验。目录第一章安装Nginx+Lua开发环境第二章 Nginx+Lua开发入门第三章 Redis/SSDB+Twemproxy安装与使用第四章 L
php位运算符注意事项 home198979 位运算 PHP &
$a = $b = $c = 0; $a & $b = 1; $b | $c = 1 问a,b,c最终为多少? 当看到这题时，我犯了一个低级错误，误以为位运算符会改变变量的值。所以得出结果是1 1 0 但是位运算符是不会改变变量的值的，例如： $a=1;$b=2; $a&$b; 这样a,b的值不会有任何改变
Linux shell数组建立和使用技巧 pda158 linux
1.数组定义　　[chengmo@centos5 ~]$ a=(1 2 3 4 5) 　　[chengmo@centos5 ~]$ echo $a 　　1 　　一对括号表示是数组，数组元素用“空格”符号分割开。　　 2.数组读取与赋值　　得到长度：　　[chengmo@centos5 ~]$ echo ${#a[@]} 　　5 　　用${#数组名[@或
hotspot源码(JDK7) ol_beta java HotSpot jvm
源码结构图，方便理解： ├─agent Serviceab
Oracle基本事务和ForAll执行批量DML练习 vipbooks oracle sql
基本事务的使用：从账户一的余额中转100到账户二的余额中去，如果账户二不存在或账户一中的余额不足100则整笔交易回滚 select * from account; -- 创建一张账户表 create table account( -- 账户ID id number(3) not null, -- 账户名称 nam