Macanv

文本分类---朴素贝叶斯(2)

基于sklearn的文本分类—朴素贝叶斯(2)

本文是文本分类的第二篇，记录使用朴素贝叶斯进行文本分类任务，数据集下载地址:http://thuctc.thunlp.org/

文本分类的主要内容如下:
- 1.基于逻辑回归的文本分类
- 2.基于朴素贝叶斯的文本分类
- 3.使用LDA进行文档降维以及特征选择
- 4.基于SVM的文本分类
- 5.基于多层感知机MLPC的文本分类
- 6.基于卷积神经网络词级别的文本分类以及调参
- 7.基于卷积神经网络的句子级别的文本分类以及调参
- 8.基于Facebook fastText的快速高效文本分类
- 9.基于RNN的文本分类
- 10.基于LSTM的文本分类
- 11.总结

1 数据预处理

其中使用的训练数据来自清华大学开源的文本分类数据集，原始数据集比较大，提供下载的是提取的小数据，thu_data_500 表示每个类提取500篇文章，thu_data_3000 表示每个类提取3000篇文章，一共14个类别,数据处理的代码如下：

import os
import codecs
import jieba
import re

from sklearn.utils import shuffle

category = ['星座', '股票', '房产', '时尚', '体育', '社会', '家居', '游戏', '彩票', '科技', '教育', '时政', '娱乐', '财经']

# 每篇文档保留的文档数量
#per_class_max_docs = 1000

def load_data_to_mini(path, to_path, per_class_max_docs=1000):
    """
    处理清华大学语料库，将类别和文档处理成fasttext 所需要的格式
    :param path: 
    :param to_path: 
    :return: 
    """
    # 抽取后的语料库
    corpus = []
    if not os.path.isdir(path):
        print('path error')
    # 列举当前目录下的所有子列别目录
    with codecs.open(to_path, 'a') as f:
        for files in os.listdir(path):
            curr_path = os.path.join(path, files)
            print(curr_path)
            if os.path.isdir(curr_path):
                count = 0
                docs = []
                for file in os.listdir(curr_path):
                    count += 1
                    if count > per_class_max_docs:
                        break
                    file_path = os.path.join(curr_path, file)
                    # 读取文件中的内容
                    with codecs.open(file_path, 'r', encoding='utf-8') as fd:
                        docs.append('__label__' + files + ' ' + ' '.join(jieba.cut(re.sub('[  \n\r\t]+', '', fd.read()))))
                        f.write('__label__' + files + ' ' + ' '.join(jieba.cut(re.sub('[  \n\r\t]+', '', fd.read()))))
            corpus.append(docs)

    # 将数据写到一个新的文件中
    with codecs.open(to_path, 'a') as f:
        for docs in corpus:
            for doc in docs:
                f.write(doc + '\n')

    return corpus

通过调用下面的代码，执行小数据集的提取

corpus = load_data_to_mini('../dataset/THUCNews', 'thu_data_500', 500)

../dataset/THUCNews/股票
../dataset/THUCNews/星座
../dataset/THUCNews/游戏
../dataset/THUCNews/社会
../dataset/THUCNews/教育
../dataset/THUCNews/时尚
../dataset/THUCNews/财经
../dataset/THUCNews/体育
../dataset/THUCNews/娱乐
../dataset/THUCNews/时政
../dataset/THUCNews/彩票
../dataset/THUCNews/房产
../dataset/THUCNews/家居
../dataset/THUCNews/科技

我们看下提取的结果

print('corpus size(%d,%d)' %(len(corpus), len(corpus[0])))

corpus size(14,500)

可以看到，结果一共是14个类，每个类1000篇文档，下面看下corpus里面的具体内容

corpus[0][1]

'_星座_ 啥 星座 男是 自信 恋爱 王 ( 图 ) \u3000 \u3000 每 一场 风花雪月 故事 的 发生 ， 都 离不开 追逐 与 被 追逐 、 主动 与 被动 的 关系 。 所以 有人 将 恋爱 比喻 为 双人 共舞 ， 在 欲说还休 间 ， 总有 一个 人 的 脚尖 踏过 另 一个 人 的 让步 。 然而 让步 的 人 未必 就是 弱势 一方 ， 对方 的 若即若离 ， 究竟 是 落花有意 、 流水无情 ， 还是 胸有成竹 时 欲擒故纵 的 高姿态 ， 你 能否 洞悉 这些 男生 的 心思 呢 ？ 现在 ， 就让 摘星 工厂 — 星 吧 为 你 盘点 在 恋爱 中 最 自信 的 星座 男 ， 并 分析 他们 常见 的 恋爱 心理 ！ \u3000 \u3000 第一名 ： 水瓶座 \u3000 \u3000 水瓶座 男生 在 恋爱 时 的 心态 绝对 是 一等一 的 自信 ， 有时 这种 自信 甚至 会 成为 恋爱 对手 方 的 困扰 。 这 是因为 ， 在 绝对 的 自信心 驱使 下 ， 水瓶 男对 想要 追到手 的 女孩 采取 的 攻势 ， 归结 起来 无非 是 “ 软磨硬泡 、 死缠 滥 打 ” 八字 真言 。 哪怕 女孩 对 他们 的 穷追不舍 已经 恨 到 连 牙根 都 开始 痒痒 了 ， 他们 仍然 视若无睹 ( 或许 是 他们 根本 没 发现 也 说不定 ， 水瓶 男 可是 出名 的 粗 神经 哦 ) ， 不死心 地 策划 着 第一百 零 一次 进攻 。 对 水瓶 男 来说 ， 爱情 中 他们 绝对 不 允许 自己 遭遇 失败 ， 而 他们 锲而不舍 的 后果 无非 两个 ： 或是 女孩 的 芳心 终于 被 打动 ， 或是 他们 在 一次次 尝试 后 觉得 不好玩 了 ， 于是 选择 放弃 。 注意 ， 这里 所说 的 他们 的 心态 是 “ 放弃 ” 而 不是 “ 认输 ” 。 也就是说 ， 无论是 进 还是 退 ， 水瓶 男 始终 默认 自己 是 一段 感情 中 的 掌控 者 。 \u3000 \u3000 遭遇 水瓶 男 的 美女 请 注意 ： 假如 你 爱 上 水瓶 男 ， 却 又 对 他 的 某些 不良习惯 感到 恼火 ， 那 你 绝对 不要 尝试 说服 他 去 改变 这些 习惯 。 最好 的 方式 是 以柔克刚 ， 通过 各种 暗示 让 水瓶 男 自己 意识 到 这些 问题 非改 不可 ， 然后 乖乖 就范 。 要不然 ， 小心 水瓶 男 和 你 犯上 犟脾气 哦 ！ \u3000 \u3000 第二名 ： 射手座 \u3000 \u3000 射手座 男生 最 喜欢 游戏 花丛 的 感觉 了 ， 这 不是 说 他们 花心 ， 而是 说 他们 骨子里 有 一种 骑士 精神 ， 他们 觉得 有 义务 去 照顾 每 一位 被 自己 青睐 的 异性 。 射手 男 的 这种 性格 ， 很多 女孩 都 是 既 爱 又 恨 ， 因为 她们 中 不少 人 或许 都 曾 经历 过 射手 男 的 这种 “ 善意 暧昧 ” ， 并 在 这 上面 吃 过 苦头 ！ 对于 女孩 们 的 声讨 ， 射手 男 自己 也 是 很 委屈 的 ： 我 分明 只是 想 做 个 好人 ， 想替 那么 多 可爱 的 美女 做点 什么 ， 分担 她们 的 忧愁 ， 怎么 到头来 反而 全成 了 我 的 不是 ？ 看来 一定 是 咱 个人 魅力 太高 ， 不经意 间 都 能 电到 一票 美女 … … 抱 着 这样 心态 的 射手 男 ， 自信心 怎么 会 不满 到 爆棚 呢 ？ \u3000 \u3000 遭遇 射手 男 的 美女 请 注意 ： 假如 你 确定 射手 男对 你 有意 ， 而 不是 单纯 的 怜香惜玉 ， 那么 一定 要 趁 他 还 没 将 你 追到手 ， 好好 矫正 一下 他 四处 乱 放电 的 习惯 ， 否则 日后 恐怕 你 就 有 得 忙 哦 ！ \u3000 \u3000 第三名 ： 天蝎座 \u3000 \u3000 天蝎座 的 男生 不会 轻易 锁定 恋爱 的 进攻 目标 ， 因为 他们 的 自尊心 很强 ， 面对 一段 感情 ， 不乏 患得患失 的 心态 ， 所以 假如 他们 确定 出手 ， 那 一定 是 有 了 必胜 的 把握 。 因此 ， 天蝎 男 在 周围 人 的 眼中 ， 总是 呈现出 完美 情圣 的 姿态 ： 他们 能 精确 洞悉 女孩 的 心思 ； 对于 何时 进 、 何时 退 ， 时机 都 拿捏 得当 ， 并且 很会 营造 各种 浪漫 气氛 ， 无论是 表白 还是 约会 ， 总能 搞 得 超有 情调 … … 但 这 一切 表象 的 背后 ， 其实 是 天蝎 男 煞费苦心 的 各种 权衡 。 \u3000 \u3000 遭遇 天蝎 男 的 美女 请 注意 ： 当天 蝎 男 将 视线 集中 在 你 身上 时 ， 并 不 意味着 他 选择 了 你 ， 只能 说明 你 成为 了 他 的 目标 之一 。 这种 时候 ， 一定 不要 轻易 沦陷 ， 相反 ， 一定 要 吊足 他 的 胃口 ， 让 自己 成为 他 心中 的 神秘 女神 ， 这样 才能 激发 天蝎 男 更 强 的 征服 欲 ！ \u3000 \u3000 第四名 ： 天秤座 \u3000 \u3000 天秤座 男生 通常 气质 儒雅 、 社交 广泛 ， 因此 身边 总 少不了 一些 爱慕者 ， 而 这些 女孩 也 是 他们 在 情场 上 拥有 绝佳 自信心 的 重要依据 。 说白了 就是 天秤 男 身边 总是 围绕 着 数量 可观 的 红颜 知己 ， 即使 他们 情场失意 ， 也 会 很快 在 其中 某个 红颜 知己 那里 找到 安慰 。 所以 ， 天秤 男 在 追逐 一段 感情 时 ， 并 不在意 最终 的 结果 是 成 是 败 。 反正 就算 门 被 关上 了 ， 还 可以 回头 看看 背后 的 窗子 里 ， 有 哪 一扇 碰巧 刚刚 为 他们 打开 。 \u3000 \u3000 遭遇 天秤 男 的 美女 请 注意 ： 除非 你 确定 自己 不在意 成为 天秤 男 身边 众多 花卉 中 的 一株 、 不在意 他 只 将 你 作为 失意 时 倾诉 的 对象 而 非 携手 到 老 的 伴侣 ， 否则 ， 建议 你 还是 不要 奢望 靠 “ 友情 渐变 ” 的 方式 来 征服 天秤 男 。 因为 这样 的 机会 实在 太 渺茫 了 。 天秤 男 身后 究竟 有 多少 红颜 知己 ， 恐怕 只有 他们 自己 知道 ， 你 真的 确定 自己 就是 其中 独一无二 的 那个 吗 ？ \u3000 \u3000 第五名 ： 魔羯座 \u3000 \u3000 魔羯座 男生 做事 一向 稳扎稳打 ， 对待 感情 问题 也 不 例外 。 对 魔羯 男 来说 ， 比较 完美 的 感情 模式 是 “ 40 岁 以前 努力 赚钱 立业 ， 40 岁 以后 坐拥 香车 美女 ” 。 虽然 划分 事业 问题 和 情感 问题 的 年龄 线 因人而异 ， 但是 总之 ， 在 事业 小有成就 前 ， 魔羯 男 即使 对 某个 女孩 表现 出 兴趣 ， 很 有 可能 也 只是 把 这段 感情 当作 正餐 前 的 开胃 小 甜点 ， 本质 上 属于 实战 前 的 小规模 演习 。 当然 ， 不 排除 练 着 练 着 日久生情 、 越谈 越 靠 谱 ， 但是 这种 浪漫 的 意外 通常 和 魔羯 男 无缘 。 总体 来讲 ， 魔羯 男 在 谈婚论嫁 时 还是 比较 传统 的 ， 他们 更 倾向 于 在 自己 具备 一定 经济 实力 的 时候 ， 作为 钻石 王老五 去 被 女孩 们 争抢 。 试问 这种 心态 的 魔羯 男 走上 情场 时 怎么 可能 不 自信 呢 ？ \u3000 \u3000 遭遇 魔羯 男 的 美女 请 注意 ： 尽管 前面 说 了 这么 多 吓人 的话 ， 但是 “ 先下手为强 ” 这句 古训 在 对付 魔羯 男 的 时候 仍然 是 适用 的 。 只 需 切记 一点 ： 魔羯 男 很 信奉 “ 娶妻 娶 贤 ” 这个 原则 ， 假如 你 想 让 魔羯 男视 你 为 宝 ， 一定 要 给 他 留下 贤妻良母 的 印象 ， 到时候 不怕 他 不 上钩 ！'

可以看到，开头时label的本文标签，后面接着的是新闻正文，正文已经使用jieba进行了分词，词之间使用空格键分开。
下面进行数据的切分，将数据划分为样本和标签，因为读取的数据是按照类别来分块的，在后面采用训练数据和测试数据的时候，会出现问题，所以这里也需要进行数据的随机打乱，数据打乱最好不要使用numpy.random.shuffle(),这个效率很低，而且非常容易出现内存溢出问题，推荐使用的是pandas或者是sklearn中的shuffle，我使用的是后者。切分的代码如下:

def split_data_with_label(corpus):
    """
    将数据划分为训练数据和样本标签
    :param corpus: 
    :return: 
    """
    input_x = []
    input_y = []

    tag = []
    if os.path.isfile(corpus):
        with codecs.open(corpus, 'r') as f:
            for line in f:
                tag.append(line)

    else:
        for docs in corpus:
            for doc in docs:
                tag.append(doc)
    tag = shuffle(tag)
    for doc in tag:
        index = doc.find(' ')
        input_y.append(doc[:index])
        input_x.append(doc[index + 1 :])

    # 打乱数据，避免在采样的时候出现类别不均衡现象
    # datasets = np.column_stack([input_x, input_y])
    # np.random.shuffle(datasets)
    # input_x = []
    # input_y = []
    # for i in datasets:
    #     input_x.append(i[:-1])
    #     input_y.append(i[-1:])
    return [input_x, input_y]

这个函数返回两个值，其中第一个返回值input_x是样本数据，一共14*1000行，第二个参数input_y和input_x有着相同的行数，每行对应着input_x中新闻样本的类别标签.

2.特征选择

下面将进行特征提取，特征选择的方法有基本的bag-of-words, tf-idf,n-gran等，我们将对这些方法进行实验，下面是代码:

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cross_validation import train_test_split
from sklearn.metrics.scorer import make_scorer
from sklearn.naive_bayes import MultinomialNB
from sklearn import metrics

from time import time

def feature_extractor(input_x, case='tfidf', n_gram=(1,1)):
    """
    特征抽取
    :param corpus: 
    :param case: 不同的特征抽取方法
    :return: 
    """
    if n_gram == (1,1):
        if case.lower() == 'tfidf':
            return TfidfVectorizer().fit_transform(input_x)
        elif case.lower() == 'bagofwords':
            return CountVectorizer().fit_transform(input_x)
    else:
        if case.lower() == 'tfidf':
            return TfidfVectorizer(ngram_range=n_gram).fit_transform(input_x)
        elif case.lower() == 'bagofwords':
            return CountVectorizer(ngram_range=n_gram).fit_transform(input_x)

接下来将进行训练数据和测试数据的切分，现在不进行更好的交叉验证等技术，仅仅简单的以一定的比例划分训练数据和测试数据。使用sklearn中提供的工具，具体代码如下:

def split_data_to_train_and_test(corpus, indices=0.2, random_state=10, shuffle=True):
    """
    将数据划分为训练数据和测试数据
    :param corpus: [input_x]
    :param indices: 划分比例
    :random_state: 随机种子
    :param shuffle: 是否打乱数据
    :return: 
    """
    input_x, y = corpus

    # 切分数据集
    x_train, x_dev, y_train, y_dev = train_test_split(input_x, y, test_size=indices, random_state=10)
    print("Vocabulary Size: {:d}".format(input_x.shape[1]))
    print("Train/Dev split: {:d}/{:d}".format(len(y_train), len(y_dev)))
    return x_train, x_dev, y_train, y_dev

函数返回四个值，分别是训练数据的样本，训练数据的标签，测试数据样本，测试数据真实标签，下面调用朴素贝叶斯进行分类。

朴素贝叶斯是一种生成模型，其是贝叶斯分类器的naive方法，其naive表现在其采用了”属性条件假定性假设”，对于已知类别，假设所有属性相互独立，也就是说，假设每个属性独立的对分类结果发生影响。

在文本分类任务中，naive bayes假定文档中的每个词都是独立的，当前词与其上下文是无关的，每个词即文档中的每个特征单独的对分类结果作贡献。

这里主要是进行相关的实验，不在理论上展开太多，下面采用朴素贝叶斯分类器进行文档分类，具体代码如下:

def fit_and_predicted(train_x, train_y, test_x, test_y):
    """
    训练与预测
    :param train_x: 
    :param train_y: 
    :param test_x: 
    :param test_y: 
    :return: 
    """
    clf = MultinomialNB().fit(train_x, train_y)
    predicted = clf.predict(test_x)
    print(metrics.classification_report(test_y, predicted))
    print('accuracy_score: %0.5fs' %(metrics.accuracy_score(test_y, predicted)))

上面函数调用MultinomialNB(),其是假设样本符合多项式分布的贝叶斯，此外sklearn还提供了naive_bayes.GaussianNB和naive_bayes.BernoulliNB。其区别可以从名称中看出来。

讲述完了使用naive bayes 进行文本分类的流程，下面将进行实际的代码运行阶段了。

# 1. 加载语料
corpus = split_data_with_label('thu_data_2000')

2.1 bag-of-words

input_x, y = corpus
# 2. 特征选择
input_x = feature_extractor(input_x, 'bagofwords')
# 3.切分训练数据和测试数据
train_x, test_x, train_y, test_y = split_data_to_train_and_test([input_x, y])

Vocabulary Size: 279691
Train/Dev split: 22411/5603

# 4. 训练以及测试
t0 = time()
print('\t\t使用 bag-of-words 进行特征选择的朴素贝叶斯文本分类\t\t')
fit_and_predicted(train_x, train_y, test_x, test_y)
print('time uesed: %0.4fs' %(time() - t0))

        使用 bag-of-words 进行特征选择的朴素贝叶斯文本分类        
             precision    recall  f1-score   support

       _体育_       0.94      0.98      0.96       402
       _娱乐_       0.82      0.93      0.87       369
       _家居_       0.91      0.82      0.86       390
       _彩票_       0.99      0.93      0.96       408
       _房产_       0.92      0.89      0.90       402
       _教育_       0.92      0.91      0.91       380
       _时尚_       0.90      0.90      0.90       416
       _时政_       0.89      0.87      0.88       417
       _星座_       0.93      0.97      0.95       399
       _游戏_       0.94      0.87      0.90       386
       _社会_       0.81      0.88      0.85       420
       _科技_       0.86      0.78      0.82       413
       _股票_       0.83      0.83      0.83       402
       _财经_       0.85      0.93      0.89       399

avg / total       0.89      0.89      0.89      5603

accuracy_score: 0.89184s
time uesed: 0.4997s

2.2 TF-IDF

input_x, y = corpus
# 2. 特征选择
input_x = feature_extractor(input_x, 'tfidf')
# 3.切分训练数据和测试数据
train_x, test_x, train_y, test_y = split_data_to_train_and_test([input_x, y])

Vocabulary Size: 279691
Train/Dev split: 22411/5603

# 4. 训练以及测试
t0 = time()
print('\t\t使用 TF-IDF 进行特征选择的朴素贝叶斯文本分类\t\t')
fit_and_predicted(train_x, train_y, test_x, test_y)
print('time uesed: %0.4fs' %(time() - t0))

        使用 TF-IDF 进行特征选择的朴素贝叶斯文本分类      
             precision    recall  f1-score   support

       _体育_       0.93      0.99      0.96       402
       _娱乐_       0.85      0.89      0.87       369
       _家居_       0.94      0.83      0.88       390
       _彩票_       0.99      0.94      0.96       408
       _房产_       0.91      0.88      0.89       402
       _教育_       0.86      0.92      0.89       380
       _时尚_       0.90      0.91      0.91       416
       _时政_       0.91      0.83      0.87       417
       _星座_       0.91      0.98      0.94       399
       _游戏_       0.93      0.89      0.91       386
       _社会_       0.84      0.85      0.84       420
       _科技_       0.90      0.74      0.81       413
       _股票_       0.80      0.88      0.84       402
       _财经_       0.85      0.93      0.89       399

avg / total       0.89      0.89      0.89      5603

accuracy_score: 0.89024s
time uesed: 0.4860s

可以看出使用TF-IDF和简单的使用词袋模型效果相当, 下面我们在tf-idf作为特征选择的基础上增加文本的n-gram特征。

2.3 n_gram 抽取unigram和bigram

input_x, y = corpus
# 2. 特征选择
input_x = feature_extractor(input_x, 'tfidf', n_gram=(1,2))
# 3.切分训练数据和测试数据
train_x, test_x, train_y, test_y = split_data_to_train_and_test([input_x, y])

Vocabulary Size: 5027849
Train/Dev split: 22411/5603

# 4. 训练以及测试
t0 = time()
print('\t 使用 n_gram（unigram,bigram） 进行特征选择的朴素贝叶斯文本分类\t\t\n')
fit_and_predicted(train_x, train_y, test_x, test_y)
print('time uesed: %0.4fs' %(time() - t0))

     使用 n_gram（unigram,bigram） 进行特征选择的朴素贝叶斯文本分类     

             precision    recall  f1-score   support

       _体育_       0.92      0.99      0.95       402
       _娱乐_       0.85      0.91      0.88       369
       _家居_       0.96      0.82      0.89       390
       _彩票_       0.99      0.94      0.96       408
       _房产_       0.90      0.90      0.90       402
       _教育_       0.86      0.92      0.89       380
       _时尚_       0.91      0.90      0.91       416
       _时政_       0.90      0.84      0.87       417
       _星座_       0.92      0.98      0.95       399
       _游戏_       0.93      0.90      0.91       386
       _社会_       0.83      0.87      0.85       420
       _科技_       0.91      0.75      0.82       413
       _股票_       0.82      0.85      0.83       402
       _财经_       0.81      0.94      0.87       399

avg / total       0.90      0.89      0.89      5603

accuracy_score: 0.89291s
time uesed: 4.3272s

2.4 n_gram 抽取unigram、bigram和trigram

input_x, y = corpus
# 2. 特征选择
input_x = feature_extractor(input_x, 'tfidf', n_gram=(1,3))
# 3.切分训练数据和测试数据
train_x, test_x, train_y, test_y = split_data_to_train_and_test([input_x, y])

Vocabulary Size: 12286931
Train/Dev split: 22411/5603

# 4. 训练以及测试
t0 = time()
print('\t\t使用 n-gram（unigram、bigram和trigram） 进行特征选择的朴素贝叶斯文本分类\t\t')
fit_and_predicted(train_x, train_y, test_x, test_y)
print('time uesed: %0.4fs' %(time() - t0))

        使用 n-gram（unigram、bigram和trigram） 进行特征选择的朴素贝叶斯文本分类      
             precision    recall  f1-score   support

       _体育_       0.92      0.99      0.95       402
       _娱乐_       0.86      0.91      0.88       369
       _家居_       0.97      0.83      0.90       390
       _彩票_       0.99      0.94      0.96       408
       _房产_       0.90      0.90      0.90       402
       _教育_       0.86      0.93      0.89       380
       _时尚_       0.92      0.90      0.91       416
       _时政_       0.90      0.83      0.87       417
       _星座_       0.93      0.98      0.95       399
       _游戏_       0.93      0.90      0.91       386
       _社会_       0.83      0.88      0.85       420
       _科技_       0.91      0.76      0.83       413
       _股票_       0.83      0.83      0.83       402
       _财经_       0.80      0.94      0.86       399

avg / total       0.90      0.89      0.89      5603

accuracy_score: 0.89291s
time uesed: 9.5657s

2.5 n_gram 抽取unigram、bigram、trigram和4-gram

input_x, y = corpus
# 2. 特征选择
input_x = feature_extractor(input_x, 'tfidf', n_gram=(1,4))
# 3.切分训练数据和测试数据
train_x, test_x, train_y, test_y = split_data_to_train_and_test([input_x, y])

Vocabulary Size: 19909967
Train/Dev split: 22411/5603

# 4. 训练以及测试
t0 = time()
print('\t\t使用 n-gram（unigram、bigram、trigram和4-gram） 进行特征选择的朴素贝叶斯文本分类\t\t')
fit_and_predicted(train_x, train_y, test_x, test_y)
print('time uesed: %0.4fs' %(time() - t0))

        使用 n-gram（unigram、bigram、trigram和4-gram） 进行特征选择的朴素贝叶斯文本分类       
             precision    recall  f1-score   support

       _体育_       0.92      0.99      0.95       402
       _娱乐_       0.85      0.91      0.88       369
       _家居_       0.96      0.83      0.89       390
       _彩票_       0.99      0.94      0.96       408
       _房产_       0.90      0.90      0.90       402
       _教育_       0.86      0.93      0.89       380
       _时尚_       0.92      0.90      0.91       416
       _时政_       0.90      0.83      0.87       417
       _星座_       0.93      0.98      0.95       399
       _游戏_       0.93      0.90      0.92       386
       _社会_       0.83      0.88      0.85       420
       _科技_       0.91      0.75      0.82       413
       _股票_       0.84      0.83      0.84       402
       _财经_       0.79      0.94      0.86       399

avg / total       0.90      0.89      0.89      5603

accuracy_score: 0.89327s
time uesed: 14.8933s

2.6 n_gram 抽取unigram、bigram、trigram、4-gram和5-gram

input_x, y = corpus
# 2. 特征选择
input_x = feature_extractor(input_x, 'tfidf', n_gram=(1,5))
# 3.切分训练数据和测试数据
train_x, test_x, train_y, test_y = split_data_to_train_and_test([input_x, y])

Vocabulary Size: 27610364
Train/Dev split: 22411/5603

# 4. 训练以及测试
t0 = time()
print('\t\t使用 n-gram（unigram、bigram、trigram、4-gram和5-gram） 进行特征选择的朴素贝叶斯文本分类\t\t')
fit_and_predicted(train_x, train_y, test_x, test_y)
print('time uesed: %0.4fs' %(time() - t0))

        使用 n-gram（unigram、bigram、trigram、4-gram和5-gram） 进行特征选择的朴素贝叶斯文本分类        
             precision    recall  f1-score   support

       _体育_       0.92      0.99      0.95       402
       _娱乐_       0.85      0.91      0.88       369
       _家居_       0.96      0.83      0.89       390
       _彩票_       0.99      0.94      0.96       408
       _房产_       0.91      0.90      0.90       402
       _教育_       0.86      0.93      0.89       380
       _时尚_       0.92      0.90      0.91       416
       _时政_       0.91      0.83      0.86       417
       _星座_       0.93      0.98      0.95       399
       _游戏_       0.93      0.90      0.91       386
       _社会_       0.83      0.88      0.85       420
       _科技_       0.91      0.75      0.82       413
       _股票_       0.84      0.83      0.83       402
       _财经_       0.79      0.94      0.86       399

avg / total       0.90      0.89      0.89      5603

accuracy_score: 0.89220s
time uesed: 22.0319s

2.7 n_gram 仅仅只用bigram

input_x, y = corpus
# 2. 特征选择
input_x = feature_extractor(input_x, 'tfidf', n_gram=(2,2))
# 3.切分训练数据和测试数据
train_x, test_x, train_y, test_y = split_data_to_train_and_test([input_x, y])

Vocabulary Size: 4748158
Train/Dev split: 22411/5603

# 4. 训练以及测试
t0 = time()
print('\t\t仅仅使用 bigram 进行特征选择的朴素贝叶斯文本分类\t\t')
fit_and_predicted(train_x, train_y, test_x, test_y)
print('time uesed: %0.4fs' %(time() - t0))

        仅仅使用 bigram 进行特征选择的朴素贝叶斯文本分类        
             precision    recall  f1-score   support

       _体育_       0.92      0.99      0.95       402
       _娱乐_       0.85      0.91      0.88       369
       _家居_       0.96      0.83      0.89       390
       _彩票_       0.99      0.94      0.96       408
       _房产_       0.91      0.90      0.90       402
       _教育_       0.86      0.93      0.89       380
       _时尚_       0.92      0.90      0.91       416
       _时政_       0.91      0.83      0.86       417
       _星座_       0.93      0.98      0.95       399
       _游戏_       0.93      0.90      0.91       386
       _社会_       0.83      0.88      0.85       420
       _科技_       0.91      0.75      0.82       413
       _股票_       0.84      0.83      0.83       402
       _财经_       0.79      0.94      0.86       399

avg / total       0.90      0.89      0.89      5603

accuracy_score: 0.89220s
time uesed: 20.1179s

可以看到在N元语法的特征增加后，分类效果有提升效果，但是在当n=5的时候，效果有一定的下降(不应该是一个结论，只是在数据集上的一个个例，因在吴军老师的数学之美中说明，N越大，效果是越好的)。同时也应该看到，随着N的增大，特征的数量也在显著的增长，同时训练时间也在逐渐增加,在应用中，应该在效率和结果直接有一个较好的选择才会使得最后的工作高效简洁。

下面将进行朴素贝叶斯的调参工作，机器学习很多时候都是在进行参数的调整工作，一个好的参数可以让模型产生更好的效果。

3. 使用交叉验证

上面的实验中，我们只是简单的选取20%的数据作为测试集和80%的数据作为训练集，这样做是存在偶然性结构的，即可能划分数据集不能表示真实的数据分布，导致模型训练参数的泛化性不好，采用交叉验证可以避免数据集划分导致的问题，下面，就进行该实验，实验在上一步的基础上使用TF-IDF和unigram,bigram和trigram来进行特征选择。


def train_and_test_with_CV(corpus, cv=5, alpha=1, fit_prior=True):
    """

    """
    input_x, y = corpus
#     scoring = {'prec_macro': 'precision_macro',
#                'rec_micro': make_scorer(recall_score, average='macro')}
    scoring = ['precision_macro', 'recall_macro', 'f1_macro']
    clf = MultinomialNB(alpha=alpha, fit_prior=fit_prior)
    scores = cross_validate(clf, input_x, y, scoring=scoring,
                            cv=cv, return_train_score=True)
    sorted(scores.keys()) 
    return scores

input_x, y = corpus
# 2. 特征选择
input_x = feature_extractor(input_x, 'tfidf')
scores = train_and_test_with_CV([input_x, y])

scores

{'fit_time': array([ 0.69856882,  0.6891861 ,  0.68457079,  0.68122745,  0.68401599]),
 'score_time': array([ 0.24055672,  0.25055385,  0.24642444,  0.24583435,  0.25062966]),
 'test_f1_macro': array([ 0.93190598,  0.93358814,  0.92900074,  0.93620104,  0.93139325]),
 'test_precision_macro': array([ 0.93411186,  0.93509947,  0.93082131,  0.93790787,  0.93312355]),
 'test_recall_macro': array([ 0.93178571,  0.93357143,  0.92892857,  0.93607143,  0.93142857]),
 'train_f1_macro': array([ 0.95534592,  0.95516529,  0.95665886,  0.95573948,  0.95629695]),
 'train_precision_macro': array([ 0.95629235,  0.95618146,  0.95767379,  0.9566414 ,  0.95725075]),
 'train_recall_macro': array([ 0.95526786,  0.95508929,  0.95660714,  0.95571429,  0.95625   ])}

交叉验证的K=10的时候

scores = train_and_test_with_CV([input_x, y],cv=10)

scores

{'fit_time': array([ 0.86708903,  0.85473442,  0.85248995,  0.8252821 ,  0.93414092,
         1.118325  ,  1.41779876,  1.2739253 ,  1.98447776,  1.11306906]),
 'score_time': array([ 0.16501474,  0.16674805,  0.17412877,  0.15616584,  0.14272356,
         0.21593046,  0.44325757,  0.30753231,  0.19881511,  0.20148587]),
 'test_f1_macro': array([ 0.93355446,  0.93725727,  0.9367952 ,  0.93744957,  0.9319552 ,
         0.93147271,  0.94146465,  0.93213457,  0.93504439,  0.93282066]),
 'test_precision_macro': array([ 0.93583195,  0.93947505,  0.93829325,  0.93885285,  0.9343669 ,
         0.93272889,  0.94303357,  0.93393932,  0.93704557,  0.93441742]),
 'test_recall_macro': array([ 0.93357143,  0.93714286,  0.93678571,  0.9375    ,  0.93178571,
         0.93142857,  0.94142857,  0.93214286,  0.935     ,  0.93285714]),
 'train_f1_macro': array([ 0.9565462 ,  0.95530877,  0.95550728,  0.95550059,  0.9569892 ,
         0.95626531,  0.95577014,  0.95573623,  0.95608533,  0.95600703]),
 'train_precision_macro': array([ 0.95739641,  0.95630651,  0.95651889,  0.95645792,  0.95790256,
         0.95727949,  0.95675378,  0.95657705,  0.9570335 ,  0.95699902]),
 'train_recall_macro': array([ 0.95650794,  0.9552381 ,  0.95543651,  0.95543651,  0.95694444,
         0.95619048,  0.95571429,  0.95571429,  0.95603175,  0.95595238])}

4 寻找最好的参数

朴素贝叶斯的参数比偶较少，根据sklearn的文档可以看出，其参数主要是平滑项参数alpha、是否需要依靠样本去学习类别先验fit_prior和给定类别先验class_prio的给定.

下面对这些参数做相关实验。

from sklearn.grid_search import GridSearchCV
def train_and_predicted_with_graid(corpus, cv, param_grid):
    input_x, y = corpus

    scoring = ['precision_macro', 'recall_macro', 'f1_macro']
    clf = MultinomialNB()
    grid = GridSearchCV(clf, param_grid, cv=cv, scoring='accuracy')

    scpres = grid.fit(input_x, y)

    print('parameters:')
    best_parameters = grid.best_estimator_.get_params()
    for param_name in sorted(best_parameters):
        print('\t%s: %r' %(param_name, best_parameters[param_name]))
    return scores

k_alpha = [0, 1,2,4,10]
fit_prior= [True, False]
param_grid = dict(alpha=k_alpha, fit_prior=fit_prior)
print(param_grid)
scores = train_and_predicted_with_graid([input_x, y], 5, param_grid)

parameters:
    alpha: 0
    class_prior: None
    fit_prior: True


/usr/local/lib/python3.5/dist-packages/sklearn/naive_bayes.py:472: UserWarning: alpha too small will result in numeric errors, setting alpha = 1.0e-10
  'setting alpha = %.1e' % _ALPHA_MIN)

print(scores)

{'test_recall_macro': array([ 0.93357143,  0.93714286,  0.93678571,  0.9375    ,  0.93178571,
        0.93142857,  0.94142857,  0.93214286,  0.935     ,  0.93285714]), 'test_precision_macro': array([ 0.93583195,  0.93947505,  0.93829325,  0.93885285,  0.9343669 ,
        0.93272889,  0.94303357,  0.93393932,  0.93704557,  0.93441742]), 'train_recall_macro': array([ 0.95650794,  0.9552381 ,  0.95543651,  0.95543651,  0.95694444,
        0.95619048,  0.95571429,  0.95571429,  0.95603175,  0.95595238]), 'fit_time': array([ 0.86708903,  0.85473442,  0.85248995,  0.8252821 ,  0.93414092,
        1.118325  ,  1.41779876,  1.2739253 ,  1.98447776,  1.11306906]), 'train_f1_macro': array([ 0.9565462 ,  0.95530877,  0.95550728,  0.95550059,  0.9569892 ,
        0.95626531,  0.95577014,  0.95573623,  0.95608533,  0.95600703]), 'test_f1_macro': array([ 0.93355446,  0.93725727,  0.9367952 ,  0.93744957,  0.9319552 ,
        0.93147271,  0.94146465,  0.93213457,  0.93504439,  0.93282066]), 'train_precision_macro': array([ 0.95739641,  0.95630651,  0.95651889,  0.95645792,  0.95790256,
        0.95727949,  0.95675378,  0.95657705,  0.9570335 ,  0.95699902]), 'score_time': array([ 0.16501474,  0.16674805,  0.17412877,  0.15616584,  0.14272356,
        0.21593046,  0.44325757,  0.30753231,  0.19881511,  0.20148587])}

使用最佳参数进行训练

scores = train_and_test_with_CV([input_x, y], cv=10, alpha=0)
print(scores)

{'test_recall_macro': array([ 0.98714286,  0.98607143,  0.98642857,  0.98607143,  0.98178571,
        0.98464286,  0.98535714,  0.98214286,  0.97714286,  0.98392857]), 'test_precision_macro': array([ 0.98735865,  0.98622353,  0.98659011,  0.98618267,  0.98201582,
        0.9849389 ,  0.98558907,  0.9825292 ,  0.97748478,  0.9840529 ]), 'train_recall_macro': array([ 0.99809524,  0.99781746,  0.99785714,  0.99789683,  0.9975    ,
        0.9975    ,  0.9977381 ,  0.99801587,  0.99785714,  0.99781746]), 'fit_time': array([ 0.81418514,  0.80592179,  0.81234241,  0.79919314,  0.8071866 ,
        0.79807925,  0.79640722,  0.77489328,  0.80264211,  0.7880013 ]), 'train_f1_macro': array([ 0.9980958 ,  0.99781816,  0.99785777,  0.99789754,  0.99750104,
        0.99750157,  0.99773862,  0.99801643,  0.99785776,  0.99781855]), 'test_f1_macro': array([ 0.98716361,  0.98606902,  0.98643996,  0.98603623,  0.98180131,
        0.98463883,  0.98534904,  0.98216567,  0.9771135 ,  0.98393848]), 'train_precision_macro': array([ 0.99810511,  0.99782832,  0.99787039,  0.99790794,  0.99751509,
        0.99751977,  0.99775029,  0.99802555,  0.99786749,  0.99783064]), 'score_time': array([ 0.17398071,  0.14726663,  0.16023517,  0.14582086,  0.17289758,
        0.14939237,  0.15340734,  0.14639425,  0.15420914,  0.15345049])}

可以看到，训练得到的结果相对于在没有进行最优参数调整的时候提高了约5%，效果是明显的。

5. 总结

本文记录了使用sklearn，采用朴素贝叶斯进行文本分类任务，在使用简单的bag-of-word,tf-idf 作为参数选择，为了增加特征，保留句子中的部分语义信息，
，我们还进行了n-gram操作，在特征选择阶段，我们发现，使用tf-idf的特征表示方法比简单的词袋模型要好，添加了n-gram特征后，效果也有一定的提升；

在选取好了特征后，我们对数据集进行交叉验证，发现cv=10相对cv=5的时候有细微的提升，但是效果不明显，说明本数据集在cv=5的时候已经够用了，不需要再继续使用CV=10增加计算量；

最后，我们进行了最佳参数的寻找，由于naive bayes 分类器的参数较少，调参起来相对简单，在选用了最佳的参数后，我们得出了相对最优的结果，在测试集上P,R,F值几乎都达到了98%以上。
但是分析我们的最佳参数，其中平滑项参数我们选取的是0，在模型中说明是不需要进行数据的平滑处理，但是经验而言，当数据变大，在开放的数据中，平滑项是必不可少的，此处的0，只是作为最有参数选寻找的个例，不应该用作一般性结论。

你可能感兴趣的:(nlp)

利用Infinity Embeddings创建文本嵌入 qahaj python
技术背景介绍在自然语言处理(NLP)任务中，文本嵌入是一种将文本数据转换成固定维度向量的技术。这些向量能够捕捉文本之间的语义关系，使得在后续的任务（如文本分类、相似度计算等）中非常实用。Infinity嵌入模型是一种能够方便创建高质量文本嵌入的现代工具。核心原理解析InfinityEmbeddings利用强大的预训练模型，通过对输入的文本数据进行编码，生成具有语义意义的高维向量。这个过程不仅仅是简
大语言模型原理基础与前沿通过稀疏MoE扩展视觉语言模型 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理基础与前沿通过稀疏MoE扩展视觉语言模型1.背景介绍在人工智能领域，语言模型和视觉模型的结合已经成为一个重要的研究方向。大语言模型（LargeLanguageModels,LLMs）如GPT-3、BERT等，已经在自然语言处理（NLP）任务中取得了显著的成果。而视觉语言模型（Vision-LanguageModels,VLMs）则通过结合视觉和语言信息，进一步提升了模型在多模态任务中
26、深度学习-自学之路-NLP自然语言处理-理解加程序，怎么把现实的词翻译给机器识别。小宇爱深度学习-自学之路深度学习自然语言处理人工智能
一、怎么能让机器能够理解我们的语言呢，我们可以利用神经网络干很多的事情，那么我们是不是也可以用神经元做自然语言处理呢，现在很多的实际应用已经说明了这个问题，可以这么做。那我们考虑一下该怎么做，首先我们应该把我们现实中的每一个单词都用一个词向量来进行表示：importnumpyasnponehots={}onehots['cat']=np.array([1,0,0,0])onehots['the']
27、深度学习-自学之路-NLP自然语言处理-做一个简单的项目识别一组电影评论，来判断电影评论是积极的，还是消极的。小宇爱深度学习-自学之路深度学习自然语言处理人工智能
一、如果我们要做这个项目，第一步我们要做的就是需要有对应的训练数据集。这里提供两个数据集，一个是原始评论数据集《reviews.txt》，以及对应的评论是消极还是积极的数据集《labels.txt》，下面的程序就是找到这两个数据集，并把对应的数据集的内容分别赋值给reviews和labelsdefpretty_print_review_and_label(i):print(labels[i]+"\
视觉中的transformer：ViT ch隔壁老张深度学习笔记 transformer 深度学习计算机视觉
《》摘要transformer已经是NLP的标准。但是在cv领域用的很少，视觉里一般是和cnn一起用或者把某些conv替换成transformer（整体还是CNN）本篇文章证明纯的transformer直接在图片分类上也做得很好：在大量数据集上进行预训练的前提上，迁移到小数据集（作者说ImageNet是小数据集-_-）上也很好。Intro启发现在NLP里的transformer都是在大量数据集上进
使用 OpenAI API 创建智能聊天机器人 vaidfl 机器人 python
1.技术背景介绍在人工智能应用中，聊天机器人是一种非常流行的应用。得益于近几年自然语言处理（NLP）技术的飞速发展，聊天机器人已经从简单的问答模式发展到能够进行复杂对话的智能助手。本篇文章将深入介绍如何使用OpenAI提供的API构建一个智能聊天机器人，并通过实际代码演示实现过程。2.核心原理解析OpenAI提供的GPT模型是目前最先进的语言生成模型之一，它可以生成自然流畅的文本。我们可以通过调用
人工智能之自然语言处理技术演进香橙薄荷心 AI 人工智能自然语言处理
自然语言处理技术演进自然语言处理（NaturalLanguageProcessing，NLP）是人工智能的重要分支，旨在使计算机能够理解、生成和处理人类语言。近年来，NLP技术经历了从规则驱动到数据驱动的革命性演进，尤其是在深度学习和大规模预训练模型的推动下，取得了显著突破。本文将深入探讨NLP技术的演进历程、核心模型及其应用，并通过具体案例和代码示例帮助读者理解其实际应用。1.NLP技术演进历程
RAG中的双编码器与跨编码器模型人工智能
RAG中的双编码器与跨编码器模型阅读时长：19分钟发布时间：2025-02-13近日热文：全网最全的神经网络数学原理（代码和公式）直观解释欢迎关注知乎和公众号的专栏内容LLM架构专栏知乎LLM专栏知乎【柏企】公众号【柏企科技说】【柏企阅文】检索增强生成（RAG）是一个强大的框架，它结合了基于检索和基于生成的自然语言处理（NLP）任务方法。RAG不只是依赖生成模型，而是通过检索相关文档或段落来利用外
GPT 系列模型发展史：从 GPT 到 ChatGPT 的演进与技术细节 Ash Butterfield nlp gpt chatgpt
从GPT到ChatGPT，OpenAI用短短几年时间，彻底改变了自然语言处理（NLP）的格局。让我们一起回顾这段激动人心的技术演进史！GPT（2018）：划时代的起点：GPT（GenerativePre-trainedTransformer）首次将Transformer架构与无监督预训练结合，开启了大规模语言模型的新时代。核心突破：通过海量文本预训练+任务微调，GPT展示了强大的泛化能力。GPT-
自然语言处理（NLP）入门：基础概念与应用场景 Ash Butterfield nlp 自然语言处理人工智能
什么是自然语言处理（NLP）？自然语言处理（NaturalLanguageProcessing,NLP）是人工智能（AI）的一个重要分支，研究如何让计算机理解、生成、分析和与人类语言进行交互。换句话说，NLP是让机器像人一样“读、写、听、说”的技术，它结合了语言学、机器学习、计算机科学等多学科知识。NLP的核心目标是将非结构化的自然语言（如文本和语音）转化为结构化数据，使机器能够高效处理、分析和生
DeepSeek 实现原理探析 rockmelodies 人工智能 ai deepseek 深度学习
DeepSeek实现原理探析引言DeepSeek是一种基于深度学习的智能搜索技术，它通过结合自然语言处理（NLP）、信息检索（IR）和机器学习（ML）等多领域的技术，旨在提供更加精准、智能的搜索结果。本文将深入探讨DeepSeek的实现原理，分析其核心技术及其在实际应用中的表现。一、DeepSeek的核心技术自然语言处理（NLP）词嵌入（WordEmbedding）：DeepSeek使用如Word
Python NLP 自然语言处理简简单单OnlineZuozuo m1 Python 领域 python 自然语言处理开发语言
文章目录PythonNLP自然语言处理PythonNLP自然语言处理"""基于https://github.com/isnowfy/snownlp$pipinstallsnownlp"""fromsnownlpimportSnowNLP#分词defsnownlp_cut(text):returnSnowNLP(text).words#词性标准defsnownlp_tags(text):#返回积极情
transformer 我爱派生深度学习 transformer 深度学习人工智能
导语：2017年，一篇名为《AttentionisAllYouNeed》的论文横空出世，提出了Transformer模型，彻底改变了自然语言处理（NLP）领域的格局。Transformer以其独特的结构和强大的性能，迅速成为NLP领域的霸主，并逐渐向其他人工智能领域渗透。本文将带你深入了解Transformer的原理、优势以及应用，探讨其对人工智能发展的深远影响。一、从RNN到Transforme
毕设项目基于大数据的b站数据分析 nange12330a 毕业设计毕设大数据
文章目录0数据分析目标1B站整体视频数据分析1.1数据预处理1.2数据可视化1.3分析结果2单一视频分析2.1数据预处理2.2数据清洗2.3数据可视化3文本挖掘（NLP）3.1情感分析0数据分析目标今天向大家介绍如何使用大数据技术，对B站的视频数据进行分析，得到可视化结果。项目运行效果：毕业设计基于大数据的b站数据分析项目分享:见文末!1B站整体视频数据分析分析方向：首先从总体情况进行分析，之后分
【2025版】最新AI大模型NLP全面解析，零基础入门到精通，收藏这篇就够了程序员二飞人工智能自然语言处理服务器学习知识图谱
近年来，随着深度学习技术的飞速发展，AI大模型作为人工智能领域的重要研究对象，正逐步成为学术界和产业界广泛关注的热点议题。AI大模型，作为一类具备庞大参数规模与卓越学习能力的神经网络模型，如BERT、GPT等，已在自然语言处理、计算机视觉等多个领域展现出卓越成效，极大地推动了相关领域的技术进步。前排提示，文末有大模型AGI-CSDN独家资料包哦！AI大模型的价值不仅体现于其庞大的参数规模与强大的学
百度千帆大模型实战：AI大模型开发的调用指南 AGI大模型学习百度人工智能大模型教程学习产品经理大模型学习大模型
本节旨在为读者提供一个实用指南，探讨如何有效地利用百度千帆大模型平台的强大功能。从基础的账号注册和密钥申请入手，逐步引领用户通过案例，理解并掌握如何调用文本和图像处理的大模型API，包括但不限于NLP、对话生成、文本续写以及图像生成等领域。1.千帆大模型平台简介在AI蓬勃发展的时代，大模型平台作为支撑大规模数据处理和复杂模型训练的基石，正逐渐成为推动科技创新和产业升级的重要力量。千帆大模型平台，凭
四、自然语言处理_08Transformer翻译任务案例学不会lostfound AI 自然语言处理人工智能深度学习 transformer encode-decode
0、前言在Seq2Seq模型的学习过程中，做过一个文本翻译任务案例，多轮训练后，效果还算能看Transformer作为NLP领域的扛把子，对于此类任务的处理会更为强大，下面将以基于Transformer模型来重新处理此任务，看看效果如何1、需求概述现有一个《data.txt》文件，里面存放了很多组翻译对（即：英文句子-中文句子的组合）要求针对此《data.txt》文件，使用Seq2Seq模型构建一
预训练语言模型：从BERT到GPT，NLP的新纪元 Evaporator Core 自然语言处理人工智能 Python开发经验自然语言处理语言模型 bert
自然语言处理（NLP）在过去几年中经历了翻天覆地的变化，而这一变化的催化剂无疑是预训练语言模型（Pre-trainedLanguageModels,PLMs）的崛起。从BERT到GPT，这些模型不仅在学术研究中取得了突破性进展，也在工业界得到了广泛应用。本文将深入探讨预训练语言模型的原理、发展历程以及如何在实际项目中应用这些强大的工具。1.预训练语言模型的背景在深度学习时代之前，NLP任务主要依赖
大语言模型原理与工程实践：初探大语言模型 AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理与工程实践：初探大语言模型作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：大语言模型，机器学习，自然语言处理，深度学习，工程实践1.背景介绍1.1问题的由来随着互联网的飞速发展，人类产生和消费的数据量呈指数级增长。如何高效地处理和分析这些海量数据，提取其中的有用信息，成为了当前学术界和工业界共同关注的问题。自然语言处理（NLP）
【NLP算法面经】NLP算法面经 -- 腾讯 VS 美团（附面题）青松ᵃⁱ NLP 百面百过 AI面试 NLP面试算法面试人工智能
博客主页：[青松]目录【NLP百面百过】大模型算法高频面题（全面整理ʘ‿ʘ）一、大模型（LLMs）基础面大模型（LLMs）架构篇注意力机制（Attention）篇Transformer理论篇二、大模型微调面有监督微调（SFT）篇高效微调篇提示学习篇人类对齐训练（RLHF）篇Prompt工程篇三、大模型进阶面大模型压缩篇分布式训练篇大模型魔改篇四、NLP任务实战面文本分类篇命名实体识别（NER）篇关
Linux服务器上安装elasticsearch和kibana Jinkxs linux elasticsearch jenkins
Linux服务器上安装elasticsearch和kibanalinux查询指定端口服务：netstat-tunlp|grep9200一、elasticsearch1、软件下载去镜像网站下载：https://www.newbe.pro/Mirrors/Mirrors-Elasticsearch版本选择7.5.22、新建服务器用户创建用户：useraddesuser设置密码：passwdesuser
AI知识库和全文检索的区别 xixingzhe2 AI 人工智能
1、AI知识库的作用AI知识库是基于人工智能技术构建的智能系统，能够理解、推理和生成信息。它的核心作用包括：1.1语义理解自然语言处理（NLP）：AI知识库能够理解用户查询的语义，而不仅仅是关键词匹配。上下文关联：能够结合上下文信息，提供更准确的答案。1.2知识推理逻辑推理：通过知识图谱或预训练模型，AI知识库可以进行逻辑推理，回答复杂问题。多跳推理：能够从多个数据源中提取信息，综合生成答案。1.
基于自然语言处理的客服情感分析系统分析报告大霸王龙系统分析业务人工智能知识图谱 python
1.大纲分析基于自然语言处理的客服情感分析系统分析报告引言随着互联网的发展，企业的客服体系面临着巨大的挑战和机遇。传统的客服模式依赖人工接听电话和处理邮件，这种方式效率低下且难以满足日益增长的服务需求。为了提高服务质量和服务效率，越来越多的企业开始引入智能化的客服系统。其中，基于自然语言处理（NLP）的客服情感分析系统逐渐成为热门的研究方向。这种系统能够自动识别客户的语气和情绪，从而帮助企业更好地
【自学笔记】AIGC基础知识点总览-持续更新 Long_poem 笔记 AIGC
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录AIGC基础知识点总览一、AIGC概述二、AIGC的核心要素三、AIGC的关键技术1.深度学习算法2.自然语言处理（NLP）3.计算机视觉（CV）4.多模态技术四、AIGC的应用领域五、AIGC的发展历程六、AIGC面临的挑战与未来展望七、知名AIGC产品与技术总结AIGC基础知识点总览一、AIGC概述定义：AIGC（AI-G
【深度学习】常见模型-BERT（Bidirectional Encoder Representations from Transformers）（双向编码器表示） IT古董深度学习人工智能深度学习 bert 人工智能
BERT（BidirectionalEncoderRepresentationsfromTransformers）BERT是什么？BERT是Google在2018年推出的NLP（自然语言处理）模型，全称BidirectionalEncoderRepresentationsfromTransformers（双向编码器表示）。BERT采用Transformer结构，并使用双向（Bidirectiona
【LangChain编程：从入门到实践】构建记忆系统杭州大厂Java程序媛 DeepSeek R1 &AI人工智能与大数据 java python javascript kotlin golang 架构人工智能
【LangChain编程：从入门到实践】构建记忆系统关键词：LangChain,编程范式,记忆系统,对话系统,AI,NLP,知识库,推理1.背景介绍在人工智能领域，对话系统的研究与应用已经取得了显著的进展。然而，大多数对话系统都面临着一个问题：它们缺乏持久的记忆能力。这意味着每次对话结束后，系统几乎会忘记之前的信息，导致对话体验不连贯，甚至会出现逻辑错误。LangChain是一种新兴的编程范式，它
deepseek和chatgpt能力对比分享是一种传递，一种快乐 chatgpt
你觉得deepseek如何？ChatGPT说：ChatGPTDeepSeek是近年来崛起的AI大模型之一，专注于自然语言处理（NLP）、代码生成和知识检索等任务。它的能力在一些评测中表现良好，特别是在中文理解、数学推理和代码能力方面。如果你是对比DeepSeek与OpenAI（如GPT-4）、Claude、Gemini之类的模型，以下是一些可能的优劣点：优点：中文优化较好：相比一些主要基于英文训练
NLP_[2]-认识文本预处理闵少搞AI NLP 自然语言处理人工智能
文章目录1认识文本预处理1文本预处理及其作用2.文本预处理中包含的主要环节2.1文本处理的基本方法2.2文本张量表示方法2.3文本语料的数据分析2.4文本特征处理2.5数据增强方法2.6重要说明2文本处理的基本方法1.什么是分词2什么是命名实体识别3什么是词性标注¶1认识文本预处理1文本预处理及其作用文本语料在输送给模型钱一般需要一系列的预处理工作才能符合模型输入的要求,如将文本转化成模型需要的张
【论文阅读笔记|EMNLP2023】DemoSG: Demonstration-enhanced Schema-guided Generation for Low-resource Event Ext Rose sait 论文阅读笔记
论文题目：DemoSG:Demonstration-enhancedSchema-guidedGenerationforLow-resourceEventExtraction论文来源：EMNLP2023论文链接：2023.findings-emnlp.121.pdf(aclanthology.org)代码链接：https://github.com/GangZhao98/DemoSG0摘要当前大多数
动态词表采样：一种控制模型词表大小的新方法东方佑量子变法 pandas python
在自然语言处理（NLP）领域，词汇量的大小直接影响着模型的复杂度和性能。面对超大规模的词表，如何有效地管理和利用这些词汇成为了研究者们关注的重点。本文将探讨一种创新的方法——通过动态采样方式从原始词表中提取有效词汇，并限制词表大小在8192以内，同时保留对更大规模词表内容表达的能力。背景介绍随着深度学习技术的发展，尤其是Transformer架构的成功应用，预训练语言模型如BERT、GPT等取得了
ztree设置禁用节点 3213213333332132 JavaScript ztree json setDisabledNode Ajax
ztree设置禁用节点的时候注意，当使用ajax后台请求数据,必须要设置为同步获取数据，否者会获取不到节点对象，导致设置禁用没有效果。 $(function(){ showTree(); setDisabledNode(); });
JVM patch by Taobao bookjovi java HotSpot
在网上无意中看到淘宝提交的hotspot patch，共四个，有意思，记录一下。 7050685：jsdbproc64.sh has a typo in the package name 7058036：FieldsAllocationStyle=2 does not work in 32-bit VM 7060619：C1 should respect inline and
将session存储到数据库中 dcj3sjt126com sql PHP session
CREATE TABLE sessions ( id CHAR(32) NOT NULL, data TEXT, last_accessed TIMESTAMP NOT NULL, PRIMARY KEY (id) ); <?php /** * Created by PhpStorm. * User: michaeldu * Date
Vector 171815164 vector
public Vector<CartProduct> delCart(Vector<CartProduct> cart, String id) { for (int i = 0; i < cart.size(); i++) { if (cart.get(i).getId().equals(id)) { cart.remove(i);
各连接池配置参数比较 g21121 连接池
排版真心费劲，大家凑合看下吧，见谅~ Druid DBCP C3P0 Proxool 数据库用户名称 Username Username User 数据库密码 Password Password Password 驱动名
[简单]mybatis insert语句添加动态字段 53873039oycg mybatis
mysql数据库,id自增,配置如下： <insert id="saveTestTb" useGeneratedKeys="true" keyProperty="id" parameterType=&
struts2拦截器配置云端月影 struts2拦截器
struts2拦截器interceptor的三种配置方法方法1. 普通配置法 <struts> <package name="struts2" extends="struts-default"> &
IE中页面不居中，火狐谷歌等正常 aijuans IE中页面不居中
问题是首页在火狐、谷歌、所有IE中正常显示，列表页的页面在火狐谷歌中正常，在IE6、7、8中都不中，觉得可能那个地方设置的让IE系列都不认识，仔细查看后发现，列表页中没写HTML模板部分没有添加DTD定义，就是<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3
String,int,Integer,char 几个类型常见转换 antonyup_2006 html sql .net
如何将字串 String 转换成整数 int? int i = Integer.valueOf(my_str).intValue(); int i=Integer.parseInt(str); 如何将字串 String 转换成Integer ? Integer integer=Integer.valueOf(str); 如何将整数 int 转换成字串 String ? 1.
PL/SQL的游标类型百合不是茶显示游标(静态游标)隐式游标游标的更新和删除 %rowtype ref游标(动态游标)
游标是oracle中的一个结果集,用于存放查询的结果; PL/SQL中游标的声明; 1,声明游标 2,打开游标(默认是关闭的); 3,提取数据 4,关闭游标注意的要点:游标必须声明在declare中,使用open打开游标,fetch取游标中的数据,close关闭游标隐式游标:主要是对DML数据的操作隐
JUnit4中@AfterClass @BeforeClass @after @before的区别对比 bijian1013 JUnit4 单元测试
一.基础知识 JUnit4使用Java5中的注解（annotation），以下是JUnit4常用的几个annotation： @Before：初始化方法对于每一个测试方法都要执行一次（注意与BeforeClass区别，后者是对于所有方法执行一次）@After：释放资源对于每一个测试方法都要执行一次（注意与AfterClass区别，后者是对于所有方法执行一次
精通Oracle10编程SQL(12)开发包 bijian1013 oracle 数据库 plsql
/* *开发包 *包用于逻辑组合相关的PL/SQL类型（例如TABLE类型和RECORD类型）、PL/SQL项（例如游标和游标变量）和PL/SQL子程序（例如过程和函数） */ --包用于逻辑组合相关的PL/SQL类型、项和子程序，它由包规范和包体两部分组成 --建立包规范：包规范实际是包与应用程序之间的接口，它用于定义包的公用组件，包括常量、变量、游标、过程和函数等 --在包规
【EhCache二】ehcache.xml配置详解 bit1129 ehcache.xml
在ehcache官网上找了多次，终于找到ehcache.xml配置元素和属性的含义说明文档了，这个文档包含在ehcache.xml的注释中！ ehcache.xml ： http://ehcache.org/ehcache.xml ehcache.xsd ： http://ehcache.org/ehcache.xsd ehcache配置文件的根元素是ehcahe ehcac
java.lang.ClassNotFoundException: org.springframework.web.context.ContextLoaderL 白糖_ java eclipse spring tomcat Web
今天学习spring+cxf的时候遇到一个问题：在web.xml中配置了spring的上下文监听器： <listener> <listener-class>org.springframework.web.context.ContextLoaderListener</listener-class> </listener> 随后启动
angular.element boyitech AngularJS AngularJS API angular.element
angular.element 描述: 包裹着一部分DOM element或者是HTML字符串，把它作为一个jQuery元素来处理。（类似于jQuery的选择器啦）如果jQuery被引入了，则angular.element就可以看作是jQuery选择器，选择的对象可以使用jQuery的函数；如果jQuery不可用，angular.e
java-给定两个已排序序列，找出共同的元素。 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class CommonItemInTwoSortedArray { /** * 题目：给定两个已排序序列，找出共同的元素。 * 1.定义两个指针分别指向序列的开始。 * 如果指向的两个元素
sftp 异常，有遇到的吗？求解 Chen.H java jcraft auth jsch jschexception
com.jcraft.jsch.JSchException: Auth cancel at com.jcraft.jsch.Session.connect(Session.java:460) at com.jcraft.jsch.Session.connect(Session.java:154) at cn.vivame.util.ftp.SftpServerAccess.connec
[生物智能与人工智能]神经元中的电化学结构代表什么? comsci 人工智能
我这里做一个大胆的猜想,生物神经网络中的神经元中包含着一些化学和类似电路的结构,这些结构通常用来扮演类似我们在拓扑分析系统中的节点嵌入方程一样,使得我们的神经网络产生智能判断的能力,而这些嵌入到节点中的方程同时也扮演着"经验"的角色.... 我们可以尝试一下...在某些神经
通过LAC和CID获取经纬度信息 dai_lm lac cid
方法1：用浏览器打开http://www.minigps.net/cellsearch.html，然后输入lac和cid信息(mcc和mnc可以填0)，如果数据正确就可以获得相应的经纬度方法2：发送HTTP请求到http://www.open-electronics.org/celltrack/cell.php?hex=0&lac=<lac>&cid=&
JAVA的困难分析 datamachine java
前段时间转了一篇SQL的文章（http://datamachine.iteye.com/blog/1971896），文章不复杂，但思想深刻，就顺便思考了一下java的不足，当砖头丢出来，希望引点和田玉。 -----------------------------------------------------------------------------------------
小学5年级英语单词背诵第二课 dcj3sjt126com english word
money 钱 paper 纸 speak 讲，说 tell 告诉 remember 记得，想起 knock 敲，击，打 question 问题 number 数字，号码 learn 学会，学习 street 街道 carry 搬运，携带 send 发送，邮寄，发射 must 必须 light 灯，光线，轻的 front
linux下面没有tree命令 dcj3sjt126com linux
centos p安装 yum -y install tree mac os安装 brew install tree 首先来看tree的用法 tree 中文解释：tree 功能说明：以树状图列出目录的内容。语　　法：tree [-aACdDfFgilnNpqstux][-I <范本样式>][-P <范本样式
Map迭代方式，Map迭代，Map循环蕃薯耀 Map循环 Map迭代 Map迭代方式
Map迭代方式，Map迭代，Map循环 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年
Spring Cache注解+Redis hanqunfeng spring
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redis</artifactId>
Guava中针对集合的 filter和过滤功能 jackyrong filter
在guava库中，自带了过滤器(filter)的功能，可以用来对collection 进行过滤，先看例子： @Test public void whenFilterWithIterables_thenFiltered() { List<String> names = Lists.newArrayList("John"
学习编程那点事 lampcy 编程 android PHP html5
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
架构师之流处理---------bytebuffer的mark,limit和flip nannan408 ByteBuffer
1.前言。如题，limit其实就是可以读取的字节长度的意思，flip是清空的意思，mark是标记的意思。 2.例子. 例子代码: String str = "helloWorld"; ByteBuffer buff = ByteBuffer.wrap(str.getBytes()); Sy
org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1, column 1 Everyday都不同 $转义 el表达式
最近在做Highcharts的过程中，在写js时，出现了以下异常：严重: Servlet.service() for servlet jsp threw exception org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1,
用Java实现发送邮件到163 tntxia java实现
/* 在java版经常看到有人问如何用javamail发送邮件？如何接收邮件？如何访问多个文件夹等。问题零散，而历史的回复早已经淹没在问题的海洋之中。本人之前所做过一个java项目，其中包含有WebMail功能，当初为用java实现而对javamail摸索了一段时间，总算有点收获。看到论坛中的经常有此方面的问题，因此把我的一些经验帖出来，希望对大家有些帮助。此篇仅介绍用
探索实体类存在的真正意义 java小叶檀 POJO
一. 实体类简述实体类其实就是俗称的POJO,这种类一般不实现特殊框架下的接口，在程序中仅作为数据容器用来持久化存储数据用的 POJO（Plain Old Java Objects）简单的Java对象它的一般格式就是 public class A{ private String id; public Str