Asia-Lee

XGBoost与LightGBM文本分类

目录

用户评论情感极性判别

一、数据准备

二、数据预处理

三、文本特征提取

四、将数据转换为DMatrix类型

五、构建XGBoost模型

1、XGBoost模型主要参数

（1）通用参数

（2）Booster参数

（3）学习目标参数

2、XGBoost模型

（1）基于XGBoost原生接口的分类

（2）基于Scikit-learn接口的分类

六、使用XGBoost做预测，并对模型进行评估

七、LightGBM文本分类

用户评论情感极性判别

一、数据准备

训练集：data_train.csv ，样本数为82025，情感极性标签（0：负面、1：中性、2：正面）

测试集：data_test.csv ，样本数为35157

评论数据主要包括：食品餐饮类，旅游住宿类，金融服务类，医疗服务类，物流快递类；部分数据如下：

二、数据预处理

主要进行中文分词和停用词过滤。

预处理后训练集：clean_train_data.csv

预处理后测试集：clean_test_data.csv

预处理后的部分数据如下：

数据集预处理部分代码如下：

import pandas as pd
import jieba
#去除停用词，返回去除停用词后的文本列表
def clean_stopwords(contents):
    contents_list=[]
    stopwords = {}.fromkeys([line.rstrip() for line in open('data/stopwords.txt', encoding="utf-8")]) #读取停用词表
    stopwords_list = set(stopwords)
    for row in contents:      #循环去除停用词
        words_list = jieba.lcut(row)
        words = [w for w in words_list if w not in stopwords_list]
        sentence=' '.join(words)   #去除停用词后组成新的句子
        contents_list.append(sentence)
    return contents_list
# 将清洗后的文本和标签写入.csv文件中
def after_clean2csv(contents, labels): #输入为文本列表和标签列表
    columns = ['contents', 'labels']
    save_file = pd.DataFrame(columns=columns, data=list(zip(contents, labels)))
    save_file.to_csv('data/clean_data_test.csv', index=False, encoding="utf-8")

if __name__ == '__main__':
    train_data = pd.read_csv('data/data_test.csv', sep='\t',
                             names=['ID', 'type', 'review', 'label']).astype(str)
    labels=[]
    for i in range(len(train_data['label'])):
        labels.append(train_data['label'][i])
    contents=clean_stopwords(train_data['review'])
    after_clean2csv(contents,labels)

三、文本特征提取

使用sklearn计算训练集的TF-IDF，并将训练集和测试集分别转换为TF-IDF权重矩阵，作为模型的输入。

# coding=utf-8
import pandas as pd
import xgboost as xgb
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn import metrics
from sklearn.model_selection import train_test_split

if __name__ == '__main__':
    train_data = pd.read_csv('data/clean_data_train.csv', sep=',', names=['contents', 'labels']).astype(str)
    cw = lambda x: int(x)
    train_data['labels']=train_data['labels'].apply(cw)

    x_train, x_test, y_train, y_test = train_test_split(train_data['contents'], train_data['labels'], test_size=0.1)

    # 将语料转化为词袋向量，根据词袋向量统计TF-IDF
    vectorizer = CountVectorizer(max_features=5000)
    tf_idf_transformer = TfidfTransformer()
    tf_idf = tf_idf_transformer.fit_transform(vectorizer.fit_transform(x_train))
    x_train_weight = tf_idf.toarray()  # 训练集TF-IDF权重矩阵
    tf_idf = tf_idf_transformer.transform(vectorizer.transform(x_test))
    x_test_weight = tf_idf.toarray()  # 测试集TF-IDF权重矩阵

四、将数据转换为DMatrix类型

XGBoost 的二进制的缓存文件，加载的数据存储在对象 DMatrix 中。

    # 将数据转化为DMatrix类型
    dtrain = xgb.DMatrix(x_train_weight, label=y_train)
    dtest = xgb.DMatrix(x_test_weight, label=y_test)
    
    # 保存测试集数据，以便模型训练完成直接调用
    # dtest.save_binary('data/dtest.buffer')

五、构建XGBoost模型

XGBoost有两大类接口：XGBoost原生接口 和 scikit-learn接口 ，并且XGBoost能够实现分类和回归两种任务。

1、XGBoost模型主要参数

XGBoost所有的参数分成了三类：通用参数：宏观函数控制；Booster参数：控制每一步的booster；目标参数：控制训练目标的表现。

（1）通用参数

booster[默认gbtree]：gbtree：基于树的模型、gbliner：线性模型
silent[默认0]：值为1时，静默模式开启，不会输出任何信息
nthread[默认值为最大可能的线程数]：这个参数用来进行多线程控制，应当输入系统的核数。如果你希望使用CPU全部的核，那就不要输入这个参数，算法会自动检测它

（2）Booster参数

这里只介绍tree booster，因为它的表现远远胜过linear booster，所以linear booster很少用到

eta[默认0.3]：和GBM中的 learning rate 参数类似。通过减少每一步的权重，可以提高模型的鲁棒性。常用的值为0.2, 0.3
max_depth[默认6]：这个值为树的最大深度。max_depth越大，模型会学到更具体更局部的样本。常用的值为6
gamma[默认0]：Gamma指定了节点分裂所需的最小损失函数下降值。这个参数的值越大，算法越保守。这个参数的值和损失函数息息相关。
subsample[默认1]：这个参数控制对于每棵树，随机采样的比例。减小这个参数的值，算法会更加保守，避免过拟合。但是，如果这个值设置得过小，它可能会导致欠拟合。常用的值：0.7-1
colsample_bytree[默认1]：用来控制每棵随机采样的列数的占比(每一列是一个特征)。常用的值：0.7-1

（3）学习目标参数

objective[默认reg:linear]：这个参数定义需要被最小化的损失函数。binary:logistic二分类的逻辑回归，返回预测的概率。multi:softmax 使用softmax的多分类器，返回预测的类别。这种情况下，还需要多设一个参数：num_class(类别数目)。 multi:softprob 和multi:softmax参数一样，但是返回的是每个数据属于各个类别的概率。
eval_metric[默认值取决于objective参数的取值]：对于有效数据的度量方法。对于回归问题，默认值是rmse，对于分类问题，默认值是error。其他的值：rmse 均方根误差； mae 平均绝对误差；logloss 负对数似然函数值；error 二分类错误率(阈值为0.5)； merror 多分类错误率；mlogloss 多分类logloss损失函数；auc 曲线下面积。
seed[默认0]：随机数的种子设置它可以复现随机数据的结果。

2、XGBoost模型

（1）基于XGBoost原生接口的分类

 #基于XGBoost原生接口的分类
 #xgboost模型构建
    param = {'silent': 0, 'eta': 0.3, 'max_depth': 6, 'objective': 'multi:softmax', 'num_class': 3, 'eval_metric': 'merror'}  # 参数
    evallist = [(dtrain, 'train'), (dtest, 'test')]
    num_round = 100  # 循环次数
    xgb_model = xgb.train(param, dtrain, num_round,evallist)
    # 保存训练模型
    # xgb_model.save_model('data/xgb_model')
    # xgb_model=xgb.Booster(model_file='data/xgb_model') #加载训练好的xgboost模型

（2）基于Scikit-learn接口的分类

#基于Scikit-learn接口的分类
    # 训练模型
    model = xgb.XGBClassifier(max_depth=6, learning_rate=0.1, n_estimators=100, silent=True, objective='multi:softmax')
    model.fit(x_train_weight, y_train)
    y_predict=model.predict(x_test_weight)

六、使用XGBoost做预测，并对模型进行评估

    '''
    #利用训练完的模型直接测试
    xgb_model = xgb.Booster(model_file='data/xgb_model')  # init model #加载模型
    dtest = xgb.DMatrix('data/test.buffer')  #加载数据
    xgb_test(dtest,xgb_model)
    '''

    y_predict = xgb_model.predict(dtest)  # 模型预测
    label_all = ['负面', '中性','正面']
    confusion_mat = metrics.confusion_matrix(y_test, y_predict)
    df = pd.DataFrame(confusion_mat, columns=label_all)
    df.index = label_all
    print('准确率：', metrics.accuracy_score(y_test, y_predict))
    print('confusion_matrix:', df)
    print('分类报告:', metrics.classification_report(y_test, y_predict))

模型分类结果如下：

七、LightGBM文本分类

# coding=utf-8
import pandas as pd
import numpy as np
from sklearn import metrics
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
import lightgbm as lgb
from sklearn.model_selection import train_test_split

if __name__ == '__main__':
    train_data = pd.read_csv('data/clean_data_train.csv', sep=',', names=['contents', 'labels']).astype(str)
    '''
    test_data = pd.read_csv('data/clean_data_test.csv', sep=',', names=['contents', 'labels']).astype(str)
    cw = lambda x: int(x)
    x_train = train_data['contents']
    y_train = np.array(train_data['labels'].apply(cw))
    x_test = test_data['contents']
    y_test = np.array(test_data['labels'].apply(cw))

    '''
    x_train, x_test, y_train, y_test = train_test_split(train_data['contents'], train_data['labels'], test_size=0.1)
    cw = lambda x: int(x)
    x_train = x_train
    y_train = np.array(y_train.apply(cw))
    x_test = x_test
    y_test = np.array(y_test.apply(cw))

    # 将语料转化为词袋向量，根据词袋向量统计TF-IDF
    vectorizer = CountVectorizer(max_features=5000)
    tf_idf_transformer = TfidfTransformer()
    tf_idf = tf_idf_transformer.fit_transform(vectorizer.fit_transform(x_train))
    x_train_weight = tf_idf.toarray()  # 训练集TF-IDF权重矩阵
    tf_idf = tf_idf_transformer.transform(vectorizer.transform(x_test))
    x_test_weight = tf_idf.toarray()  # 测试集TF-IDF权重矩阵

    # 创建成lgb特征的数据集格式
    lgb_train = lgb.Dataset(x_train_weight, y_train)
    lgb_val = lgb.Dataset(x_test_weight, y_test, reference=lgb_train)

    # 构建lightGBM模型
    params = {'max_depth': 5, 'min_data_in_leaf': 20, 'num_leaves': 35,
              'learning_rate': 0.1, 'lambda_l1': 0.1, 'lambda_l2': 0.2,
              'objective': 'multiclass', 'num_class': 3, 'verbose': -1}
    # 设置迭代次数，默认为100，通常设置为100+
    num_boost_round = 1000
    # 训练 lightGBM模型
    gbm = lgb.train(params, lgb_train, num_boost_round, verbose_eval=100, valid_sets=lgb_val)

    # 保存模型到文件
    # gbm.save_model('data/lightGBM_model')

    # 预测数据集
    y_pred = gbm.predict(x_test_weight, num_iteration=gbm.best_iteration)

    y_predict = np.argmax(y_pred, axis=1)  # 获得最大概率对应的标签

    label_all = ['负面', '中性', '正面']
    confusion_mat = metrics.confusion_matrix(y_test, y_predict)
    df = pd.DataFrame(confusion_mat, columns=label_all)
    df.index = label_all

    print('准确率：', metrics.accuracy_score(y_test, y_predict))
    print('confusion_matrix:', df)
    print('分类报告:', metrics.classification_report(y_test, y_predict))

分类结果如下：

参考：

1、安装包下载网址

2、XGBoost学习文档

3、XGBoost和LightGBM的参数以及调参

4、XGBoost数据比赛之调参

5、LightGBM调参笔记

6、kaggle——泰坦尼克之灾(基于LGBM）

你可能感兴趣的:(文本分类)

FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
欺诈文本分类检测（十四）：GPTQ量化模型沉下心来学鲁班微调分类人工智能语言模型微调
1.引言量化的本质：通过将模型参数从高精度（例如32位）降低到低精度（例如8位），来缩小模型体积。本文将采用一种训练后量化方法GPTQ，对前文已经训练并合并过的模型文件进行量化，通过比较模型量化前后的评测指标，来测试量化对模型性能的影响。GPTQ的核心思想在于：将所有权重压缩到8位或4位量化中，通过最小化与原始权重的均方误差来实现。在推理过程中，它将动态地将权重解量化为float16，以提高性能，
【自然语言处理】自然语言处理NLP概述及应用 @我们的天空人工智能技术 nlp 人工智能深度学习 python 机器学习自然语言处理 scikit-learn
自然语言处理（NaturalLanguageProcessing，简称NLP）是一门集计算机科学、人工智能以及语言学于一体的交叉学科，致力于让计算机能够理解、解析、生成和处理人类的自然语言。它是人工智能领域的一个关键分支，旨在缩小人与机器之间的交流障碍，使得机器能够更有效地识别并响应人类的自然语言指令或内容。自然语言处理NLP概述基本任务：文本分类：将文本划分为预定义的类别，如情感分析、主题分类等
【机器学习】朴素贝叶斯方法的概率图表示以及贝叶斯统计中的共轭先验方法 Lossya 机器学习概率论人工智能朴素贝叶斯共轭先验
引言朴素贝叶斯方法是一种基于贝叶斯定理的简单概率模型，它假设特征之间相互独立。文章目录引言一、朴素贝叶斯方法的概率图表示1.1节点表示1.2边表示1.3无其他连接1.4总结二、朴素贝叶斯的应用场景2.1文本分类2.2推荐系统2.3医疗诊断2.4欺诈检测2.5情感分析2.6邮件过滤2.7信息检索2.8生物信息学三、朴素贝叶斯的优点四、朴素贝叶斯的局限性4.1特征独立性假设4.2敏感于输入数据的表示4
NLP-预训练模型-中文：封神榜系列【姜子牙（通用大模型）、太乙（多模态）、二郎神（语言理解）、闻仲（语言生成）、燃灯（语言转换）、余元（领域）、...】 u013250861 LLM 自然语言处理人工智能深度学习
封神榜模型系列简介系列名称需求适用任务参数规模备注姜子牙通用通用大模型>70亿参数通用大模型“姜子牙”系列，具备翻译，编程，文本分类，信息抽取，摘要，文案生成，常识问答和数学计算等能力太乙特定多模态8千万-10亿参数应用于跨模态场景，包括文本图像生成，蛋白质结构预测,语音-文本表示等
自然语言处理系列五十一》文本分类算法》Python快速文本分类器FastText 陈敬雷-充电了么-CEO兼CTO 算法人工智能大数据自然语言处理分类 python chatgpt 人工智能 ai 机器学习
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》（人工智能科学与技术丛书）【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列五十一Python开源快速文本分类器FastText》算法原理FastText和Word2vec的区别FastText代码实战总结自然语言处理系列五十一Python开源快速文本分类器FastText》算法原理自然语言处理(N
自然语言处理系列五十》文本分类算法》SVM支持向量机算法原理陈敬雷-充电了么-CEO兼CTO 算法大数据人工智能算法自然语言处理分类 nlp ai 人工智能 chatgpt
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》（人工智能科学与技术丛书）【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列五十SVM支持向量机》算法原理SVM支持向量机》代码实战总结自然语言处理系列五十SVM支持向量机》算法原理SVM支持向量机在文本分类的应用场景中，相比其他机器学习算法有更好的效果。下面介绍其原理，并用SparkMLlib机器
Hugging Face教程小牛笔记自然语言处理人工智能自然语言处理
HuggingFace教程1.引言在当今数字化时代，自然语言处理（NLP）在各个领域中扮演着重要角色。从文本分类、情感分析到机器翻译和对话系统，NLP技术的应用日益广泛。在NLP领域，HuggingFace是一个备受欢迎的开源工具库，提供了丰富的预训练模型和强大的工具，帮助开发者快速构建和部署NLP应用。2.HuggingFace简介HuggingFace是一个专注于NLP的开源组织，致力于提供易
RNN及其变体豫儿啊~ lstm 人工智能 rnn
RNN及其变体RNN模型定义循环神经网络:一般接受的一序列进行输入,输出也是一个序列作用和应用场景:RNN擅长处理连续语言文本,机器翻译,文本生成,文本分类,摘要生成RNN模型的分类根据输入与输出结构NVsN:输入和输出等长,应用场景:对联生成;词性标注;NERNVs1:输入N,输出为单值,应用场景:文本分类1VsN:输出是一个,输出为N,应用场景:图片文本生成NVsM:输入和输出不等长,应用场景
文字模型训练分析评论（算法实战）富士达幸运星算法人工智能机器学习
文字模型训练，尤其是在自然语言处理（NLP）领域，是构建能够理解、解释、生成人类语言系统的核心步骤。这类模型广泛应用于文本分类、情感分析、机器翻译、聊天机器人、摘要生成等多个方面。针对文字模型训练后的分析评论，可以从以下几个方面进行：1.性能评估准确率/错误率：评估模型在测试集上的准确率或错误率是最直接的方式，这能反映模型的基本性能。混淆矩阵：对于分类任务，混淆矩阵可以详细展示模型在各个类别上的表
快速使用transformers的pipeline实现各种深度学习任务 E寻数据 huggingface 计算机视觉 nlp 深度学习人工智能 python pipeline transformers
目录引言安装情感分析文本生成文本摘要图片分类实例分割目标检测音频分类自动语音识别视觉问答文档问题回答图文描述引言在这篇中文博客中，我们将深入探讨使用transformers库中的pipeline()函数，它为预训练模型提供了一个简单且快速的推理方法。pipeline()函数支持多种任务，包括文本分类、文本生成、摘要生成、图像分类、图像分割、对象检测、音频分类、自动语音识别、视觉问题回答、文档问题回
AIGC自动行为采集的文本分类任务——结和上下文情景自动编码（含数据清洗以及提示词和代码）——批量处理东方-教育技术博主学术学习相关分类数据挖掘人工智能
文章目录数据清洗二次清洗数据上下文情景顺序应该先处算情境批量操作excel数据清洗遍历python脚本所在目录所有excel文件读取所有文件的‘’标注‘’列，遍历读取这一列每行数据，删除所有数据中不包含：1学生回答问题2出声思考3学生举手/提问/建议4学生获得成就时刻5学生与家长互动6家长辅导学生7家长鼓励学生8家长批评/惩罚学生这八条中的数据，如果遇到学生回答问题R1，或者学生回答问题R2学生回
【机器学习】机器学习与大模型在人工智能领域的融合应用与性能优化新探索 E绵绵 Everything 人工智能机器学习大模型 python AIGC 应用科技
文章目录引言机器学习与大模型的基本概念机器学习概述监督学习无监督学习强化学习大模型概述GPT-3BERTResNetTransformer机器学习与大模型的融合应用自然语言处理文本生成文本分类机器翻译图像识别自动驾驶医学影像分析语音识别智能助手语音转文字大模型性能优化的新探索模型压缩权重剪枝量化知识蒸馏分布式训练数据并行模型并行异步训练高效推理模型裁剪缓存机制专用硬件未来展望跨领域应用智能化系统人
欺诈文本分类微调（六）：Lora单卡训练沉下心来学鲁班微调分类人工智能机器学习语言模型微调
1.引言前面欺诈文本分类微调（四）：构造训练/测试数据集已经构造出了数据集，更之前的欺诈文本分类微调（一）：基座模型选型选好了基座模型，这篇文章将基于构造出的数据集和选定的模型进行欺诈文本分类的微调训练。关于微调方法，我们将使用比较普遍的Lora：在模型中注入低秩矩阵的方式。关于训练器，使用transformers库中提供的Trainer类。2.数据准备2.1加载数据导入要使用的基础包。impor
【ShuQiHere】“从 One-Hot 到 GPT：窥探词表示技术的演变” ShuQiHere gpt 神经网络机器学习人工智能
【ShuQiHere】在自然语言处理（NLP）领域，如何让机器理解人类语言一直是一个核心问题。而词表示（WordRepresentation）正是解决这个问题的基础技术。通过词表示，我们可以将文本中的词语转化为计算机能够理解和处理的数字向量，这为各种NLP任务，如文本分类、情感分析、机器翻译等，提供了强大的支持。从最早的One-Hot编码，到如今广泛应用的上下文相关词嵌入技术，词表示技术已经走过了
自然语言处理（NLP）技术的概念及优势刘小董学习心得自然语言处理
自然语言处理（NLP）是人工智能领域的一个重要分支，其目标是使计算机能够理解、处理和生成人类自然语言的形式和含义。NLP技术的优势包括：实现人机交互：NLP技术可以使计算机与人类之间实现自然的语言交互，使人们可以通过语音识别、语义理解等方式与计算机进行交流。大规模文本处理：NLP技术可以对大规模文本进行自动化处理和分析，提取关键信息和知识，从而实现文本分类、情感分析、信息检索等任务。自动化翻译：N
《倒排索引》刚满十八工地搬砖数据结构
1、了解倒排索引的基本概念1.1、倒排索引是什么倒排索引是一种用于全文搜索的数据结构，它将文档中的每个单词映射到包含该单词的所有文档的列表中，然后用该列表替换单词。因此，倒排索引在文本搜索和信息检索中广泛应用，如搜索引擎、网站搜索、文本分类等场景中。具体来说，一个倒排索引包含一个词语词典和每个词语对应的倒排列表。倒排列表中记录了包含该词语的所有文档的编号、词频等信息。这让我们能够在O(1)的时间内
NLP技术小天才dhsb 网络其他
自然语言处理（NLP）技术可以应用在多个领域，例如机器翻译、情感分析、文本分类等。以下是几个例子：1.机器翻译：NLP技术可以将一种语言的文本自动翻译成另一种语言。例如，谷歌翻译就是应用了NLP技术，它可以将英语的文本翻译成其他语言，如法语、西班牙语等。2.情感分析：NLP技术可以分析文本中的情感倾向。例如，通过分析社交媒体上用户的评论和推文，可以判断用户对某个产品或事件的情感态度是正面的、负面的
大语言模型可信性浅谈 MarkHD 语言模型人工智能自然语言处理
大语言模型可信性的研究摘要：随着人工智能技术的快速发展，大语言模型在自然语言处理领域的应用越来越广泛。然而，大语言模型的可信性一直是人们关注的焦点。本文将从多个维度探讨大语言模型的可信性问题，包括模型性能、数据质量、隐私保护等方面，并提出相应的解决方案。一、引言大语言模型是指能够处理大规模文本数据的深度学习模型，如BERT、GPT等。这些模型在自然语言处理任务中取得了显著的成果，包括文本分类、情感
基于ERNIR3.0文本分类的开发实践 wangqiaowq 人工智能
参考：基于ERNIR3.0文本分类：(KUAKE-QIC)意图识别多分类(单标签)-飞桨AIStudio星河社区(baidu.com)https://zhuanlan.zhihu.com/p/574666812?utm_id=0遇到的问题：如下采用paddleNLP下文本分类实例进行分类训练后发现生成的模型分类不准。打算自己开发脚本进行分类计算再进行服务化部署。基于ERNIR3.0文本分类任务模型
【探索AI】四：AI（人工智能）自然语言处理（NLP）美少女战士1@ 学习笔记 AI 人工智能自然语言处理
自然语言处理（NLP）的概念自然语言处理（NaturalLanguageProcessing，NLP）是一门交叉学科，涉及人工智能、计算机科学和语言学等领域，旨在让计算机能够理解、分析、生成和处理人类语言。NLP技术致力于使计算机能够与人类以自然语言进行交流，从而实现更加智能、便捷的人机交互。在自然语言处理中，常见的任务包括但不限于：文本分类：将文本按照预定义的类别进行分类，如垃圾邮件分类、新闻分
文本分类算法能够应用于哪些领域？真实项目场景介绍思通数科x 分类数据挖掘人工智能多分类
我们有幸参与了多个涉及分类算法的项目，这些项目覆盖了多个行业，展示了分类算法的广泛应用和巨大潜力。下面我为大家介绍几个实际的真实项目案例：1.某城市档案馆我们为一线某城市的档案馆开发了一个智能分类系统。这个系统能够自动识别和分类158种不同类型的公文，极大地提高了档案管理的效率。通过机器学习算法，我们训练了一个模型，它能够理解公文的内容和格式，从而实现快速且准确的分类。这不仅减少了人工分类的时间，
朴素贝叶斯算法 YuanDaima2048 机器学习算法学习算法机器学习人工智能深度学习 python sklearn
朴素贝叶斯算法一、基本概念二、算法及代码应用朴素贝叶斯NB算法分类算法区别其他机器学习算法：机器学习实战工具安装和使用一、基本概念朴素贝叶斯（NB）是一种基于贝叶斯定理与特征条件独立假设的分类算法。它被广泛应用于文本分类、垃圾邮件过滤等领域。朴素贝叶斯算法简单易懂，其核心思想是假设在给定目标值时，各个属性之间相互独立。在实际应用中，朴素贝叶斯算法在垃圾邮件过滤中表现出色。它不仅准确率高，而且速度快
21丨朴素贝叶斯分类（下）：如何对文档进行分类？张九日zx
朴素贝叶斯分类最适合的场景就是文本分类、情感分析和垃圾邮件识别。sklearn机器学习包sklearn的全称叫Scikit-learn，它给我们提供了3个朴素贝叶斯分类算法，分别是高斯朴素贝叶斯（GaussianNB）、多项式朴素贝叶斯（MultinomialNB）和伯努利朴素贝叶斯（BernoulliNB）。自然界的现象比较适合用高斯朴素贝叶斯来处理，而文本分类是使用多项式朴素贝叶斯或者伯努利朴
Task6 基于深度学习的文本分类3 listentorain_W
基于深度学习的文本分类学习目标了解Transformer的原理和基于预训练语言模型（Bert）的词表示学会Bert的使用，具体包括pretrain和finetune文本表示方法Part4Transformer原理Transformer是在"AttentionisAllYouNeed"中提出的，模型的编码部分是一组编码器的堆叠（论文中依次堆叠六个编码器），模型的解码部分是由相同数量的解码器的堆叠。i
8、python多项式贝叶斯文本分类（完整） UP Lee 数据挖掘实战多项式贝叶斯文章分类
1、贝叶斯定理（BayesTheorem）朴素贝叶斯分类（NaiveBayesClassifier）贝叶斯分类算法，是统计学的一种分类方法，它是利用贝叶斯定理的概率统计知识，对离散型的数据进行分类的算法2、贝叶斯算法的类型sklearn包naive_bayes模块GaussianNB高斯贝叶斯BernoulliNB伯努利贝叶斯MultionmialNB多项式贝叶斯（需要知道具体每个特征的数值大小）
zero shot classification提取主题词狗庄欺人太甚 NLP 机器学习 python 算法
基于NLI的零镜头文本分类。zeroshotclassification提出了一种使用预训练的NLI模型作为现成的零样本序列分类器的方法。该方法的工作原理是将要分类的序列设置为NLI前提，并从每个候选标签构建一个假设。例如，如果我们想评估一个序列是否属于“政治”类，我们可以构建一个“本文是关于政治”的假设。然后将蕴涵和矛盾的概率转换为标签概率。这种方法在许多情况下都非常有效，尤其是与BART和Ro
Task5 基于深度学习的文本分类2 listentorain_W
Task5基于深度学习的文本分类2在上一章节，我们通过FastText快速实现了基于深度学习的文本分类模型，但是这个模型并不是最优的。在本章我们将继续深入。基于深度学习的文本分类本章将继续学习基于深度学习的文本分类。学习目标学习Word2Vec的使用和基础原理学习使用TextCNN、TextRNN进行文本表示学习使用HAN网络结构完成文本分类文本表示方法Part3词向量本节通过word2vec学习
使用word2vec+tensorflow自然语言处理NLP 取名真难. 机器学习自然语言处理 word2vec tensorflow 机器学习深度学习神经网络
目录介绍：搭建上下文或预测目标词来学习词向量建模1：建模2：预测：介绍：Word2Vec是一种用于将文本转换为向量表示的技术。它是由谷歌团队于2013年提出的一种神经网络模型。Word2Vec可以将单词表示为高维空间中的向量，使得具有相似含义的单词在向量空间中距离较近。这种向量表示可以用于各种自然语言处理任务，如语义相似度计算、文本分类和命名实体识别等。Word2Vec的核心思想是通过预测上下文或
ERNIE实现酒店情感分析（文本分类） OverlordDuke 深度学习 NLP 分类数据挖掘人工智能 NLP
ERNIE实现酒店情感分析（文本分类）引言在自然语言处理（NLP）领域，文本分类是一项重要的任务，它能够帮助我们理解和分析大量的文本数据。随着深度学习技术的发展，预训练模型成为了处理文本分类任务的重要工具。本项目将介绍如何利用PaddleHub和预训练模型ERNIE来完成酒店情感分析，即对酒店评论进行积极或消极的分类。项目背景与意义在过去，NLP文本处理主要依赖于序列模型，如循环神经网络（RNN）
java解析APK 3213213333332132 java apk linux 解析APK
解析apk有两种方法 1、结合安卓提供apktool工具，用java执行cmd解析命令获取apk信息 2、利用相关jar包里的集成方法解析apk 这里只给出第二种方法，因为第一种方法在linux服务器下会出现不在控制范围之内的结果。 public class ApkUtil { /** * 日志对象 */ private static Logger
nginx自定义ip访问N种方法 ronin47 nginx 禁止ip访问
　　　因业务需要，禁止一部分内网访问接口，　由于前端架了F5，直接用deny或allow是不行的，这是因为直接获取的前端Ｆ５的地址。　　　所以开始思考有哪些主案可以实现这样的需求，目前可实施的是三种：　　　一：把ip段放在redis里，写一段lua 二：利用geo传递变量，写一段
mysql timestamp类型字段的CURRENT_TIMESTAMP与ON UPDATE CURRENT_TIMESTAMP属性 dcj3sjt126com mysql
timestamp有两个属性，分别是CURRENT_TIMESTAMP 和ON UPDATE CURRENT_TIMESTAMP两种，使用情况分别如下： 1. CURRENT_TIMESTAMP 当要向数据库执行insert操作时，如果有个timestamp字段属性设为 CURRENT_TIMESTAMP，则无论这
struts2+spring+hibernate分页显示 171815164 Hibernate
分页显示一直是web开发中一大烦琐的难题，传统的网页设计只在一个JSP或者ASP页面中书写所有关于数据库操作的代码，那样做分页可能简单一点，但当把网站分层开发后，分页就比较困难了，下面是我做Spring+Hibernate+Struts2项目时设计的分页代码，与大家分享交流。　　1、DAO层接口的设计，在MemberDao接口中定义了如下两个方法： public in
构建自己的Wrapper应用 g21121 rap
我们已经了解Wrapper的目录结构，下面可是正式利用Wrapper来包装我们自己的应用，这里假设Wrapper的安装目录为:/usr/local/wrapper。首先，创建项目应用 &nb
[简单]工作记录_多线程相关 53873039oycg 多线程
最近遇到多线程的问题,原来使用异步请求多个接口(n*3次请求) 方案一使用多线程一次返回数据,最开始是使用5个线程,一个线程顺序请求3个接口,超时终止返回缺点测试发现必须3个接
调试jdk中的源码，查看jdk局部变量程序员是怎么炼成的 jdk 源码
转自：http://www.douban.com/note/211369821/ 学习jdk源码时使用-- 学习java最好的办法就是看jdk源代码，面对浩瀚的jdk（光源码就有40M多，比一个大型网站的源码都多）从何入手呢，要是能单步调试跟进到jdk源码里并且能查看其中的局部变量最好了。可惜的是sun提供的jdk并不能查看运行中的局部变量
Oracle RAC Failover 详解 aijuans oracle
Oracle RAC 同时具备HA(High Availiablity) 和LB(LoadBalance). 而其高可用性的基础就是Failover(故障转移). 它指集群中任何一个节点的故障都不会影响用户的使用，连接到故障节点的用户会被自动转移到健康节点，从用户感受而言，是感觉不到这种切换。 Oracle 10g RAC 的Failover 可以分为3种： 1. Client-Si
form表单提交数据编码方式及tomcat的接受编码方式 antonyup_2006 JavaScript tomcat 浏览器互联网 servlet
原帖地址：http://www.iteye.com/topic/266705 form有2中方法把数据提交给服务器，get和post,分别说下吧。（一）get提交 1.首先说下客户端（浏览器）的form表单用get方法是如何将数据编码后提交给服务器端的吧。对于get方法来说，都是把数据串联在请求的url后面作为参数，如：http://localhost:
JS初学者必知的基础百合不是茶 js函数 js入门基础
JavaScript是网页的交互语言,实现网页的各种效果, JavaScript 是世界上最流行的脚本语言。 JavaScript 是属于 web 的语言，它适用于 PC、笔记本电脑、平板电脑和移动电话。 JavaScript 被设计为向 HTML 页面增加交互性。许多 HTML 开发者都不是程序员，但是 JavaScript 却拥有非常简单的语法。几乎每个人都有能力将小的
iBatis的分页分析与详解 bijian1013 java ibatis
分页是操作数据库型系统常遇到的问题。分页实现方法很多，但效率的差异就很大了。iBatis是通过什么方式来实现这个分页的了。查看它的实现部分，发现返回的PaginatedList实际上是个接口，实现这个接口的是PaginatedDataList类的对象，查看PaginatedDataList类发现，每次翻页的时候最
精通Oracle10编程SQL(15)使用对象类型 bijian1013 oracle 数据库 plsql
/* *使用对象类型 */ --建立和使用简单对象类型 --对象类型包括对象类型规范和对象类型体两部分。 --建立和使用不包含任何方法的对象类型 CREATE OR REPLACE TYPE person_typ1 as OBJECT( name varchar2(10),gender varchar2(4),birthdate date ); drop type p
【Linux命令二】文本处理命令awk bit1129 linux命令
awk是Linux用来进行文本处理的命令，在日常工作中，广泛应用于日志分析。awk是一门解释型编程语言，包含变量，数组，循环控制结构，条件控制结构等。它的语法采用类C语言的语法。 awk命令用来做什么？ 1.awk适用于具有一定结构的文本行，对其中的列进行提取信息 2.awk可以把当前正在处理的文本行提交给Linux的其它命令处理，然后把直接结构返回给awk 3.awk实际工
JAVA(ssh2框架)+Flex实现权限控制方案分析白糖_ java
目前项目使用的是Struts2+Hibernate+Spring的架构模式，目前已经有一套针对SSH2的权限系统，运行良好。但是项目有了新需求：在目前系统的基础上使用Flex逐步取代JSP，在取代JSP过程中可能存在Flex与JSP并存的情况，所以权限系统需要进行修改。【SSH2权限系统的实现机制】权限控制分为页面和后台两块：不同类型用户的帐号分配的访问权限是不同的，用户使
angular.forEach boyitech AngularJS AngularJS API angular.forEach
angular.forEach 描述: 循环对obj对象的每个元素调用iterator, obj对象可以是一个Object或一个Array. Iterator函数调用方法: iterator(value, key, obj), 其中obj是被迭代对象，key是obj的property key或者是数组的index，value就是相应的值啦. (此函数不能够迭代继承的属性.)
java-谷歌面试题-给定一个排序数组，如何构造一个二叉排序树 bylijinnan 二叉排序树
import java.util.LinkedList; public class CreateBSTfromSortedArray { /** * 题目:给定一个排序数组，如何构造一个二叉排序树 * 递归 */ public static void main(String[] args) { int[] data = { 1, 2, 3, 4,
action执行2次 Chen.H JavaScript jsp XHTML css Webwork
xwork 写道 <action name="userTypeAction" class="com.ekangcount.website.system.view.action.UserTypeAction"> <result name="ssss" type="dispatcher">
[时空与能量]逆转时空需要消耗大量能源 comsci 能源
无论如何,人类始终都想摆脱时间和空间的限制....但是受到质量与能量关系的限制,我们人类在目前和今后很长一段时间内,都无法获得大量廉价的能源来进行时空跨越..... 在进行时空穿梭的实验中,消耗超大规模的能源是必然
oracle的正则表达式(regular expression)详细介绍 daizj oracle 正则表达式
正则表达式是很多编程语言中都有的。可惜oracle8i、oracle9i中一直迟迟不肯加入，好在oracle10g中终于增加了期盼已久的正则表达式功能。你可以在oracle10g中使用正则表达式肆意地匹配你想匹配的任何字符串了。正则表达式中常用到的元数据(metacharacter)如下： ^ 匹配字符串的开头位置。 $ 匹配支付传的结尾位置。 *
报表工具与报表性能的关系 datamachine 报表工具 birt 报表性能润乾报表
在选择报表工具时，性能一直是用户关心的指标，但是，报表工具的性能和整个报表系统的性能有多大关系呢？要回答这个问题，首先要分析一下报表的处理过程包含哪些环节，哪些环节容易出现性能瓶颈，如何优化这些环节。一、报表处理的一般过程分析 1、用户选择报表输入参数后，报表引擎会根据报表模板和输入参数来解析报表，并将数据计算和读取请求以SQL的方式发送给数据库。 2、
初一上学期难记忆单词背诵第一课 dcj3sjt126com word english
what 什么 your 你 name 名字 my 我的 am 是 one 一 two 二 three 三 four 四 five 五 class 班级，课 six 六 seven 七 eight 八 nince 九 ten 十 zero 零 how 怎样 old 老的 eleven 十一 twelve 十二 thirteen
我学过和准备学的各种技术 dcj3sjt126com 技术
语言VB https://msdn.microsoft.com/zh-cn/library/2x7h1hfk.aspxJava http://docs.oracle.com/javase/8/C# https://msdn.microsoft.com/library/vstudioPHP http://php.net/manual/en/Html
struts2中token防止重复提交表单蕃薯耀重复提交表单 struts2中token
struts2中token防止重复提交表单 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月12日 11:52:32 星期日 ht
线性查找二维数组 hao3100590 二维数组
1.算法描述有序（行有序，列有序，且每行从左至右递增，列从上至下递增）二维数组查找，要求复杂度O(n) 2.使用到的相关知识：结构体定义和使用，二维数组传递（http://blog.csdn.net/yzhhmhm/article/details/2045816） 3.使用数组名传递这个的不便之处很明显，一旦确定就是不能设置列值 //使
spring security 3中推荐使用BCrypt算法加密密码 jackyrong Spring Security
spring security 3中推荐使用BCrypt算法加密密码了，以前使用的是md5， Md5PasswordEncoder 和 ShaPasswordEncoder，现在不推荐了，推荐用bcrpt Bcrpt中的salt可以是随机的，比如： int i = 0; while (i < 10) { String password = "1234
学习编程并不难,做到以下几点即可! lampcy java html 编程语言
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
架构师之mysql----------------用group+inner join,left join ,right join 查重复数据（替代in) nannan408 right join
1.前言。如题。 2.代码 (1)单表查重复数据,根据a分组 SELECT m.a,m.b, INNER JOIN （select a,b,COUNT(*) AS rank FROM test.`A` A GROUP BY a HAVING rank>1 )k ON m.a=k.a （2）多表查询，使用改为le
jQuery选择器小结 VS 节点查找（附css的一些东西） Everyday都不同 jquery css name选择器追加元素查找节点
最近做前端页面，频繁用到一些jQuery的选择器，所以特意来总结一下：测试页面： <html> <head> <script src="jquery-1.7.2.min.js"></script> <script> /*$(function() { $(documen
关于EXT tntxia ext
ExtJS是一个很不错的Ajax框架，可以用来开发带有华丽外观的富客户端应用，使得我们的b/s应用更加具有活力及生命力。ExtJS是一个用 javascript编写，与后台技术无关的前端ajax框架。因此，可以把ExtJS用在.Net、Java、Php等各种开发语言开发的应用中。 ExtJs最开始基于YUI技术，由开发人员Jack
一个MIT计算机博士对数学的思考 xjnine Math
在过去的一年中，我一直在数学的海洋中游荡，research进展不多，对于数学世界的阅历算是有了一些长进。为什么要深入数学的世界？作为计算机的学生，我没有任何企图要成为一个数学家。我学习数学的目的，是要想爬上巨人的肩膀，希望站在更高的高度，能把我自己研究的东西看得更深广一些。说起来，我在刚来这个学校的时候，并没有预料到我将会有一个深入数学的旅程。我的导师最初希望我去做的题目，是对appe

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他