自然语言处理玄学实践者

使用PaddlePaddle进行微博谣言检测

近期，在新冠肺炎疫情防控的关键期，网上各种有关疫情防控的谣言接连不断，这些谣言操纵了舆论感情，误导了公众判断，更影响了社会稳定。本项目基于基于循环神经网络（RNN）的课言检测模型实现了微博谣言检测

本实践使用 Paddle Fluid API 编程并搭建一个循环神经网络（Recurrent Neural Network，RNN），进行谣言检测。主要分为五个步骤：

1.数据准备

2.模型配置

3.模型训练

(1)定义网络

(2)定义损失函数

(3)定义优化方法

4.模型评估

5.模型预测

数据集介绍：

本次实践所使用的数据是从新浪微博不实信息举报平台抓取的中文谣言数据，数据集中共包含1538条谣言和1849条非谣言。如下图所示，每条数据均为json格式，其中text字段代表微博原文的文字内容。

数据处理及模型：

# Step1、数据准备
# （1）解压数据，读取并解析数据，生成all_data.txt
# （2）生成数据字典，即dict.txt
# （3）生成数据列表，并进行训练集与验证集的划分，train_list.txt 、eval_list.txt
# （4）定义训练数据集提供器train_reader和验证数据集提供器eval_reader

#解压原始数据集，将Rumor_Dataset.zip解压至data目录下
import zipfile
import os
import random
from PIL import Image
from PIL import ImageEnhance
import json
src_path="D:\PycharmProjects2020\\tensor1\yaoyanjianche\data\Chinese_Rumor_Dataset-master.zip"
target_path="D:\PycharmProjects2020\\tensor1\yaoyanjianche\data\Chinese_Rumor_Dataset-master"
if(not os.path.isdir(target_path)):  #如果不存在target_path路径的话，进行解压
    z = zipfile.ZipFile(src_path, 'r')
    z.extractall(path=target_path)
    z.close()

# 分别为谣言数据、非谣言数据、全部数据的文件路径
rumor_class_dirs = os.listdir(target_path + "/Chinese_Rumor_Dataset-master/CED_Dataset/rumor-repost/")
non_rumor_class_dirs = os.listdir(target_path + "/Chinese_Rumor_Dataset-master/CED_Dataset/non-rumor-repost/")
original_microblog = target_path + "/Chinese_Rumor_Dataset-master/CED_Dataset/original-microblog/"
# 谣言标签为0，非谣言标签为1
rumor_label = "0"
non_rumor_label = "1"

# 分别统计谣言数据与非谣言数据的总数
rumor_num = 0
non_rumor_num = 0

all_rumor_list = []
all_non_rumor_list = []

# 解析谣言数据
for rumor_class_dir in rumor_class_dirs:
    if (rumor_class_dir != '.DS_Store' and rumor_class_dir !='._.DS_Store' ):
        # 遍历谣言数据，并解析  老提示编码错误的原因 ：UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb0
        # 因为文件夹里面除了.DS_Store  还有._.DS_Store文件 ._.DS_Store文件没有判断
        with open(original_microblog + rumor_class_dir, 'r',encoding='UTF-8') as f:
            rumor_content = f.read()
        rumor_dict = json.loads(rumor_content)
        all_rumor_list.append(rumor_label + "\t" + rumor_dict["text"] + "\n")#取text的值并加上标签
        rumor_num += 1

# 解析非谣言数据
for non_rumor_class_dir in non_rumor_class_dirs:
    if (non_rumor_class_dir != '.DS_Store' and non_rumor_class_dir != '._.DS_Store'):
        with open(original_microblog + non_rumor_class_dir, 'r',encoding='UTF-8') as f2:
            non_rumor_content = f2.read()
        non_rumor_dict = json.loads(non_rumor_content)
        all_non_rumor_list.append(non_rumor_label + "\t" + non_rumor_dict["text"] + "\n")
        non_rumor_num += 1

print("谣言数据总量为：" + str(rumor_num))
print("非谣言数据总量为：" + str(non_rumor_num))
# print(all_rumor_list)


# 全部数据进行乱序后写入all_data.txt
data_list_path = "D:\PycharmProjects2020\\tensor1\yaoyanjianche\data"
all_data_path = data_list_path + "\\all_data.txt"
all_data_list = all_rumor_list + all_non_rumor_list
random.shuffle(all_data_list)
# 在生成all_data.txt之前，首先将其清空
with open(all_data_path, 'w',encoding='UTF-8') as f:
    f.seek(0)
    f.truncate()

with open(all_data_path, 'a',encoding='UTF-8') as f:
    for data in all_data_list:
        f.write(data)




# 导入必要的包
import os
from multiprocessing import cpu_count
import numpy as np
import shutil
import paddle
import paddle.fluid as fluid
from PIL import Image
import matplotlib.pyplot as plt


# 生成数据字典
def create_dict(data_path, dict_path):
    dict_set = set()
    # 读取全部数据
    with open(data_path, 'r', encoding='utf-8') as f:
        lines = f.readlines()#读取文件的所有的行，保存在列表中
    # 把数据生成一个集合
    for line in lines:
        content = line.split('\t')[-1].replace('\n', '')#[]括号 里面，表示取值  0是从左到右第一个。-1，从右到左第一个。 既，取标签右边的文字把标签去掉，replace是把'\n'替换成''
        for s in content:
            dict_set.add(s)
    # 把列表转换成字典，一个字对应一个数字
    dict_list = []
    i = 0
    for s in dict_set:
        dict_list.append([s, i])
        i += 1
    # 添加未知字符
    dict_txt = dict(dict_list)
    end_dict = {"": i}
    dict_txt.update(end_dict)
    # 把这些字典保存到本地中
    with open(dict_path, 'w', encoding='utf-8') as f:
        f.write(str(dict_txt))
    print("数据字典生成完成！")

# 获取字典的长度
def get_dict_len(dict_path):
    with open(dict_path, 'r', encoding='utf-8') as f:
        line = eval(f.readlines()[0])
    return len(line.keys())



# 创建序列化表示的数据,并按照一定比例划分训练数据与验证数据
def create_data_list(data_list_path):
    # 在生成数据之前，首先将eval_list.txt和train_list.txt清空
    with open(os.path.join(data_list_path, 'eval_list.txt'), 'w', encoding='utf-8') as f_eval:
        f_eval.seek(0)
        f_eval.truncate()

    with open(os.path.join(data_list_path, 'train_list.txt'), 'w', encoding='utf-8') as f_train:
        f_train.seek(0)
        f_train.truncate()

    with open(os.path.join(data_list_path, 'dict.txt'), 'r', encoding='utf-8') as f_data:
        dict_txt = eval(f_data.readlines()[0])

    with open(os.path.join(data_list_path, 'all_data.txt'), 'r', encoding='utf-8') as f_data:
        lines = f_data.readlines()

    i = 0
    with open(os.path.join(data_list_path, 'eval_list.txt'), 'a', encoding='utf-8') as f_eval, open(
            os.path.join(data_list_path, 'train_list.txt'), 'a', encoding='utf-8') as f_train:
        for line in lines:
            words = line.split('\t')[-1].replace('\n', '')
            label = line.split('\t')[0]
            labs = ""
            if i % 8 == 0:
                for s in words:
                    lab = str(dict_txt[s])
                    labs = labs + lab + ','
                labs = labs[:-1]
                labs = labs + '\t' + label + '\n'
                f_eval.write(labs)
            else:
                for s in words:
                    lab = str(dict_txt[s])
                    labs = labs + lab + ','
                labs = labs[:-1]
                labs = labs + '\t' + label + '\n'
                f_train.write(labs)
            i += 1

    print("数据列表生成完成！")


#dict_path为数据字典存放路径
dict_path = data_list_path + "\dict.txt"

#创建数据字典，存放位置：dict.txt。在生成之前先清空dict.txt
with open(dict_path, 'w') as f:
    f.seek(0)
    f.truncate()
create_dict(all_data_path, dict_path)

#创建数据列表，存放位置：train_list.txt eval_list.txt
create_data_list(data_list_path)




def data_mapper(sample):
    data, label = sample
    data = [int(data) for data in data.split(',')]
    return data, int(label)

#定义数据读取器
def data_reader(data_path):
    def reader():
        with open(data_path, 'r') as f:
            lines = f.readlines()
            for line in lines:
                data, label = line.split('\t')
                yield data, label
    return paddle.reader.xmap_readers(data_mapper, reader, cpu_count(), 1024)


# 获取训练数据读取器和测试数据读取器
BATCH_SIZE = 128

train_list_path = data_list_path+'/train_list.txt'
eval_list_path = data_list_path+'/eval_list.txt'

train_reader = paddle.batch(
		reader=data_reader(train_list_path),
		batch_size=BATCH_SIZE)
eval_reader = paddle.batch(
		reader=data_reader(eval_list_path),
		batch_size=BATCH_SIZE)




# Step2、配置网络
#（1）搭建网络
# 定义长短期记忆网络

def lstm_net(ipt, input_dim):

    # 以数据的IDs作为输入

    emb = fluid.layers.embedding(input=ipt, size=[input_dim, 128], is_sparse=True)

    # 第一个全连接层

    fc1 = fluid.layers.fc(input=emb, size=128)

    # 进行一个长短期记忆操作

    lstm1, _ = fluid.layers.dynamic_lstm(input=fc1, #返回：隐藏状态（hidden state），LSTM的神经元状态

                                         size=128) #size=4*hidden_size

    # 第一个最大序列池操作

    fc2 = fluid.layers.sequence_pool(input=fc1, pool_type='max')

    # 第二个最大序列池操作

    lstm2 = fluid.layers.sequence_pool(input=lstm1, pool_type='max')

    # 以softmax作为全连接的输出层，大小为2,也就是正负面

    out = fluid.layers.fc(input=[fc2, lstm2], size=2, act='softmax')

    return out

#（2）定义数据层
# 定义输入数据， lod_level不为0指定输入数据为序列数据
words = fluid.data(name='words', shape=[None,1], dtype='int64', lod_level=1)
label = fluid.data(name='label', shape=[None,1], dtype='int64')


#（3）获取分类器
# 获取数据字典长度
dict_dim = get_dict_len(dict_path)
# 获取分类器
model = lstm_net(words, dict_dim)

#（4）定义损失函数和准确率
# 获取损失函数和准确率
cost = fluid.layers.cross_entropy(input=model, label=label)
avg_cost = fluid.layers.mean(cost)
acc = fluid.layers.accuracy(input=model, label=label)

# 获取预测程序
test_program = fluid.default_main_program().clone(for_test=True)


#（5）定义优化方法

# 定义优化方法
optimizer = fluid.optimizer.AdagradOptimizer(learning_rate=0.001)
opt = optimizer.minimize(avg_cost)


#step3、训练网络&step4、评估网络

#（1）创建Executor
# use_cuda为False,表示运算场所为CPU;use_cuda为True,表示运算场所为GPU
use_cuda = False
place = fluid.CUDAPlace(0) if use_cuda else fluid.CPUPlace()
exe = fluid.Executor(place)
# 进行参数初始化
exe.run(fluid.default_startup_program())


#（2）定义数据映射器
# DataFeeder负责将数据提供器（train_reader,test_reader）返回的数据转成一种特殊的数据结构，使其可以输入到Executor中。
# feed_list设置向模型输入的向变量表或者变量表名

# 定义数据映射器
feeder = fluid.DataFeeder(place=place, feed_list=[words, label])

#(3)展示模型训练曲线

all_train_iter=0
all_train_iters=[]
all_train_costs=[]
all_train_accs=[]

all_eval_iter=0
all_eval_iters=[]
all_eval_costs=[]
all_eval_accs=[]


def draw_process(title,iters,costs,accs,label_cost,lable_acc):
    plt.title(title, fontsize=24)
    plt.xlabel("iter", fontsize=20)
    plt.ylabel("cost/acc", fontsize=20)
    plt.plot(iters, costs,color='red',label=label_cost)
    plt.plot(iters, accs,color='green',label=lable_acc)
    plt.legend()
    plt.grid()
    plt.show()




# （4）训练并保存模型
# Executor接收传入的program,并根据feed map(输入映射表)和fetch_list(结果获取表) 向program中添加feed operators(数据输入算子)和fetch operators（结果获取算子)。
# feed map为该program提供输入数据。fetch_list提供program训练结束后用户预期的变量。
# 每一轮训练结束之后，再使用验证集进行验证，并求出相应的损失值Cost和准确率acc


EPOCH_NUM = 100  # 训练轮数
model_save_dir = "D:\PycharmProjects2020\\tensor1\yaoyanjianche\data\model"  # 模型保存路径
# 开始训练
for pass_id in range(EPOCH_NUM):
    # 进行训练
    for batch_id, data in enumerate(train_reader()):
        train_cost, train_acc = exe.run(program=fluid.default_main_program(),
                                        feed=feeder.feed(data),
                                        fetch_list=[avg_cost, acc])
        all_train_iter = all_train_iter + BATCH_SIZE
        all_train_iters.append(all_train_iter)
        all_train_costs.append(train_cost[0])
        all_train_accs.append(train_acc[0])

        if batch_id % 100 == 0:
            print('Pass:%d, Batch:%d, Cost:%0.5f, Acc:%0.5f' % (pass_id, batch_id, train_cost[0], train_acc[0]))
    # 进行验证
    eval_costs = []
    eval_accs = []
    for batch_id, data in enumerate(eval_reader()):
        eval_cost, eval_acc = exe.run(program=test_program,
                                      feed=feeder.feed(data),
                                      fetch_list=[avg_cost, acc])
        eval_costs.append(eval_cost[0])
        eval_accs.append(eval_acc[0])

        all_eval_iter = all_eval_iter + BATCH_SIZE
        all_eval_iters.append(all_eval_iter)
        all_eval_costs.append(eval_cost[0])
        all_eval_accs.append(eval_acc[0])
        # 计算平均预测损失在和准确率
    eval_cost = (sum(eval_costs) / len(eval_costs))
    eval_acc = (sum(eval_accs) / len(eval_accs))
    print('Test:%d, Cost:%0.5f, ACC:%0.5f' % (pass_id, eval_cost, eval_acc))

# 保存模型
if not os.path.exists(model_save_dir):
    os.makedirs(model_save_dir)
fluid.io.save_inference_model(model_save_dir,
                              feeded_var_names=[words.name],
                              target_vars=[model],
                              executor=exe)
print('训练模型保存完成！')

draw_process("train", all_train_iters, all_train_costs, all_train_accs, "trainning cost", "trainning acc")
draw_process("eval", all_eval_iters, all_eval_costs, all_eval_accs, "evaling cost", "evaling acc")

结果：

预测以及文件分类：

# 导入必要的包
import zipfile
import os
import random
from PIL import Image
from PIL import ImageEnhance
import json

import os
from multiprocessing import cpu_count
import numpy as np
import shutil
import paddle
import paddle.fluid as fluid
from PIL import Image
import matplotlib.pyplot as plt
# 最后的infer有问题，需要修改的地方：
# 1. infer_exe = fluid.Executor(place) 下面的infer_exe.run(fluid.default_startup_program())去掉。这是一个空程序，抛出警告
# 2.get_data函数，s = ''下面类型是int64，不能直接用int转，可使用np.array(dict_txt[s]).astype("int64")
# 3.# 执行预测 下面的exe.run，应该是 infer_exe.run 所有的问题，汇总就是第二个是重点，因为文字处理类案例一直一直没改 get_data 的数据类型是 int64

#文件分类的路径
f1 = open('D:\PycharmProjects2020\\tensor1\yaoyanjianche\data/rumor.csv', 'a+',encoding='utf-8')  # 存放正面  名字也可自定义哦
f2 = open('D:\PycharmProjects2020\\tensor1\yaoyanjianche\data/unrumor.csv', 'a+',encoding='utf-8')  # 存放负面
# 要检测的文件的路径
fileee="D:\PycharmProjects2020\qingganfenlei\data\weibo1.csv"
source = open(fileee,"r")
line = source.readlines()#读取后保存到line  方便后面循环



#（1）创建Executor
# use_cuda为False,表示运算场所为CPU;use_cuda为True,表示运算场所为GPU
use_cuda = False
place = fluid.CUDAPlace(0) if use_cuda else fluid.CPUPlace()
exe = fluid.Executor(place)
# 进行参数初始化
exe.run(fluid.default_startup_program())

# 用训练好的模型进行预测并输出预测结果
# 创建执行器
place = fluid.CPUPlace()
infer_exe = fluid.Executor(place)
infer_exe.run(fluid.default_startup_program())
model_save_dir = "D:\PycharmProjects2020\\tensor1\yaoyanjianche\data\model"
save_path = model_save_dir

# 从模型中获取预测程序、输入数据名称列表、分类器
[infer_program, feeded_var_names, target_var] = fluid.io.load_inference_model(dirname=save_path, executor=infer_exe)


# 获取数据
def get_data(sentence):
    # 读取数据字典
    with open('D:\PycharmProjects2020\\tensor1\yaoyanjianche\data/dict.txt', 'r', encoding='utf-8') as f_data:
        dict_txt = eval(f_data.readlines()[0])
        # print(dict_txt)
    dict_txt = dict(dict_txt)
    # print(dict_txt)
    # 把字符串数据转换成列表数据
    keys = dict_txt.keys()
    data = []
    for s in sentence:
        # 判断是否存在未知字符
        if not s in keys:
            s = ''
        # data.append(int(dict_txt[s]))
        data.append(np.array(dict_txt[s]).astype("int64"))
    # print(data)
    return data



data = []
# 获取数据
#循环一下line 读取数据 并对它getdata 进行处理 放进data中
for i in  line :
    data.append(get_data(i))



# data1 = get_data('兴仁县今天抢小孩没抢走，把孩子母亲捅了一刀，看见这车的注意了，真事，车牌号辽HFM055！！！！！赶紧散播！ 都别带孩子出去瞎转悠了 尤其别让老人自己带孩子出去 太危险了 注意了！！！！辽HFM055北京现代朗动，在各学校门口抢小孩！！！110已经 证实！！全市通缉！！')
# data2 = get_data('重庆真实新闻:2016年6月1日在重庆梁平县袁驿镇发生一起抢儿童事件，做案人三个中年男人，在三中学校到镇街上的一条小路上，把小孩直接弄晕(儿童是袁驿新幼儿园中班的一名学生)，正准备带走时被家长及时发现用棒子赶走了做案人，故此获救！请各位同胞们以此引起非常重视，希望大家有爱心的人传递下')
# data3 = get_data('@尾熊C 要提前预习育儿知识的话，建议看一些小巫写的书，嘻嘻')
# data.append(data1)
# data.append(data2)
# data.append(data3)
# print(data)

# 获取每句话的单词数量
base_shape = [[len(c) for c in data]]

# 生成预测数据
tensor_words = fluid.create_lod_tensor(data, base_shape, place)

# 执行预测
result = infer_exe.run(program=infer_program,
                 feed={feeded_var_names[0]: tensor_words},
                 fetch_list=target_var)

# 分类名称
names = [ '谣言', '非谣言']
# print(range(len(data)))
# print(len(data))
# 获取结果概率最大的label
for i in range(len(data)):
    lab = np.argsort(result)[0][i][-1]
    print('预测结果标签为：%d， 分类为：%s， 概率为：%f' % (lab, names[lab], result[0][i][lab]))
    #进行判断凡是 概率大于0.6的 lab1  放进f2
    if result[0][i][lab] > 0.6  and lab==1:  # 可以自定义范围
        # print(i+'这是一个负面评价')
        # print(SnowNLP(i).sentiments)
        # 这段文本写入neg文件中
        f2.write(line[i])
        # f2.write('\n')
    elif result[0][i][lab] > 0.6  and lab==0:
        f1.write(line[i])

6. NLP自然语言处理（Natural Language Processing）啊波次得饿佛哥 AI人工智能自然语言处理人工智能
自然语言是指人类日常使用的语言，如中文、英语、法语等。自然语言处理是人工智能（AI）领域中的一个重要分支，它结合了计算机科学、语言学和统计学的方法，通过算法对文本和语音进行分析，使计算机能够理解、解释和生成自然语言。随着深度学习技术的发展，NLP在文本分类、机器翻译、情感分析、对话系统等任务中取得了显著进展，推动了人工智能技术在多个领域的广泛应用。自然语言处理的核心任务涉及如何使计算机理解和处理语
pytorch NLP自然语言处理入门一：文本表示 whyte王 pytorch NLP基础 pytorch 自然语言处理人工智能
开始编辑：2024/2/16；最后编辑2024/2/16教程出自：https://learn.microsoft.com/en-sg/training/modules/intro-natural-language-processing-pytorch/第二部分：https://blog.csdn.net/qq_33345365/article/details/136142152本博客旨在探讨处理自
【AI视野·今日NLP 自然语言处理论文速览第八十二期】Tue, 5 Mar 2024 hitrjj LLM NLP Papers 人工智能自然语言处理 NLP 预训练模型文本摘要情绪识别推理训练
AI视野·今日CS.NLP自然语言处理论文速览Tue,5Mar2024(showingfirst100of175entries)Totally100papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersKey-Point-DrivenDataSynthesiswithitsEnhancementonMathematicalReasoningAut
【AI视野·今日NLP 自然语言处理论文速览第七十八期】Wed, 17 Jan 2024 hitrjj NLP LLM Papers NLP LLM 大语言模型文本处理生成模型
AI视野·今日CS.NLP自然语言处理论文速览Wed,17Jan2024(showingfirst100of163entries)Totally100papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersDeductiveClosureTrainingofLanguageModelsforCoherence,Accuracy,andUpdatab
【AI视野·今日NLP 自然语言处理论文速览第七十九期】Thu, 18 Jan 2024 hitrjj LLM NLP Papers 自然语言处理 LLM 大语言模型对话系统 NLP
AI视野·今日CS.NLP自然语言处理论文速览Thu,18Jan2024Totally35papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersDecipheringTextualAuthenticity:AGeneralizedStrategythroughtheLensofLargeLanguageSemanticsforDetectingH
2018-03-05 baitu
使用sar和kSar来发现Linux性能瓶颈剖析内存中的程序之秘JavaEE未来路在何方？用户帐户，授权和密码管理的12个最佳实践NLP自然语言处理框架ClearTKApacheUIMAClearTKLoggingWiththeElasticStack
【NLP 自然语言处理(一)---词向量】 y_dd 深度学习自然语言处理人工智能
文章目录什么是NLP自然语言处理发展历程自然语言处理模型模型能识别单词的方法词向量分词一个向量vector表示一个词词向量的表示-one-hot多维词嵌入wordembeding词向量的训练方法CBOWSkip-gram词嵌入的理论依据一个vector（向量）表示短语或者文章vectorspaceModelbag-of-wordvectorspaceModel+bag-of-word实现信息搜索改
NLP自然语言处理实战(三):词频背后的语义--5.距离和相似度&反馈及改进 Nobitaxi NLP自然语言处理实战学习自然语言处理机器学习人工智能
目录1.距离和相似度2.反馈及改进线性判别分析1.距离和相似度我们可以使用相似度评分（或距离），根据两篇文档的表达向量间的相似度（或距离）来判断文档间有多相似。LSA能够保持较大的距离，但它并不能总保持较小的距离（文档之间关系的精细结构）。LSA底层的SVD算法的重点是使新主题向量空间中所有文档之间的方差最大化。特征向量（词向量、主题向量、文档上下文向量等）之间的距离驱动着NLP流水线或任何机器学
NLP自然语言处理-第一章NLP基础 Viterbi
第一章NLP基础在本章你将学到NLP（自然语言处理）相关的基础知识。本章要点包括：NLP基础概念NLP的发展与应用NLP常用术语以及扩展介绍1.1什么是NLP1.1.1NLP的概念NLP（NaturalLanguageProcessing，自然语言处理）是计算机科学领域以及人工智能领域的一个重要的研究方向，它研究用计算机来处理、理解以及运用人类语言（如中文、英文等），达到人与计算机之间进行有效通讯
NLP自然语言处理 AI论道自然语言处理人工智能
随着人工智能的飞速发展，自然语言处理（NaturalLanguageProcessing，简称NLP）已经成为了AI领域的一颗璀璨明珠。NLP旨在赋予机器理解和处理人类语言的能力，这不仅仅是一项技术革新，更是一种推动人与机器交流方式根本性变革的力量。本文将对NLP进行简析，带领读者一探究竟。1、什么是自然语言处理？自然语言处理是计算机科学、人工智能和语言学交叉的一个分支学科，它涉及到让计算机能够理
NLP自然语言处理的基本语言任务介绍人生万事须自为，跬步江山即寥廓。机器学习人工智能自然语言处理人工智能机器学习
自然语言处理（NaturalLanguageProcessing，NLP）是计算机科学、人工智能和语言学领域的一个分支，它致力于使计算机能够理解、解释和生成人类语言。NLP的基本任务包括以下几个方面：1.分词（Tokenization）：将文本分割成单词、短语或其他有意义的元素（称为tokens）。分词是许多NLP任务的第一步。2.词性标注（Part-of-SpeechTagging）：为文本中的
【AI视野·今日NLP 自然语言处理论文速览第七十七期】Mon, 15 Jan 2024 hitrjj LLM NLP Papers 人工智能自然语言处理 LLM 大语言模型大模型自动翻译文本摘要
AI视野·今日CS.NLP自然语言处理论文速览Mon,15Jan2024Totally57papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersMachineTranslationModelsareZero-ShotDetectorsofTranslationDirectionAuthorsMichelleWastl,JannisVamvas,R
【AI视野·今日NLP 自然语言处理论文速览第七十六期】Fri, 12 Jan 2024 hitrjj LLM NLP Papers 自然语言处理大语言模型 LLM NLP
AI视野·今日CS.NLP自然语言处理论文速览Fri,12Jan2024Totally60papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersAxisTour:WordTourDeterminestheOrderofAxesinICA-transformedEmbeddingsAuthorsHiroakiYamagiwa,YusukeTakas
深入浅出自然语义处理原理并构建自然语义处理(NLP)模型GPT2 「已注销」笔记深度学习人工智能 pytorch 自然语言处理神经网络
NLP自然语言处理，GPT2模型1、词向量在图像的处理中，我们无需对图像进行特殊的处理，因为图像本身就是由矩阵来表示的。而处理自然语言的时候，语言是由每一个字、词组成的。而字、词是通过编码存储在计算机当中的。所以我们可以通过将字、词编码成为向量的形式，如此就可以输入进深度学习网络模型中。但是我们应该如何去编码呢？像做图像分类那样，使用one—hot的形式编码？但是这样会存在一个问题，在自然语言中，
NLP自然语言处理介绍 love6a6 nlp
自然语言处理（NaturalLanguageProcessing，NLP）是一种通过计算机技术与人类语言交互的研究领域。它致力于使计算机能够理解、解析、处理和生成人类语言，以实现人机之间的自然语言交流。NLP涉及多个技术和方法，包括语音识别、文本分析、语义理解、机器翻译、情感分析等。通过这些技术，NLP可以处理和分析大量的文本数据，识别文本中的关键信息和结构，并从中提取出有用的知识和洞察。NLP在
分享一个“产业级，开箱即用”的NLP自然语言处理工具李楷杰自然语言处理人工智能
NLP的全称是NatuarlLanguageProcessing，中文意思是自然语言处理，是人工智能领域的一个重要方向自然语言处理（NLP）的一个最伟大的方面是跨越多个领域的计算研究，从人工智能到计算语言学的多个计算研究领域都在研究计算机与人类语言之间的相互作用。它主要关注计算机如何准确并快速地处理大量的自然语言语料库。什么是自然语言语料库？它是用现实世界语言表达的语言学习，是从文本和语言与另一种
【AI视野·今日NLP 自然语言处理论文速览第七十五期】Thu, 11 Jan 2024 hitrjj LLM NLP Papers 人工智能自然语言处理 NLP LLM 大语言模型
AI视野·今日CS.NLP自然语言处理论文速览Thu,11Jan2024Totally36papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersLeveragingPrintDebuggingtoImproveCodeGenerationinLargeLanguageModelsAuthorsXueyuHu,KunKuang,JiankaiSun
NLP自然语言处理原理应用讲解打工人何苦为难打工人 nlp
自然语言处理（NLP）是人工智能领域中研究如何让计算机理解和处理人类自然语言的一门学科。它的应用广泛，例如在搜索引擎、聊天机器人、机器翻译等领域中都发挥了重要的作用。NLP的基本原理是通过对大量的语料库进行训练，让计算机学习到语言的语法、语义、上下文等信息，从而能够理解人类的语言。在处理自然语言时，NLP需要先将文本转换成一系列的符号，然后对这些符号进行分析和处理，最后将这些处理结果转换成机器可以
rnn相关爱学习的羽 workHappy pytorch rnn 人工智能深度学习
构成比之前多了一个圈这个圈包含t时刻之前的数据特征，主要用在NLP自然语言处理中。只用最后一个结果ht，前面的当做中间结果特点会把之前看到的都记下来，但第n句话和第一句话之间联系不太大，没必要LSTM自然语言处理考虑词的前后顺序和相关性构建词向量，不断向后滑动学习cbow和skip-gram方法cbow输入上下文，输出预测最中间的位置的词skip-gram输入中间的词，输出预测的上下文改进方法加入
NLP自然语言处理实战 AI论道自然语言处理人工智能
一、自然语言处理的概念1.1自然语言处理的起源语言是人类社会发展过程的产物，是最能体现人类智慧和文明的证明，也是人类与动物最大的区别。它是一种人与人交流的载体，像计算机网络一样，我们使用语言相互传递知识。在人类历史的几千年，语言不断地繁衍发展。在计算机兴趣的近几十年，科学界正在试图不断努力，把人类的语言演变成分析数据特征的依据。在1970年，有两位美国人RichardBandler和JohnGri
NLP自然语言处理介绍 Dxy1239310216 nlp
自然语言处理（NLP，NaturalLanguageProcessing）是一门涉及计算机与人类语言之间交互的学科。它的目标是使计算机能够理解和生成人类语言，从而更好地处理和解析大量的文本数据。NLP不仅是人工智能领域中一个重要的分支，也是当今社会应用广泛的领域之一。在NLP中，一个基础但关键的任务是分词。由于自然语言中的词语是由连续的字符序列组成，计算机需要将这些连续的字符切分成单独的词语或词素
NLP自然语言处理应用场景相信光的力量-哇哈里自然语言处理人工智能
NLP自然语言处理应用场景：智能客服：NLP可以用于开发智能客服系统，帮助用户解决问题，提供快速响应和个性化服务。舆情分析：NLP可以对社交媒体、新闻、评论等大量文本数据进行分析，帮助企业了解公众对其品牌、产品或服务的看法和态度。机器翻译：NLP可以用于开发机器翻译系统，实现跨语言沟通和文化交流。文本分类：NLP可以对大量文本进行分类，例如将新闻文章分类为政治、娱乐、体育等不同领域。智能搜索：NL
【AI视野·今日NLP 自然语言处理论文速览第七十二期】Mon, 8 Jan 2024 hitrjj LLM NLP Papers 自然语言处理 LLM 大语言模型数据集文本生成对比学习文本摘要
AI视野·今日CS.NLP自然语言处理论文速览Mon,8Jan2024Totally17papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersDeepSeekLLM:ScalingOpen-SourceLanguageModelswithLongtermismAuthorsDeepSeekAIXiaoBi,DeliChen,GuantingChe
【AI视野·今日NLP 自然语言处理论文速览第七十三期】Tue, 9 Jan 2024 hitrjj NLP LLM Papers 自然语言处理 LLM 大语言模型文本生成文本摘要代理模型
AI视野·今日CS.NLP自然语言处理论文速览Tue,9Jan2024Totally80papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersFFSplit:SplitFeed-ForwardNetworkForOptimizingAccuracy-EfficiencyTrade-offinLanguageModelInferenceAuthor
【AI视野·今日NLP 自然语言处理论文速览第七十四期】Wed, 10 Jan 2024 hitrjj LLM NLP Papers 自然语言处理 LLM 大语言模型
AI视野·今日CS.NLP自然语言处理论文速览Wed,10Jan2024Totally38papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersModelEditingCanHurtGeneralAbilitiesofLargeLanguageModelsAuthorsJiaChenGu,HaoXiangXu,JunYuMa,PanLu,Zhen
简单几个步骤几行代码一步一步掌握NLP自然语言处理通过Transformers模型实现包括情感分析,垃圾邮件检测,语法纠错,文本推理等代码讲故事机器人智慧之心自然语言处理人工智能 NLP Transformers 情感分析垃圾邮件语法纠错
简单几个步骤几行代码一步一步掌握NLP自然语言处理通过Transformers模型实现包括情感分析,垃圾邮件检测,语法纠错,文本推理等。垃圾邮件是广告、欺诈或其他不相关信息的电子邮件，给我们的日常工作和生活带来了困扰。为了有效过滤和阻止垃圾邮件的到达，我们需要使用各种判断方法和技术。首先，基于匹配规则的方法是最常见的垃圾邮件判断方法之一。通过设置一系列的规则和模式，对邮件的主题、发件人、内容等进行
【AI视野·今日NLP 自然语言处理论文速览第七十期】Thu, 4 Jan 2024 hitrjj LLM NLP Papers 自然语言处理 LLM 大语言模型文本摘要价值对齐智能助手训练方法
AI视野·今日CS.NLP自然语言处理论文速览Thu,4Jan2024Totally29papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersMultilingualInstructionTuningWithJustaPinchofMultilingualityAuthorsUriShaham,JonathanHerzig,RoeeAharoni
【AI视野·今日NLP 自然语言处理论文速览第六十九期】Wed, 3 Jan 2024 hitrjj NLP LLM Papers 自然语言处理 NLP 大模型 LLM 大语言模型文本摘要文本生成
AI视野·今日CS.NLP自然语言处理论文速览Wed,3Jan2024Totally24papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersAnAutoregressiveText-to-GraphFrameworkforJointEntityandRelationExtractionAuthorsZaratianaUrchade,NadiTo
【AI视野·今日NLP 自然语言处理论文速览第七十一期】Fri, 5 Jan 2024 hitrjj NLP LLM Papers 自然语言处理 LLM NLP 大语言模型智能诊断智能对话文本摘要
AI视野·今日CS.NLP自然语言处理论文速览Fri,5Jan2024Totally28papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersLLaMAPro:ProgressiveLLaMAwithBlockExpansionAuthorsChengyueWu,YukangGan,YixiaoGe,ZeyuLu,JiahaoWang,YeFen
【AI视野·今日NLP 自然语言处理论文速览第六十六期】Tue, 31 Oct 2023 hitrjj NLP LLM Papers 人工智能自然语言处理 NLP NLPer LLM 大语言模型
AI视野·今日CS.NLP自然语言处理论文速览Tue,31Oct2023(showingfirst100of141entries)Totally100papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersTheEval4NLP2023SharedTaskonPromptingLargeLanguageModelsasExplainableMetr
html页面js获取参数值 0624chenhong html
1.js获取参数值js function GetQueryString(name) { var reg = new RegExp("(^|&)"+ name +"=([^&]*)(&|$)"); var r = windo
MongoDB 在多线程高并发下的问题 BigCat2013 mongodb DB 高并发重复数据
最近项目用到 MongoDB , 主要是一些读取数据及改状态位的操作. 因为是结合了最近流行的 Storm进行大数据的分析处理，并将分析结果插入Vertica数据库，所以在多线程高并发的情境下, 会发现 Vertica 数据库中有部分重复的数据. 这到底是什么原因导致的呢？笔者开始也是一筹莫展，重复去看 MongoDB 的 API , 终于有了新发现： com.mongodb.DB 这个类有
c++ 用类模版实现链表(c++语言程序设计第四版示例代码) CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T> class Node { private: Node<T> * next; public: T data;
最近情况麦田的设计者感慨考试生活
在五月黄梅天的岁月里，一年两次的软考又要开始了。到目前为止，我已经考了多达三次的软考，最后的结果就是通过了初级考试（程序员）。人啊，就是不满足，考了初级就希望考中级，于是，这学期我就报考了中级，明天就要考试。感觉机会不大，期待奇迹发生吧。这个学期忙于练车，写项目，反正最后是一团糟。后天还要考试科目二。这个星期真的是很艰难的一周，希望能快点度过。
linux系统中用pkill踢出在线登录用户被触发 linux
由于linux服务器允许多用户登录，公司很多人知道密码，工作造成一定的障碍所以需要有时踢出指定的用户 1/#who 查出当前有那些终端登录（用 w 命令更详细） # who root pts/0 2010-10-28 09:36 (192
仿QQ聊天第二版肆无忌惮_ qq
在第一版之上的改进内容: 第一版链接: http://479001499.iteye.com/admin/blogs/2100893 用map存起来号码对应的聊天窗口对象,解决私聊的时候所有消息发到一个窗口的问题. 增加ViewInfo类,这个是信息预览的窗口,如果是自己的信息,则可以进行编辑. 信息修改后上传至服务器再告诉所有用户,自己的窗口
java读取配置文件知了ing
1，java读取.properties配置文件 InputStream in; try { in = test.class.getClassLoader().getResourceAsStream("config/ipnetOracle.properties");//配置文件的路径 Properties p = new Properties()
__attribute__ 你知多少？矮蛋蛋 C++gcc
原文地址: http://www.cnblogs.com/astwish/p/3460618.html GNU C 的一大特色就是__attribute__ 机制。__attribute__ 可以设置函数属性（Function Attribute ）、变量属性（Variable Attribute ）和类型属性（Type Attribute ）。 __attribute__ 书写特征是：
jsoup使用笔记 alleni123 java 爬虫 JSoup
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.7.3</version> </dependency> 2014/08/28 今天遇到这种形式，
JAVA中的集合 Collectio 和Map的简单使用及方法百合不是茶 list map set
List ,set ,map的使用方法和区别 java容器类类库的用途是保存对象，并将其分为两个概念： Collection集合：一个独立的序列，这些序列都服从一条或多条规则;List必须按顺序保存元素，set不能重复元素；Queue按照排队规则来确定对象产生的顺序（通常与他们被插入的
杀LINUX的JOB进程 bijian1013 linux unix
今天发现数据库一个JOB一直在执行，都执行了好几个小时还在执行，所以想办法给删除掉系统环境： ORACLE 10G Linux操作系统操作步骤如下：第一步.查询出来那个job在运行，找个对应的SID字段 select * from dba_jobs_running--找到job对应的sid &n
Spring AOP详解 bijian1013 java spring AOP
最近项目中遇到了以下几点需求，仔细思考之后，觉得采用AOP来解决。一方面是为了以更加灵活的方式来解决问题，另一方面是借此机会深入学习Spring AOP相关的内容。例如，以下需求不用AOP肯定也能解决，至于是否牵强附会，仁者见仁智者见智。 1.对部分函数的调用进行日志记录，用于观察特定问题在运行过程中的函数调用
[Gson六]Gson类型适配器(TypeAdapter) bit1129 Adapter
TypeAdapter的使用动机 Gson在序列化和反序列化时，默认情况下，是按照POJO类的字段属性名和JSON串键进行一一映射匹配，然后把JSON串的键对应的值转换成POJO相同字段对应的值，反之亦然，在这个过程中有一个JSON串Key对应的Value和对象之间如何转换(序列化/反序列化)的问题。以Date为例，在序列化和反序列化时，Gson默认使用java.
【spark八十七】给定Driver Program，如何判断哪些代码在Driver运行，哪些代码在Worker上执行 bit1129 driver
Driver Program是用户编写的提交给Spark集群执行的application，它包含两部分作为驱动： Driver与Master、Worker协作完成application进程的启动、DAG划分、计算任务封装、计算任务分发到各个计算节点(Worker)、计算资源的分配等。计算逻辑本身，当计算任务在Worker执行时，执行计算逻辑完成application的计算任务
nginx 经验总结 ronin47 nginx 总结
　　　深感nginx的强大，只学了皮毛，把学下的记录。　　　获取Header 信息，一般是以$http_XX（ＸＸ是小写）获取body,通过接口，再展开，根据Ｋ取Ｖ　　　获取uri,以$arg_XX &n
轩辕互动-1.求三个整数中第二大的数2.整型数组的平衡点 bylijinnan 数组
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class ExoWeb { public static void main(String[] args) { ExoWeb ew=new ExoWeb(); System.out.pri
Netty源码学习-Java-NIO-Reactor bylijinnan java 多线程 netty
Netty里面采用了NIO-based Reactor Pattern 了解这个模式对学习Netty非常有帮助参考以下两篇文章： http://jeewanthad.blogspot.com/2013/02/reactor-pattern-explained-part-1.html http://gee.cs.oswego.edu/dl/cpjslides/nio.pdf
AOP通俗理解 cngolon spring AOP
1.我所知道的aop 初看aop,上来就是一大堆术语，而且还有个拉风的名字，面向切面编程，都说是OOP的一种有益补充等等。一下子让你不知所措，心想着：怪不得很多人都和我说aop多难多难。当我看进去以后，我才发现：它就是一些java基础上的朴实无华的应用，包括ioc，包括许许多多这样的名词，都是万变不离其宗而已。 2.为什么用aop&nb
cursor variable 实例 ctrain variable
create or replace procedure proc_test01 as type emp_row is record( empno emp.empno%type, ename emp.ename%type, job emp.job%type, mgr emp.mgr%type, hiberdate emp.hiredate%type, sal emp.sal%t
shell报bash: service: command not found解决方法 daizj linux shell service jps
今天在执行一个脚本时，本来是想在脚本中启动hdfs和hive等程序，可以在执行到service hive-server start等启动服务的命令时会报错，最终解决方法记录一下：脚本报错如下： ./olap_quick_intall.sh: line 57: service: command not found ./olap_quick_intall.sh: line 59
40个迹象表明你还是PHP菜鸟 dcj3sjt126com 设计模式 PHP 正则表达式 oop
你是PHP菜鸟，如果你：1. 不会利用如phpDoc 这样的工具来恰当地注释你的代码2. 对优秀的集成开发环境如Zend Studio 或Eclipse PDT 视而不见3. 从未用过任何形式的版本控制系统，如Subclipse4. 不采用某种编码与命名标准，以及通用约定，不能在项目开发周期里贯彻落实5. 不使用统一开发方式6. 不转换（或）也不验证某些输入或SQL查询串（译注：参考PHP相关函
Android逐帧动画的实现 dcj3sjt126com android
一、代码实现： private ImageView iv; private AnimationDrawable ad; @Override protected void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState); setContentView(R.layout
java远程调用linux的命令或者脚本 eksliang linux ganymed-ssh2
转载请出自出处： http://eksliang.iteye.com/blog/2105862 Java通过SSH2协议执行远程Shell脚本(ganymed-ssh2-build210.jar) 使用步骤如下： 1.导包官网下载: http://www.ganymed.ethz.ch/ssh2/ ma
adb端口被占用问题 gqdy365 adb
最近重新安装的电脑，配置了新环境，老是出现： adb server is out of date. killing... ADB server didn't ACK * failed to start daemon * 百度了一下，说是端口被占用，我开个eclipse，然后打开cmd，就提示这个，很烦人。一个比较彻底的解决办法就是修改
ASP.NET使用FileUpload上传文件 hvt .net C#hovertree asp.net webform
前台代码： <asp:FileUpload ID="fuKeleyi" runat="server" /> <asp:Button ID="BtnUp" runat="server" onclick="BtnUp_Click" Text="上传" />
代码之谜（四）- 浮点数（从惊讶到思考） justjavac 浮点数精度代码之谜 IEEE
在『代码之谜』系列的前几篇文章中，很多次出现了浮点数。浮点数在很多编程语言中被称为简单数据类型，其实，浮点数比起那些复杂数据类型（比如字符串）来说，一点都不简单。单单是说明 IEEE浮点数就可以写一本书了，我将用几篇博文来简单的说说我所理解的浮点数，算是抛砖引玉吧。一次面试记得多年前我招聘 Java 程序员时的一次关于浮点数、二分法、编码的面试，多年以后，他已经称为了一名很出色的
数据结构随记_1 lx.asymmetric 数据结构笔记
第一章 1.数据结构包括数据的逻辑结构、数据的物理/存储结构和数据的逻辑关系这三个方面的内容。 2.数据的存储结构可用四种基本的存储方法表示，它们分别是顺序存储、链式存储、索引存储和散列存储。 3.数据运算最常用的有五种，分别是查找/检索、排序、插入、删除、修改。 4.算法主要有以下五个特性：输入、输出、可行性、确定性和有穷性。 5.算法分析的
linux的会话和进程组网络接口 linux
会话：一个或多个进程组。起于用户登录，终止于用户退出。此期间所有进程都属于这个会话期。会话首进程：调用setsid创建会话的进程1.规定组长进程不能调用setsid，因为调用setsid后，调用进程会成为新的进程组的组长进程.如何保证？先调用fork，然后终止父进程，此时由于子进程的进程组ID为父进程的进程组ID，而子进程的ID是重新分配的，所以保证子进程不会是进程组长，从而子进程可以调用se
二维数组元素的连续求解 1140566087 二维数组 ACM
import java.util.HashMap; public class Title { public static void main(String[] args){ f(); } // 二位数组的应用 //12、二维数组中，哪一行或哪一列的连续存放的0的个数最多，是几个0。注意，是“连续”。 public static void f(){
也谈什么时候Java比C++快 windshome java C++
刚打开iteye就看到这个标题“Java什么时候比C++快”，觉得很好笑。你要比，就比同等水平的基础上的相比，笨蛋写得C代码和C++代码，去和高手写的Java代码比效率，有什么意义呢？我是写密码算法的，深刻知道算法C和C++实现和Java实现之间的效率差，甚至也比对过C代码和汇编代码的效率差，计算机是个死的东西，再怎么优化，Java也就是和C

使用PaddlePaddle进行微博谣言检测

你可能感兴趣的:(nlp自然语言处理)