语料第20页

自然语言处理之TF-IDF原理以及利用其进行特征筛选

一.什么是TF-IDFTF-IDF(TermFrequency-InverseDocumentFrequency,词频-逆文件频率).字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降

Wenweno0o·2023-02-07 13:35

自然语言处理NLP——中文抽取式自动文摘（包括中文语料库处理、三种方法实现自动文摘、Rouge评价方法对自动文摘进行打分）

利用三种方法实现抽取式自动摘要，并给摘要结果打分（一、textrank二、word2vec+textrank三、MMR四、Rouge评测）具体代码我上传到了Github上，其中有45篇小论文（包括三种摘要方法生成的摘要、标准摘要和各摘要方法生成的摘要的p、r、f值），地址如下：https://github.com/God-Fish-X/Extractable-automatic-Text网上有很多

_神仙鱼_·2023-02-07 10:07

python搭建一个自然语言处理_基于 Python 的简单自然语言处理实践

TwentyNewsGroup语料集处理20Newsgroup数据集包含了约20000篇来自于不同的新闻组的文档，最早由KenLang搜

weixin_39814088·2023-02-07 08:54

自然语言处理入门的第一个代码：最大正向匹配算法

最大正向匹配算法原理：从右到左依次匹配语料库中的词语步骤：1、找出语料库中最长的词语长度max_lenth2、将max_lenth与需要划分的句子进行比较，选较小值作为句子的划分长度3、根据划分长度划分句子

啊啊啊啊_ef7b·2023-02-07 06:38

论文答辩

teachers.iamfromchuanshancollege.mydissertationiscopus-basedstudyonthetranslationofCLWinbusinessnews.即基于语料库商务英语中

张大宝_537d·2023-02-06 19:34

BERT模型迁移到GPU上的调试经历（pytorch）

写在前面前几天阅读了一段bert模型预训练的代码，并写了解析（结合原理和代码来理解bert模型），但是这段代码中的语料是手动添加的两个人的一段对话，不足以显示模型的效果。

不知名的码农·2023-02-06 13:42

为Tesseract适配多语言模型

人们的努力集中于实现通用的多语种操作，以至于一种新的语言除了提供文本语料库之外，还需要进行微不足道的定制。尽管需要对各个模块进行更改，包括物理布局分析和语言后处理，但字符分类器不需要更改几个限制。

zhugeheihei·2023-02-06 10:21

论文笔记：Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks

基于远程监督的关系抽取（DistantSupervisionforRelationExtraction）\qquad与传统的关系抽取方法不同，远程监督关系抽取利用知识库中的关系实例与非结构化文本进行对齐，自动构建训练语料

新新点灯9789·2023-02-06 07:48

Pytorch transformers tokenizer 分词器词汇表添加新的词语和embedding

目标：在NLP领域，基于公开语料的预训练模型，在专业领域迁移时，会遇到专业领域词汇不在词汇表的问题，本文介绍如何添加专有名词到预训练模型。

浪漫的数据分析·2023-02-05 15:00

Char GPT社会化的过程

v=e0aKI2GGZNgChatGPT官方Blog：https://openai.com/blog/chatgpt1.学习文字接龙从网络上大量学习语料，作为文字输出的素材库。

帅小帅家的小吴昊·2023-02-05 15:52

未标注目标语料是否均适合用于跨语言学习?『基于对抗判别器高效利用未标注语料的跨语言NER算法AdvPicker』

本文公式较多，建议转至博客阅读(再过几个小时今年的ACL就要来了，赶在ddl之前，简单介绍一下韦乐，我，千惠，Börje，YiGuan等人在ACL21上的这篇工作。AdvPicker:EffectivelyLeveragingUnlabeledDataviaAdversarialDiscriminatorforCross-LingualNER(ACL-IJCNLP2021)✍️WeileChen,

gunjianpan·2023-02-05 12:00

Word2Vec------skip-gram、CBOW、负采样、的一些理解

1.WindowbasedCo-occurrenceMatrix简单来说就是统计语料库中，在确定window长度的情况下，统计word的出现频率，基于词频得到关联矩阵，例如：然后，利用SVD奇异值分解，

不爱学习的木易·2023-02-05 11:02

语料

频数标准化基本原理通常语料检索、词表生成结果中都会报告频数(frequency,freq或rawfrequency)。那么某词(如many)在某语料库中出现频数为100次说明什么呢?

静_静_·2023-02-05 08:49

python生成停词表_一个小型的文本分类系统-python（文末附语料，停用词文本文档，工程全部代码）...

背景文本挖掘是指从大量文本数据中抽取实现未知的、可理解的、最终可用的知识的过程，同时运用这些知识更好地组织信息以便将来参考。即从非结构化的文本中寻找知识的过程。目前文本挖掘主要有7个主要领域：·搜索和信息检索IR·文本聚类：使用聚类方法对词汇、片段、段落或文件进行分组和归类·文本分类：对片段、段落或文件进行分组和归类，在使用数据挖掘分类方法的基础上，经过训练地标记实例模型·Web挖掘：在互联网上进

weixin_39552037·2023-02-05 08:15

翻译利器：语料库（入门篇）

从事笔译工作越久，越意识到语料库的重要。最近想梳理并更新一下自己的语料库知识、技能和资源，清理一下自己的库存，希望直接或间接地有助于提高自己的翻译工作效率和质量。

易渔_·2023-02-05 06:15

自然语言处理（NLP）知识整理及概述（三）

此时每一个单词可以用一个长度为V（语料库中vocabulary的数目）的向量来表示。在此基础上，将一个句子中每个单词的向量相加，就得

JudeArcturus·2023-02-04 17:28

半监督学习

训练集的每一个数据已经有特征和标签（我们在进行文本分类的时候，训练数据为已经分好类别的语料）有输入数据和输出数据通过学习训练集中输入数据和输出数据的关系，生成合适的函数，将输入映射到合适的输出。

筱筱思·2023-02-04 09:42

Gensim

1基本概念语料（Corpus）：一组原始文本的集合，用于无监督地训练文本主题的隐层结构。语料中不需要人工标注的附加信息。在Gensim中，Corpus通常是一个可迭代的对象（比如列表）。

amyhy·2023-02-03 21:05

NLTK安装记录

1.输入命令：pipinstallnltk-i2.输入两个命令：importnltknltk.download()报错：方法一：自己下载语料库自己去官网下载语料库GitHub-nltk/nltk_data

甜藕崽·2023-02-03 17:20

知识图谱构建过程的概念性简述

关系抽取：文本语料经过实体抽取之后，得到的是一系列离散的命名实体，为了得到语义信息，还需要从相关语料中提取出实体之间的关联

豆浆人·2023-02-03 14:44

CharTextCNN（AG数据集---新闻主题分类）

文章目录CharTextCNN一、文件目录二、语料集下载地址（本文选择AG）三、数据处理(data_loader.py)四、模型（chartextcnn.py）五、训练和测试实验结果CharTextCNN

篱下浅歌生·2023-02-03 14:55

Fasttext（AG数据集---新闻主题分类）

文章目录Fasttext一、文件目录二、语料集下载地址（本文选择AG）三、数据处理(AG_Dataset.py)四、模型（Fasttext.py）五、训练和测试实验结果Fasttext一、文件目录二、语料集下载地址

篱下浅歌生·2023-02-03 14:55

知识增强的NLP预训练模型【将知识图谱中的三元组向量引入到预训练模型中】

当前以Bert为代表的预训练模型在自然语言处理领域取得了显著的成功，但是由于预训练模型大多是在大规模非结构化的语料数据上训练出来的，因此可以通过引入外部知识在一定程度上弥补其在确定性和可解释性上的缺陷。

u013250861·2023-02-03 11:34

从最新的ACL、NAACL和EMNLP中详解知识增强的语言预训练模型

尽管PLMs可以从大量语料库中学习一定的知识，但仍旧存在很多问题，如知识量有限、受训练数据长尾分布影响鲁棒性不好等，在实际应用场景中效果不好。

zenRRan·2023-02-03 11:32

大模型论文周报 | 来自北大、百度、DeepMind、OpenAI等机构前沿论文研究

大模型又可以称为FoundationModel模型，模型通过亿级的语料或者图像进行知识抽取，学习进而生产了亿级参数的大模型。

AITIME论道·2023-02-03 07:22

大模型论文周报｜来自谷歌、DeepMind、斯坦福、新加坡国立大学、腾讯等机构前沿论文研究...

大模型又可以称为FoundationModel模型，模型通过亿级的语料或者图像进行知识抽取，学习进而生产了亿级参数的大模型。

AITIME论道·2023-02-03 07:22

Gensim库的使用——Word2vec模型（二）训练自己的模型与训练参数

训练自己的Word2vec模型为了能够训练自己的Word2vec模型，你需要有一些数据，这里用LeeEvaluation语料库来进行训练。

桉夏与猫·2023-02-02 09:56

NLP：n-gram模型

主要的应用场景：1️⃣人们基于一定的语料库，可以利用N-Gram来预计或者评估一个句子是否合理；2️⃣通过输入的前N个词预言下一个词（常见于输入法，这种类型的LM被称为自回归语言模型(Autoregressio

Dawn_www·2023-02-02 08:09

97. BERT微调、自然语言推理数据集以及代码实现

句子分类3.命名实体识别4.问题回答5.总结即使下游任务各有不同，使用BERT微调时只需要增加输出层但根据任务的不同，输入的表示，和使用的BERT特征也会不一样6.自然语言推理数据集斯坦福自然语言推断语料库

chnyi6_ya·2023-02-01 19:03

语料准备

之前查找了很多资料，发现语料准备这块的方法论很有限，在我看来如果说AI是个学生，语料其实是教科书，是知识的海洋，是AI的粮食，非常重要。本文主要探讨有充分的语料基础后对语料进行预处理的办法。

hohoha·2023-02-01 13:47

【MindSpore易点通】数据处理之中文文本数据预处理

简单地归纳下深度学习中的NLP流程，如下图所示：本次要和大家分享的是Step1语料预处理部分，语料还有中文和英文等多种语言，本次分享的是中文语料的预处理，基本的步骤如下图所示：分词什么是分词：就是将句子

小乐快乐·2023-02-01 10:56

python数据预处理的方法_文本数据预处理的方法

数据收集数据预处理数据挖掘和可视化模型构建模型评估虽然框架需要迭代，但是我们先将其看作是一个线性的过程：修正过的文本数据处理框架（依然很简单……）很显然，文本数据预处理位于框架的第二步，这一步所包含的详细步骤有以下两个：在原始文本语料上进行预处理

weixin_39793553·2023-02-01 10:25

NER命名实体识别

目录全文简介NER任务简介NER标注语料库（公开评测集）off-the-shelfNER工具评价指标序列标注标签方案四类NER常用方法基于规则的NER方法基于无监督学习的NER方法

Stansonlee·2023-02-01 08:15

python里的nltk库_Python 自然语言处理——nltk库入门之词性标注

下面列出了nltk库中的一些重要的模块——nltk.corpus————获取语料库。

我来看看就好1123·2023-02-01 08:05

使用python进行字频统计和词频统计

问题描述读取给定的语料库，根据制表符’\t’划分其文本与标签，将获得的文本仅保留汉字部分，并按字划分，保存在列表中，至少使用一种方法，统计所有汉字的出现次数，并按照从高到低的顺序排序；至少使用一种方法，

Love _YourSelf·2023-02-01 08:02

【AI视野·今日NLP 自然语言处理论文速览第二十七期】Thu, 4 Nov 2021

DailyComputationandLanguagePapersHmBlogs:AbiggeneralPersiancorpusAuthorsHamzehMotahariKhansari,MehrnoushShamsfard本文介绍了波斯语的hmBlogs语料库

hitrjj·2023-01-31 23:10

语料(LIFESTYLE AND SHOPPING)

1.hustleandbustleTravelingprovidesuswithatemporaryescapefromthehustleandbustleofthecity.2.burnoutYoungpeoplejugglingschoolandworkcaneasilyburnout.3.buildupIfyouprocrastinateatwork,theanxietywillbuildu

松饼宋秉彦·2023-01-31 20:14

NLU误召问题解决绪论

第一章NLU误召问题解决绪论第一章NLU误召问题解决绪论第二章数据层面降低NLU误召-构造误召语料文章目录第一章NLU误召问题解决绪论前言理论NLUDIS1.领域分类2.意图分类3.提槽NLU误召1.数据层面

巴基海贼王·2023-01-31 17:50

数据层面降低NLU误召-构造误召语料

第一章NLU误召问题解决绪论第二章数据层面降低NLU误召-构造误召语料文章目录前言理论代码1.下载领域相关闲聊视频（YouTube）1.1龟速稳定版1.2高速开车版2.裁剪视频2.1稳定版3.mp4格式转

巴基海贼王·2023-01-31 17:50

【科研】ET-BERT资料库梳理

作者原repo链接https://github.com/linwhitehat/ET-BERT0.资料总库分为数据+模型+语料库1.数据集包含fine-tuning数据集（cstnet-tls1.3）与公开数据集

勇往直前的力量·2023-01-31 10:54

爆火出圈的chatGPT如何在逆向和恶意软件分析中发挥作用

OpenAI新推出的一种人工智能技术驱动的自然语言处理工具，使用了Transformer神经网络架构，也是GPT-3.5架构，这是一种用于处理序列数据的模型，拥有语言理解和文本生成能力，尤其是它会通过连接大量的语料库来训练模型

seoppg·2023-01-31 08:49

KNN算法与K-Means算法的区别

首先明确一点KNN与Kmeans的算法的区别：1.KNN算法是分类算法，分类算法肯定是需要有学习语料，然后通过学习语料的学习之后的模板来匹配我们的测试语料集，将测试语料集合进行按照预先学习的语料模板来分类

qq_41800983·2023-01-30 21:24

Improving Language Understandingby Generative Pre-Training

此外，即使在可获得相当大的监督语料情况下，以无监督学习的方式学到的表示也可以让性能显著的提升。到目前为止，最引人注目的证据是广泛使用预训练词嵌入来提高一系列NLP任务的性能。

与光i·2023-01-30 20:17

论文阅读：GPT-Improving Language Understanding by Generative Pre-Training

Abstract通过在不同的无标记的文本语料库上生成语言模型的预训练，然后对每个任务进行区分性调整在微调期间使用任务感知的输入转换，同时对模型体系结构进行最小的更改1.INTRODUCTION未标记文本的单词级信息仍旧是一个挑战

咕噜咕噜day·2023-01-30 20:17

论文阅读《Improving Language Understanding by Generative Pre-Training》

目标是从大量未标注语料库学习一种普遍的表征，不要求目标任务与未标注语料库在相同领域。训练分为两个阶段：首先，在未标注数据上使用语言建模来学习神

Diobld·2023-01-30 20:46

Improving Language Understanding by Generative Pre-Training

本文展示了先在大规模未标注语料上预训练生成式语言模型然后在每个判别式任务上进行fine-tuning可以获得较大的效果提升。

chansonzhang·2023-01-30 20:46

95. BERT预训练数据代码

一方面，最初的BERT模型是在两个庞大的图书语料库和英语维基百科的合集上预训练的，但它很难吸引这本书的大多数读者。另一方面，现成的预训练BERT模型可能不适合医学等特定领域的应用。

chnyi6_ya·2023-01-30 18:02

jieba分词并做分析

Github：结巴分词地址https://github.com/fxsjy/jieba几种分词方法的简单使用：一.jieba安装、示例pipinstalljieba，jieba分词的语料是基于人民日报。

stay_foolish12·2023-01-30 17:31

NLP实践之——基于深度学习的文本分类2

因此，word2vec模型可以方便地从新增语料中学习到新增词的向量表达，是一种高效的在线学习算法（onlinelearning）。word2vec的主要思路：通过单词和上下文

zhangxiaolinxin·2023-01-30 12:05

基于重要性采样的期望估计——sampled softmax推导

Lqz72·2023-01-30 12:17

推荐频道

语料