语料第33页

NER实体识别工具（中文）

感觉这些NER工具都是面向的是通用领域，训练语料质量残差不齐，不要抱太大希望可以直接用在specificfield。我实验的这几个中，感觉是spacy还算是好用一些的，剩下的一般吧。

追光女孩儿·2022-06-27 23:46

语料库数据处理个案实例（读取多个文本文件、读取一个文件夹下面指定的多个文件、解码错误、读取多个子文件夹文本、多个文件批量改名）

在语料库语言学研究中，语料库往往存储在多个文本中。本小节中，我们首先介绍如何读取文件夹中多个文本的文件名；然后介绍如何读取多个文件，并将它们合并成一个文本；最后介绍如何读取多个子文件夹中的文本。

Triumph19·2022-06-27 20:29

语音识别-基于CTC-BiLSTM联合模型的英语语音识别系统

1概要本博客偏向实践，以LibriSpeech公开英语语料数据集作为训练语料，搭建了基于CTC（Connectionisttemporalclassification）-BiLSTM的联合模型的语音识别系统

The_帅·2022-06-27 07:17

自然语言处理系列之：中文分词技术

技术介绍开源中文分词工具-Jieba实战分词之高频词提取3.1中文分词简介规则分词最早兴起，主要通过人工设立词库，按照一定方式进行匹配切分，实现简单高效，但对新词难以处理；统计分词能较好应对新词发现场景，但是太过于依赖于语料质量

Hi丶ImViper·2022-06-25 07:22

java朴素贝叶斯词频_利用朴素贝叶斯算法进行文档分类

本文的侧重点不是自然语言处理，所以语料库直接使用英文，以避免介绍中文分词技术。为了读者更好的理解原理，本文介绍了TF-IDF，这是一个表达词语权重信息的模型。

In k·2022-06-25 07:52

词对齐任务：端到端模型

VecMap(ACL2017)方法是一个迭代方法，求两个语料之间的$W$线性映射。流程文章想要找到一个$W$，使得两个语种之间的映射后距离最小：$X$是源语言的embedding，$Y$是目标语言的

·2022-06-24 14:46

BiLSTM-CRF模型做基于字的中文命名实体识别

在MSRA的简体中文NER语料（我是从这里下载的，非官方出品，可能不是SIGHAN2006Bakeoff-3评测所使用的原版语料）上训练NER模型，识别人名、地名和组织机构名。

中国小宝·2022-06-23 07:25

深度学习与自然语言处理第五次作业——段落分析模型

文章目录深度学习与自然语言处理第五次作业——段落分析模型一、实验原理1、Seq2seq模型简介2、LTSM模型介绍二、解题流程1、读取训练语料2、训练模型3、读取测试语料4、结果输出三、实验结果与分析1

荦荦大端荤荤·2022-06-22 07:15

文本匹配——【NAACL 2021】AugSBERT

背景与挑战论文地址：https://arxiv.org/abs/2010.08240目前，最先进的NLP架构模型通常重用在Wikipedia和TorontoBooksCorpus等大型文本语料库上预训练的

小爷毛毛（卓寿杰）·2022-06-22 07:06

自然语言处理入门——文本预处理

自然语言处理入门内容大纲：文本预处理经典序列模型RNN及其变体Transformer迁移学习文本预处理认识文本预处理作用：文本语料在输送给模型前一般需要一系列的预处理工作，才能符合模型输入要求，如将文本转换成模型需要的张量

Lanciberrr·2022-06-17 07:18

NLP系列——NLP基础

NLP系列——NLP基础NLP基础部分包括基础术语、知识结构、语料库等部分内容。

季建豪·2022-06-17 07:16

华为开源预训练语言模型「哪吒、TinyBERT」可直接下载使用

中文使用的语料库是Wikipedia和BaikeandNews，而Google的中文语料库仅使用Wikipedia

imalg图像算法·2022-06-13 07:46

吴恩达机器学习课程-第六周(part2)

1.机器学习系统的设计以垃圾邮件分类算法为例开启讨论：1.1首先要做什么一般而言首先需要确定如何选择并表达特征向量xxx，假设选出垃圾邮件中100个常见词构建一个语料库，当这些词出现该邮件中，便将向量相应位置置为

J___code·2022-06-12 15:40

语音情感识别--理论篇

语音情感识别主要包括语音语料库的采集，语音信号预处理，语音情感特征提取，语音情感分类。以上为语音情感识别主要步骤。语音情感特征提取(1)：选择和提取合适的语音情感特征对提高识别准确率来说非常重要。

醒了的追梦人·2022-06-10 07:09

命名实体识别（基于规则-无监督学习-机器学习-深度学习）

文章目录1简介2NER标注语料库3NER工具库4序列标注标签方案5四类NER方法（规则-无监督学习-机器学习-深度学习）5.1基于规则的NER5.2基于无监督学习方法5.2基于机器学习（含特征的有监督学习

Weiyaner·2022-06-06 07:24

整理常用的中英文预训练词向量（Pretrained Word Vectors）

文章目录引言腾讯中文词汇/短语向量（TencentAILabEmbeddingCorpusforChineseWordsandPhrases）使用方法中文词向量语料库by北京师范大学&人民大学StanfordGloVeEmbeddings

虾米小馄饨·2022-05-27 07:58

NLP实战-基于弱标注数据的文本分类

目录分析现有数据解决方案初始语料集构建特征选择过滤语料1、词频逆文档评率2、信息增益3、卡方检验训练模型缺失标签数据处理总结最近在做CSDN文库标签的分类，文库的数据比博客数据要短一些，特征比较分散，时间紧任务重

行走的人偶·2022-05-27 07:26

深入浅出语言模型（四）——BERT的后浪们（RoBERTa、MASS、XLNet、UniLM、ALBERT、TinyBERT、Electra）

针对Bert的改进，主要体现在增加训练语料、增添预训练任务、改进mask方式、调整模型结构、调整超参数、模型蒸馏等。下面对近年来Bert的改进版本的关键点做叙述。深入浅出语言模型

fond_dependent·2022-05-23 07:34

pythonlda模型_lda主题模型python实现篇_主题模型TopicModel：通过gensim实现LDA

gensim中的算法包括：LSA(LatentSemanticAnalysis),LDA(LatentDirichletAllocation),RP(RandomProjections),通过在一个训练文档语料库中

小叮当做事小丁当·2022-05-21 07:58

lda主题模型python实现篇_主题模型TopicModel：通过gensim实现LDA

gensim中的算法包括：LSA(LatentSemanticAnalysis),LDA(LatentDirichletAllocation),RP(RandomProjections),通过在一个训练文档语料库中

weixin_39993301·2022-05-21 07:20

Praat脚本-003 | 一种高效的将连续录制的音频切分的方案

文章目录前言引题要点数据Demo技术方案步骤一人工定句子边界步骤二利用脚本切分第一种情况，直接使用数字保存第二种情况，利用标注的内容作为文件名运行脚本特别说明如何获取脚本关注版权说明前言引题在语音处理过程中，整理语料

极地语音工作室·2022-05-20 08:51

可怕！微软AI：一张面部照片一段音频，完美生成头像演讲视频

越来越多的研究表明，只要语料库足够大，几乎任何人的面部动作都可以与语音片段同步。今年6月，来自三星的应用科学

我爱计算机视觉·2022-05-20 08:20

电影音频自动剪辑语料

电影电视剧语音数据集剪辑工具前言一、语音识别任务二、代码实现1.语音定位2.根据时间剪辑对应音频总结前言ASR语音识别任务通常使用开源数据集进行训练，为了补充语音识别数据，通过脚本自动生成一些视频片段进行自动标注，可以有效地减少认为标注的工作量。一、语音识别任务通过ASR深度学习模型识别出语音的文字。二、代码实现通过程序自动从电影或电视剧中剪辑对应的音频内容，保存本地作为语音识别任务的数据源。经过

L.ikJ.·2022-05-20 08:48

LDA主题模型绘制困惑度（perplexity）-主题数曲线——python

LDA作为一种无监督机器学习技术，利用词袋方法识别隐藏在大规模文档集或语料库中的主题信息。LDA模型可挖掘出文档集或语料库中的潜在

阿丢是丢心心·2022-05-12 10:26

LDA主题模型的原理及使用教程

LDA常被用于识别语料中潜在的主题信息。LDA

灵海之森·2022-05-12 10:23

自然语言处理入门——新手上路

目录一、自然与语言与编程语言二、自然语言处理的层次三、自然语言处理的流派五、语料库六、开源工具七总结自然语言处理（NLP）是一门融合了计算机科学、人工智能以及语言学的交叉学科。

海伦•·2022-05-08 07:57

基于BiLSTM-CRF的命名实体识别

基于BiLSTM-CRF的命名实体识别1.任务说明1.1任务定义1.2语料说明2.实验环境3.算法说明（按文件说明）3.1model.py3.2data.py3.3predict.py3.4evaluate.py3.5run.py4

回锅肉炒肉·2022-05-07 07:46

智能客服闲聊模块三种方案对比

目前业界针对于闲聊模块的方案一般以下三个方案基于固定模板我们都知道业务问答通用方案是基于模板式问答，同理模板式问答也适用于闲聊系统，这种方式的优势在于易于控制，用少量的模板满足多种问题需求，劣势在于出现答非所问的概率比较大基于语料库这种做法是先收集

·2022-05-07 00:15

python mooc-课程资源 | Python语言系列专题MOOC

众所周知，计算语言学的研究和应用需要大料的语料，但是语料规模扩大之后人工处理就显得捉襟见肘。因此，机器自动处理就显得很有必要。要想让机器按照自己的想法处理语料，学习一点编程语言是必要的。

weixin_39634438·2022-04-28 07:29

nltk自然语言处理

一些知识点concordanceconcordance查找语料库中特定的单词的上下文,检索词指定窗口大小的上下文。

Suzerk·2022-04-15 07:54

Paddleocr文本识别数据集的合成与制作----超级详细

目录前言一、数据集的总体概括1.1训练集和测试集1.2文本识别所需字典二、文本识别数据集的合成前期准备2.1数据集合成概括2.2语料和目标场景图像模板的准备和处理2.3制作语料2.4制作字典2.5制作目标场景图像模板三

炮哥带你学·2022-04-14 07:13

gan 5小时速成

语义之间的多模态学习图像标记：用词语对图像中不同内容进行多维度表述图像描述：把一幅图片翻译为一段描述文字获取图像的标记词语理解图像标记之间的关系生成人类可读的句子词向量模型：Word2Vec是从大量文本语料中以无监督的方式学

weixin_45955767·2022-04-12 08:20

素养立意下的命题特点

以考查学生语文核心素养为目标的中考语文试题，坚持立德树人的根本任务，语料形式丰富多样；依据课标与教材命题，实现教、学、考的统一；创设真实的命题情境，探索项目化学习方式；关注学生的学习过程和思维形式，积极导向初中语文教学

本真语文·2022-03-31 16:30

机器学习笔记（二）1

早期又叫模式识别PR（偏向具体任务，eg：光学字符识别、语音识别、人脸识别等）2.基本概念特征/属性：标签：：=>样本/示例数据集/语料库训练集/测试样本测试集/训练样本特征向量学习算法A又叫学习器3.

foxxxx·2022-03-29 19:00

Python全角与半角之间相互转换的方法总结

全角转半角：6.半角转成全角：附：如何通过python转换全角字符串为半角字符串实例说在后面：1.应用领域：全角和半角的转换通常用在自然语言处理过程中，由于全角和半角的不一致会导致信息抽取不一致，在使用语料训练语言模型会导致模型的效果不准确

·2022-03-29 18:41

5分钟NLP：快速实现NER的3个预训练库总结

NER模型的作用是识别文本语料库中的命名实体例如人名、组织、位置、语言等。NER模型可以用来理解一个文本句子/短语的意思。

·2022-03-24 14:59

关于使用[MASK]做完形填空时需要注意的点

文章目录题目关键点Q1:选取谁做[MASK]Q2:如何实现[MASK]Q3:为什么自己训练的模型loss不会下降题目关于使用[MASK]做完形填空时需要注意的点关键点Q1:选取谁做[MASK]A:关于这个问题取决于语料库中的每句话的平均长度比如我在

365JHWZGo·2022-03-16 07:49

Raki的读paper小记：Style Transformer

摘要与总结将内容和风格在隐空间解耦在不成对文本风格迁移的是非常流行的，然而现在的模型不太行，主要体现在两点：模型Z是经过编码后的文本表示，S是styleembeddingDiscriminatorNetwork因为缺少平行语料

爱睡觉的Raki·2022-03-14 07:41

Raki的读paper小记：GloVe: Global Vectors for Word Representation

大名鼎鼎来自StanfordChrisManning组的GloVe词向量摘要本方法提出的初衷是，基于shallow-window的方法的缺点是它们不能直接对语料库的共现统计数据进行操作，而只是用一个滑动窗口滑过整个语料库

爱睡觉的Raki·2022-03-14 07:40

六十五、Spark-综合案例(搜狗搜索日志分析)

为进行中文搜索引擎用户行为分析的研究者提供基准研究语料目录原数据展示业务需求业务逻辑分词工具Maven依赖代码实现效果展现搜狗搜索日志官网：http://www.sogou.com/labs/resource

托马斯-酷涛·2022-03-06 07:14

知识增广的预训练语言模型K-BERT：将知识图谱作为训练语料

©原创作者|杨健论文标题：K-BERT:EnablingLanguageRepresentationwithKnowledgeGraph收录会议：AAAI论文链接：https://ojs.aaai.org/index.php/AAAI/article/view/5681项目地址：https://github.com/autoliuweijie/K-BERT01背景论述笔者在前面的论文解读中提到过E

NLP论文解读·2022-03-04 13:00

A Neural Probabilistic Language Model (2003)论文要点

使用浅层网络（比如1层隐层）训练大语料。featurevec

weixin_30457465·2022-03-03 07:08

python nlp 句子提取_python nlp 句子提取_《用Python进行自然语言处理》第7章从文本提取信息...

3.哪些语料库适合这项工作，我们如何使用它们来训练和评估我们的模型?7.1信息提取#一个重要的形式是结构化数据:实体和关系的可预测的规范的结构。

weixin_39538847·2022-03-02 07:49

python nlp 句子提取_《用Python进行自然语言处理》第7章从文本提取信息

3.哪些语料库适合这项工作，我们如何使用它们来训练和评估我们的模型?7.1信息提取#一个重要的形式是结构化数据:实体和关系的可预测的规范的结构。

抓到大根就是宝·2022-03-02 07:19

python_NLP实战之关键词提取

无监督的方法包括TF-IDF算法、TextRank算法（不依赖语料库）和主题模型算法（LSA,LSI,LDA等）1、LSA步骤step1:使用BOW模型将每个文档表示为向量step2:将所有的文档词向量拼接起来构成词

TtingZh·2022-03-02 07:48

Python库之自然语言处理和文本挖掘

目前已经有超过50种语料库和词汇资

缘如风·2022-03-02 07:03

python根据词向量计算相似度_Python 利用Word2Vec计算词语相似度（gensim实现）

输入：语料库，txt文件。输出：余弦相似度。

weixin_39578457·2022-03-01 07:34

基于深度学习的文本分类 2

因此，word2vec模型可以方便地从新增语料中学习到新增词的向量表达。word2vec的主要思路：通过单词的上下文彼此预测，对应的两个算法分别为：Skip-grams(SG)：预测上下文Conti

sosososoon·2022-02-28 07:50

中科大、MSRA提出视觉Transformer BERT预训练新方式，优于MAE、BEiT

基于大型语料库训练的Transformer模型在自然语言处理中取得了巨大的成功，作为Transformer构建块，self-attention极大地改变了计算机视觉任务。

PaperWeekly·2022-02-24 07:55

《动手学深度学习》读书笔记：第1章深度学习简介

近年来，仰仗着大数据集和强大的硬件，深度学习已逐渐成为处理图像、文本语料和声音信号等复杂高维数据的主要方法。1.1起源虽然深度学习似乎

feiwen110·2022-02-22 07:33

推荐频道

语料