语料第25页

基于预训练模型的军事领域命名实体识别研究

本文提出基于预训练模型（BidirectionalEncoderRepresentationsfromTransformers,BERT）的命名实体识别方法,首先基于预训练BERT模型生成自建开源军事语料的动态特征词向量的字符表示

米朵儿技术屋·2022-12-24 16:42

transformers BERT等模型在自己的数据集上fine-tune方法

IntroBERT等预训练语言模型能力很强，但官方发布的模型在预训练时用的语料并不一定与你具体任务的语料相似，因此可能造成具体任务上的效果一般。

扣德夫特·2022-12-24 14:20

训练自己GLOVE中文词向量过程记录

sh文件下载GIT和Cygwin过程踩坑及调试过程先下载GLOVE官方材料包跳转中...或以下链接https://github.com/stanfordnlp/GloVe.git下载内容包含先要对自己语料进行处理

御羽与鱼·2022-12-24 14:10

【论文笔记】K-BERT: Enabling Language Representation with Knowledge Graph

论文地址：https://arxiv.org/abs/1909.07606v1项目地址：https://github.com/autoliuweijie/K-BERT摘要BERT虽然能够从大规模的语料库中捕获通用的语言表示信息

Nlper_Zhao·2022-12-24 07:31

matlab htk tools,基于HTK调用MATLAB的语音识别的研究

利用HTK软件建立隐马尔科夫模型(HMM)对录制的语料进行训练和识别。修改HMM中参数(包含语音特征，声学模型等)，再利用Matlab计算速度快及其编程开发节省时间优势对其计算仿真

卞老板·2022-12-23 19:40

htk语音识别matlab程序,基于htk调用matlab语音识别的研究

利用HTK软件建立隐马尔科夫模型(HMM)对录制的语料进行训练和识别。修改HMM中参数(包含语音特征，声学模型等)，再利用Matlab计算速

应轶群·2022-12-23 19:40

解决bert-service-start启动报错 TypeError: ‘NoneType’ object is not iterable

为了训练自己语料库的word2vec，使用了bert-as-service首先需要tensorflow>=1.10版本，python>=3.5版本接下来，pipinstallbert-serving-server

theshy_____·2022-12-23 16:52

NLP实战3--fasttext文本分类/数据准备

例如，如果我们希望我们的聊天机器人能够播报当前的时间，那么我们就需要准备关于询问时间的语料，同时其目标值就是一个新的类别。在训练之后，通过这个新的模型，判断出用户询问的是当前的时间这个类别，那么就返

Lyttonkeepgoing·2022-12-23 08:33

大白话式粗浅地聊聊NLP语言模型

语言模型发展至今，其实可以简单的分为传统意义上的语言模型和现代的语言模型，传统语言模型主要是指利用统计学计算语料序列的概率分布，对于一个给定长度为m的序列，它可以为整个序列产生一个概率P(w_1,w_2

肥宅程序员aka不会游泳的鱼·2022-12-23 08:50

NLP-预训练模型-201806-NLG：GPT-1【Decoder of Transformer】【预训练：GPT使用单向语言模型；Fine-tuning：GPT、Task的参数一起训练】

)：一般情况下预训练模型都是大型模型，具备复杂的网络结构，众多的参数量，以及在足够大的数据集下进行训练而产生的模型.在NLP领域，预训练模型往往是语言模型，因为语言模型的训练是无监督的，可以获得大规模语料

u013250861·2022-12-23 08:59

【自然语言处理】文本预处理

词性标注3.文本张量表示方法3.1one-hot3.2word2vec3.3wordembedding4.文本数据分析5.文本特征处理6.文本数据增强文本预处理1.认识文本预处理文本预处理及其作用文本语料在输送给模型前一般需要一系列的预处理工作

张小猪的家·2022-12-23 07:17

自然语言处理（五）：文本预处理之文本特征处理

自然语言处理笔记总目录文本特征处理的作用：文本特征处理包括为语料添加具有普适性的文本特征，如n-gram特征，以及对加入特征之后的文本语料进行必要的处理，如长度规范。

GeniusAng丶·2022-12-23 07:17

自然语言处理之文本预处理

1.1定义语料库（Corpus）：一个文档（documents）的集合（collection）例如：维基百科中全部的英文文章文档（Document）：一个或者多个句子（sentence）通常，这些句子是经过理解性组织过的

Wilson_Hank·2022-12-23 07:38

NLP | 文本预处理

一.文本预处理作用：文本语料在输送给模型前一般需要一系列的预处理工作，才能符合模型输入的要求，如：将文本转化成模型需要的张量，规范张量的尺寸等，而且科学的文本预处理环节还将有效指导模型超参数的选择，提升模型的评估指标二

奔跑的蜗牛君666·2022-12-23 07:07

深入理解word2vec的skip-gram模型（一）

Word2Vec是从大量文本语料中以无监督的方式学习语义知识的一种模型，它被大量地用在自然语言处理（NLP）中。那么它是如何帮助我们做自然语言处理呢？

yougwypf1991·2022-12-23 06:44

文本特征提取算法-TF-IDF

用于评估一个词对一个文件集或者一个语料库的重要程度。一个词的重要程度跟它在文章中出现的次数成正比，跟它在语料库出现的次数成反比。

Sais_Z·2022-12-22 15:54

自然语言处理(NLP)之TF-IDF原理及使用

TF-IDF介绍TF-IDF是NLP中一种常用的统计方法，用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度，通常用于提取文本的特征，即关键词。

IT之一小佬·2022-12-22 15:54

【NLP学习笔记】使用jieba实现关键词提取

1.1基于TF-IDF算法的关键词提取TF-IDF(TermFrequency-InverseDocumentFrequency,词频-逆文件频率)是一种统计方法，用以评估一个词语对于一个文件集或一个语料库中的一份文件的重要程度

虚坏叔叔·2022-12-22 15:21

从jieba分词到BERT-wwm——中文自然语言处理（NLP）基础分享系列（8）

另外将读取文件、构造语料库等前续步骤，也合并到myDataset类的**init**方法里。优化后新的代码如下：importnumpyasnpimportpandasaspdimportpick

moronism189·2022-12-22 13:11

【NLP】14 ERNIE应用在语义匹配NLP任务——Paddlehub安装、BERT推广的使用、与Simnet_bow与Word2Vec效果比较

Ernie语义匹配1.ERNIE基于paddlehub的语义匹配0-1预测1.1数据1.2paddlehub1.3三种BERT模型结果2.中文STS(semantictextsimilarity)语料处理

Yang SiCheng·2022-12-22 13:09

将csv文件分割成多个文件

#-*-coding:utf-8-*-importcsvimportosimportpandasaspdhome_path='D:\\工作文件\\项目\\分割语料测试'data_set_path=os.path.join

谷德白麻酱·2022-12-22 13:57

理论：NLP学习路径（三）：NLP中文分词技术

缺点：过于依赖语料的质量。3）混合分词：上述两种方法的结合。（用得较多）2、规则分词主要是通过维护词典，在切分语句时，将语句的每个字符串与词表中的词进行逐一匹配，找到则切分，否则不予切分。

zmjames2000·2022-12-22 06:03

hmm 流程图_一种基于HMM的中文分词方法与流程

一般地，作为主流的基于词典的中文分词虽然实现简单，但是过于依赖词典，容易造成歧义，导致错误切分，从而使得分词准确率低；同样地，基于统计模型的中文分词虽然在一定程度上能排除歧义，但是分词准确率也依赖于训练语料库

純樂·2022-12-22 06:00

基于Hmm模型和Viterbi算法的中文分词和词性标注

最终效果：人民日报语料：分词(F1:96.189%)；词性标注(F1:97.934%)完整代码和数据，参见本实验的github地址：https://github.com/xuzf-git/WordSegment-and-PosTag1

xuzf-cs·2022-12-22 06:59

OpenAI 研究员：数据不足时，如何实现监督学习

一般而言，当监督学习任务面临标签数据不足问题时，可以考虑以下四种解决办法：1.预训练+微调：首先在一个大规模无监督数据语料库上对一个强大的任务无关模型进行预训练（例如通过自监督学习在自由文本上对语言模型进行预训练

人工智能学家·2022-12-21 21:05

【序列标注】kaggle实战系列-序列标注

数据：来自于98年人民日报NER语料环境：TensorFlow1.13.1模型：BiLSTM-CRF目录一、任务描述二、数据说明三、模型架构概述模型结构模型实现细节四、代码一、任务描述用seq_tag/

Rosyy_·2022-12-21 01:42

CS224斯坦福nlp课程学习笔记2-词向量

onehotencoder（词袋模型）每个词表示为一个向量，向量长度为语料库中词的个数，每个向量值只有一个编码为1其余是0杭州[0,0,0,0,0,0,0,1,0,……，0,0,0,0,0,0,0]上海

NLP 小白进阶·2022-12-20 21:15

NLP学习笔记[1] -- 构建词向量模型 -- Word2Vec与词嵌入

当获取到足够多的语料之后,需要语料中的主要语素"可计算",而"向量"是最普遍和容易使用的可计算元素,把词语等语素编码成向量就是词向量;词向量的计算应该有意义,需要尽可能保留原来的语言特征,把语素编码到连续的

冥火·2022-12-20 21:14

提示学习Prompt介绍

下游任务的目标与预训练的目标差距过大导致提升效果不明显，微调过程中依赖大量的监督语料降低语义差异：预训练任务主要以（MLM）为主，而下游任务则重新引入新的训练参数，因此两个阶段的目标通常有较大差异；避免过拟合

帅奇奇的博客·2022-12-20 19:02

利用机器学习进行放假预测

这些操作不仅仅包括获取数据，还能够添加数据，比如：投票管理多个平台的多个账户(如各个电商平台的账号)微信聊天机器人实际的应用远不止上面这些，但是上面的应用只是除开数据本身的应用而已，数据本身的应用也是很广的：机器学习语料库垂直领域的服务

__Miracle__·2022-12-20 18:11

PaddleSpeech 实现多种卡通音色和方言的中英文混合 TTS

(以下内容搬运自PaddleSpeech)实现单模型TTS中英文发音初步尝试了3种方案：单发音人方式、多发音人语料混合方式、finetune方式。

小湉湉·2022-12-20 12:51

AI 智能写作与智能写诗

自动纠错人工智能模型通过学习大量已知的错误拼写、搭配等语料，对于正在写作的文章提供实时的错误检测和

泡泡码客·2022-12-20 03:41

HMM--实践

理论上没有语料库的话，可以使用EM算法求出参数l

qq_43498494·2022-12-20 01:21

【一起入门NLP】中科院自然语言处理作业二：中英文语料训练CBOW模型获得词向量（pytorch实现）【代码+报告】

输出处理模块5.可视化模块三、实验结果中文结果可视化：英文结果可视化：四、疑问与思考1.cbow模型与词向量是什么关系2.keras如何实现cbow3.jieba分词：4.关于训练负样本的问题5.为什么中文语料要加载停用词学校自然语言处理第二次大作业

vector<>·2022-12-19 20:08

自然语言处理（二）：文本预处理之文本处理的基本方法

自然语言处理笔记总目录文本预处理中包含的主要环节文本处理的基本方法文本张量表示方法文本语料的数据分析文本特征处理数据增强方法文本处理的基本方法分词词性标注命名实体识别文本张量表示方法one-hot编码Word2vecWordEmbedding

GeniusAng丶·2022-12-19 16:24

4.1 文本预处理

文本预处理1.1认识文本预处理学习目标:了解什么是文本预处理及其作用.了解文本预处理中包含的主要环节.文本预处理及其作用:文本语料在输送给模型前一般需要一系列的预处理工作,才能符合模型输入的要求,如:将文本转化成模型需要的张量

射大雕的迪西。·2022-12-19 15:43

HanLP安装与使用-python版和java版

HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。内部算法经过工业界和学术界考验，配套书籍《自然语言处理入门》已经出版。

机智翔学长·2022-12-19 15:39

手把手教你用R实现标记化（附代码、学习资料、语料库）

作者：RachaelTatman翻译：梁傅淇本文长度为1600字，建议阅读4分钟标记化是自然语言处理中的一个常见的任务。本文教你如何用R来统计单个标记（单个单词）在文本中出现的频率，并将这个过程写成可复用的函数。自然语言处理中的一个常见的任务就是标记化。通常而言，对于像英语这样的语言来说，标记是单个的单词，而标记化则是将一篇文章或者一系列文章分成一个个的单词。这些标记之后会被作为其他类型的分析或者

「已注销」·2022-12-19 14:02

机器学习-文本处理之电影评论多分类情感分析

以下是此类应用的一些示例语言翻译：将句子从一种语言翻译成另一种语言情绪分析：从文本语料库中确定对任何主题或产品等的情绪是积极的、消极的还是中性的垃圾邮件过滤：检测未经请求和不需要的电子邮件/消息。

GawainTky·2022-12-19 10:57

提高方面级情感分析的性能：一种结合词汇图和句法图的方法

该工作提出了一种新颖的体系结构，其目标在于更好地利用语料库级别的单词共现信息以及

PaperWeekly·2022-12-19 10:56

基于Keras_bert模型的Bert使用与字词预测

kert_bert库安装1.2Tokenizer文本拆分1.3训练和使用构建模型模型训练使用模型1.4AdamWarmup1.5获取预先训练的检测点1.6抽取特征二、中文文本Bert预训练模型2.1下载中文语料

驭风少年君·2022-12-18 16:57

基于语料库的汉语形容词宾语与名词句法语义关系分析

摘要本研究探讨了汉语动词宾语结构中形容词宾语与特定名词之间的句法和语义关系。首先，它表明动词宾语结构可以在句子中充当谓语和修饰语。由于形容词代表名词的属性，动词宾语结构的形容词宾语与特定名词具有属性-实体语义关系。根据句法功能和属性实体语义关系，我们指出形容词宾语与特定名词之间的句法关系主要有主谓关系和修饰语首关系两种。此外，我们将形容词宾语作为转喻表达。最后，我们认为作为宾语的形容词在语义上具有

tao_yue06·2022-12-18 16:22

2016 CLSW-Invited Speech 1

分析大量语料后发现，前者是概率副词，后者是频率副词。频率和概率是不同计算的结果，需要不同的项目。像changchang（通常）这样的频率副词通常

tao_yue06·2022-12-18 16:21

python—谭松波情感分析

coding:utf-8-*-###唐松波情感分析###importpandasaspdimportnumpyasnpdf1=pd.read_excel('E:/pywork\dataanalysis\谭松波语料

Y_ni·2022-12-18 15:31

如何用Python破解邻居家的WIFI？

文中用到的语料库和源码博主也会在文章最后贴给大家，大家也可以动手去实验一下，看看多久能够破解邻居家的WiFi，哈哈哈！

爱睡觉的咋·2022-12-18 08:32

Bert用在seq2seq任务上——UNILM实战

环境配置2.1.0登录服务器2.1.1安装torch2.1.2配置UNILM要求的包2.2训练2.3验证3.结语1.UNILM简介按照我粗浅的理解：传统的seq2seq模型需要用一个encoder把输入的语料处理成向量

涂卡·2022-12-18 00:04

使用transformers框架导入bert模型提取中文词向量

但是在gensim框架下使用word2vec模型提取特征向量之前，需要准备一些场景中的语料，同事也需要对语料

肥宅程序员aka不会游泳的鱼·2022-12-17 17:38

为解决BERT模型对语料中低频词的不敏感性

来源：投稿作者：COLDR编辑：学姐（内容如有错漏，可在评论区指出）摘要Dict-BERT为了解决BERT模型对语料中低频词（rarewords）的不敏感性，通过在预训练中加入低频词词典&对应低频词定义来增强训练语言模型

深度之眼·2022-12-17 13:23

从NNLM到Bert，NLP语言模型发展概述

NNLM主要内容：利用前n-1个词汇，预测第n个词汇提出了基于连续空间编码+神经网络的NNLM模型对于一个单词普遍采用的是one-hot编码方式，如果语料库的单词数目特别多，就会导致一个单词对应的one-hot

小鸡炖蘑菇@·2022-12-17 09:05

它破解了AI作画的中文语料难题，AIGC模型讲解(以世界杯足球为例)

目录1扩散模型与AI绘画2中文语料的挑战3昆仑天工：AIGC新思路3.1主要特色3.2模型蒸馏3.3编解码与GPT3.4stable-diffusion3.5性能指标4体验中文AI绘画模型5展望1扩散模型与

Mr.Winter`·2022-12-17 08:33

推荐频道

语料