E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
语料
训练自己GLOVE中文词向量过程记录
sh文件下载GIT和Cygwin过程踩坑及调试过程先下载GLOVE官方材料包跳转中...或以下链接https://github.com/stanfordnlp/GloVe.git下载内容包含先要对自己
语料
进行处理
御羽与鱼
·
2022-12-24 14:10
git
python
【论文笔记】K-BERT: Enabling Language Representation with Knowledge Graph
论文地址:https://arxiv.org/abs/1909.07606v1项目地址:https://github.com/autoliuweijie/K-BERT摘要BERT虽然能够从大规模的
语料
库中捕获通用的语言表示信息
Nlper_Zhao
·
2022-12-24 07:31
自然语言处理
自然语言处理
pytorch
深度学习
神经网络
matlab htk tools,基于HTK调用MATLAB的语音识别的研究
利用HTK软件建立隐马尔科夫模型(HMM)对录制的
语料
进行训练和识别。修改HMM中参数(包含语音特征,声学模型等),再利用Matlab计算速度快及其编程开发节省时间优势对其计算仿真
卞老板
·
2022-12-23 19:40
matlab
htk
tools
htk语音识别matlab程序,基于htk调用matlab语音识别的研究
利用HTK软件建立隐马尔科夫模型(HMM)对录制的
语料
进行训练和识别。修改HMM中参数(包含语音特征,声学模型等),再利用Matlab计算速
应轶群
·
2022-12-23 19:40
htk语音识别matlab程序
解决bert-service-start启动报错 TypeError: ‘NoneType’ object is not iterable
为了训练自己
语料
库的word2vec,使用了bert-as-service首先需要tensorflow>=1.10版本,python>=3.5版本接下来,pipinstallbert-serving-server
theshy_____
·
2022-12-23 16:52
bert
人工智能
深度学习
NLP实战3--fasttext文本分类/数据准备
例如,如果我们希望我们的聊天机器人能够播报当前的时间,那么我们就需要准备关于询问时间的
语料
,同时其目标值就是一个新的类别。在训练之后,通过这个新的模型,判断出用户询问的是当前的时间这个类别,那么就返
Lyttonkeepgoing
·
2022-12-23 08:33
NLP实战记录
自然语言处理
分类
人工智能
大白话式粗浅地聊聊NLP语言模型
语言模型发展至今,其实可以简单的分为传统意义上的语言模型和现代的语言模型,传统语言模型主要是指利用统计学计算
语料
序列的概率分布,对于一个给定长度为m的序列,它可以为整个序列产生一个概率P(w_1,w_2
肥宅程序员aka不会游泳的鱼
·
2022-12-23 08:50
自然语言处理
语言模型
深度学习
NLP-预训练模型-201806-NLG:GPT-1【Decoder of Transformer】【预训练:GPT使用单向语言模型;Fine-tuning:GPT、Task的参数一起训练】
):一般情况下预训练模型都是大型模型,具备复杂的网络结构,众多的参数量,以及在足够大的数据集下进行训练而产生的模型.在NLP领域,预训练模型往往是语言模型,因为语言模型的训练是无监督的,可以获得大规模
语料
u013250861
·
2022-12-23 08:59
#
NLP/词向量_预训练模型
自然语言处理
transformer
语言模型
【自然语言处理】文本预处理
词性标注3.文本张量表示方法3.1one-hot3.2word2vec3.3wordembedding4.文本数据分析5.文本特征处理6.文本数据增强文本预处理1.认识文本预处理文本预处理及其作用文本
语料
在输送给模型前一般需要一系列的预处理工作
张小猪的家
·
2022-12-23 07:17
自然语言处理
自然语言处理(五):文本预处理之文本特征处理
自然语言处理笔记总目录文本特征处理的作用:文本特征处理包括为
语料
添加具有普适性的文本特征,如n-gram特征,以及对加入特征之后的文本
语料
进行必要的处理,如长度规范。
GeniusAng丶
·
2022-12-23 07:17
自然语言处理
自然语言处理
人工智能
nlp
深度学习
python
自然语言处理之文本预处理
1.1定义
语料
库(Corpus):一个文档(documents)的集合(collection)例如:维基百科中全部的英文文章文档(Document):一个或者多个句子(sentence)通常,这些句子是经过理解性组织过的
Wilson_Hank
·
2022-12-23 07:38
自然语言处理
自然语言处理
NLP | 文本预处理
一.文本预处理作用:文本
语料
在输送给模型前一般需要一系列的预处理工作,才能符合模型输入的要求,如:将文本转化成模型需要的张量,规范张量的尺寸等,而且科学的文本预处理环节还将有效指导模型超参数的选择,提升模型的评估指标二
奔跑的蜗牛君666
·
2022-12-23 07:07
深度学习
人工智能
深度学习
nlp
深入理解word2vec的skip-gram模型(一)
Word2Vec是从大量文本
语料
中以无监督的方式学习语义知识的一种模型,它被大量地用在自然语言处理(NLP)中。那么它是如何帮助我们做自然语言处理呢?
yougwypf1991
·
2022-12-23 06:44
人工智能
机器学习
神经网络
机器学习
人工智能
自然语言处理
文本特征提取算法-TF-IDF
用于评估一个词对一个文件集或者一个
语料
库的重要程度。一个词的重要程度跟它在文章中出现的次数成正比,跟它在
语料
库出现的次数成反比。
Sais_Z
·
2022-12-22 15:54
推荐系统
NLP
机器学习
大数据
python
自然语言处理(NLP)之TF-IDF原理及使用
TF-IDF介绍TF-IDF是NLP中一种常用的统计方法,用以评估一个字词对于一个文件集或一个
语料
库中的其中一份文件的重要程度,通常用于提取文本的特征,即关键词。
IT之一小佬
·
2022-12-22 15:54
自然语言处理
python
nlp
自然语言处理
深度学习
机器学习
【NLP学习笔记】使用jieba实现关键词提取
1.1基于TF-IDF算法的关键词提取TF-IDF(TermFrequency-InverseDocumentFrequency,词频-逆文件频率)是一种统计方法,用以评估一个词语对于一个文件集或一个
语料
库中的一份文件的重要程度
虚坏叔叔
·
2022-12-22 15:21
其它
从jieba分词到BERT-wwm——中文自然语言处理(NLP)基础分享系列(8)
另外将读取文件、构造
语料
库等前续步骤,也合并到myDataset类的**init**方法里。优化后新的代码如下:importnumpyasnpimportpandasaspdimportpick
moronism189
·
2022-12-22 13:11
自然语言处理
深度学习
word2vec
【NLP】14 ERNIE应用在语义匹配NLP任务——Paddlehub安装、BERT推广的使用、与Simnet_bow与Word2Vec效果比较
Ernie语义匹配1.ERNIE基于paddlehub的语义匹配0-1预测1.1数据1.2paddlehub1.3三种BERT模型结果2.中文STS(semantictextsimilarity)
语料
处理
Yang SiCheng
·
2022-12-22 13:09
【自然语言处理】
自然语言处理
人工智能
深度学习
百度
nlp
将csv文件分割成多个文件
#-*-coding:utf-8-*-importcsvimportosimportpandasaspdhome_path='D:\\工作文件\\项目\\分割
语料
测试'data_set_path=os.path.join
谷德白麻酱
·
2022-12-22 13:57
Python
csv
python
理论:NLP学习路径(三):NLP中文分词技术
缺点:过于依赖
语料
的质量。3)混合分词:上述两种方法的结合。(用得较多)2、规则分词主要是通过维护词典,在切分语句时,将语句的每个字符串与词表中的词进行逐一匹配,找到则切分,否则不予切分。
zmjames2000
·
2022-12-22 06:03
NLP
中文分词
规则分词
统计分词
hmm 流程图_一种基于HMM的中文分词方法与流程
一般地,作为主流的基于词典的中文分词虽然实现简单,但是过于依赖词典,容易造成歧义,导致错误切分,从而使得分词准确率低;同样地,基于统计模型的中文分词虽然在一定程度上能排除歧义,但是分词准确率也依赖于训练
语料
库
純樂
·
2022-12-22 06:00
hmm
流程图
基于Hmm模型和Viterbi算法的中文分词和词性标注
最终效果:人民日报
语料
:分词(F1:96.189%);词性标注(F1:97.934%)完整代码和数据,参见本实验的github地址:https://github.com/xuzf-git/WordSegment-and-PosTag1
xuzf-cs
·
2022-12-22 06:59
Python
自然语言处理
算法
nlp
OpenAI 研究员:数据不足时,如何实现监督学习
一般而言,当监督学习任务面临标签数据不足问题时,可以考虑以下四种解决办法:1.预训练+微调:首先在一个大规模无监督数据
语料
库上对一个强大的任务无关模型进行预训练(例如通过自监督学习在自由文本上对语言模型进行预训练
人工智能学家
·
2022-12-21 21:05
大数据
算法
python
计算机视觉
神经网络
【序列标注】kaggle实战系列-序列标注
数据:来自于98年人民日报NER
语料
环境:TensorFlow1.13.1模型:BiLSTM-CRF目录一、任务描述二、数据说明三、模型架构概述模型结构模型实现细节四、代码一、任务描述用seq_tag/
Rosyy_
·
2022-12-21 01:42
动手实践
深度学习
人工智能
CS224斯坦福nlp课程学习笔记2-词向量
onehotencoder(词袋模型)每个词表示为一个向量,向量长度为
语料
库中词的个数,每个向量值只有一个编码为1其余是0杭州[0,0,0,0,0,0,0,1,0,……,0,0,0,0,0,0,0]上海
NLP 小白进阶
·
2022-12-20 21:15
自然语言处理-word
embdedding学习笔记
NLP学习笔记[1] -- 构建词向量模型 -- Word2Vec与词嵌入
当获取到足够多的
语料
之后,需要
语料
中的主要语素"可计算",而"向量"是最普遍和容易使用的可计算元素,把词语等语素编码成向量就是词向量;词向量的计算应该有意义,需要尽可能保留原来的语言特征,把语素编码到连续的
冥火
·
2022-12-20 21:14
学习笔记
NLP
python
自然语言处理
数据分析
pandas
word2vec
提示学习Prompt介绍
下游任务的目标与预训练的目标差距过大导致提升效果不明显,微调过程中依赖大量的监督
语料
降低语义差异:预训练任务主要以(MLM)为主,而下游任务则重新引入新的训练参数,因此两个阶段的目标通常有较大差异;避免过拟合
帅奇奇的博客
·
2022-12-20 19:02
机器学习算法
python
1024程序员节
人工智能
机器学习
利用机器学习进行放假预测
这些操作不仅仅包括获取数据,还能够添加数据,比如:投票管理多个平台的多个账户(如各个电商平台的账号)微信聊天机器人实际的应用远不止上面这些,但是上面的应用只是除开数据本身的应用而已,数据本身的应用也是很广的:机器学习
语料
库垂直领域的服务
__Miracle__
·
2022-12-20 18:11
随笔
机器学习
爬虫
python
PaddleSpeech 实现多种卡通音色和方言的中英文混合 TTS
(以下内容搬运自PaddleSpeech)实现单模型TTS中英文发音初步尝试了3种方案:单发音人方式、多发音人
语料
混合方式、finetune方式。
小湉湉
·
2022-12-20 12:51
语音合成
人工智能
音频
AI 智能写作与智能写诗
自动纠错人工智能模型通过学习大量已知的错误拼写、搭配等
语料
,对于正在写作的文章提供实时的错误检测和
泡泡码客
·
2022-12-20 03:41
深度学习
NLP
人工智能
算法
机器学习
智能写作
智能写诗
HMM--实践
理论上没有
语料
库的话,可以使用EM算法求出参数l
qq_43498494
·
2022-12-20 01:21
机器学习基础算法
【一起入门NLP】中科院自然语言处理作业二:中英文
语料
训练CBOW模型获得词向量(pytorch实现)【代码+报告】
输出处理模块5.可视化模块三、实验结果中文结果可视化:英文结果可视化:四、疑问与思考1.cbow模型与词向量是什么关系2.keras如何实现cbow3.jieba分词:4.关于训练负样本的问题5.为什么中文
语料
要加载停用词学校自然语言处理第二次大作业
vector<>
·
2022-12-19 20:08
#
自然语言处理
pytorch
自然语言处理
机器学习
cbow
词向量
自然语言处理(二):文本预处理之文本处理的基本方法
自然语言处理笔记总目录文本预处理中包含的主要环节文本处理的基本方法文本张量表示方法文本
语料
的数据分析文本特征处理数据增强方法文本处理的基本方法分词词性标注命名实体识别文本张量表示方法one-hot编码Word2vecWordEmbedding
GeniusAng丶
·
2022-12-19 16:24
自然语言处理
自然语言处理
人工智能
深度学习
nlp
神经网络
4.1 文本预处理
文本预处理1.1认识文本预处理学习目标:了解什么是文本预处理及其作用.了解文本预处理中包含的主要环节.文本预处理及其作用:文本
语料
在输送给模型前一般需要一系列的预处理工作,才能符合模型输入的要求,如:将文本转化成模型需要的张量
射大雕的迪西。
·
2022-12-19 15:43
深度学习NLP
机器学习
人工智能
大数据
自然语言处理
深度学习
HanLP安装与使用-python版和java版
HanLP具备功能完善、性能高效、架构清晰、
语料
时新、可自定义的特点。内部算法经过工业界和学术界考验,配套书籍《自然语言处理入门》已经出版。
机智翔学长
·
2022-12-19 15:39
教程
HanLP
HanLP安装
HanLP使用
pyhanlp
报错
手把手教你用R实现标记化(附代码、学习资料、
语料
库)
作者:RachaelTatman翻译:梁傅淇本文长度为1600字,建议阅读4分钟标记化是自然语言处理中的一个常见的任务。本文教你如何用R来统计单个标记(单个单词)在文本中出现的频率,并将这个过程写成可复用的函数。自然语言处理中的一个常见的任务就是标记化。通常而言,对于像英语这样的语言来说,标记是单个的单词,而标记化则是将一篇文章或者一系列文章分成一个个的单词。这些标记之后会被作为其他类型的分析或者
「已注销」
·
2022-12-19 14:02
机器学习-文本处理之电影评论多分类情感分析
以下是此类应用的一些示例语言翻译:将句子从一种语言翻译成另一种语言情绪分析:从文本
语料
库中确定对任何主题或产品等的情绪是积极的、消极的还是中性的垃圾邮件过滤:检测未经请求和不需要的电子邮件/消息。
GawainTky
·
2022-12-19 10:57
机器学习
分类
自然语言处理
情感分析
提高方面级情感分析的性能:一种结合词汇图和句法图的方法
该工作提出了一种新颖的体系结构,其目标在于更好地利用
语料
库级别的单词共现信息以及
PaperWeekly
·
2022-12-19 10:56
机器学习
人工智能
深度学习
自然语言处理
计算机视觉
基于Keras_bert模型的Bert使用与字词预测
kert_bert库安装1.2Tokenizer文本拆分1.3训练和使用构建模型模型训练使用模型1.4AdamWarmup1.5获取预先训练的检测点1.6抽取特征二、中文文本Bert预训练模型2.1下载中文
语料
驭风少年君
·
2022-12-18 16:57
BERT文本分类
keras
bert
深度学习
基于
语料
库的汉语形容词宾语与名词句法语义关系分析
摘要本研究探讨了汉语动词宾语结构中形容词宾语与特定名词之间的句法和语义关系。首先,它表明动词宾语结构可以在句子中充当谓语和修饰语。由于形容词代表名词的属性,动词宾语结构的形容词宾语与特定名词具有属性-实体语义关系。根据句法功能和属性实体语义关系,我们指出形容词宾语与特定名词之间的句法关系主要有主谓关系和修饰语首关系两种。此外,我们将形容词宾语作为转喻表达。最后,我们认为作为宾语的形容词在语义上具有
tao_yue06
·
2022-12-18 16:22
自然语言处理
2016 CLSW-Invited Speech 1
分析大量
语料
后发现,前者是概率副词,后者是频率副词。频率和概率是不同计算的结果,需要不同的项目。像changchang(通常)这样的频率副词通常
tao_yue06
·
2022-12-18 16:21
概率论
机器学习
python—谭松波情感分析
coding:utf-8-*-###唐松波情感分析###importpandasaspdimportnumpyasnpdf1=pd.read_excel('E:/pywork\dataanalysis\谭松波
语料
Y_ni
·
2022-12-18 15:31
Python数据分析和数据挖掘
python
机器学习
开发语言
如何用Python破解邻居家的WIFI?
文中用到的
语料
库和源码博主也会在文章最后贴给大家,大家也可以动手去实验一下,看看多久能够破解邻居家的WiFi,哈哈哈!
爱睡觉的咋
·
2022-12-18 08:32
项目
windows
Wifi
Pywifi
Python
Bert用在seq2seq任务上——UNILM实战
环境配置2.1.0登录服务器2.1.1安装torch2.1.2配置UNILM要求的包2.2训练2.3验证3.结语1.UNILM简介按照我粗浅的理解:传统的seq2seq模型需要用一个encoder把输入的
语料
处理成向量
涂卡
·
2022-12-18 00:04
pytorch
python
nlp
深度学习
云服务器
使用transformers框架导入bert模型提取中文词向量
但是在gensim框架下使用word2vec模型提取特征向量之前,需要准备一些场景中的
语料
,同事也需要对
语料
肥宅程序员aka不会游泳的鱼
·
2022-12-17 17:38
bert
人工智能
深度学习
为解决BERT模型对
语料
中低频词的不敏感性
来源:投稿作者:COLDR编辑:学姐(内容如有错漏,可在评论区指出)摘要Dict-BERT为了解决BERT模型对
语料
中低频词(rarewords)的不敏感性,通过在预训练中加入低频词词典&对应低频词定义来增强训练语言模型
深度之眼
·
2022-12-17 13:23
深度学习干货
人工智能干货
粉丝的投稿
人工智能
深度学习
自然语言处理
从NNLM到Bert,NLP语言模型发展概述
NNLM主要内容:利用前n-1个词汇,预测第n个词汇提出了基于连续空间编码+神经网络的NNLM模型对于一个单词普遍采用的是one-hot编码方式,如果
语料
库的单词数目特别多,就会导致一个单词对应的one-hot
小鸡炖蘑菇@
·
2022-12-17 09:05
深度学习
人工智能
神经网络
python
它破解了AI作画的中文
语料
难题,AIGC模型讲解(以世界杯足球为例)
目录1扩散模型与AI绘画2中文
语料
的挑战3昆仑天工:AIGC新思路3.1主要特色3.2模型蒸馏3.3编解码与GPT3.4stable-diffusion3.5性能指标4体验中文AI绘画模型5展望1扩散模型与
Mr.Winter`
·
2022-12-17 08:33
AI作画
人工智能
算法
深度学习
数据挖掘
基于WIKI中文
语料
·Word2Vec模型训练·Python
在做文本情感分类的项目,研究到Word2Vec模型了。自己来实践一下,网上大多数代码经过时间的流逝,多多少少都出了点小问题,为了方便自己之后的学术垃圾的制造,把自己跑出来的,修改过的代码和方法记录一下。1.环境1.1环境配置Python3.9,Pycharm20211.2需要的库(搭建的虚拟环境,直接通过File->Settings引入)importloggingfromgensim.corpor
Finley锦城当云乐
·
2022-12-17 00:46
python
word2vec
自然语言处理
关于词嵌入的理解(入门级)
词嵌入基本知识维基百科中文
语料
分析(附实际评论案例)https://blog.csdn.net/m0_58327216/article/details/124444990阅读感想:word2vec的输入是由多句话组成的
语料
长安山南君
·
2022-12-16 21:50
知识图谱
深度学习
上一页
21
22
23
24
25
26
27
28
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他