E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
语料
NER实体识别工具(中文)
感觉这些NER工具都是面向的是通用领域,训练
语料
质量残差不齐,不要抱太大希望可以直接用在specificfield。我实验的这几个中,感觉是spacy还算是好用一些的,剩下的一般吧。
追光女孩儿
·
2022-06-27 23:46
python
knowledge
语言模型
nlp
语料
库数据处理个案实例(读取多个文本文件、读取一个文件夹下面指定的多个文件、解码错误、读取多个子文件夹文本、多个文件批量改名)
在
语料
库语言学研究中,
语料
库往往存储在多个文本中。本小节中,我们首先介绍如何读取文件夹中多个文本的文件名;然后介绍如何读取多个文件,并将它们合并成一个文本;最后介绍如何读取多个子文件夹中的文本。
Triumph19
·
2022-06-27 20:29
利用Python进行数据分析
python文本分析
python
os
读取文件
语音识别-基于CTC-BiLSTM联合模型的英语语音识别系统
1概要本博客偏向实践,以LibriSpeech公开英语
语料
数据集作为训练
语料
,搭建了基于CTC(Connectionisttemporalclassification)-BiLSTM的联合模型的语音识别系统
The_帅
·
2022-06-27 07:17
语音识别
语音识别
深度学习
神经网络
python
自然语言处理系列之:中文分词技术
技术介绍开源中文分词工具-Jieba实战分词之高频词提取3.1中文分词简介规则分词最早兴起,主要通过人工设立词库,按照一定方式进行匹配切分,实现简单高效,但对新词难以处理;统计分词能较好应对新词发现场景,但是太过于依赖于
语料
质量
Hi丶ImViper
·
2022-06-25 07:22
python
算法
python
机器学习
自然语言处理
java朴素贝叶斯词频_利用朴素贝叶斯算法进行文档分类
本文的侧重点不是自然语言处理,所以
语料
库直接使用英文,以避免介绍中文分词技术。为了读者更好的理解原理,本文介绍了TF-IDF,这是一个表达词语权重信息的模型。
In k
·
2022-06-25 07:52
java朴素贝叶斯词频
词对齐任务:端到端模型
VecMap(ACL2017)方法是一个迭代方法,求两个
语料
之间的$W$线性映射。流程文章想要找到一个$W$,使得两个语种之间的映射后距离最小:$X$是源语言的embedding,$Y$是目标语言的
·
2022-06-24 14:46
BiLSTM-CRF模型做基于字的中文命名实体识别
在MSRA的简体中文NER
语料
(我是从这里下载的,非官方出品,可能不是SIGHAN2006Bakeoff-3评测所使用的原版
语料
)上训练NER模型,识别人名、地名和组织机构名。
中国小宝
·
2022-06-23 07:25
深度学习与自然语言处理第五次作业——段落分析模型
文章目录深度学习与自然语言处理第五次作业——段落分析模型一、实验原理1、Seq2seq模型简介2、LTSM模型介绍二、解题流程1、读取训练
语料
2、训练模型3、读取测试
语料
4、结果输出三、实验结果与分析1
荦荦大端荤荤
·
2022-06-22 07:15
深度学习
自然语言处理
人工智能
文本匹配——【NAACL 2021】AugSBERT
背景与挑战论文地址:https://arxiv.org/abs/2010.08240目前,最先进的NLP架构模型通常重用在Wikipedia和TorontoBooksCorpus等大型文本
语料
库上预训练的
小爷毛毛(卓寿杰)
·
2022-06-22 07:06
自然语言处理
深度学习
搜索推荐中的深度匹配
机器学习
聚类
python
自然语言处理入门——文本预处理
自然语言处理入门内容大纲:文本预处理经典序列模型RNN及其变体Transformer迁移学习文本预处理认识文本预处理作用:文本
语料
在输送给模型前一般需要一系列的预处理工作,才能符合模型输入要求,如将文本转换成模型需要的张量
Lanciberrr
·
2022-06-17 07:18
自然语言处理
python
机器学习
NLP系列——NLP基础
NLP系列——NLP基础NLP基础部分包括基础术语、知识结构、
语料
库等部分内容。
季建豪
·
2022-06-17 07:16
NLP技术
自然语言处理
机器学习
大数据
华为开源预训练语言模型「哪吒、TinyBERT」可直接下载使用
中文使用的
语料
库是Wikipedia和BaikeandNews,而Google的中文
语料
库仅使用Wikipedia
imalg图像算法
·
2022-06-13 07:46
图像算法
图像算法
华为
开源预训
神经网络
语言模型
吴恩达机器学习课程-第六周(part2)
1.机器学习系统的设计以垃圾邮件分类算法为例开启讨论:1.1首先要做什么一般而言首先需要确定如何选择并表达特征向量xxx,假设选出垃圾邮件中100个常见词构建一个
语料
库,当这些词出现该邮件中,便将向量相应位置置为
J___code
·
2022-06-12 15:40
机器学习
机器学习
查全率
查准率
F1
语音情感识别--理论篇
语音情感识别主要包括语音
语料
库的采集,语音信号预处理,语音情感特征提取,语音情感分类。以上为语音情感识别主要步骤。语音情感特征提取(1):选择和提取合适的语音情感特征对提高识别准确率来说非常重要。
醒了的追梦人
·
2022-06-10 07:09
机器学习and深度学习
语音识别
Python
语音情感识别
理论篇
命名实体识别(基于规则-无监督学习-机器学习-深度学习)
文章目录1简介2NER标注
语料
库3NER工具库4序列标注标签方案5四类NER方法(规则-无监督学习-机器学习-深度学习)5.1基于规则的NER5.2基于无监督学习方法5.2基于机器学习(含特征的有监督学习
Weiyaner
·
2022-06-06 07:24
自然语言处理
机器学习
深度学习
知识图谱
整理常用的中英文预训练词向量(Pretrained Word Vectors)
文章目录引言腾讯中文词汇/短语向量(TencentAILabEmbeddingCorpusforChineseWordsandPhrases)使用方法中文词向量
语料
库by北京师范大学&人民大学StanfordGloVeEmbeddings
虾米小馄饨
·
2022-05-27 07:58
自然语言处理&生成
python
人工智能
自然语言处理
词向量
文本分类
NLP实战-基于弱标注数据的文本分类
目录分析现有数据解决方案初始
语料
集构建特征选择过滤
语料
1、词频逆文档评率2、信息增益3、卡方检验训练模型缺失标签数据处理总结最近在做CSDN文库标签的分类,文库的数据比博客数据要短一些,特征比较分散,时间紧任务重
行走的人偶
·
2022-05-27 07:26
NLP的应用落地
自然语言处理
分类
深入浅出语言模型(四)——BERT的后浪们(RoBERTa、MASS、XLNet、UniLM、ALBERT、TinyBERT、Electra)
针对Bert的改进,主要体现在增加训练
语料
、增添预训练任务、改进mask方式、调整模型结构、调整超参数、模型蒸馏等。下面对近年来Bert的改进版本的关键点做叙述。深入浅出语言模型
fond_dependent
·
2022-05-23 07:34
NLP的知识库
人工智能
机器学习
深度学习
pythonlda模型_lda主题模型python实现篇_主题模型TopicModel:通过gensim实现LDA
gensim中的算法包括:LSA(LatentSemanticAnalysis),LDA(LatentDirichletAllocation),RP(RandomProjections),通过在一个训练文档
语料
库中
小叮当做事小丁当
·
2022-05-21 07:58
pythonlda模型
lda主题模型python实现篇_主题模型TopicModel:通过gensim实现LDA
gensim中的算法包括:LSA(LatentSemanticAnalysis),LDA(LatentDirichletAllocation),RP(RandomProjections),通过在一个训练文档
语料
库中
weixin_39993301
·
2022-05-21 07:20
Praat脚本-003 | 一种高效的将连续录制的音频切分的方案
文章目录前言引题要点数据Demo技术方案步骤一人工定句子边界步骤二利用脚本切分第一种情况,直接使用数字保存第二种情况,利用标注的内容作为文件名运行脚本特别说明如何获取脚本关注版权说明前言引题在语音处理过程中,整理
语料
极地语音工作室
·
2022-05-20 08:51
Praat
Praat
脚本
长音频切分
可怕!微软AI:一张面部照片一段音频,完美生成头像演讲视频
越来越多的研究表明,只要
语料
库足够大,几乎任何人的面部动作都可以与语音片段同步。今年6月,来自三星的应用科学
我爱计算机视觉
·
2022-05-20 08:20
电影音频自动剪辑
语料
电影电视剧语音数据集剪辑工具前言一、语音识别任务二、代码实现1.语音定位2.根据时间剪辑对应音频总结前言ASR语音识别任务通常使用开源数据集进行训练,为了补充语音识别数据,通过脚本自动生成一些视频片段进行自动标注,可以有效地减少认为标注的工作量。一、语音识别任务通过ASR深度学习模型识别出语音的文字。二、代码实现通过程序自动从电影或电视剧中剪辑对应的音频内容,保存本地作为语音识别任务的数据源。经过
L.ikJ.
·
2022-05-20 08:48
音视频
语音识别
计算机视觉
LDA主题模型绘制困惑度(perplexity)-主题数曲线——python
LDA作为一种无监督机器学习技术,利用词袋方法识别隐藏在大规模文档集或
语料
库中的主题信息。LDA模型可挖掘出文档集或
语料
库中的潜在
阿丢是丢心心
·
2022-05-12 10:26
python
数据分析
LDA主题模型的原理及使用教程
LDA常被用于识别
语料
中潜在的主题信息。LDA
灵海之森
·
2022-05-12 10:23
python
可视化
大数据
自然语言处理入门——新手上路
目录一、自然与语言与编程语言二、自然语言处理的层次三、自然语言处理的流派五、
语料
库六、开源工具七总结自然语言处理(NLP)是一门融合了计算机科学、人工智能以及语言学的交叉学科。
海伦•
·
2022-05-08 07:57
人工智能相关书籍阅读笔记
自然语言处理
机器学习
深度学习
基于BiLSTM-CRF的命名实体识别
基于BiLSTM-CRF的命名实体识别1.任务说明1.1任务定义1.2
语料
说明2.实验环境3.算法说明(按文件说明)3.1model.py3.2data.py3.3predict.py3.4evaluate.py3.5run.py4
回锅肉炒肉
·
2022-05-07 07:46
智能客服闲聊模块三种方案对比
目前业界针对于闲聊模块的方案一般以下三个方案基于固定模板我们都知道业务问答通用方案是基于模板式问答,同理模板式问答也适用于闲聊系统,这种方式的优势在于易于控制,用少量的模板满足多种问题需求,劣势在于出现答非所问的概率比较大基于
语料
库这种做法是先收集
·
2022-05-07 00:15
算法人工智能
python mooc-课程资源 | Python语言系列专题MOOC
众所周知,计算语言学的研究和应用需要大料的
语料
,但是
语料
规模扩大之后人工处理就显得捉襟见肘。因此,机器自动处理就显得很有必要。要想让机器按照自己的想法处理
语料
,学习一点编程语言是必要的。
weixin_39634438
·
2022-04-28 07:29
nltk自然语言处理
一些知识点concordanceconcordance查找
语料
库中特定的单词的上下文,检索词指定窗口大小的上下文。
Suzerk
·
2022-04-15 07:54
杂七杂八
nltk
nlp
Paddleocr文本识别数据集的合成与制作----超级详细
目录前言一、数据集的总体概括1.1训练集和测试集1.2文本识别所需字典二、文本识别数据集的合成前期准备2.1数据集合成概括2.2
语料
和目标场景图像模板的准备和处理2.3制作
语料
2.4制作字典2.5制作目标场景图像模板三
炮哥带你学
·
2022-04-14 07:13
python
paddlepaddle
深度学习
gan 5小时速成
语义之间的多模态学习图像标记:用词语对图像中不同内容进行多维度表述图像描述:把一幅图片翻译为一段描述文字获取图像的标记词语理解图像标记之间的关系生成人类可读的句子词向量模型:Word2Vec是从大量文本
语料
中以无监督的方式学
weixin_45955767
·
2022-04-12 08:20
gan3小时速成
计算机视觉
图像处理
opencv
素养立意下的命题特点
以考查学生语文核心素养为目标的中考语文试题,坚持立德树人的根本任务,
语料
形式丰富多样;依据课标与教材命题,实现教、学、考的统一;创设真实的命题情境,探索项目化学习方式;关注学生的学习过程和思维形式,积极导向初中语文教学
本真语文
·
2022-03-31 16:30
机器学习笔记(二)1
早期又叫模式识别PR(偏向具体任务,eg:光学字符识别、语音识别、人脸识别等)2.基本概念特征/属性:标签::=>样本/示例数据集/
语料
库训练集/测试样本测试集/训练样本特征向量学习算法A又叫学习器3.
foxxxx
·
2022-03-29 19:00
Python全角与半角之间相互转换的方法总结
全角转半角:6.半角转成全角:附:如何通过python转换全角字符串为半角字符串实例说在后面:1.应用领域:全角和半角的转换通常用在自然语言处理过程中,由于全角和半角的不一致会导致信息抽取不一致,在使用
语料
训练语言模型会导致模型的效果不准确
·
2022-03-29 18:41
5分钟NLP:快速实现NER的3个预训练库总结
NER模型的作用是识别文本
语料
库中的命名实体例如人名、组织、位置、语言等。NER模型可以用来理解一个文本句子/短语的意思。
·
2022-03-24 14:59
关于使用[MASK]做完形填空时需要注意的点
文章目录题目关键点Q1:选取谁做[MASK]Q2:如何实现[MASK]Q3:为什么自己训练的模型loss不会下降题目关于使用[MASK]做完形填空时需要注意的点关键点Q1:选取谁做[MASK]A:关于这个问题取决于
语料
库中的每句话的平均长度比如我在
365JHWZGo
·
2022-03-16 07:49
自然语言处理NLP
深度学习
机器学习
自然语言处理
Raki的读paper小记:Style Transformer
摘要与总结将内容和风格在隐空间解耦在不成对文本风格迁移的是非常流行的,然而现在的模型不太行,主要体现在两点:模型Z是经过编码后的文本表示,S是styleembeddingDiscriminatorNetwork因为缺少平行
语料
爱睡觉的Raki
·
2022-03-14 07:41
读paper
NLP
transformer
深度学习
迁移学习
自然语言处理
机器学习
Raki的读paper小记:GloVe: Global Vectors for Word Representation
大名鼎鼎来自StanfordChrisManning组的GloVe词向量摘要本方法提出的初衷是,基于shallow-window的方法的缺点是它们不能直接对
语料
库的共现统计数据进行操作,而只是用一个滑动窗口滑过整个
语料
库
爱睡觉的Raki
·
2022-03-14 07:40
读paper
NLP
机器学习
深度学习
nlp
人工智能
自然语言处理
六十五、Spark-综合案例(搜狗搜索日志分析)
为进行中文搜索引擎用户行为分析的研究者提供基准研究
语料
目录原数据展示业务需求业务逻辑分词工具Maven依赖代码实现效果展现搜狗搜索日志官网:http://www.sogou.com/labs/resource
托马斯-酷涛
·
2022-03-06 07:14
spark
hadoop
运维
spark
big
data
运维
知识增广的预训练语言模型K-BERT:将知识图谱作为训练
语料
©原创作者|杨健论文标题:K-BERT:EnablingLanguageRepresentationwithKnowledgeGraph收录会议:AAAI论文链接:https://ojs.aaai.org/index.php/AAAI/article/view/5681项目地址:https://github.com/autoliuweijie/K-BERT01背景论述笔者在前面的论文解读中提到过E
NLP论文解读
·
2022-03-04 13:00
A Neural Probabilistic Language Model (2003)论文要点
使用浅层网络(比如1层隐层)训练大
语料
。featurevec
weixin_30457465
·
2022-03-03 07:08
python nlp 句子提取_python nlp 句子提取_《用Python进行自然语言处理》第7章 从文本提取信息...
3.哪些
语料
库适合这项工作,我们如何使用它们来训练和评估我们的模型?7.1信息提取#一个重要的形式是结构化数据:实体和关系的可预测的规范的结构。
weixin_39538847
·
2022-03-02 07:49
python
nlp
句子提取
python nlp 句子提取_《用Python进行自然语言处理》第7章 从文本提取信息
3.哪些
语料
库适合这项工作,我们如何使用它们来训练和评估我们的模型?7.1信息提取#一个重要的形式是结构化数据:实体和关系的可预测的规范的结构。
抓到大根就是宝
·
2022-03-02 07:19
python
nlp
句子提取
python_NLP实战之关键词提取
无监督的方法包括TF-IDF算法、TextRank算法(不依赖
语料
库)和主题模型算法(LSA,LSI,LDA等)1、LSA步骤step1:使用BOW模型将每个文档表示为向量step2:将所有的文档词向量拼接起来构成词
TtingZh
·
2022-03-02 07:48
python自然语言处理实战
Python库之自然语言处理和文本挖掘
目前已经有超过50种
语料
库和词汇资
缘如风
·
2022-03-02 07:03
Python
python根据词向量计算相似度_Python 利用Word2Vec计算词语相似度(gensim实现)
输入:
语料
库,txt文件。输出:余弦相似度。
weixin_39578457
·
2022-03-01 07:34
基于深度学习的文本分类 2
因此,word2vec模型可以方便地从新增
语料
中学习到新增词的向量表达。word2vec的主要思路:通过单词的上下文彼此预测,对应的两个算法分别为:Skip-grams(SG):预测上下文Conti
sosososoon
·
2022-02-28 07:50
NLP学习
自然语言处理
深度学习
神经网络
机器学习
tensorflow
中科大、MSRA提出视觉Transformer BERT预训练新方式,优于MAE、BEiT
基于大型
语料
库训练的Transformer模型在自然语言处理中取得了巨大的成功,作为Transformer构建块,self-attention极大地改变了计算机视觉任务。
PaperWeekly
·
2022-02-24 07:55
计算机视觉
神经网络
机器学习
人工智能
深度学习
《动手学深度学习》读书笔记:第1章 深度学习简介
近年来,仰仗着大数据集和强大的硬件,深度学习已逐渐成为处理图像、文本
语料
和声音信号等复杂高维数据的主要方法。1.1起源虽然深度学习似乎
feiwen110
·
2022-02-22 07:33
《动手学深度学习》
深度学习
人工智能
上一页
29
30
31
32
33
34
35
36
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他