E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
语料
python 文本相似度分析doc2bow
步骤:1、读取文档2、对要计算的多篇文档进行分词3、对文档进行整理成指定的格式,方便后续进行计算4、计算出词语进行过滤5、可选,对频率低的词语进行过滤6、通过
语料
库建立词典7、加载要对比的文档8、将要对比的文档通过
wx_411180165
·
2020-07-05 03:51
Python
基于SVM的人脸识别
数据说明LFW全称为LabeledFacesintheWild,是一个应用于人脸识别问题的数据库,更多内容查看官方网站:http://vis-www.cs.umass.edu/lfwLFW
语料
图片,每张图片都有人名
deepindeed
·
2020-07-05 00:47
【计算机视觉】
脸部识别
SVM
Liberal Event Extraction and Event Schema Induction
【文章来源】http://anthology.aclweb.org/P/P16/P16-1025.pdf我们提出了一种全新的“自由”事件提取范式,可以同时从任意输入
语料
库中提取事件和发现事件模式。
Hi-Cloud
·
2020-07-05 00:02
NLP
Task 2: Word Vectors and Word Senses
1.复习:word2vec的主要思想遍历整个
语料
库的每个单词使用单词向量预测周围的单词更新向量,以便您可以很好地预测Word2vec参数和计算每个位置的预测相同我们希望有一个模型,可以对上下文中出现的所有单词
小孟Tec
·
2020-07-04 23:36
CS224N
--
斯坦福自然语言处理课程笔记
Kaldi系列--Ubuntu训练TIMIT数据集(二)
TheDARPATIMITAcoustic-PhoneticContinuousSpeechCorpus,是由德州仪器(TI)、麻省理工学院(MIT)和坦福研究院(SRI)合作构建的声学-音素连续语音
语料
库
FairmeLi
·
2020-07-04 21:03
Ubuntu
Kaldi系列--Ubuntu训练thchs30数据集及其在线识别汇总(四)
在Kaldi中有一些中文语音识别的数据,包括:1.aishell:AISHELL公司开源178小时中文语音
语料
及基本训练脚本,见kaldi-master/egs/aishell2.gale_mandarin
FairmeLi
·
2020-07-04 21:03
Ubuntu
4. Python 中使用 XGBoost
pima-indians-diabetes.csv文件并将其切分成:用于模型训练的训练集、用于模型评测的测试集我们使用训练集训练XGBoost模型然后,使用测试集评测该模型的准确率、评测输入因素的重要程度二、
语料
文件
语料
文件使用
姜萌芽
·
2020-07-04 19:21
驾驭机器学习算法
我国第一个“法律语言
语料
库”
法律语言学者宋北平博士任所长的北京政法职业学院法律语言应用研究所,于2005年底提出了实施中国法律语言规范化工程方案,成立了“法律语言
语料
库”科研攻关课题组,并邀请有关专家组成法律语言规范化研究专家委员会
iteye_10365
·
2020-07-04 18:27
corpus
全文检索
设计模式
咨询
生活
出版
知识图谱—关系抽取—远程监督—OpenNRE(一)
该方法由MMintz大佬于ACL2009上首次提出,它既不是单纯的传统意义上的监督
语料
,当然也不是无监督。
hdpai2018
·
2020-07-04 17:01
【NLP-语义匹配】详解深度语义匹配模型DSSM
本文介绍一种经典的语义匹配技术,DSSM,主要用于
语料
的召回和粗排。作者&编辑|小Dream哥1DSSM的提出较早期的语义匹配模型都是基于关键词的匹配,例如LSA等,无法匹配语义层面的信息。
言有三
·
2020-07-04 17:10
信息检索导论读书笔记(四):索引构建
基于块的排序索引方法(blockedsort-basedindexing)(BSBI):对于很多大型
语料
库来说,即使使用压缩算法压缩后的倒排
时间很奇妙!
·
2020-07-04 14:44
信息检索导论读书笔记
怎样构建中文文本标注工具?(附工具、代码、论文等资源)
最前沿的NLP技术往往首先针对英文
语料
。英文NLP的生态很好,针对不同有意思的问题都有不少大规模
语料
公开供大家研究,如斯坦福的SQuAD阅读理解
语料
。中文方面开源
语料
就少得多,各种英文NL
chuquan6887
·
2020-07-04 13:44
NLP实践三:特征选择
TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个
语料
库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在
语料
库中出现的频率成反比下降
chen_yiwei
·
2020-07-04 13:54
NLP
机器学习基础知识
NLP-nltk篇
nltkbydeamon(
[email protected]
)nltk的全称是naturallanguagetoolkit,是一套基于python的自然语言处理工具集,⾃带
语料
库,词性分类库,⾃带分类,
草棚
·
2020-07-04 12:33
Python
文本分析苏轼的词以及苏轼的人生轨迹地图
文章目录一、宋词
语料
来源二、分析东坡词2.1苏轼最喜欢的季节2.2苏轼最喜欢的颜色2.3苏轼最喜欢的植物3.4苏轼最喜欢的动物3.5琴棋书画还是柴米油盐4.6苏轼的人生轨迹最近热播剧《清平乐》可以说是颇有争议
Lady Stark数据工作室
·
2020-07-04 06:36
文本分析实战
数据可视化
Python实现简单的文本相似度分析
注:本文参考链接总结文本相似度分析的步骤:1、读取文档2、对要计算的多篇文档进行分词3、对文档进行整理成指定格式,方便后续进行计算4、计算出词语的词频5、【可选】对词频低的词语进行过滤6、建立
语料
库词典
Your_Julia
·
2020-07-04 05:38
Python
自然语言处理中的N-Gram模型详解
N-Gram(有时也称为N元模子)是天然说话处置惩罚中一个很是主要的观点,平日在NLP中,人们基于必定的
语料
库,可以使用N-Gram来估计或者评估一个句子是否合理。
taoqick
·
2020-07-04 02:16
算法
nlp
机器学习
利用Python进行文本相似度分析
**一、文本分析流程:1.读取文档2.对要计算的多篇文档进行分词3.对文档进行整理成指定格式,方便后续计算4.计算出词语的频率5.对可选、低频词进行过滤6.通过
语料
库建立词典7.加载要对比的文档8.将要对比的文档通过
––
·
2020-07-04 01:42
初学
特征选择之互信息
以搜狗实验室的
语料
为例。选取金融,IT产品,体育,娱乐,股票这五个类别,通过互信息来选取词来建立空间向量模型。在选取之前需要做的一
mr-先生
·
2020-07-04 00:49
数据挖掘
数据挖掘
【NLP实战】tensorflow词向量训练实战
作者&编辑|小Dream哥1
语料
准备用于词向量训练的
语料
应该是已经分好词的
语料
,如下所示:2词向量训练(1)读取
语料
数据读取数据的过程很简单,就是从压缩文件中读取上面显示的
语料
,得到一个列表。
言有三
·
2020-07-04 00:40
【NLP实战】如何基于Tensorflow搭建一个聊天机器人
作者&编辑|小Dream哥1
语料
准备用于聊天机器人训练的
语料
应该是一系列的问答对,即大量的如下的形式问答对:Q:“今天天气怎么?”A:“天气预报说今天会下大暴雨的”此外
言有三
·
2020-07-04 00:40
【每周NLP论文推荐】从预训练模型掌握NLP的基本发展脉络
先通过无监督学习在大规模
语料
上进行Pre-Training,再通过Fine-tune的方式,在一定
语料
上进行有监督学习,进行下游任务的学习,是NLP领域近来的以大趋势。
言有三
·
2020-07-04 00:39
自然语言处理入门 - 目录
自然语言处理入门第1章新手上路1.1自然语言与编程语言.21.2自然语言处理的层次.41.3自然语言处理的流派.81.4机器学习..121.5
语料
库191.6开源工具..211.7总结.31第2章词典分词
西刹秋涛
·
2020-07-02 19:29
NLP
BioBERT: a pre-trained biomedical language representation model for biomedical text mining
但是,由于单词分布从普通领域的
语料
库转移到生物医学的
语料
库,直接将NLP的进步应用到生物医学的文本挖掘常常会产生不令人满意的结果。在本文中,我们研究了最近引入的预训练语言模型
ccluqh
·
2020-07-02 17:09
论文阅读笔记
Denoising Distantly Supervised Open-Domain Question Answering
现有的DS-QA模型通常从大型
语料
库中检索相关段落,并应用阅读理解技术从最相关的段落中提取答案。他们忽略了其他段落中包含的丰富信息。
nopSled
·
2020-07-02 17:02
问答-基于开放领域问答
百万级 - 自然语言处理 - 中文英文- 聊天机器人 -
语料
集合 - 多场景 - 单轮多轮对话
TED演讲数据:语言:中文简体、繁体、英文对比数量:3300+份首先,我想请大家回忆一下你们在孩提时代玩过的积木。当你构思着怎么去搭建积木并且去动手操作的时候,其实是你正在学习怎样思考和解决问题。Iwanttostartoutbyaskingyoutothinkbacktowhenyouwereakid,playingwithblocks.Asyoufiguredouthowtoreachouta
SnapchatML
·
2020-07-02 14:56
国内免费汉语
语料
库-NLP
自转载https://www.sohu.com/a/196504864_236505(一)国家语委1国家语委现代汉语
语料
库http://www.cncorpus.org/现代汉语通用平衡
语料
库现在重新开放网络查询了
luolan9611
·
2020-07-02 10:23
深度学习/机器学习
完全自动化对
语料
做词性标注
全人工对
语料
做词性标注就像蚂蚁一样忙忙碌碌,是非常耗费声明的,如果有一个机器能够完全自动化地,给它一篇
语料
,它迅速给你一片标注,这样才甚好,本节就来讨论一下怎么样能无需动手对
语料
做自动化的词性标注请尊重原创
jiangjingxuan
·
2020-07-02 05:32
动手做聊天机器人
NLP(二十四)利用ALBERT实现命名实体识别
data目录下为我们本次讲解所需要的数据,图中只有example开头的数据集,这是人民日报的标注
语料
,实体为人名(PE
山阴少年
·
2020-07-02 05:46
NLP
liblinear文本分类开发
训练模型读取
语料
和词典进行训练ScannergetCorpus=newScanner(newBufferedInputStream(newFileInputStream(newFile(corpus))
fuck_prometheus
·
2020-07-02 03:12
聚类与分类的区别
分类器需要由人工标注的分类训练
语料
训练得到,属于指导学习范畴。分类法适合类别或分类体系确定的场合,比如按照国图分类法分类图书。聚类则没有事先预定的类,类别数不确定。
huizhejian
·
2020-07-02 03:47
word2vec and glove
传统方法假设我们有一个足够大的
语料
库(其中包含各种各样的句子,比如维基百科词库就是很好的
语料
来源)那么最笨(但很管用)的办法莫过于将
语料
库里的所有句子扫描一遍,挨个数出每个单词周围出现其它单词的次数,做成下面这样的表格就可以了
每一个有风的日子
·
2020-07-02 03:36
NLP
Deep
learning
#想写小组S2#32篇_寒假作业结构
基于
语料
库的程度补语“X得很”习得考察引言现代汉语中“X得很”结构很常见,在BCC
语料
库[1]以“得很。”为关键字符搜索,可得2983条
语料
,如“好得很。”“害怕得很。”
juicebar
·
2020-07-02 01:13
转:有了这些网站,英文论文再也不难写了(15个英文论文写作辅助网站介绍和使用技巧)
这些网站大体上可分为四大类:(1)学术搜索引擎(谷歌学术、谷歌图书、微软学术、百度学术)(2)专业
语料
库(美国当代英语
语料
库、
小菜姬
·
2020-07-01 23:19
CS224n学习笔记 02_Word Vectors and Word Senses
moredetails基于统计的词向量GloveCo-occurrenceMatrixConclusionWord2vecMainideaofword2vec首先回顾一下,word2vec的主要思想:遍历整个
语料
库中的每个单词
duxiaodong1122
·
2020-07-01 23:06
CS224n
学习笔记
如何构建NLP Pipeline,各模块代码实现细节全在这里!
随着近年来UCG内容的增加,NLP在很大程度上需要解决无结构化的
语料
怎么让机器更好的理解,所以,NLP的学习难点在于语言本身。在面试和工作中,我们也经常面对各种问题:1.NLP工程师如何考虑在
demm868
·
2020-07-01 22:51
Deep learning lecture 4 Word Embedding
基于knowledge的表示基于
语料
库的表示atomicsymbolneighborsissuesonwindow-basedco-occurrencematrixword2vecGloveWord2Vecskip-grammodelGloVe
飞奔的红舞鞋
·
2020-07-01 21:00
【中文MRC】2019_IEEE_R-Trans: RNN Transformer Network for Chinese Machine Reading Comprehension
而分词问题,可以通过结合localandglobalcontext信息来解决(也就是说中文短语在不同的上下文中会有不同的意思),但由于已知的词嵌入比如GloVe、Word2vec是在英语
语料
上训练的,因此无法根
changreal
·
2020-07-01 19:29
NLP
论文笔记
远程监督的方法进行关系抽取简介
因为模型不可能自己给关系起名字,所以我们需要人工的标注好
语料
,基于
语料
库我们一共有多少种关系。
afvko8191
·
2020-07-01 16:34
论文学习《A Neural Probabilistic Language Model》
作者基于n-gram模型,通过使用
语料
对神经网络进行训练,最大化上文的n个词语对当前词语的预测。该模型同时学到了(1)每个单词的分布式表示和(2)单词序列的概率分布函数。该模型学
XB_please
·
2020-07-01 14:00
论文
论文浅尝 | 基于知识库的神经网络问题生成方法
来源:NLPCC2018链接:http://tcci.ccf.org.cn/conference/2018/papers/EV7.pdf问题背景与动机作者认为,目前的问题
语料
生成主要依赖于人工标注和整理
开放知识图谱
·
2020-07-01 13:53
论文浅尝 | 基于局内去噪和迁移学习的关系抽取
动机在远程监督任务中,除了
语料
的错误标注问题,还存在句内噪声单词过多的问题,即多数句子都存在一些与表达关系无关的词汇,这个问题未有人关注。
开放知识图谱
·
2020-07-01 13:20
【NLP】pyhanlp的安装与使用
HanLP具备功能完善、性能高效、架构清晰、
语料
时新、可自定义的特点。
Ezreal all
·
2020-07-01 13:07
【NLP】
忙碌而充实的打卡时光
我坚持每天在扇贝听听力,听完了很多
语料
库。沪江是我的良师益友,我在沪江学完了法语的B2,目前正在往西班牙语的B1进发。现在所在地物资匮乏到买不到什么笔记本,在沪江上课时,我只好用A
Mo_cecf
·
2020-07-01 13:44
第7天: NLP——倒排表
引言 我们在上次介绍搭建一个智能客服系统的时候,曾经提到过得有一个
语料
库,这个
语料
库包括问题和相应的答案。
stefan之风起长林
·
2020-07-01 12:54
NLP学习
倒序列表
时间复杂度降低
层次过滤思想
NLP
文本分类
视频生成系列1-小视频生成
获取大量的数据来训练深度学习模型,我们开发了一种自动创建匹配的方法来文本视频
语料
库来自公开的在线视频。试验结果表明,提出的框架产生合理和多样的视频,同时准确地反映出这一点输
Feather轻飞
·
2020-07-01 12:20
使用CRF++实现命名实体识别
【安装】在Windows中CRF++不需要安装,下载解压CRF++0.58文件即可以使用【
语料
】需要注意字与标签之间的分隔符为制表符\tplayedVBDOonI
c.x.y.07.30
·
2020-07-01 11:42
NLP
基于预训练词向量的文本相似度计算-word2vec, paddle
文章目录0.前言1.余弦相似度算子2.示例代码并验证3.基于词向量的文本相似度3.1读取word2vec文件3.2定义模型3.3运行模型3.4根据分数降序排列3.5结果4.完整
语料
下的实验5.可能有用的资料
机智翔学长
·
2020-07-01 09:45
NLP
文本相似度
预训练
word2vec
paddlepaddle
自然语言处理入门(1)——文本相似度计算
1.TF-IDF模型TF-IDF(TermFrequency-InverseDocumentFrequency)是一种统计方法,用以评估某一字词对于一个文件集或一个
语料
库中的其中一份文件的重要程度。
飞鸟2010
·
2020-07-01 09:19
自然语言处理
达观数据王江:fastText原理及实践
在标准的多核CPU上,能够训练10亿词级别
语料
库的词向量在10分钟之内,能够分类有着30万多类别的50多万句子在1分钟之内。本文首先会介绍一些预备知识,
达观数据
·
2020-07-01 08:25
文本智能处理
上一页
48
49
50
51
52
53
54
55
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他