E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
语料
重磅 | 数据挖掘之父韩家炜:文本
语料
库的数据挖掘(附视频+PPT下载)
授权转载自公众号数据派THU微信ID:DatapiTHU近期,美国伊利诺伊大学厄巴纳香槟分校计算机科学AbelBliss教授韩家炜在清华大学FIT楼多功能厅进行了关于文本
语料
库数据挖掘的主题分享。
大数据文摘
·
2020-08-02 20:26
通过Trie实现违禁词过滤
2.后期可以通过机器学习来自动识别一篇简历是否是正常简历,一篇正常简历的特征还是很明显的,通过训练机器识别正常简历的
语料
,能让机器自动判断是否是违规信息。
SAN_YUN
·
2020-08-02 16:25
nltk
一种镜像生成式机器翻译模型:MGNMT | ICLR 2020满分论文解读
MGNMT:镜像生成式NMT(ICLR2020满分论文)机构:南京大学,字节跳动点此获取“论文链接”一、摘要常规的神经机器翻译(NMT)需要大量平行
语料
,这对于很多语种来说真是太难了。
AMiner2006
·
2020-08-02 15:03
ICLR
机器翻译
【阅读笔记】Reasoning With Neural Tensor Networks for Knowledge Base Completion
最后,论文证明当这些词向量通过大量非监督学习的
语料
学习结果作为参数的初始化值,对于预测知识库里两个实体是否有关系的评估结果
So_weak_yx
·
2020-08-02 14:42
论文阅读笔记
基于selenium的网络
语料
获取
基于selenium的网络
语料
获取selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法执行javaScript代码的问题。
dayday学习
·
2020-08-02 14:12
爬虫
python-tensorflow 实现图像分类
这让作为程序员的我突然萌生了一股攀比和一种激情,我也得做一个出来(小声bb,都得尝试下):于是,我想从相对简单的做起,《AI菜品分析机器人》:AI菜品分析机器人:1.建立
语料
库,爬取各个网站的对话和问答
刘小航9527
·
2020-08-02 13:28
TensorFlow构建循环神经网络
前言前面在《循环神经网络》文章中已经介绍了深度学习的循环神经网络模型及其原理,接下去这篇文章将尝试使用TensorFlow来实现一个循环神经网络,该例子能通过训练给定的
语料
生成模型并实现对字符的预测。
weixin_34216107
·
2020-08-02 12:47
无所不能的Embedding 1 - Word2vec模型详解&代码实现
word2vec是google2013年提出的,从大规模
语料
中训练词向量的模型,在许多场景中都有应用,信息提取相似度计算等等。
风雨中的小七
·
2020-08-02 11:00
无所不能的Embedding 1 - Word2vec模型详解&代码实现
word2vec是google2013年提出的,从大规模
语料
中训练词向量的模型,在许多场景中都有应用,信息提取相似度计算等等。
有温度的Data Science~
·
2020-08-02 11:00
(含源码)问答对生成(QAG)| 你竟还在手工梳理问答对!?
这些客服机器人基本都是利用高质量、大量业务场景问答对(QA)作为
语料
进行训练得到的,但是梳理这些问答对将会耗费大量人力成本。能否做到QA问答对的自动生成呢?答案是肯定的。PaperI
yinizhilianlove
·
2020-08-01 08:26
论文推送
query 改写的意义及主要方法
(优化中频query的排序)同义词的数据构造(构造的是对齐
语料
,也是相似度高的一对文本。为两个query,或者两个doctitle,或者query_doc。因此可以基于先验知识,或基于点击、语义等
吹洞箫饮酒杏花下
·
2020-08-01 02:54
秒懂TF IDF 代码实现
某个词在文章中出现的次数考虑到文章有长短之分,考虑到不同文章之间的比较,将词频进行标准化词频=某个词在文章中出现的次数/文章的总词数或者词频=某个词在文章中出现的次数/该文出现次数最多的词出现的次数2)计算逆文档频率需要一个
语料
库
丁之透
·
2020-08-01 02:24
数据分析&文本挖掘
Kaldi(二)中文模型识别
目前kaldi中文识别数据集aishell:AISHELL公司开源178小时中文语音
语料
及基本训练脚本,见kaldi-master/egs/aishellaishell-1:http://www.openslr.org
圆滚滚的大营子
·
2020-08-01 01:48
文本表示(四)字词混合的分布式表示方法
但是根据齐夫定律,绝大多数的词在
语料
中很少出现,对于这些词,无法依据分布式假说来获得高质量的词向量表示。前面利用的是词来进行的建模,但是词并不是最小的语言单位,词是由字或字符构成的。
JustMo_
·
2020-08-01 00:03
文本表示
文本表示(五)短语的分布式表示
因为短语出现的频率很低,所以如果将短语视为一个不可分割的独立语义单位,那么将没有足够频率的
语料
来训练短语向量,所以第一种方式就不可行了。基于组合语义的短语表示学习是一种更加合理的方法。
JustMo_
·
2020-08-01 00:03
文本表示
cs224u 自然语言推理:任务和数据集-1
task_and_data.ipynb__author__="ChristopherPotts"__version__="CS224u,Stanford,Fall2020"目录概述任务主要资源安装部署
语料
库的属性
段智华
·
2020-07-31 17:42
自然语言处理(NLP)- 一个英文拼写纠错系统
功能:给出拼写错误的单词,返回一个正确的单词,或者返回一个与输入单词最接近的单词;IDE:pycharm;python3.5;PYQT做界面;数据:使用big.txt作为
语料
库。
bensonrachel
·
2020-07-31 16:49
python
Anaconda3
英文拼写纠错
自然语言处理
NLP
《自然语言处理》相关
结巴分词中TFIDF的原理
TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个
语料
库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语
anqiu4023
·
2020-07-31 15:57
一个基于PyTorch实现的Glove词向量的实例
因此在NLP中,往往会先针对
语料
生成相应的词向量,然后再把词向量喂入具体任
程序员的自我反思
·
2020-07-31 15:48
深度学习
Elasticsearch:在 Elasticsearch 中使用语言识别进行多语言搜索
在此发行版中,我们希望借此机会描述在多语言
语料
库中进行搜索的一些用例和策略,以及语言识别的作用。过去我们讨论了其中一些主题,并将在以下一些示例的基础上继续进行讨论。
Elastic 中国社区官方博客
·
2020-07-31 15:58
Elastic
elasticsearch
大数据
机器学习数据集
这些数据集包括人类基因组项目、CommonCrawl网页
语料
库、维基百科数据和GoogleBooksNgrams。相关信息可参见:http:/
lin聪记
·
2020-07-31 14:25
机器学习
推荐算法
机器学习
大数据
《自然语言处理实战入门》 ---- 第2课 :网络爬虫简介
在合理合法的前提下自然语言处理的
语料
和其他机器学习模型训练数据需要的图片等等各类数据,我们其实都是可以通过网络爬虫的方式进行积累的。文章大纲1.网络爬
shiter
·
2020-07-30 20:14
NLP
自然语言处理
自然语言实战入门
网络爬虫
简单NLP分析套路
基于 Milvus 实现向量与结构化数据混合查询
如人脸图片,可以添加性别、是否戴眼镜、图片抓取时间等标签;文本可以添加语言类型、
语料
分类、文本创建时间等标签。以往,人们通常将特征向量存入结构化的标签属性表。但传统数据库无法针对海量、高维特征向
ZILLIZ RDS
·
2020-07-30 12:45
Milvus
HanLP《自然语言处理入门》笔记--3.二元语法与中文分词
文章目录3.二元语法与中文分词3.1语言模型3.2中文分词
语料
库3.3训练与预测3.4HanLP分词与用户词典的集成3.5二元语法与词典分词比较3.6GitHub项目笔记转载于GitHub项目:https
mantchs
·
2020-07-30 12:23
NLP
自然语言处理
机器学习
nlp
基于GMM-UBM的说话人识别 MSR Identity Toolkit
MSRIdentityToolkit使用微软的声纹识别工具箱,记录使用步骤该工具箱包含了常规的基于GMM-UBM方法以及state-of-the-art的基于i-vector方法,本文记录的是GMM-UBM方法,使用TIMIT
语料
库进行训练先说明这个
373955482
·
2020-07-30 12:17
语音识别
读书笔记之语法
语料
库和语义知识库
语法
语料
库和语义知识库文末有文档下载地址:本文档是自己在读硕士期间学习自言语言处理的读书笔记语言资源库的分类:通用性和专用性、异质性和同质性、动态性和静态性、共时性与历时性、平行与双语,5个相互对立的特征揭示了一个重要的原则
人上人生之人
·
2020-07-30 12:19
NLP
中文自然语言处理语言资源项目(ChineseNLPcorpus)
ChineseNLPcorpusAncollectionofChinesenlpcorpusincludingbasicChinesesyntacticwordset,semanticwordset,historiccorpusandevaluatecorpus.中文自然语言处理的
语料
集合
liuhuanyong_iscas
·
2020-07-30 12:39
语言资源
知识图谱
自然语言处理
人工智能
语言信息处理
语料
库
思路:-
语料
库有什么用,在统计机器学习中的地位,用图说明-
语料
库的一些基本概念。如熟
语料
、生
语料
等。-有哪些著名的
语料
库。人民日报
语料
库、WordNet等。-如何构建
语料
库。主要是成本、规范。
阿满子
·
2020-07-30 11:48
语料库
PKU Paraphrase Bank文章解读:句级中文文本复述
语料
库
前两天查文本复述的资料的时候发现9月30号北大release了一批中文文本复述
语料
,就去看了一下,发现这篇文章用的方法都比较经典,易于理解,在这里做一个总结。
OXPHOS
·
2020-07-30 11:05
NLP
【转载】中文word2vec的python实现
转自https://blog.csdn.net/sinat_29694963/article/details/791778321、
语料
相关说明第一种方法是去网上下载相关
语料
,我这里有一个英文
语料
模型点我下载
春卷同学
·
2020-07-30 11:00
机器学习基础概念
NPL中什么是词向量
(2)在同一领域
语料
下,
语料
越多越好,增加不相关领域
语料
将会降低词向量效果。(3)大的上下文窗口学到的词向量更反映主题信息,而小的上下文窗口学到的词向量更反映词的功能和上下文语义信息。
CTO老王
·
2020-07-30 11:00
微软的MSR paraphrase数据集
5800对句子,人工标注关于
语料
的来源和标注方式参考readme样本如下,非常简单明了:下载地址:https://www.microsoft.com/en-us/download/details.aspx
zdcs
·
2020-07-30 11:24
深度学习
机器学习
自然语言处理
一般技巧和资源介绍
语音识别_CMUSphinx入门(二)训练一个声学模型
本章原文出自https://cmusphinx.github.io/wiki/tutorialam/目录介绍什么时候你需要去训练什么时候你不需要去训练准备数据编译所需包建立训练脚本建立
语料
数据集的格式配置文件路径配置模型的类型和参数配置声音特征的参数配置并行工作以加
言午三吉
·
2020-07-30 05:09
音频开发
解决UnicodeEncodeError: 'charmap' codec can't encode characters in position 37-47: character maps to
我是分割线我是分割线我是分割线我是分割线我是分割线2、真正的原因代码调试通之后,打开
语料
集发现昨天正常的中文
语料
,今天打开乱码了。
子春-寒
·
2020-07-30 05:20
Python
基于10个类别假新闻1000篇文章数据训练中文word2vec模型
爬取
语料
库利用爬虫爬取百度网页每个类别假新闻10页,共1000篇文章。爬取的类别如下:数据预处理汇总把爬取到的10个txt文件都放在同一个文件夹下,利用程序将这10个txt文件合并在一起。
neu于开帅
·
2020-07-30 03:02
用Python做简易词云
一份中文字体文件:simsun.ttf若干咪蒙文章资源:作为
语料
数据。一张白底图片:作为词云的蒙版。实验效
爱吃西瓜的番茄酱
·
2020-07-29 21:39
NLP面试
nlp:1.word2vec原理(word2vec中CBOW和Skip-Gram训练模型的原理word2vec中的数学原理详解)功能:将corpus(
语料
库)的one-hot向量(模型的输入)转换成低维关联词向量
zdz0200
·
2020-07-29 13:55
python
面经
声学特征 PNCC
特点power-normalizedcepstralcoefficients相比于MFCC特征:-在噪声和混响场景下提升识别效果,尤其在训练
语料
是clean语音的时候-相比于MFCC,计算量提升34.6%
xmucas
·
2020-07-29 13:07
声学模型
NLP实习笔试面试题汇总一
DistributedRepresentation);2、离散式表示(DiscreteRepresentation)2.1One-Hat(独热编码)将词或字表示成一个向量,该向量的维度是词典(或字典)的长度,词典是通过
语料
库生成的
默默努力的人
·
2020-07-29 12:10
nlp
词语切分与词性标注 - 规范与加工手册
现代汉语
语料
库词语切分和词性标注规范在现代分词系统被广泛使用,中科院的分词系统中的词性标注也差不多采用这个标记集合。Yard中文分词系统在后面的版本中也将采用这个标记集合。
iteye_9865
·
2020-07-29 10:23
语料资源
word2vec训练中文模型的代码实现
word2vec训练中文模型1.准备数据与预处理首先需要一份比较大的中文
语料
数据,可以考虑中文的维基百科(也可以试试搜狗的新闻
语料
库)。
xz23333
·
2020-07-29 09:02
NLP
fasttext学习使用入门
fasttext源码位置功能一:单词表示学习1:为了学习词向量(向量表示),我们可以使用fasttext.train_unsupervised函数,像下面这样:importfasttext#data.txt:准备
语料
时
51号公路
·
2020-07-29 09:23
gensim lda文本无监督分类实现 (有代码)
原理讲解在文本挖掘领域,大量的数据都是非结构化的,很难从信息中直接获取相关和期望的信息,一种文本挖掘的方法:主题模型能够识别在文档里的主题,并且挖掘
语料
里隐藏信息,并且在主题聚合、从非结构化文本中提取信息
总裁余
·
2020-07-29 05:58
NLP
自然语言处理
人工智能
nlp
为新研究准备好一块用武之地:最全任务型对话数据调研
合适的数据集或者
语料
是优秀的自然语言研究工作的基础,然而找寻合适的数据集通常是一件耗时耗力的工作。这时候一份优质的数据集汇总就能帮助科研人员,在研究开始的时候事半功倍。
PaperWeekly
·
2020-07-29 04:59
word2vec词向量
EfficientEstimationofWordRepresentationsinVectorSpace向量空间中单词表示的有效估计这篇论文非常重要,是自然语言词向量的奠基之作,这篇论文虽然不是第一个提出词向量的,但是从这篇论文开始,在大规模
语料
库上训练词向量成为了现实
DuanYi1998
·
2020-07-29 04:03
NLP论文笔记
使用TF-IDF算法、THULAC和余弦相似性算法比较影评的相似程度
阅读这篇文章可以给你一种比较的思路~TF-IDF算法TF-IDF(词频-逆文档频率)算法是一种统计方法,用以评估一字词对于一个文件集或一个
语料
库中的其中一份文件的重要程度。
Sp4rkW
·
2020-07-29 00:38
算法
我爱自然语言处理网文章汇总
高级的词向量表示斯坦福大学深度学习与自然语言处理第二讲:词向量斯坦福大学深度学习与自然语言处理第一讲:引言用MeCab打造一套实用的中文分词系统(三):MeCab-Chinese用MeCab打造一套实用的中文分词系统(二)中英文维基百科
语料
上的
wowdd1
·
2020-07-28 23:29
nlp
第七章:迁移学习
):一般情况下预训练模型都是大型模型,具备复杂的网络结构,众多的参数量,以及在足够大的数据集下进行训练而产生的模型.在NLP领域,预训练模型往往是语言模型,因为语言模型的训练是无监督的,可以获得大规模
语料
阿基米德老师
·
2020-07-28 22:00
NLTK-003:词典资源
词汇列表
语料
库nltk.corpus.words仅仅包含词汇列表的
语料
库,可以用来寻找文本
语料
中不常见的或者拼写错误的词汇importnltkdefunusual_words(text):text_vocab
考古学家lx
·
2020-07-28 22:38
NLTK
word2vec中文类似词计算和聚类的使用说明及c语言源代码
word2vec相关基础知识、下载安装參考前文:word2vec词向量中文文本相似度计算文件夹:word2vec使用说明及源代码介绍1.下载地址2.中文
语料
3.參数介绍4.计算相似词语5.三个词预測语义语法关系
weixin_34050005
·
2020-07-28 18:50
c/c++
java
python
上一页
42
43
44
45
46
47
48
49
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他