E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
语料
Python3实现计算文本相似度(查重机制)
使用Python3中jieba包进行分词,整理为指定格式,gensim库将要对比的文档通过doc2bow转化为稀疏向量,再通过models中的tf-idf将
语料
库进行处理,特征值和稀疏矩阵相似度建立索引
NLP的菜鸡平
·
2020-08-18 19:09
Python
利用scrapy框架爬取某招聘网站,并对数据进行简单分析
决定先利用之前为了搜集
语料
学习的爬虫去搜寻一些职位相关讯息,看看大家现在都在招什么样的工作。目标网站:这个就很多辣,什么某直聘,某勾。
奥卡姆剪刀脚
·
2020-08-18 17:19
TF-IDF算法以及场景应用
需要有一个
语料
库corpus。
热衷开源的Boy
·
2020-08-18 17:06
机器学习
word2vec的pytorch实现
word2vec将词表示成一个定长的向量,然后通过在
语料
库中的预训练使得这些向量能够学习到词与词之间的相似关系和类比关系。
超级无敌吉士堡
·
2020-08-18 05:24
Python
NLP
算法
gensim 中文
语料
训练 word2vec
gensim的word2vecapi参见:https://radimrehurek.com/gensim/models/word2vec.html本文说一下中文
语料
的使用,很简单。
一个人的场域
·
2020-08-17 23:28
NLP
Pytorch-LSTM+Attention文本分类
摘抄笔记
语料
链接:https://pan.baidu.com/s/1aDIp3Hxw-Xuxcx-lQ_0w9A提取码:hpg7train.txtpos/neg各500条,一共1000条(用于训练模型)
Douzi1024
·
2020-08-17 20:41
官网实例详解4.18(lstm_seq2seq.py)-keras学习笔记四
英文翻译为法文的实例准备下载fra-eng并解压到和py文件同目录fra-eng目录文件fra.txt(corpus,
语料
库)文件内容,每行英文单词+空格+法文单词Keras实例目录代码注释'''SequencetosequenceexampleinKeras
wyx100
·
2020-08-17 17:01
python
人工智能
Language Modeling---NLP学习笔记(原创)
课程链接为:https://class.coursera.org/nlangp-0011.语言模型定义:ModelRepresentation:V:集合V包含
语料
中所有单词,例如:V={the,dog,
weixin_30241919
·
2020-08-17 15:16
人工智能
NLP学习记录(三)语言模型
语言模型通俗的来说就是通过
语料
,计算某个句子出现的概率N-Gram(有时也称为N元模型)是自然语言处理中一个非常重要的概念,通常在NLP中,人们基于一定的
语料
库,可以利用N-Gram来预计或者评估一个句子是否合理
只想安静的一个人
·
2020-08-17 15:58
NLP自然语言处理理论篇
Reuters-21578 数据集处理
具体处理方法如下:处理后的
语料
下载地址点击打开链接fromtimeimportstrptimeimportcsvimportnumpyarticle_components=['DATE','PLACES
白又白胖又胖
·
2020-08-17 15:41
技术-其他
情感极性:基于fasttext的情感极性判断模型实现
3、中文分词与jieba4、数据来源二、实战1、
语料
处理
语料
处理方面,使用jieba分词,添加自定义词典进行分词:def__load_user_dict(cls):"""加载用户词典"""config=
lpty
·
2020-08-17 15:06
自然语言
自然语言基础
事件本体以及突发事件
语料
库--CEC(Chinese Emergency Corpus)
1、什么是本体?本体最初是一个哲学上的概念,十多年前被引入计算机领域中作为知识表示的方法并被广泛使用。Studer给出了本体的定义:“本体是共享概念模型的明确的形式化规范说明”。本体对于探索人的认知原理、发展自然语言理解技术和人机交互技术有重要意义。但是传统的本体模型存在着一系列的不足之处,1、作为知识的表示形式,在描述多远关系的能力上存在先天不足;2、认知科学家认为,人的概念大体可分为实体和事件
shijiebei2009
·
2020-08-17 14:21
NLP
《Hierarchical Recurrent Attention Network for Response Generation》阅读笔记(层次注意力)
生成时既利用了词级有利用了话语级的attetion,话语级是单向的编码原因是越近的对话历史越重要,详细参考https://zhuanlan.zhihu.com/p/61101200实验数据处理分词,删除回复在整个
语料
库中出现次数超过
greenhand2014
·
2020-08-17 13:41
上海大学建了一个“突发事件
语料
库”,包括地震、恐怖袭击等5大类
(来源:上海大学官网)作者|阿司匹林出品|AI科技大本营(公众号ID:rgznai100)本体最初是一个哲学上的概念,十多年前被引入计算机领域中作为知识表示的方法并被广泛使用。本体对于探索人的认知原理、发展自然语言理解技术和人机交互技术有重要意义。要理解这些话语文本,就必须知道这些事件类丰富的内容,这些内容的绝大部分是不可能在话语文本中叙述的,而是作为共同知识预先存在于每个交流者的头脑中。事件本体
AI科技大本营
·
2020-08-17 12:00
Neural Architectures for Named Entity Recognition翻译
摘要目前最新的命名实体识别系统在很大程度上依赖于人工标注特征以及领域相关的知识,从而能够更加有效地学习可利用的、小型的、监督训练
语料
。
nopSled
·
2020-08-17 08:39
解析-实体识别
在“3_人民日报
语料
”中统计“日语借词”的词频;
3.在“3_人民日报
语料
”中统计“日语借词”的词频;pyhton方法#-*-coding:utf-8-*-importjsonjapanese_words_file=open('japanese_words.txt
kangyucheng
·
2020-08-17 07:07
自然语言处理
软件工程师修炼日记
自然语言处理
日语借词
计算机辅助翻译
北京大学
词频
古德-图灵估计(Good-Turing Estimate) From 《数学之美》(笔记)
假定在
语料
库中出现
zjy997
·
2020-08-16 22:03
一些杂乱的笔记
「自然语言处理(NLP)」中文自然语言处理可能用到的数据集
具体主要包括:中文常用词停用词数据集、汉语拆字词表、中文词表、人名
语料
库、中文缩写数据库、中文专业领域词库、中文敏感词库、维基百科词条(104万)、新闻
语料
json版(250万篇)、百科类问答jso
yinizhilianlove
·
2020-08-16 17:44
自然语言数据集分享
人工智能
深度学习
机器学习
大数据
自然语言处理
广告图片过滤
文本通过
语料
库积累和NLP相关技术进行过滤,有些文字广告不过滤对产品影响也不大。
weixin_33744141
·
2020-08-16 15:53
NLP点滴——文本相似度,计算文本间的距离
而有了文本之间相似性的度量方式,我们便可以利用划分法的K-means、基于密度的DBSCAN或者是基于模型的概率方法进行文本之间的聚类分析;另一方面,我们也可以利用文本之间的相似性对大规模
语料
进行去重预处理
huanghanqian
·
2020-08-16 12:12
[内附完整源码和文档] 基于python的新闻检索系统
1.2系统思路与框架本系统总体的实现思路如图1所示:一个完整的搜索系统主要的步骤是:对新闻网页进行爬虫得到
语料
库抽取新闻的主体内容,得到结构化的xml数据内存式单遍扫描索引构建方法构建倒排索引,供检索模块使用
LEMFOooO
·
2020-08-16 11:25
收集毕设和课设资源
【LDA】LDA主题模型
对于
语料
集中的每篇文档,其生成过程是:首先,从文档的所有主题分布中选取一个主题,这个过程服从所有主题的多项式分布。同时文档所有主题服从Dirichlet分布。
zkq_1986
·
2020-08-16 10:05
NLP
文本分类和聚类有什么区别?
分类器需要由人工标注的分类训练
语料
训练得到,属于有指导学习范畴。聚类则没有事先预定的类别,类别数不确定。聚类不需要人工标注和预先训练分类器,类别在聚类过程
yaoxy
·
2020-08-16 10:13
数据挖掘
Python之LDA主题模型算法应用
然而,这个模型的主要参考,Bleietal2003可以在线免费获得,我认为将
语料
库(文档集)中的文档分配给基于单词矢量的潜在(隐藏)主题的主要思想是相当容易理解的而这个例子(来自lda)将有助于巩固我们对
weixin_33939380
·
2020-08-16 09:09
主题模型初学者指南[Python]
主题可以由
语料
库中的共现词项所定义,一个好的主
wangyajie_11
·
2020-08-16 08:49
自然语言处理
论文浅尝 | K-BERT: Enabling Language Representation with Knowledge Graph
1.论文动机论文认为通过泛用型公开
语料
预训练得到的BERT模型只拥有“常识”,在特定垂直领域(如科技、医疗、教育等)的任务中表现效果存在提升空间。
游离态GLZ不可能是金融技术宅
·
2020-08-16 07:43
NLP
知识图谱
python下进行lda主题挖掘(二)——利用gensim训练LDA模型
)——利用gensim训练LDA模型python下进行lda主题挖掘(三)——计算困惑度perplexity本篇是我的LDA主题挖掘系列的第二篇,介绍如何利用gensim包提供的方法来训练自己处理好的
语料
MoonBreeze_Ma
·
2020-08-16 07:19
自然语言处理
[机器学习]TF-IDF是什么
TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个
语料
库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在
语料
库中出现的频率成反比下降。
茫茫人海一粒沙
·
2020-08-16 06:08
Sklearn
基于财经新闻的LDA主题模型实现:Python
LDA主题模型虽然有时候结果难以解释,但由于其无监督属性还是广泛被用来初步窥看大规模
语料
(如财经新闻)的主题分布。
空城0707
·
2020-08-16 06:39
data
mining/machine
learning
带你读论文:基于深度学习的图像分类中数据增强的有效性
他还举了一个例子,用来说明谷歌
语料
库的发布如何基于文本的模型受益。作者并以此提出了一个有趣的观点,大量的非结构化数据出现的任务就是寻找一个模式。
cl15926282674
·
2020-08-16 06:24
[NLP] TorchText 使用指南
TorchText是PyTorch的一个功能包,主要提供文本数据读取、创建迭代器的的功能与
语料
库、词向量的信息,分别对应了torchtext.data、torchtext.datasets和torchtext.vocab
文森特没有眼泪
·
2020-08-16 03:22
deep
learning
PyTorch
NLP
语音识别—声学模型训练(前向-后向算法)
声学模型训练(前向-后向算法)前文讲述了语音识别声学模型训练算法,主要基于Viterbi-EM算法来估计模型中参数,但是该方法对于计算
语料
中帧对应状态的弧号存在计算复杂度指数级增加的问题,为解决上述问题
Xwei1226
·
2020-08-15 22:58
语音识别-深度学习
作为BERT模型命名实体识别任务的输入,对于IBO标注数据进行检测判断标注正确性
从2018年google提出bert后,一直在使用bert模型作为训练基础经常会需要标注
语料
数据在数据量极大的情况下,数万标注后头晕眼花,如何快速差错也是一个问题于是设置了3条规则作为检查的基本属性,后续欢迎补充前置
Junruiqwertyuiop
·
2020-08-15 20:47
自然语言处理
Python
machine
learning
rnnoise 降噪算法 与传统算法对比分析
特征点提取,以及
语料
成为了算法的核心部分。从两种算法的核
zeark
·
2020-08-15 16:53
降噪
语音增强
【分享】690人中文车载语音数据库(样例)
数据介绍不同籍贯、性别的发音人在车载环境下用三星手机录制的中文普通话
语料
,共690多名录音人,每人310句。所有数据均做过人工转写,转写后有效语音数据为214990条。
狗熊不偷白菜
·
2020-08-15 15:23
数据共享
自然语言处理之word2vec原理词向量生成
从头开始讲的话,首先有了文本
语料
库,你需要对
语料
库进行预处理,这个处理流程与你的
语料
库种类以及个人目的有关,比如,如果是英文
语料
库你可能需要大小写转换检查拼写错误等操作,如果是中文日语
语料
库你需要增加分词处理
平原2018
·
2020-08-15 15:31
算法
语音识别(二)——基本框架, Microphone Array, 声源定位
语言模型估计通过重训练
语料
学习
antkillerfarm
·
2020-08-15 13:21
语音识别
Pyspark Word2Vec + jieba 训练词向量流程
摘要:用商品描述为
语料
库训练商品词向量为例,分享一下用pyspark自带word2vec+jieba分词训练词向量的流程.工具:python,pyspark,jieba,pandas,numpy数据格式
levy_cui
·
2020-08-15 02:31
Spark
机器学习/数据挖掘
Pyspark机器学习之Word2Vec(推荐系统内容相似)
Word2Vec简介Word2Vec是一个词嵌入方法,可以计算每个单词在给定的
语料
库环境下的分布式向量,如果两个单词的语义相近,那么词向量在向量空间中也相互接近,判断向量空间的接近程度来判断来两个单词是否相似
levy_cui
·
2020-08-15 02:59
Spark
机器学习/数据挖掘
Gensim做中文主题模型(LDA)
环境:Ubuntu12.04,gensim,jieba中文
语料
来自http://www.sogou.com/labs/dl/c.html的精简版(tar.gz格式)24Mjerry@hq:/u01/jerry
csdn666666666
·
2020-08-14 10:39
PostgreSQL\GPDB 多维数据透视典型案例分享
标签PostgreSQL,数据透视,实时,物化,预计算,多维分析,流计算,增量合并,调度,HLL背景典型的电商类数据透视业务,透视的
语料
可能会包含一些用户的标签数据:例如包含品牌的ID,销售区域的ID,
weixin_34377065
·
2020-08-14 09:23
PostgreSQL\HybridDB for PG 毫秒级多维数据透视 案例分享
阅读原文请点击摘要:标签PostgreSQL,数据透视,实时,物化,预计算,多维分析,流计算,增量合并,调度,HLL背景典型的电商类数据透视业务,透视的
语料
可能会包含一些用户的标签数据:例如包含品牌的ID
qq_35267530
·
2020-08-14 09:49
NLP面试题总结.02
3.文本
语料
库的可能特征是什么?4.你在20K文档的输入数据上为机器学习模型创建了文档-词矩阵(document-termmatrix)。以下哪项可用于减少数据维度?5.哪些文本分
fly_Xiaoma
·
2020-08-14 08:38
interview
NLP
python词云wordcloud
思路1,读取本地的数据文件,包括用来生成词云的
语料
(txt格式),中文停顿词袋(txt格式),默认词袋(txt格式)以及词云模板(jpg格式)。
帅帅de三叔
·
2020-08-14 05:31
自然语言处理
词云
wordcloud
jieba
音频采样率批量转换
因为之前训练的模型采样率是22050,现在手上有采样率48000的数据,虽说调整下参数也可以,但效果不是太好,就试着转一下,用的是BZNSYP的
语料
库。
赫凯
·
2020-08-14 03:07
linux
Python
Tensorflow教程之语音识别
训练模型的
语料
除了标注具体的文字外。还要标注按时间对应的音素,这就需要大量的人工成本。(标记因素是个很大的坑)而使用神经网络的语音识别就变得简
James_Bobo
·
2020-08-13 22:23
#
Tensorflow
#
语音识别
词向量 - 实际动手使用word2vec
这对后续的文本分类,文本聚类等等算法提供良好的数据样本,本文将详细介绍如何使用word2vec构建中文词向量这里所需要用到的包,这些包需要首先使用pip或者conda安装jiabagensimsklearn一、中文
语料
库本文采用的
阿农安贵人
·
2020-08-13 18:31
Python
NLP
《Improving Langugage Understanding by Generative Pre-Tranining》 —— GPT
目录《ImprovingLangugageUnderstandingbyGenerativePre-Tranining》1、GPT历史意义2、无监督预训练——通过大量未标记
语料
学习网络的初始参数3、SupervisedFine-Tuning4
努力努力努力努力
·
2020-08-13 17:01
nlp论文学习
词向量可视化,Embedding projector实现——基于维基中文
语料
库
本文词向量训练过程参考如下博客:https://blog.csdn.net/svenhuayuncheng/article/details/78751311按照该文的步骤得到一个wiki.zh.text.vector文件,用txt打开,可见如下数据:其中478328是词的个数,100是词向量的维度(在训练的时候自己设定),每一个词后的100个数是该词的词向量。下面将其进行可视化,利用的工具是Emb
三·川
·
2020-08-12 13:40
词向量可视化
通俗易懂ELMO原理+中文词嵌入实现(训练神雕侠侣小说)
简单来说,本文的模型其实本质上就是基于大规模
语料
训练后的双向语言模型内部隐状态特征的组合。实
东东oyey
·
2020-08-12 13:09
深度学习
上一页
39
40
41
42
43
44
45
46
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他