E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
语料
CCKS2019—面向金融的事件主题识别思路分享
2.方法探索3.用bert模型进行迁移学习4.答案规则的尝试5.模型的训练和调优6.赛后总结6.1不足和遗憾6.2展望1.题目概述本次赛题的本质是nlp的阅读理解,由于本次比赛可以使用预训练模型和外部
语料
库
格拉迪沃
·
2020-09-11 22:08
数据竞赛
nltk的安装
命令安装nltkpipinstallnltkStep2:运行python命令Step3:输入importnltkStep4:输入nltk.download()Step5:会弹出一个界面,可以选择你想下载
语料
jyfhsszq
·
2020-09-11 21:09
NLP
NLTK-自然语言工具包
NLTK配套有文档,有
语料
库,有书籍。
Baby_Snow
·
2020-09-11 21:45
Python
拼写纠错python代码
fromnltkimport*fromnltk.corpusimportbrown#每次访问数据需要添加数据至路径当中corpus=brown.sents()#.sent()整个
语料
库中的句子,sents
赤醒醒
·
2020-09-11 17:36
笔记
自然语言处理
聊天机器人之文本聚类分析
算法概述特点选择算法计算过程优化聚类API设计参考资料文本聚类文本聚类(TextClustering),是依据同类文档的相似度较大,而不同类的文档相似度较小的原则,使用无监督的机器学习方法,将同类文档从目标
语料
库聚集到一簇的任务
Hai Liang Wang
·
2020-09-11 12:09
聊天机器人
一个可以使用自己
语料
进行训练的聊天机器人开源项目
目录背景关于
语料
的说明seq2seq版本代码执行顺序seqGAN版本代码执行顺序参考代码和文献建议环境已更新功能清单版本路线图背景自定义
语料
训练聊天机器人,可以用于智能客服、在线问答、智能聊天等场景。
Hai Liang Wang
·
2020-09-11 12:09
聊天机器人
人工智能
聊天机器人
自然语言处理
tensorflow
派特心理:招募心理咨询
语料
标注志愿者
伴随着国内对心理咨询服务的需求增长,出现了供需之间的不平衡的问题:一方面是心理咨询人的不断增加,难以找到好的心理咨询师;另外一方面是心理咨询师的主要经历是在做一些常见问题的回答,在很多工作上是低效率的,尤其是接待早期咨询者和回访。目前,国人在慢慢接受心理咨询,通过互联网、在线音视频。我们在很多心理咨询平台上看到了很多咨询没有得到积极、有效的帮助,这个现象亟需得到改变。虽然在网络上,有很多心理咨询社
Hai Liang Wang
·
2020-09-11 12:37
为什么特征数据要做对数变换?
例如,每个数据项的值都很大,许多这样的值进行计算可能对超过常用数据类型的取值范围,这时取对数,就把数值缩小了,例如TF-IDF计算时,由于在大规模
语料
库中,很多词的频率是非常大的数字。
colorful_-_
·
2020-09-11 11:50
面试
特征数据
对数变换
论文阅读:A Survey on Deep Learning for Named Entity Recognition
这是一篇2020年发的命名实体识别的综述性论文,从NER的
语料
库,定义,评估指标,到深度学习中的NER的技术都有涉及到。
Rock_y
·
2020-09-11 09:11
神经网络
自然语言处理
深度学习
IMDB影评分析实验
5万个txt文件中工作步骤如下:1-将这50000个txt文件(评论)整合成一个表格,表格分为两列,第一列表示评论的内容,第二列表示评论是属于正面(用1表示)还是负面(用0表示)2-将评论的内容(原始
语料
进行预处理
无敌小熊猫
·
2020-09-11 07:23
NLP
python
机器学习
影评
情感分类
[nltk_data] Error loading stopwords: urlopen error [Errno 11004] 解决办法
今天在用NLTK下载
语料
库的时候提示如下问题:[nltk_data]Errorloadingstopwords:False先百度了一下发现结果都在扯淡。。
RainyD4y
·
2020-09-11 00:40
杂
自然语言处理
nltk
从google产品来看搜索引擎需求
MP3搜索,新闻搜索等都是其一个子项,要么是限制站点的站内搜索,要么就是对时间特别敏感,有时效性;3)网页目录导航这是从信息中抽取关键字,自动网页分类技术;用到的是数据挖掘技术,这个也比较成熟了.首先建起
语料
库
仰望星空WU
·
2020-09-10 21:50
搜索引擎与P2P
google
搜索引擎
产品
数据挖掘
数据库
照片
百度2019校园招聘 —— 机器学习/数据挖掘/自然语言处理部分题
2019校园招聘计算机视觉算法研发工程师百度笔试题练习[1](08-17)1.下列关于语言模型的说法错误的是()BA基于知识的语言模型通过非歧义的规则解释歧义过程B基于知识的语言模型是经验主义方法C基于
语料
库的统计分析模型需要从大规模的真实文本中发现知识
北木.
·
2020-09-10 20:36
面试
机器学习
自然语言处理
数据挖掘
自然语言处理 - LSA
比如
语料
库是1000个单词,200篇文档的情况下,矩阵M的维度是1000x200,该矩阵有20万个元素。通过奇异值分解,可以得到三个矩阵,分别是1000x1000,
风华明远
·
2020-09-10 20:26
Python
TensorFlow
AAAI 2020 | 通过解纠缠模型探测语义和语法的大脑表征机制
由于大脑语言处理过程十分复杂,传统认知神经科学使用人工设计的
语料
来收集神经影像数据进而研究这个问题。由于人工
喜欢打酱油的老鸟
·
2020-09-10 20:15
人工智能
python.nlp随笔(四)简单的全文检索系统
实现一个简单的电影评论
语料
库的全文检索系统#!
Answerman33
·
2020-09-10 20:46
AI最全数据集汇总:语音、歌声、音乐、图片、视频等领域开源数据集链接汇总
文章目录**音乐数据集**百万歌数据集**语音数据集**口语维基百科
语料
库语音命令数据集零资源语音挑战ISOLET数据集阿拉伯语言
语料
库TIMIT
语料
库**音响/自然**环境音频数据集城市声音分类城市声音数据集鸟类音频检测挑战中文文本分类数据集
缠禅可禅
·
2020-09-10 19:53
歌声合成从入门到实战
语音合成原理与经典论文解读
机器学习
深度学习实战讲解与分析
[AAAI2018]SEE:Syntax-aware Entity Embedding for Neural Relation Extraction
Distantsupervised的用处(1)扩大训练
语料
(2)找到新的关系我一度混淆了远程监督和多示例的概念,特在此再强调下:远程监督是借助外部已有知识库多示例是:给包打标签,一个包里包含多个句子,这些句子都包含相同的实体对
小妖精Fsky
·
2020-09-10 18:47
PaperNotes
LSTM模型训练精准率高测试精准率很低解决办法
使用小
语料
集训练,测试精准率还行,当
语料
集达到2000组时,问题来了,训练精准率很高,但测试精准率非常低。
彭朝劲
·
2020-09-10 18:37
NLP
【NLP】自然语言处理 完整流程
自然语言处理完整流程第一步:获取
语料
1、已有
语料
2、网上下载、抓取
语料
第二步:
语料
预处理1、
语料
清洗2、分词3、词性标注4、去停用词三、特征工程1、词袋模型(BoW)2、词向量第四步:特征选择第五步:模型训练
__盛夏光年__
·
2020-09-10 18:54
NLP
python
ML相关
过拟合
语料
受限决定了训练实例受限,这时如果特征越多特征空间中的各种相关参数训练就越不充分,从而会导致出现数据稀疏并最终导致实验结果中封闭测试性能较好,但表示机器学习模型泛化能力的开放测试性能较差。
sigma_Tian
·
2020-09-10 17:10
NLP
windows安装gensim
主要是用来主题建模、文档索引以及使用大规模
语料
数据的相似性检索,被作者称为“根据纯文本进行监督性建模最健壮、最有效的、最让人
修炼之路
·
2020-09-10 17:04
机器学习
python实现中文的繁简转换
我们在对中文
语料
作预处理时,往往会遇到繁简体转换的问题,这也是预处理环节的重要一环。
中科小白
·
2020-09-10 17:33
数据处理
python
介绍N-gram比较清楚的博客
www.cnblogs.com/think90/articles/11522978.html无监督构建词库:更快更好的新词发现算法新词发现是NLP的基础任务之一,主要是希望通过无监督发掘一些语言特征(主要是统计特征),来判断一批
语料
中哪些字符片段可能是一个新词
hellocsz
·
2020-09-10 13:53
关于Transformer的个人理解
在一个大
语料
库上进行训练后,每个单词的向量就固定下来,在不同的语境中的表示是完全一样的。我们每天使用语言,应该知道同样的词在不同的情况下属性能够体现
劉北习
·
2020-09-10 12:58
自然语言处理
TF-IDF算法和余弦相似度算法计算文本相似度(纯手撕)
TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个
语料
库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同
野指针S-E
·
2020-09-06 12:26
NLP
nlp
算法
最全NLP中文文本分类实践(上)——中文分词获取和Word2Vec模型构建
因此,自己从网上找了一个中文
语料
库进行尝试。本文的实践内容包括文件的读取、中文分词、词向量表达、模型构建和模型融合。本文所采用的
语料
库为复旦中文文本分类
语料
库,包含20个类别。
我是你博哥啊
·
2020-09-02 11:57
中文分词
Word2Vec
自然语言处理
机器学习
python
如何打造中国版的“万能AI”GPT-3
▲GPT-3支持输入自然语言自动生成公式GPT-3是用英文
语料
做预训练的,主要应用于英文相关场景,而中文业界和学术界已经出现了期待中文版GPT-3的声音。“GPT-3与出门问问
PingWest品玩
·
2020-09-02 00:00
A Survey on Deep Learning for Named Entity Recognition(2020)阅读笔记
1.Summary文章主要介绍了NER的资源(NER
语料
及工具),并从distributedrepresentationforinput,contextencoder和tagdecoder三个维度介绍了目前现有的工作
Mecthew
·
2020-08-31 20:30
Pytorch-使用Bert预训练模型微调中文文本分类
笔记摘抄
语料
链接:https://pan.baidu.com/s/1YxGGYmeByuAlRdAVov_ZLg提取码:tzaoneg.txt和pos.txt各5000条酒店评论,每条评论一行。
Douzi1024
·
2020-08-28 22:00
[NLP] 中文文本自动辅助标注工具推荐
我们的项目需要用到文本挖掘和事件提取技术,没有现成的工具可以用,所以我们自己开发了一套小工具来为我们的事件图提供初级的中文标注
语料
。经过我们的多次迭代逐渐趋于稳定,现在开放出部分功能来为大家提供服务。
本识
·
2020-08-26 16:38
工具介绍
第6章 实战之聊天
语料
处理
代码学习:extract_conv.py文件:函数1:defmake_split(line):ifre.match(r'.*([,…?!\.,!?])$',''.join(line)):return[]return[',']首先,定义函数make_split():其主要实现功能是匹配开头为.*([,…?!\.,!?])$的字符串,若有这些字符串,将其用空格表示。用空格代替来连接line中的字符串。
Chz9523
·
2020-08-26 15:23
python
word2vec
Corpuszh_cn搜狗
语料
库:ftp://ftp.labs.sogou.com/Data/SogouCS/SogouCS.tar.gz中文维基百科
语料
库:https://dumps.wikimedia.org
treasuresss
·
2020-08-26 14:43
深度学习
word2vec词向量训练-python版
一、gensim介绍gensim是一款强大的自然语言处理工具,里面包括N多常见模型:-基本的
语料
处理工具-LSI-LDA-HDP-DTM-DIM-TF-IDF-word2vec、paragraph2vec
MiracleJQ
·
2020-08-26 13:58
back translation时如何选取源语言生成方式
Sergey2018EMNLP_UnderstandingBack-TranslationatScale摘要:采样/加噪的合成数据,比greedy/beam方法生成的数据训练效果更好研究了合成数据较之真正双语数据效果如何研究了各种domaineffectsIntro:关于如何使用单语
语料
优化模型
Geek Fly
·
2020-08-26 11:51
论文阅读
基于结构化感知机的词性标注与命名实体识别框架
词性标注训练词性标注是分词后紧接着的一个任务,训练
语料
同上,接口如下:命令行java-cphanlp.jarcom.hankcs.hanlp.model.perceptron.Main-taskPOS-train-referencedat
adnb34g
·
2020-08-25 17:06
自然语言处理
词性标注
命名实体识别
hanlp分词
词嵌入之Word2vec
虽然one-hot词向量构造起来很容易,但有两个缺点:在
语料
库过大时,词汇表可能达到百万级别,但向量只有一个位置是1,其余的
Yasin_
·
2020-08-25 17:29
自然语言处理
自然语言处理之word2vec
该挑战突出表现在模型的平滑问题上:标注
语料
是有限的,而语言整体是无限的,传统模型无法借力未标注的海量
语料
,只能靠人工设计平滑算法,而这些算法往往效果
Wenweno0o
·
2020-08-25 17:55
自学
英语
语料
库与英文写作
语料
库以数字系统为根基存放生活中会出现的
语料
,分析处理后成为可检索的资源。中国学者泰半在英语写作都不这么吃香,当代科研中把英语水平提升到论文初稿的水准才能取得平均水平的成绩。
enago
·
2020-08-25 16:28
语料库
python多进程提取处理大量文本的关键词
实验测试
语料
:message
怀梦远航
·
2020-08-25 09:39
python
nltk包的下载与离线导入
课程中需要导入nltk包中的Reuters
语料
库,但是原始代码是在线下载的,国内连不上服务器,挂梯子都不行原始代码如下:fromgensim.modelsimportKeyedVectorsfromgensim.test.utilsimportdatapathimportpprintimportmatplotlib.pyplotaspltplt.rcParams
Metralix
·
2020-08-25 09:44
CS224n&NLP学习笔记
第一周学习小结
课堂中做了一道简单的自然语言处理例题:假设训练
语料
S由下面3个句子构成,(“BROWNREADHOLYBIBLE”,“MARKREADATEXTBOOK”,“HEREADABOOKBYDAVID”)用计算最大似然估计的方法计算概率
yaoqinghao
·
2020-08-25 08:24
20191124_射雕侠侣和天龙八部小说分类
关键字提取importpandasaspd#载入
语料
raw=pd.read_csv("data/附件2_金庸-射雕英雄传txt精校版.txt",names=['txt'],sep='aaa',encoding
Happy丶lazy
·
2020-08-25 07:11
接单
word2vec and glove优缺点
传统方法假设我们有一个足够大的
语料
库(其中包含各种各样的句子,比如维基百科词库就是很好的
语料
来源)那么最笨(但很管用)的办法莫过于将
语料
库里的所有句子扫描一遍,挨个数出每个单词周围出现其它单词的次数,做成下面这样的表格就可以了
To_be_brave1
·
2020-08-25 04:32
自然语言处理
KALDI工具箱运行TIMIT
语料
库库实例教程
TIMIT数据库介绍:TIMIT数据库由630个话者组成,每个人讲10句,美式英语的8种主要方言。TIMITS5实例:首先,将TIMIT.ISO中的TIMIT复制到主文件夹。1.进入对应的目录,进行如下操作:zhangju@ubuntu:~$cdkaldi-trunk/egs/timit/s5/zhangju@ubuntu:~/kaldi-trunk/egs/timit/s5$sudolocal/
ldd530314297
·
2020-08-25 03:54
2018-08-11 考拉阅读
对于分级阅读中“如何科学划分文本的难度等级”的问题,考拉阅读结合语言学、测量心理学以及AI算法构建起中文分级底层
语料
库。依托自主研
赵雪奎
·
2020-08-25 00:02
文本标注工具BRAT安装使用
利用该工具可以方便的获得各项NLP任务需要的标注
语料
。
小小她爹
·
2020-08-24 19:55
---自然语言处理
大数据与自然语言处理
智能催收机器人
智能催收机器人
语料
训练针对逾期一天的客户的催收机器人主要以提醒客户还款为主,对话流程设置较为简单,主要为1.确定是不是本人2.情况说明,询问逾期原因3.第一次催收4.第二次催收5.结束语针对第一次和第二次催收得到的肯定或者否定答案
sparkapi
·
2020-08-24 16:58
nltk下载stopwords触发SSL错误解决办法
问题如果你在下载stopwords或者其他nltk
语料
的时候遇到类似如下的错误,那你来对地方了[nltk_data]ErrorloadingPunkt:解决方法很简单,Terminal里直接运行下面的命令
农业频道新星
·
2020-08-24 15:41
python
nlp
nltk
nltk_data
图表示学习之Deepwalk
在NLP领域,word2vec算法根据
语料
库中单词的共现关系,将自然语言中的单词表示为低维向量。
AGUILLER
·
2020-08-24 15:38
graph
机器学习
上一页
35
36
37
38
39
40
41
42
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他