E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
语料
关于中英文
语料
的获取途径总结
包含的
语料
包括了1)小黄鸡xiaohuangji50w_nofenci.conv.zip2)dgk_shooter_min.conv.zip中文电影对白
语料
,噪音比较大,许多对白问答关系没有对应好3)smsCorpus_zh_xml
一夜了
·
2020-07-06 20:01
机器学习及深度学习相关
NLP
Python 文本挖掘(一)
目的:把文本信息转化为人类可利用的知识(二)
语料
库是什么:
语料
库就是我们要分析的所有文档的集合,生活中,在高中,特别是高三的时候,很多次大考小考模拟考
xudailong_blog
·
2020-07-06 20:01
数据挖掘
《Python自然语言处理-雅兰·萨纳卡(Jalaj Thanaki)》学习笔记:02
语料
库和数据集
什么是
语料
库?为什么我们需要
语料
库?理解
语料
库分析?数据属性的类型
语料
库的不同文件格式免费
语料
库的资源为NLP应用准备数据集网页爬取什么是
语料
库?
miniAI学堂
·
2020-07-06 19:07
2017年度
自然语言处理
Python
Jalaj
Thanaki
语料库
Python实现对中文文本的分类处理+源码
本程序实现的是对《计算机网络》领域本体的题目进行分类,因此数据集需要自己构建,当然了,网上也有很多开源的数据集,比如中文的10类
语料
集,可以去我的百度云下载:链接:https://pan.baidu.com
薰珞婷紫小亭子
·
2020-07-06 19:29
文本分类
python
对话
语料
库
用于训练中英文对话系统的
语料
库DatasetsforTrainingChatbotSystem用于对话系统的中英文
语料
本项目收集了一些从网络中找到的用于训练中文(英文)聊天机器人的对话
语料
公开
语料
搜集到的一些数据集如下
u013378306
·
2020-07-06 18:40
NLP
python 文本聚类
本教程包括:对所有剧情简介分词(tokenizing)和词干化(stemming)利用tf-idf将
语料
库转换为向量空间(vectorspace)计算每
南宫伊枫
·
2020-07-06 18:12
python
中文公开聊天
语料
库
源/专知
语料
内容该库搜集了包含chatterbot、豆瓣多轮、PTT八卦
语料
、青云
语料
、电视剧对白
语料
、贴吧论坛回帖
语料
、微博
语料
小黄鸡
语料
共8个公开闲聊常用
语料
和短信,并对其进行了统一化规整和处理,达到直接可以粗略使用的目的
机器学习算法与Python学习-公众号
·
2020-07-06 17:58
构建自己的DSL之二 抓取文本处理
每次做抽样、分析、分类
语料
等文本处理都需要写一些样板式的代码,并且得到wiki查找指定版本每个字段的位置。构建一个好的DSL来自动处理这件事情能够省去很多重复的操作,只需要关注要处理的事情即
iteye_14216
·
2020-07-06 16:57
Ruby
Machine
Learning
Literature Survey: Study of Neural Machine Translation
MTL方法是在平行
语料
中学习印度语言对的翻译,我们基于MLT方法解释了基于多方法多
语料
模型,与此同时,通过与单对伸进机器翻译相比,我们还涵盖了
小青书房
·
2020-07-06 16:36
Python数据挖掘学习笔记(2)文本相似度分析
一、相关理论:
语料
库的定义:https://baike.baidu.com/item/
语料
库/11029908?
Zhengyh@Smart3S
·
2020-07-06 15:51
Python
实体识别模型演变与相关论文汇总
基础《统计自然语言处理》命名实体识别部分基于规则⬇大规模
语料
库的统计方法条件随机场相关论文:基于条件随机场的命名实体识别研究_郭家清基于条件随机场的中文
Seal_Wings
·
2020-07-06 15:50
自然语言处理
社保领域知识图谱构建练手小实验(2)——社保领域概念提取算法的训练
语料
准备
社保领域概念提取算法分词和词性标注是后续实体识别、关系抽取等步骤的关键基础。在这一过程中准确识别出领域概念格外重要。“社保领域概念大多数为一些由基本概念的组合而来的长词,而这些词一般是不会出现在分词工具的词典中,这种词被称作未登录词。解决这种问题有两种主流方法:一种是基于有监督机器学习的领域概念提取算法。这种方法需要人工对数据进行标注,利用隐马尔科夫和条件随机场等模型根据上下文来识别未登录词[49
Seal_Wings
·
2020-07-06 15:50
自然语言处理
python
数据清洗
用公开
语料
推进NLP研究,孵化现象级产品 | 专访阿里AI Labs聂再清
相比用“手”和“眼睛”,以及其他以手机和电脑为媒介的操作,“语言”无疑是人类最自然的交互方式。正如亚马逊硬件高级副总裁DaveLimp所说,“亚马逊相信下一个大平台是语音,我们要做的就是为用户打造一个完全由语音控制的云计算机(指Echo)。”亚马逊AmazonEcho、苹果AppleHomePod、谷歌GoogleHome如果说PC时代的搜索引擎成就了谷歌,造就了这家当今世界最大的数据公司,那么随
大数据文摘
·
2020-07-06 15:40
人民日报
语料
库抓取python实现(二)--多线程
由于有大量的IO,多线程可以提高爬取的效率。出于不同队列存储不同url和对于爬虫进行分工的初衷,这里实现了两个队列shareMonthQueue和shareReportQueue。其中shareMonthQueue存储所有月份初始url和包含的其他页面(一个月份有很多page,例:1946年5月包含30个page)。shareReportQueue存储所有新闻的url。两个队列有其专用的爬虫mon
重回成都
·
2020-07-06 12:58
python
NLP
web爬虫
人民日报
语料
库抓取python实现
最近需要抓取
语料
库,在一个NLP的论坛上看到有人民日报的1946到2003的所有资料。准备把这些资料抓取下来(虽然有点老了,但是聊胜于无,哪位高人知道更好的来源请告知)。
重回成都
·
2020-07-06 12:58
web爬虫
NLP
python
远程监督浅谈
想要训练一个关系抽取器,给它一个句子俩实体,首先它需要知道给这俩实体间的关系打个什么标签,模型不可能自己给关系取名字,所以肯定需要人用标注好的
语料
告诉他,这俩实体间的关系叫啥。
yywang_hit
·
2020-07-06 11:29
GloVe学习之Python中简单的词向量SVD分解
语料
:Ilikedeeplearning.IlikeNLP.Ienjoyflying.其中words=["I","like","enjoy","deep","learning","NLP","flying
要个男盆友扭蛋
·
2020-07-06 11:48
python
「自然语言处理(NLP)论文推送」会话响应生成(含源码)【美国卡耐基梅隆大学】
第一篇文章主要讲的是会话响应生成,其主要针对的是当前神经网络对话系统倾向于在
语料
库中生成响应的问题,这样不利于会话响应的多样性。第二篇文章主要针对的是模型会话一致检测的问题,怎么才能评估呢?
yinizhilianlove
·
2020-07-06 10:10
论文推送
CBOW 和 Skip-Gram
CBOW和Skip-Gram本文地址:blog.lucien.ink/archives/501参考文章:(二)通俗易懂理解——Skip-gram和CBOW算法原理Word2Vec是从大量文本
语料
中以无监督的方式学习语义知识的一种模型
LucienShui
·
2020-07-06 09:30
机器学习
自然语言处理
语言模型srilm(二) prune剪枝
为什么引入剪枝传统的N-grambackoff模型,提升性能的两条主要路径是增加阶数和增加
语料
,两者带来的共同副作用是增加了模型的大小,进而增加了语音识别解码器的内存占用。
xmucas
·
2020-07-06 09:11
语言模型
(八)NLP实战—聊天机器人流程总结
(1)介绍各python文件作用1、xiaohuangji50w_fenciA.conv:是小黄鸡
语料
集(本项目使用)、dgk_shooter_min.conv:是电影的对话集2、extract_conv.py
雙安
·
2020-07-06 09:03
机器学习
tensorflow seq2seq 聊天机器人
下面使用了双向LSTM和注意力机制一.数据集准备我用的是小黄鸡问答
语料
库,分为分词前,分词后,我用的是分词后二.数据预处理1.生成词汇表(这里选取的前2500个常用词)importcollectionsimportcodecsfromoperatorimportitemgettercounter
xiadada2
·
2020-07-06 08:40
tensorflow
chatterbot中文例子
/usr/bin/python`#`-*-coding:utf-8-*-#手动设置一些
语料
fromchatterbotimportChatBotfromchatterbot.trainersimportListTrainerChinese_bot
爱吃五仁
·
2020-07-06 04:13
nlp
DAIC-WOZ数据集
该数据库是更大的
语料
库(遇险分析访谈
语料
库(DAIC))的一部分(Gratch等2014年),其中包含旨在支持诊断心理困扰的临床访谈焦虑,抑郁和创伤后应激障碍等疾病。
库辛派
·
2020-07-06 02:06
中文分词:采用二元词图以及viterbi算法(一)
所以,
语料
库来源于刘群老师,格式是1998年1月人民日报
语料
库经过编码后的格式。
语料
库格式见正向最大匹配。
weixin_34416754
·
2020-07-06 01:56
基于二元语法模型的中文分词
基于二元语法模型的中文分词一、基于二元语法模型分词的思想下面是该程序的主要过程与思路:1、针对
语料
库进行训练。本程序使用的是北大提供的人民日报1998年1月的
语料
库,包含约110万词。
weixin_34396103
·
2020-07-06 01:55
Hanlp 在Python环境中安装、介绍及使用
HanLP具备功能完善、性能高效、架构清晰、
语料
时新、可自定义的特点。
weixin_34310127
·
2020-07-06 01:06
自然语言处理NLP(二)
得到的结果依赖于所用的
语料
库和样本。在一篇文本中有多少个单词?这个问题
士多啤梨苹果橙_cc15
·
2020-07-06 00:38
如何用TensorFlow训练词向量
语料
库的准备这里仅仅收集了网上关于房产新闻的文章,并且将全部文章拼凑到一起形成一个
语料
库。skip-gram简要说明skip-gram核心思想可以通过下图来看,假设我们的窗口大小为2
weixin_34010949
·
2020-07-05 23:48
机器学习(4.文本数据的特征抽取(第二种TfidfVectorizer(TF-IDF)))
TF-IDF作用:用以评估一字词对于一个文件集或一个
语料
库中的其中一份文件的重要程度。
还是那个同伟伟
·
2020-07-05 20:13
机器学习
5G摆摊火了!200秒短视频告诉你如何走上致富之路!(附书获奖名单)
呆萌的外表,生猛的口才,通过AI自主深度学习功能,实时刷新,销售
语料
uxuepai5g
·
2020-07-05 19:16
20199119 2019-2020-2 《网络攻防实践》综合实践
传统的基于变异的Fuzzer例如AFL,往往需要一个从互联网爬取的
语料
库,但这些
语料
库往往只包含了这些语言常用
李昕哲20199119
·
2020-07-05 17:00
关系抽取常用的数据集和工具
数据
语料
主要来自新闻
语料
,限定领域为飞机失事报道和航天器发射事件报道。2.ACE关系抽取任务数据集MUC会议停开后,ACE将关系抽取任务作为一个子任务从2002至2007年共持续六年。关系抽取任务也
长弓Smile
·
2020-07-05 17:13
信息抽取与问答系统
N-gram算法
这些概率可以通过直接从
语料
中统计N个词同时出现的次数得到。我们先来看一个香农游戏(ShannonGame):给定前n-1个词(或者字母),预测下一个
枫叶dandan
·
2020-07-05 17:23
算法
一些人机对话方面的资料
二、购买的
语料
库很可能需要再次处理。我们的人机对话的智能性一部分是
语料
库的容量,一部分也要靠分词,如果其他公司或个人的
语料
库的存取算法和我们不同(极有可能),就需要对其进行处理(如分词)。
sunnybug
·
2020-07-05 13:26
人机对话机器人
nlp系列-纠错程序
分三步说明一搭建环境【有些资料可能涉及到别人的版权,附件就不上传了】我用的工具是python3.6、pycharm,Mac笔记本;准备
语料
库nltk在pycharm中写个简单的程序text.py,代码如下
sindri
·
2020-07-05 12:13
6.NLTK之学习文本分类
有监督分类(SupervisedClassification)如果分类的建立基于包含每个输入的正确标签的训练
语料
,被称为有监督分类。
lk-csdn
·
2020-07-05 12:07
机器学习
Machine
Learning
NLTK
NLP
1.自然语言处理(NLP)与Python
NLTK模块及功能介绍如下:语言处理任务NLTK模块功能描述获取
语料
库nltk.corpus
语料
库和词汇的标准化接口字符串处理nltk.tokenize,nltk.stem分词器,句子
lk-csdn
·
2020-07-05 12:06
Python
Machine
Learning
机器学习
NLP
NLTK
来自麻省理工的信息抽取
MIT团队给我们提供了一些已训练好了的模型,这其中包含了英语、西班牙语和德语,这些模型都使用了大量的
语料
进行训练。我们发现并没有我们要
远洋号
·
2020-07-05 11:51
python自然语言处理学习笔记二
第二章获得文本
语料
和词汇资源1获取文本
语料
古腾堡
语料
库gutenberg>>>importnltk>>>nltk.corpus.gutenberg.fileids()['austen-emma.txt'
retacn
·
2020-07-05 10:22
python自然语言处理
Gensim使用小解
CorporaandVectorSpaces
语料
与向量空间,这一节主要讲如何把文本从词变为bag-of-word。中文的话无非是中间加入了分词这一步骤。之前用过jieba,觉得效果还不错。
CaspianR
·
2020-07-05 10:11
nlp
访问内置
语料
库NLTK
访问内置
语料
库NLTK一、先安装NLTKNLTK需要Python版本3.5、3.6、3.7或3.8使用Anaconda配置环境,新建环境NLP,下载安装NLTK二、安装NLTK数据运行Python解释器并输入以下命令
去留意
·
2020-07-05 10:16
自然语言处理
自然语言处理
python
n-gram语言模型
我们会通过已有的
语料
或上下文,来统计预测这句话可以填某个词的概率。将概率最大的作为预测结果返回。再比如机器翻译中,‘IlikeTomsomuch.
来路与归途
·
2020-07-05 09:21
算法思想
Sklearn ValueError: empty vocabulary; perhaps the documents only contain stop words
中文
语料
:拆成单字的列表荣耀内幕我不多华为用户如果发现续航不足一天的请凭余总微博进行合理维权便宜了500多g使用CountVectorizer()报错:SklearnValueError:emptyvocabulary
whieper
·
2020-07-05 09:45
NLP
基于TensorFlow的词向量算法
什么是Word2VecWord2Vec是从大量文本
语料
中以无监督的方式学习语义知识的一种模型,它被大量地用在自然语言处理(NLP)中。
沉迷游戏的鱼
·
2020-07-05 07:45
python脚本实现英文单词纠错
英文单词纠错(CorrectWords.py)2.word文档纠错(CorrectDocx.py)编辑距离动态规划算法python实现(DynamicProgramming.py)单词纠错算法准备一个
语料
库
不凡不弃
·
2020-07-05 07:03
自然语言处理
学习聊天机器人----切词检索
在网上找到了一个影视剧字幕聊天
语料
库。然后根据相关程度和历史记录对问句的回答排序,找到最优的那个。进行搜索和排序的过程。
似鹿非鹿
·
2020-07-05 06:33
数学之美-读书笔记-1-5章
数字和信息信息文字和数字文字和语言背后的数学小结第2章自然语言处理-从规则到统计前言机器智能从规则到统计小结第3章统计语言模型1用数学的方法描述语言规律2延伸阅读2.1高阶语言模型2.2模型的训练、零概率问题和平滑方法2.3
语料
的选取问题个人总结第
鹏鹏~
·
2020-07-05 06:30
Others
生成式对话seq2seq:从rnn到transformer
查阅了一些市面上能看到资料,工业上的做法,普遍是基础模板(例如aiml)+IR闲聊库(例如小黄鸡
语料
QA)+爬虫(百度、搜狗)+知识图谱
AI蜗牛车
·
2020-07-05 04:09
【SCIR论文】ACL20 基于对话图谱的开放域多轮对话策略学习
为此,研究人员首先从对话
语料
库中构建了一个对
zenRRan
·
2020-07-05 03:41
上一页
47
48
49
50
51
52
53
54
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他