E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
语料
聊天机器人看法
今天呢,我听到了一个观点:聊天机器人如何解决在某些特定领域
语料
稀有的问题呢?那就是迁移学习!而且迁移学习还处于初步的发展阶段!确实该观点对我很震撼!
Babyzpj
·
2020-08-21 14:07
记录一下本周的主要工作及遇到的问题
另外就是继续精简词汇库,层层的抽丝剥茧,把
语料
滤了一遍又一遍,从两千多个变成一千多个,最后剩了几百个,并且建立
c21fbybo
·
2020-08-21 10:29
文件处理方法
结巴分词和哈工大ltp词性标注结合使用
根据自己的
语料
,发现使用结巴分词的粒度更适合,并且在使用外部词典进行分词时,哈工大的分词模块对于外部词典中的词会有不识别的现象。
涛涛不绝蕾蕾于冬
·
2020-08-21 07:17
自然语言处理
『词向量』用Word2Vec训练中文词向量(一)—— 采用搜狗新闻数据集
参考文章:搜狗
语料
库word2vec获取词向量自然语言处理入门(一)------搜狗新闻
语料
处理和word2vec词向量的训练word2vec使用方法小结目录数据集下载数据集处理(一)文档解压(二)文档提取
来日凭君发遣
·
2020-08-21 05:03
词向量
使用Olami SDK 语音控制一个支持HomeKit的智能家居的iOS程序
但是通过Siri进行语音控制有个很大的问题,就是Siri支持的
语料
无法进行自由的扩展,没办法添加更多的说法。而OlamiSDK则可以通过OSL(OLAMI语法描述语言OLAMISynt
想游泳的鱼
·
2020-08-21 03:31
Olami
【资源】用美剧教单词的app
废话不多说,今天要推荐的这个字典厉害了,
语料
库来基于美剧、英剧、公开课。
Blake教学小黑板
·
2020-08-21 03:21
全球最大 COVID-19 研究数据集正式开放,加强科技抗疫
全球多家研究机构以及科技企业为了更好的应对疫情,联合发布了一个COVID-19开放研究数据集(简称为CORD-19),该数据集中包含针对文本进行优化的文本处理工具包SciSpacy、在科学文本上进行预训练的BERT模型SciBERT、开放研究
语料
库和
徐九
·
2020-08-21 00:43
机器学习
数据集
全球最大 COVID-19 研究数据集正式开放,加强科技抗疫
全球多家研究机构以及科技企业为了更好的应对疫情,联合发布了一个COVID-19开放研究数据集(简称为CORD-19),该数据集中包含针对文本进行优化的文本处理工具包SciSpacy、在科学文本上进行预训练的BERT模型SciBERT、开放研究
语料
库和
徐九
·
2020-08-21 00:43
机器学习
数据集
NLP预训练模型-百度ERNIE2.0的效果到底有多好【附用户点评】
ERNIE是百度自研的持续学习语义理解框架,该框架支持增量引入词汇(lexical)、语法(syntactic)、语义(semantic)等3个层次的自定义预训练任务,能够全面捕捉训练
语料
中的词法、语法
百度NLP
·
2020-08-20 23:04
ai开发
人工智能
自然语言处理
NLP预训练模型-百度ERNIE2.0的效果到底有多好【附用户点评】
ERNIE是百度自研的持续学习语义理解框架,该框架支持增量引入词汇(lexical)、语法(syntactic)、语义(semantic)等3个层次的自定义预训练任务,能够全面捕捉训练
语料
中的词法、语法
百度NLP
·
2020-08-20 23:04
ai开发
人工智能
自然语言处理
技能工作室 | 可视化技能开发工具
搭建一个技能,总的来说分为以下几步:step1——定义技能使用场景step2——收集技能涉及的
语料
,设计回答话术和语音交互step3——在控制台中创建技能,搭建交互模型step4——使用代码进行
iFLYOS
·
2020-08-20 22:27
语音合成
人工智能
技能工作室 | 可视化技能开发工具
搭建一个技能,总的来说分为以下几步:step1——定义技能使用场景step2——收集技能涉及的
语料
,设计回答话术和语音交互step3——在控制台中创建技能,搭建交互模型step4——使用代码进行
iFLYOS
·
2020-08-20 22:27
语音合成
人工智能
复旦大学中文
语料
库的一些统计信息
复旦大学中文
语料
库的一些统计信息复旦大学的中文
语料
库分为训练集和验证集两部分,两部分的文档数量基本相等,但现在做测评一般都不采用这种预先划分的方法,而多用交叉验证,因此在将训练集与验证集合并之后,得到该
语料
库的一些基本信息如下
xiaochenchenhebobo
·
2020-08-20 20:46
科研
预训练语言模型在网易严选的应用
导读:随着Bert的发布,预训练(pre-train)成为NLP领域最为热门的方向之一,大规模的无监督
语料
加上少量有标注的
语料
成为了NLP模型的标配。
小白白白又白cdllp
·
2020-08-20 19:11
深度学习
聊天机器人——chatBot知识框架
Generative-Based:IT
语料
库加电影对白
语料
库,通过简单的案例,把IT所有知识,强AI形式,目前还没有被攻克,不错的paper:ACL会议,主题是使用了一堆词条,假设可以涵盖了社会的方方面面的知识
siyuchen1
·
2020-08-20 17:21
深度学习
机器学习
大数据云计算
使用RNN训练语言模型
为了使用RNN建立出这样的模型,首先我们需要一个训练集,包含一个很大的英文文本
语料
库(acorpusofEnglishtext),
语料
,即语言材料。其他语言也可。
骑鱼的喵喵
·
2020-08-20 08:43
神经网络
深度有趣 | 13 词向量的训练
id=2…如果没有gensim则安装pipinstallgensim复制代码准备好
语料
,例如中文维基百科分词
语料
加载库#-*-cod
weixin_33824363
·
2020-08-20 07:21
PySpark MLlib HashingTF源码分析
这个方法避免计算全局的词-索引映射,因为全局的词-索引映射在大规模
语料
中花费较大。def__init__(self,numFeatures=1<<20):self.numFeatures=numFea
丧心病狂の程序员
·
2020-08-20 07:37
python
spark
gensim中word2vec训练向量
gensim中的word2vec,下面的代码可以同时实现词向量、字向量的训练fromgensim.modelsimportWord2Vecimportosimportjiebadefh1():##该函数主要是对
语料
的前期处理
飞翔的绵羊
·
2020-08-20 04:31
自然语言处理
第3课:简单好用的中文分词利器 jieba 和 HanLP
首先,我们按照中文自然语言处理流程的第一步获取
语料
,然后重点进行中文分词的学习。
一纸繁鸢w
·
2020-08-20 04:52
是你逼我的!墨墨背单词。
所以,今年年初我定了一个计划,《美国当代
语料
库5000》的单词,我一定要背下来。但是从
JoecyWong
·
2020-08-20 03:01
Python正则表达式清洗微博文本特殊符号(网址, @, 表情符等)
在做文本分类的实验时,找到一个微博的情感分析
语料
,但是其中保留了很多微博中的特殊符号,对于算法的训练来说不太有利。
blmoistawinde
·
2020-08-20 03:55
python
自然语言处理
python小技巧
Python开发 之 Jieba分词示例
此示例先获取xlsx文件的
语料
内容,然后再针对
语料
进行分词。回顾一下:Python第
沙振宇
·
2020-08-20 01:30
//Demo小锦集
//Python
致敬大家丨蔡元培先生的读书生涯:几乎没有一日不读点书
2017年7月18日,教育部、国家语委在北京发布《中国语言生活状况报告(2017)》,从国家语言资源监测
语料
库130万个文本、18亿字次中经过筛选提取出了新一轮的年度热词。
彩虹心理频道
·
2020-08-20 01:05
开源项目 智能文本输入助手
线下部分使用cppjieba分词读取
语料
库创建词典,中英文字符串分割算法创建索引文件;线上部分采用MirrorLib框架搭建服务器,根据请
Worthy_Wang
·
2020-08-19 23:20
开源项目
把时间当做朋友第三章关注步骤
这本书最有创意的部分是通过
语料
库分析统计词频后再反复筛选出来的托福考试中出现2次以上17次以下的核心词汇。完成这些工作花费1个月,词频统计由wordsmith软件完成只用了几十秒。
海阔天空_8592
·
2020-08-19 21:28
R语言tm工具包进行文本挖掘实验
本文从数据导入、
语料
库处理、预处理、元数据管理、创建term-document矩阵这几个方面讲述tm包括的使用。
Bentley-2012
·
2020-08-19 18:42
R语言
文本挖掘
数据挖掘
语料
(HIGH FREQUENCY PHRASE)
优缺点1.positiveaspectThepositiveaspectsofadecentsalarycannotnecessarilycancelouttheharmfuleffectsoflivingfarfromfamilyandfriends.2.amajorplusSincecommutingtimeinmetropolitanareasisquiteunbearable,agoodp
松饼宋秉彦
·
2020-08-19 15:22
语料
(WORK AND SUCCESS)
1.high-payingjobDecadesago,therewereplentyofhigh-payingjobsthatonlyrequireahigh-schooldiploma.Butnotanymore.2.putyourbestfootforwardPeoplewhohavelearnedmanydifferentskillsaremorelikelytoputtheirbestfo
松饼宋秉彦
·
2020-08-19 15:52
语料
(LEISURE AND ENTERTAINMENT)
1.keepsbentertainedFamiliesgettodotheirweeklyshopping,pickupoddsandendsandkeepthekidsentertainedatthemall.2.catchupMallsmakegreatmeetingplacesforfriendstocatchupovercoffeeatacafepramealatthefoodcourt.
松饼宋秉彦
·
2020-08-19 15:03
TF-IDF算法讲解和Java实现
TF-IDF是一种统计方法,用以评估某个字词对于一个
语料
库中的其中一份文本的重要程度。字词的重要性随着它在文本中出现的次数成正比增加,但同时会随着它在
语料
库中出现的频率成反比下降。
XiaoXiao_Yang77
·
2020-08-19 08:32
文本挖掘
算法
python-----简单英文
语料
预处理
英文
语料
预处理的主要步骤:(此步骤针对的是txt格式的文件,如果文件为其他格式,需要先将其转换为txt文件再进行操作)1、去除非英文字符的字符,例如符号、数字、中文等2、去停用词具体实现(python具体实现
为了男神而奋斗
·
2020-08-19 06:35
Python中文
语料
批量预处理手记
手记实用系列文章:1结巴分词和自然语言处理HanLP处理手记2Python中文
语料
批量预处理手记3自然语言处理手记4Python中调用自然语言处理工具HanLP手记5Python中结巴分词使用手记
语料
预处理封装类
weixin_34364071
·
2020-08-19 05:20
Python自然语言处理学习笔记(41):5.2 标注
语料
库
5.2TaggedCorpora标注
语料
库RepresentingTaggedTokens表示标注的语言符号ByconventioninNLTK,ataggedtokenisrepresentedusingatupleconsistingofthetokenandthetag.Wecancreateoneofthesespecialtuplesfromthestandardstringrepres
weixin_34072458
·
2020-08-19 05:46
Arxiv网络科学论文摘要5篇(2019-01-31)
含时网络的谱多尺度社区检测及其应用;虚拟社区成员社会人口概况的计算机语言学分析;Twitter工作/就业
语料
库:有人工参与建立的工作相关话语数据集;模块化网络中带有群间偏差的意见动态;超越聚类系数:复杂网络中节点邻域的拓扑分析
ComplexLY
·
2020-08-19 04:14
Python中文
语料
批量预处理手记jieba
阅读目录手记实用系列文章:
语料
预处理封装类:执行结果:手记实用系列文章:1结巴分词和自然语言处理HanLP处理手记2Python中文
语料
批量预处理手记3自然语言处理手记4Python中调用自然语言处理工具
weixin_33872660
·
2020-08-19 04:54
处理搜狐新闻
语料
数据集来源:http://www.sogou.com/labs/resource/cs.php目的:得到title集合文本,content集合文本代码:#python2importchardetwithopen("news_sohusite_xml.dat",'r')ash:x=h.readlines()#print(x[3])topics=x[3::6]print(len(topics))con
weixin_30345577
·
2020-08-19 04:39
php
用NLTK对英文
语料
做预处理,用gensim计算相似度
——题记来自这里提示性信息很赞参考52nlp(三)(二)(一)对所有
语料
进行分词(tokenizing)和词干化(stemming)利用tf-idf将
语料
库转换为向量空间(vectorspace)计算每个文档间的余弦距离
涵星同学
·
2020-08-19 03:09
NLP
问答机器人三种实现方式
#
语料
库你好#用户输入关键字你好呀~#返回信息代码参考:https://github.com/lengendary/springboot-aimlbo
灬点点
·
2020-08-19 03:59
人工智能
基础积累
文本分类之情感分析 – 朴素贝叶斯分类器
NLTK朴素贝叶斯分类NLTK附带了所有你需要的情感分析的入手的东西:一份带有分为POS和NEG类别的电影评论
语料
,以及一些可训练分类器。我们先从一个简单的N
sanfendi
·
2020-08-19 02:40
翻译
Python自然语言处理第一章
NLTK功能强大,它不仅为我们学习NLP提供了丰富的
语料
库,也为我们处理这些
语料
库信息提供了大量的方法,比如concordance,similar,common_contexts,genera
ZXP_LV_STUDY
·
2020-08-19 02:45
自然语言处理
python
NLP--THUCTC: 一个高效的中文文本分类工具包
项目介绍THUCTC(THUChineseTextClassification)是由清华大学自然语言处理实验室推出的中文文本分类工具包,能够自动高效地实现用户自定义的文本分类
语料
的训练、评测、分类功能。
happyprince
·
2020-08-19 02:07
NLP
python处理人民日报
语料
库
#encoding:utf-8"""author:Leodate:2017-6-27"""from__future__importunicode_literals#compatiblewithpython3unicodeimportcodecsimportsysfromsysimportargvdefcharacter_tagging(input_file,output_file):input_d
mariobai
·
2020-08-19 02:38
Python学习
kaldi语音特征预处理-mfcc特征与标签对齐(一)
以thchs30
语料
进行试验,对mono模型的对齐特征进行提取
Xwei1226
·
2020-08-19 01:38
kaldi
机器学习:NLP(自然语言处理)基础,相似度分析,KNN情感分类
文章目录文本相似度分析1.把评论翻译成机器看的懂的语言1).分词(把句子拆分成词语)2).制作词袋模型(bag-of-word:可以理解成装着所有词的袋子)3).用词袋模型制作
语料
库(corpus:把每一个句子都用词袋表示
Mr. Donkey_K
·
2020-08-19 00:53
机器学习笔记
【NLP】3000篇搜狐新闻
语料
数据预处理器的python实现
3000篇搜狐新闻
语料
数据预处理器的python实现白宁超2017年5月5日17:20:04摘要:关于自然语言处理模型训练亦或是数据挖掘、文本处理等等,均离不开数据清洗,数据预处理的工作。
weixin_34290352
·
2020-08-19 00:35
年中记录与挖坑
好吧,我也感觉基于检索的是low的,但是现在各家智能音箱貌似都没有突破这个坎.大家听到的siri的b-box,背后是一个无聊的逗逼程序员;小爱同学的惊人语录,写
语料
也许是一群抠脚大汉.这半年的工作,主要集中在开发一个基
MashoO
·
2020-08-19 00:37
pyhanlp文本分类与情感分析
语料
库本文
语料
库特指文本分类
语料
库,对应IDataSet接口。而文本分类
语料
库包含两个概念:文档和类目。一个文档只属于一个类目,一个类目可能含有多个文档。
adnb34g
·
2020-08-19 00:36
大数据
hanlp
自然语言处理
基于IMDb数据集的情感分析(TF-IDF与机器学习实现)
TF-IDFTF-IDF(词频-逆文档频率)算法是一种统计方法,用以评估一字词对于一个文件集或一个
语料
库中的其中一份文件的重要程度。TFIDF的主要思想是:如果某个词或短语在一
zealscott
·
2020-08-19 00:22
MachineLearning
神经网络
自然语言处理(NLP)预备知识
N-Gram模型的Smoothing算法(对于上面语言模型中平滑算法的一个介绍)https://blog.csdn.net/baimafujinji/article/details/51297802#搜狗新闻
语料
数据
zhangxiangchn
·
2020-08-18 23:36
自然语言处理
上一页
38
39
40
41
42
43
44
45
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他