E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
语料
2020美赛C题:pyhton实现npl自然语言处理记录
2020美赛C题:pyhton实现npl自然语言处理记录前言文本预处理LDA主题分析加可视化多进程程序需写进main函数可视化NLTK情感分析制作
语料
包情感积极性量化一些收获python查错美赛感悟前言此次
guagua_M
·
2020-12-04 14:42
LDA主题分析及其可视化
NLTK实现文本情感分析
python
大数据
美国大学生数学建模竞赛
用python进行自然语言处理_《Python自然语言处理》学习笔记--从文本提取信息
《Python自然语言处理》学习笔记--从文本提取信息标签:NLP应用NLTK解决的问题构建有个系统,从非结构化文本中提取结构化数据;识别一个文本中描述的实体和关系;哪些
语料
库适合于这项工作,且如何使用它们来训练评估模型
weixin_39941859
·
2020-12-04 01:01
用python进行自然语言处理
java中文分词工具_对Pandas百万级文本进行中文分词加速,看这一篇就足够了
一、摘要很多NLP相关的任务都需要分词,而当文本
语料
比较多时,用python处理分词任务的过程会比较消耗时间。
weixin_39637386
·
2020-12-03 01:12
java中文分词工具
pandas
遍历
自然语言处理基础
gensim读取
语料
,输出词向量。词向量可以用来训练各种分类器模型。这三个模型是理解gensim的核心概念。
语料
语料
是指一组电子文档的集合。
许进进
·
2020-11-30 22:50
NLP自然语言处理
一个月,雅思首考7分,我做了这些事
,只用了一个月的时间,现在把我踩过的坑和复习经验告诉你(不推中介,因为我自己是完全自学,没有找任何中介,包括口语作文,文末会分享我自己觉得不错的资料)国际惯例,先上雅思成绩单坑篇:1.不要迷信王陆听力
语料
库
星辰英法语
·
2020-11-28 16:49
word2vec原理_深入浅出Word2Vec原理解析
1.1统计语言模型统计语言模型是用来计算一个句子的概率的概率模型,它通常基于一个
语料
库来构建。那什么叫做一个句子的概率呢?假设表示由T个词按顺序
weixin_39692172
·
2020-11-24 22:06
word2vec原理
seq2seq模型_生成式对话seq2seq:从rnn到transformer
查阅了一些市面上能看到资料,工业上的做法,普遍是基础模板(例如aiml)+IR闲聊库(例如小黄鸡
语料
QA)+爬虫(百度、搜狗)+知识图谱(wiki百科)+对话生成模型。
weixin_39664998
·
2020-11-24 11:24
seq2seq模型
使用Sentencepiece +CNN进行文本分类
1前言Sentencepiece是google开源的文本Tokenzier工具,其主要原理是利用统计算法,在
语料
库中生成一个类似分词器的工具,外加可以将词token化的功能;对比开源的分词器,它会将频繁出现的字符串作为词
烛之文
·
2020-11-23 11:51
“中文版GPT-3”来了!用64张V100训练了3周
但GPT-3是基于英语
语料
库进行训练,而且并不开源,业内一直期待着能有一个中文的超大型NLP模型。现在,它终于来了!最近,北京智源人工智能研究院和清华大学研究团队,合作开展了一项大规模预训
视学算法
·
2020-11-19 12:00
人工智能
自然语言处理
机器学习
深度学习
编程语言
首个金融领域的开源中文预训练语言模型FinBERT了解下
据我们所知,这是国内首个在金融领域大规模
语料
上训练的开源中文BERT预训练模型。
PaperWeekly
·
2020-11-14 15:41
大数据
自然语言处理
编程语言
计算机视觉
机器学习
nltk安装Wordnet出错[nltk_data] Error loading wordnet: <urlopen error [Errno 111]
解决方法适用于所有的nltk.download()报错问题在使用nltk中的
语料
库wordnet时,出现如下问题:可以看到这个问题就是因为nltk中没有w
LawsonAbs
·
2020-11-14 15:10
nlp
linux
ubuntu
python
nltk
【广告技术】使用图神经网络进行信息聚合与推理,解决多证据事实验证问题
从浅显的文本处理走向推理和判断随着自然语言处理(NLP)技术的逐渐发展成熟、文本
语料
数据的不断积累,我们能设计、训练出越来越强大的NLP模型,越来越多的语言相关任务也已经从人工转向了由NLP模型自动处理
腾讯广告算法大赛
·
2020-11-09 12:08
腾讯算法大赛
腾讯广告
腾讯
广告
算法
金融领域首个开源中文BERT预训练模型,熵简科技推出FinBERT 1.0
据悉,这是国内首个在金融领域大规模
语料
上训练的开源中文BERT预训练模型。
AI科技大本营
·
2020-11-06 18:43
大数据
自然语言处理
编程语言
计算机视觉
机器学习
高德全链路压测——
语料
智能化演进之路
背景高德地图作为日活过亿的国民级出行生活服务平台,承载着海量用户服务的是后台的超大规模集群。从用户角度,如果出问题,影响会很大。3机房异地部署造成线上环境复杂,链路复杂。在这样的条件下,如何避免因故障造成用户的伤害,以及在复杂链路条件下做好容量规划,做好灾备,并在第一时间发现问题,通过流量控制和预案演练做应急响应就显得至关重要,而所有的工作都不能等到事情发生之后才做,我们需要有一种验证手段来做好提
高德技术
·
2020-11-06 11:21
大数据
编程语言
python
人工智能
数据分析
论文总结 | Dialogue-Based Relation Extraction
通过对
语料
库和传统任务的异同分析,认为说话人相关信息(speaker-relattedinformation)在任务中起着至关重要的作用。考虑到会话中交流的及时性,我们设计了一种新
J.M_
·
2020-11-01 19:17
悦读|《父母的语言》第九天 3T原则优化大脑发育
因为
语料
丰富的早教语言环境对于孩子的大脑发育有至关重要的作用。3T原则即共情
SDDE兰
·
2020-10-28 06:47
IELTS
IELTS考试是在短时间内拿最多的分,以达到通过的目的,因此要有策略有选择的做题听力真题(剑4-13)王陆雅思王听力
语料
库(3-4-5-11-8-2)雅思听听看有听(听力
语料
库配套)可可英语(真题泛听+
张王李刘赵孙杨
·
2020-10-19 18:47
Glove 原理详细解读
尽管word2vector在学习词与词间的关系上有了大进步,但是它有很明显的缺点:只能利用一定窗长的上下文环境,即利用局部信息,没法利用整个
语料
库的全局信息。
zuomeng844
·
2020-10-18 10:43
Java实现:HMM+维特比算法词性标注
目录一、前言:词性标注二、经典维特比算法(Viterbi)三、算法实现四、完整代码五、效果演示:六、总结一、前言:词性标注词性标注(Part-Of-Speechtagging,POStagging),是
语料
库语言学中将
语料
库中单词的词性按其含义和上下文内容进行标记的文本数据处理技术
Charzous
·
2020-10-18 09:42
自然语言处理
自然语言处理
隐马尔可夫模型
维特比算法
day12
回父母身边,或者回老东家去(如果他们还要我的话……今天做了阅读,写了作文,看了一些
语料
库。进步是可见,但是缓慢的。心情起伏还是有一点,但是比以前能说服自己了。对时间的把握还是有进步的,但可以再进步。
rrreason
·
2020-10-10 05:32
电子书《短片里的中国》
可能很多从教多年的汉语教师都有我这样的毛病:上街看到招牌、广告、任何带字儿的,都想拍下来,想着可以拿到课堂上当作教学用的真实
语料
。
Yanjun
·
2020-10-10 02:55
语料
(FAMILY AND PARENTING)
1.drillsbonsthItmightbesurprisingtofind$250-an-hourtutorswhodrillpreschoolersontheirABCsand1-2-3s.2.homeworkloadTheresearcherssoughttoexaminetherelationshipbetweenhomeworkloadandstudentengagement.3.co
松饼宋秉彦
·
2020-10-04 17:54
语料
(CAMPUS AND CURRICULUM)
1.instill...insbManyschoolsalltrytoinstillperseveranceinthefaceofadversityintheirstudents.2.adapttosthStudentswhostudiedabroadclaimedthattheirinternationalschoolingallowedthemtoadaptquicklytodiversewo
松饼宋秉彦
·
2020-09-21 18:58
Python文本处理:《三国演义》词云的构建与分析
以上为背景1.
语料
与外部库:三国演义全文txt格式
语料
:Python123.ioJieba
JW.FFF
·
2020-09-20 13:25
nlp
自然语言处理
python
全球语种谱系图,看看机器翻译需要跨越的大山
来源:语言春秋编辑|北外新闻中心杨丹蕊摘要:当前机器翻译技术可以分成两类,一种是RichResourceNMT,也就是双语
语料
丰富的语言对(比如中文-英文);另一种叫LowResourceNMT,即缺少足够的双语
语料
人工智能学家
·
2020-09-17 06:19
python手动构建自己的聊天机器人
.需要安装PythonIDE去官网下载吧,然后安装好,我的是Python3.72.安装好aiml:pipinstallaiml3.存好所需文件,主要是aiml的xml文件tuling.xml:用于存放
语料
你好
WhereIsMyChair
·
2020-09-17 06:45
Python
aiml
聊天机器人
Python
聊天机器人
人工智能
aiml
实在智能RPA学院|切切切词!算法TopWORDS的原理及实现
目录一、介绍二、应用领域三、算法步骤四、词典排序五、最优分词结构六、参考文献一、介绍TopWORDS[参考文献1]是发表在PNAS的一种新词发现算法,它在没有任何先验知识的条件下,快速地从大规模中文
语料
里学习出一个排序的词典以及
语料
文本的分词结构
实在智能
·
2020-09-17 04:21
RPA技术
算法
机器学习
人工智能
正向逆向最大匹配算法实现自动分词python
1、199801人民日报
语料
这是已经分词而且词性标记好的,我们用来获取里面的词,作为后续自己分词的底表。
weixin_42385606
·
2020-09-17 04:46
python
自然语言处理
image caption笔记(九):《Unsupervised Image Captioning》
无监督的caption文章使用一个图像数据集(MSCOCO)和一个文本
语料
库(从Web上抓取的200多万个句子组成图像描述
语料
库)来做无监督caption。没有任何配对集合。
月半rai
·
2020-09-17 03:57
image
caption
Python全角和半角之间相互转换
1.应用领域:全角和半角的转换通常用在自然语言处理过程中,由于全角和半角的不一致会导致信息抽取不一致,在使用
语料
训练语言模型会导致模型的效果不准确,所以需要统一。
SpiderLiH
·
2020-09-17 00:31
【Python高级】
word2vec词向量的训练--实战篇(语言模型词向量的生成)
本文目录:新闻预料预处理(全角转换成半角,xml格式提取内容,分词)word2vec训练词向量(gensim生成并保存模型)新闻
语料
预处理本文使用的是搜狗新闻
语料
库,原始
语料
是类似下图中xml格式,首先需要提取中
语料
中正真的新闻内容
huangrs098
·
2020-09-16 23:20
自然语言处理nlp
词语相似度计算:1、安装NLTK和下载WordNet
语料
库;WordNet的使用
NLTK在anaconda中有,WordNet
语料
库需要手动下载。这里主要介绍如何下载wordnet
语料
库。。。
mmc2015
·
2020-09-16 23:51
词语相似度计算
万小军老师《语义计算课程》
wordnet的中文支持项目open multilingual wordnet分析试用
#下载openmultilingualwordnet
语料
importnltknltk.download("wordnet")nltk.download("wordnet_ic")nltk.download
huxuanlai
·
2020-09-16 23:22
自然语言处理和深度学习
Python实现全角与半角相互转换
全角与半角转换在处理汉语
语料
中会经常出现,这里分别说明汉字、数字、字母的unicode编码范围。以及全角与半角的转换方法。最后给出wiki上全角和半角的编码对照表。
huanghao10
·
2020-09-16 22:50
Python
全角半角转换
全角半角对照表
全角半角编码
Python全角半角
学习笔记TF018:词向量、维基百科
语料
库训练词向量模型
词向量嵌入需要高效率处理大规模文本
语料
库。word2vec。简单方式,词送入独热编码(one-hotencoding)学习系统,长度为词汇表长度的向量,词语对应位置元素为1,其余元素为0。
ahua2886
·
2020-09-16 22:18
NLP︱词向量经验总结(功能作用、高维可视化、R语言实现、大规模
语料
、延伸拓展)
笔者认为还存在的问题有:1、如何在R语言环境下,大规模
语料
提高运行效率?2、如何提高词向量的精度,或者说如何衡量词向量优劣程度?3、词向量的功能性作用还有哪些值得开发?
悟乙己
·
2020-09-16 22:29
NLP︱R+python
NLP︱相关技术跟踪
R语言与自然语言处理
词向量训练,
语料
来源总结
转自https://www.cnblogs.com/chenlove/p/9911882.htmlhttps://www.cnblogs.com/sylvanas2012/p/5428746.html
小楼闻夜雨
·
2020-09-16 22:59
NLP
Word2vec 中文词向量训练
*-fromgensim.modelsimportWord2Vecfromgensim.models.word2vecimportLineSentencetxtpath="corpus.txt"#输入
语料
文件
*MuYu*
·
2020-09-16 22:14
NLP
Word2vec
词向量
gensim
预训练词向量中文维基百科,英文斯坦福glove预训练的词向量下载
中文预训练词向量——基于中文维基百科
语料
训练英文预训练词向量——斯坦福glove预训练的词向量百度云分享:https://pan.baidu.com/s/1UpZeuqlNMl6XtTB5la53Xw提取码
摸金青年v
·
2020-09-16 21:22
NLP自然语言处理
预训练词向量
词向量
glove
斯坦福
维基百科
268G+训练好的word2vec模型(中文词向量)
268G+训练好的word2vec模型( 从网上了解到,很多人缺少大
语料
训练的word2vec模型,在此分享下使用268G+
语料
训练好的word2vec模型。
stay_foolish12
·
2020-09-16 21:22
ppython
自然语言处理
深度学习
word2vec
gensim
词向量
如何使用Python查找文本文件的Zipf分布
齐夫定律Zipf定律简单地指出,给定某种自然
语料
的
语料
库(大型且结构化的文本集),出现频率最高的单词的频率大约是第二出现频率的单词的两倍,第三出现频率的单词的三倍,是第四个最常见的单词的四倍,依此类推。
cunjie3951
·
2020-09-16 20:33
列表
字符串
python
java
正则表达式
DataVec/读取器
除了数据集中的单个条目之外,阅读器的用处包括:如果想要在
语料
库上训练文本生成器,或是以编程方式将两个条目组合在一起形成新的记录的时候该怎么办?读取器实现对于复杂的文件类型或分布式存储机制是有用的。
bewithme
·
2020-09-16 20:13
dl4j
基于英汉平行
语料
库的机器翻译知识获取研究
基于英汉平行
语料
库的机器翻译知识获取研究本文主要围绕以下几个方面进行了深入的研究:1)词汇对齐。词汇对齐是从英汉平行
语料
库中,根据已有的句子级对齐的
语料
库,挖掘出词汇级的英汉词对应关系。
zzhetao
·
2020-09-16 10:38
机器翻译
融合统计机器翻译特征的蒙汉神经网络机器翻译技术
神经网络机器翻译也在大规模
语料
上取得了很好的翻译效果,而对小规模
语料
的神经网络机器翻译研究甚少。
zzhetao
·
2020-09-16 10:38
机器翻译
R语言自然语言处理1:中文
语料
库构造
欢迎关注我的新浪微博:Jenny爱学习微信公众号:R语言数据分析与实践如论文借鉴,请标明引用.作者:李珍妮邮箱:
[email protected]
李珍妮.R语言自然语言处理:中文
语料
库构造
ZhenniLi
·
2020-09-16 02:58
R语言
R语言
BERT fine-tune,loss不下降,训不动,固定分类到一类
语料
应该没问题,不restore任何东西的话,都有效果。模型换成google官方bert,分类器代码不变,没问题。
guotong1988
·
2020-09-15 22:37
自然语言处理NLP
TensorFlow
自然语言处理-正负向情感分类demo
2.利用北京师范大学和人民大学词向量模型3.利用酒店评价
语料
进行模型训练4.利用flast和WSGIServer进行模型服务发布现将训练结果分享,获取两个模型后可直接运行。
高远321
·
2020-09-15 20:02
神经网络
tensorflow
自然语言
输入法之
语料
选择
影响输入法体验的有两块,候选命中以及视觉交互,视觉交互就是看到的键盘以及用户的使用的方便程度,尤其是在手机输入法中,键盘布局以及一些默认设置等细节对体验影响很大。候选命中就是指用户输入拼音时,能否把用户的想要的东西放在第一位显示处理。我们重点关注候选命中,UI是设计师的事情:)影响候选命中因素很多,比如模型选择、剪枝策略等,其中决定候选命上限,也就是天花板的绝对是训练预料,没有之一,后续的各种tr
hxxiaopei
·
2020-09-15 19:16
输入法
TF-IDF(term frequency–inverse document frequency)
TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个
语料
库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在
语料
库中出现的频率成反比下降。
allenshi_szl
·
2020-09-15 10:20
自然语言处理
自然语言处理
资讯
semantic
parsing
processing
生物
tf-idf权重
tf-idf权重常用于信息检索与文本挖掘中,作为评估某个词对文档集合或者
语料
库中某个文档的重要程度的统计度量,这种重要程度与词在文档中的出现次数成正比,但是被
语料
库中词的出现频率所抵消。
liyi1149549057
·
2020-09-15 05:44
图像检索
上一页
33
34
35
36
37
38
39
40
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他