E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
语料
11. HanLP实现朴素贝叶斯/SVM--文本分类
笔记转载于GitHub项目:https://github.com/NLP-LOVE/Introduction-NLP11.文本分类上一章我们学习了文本聚类,体验了无须标注
语料
库的便利性。
mantch
·
2022-02-20 08:09
短文本分类 (一): 构建词向量
得到原始标题数据后,我需要对其进行分词构建
语料
库,分词我使用jieba这个第三方库。之后要通过
语料
库用Word2vec算法对分词进行训练,这里我使用gensim的word2vec。
_张旭
·
2022-02-19 22:50
gensim的简易安装
由于处理
语料
要用到gensim,这两天一直在装,在网上搜了一些教程,装完这个装那个,给过gensim依赖的包全装好了gensim还是装不成功,真的是心累啊,后来在网上看了一篇简易的安装方法,心想试试吧,
freedomzll
·
2022-02-16 19:47
通过改造BERT实现ERNIE并比较两者差异
引用ERNIE的github主页关于预训练数据的介绍:训练数据方面,除百科类、资讯类中文
语料
外,ERNIE还引入了论坛对话类数据,利用DLM(DialogueLanguageModel)建模Query-Response
wipen
·
2022-02-15 05:17
基于文本挖掘的情人节微信聊天记录情感分析
这里就用和大学本科好基友的聊天记录作为
语料
库啦。整个分析流程分为以下几个部分:目录1.微信聊天记录获取2.数据清洗2.1分词、去停、去重2.2外部词典调用3.数据分析3.1词频分析与词云展示3
#温室里的土豆
·
2022-02-14 07:57
微信
python
nlp
Arxiv网络科学论文摘要11篇(2020-09-03)
VeRNAl:用于挖掘RNA中模糊网络模体的工具;在网络中查找信息源:带预算的查询;异构图神经网络推荐;社会等级促进合作主导;将属性网络嵌入扩展至大型图;感性的LIAR:伪造索赔分类的扩展
语料
库和深度学习模型
ComplexLY
·
2022-02-13 04:03
我的忏悔
但是一直打哈欠完全集中不了注意力也不是回事,我的
语料
库数据都
李想想
·
2022-02-12 07:46
TextRank——关键词提取
TextRank算法可以脱离
语料
库的背景,仅对单篇文档进行分析就可以提取该文档的关键词。PageRank算法TextRank算法基于PageRank算法的。
dreampai
·
2022-02-12 00:03
2019年的小目标
19年考过四门CPA,同时准备雅思口语和写作><口语用书:王陆
语料
库1、看视频学习,练五个音标,每个音标四遍。
顾自律
·
2022-02-09 02:11
Arxiv网络科学论文摘要22篇(2020-06-08)
SEIR模型的分析和元胞自动机方法用于在拥挤的开放空间中传播的感染;在大学环境中模拟COVID-19;跨语言迁移学习,以应对COVID-19疫情;考虑分类的神经网络主题模型及其在新型COVID-19虚假
语料
库中的应用
ComplexLY
·
2022-02-08 17:36
自然语言处理——5.3 语言模型(数据平滑)
基本约束困惑度定义:对于一个平滑的n-gram,其概率为,可以计算句子的概率:假定测试
语料
由个句子构成,那么整个测试集的概率为:模型对于测试
语料
的交叉熵:其中,是测试文本的词数。
SpareNoEfforts
·
2022-02-06 17:44
一些英语学习的APP/网站/...安利
因此,依个人经验,一集剧需要看3遍,第一遍了解剧情,第二遍记下值得学习的
语料
,第三遍遮挡字幕纯听,听不懂的地方要回看一下,直到听懂位置。
雪晗晗
·
2022-02-06 16:59
机器翻译技术学习笔记
不一定
语料
质量,领域属性都会对效果有影响基数小提升显著、基数大提升微弱甚至降低2、如何构建词表:3、模型选择:并行计算能力弱,信息抽取能力弱。
Necther
·
2022-02-06 07:43
机器翻译
transformer
自然语言处理
2018-10-13
可以借用朗读的形式来摸索朗读、朗诵是我们练习表达最好的一种方式,它不仅可以让我们习惯长难句、复合句的表达,并且能够积累大量规范而优美的
语料
,运用到日常表达当中,以提升我们的整体语言面貌。
哼哼哈哈呼呼嘿嘿
·
2022-02-05 17:30
自然语言处理中的常见大规模预训练语言模型
从大规模的
语料
数据到强有力的算力支持,加上深度学习算法模型,把自然语言带到一个全新的阶段。
逍遥一身
·
2022-02-05 00:51
自然语言预训练模型大总结
而相比之下,大规模未标注的
语料
却很容易构建。为了利用大量的未标注文本数据,我们可以先从其中学习一个好的表示,再将这些表示用在别的任务中。这一通过PTM
凌冰_lonny
·
2022-02-03 14:45
es实战-使用IK分词器进行词频统计
词频统计服务具体模块如下:数据输入:文本信息数据输出:词-词频(TF-IDF等)-词性等内容使用的组件:分词器、
语料
库、词云展示组件等功能点:白名单,黑名单,同义
·
2022-01-30 14:41
恒源云_语音识别与语义处理领域之低资源机器翻译综述
文章来源|恒源云社区原文地址|低资源机器翻译综述原文作者|角灰摘要神经机器翻译效果非常好,但需要大量的平行
语料
,因此有了低资源翻译的研究。
·
2022-01-13 16:21
深度学习
复盘昨晚的学习内容
老师先展示一段
语料
,自己试读最初的感觉。紧接着教我们提颧
春夏秋冬99
·
2021-12-21 15:12
NLTK工具集
目录简介NLTK常用
语料
库和词典资源停用词常用
语料
库常用词典常用自然语言处理工具集分句标记解析Tokenization词性标注POSTagging其他工具补充1:中文的处理工具LTP简介NLTK,NaturalLanguageToolkit
tzc_fly
·
2021-12-03 20:03
生物计算工具
自然语言处理
python
人工智能
Shopee 末端物流智能提效之路
摘要东南亚因语种多样、
语料
库缺失、GIS地理信息薄弱等多种原因,其末端物流发展还处于依靠人工的初级阶段,导致效率低下、准确受限、拓展速度受限。
·
2021-11-22 15:32
人工智能算法后端物流系统供应链
《NLP with Python》学习笔记(一)
文章目录绘制带条件的频率分布表评估词汇多样性分词自定义函数实现分词使用模拟退火算法的非确定搜索常用的基础函数绘制带条件的频率分布表#布朗
语料
库importnltkfromnltk.corpusimportbrownbrown.categories
白炎灵
·
2021-11-18 21:20
NLP
python学习
python
语料
的流式加载
os.listdir('data/')#输入文件夹名字,输出文件夹下的文件夹名或者文档名list##流式加载(CorpusStreaming)classMySentences(object):def__init__(self,dirname):self.dirname=dirnamedef__iter__(self):forfnameinos.listdir(self.dirname):print
·
2021-11-10 15:04
python数据挖掘
gensim.model.Word2Vec()的参数
1.sentences:可以是一个List,对于大
语料
集,建议使用BrownCorpus,Text8Corpus或·ineSentence构建。
·
2021-11-10 10:33
数据挖掘自然语言处理
gensim教程翻译学习记录(四)
相似性查询(SimilarityQueries)展示一个
语料
库中相似文档的查询。
qqqh777
·
2021-11-06 22:54
声音就是二维码 阿里云IoT发布智能声码服务
据了解,智能声码服务是利用人耳不可听见的声音作为信息载体和传播手段,将用户希望传播的字符或网址转换为人耳不可听见的声波,融合到由千里传音播报服务创建的人耳可听见的
语料
中。
HaaS技术社区
·
2021-11-05 17:42
物联网行业知识
物联网
云计算
声学
人工智能
python机器学习创建基于规则聊天机器人过程示例详解
目录聊天机器人基于规则的聊天机器人创建
语料
库创建一个聊天机器人总结还记得这个价值一个亿的AI核心代码?
·
2021-11-02 14:18
使用 Python 创建一个基于规则的聊天机器人
目录1、聊天机器人2、基于规则的聊天机器人3、创建
语料
库4、创建一个聊天机器人5、总结前言:还记得这个价值一个亿的AI核心代码?
·
2021-10-29 10:36
文本预处理
·文本预处理中包含的主要环节:·文本处理的基本方法·文本张量表示方法·文本
语料
的数据分析·文本特征处理·数据增强方法·文本处理的基本方法·分词·词性标注·命名实体识别·文本张量表示
赵有才er
·
2021-10-28 21:38
NLP
自然语言处理
人工智能
nlp
Python机器学习NLP自然语言处理基本操作之京东评论分类
实现机器语言和人类语言之间的沟通桥梁.RNNRNN(RecurrentNeuralNetwork),即循环神经网络.RNN相较于CNN,可以帮助我们更好的处理序列信息,挖掘前后信息之间的联系.对于NLP这类的任务,
语料
的前后
·
2021-10-18 17:56
有限内存下全局打乱几百G文件(Python)
题目背景其实很明朗,现在预训练模型动辄就几十甚至几百G
语料
了,为了让模型能更好地进行预训练,对训练语句进行一次全局的随机打乱是很有必要的。
赵卓不凡
·
2021-10-16 12:27
python
CVPR2021 用更好的目标检测器提取视觉特征!微软提出VinVL,基于更好的视觉特征,达到更强的多模态性能...
与最广泛使用的bottom-upandtop-down模型相比,新模型更大,更适用于VL任务,并在结合多个公共目标检测数据集的更大训练
语料
库上进行预训练。
我爱计算机视觉
·
2021-10-16 11:00
大数据
计算机视觉
机器学习
人工智能
深度学习
Python机器学习NLP自然语言处理基本操作电影影评分析
实现机器语言和人类语言之间的沟通桥梁.RNNRNN(RecurrentNeuralNetwork),即循环神经网络.RNN相较于CNN,可以帮助我们更好的处理序列信息,挖掘前后信息之间的联系.对于NLP这类的任务,
语料
的前后概率有极
·
2021-10-08 12:00
2021-09-07
好好研究下
语料
书的用法。就寝:12:06又睡迟了,不过入
觅秘的成长日记
·
2021-09-07 17:01
关键词提取-TFIDF(一)
深度学习模型及常用任务说明✗RNN的时间复杂度✗neo4j图数据库分词、词向量TfidfVectorizer基本介绍TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个
语料
库
·
2021-08-28 21:56
nlptfidfpython
父母的语言――3T原则,第一个T,共情关注
[图片]如今我们已经了然于胸,一个
语料
丰富的早教语言环境,对于婴儿和儿童大脑发育是至关重要的。那么下一个值得关注的问题就是如何帮助父母构建一个良好的语言环境。
绿水情绪疗愈
·
2021-08-13 06:54
模型训练
语料
少?知识蒸馏解决烦恼
想要训练一个高质量的词向量模型,就需要大量优质的
语料
来支持。对于使用广泛的语种,比如英语,获取
语料
和训练模型相对容易。反观一些小语种,
语料
少,获取难,纵有再好的网络结构,训练出来的模型
·
2021-08-10 15:13
人工智能神经网络深度学习模型
基于朴素贝叶斯/逻辑回归的垃圾邮件文本分类
jieba分词5、计算词频TF6、计算逆文本词频IDF7、混淆矩阵8、使用贝叶斯分类器9、逻辑回归六、总结一、邮件数据集本文进行文本分类任务的中文邮件数据来源于由国际文本检索会议提供一个公开的垃圾邮件
语料
库
唯余木叶下弦声
·
2021-08-08 19:01
机器学习
机器学习
人工智能
python
自然语言处理
NLP随笔(四)
nlp技术包括基础技术和应用技术70年代以后随着互联网的高速发展,
语料
库越来越丰富以及硬件更新完善,自然语言处理思潮由理性主义向经验主义过渡,基于统计的方法逐渐代替了基于规则的方法。
·
2021-08-05 00:30
2021-06-27 ch22 注意力机制
注意力机制:是一个不断更新权重,再加权求和的过程seq2seq+attn基本框架
语料
形式:[原文
柠樂helen
·
2021-07-18 21:04
河南省中招英语试题
河南省中招英语试题的所有语篇和
语料
围绕人与自然、人与社会、人与自我三大主题,取材广泛(涉及故事、科普、人文、文化活动等),体裁多样(包括记叙文、说明文、应用文等),时代性强,能力考查全面,充分体现了坚持立德树人
布衣ysy
·
2021-07-16 18:46
写给雅思小白
雅思王听力真题
语料
库(机考笔试综合版)+真题里的听力雅思王听力真题
语料
库先背下来,听写倒不用做那么多遍。阅读先看雅思阅读真经总纲(机考笔试综合版)。
濠镜先生
·
2021-06-27 18:57
NLP-统计语言模型的平滑方法
而我们企图用已经存在的
语料
数据来覆盖未来有可能出现的测试数据,未免有些天真。
Huoyo
·
2021-06-27 13:25
机器学习写唐诗
唐诗
语料
后续补充下载链接,包含4万首唐诗,本文是基于腾讯云的一篇教程做的改进和记录,后面
西5d
·
2021-06-26 19:19
【2020-07-16】Word2Vec
gensim的Word2Vec参数Word2Vec(sentences=None,#可以是一个list,对于大
语料
集,建议使用BrownCorpus,Text8Corpus或·ineSentence构建
BigBigFlower
·
2021-06-25 20:24
从头设计一个聊天机器人(进化史)
简单
语料
库第一列是我们问的问题,第二列是答案。当我们输入第一列,
魔法猫31
·
2021-06-25 08:01
2018高中文言文阅读题构析与解答(一)
《宋史》是高中古文阅读重要的文本(
语料
)来源......《宋史》全书有本纪47卷,志162卷,表32卷,列传255卷,共计496卷,约500万字,是二十五史中篇幅庞大的一部官修史书。
黑物质
·
2021-06-25 02:34
[Python从零到壹] 十.网络爬虫之Selenium爬取在线百科知识万字详解(NLP
语料
构造必备技能)
欢迎大家来到“Python从零到壹”,在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界。所有文章都将结合案例、代码和作者的经验讲解,真心想把自己近十年的编程经验分享给大家,希望对您有所帮助,文章中不足之处也请海涵。Python系列整体框架包括基础语法10篇、网络爬虫30篇、可视化分析10篇、机器学习20篇、大数据分析20篇、图像识别30篇、人工智
Eastmount
·
2021-06-23 12:50
Python从零到壹
Python网络爬虫
Python学习系列
网络爬取
Python从零到壹
Selenium
百科知识
语料库
第3章 中文分词技术
英文以空格分割而汉语中则不然,有时会存在歧义,例如:结婚/的/和/尚未/结婚/的结婚/的/和尚/未结婚/的中文自动分词被提出以来,提出了很多方法:规则分词(人为设立词库,处理不了新词)统计分词(随统计机器学习兴起而兴起,以来
语料
的质量
什么时候能像你们一样优秀
·
2021-06-23 03:25
汉语言处理包 HanLP v1.6.0 发布,感知机词法分析器
HanLP具备功能完善、性能高效、架构清晰、
语料
时新、可自定义的特点。
lanlantian123
·
2021-06-22 23:26
上一页
30
31
32
33
34
35
36
37
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他