E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
语料
基于Spark Mllib的文本分类
基于SparkMllib的文本分类文本分类是一个典型的机器学习问题,其主要目标是通过对已有
语料
库文本数据训练得到分类模型,进而对新文本进行类别标签的预测。
大数据星球-浪尖
·
2020-07-13 12:42
python爬虫中使用Xpath方法定位a标签中所有的子标签的方法
老板扔给了我一个陈年
语料
,让我通过文章标题回原网址爬取一下对应的doi号,文章很好定位,但是在解析标题的时候遇到了问题,a标签中混合了i、sub、sup标签,在使用xpath时不能直接使用text方法获取
天才小呵呵
·
2020-07-13 10:39
Python探索笔记
Python爬虫
自然语言处理的数学原理(二)
文章目录统计语言模型的具体描述一个简单的例子统计语言的描述条件概率的估算统计语言模型用于分词的细节讨论二元模型的扩展统计语言模型的局限性统计语言模型的训练问题
语料
库的选取分词一致性与颗粒度小结转载来源:
郝伟老师的技术博客
·
2020-07-13 05:08
机器人的「
语料
」,如何获取?
本文来自作者李烨在GitChat上分享「应用聚类模型获得聊天机器人
语料
」,「阅读原文」查看交流实录「文末高能」编辑|嘉仔0.聊天机器人系列第三部之前笔者开过两个关于聊天机器人开发的Chat:《从零开始,
技术杂谈哈哈哈
·
2020-07-13 00:15
利用Python写了个成语接龙!我弟弟已经玩了三天了!还是玩不过!
诗歌
语料
库首先,我们利用Python爬虫来爬取诗歌,制作
语料
库。
编程新视野
·
2020-07-12 23:38
英语单词音近形似转化规律研究
基于英国国家
语料
库中最常见的18299个英语单词进行分析,如b-prule表示“将单词中的b字母转化为p字母”,后面的totalnumber是表示转化之后的单词有多少个是在这18299个词范围内,可以点击单词链接在爱词霸中查看详细含义
sdfjlkjsdfsaldfsdf
·
2020-07-12 17:04
superword
superword
Gensim学习笔记-2-理解Gensim中的Corpus对象
所有corpora.xxxcorpus中的对象均继承接口gensim.interfaces.CorpusABC一个
语料
库对象(corpus)是一个可迭代的对象,每次迭代得到一篇文档(document)一个
Mr_Hagrid
·
2020-07-12 17:16
gensim
Gensim
NLTK中的
语料
资源
NTLK中不仅包括了算法程序,还有大量的
语料
资源。
xmsheji
·
2020-07-12 17:21
ML&&NLP
Co-training&主动学习
Co-training是目前很流行的一种半指导机器学习的方法,它的基本思想是:构造两个不同的分类器,利用小规模的标注
语料
,对大规模的未标注
语料
进行标注的方法.Co-training方法最大的优点是不用人工干涉
xiaoshengforever
·
2020-07-12 16:07
机器学习/模式识别
word2vector
参考文献https://www.jianshu.com/p/1405932293ea用途====================将
语料
库中的词转化为向量,方便后续在词向量的基础上进行各种计算。
tuntunwang
·
2020-07-12 15:37
数据挖掘
Chat with Milvus #9 回顾: 声纹识别
Milvuscontributor企划与后面要分享给大家的用户案例,Q&A的部分从影片的14:35开始噢|部分Q&A文字实录User:因为我现在有一个模型,在做一个(声纹识别)项目,然后就是想比如说有很多条
语料
是几十万条
ZILLIZ RDS
·
2020-07-12 14:09
Milvus
11月份Github上最热门的Java开源项目
HanLP具备功能完善、性能高效、架构清晰、
语料
时新、可自定义的特点。在提供
Java团长在csdn
·
2020-07-12 14:02
从3天到1小时,谷歌给最耗时的BERT预训练时间狂吃加速
BERT在33亿文本的
语料
喜欢打酱油的老鸟
·
2020-07-12 12:33
人工智能
TextCNN
下面我们先来看一下深度学习中样本数据的处理流程首先需要对待处理的文本(
语料
集)进行预处理,包括一些无用的网络标签和分词等。对分词后
朱雀至夜
·
2020-07-12 11:47
python
文本分类
Gensim官方教程翻译(一)——
语料
库与向量空间(Corpora and Vector Spaces)
2019独角兽企业重金招聘Python工程师标准>>>原文链接:http://blog.geekidentity.com/nlp/gensim/gensim_1_corpora-and-vector-spaces_translation/本教程在这里可以作为JupyterNotebook使用。如果你想记录日志,请不要忘记设置:>>>importlogging>>>logging.basicConf
weixin_34194317
·
2020-07-12 09:55
nltk(4)——加工原始
语料
库
加工原始
语料
库分词做自然语言处理,一定离不开数据资源,即对数据资源的分析,了解其中潜在的内容。网络上存在众多的资源,如文本,网页等等。这次写的主要是文本和网页。
江中舟
·
2020-07-12 04:01
自然语言处理
nltk(3)——
语料
库
NLTK包含众多一系列的
语料
库,这些
语料
库可以通过nltk.package导入使用。
江中舟
·
2020-07-12 04:00
自然语言处理
2018-05-18 今日事(后面每天的事宜基础模板,可加不可减)
听力:(1)听力
语料
库单词背诵(2)不看原文的基础下跟读,该开始读完一篇可能要一两个小时阅读:60分钟内完成三篇,词汇量!词汇量!词汇量!长难句翻译,长难句翻译,长难句翻译。作文:顾家北作文课程(另外
一个人的朝圣远行
·
2020-07-12 04:26
(3) 使用sklearn包提取文章的关键词
不同的是对原始
语料
库格式的要求,sklearn要求
语料
库中文章的分词之间以空格分隔,如以下示例:segment第一篇文章我是中国人。第二篇文章你是美国人。第三篇文章他叫什么名字?第四篇文章她是谁啊?
_hahaha
·
2020-07-12 04:35
Python 统计微博文本的单词数
importosimportxlrdimportnumpyasnpimportmatplotlib.pyplotaspltimportrefromnumpy.maimportlogxpath="/Volumes/DISK1/微博总
语料
库
nyoj_lvy
·
2020-07-12 03:10
Python
关键字提取工具(面向英文)
语料
集是英文。推荐一些相关工具。
忆梦涟
·
2020-07-12 03:27
文本挖掘
120G+训练好的word2vec模型(中文词向量)
从网上了解到,很多人缺少大
语料
训练的word2vec模型,在此分享下使用120G+
语料
训练好的word2vec模型。
免点兔
·
2020-07-12 01:09
分类前之数据预处理
1.原始
语料
的规整#-*-coding:utf-8-*-#获取正负向
语料
库与停用词词典#将原始数据规整到一个txt文件中importos#文件夹及结果文件的存储路径path=r"D:/file_download
涵星同学
·
2020-07-11 23:56
NLP
Python
K-BERT理解
0.AbstractBERT它是一种从大规模
语料
库中学得语言表征的模型,但是,在专业领域表现不佳。
qzlydao
·
2020-07-11 21:13
Gensim官方教程翻译(二)——
语料
库与向量空间(Corpora and Vector Spaces)
仅供我自己学习方便,翻译了原教程,原文地址:http://radimrehurek.com/gensim/tut2.html====================正==========文====================如果你想记录日志,请不要忘记设置:>>>importlogging>>>logging.basicConfig(format='%(asctime)s:%(levelnam
在路上吗
·
2020-07-11 21:24
Python
NLP
论文笔记:The Effectiveness of Data Augmentation in Image Classification using Deep Learning
前言深度学习和机器学习的有效性离不开数据,神经网络可以从数据中获益,基于文本的模型因谷歌
语料
库的发布而受益。作者认为对于如此庞大的非结构化数据集,任
告白少年
·
2020-07-11 21:22
图像分类
数据增强
Lab_2实验总结(软件构造)
1.1PoeticWalks用两种方法实现Graph类用来存储加权有向图,并使用Graph类来在输入的每个单词之间从
语料
库中找出权重为2的单词插入实现诗意漫步。
De_MorgaN
·
2020-07-11 18:10
2019-12-15
推荐一个美国当代英语
语料
库(CorpusofContemporaryAmericanEnglish,简称COCA),是目前最大的免费英语
语料
库,它由包含5.2亿词的文本构成,这些文本包括口语、小说、流行杂志
庭前孤生竹
·
2020-07-11 18:07
Kaldi TIMIT x-vector 说话人识别 (声纹识别)
1前言本文使用TIMIT
语料
库,参考aishell使用x-vector进行说话人识别,现有的资料都是i-vector.本文参考了很多资料,如果想要了解如何使用TIMIT和ivector进行说话人识别,那么建议从
RanleyYu
·
2020-07-11 16:19
自然语言处理绪论
又称为“经验主义的”语言模型建模步骤:通过大规模的真是
语料
库,获取语言各级语言单位上的统
Jasonhaven
·
2020-07-11 15:17
使用中文维基百科进行GloVe实验
1.环境及
语料
1.1环境PythonGloVe1.2
语料
处理之后的中文Wiki处理步骤参考我的这篇博客:使用中文维基百科进行Word2Vec实验。
David_Hernandez
·
2020-07-11 13:54
NLP
搜索引擎性能评价——Cranfield评价体系
英国Cranfield工程在20世纪50年代末到60年代中期所建立的基于查询样例集、正确答案集和
语料
库的评测方案,则真正使信息检索
我们都是夏阁人
·
2020-07-11 13:51
网络
HFT-CNN:层级多标签分类,让你的模型多学习几次
一般对于短文本的处理会借鉴上下文的
语料
或者同义词来扩充短文本的含义。但是由于文本的领域相关性,上下文的
语料
和同义词的分布未必和原始
语料
一致。由于以上原因短文本分类一直受到人们的关注。在
lynne233
·
2020-07-11 11:00
机器学习
one-hot编码
例如我们的
语料
库中有段话:我毕业于湖南工业大学我就职于长沙代码研究所,以下是对该段话进行的分词流程:1.我们首先对
语料
库分词,并获取其中所有的词,然后对每个
飞向Hadoop
·
2020-07-11 08:05
NLP
Wikipedia
语料
库处理
参考:http://licstar.net/archives/262参考的博客略旧,根据博客内容调整了处理过程第一步:下载
语料
最新的:http://download.wikipedia.com/zhwiki
GZGlenn
·
2020-07-11 08:40
Coding
一种带词性标注的分词器使用方法--HanLP分词
HanLP具备功能完善、性能高效、架构清晰、
语料
时新、可自定义的特点。内部算法经过工业界和学术界考验,配套书籍《自然语言处理入门》已经出版。
gentlewei
·
2020-07-11 06:41
维基百科
语料
上的word2vec实验(一)win7-64bit-python2.7安装numpy+scipy+matplotlib
下面是我搜了各种资料统一起来需要用到的文件,连接如下:http://pan.baidu.com/s/1slyJ1aX所有的这些记录都是为了能处理维基百科的
语料
1、numpy安装下载的文件都是可执行程序,
freedomzll
·
2020-07-11 06:36
Gensim学习笔记-1.Corpora模块和向量空间表示
importlogginglogging.basicConfig(format='%(asctime)s:%(levelname)s:%(message)s',level=logging.INFO)将文本转为向量 现在假设我们现在有一个
语料
库
frostime
·
2020-07-11 06:43
NLP
数据压缩算法之哈夫曼编码(HUFFMAN)的实现
如果采取标准的
语料
库进行编码,一般可以得到比较满意的编码结果(对不同文件产生不同压缩率的折中方法)。本文采取对单独一个文件进行编码的方式来演示此压缩算法的使用。
dianxiaohuo4358
·
2020-07-11 05:56
python使用正则表达式处理邮件
正则表达式可以提取定义的文字模式,在爬虫,文字模式的提取中有很大作用,这里,我们举例使用正则表达式处理一个由数千邮件合并的一个txt文件
语料
库地址:https://www.kaggle.com/rtatman
Mu-Shen
·
2020-07-11 01:25
python
【python】gensim corpora的简单使用
python环境:Anaconda3(Python3.7)使用gensim做自然语言处理的一般思路是:使用(处理)字典---->生成(处理)
语料
库---->自然语言处理(tf-idf的计算等)利用列表生成字典
Yolen_Chan
·
2020-07-11 00:45
python
使用snownlp进行情感分析
主要可以进行中文分词(算法是Character-BasedGenerativeModel)、词性标注(原理是TnT、3-gram隐马)、情感分析(官网木有介绍原理,但是指明购物类的评论的准确率较高,其实是因为它的
语料
库主要是购物方面的
哈喽林先森
·
2020-07-10 23:54
HanLP 汉语言处理
HanLP具备功能完善、性能高效、架构清晰、
语料
时新、可自定义的特点;提供词法分析(中文分词、词性标注、命名实体识别)、句法分析、文本分类和情感分析等功能。
Jackson_MVP
·
2020-07-10 22:52
NLP
中文自然语言处理
GitChat 严选 | 11月免费 Top 5
主要负责项目:
语料
文本分类,聊天机器人设计与开发,组织举办大数据竞赛。
技术杂谈哈哈哈
·
2020-07-10 21:27
Lecture 6 Language Models and Recurrent Neural Networks
例如当前已有“thestudentsopenedtheir”,那么根据训练
语料
库,模型给出的预测可能是boo
Forlogen
·
2020-07-10 21:53
NLP
CS224n
凝固度和自由度提取关键词
但是2400万的
语料
中“的电影”出现389次“电影院”出现175次“电影院”的凝固度要大于“的电影”的凝固度2
晚睡的人没对象
·
2020-07-10 21:25
python
自然语言处理
深度学习
word2vec 构建中文词向量
一、中文
语料
库本文采用的是搜狗实验室的搜狗新闻
语料
库,数据链接http://www.sogou.com/labs/resource/cs.php下载下
CW18606199334
·
2020-07-10 20:39
《自己动手做聊天机器人》教程
完全自动化对
语料
做词性标注http://www.shareditor.com/blogs
yygydok
·
2020-07-10 20:37
Gensim学习笔记-1--理解corpora.Dictionary
gensim中的必须理解的概念有:1rawstrings原始字符串2corpora
语料
库3sp
Mr_Hagrid
·
2020-07-10 20:19
gensim
Python 标准库精华: collections.Counter
例如,如果我们的数据
语料
库中的大多数美国电话号码都写成xxx-xxx-xxxx,那么字符串(206)1234567就应该转换为206-123-4567。
MHyourh
·
2020-07-10 18:43
python
上一页
44
45
46
47
48
49
50
51
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他