语料第48页

基于Spark Mllib的文本分类

基于SparkMllib的文本分类文本分类是一个典型的机器学习问题，其主要目标是通过对已有语料库文本数据训练得到分类模型，进而对新文本进行类别标签的预测。

大数据星球-浪尖·2020-07-13 12:42

python爬虫中使用Xpath方法定位a标签中所有的子标签的方法

老板扔给了我一个陈年语料，让我通过文章标题回原网址爬取一下对应的doi号，文章很好定位，但是在解析标题的时候遇到了问题，a标签中混合了i、sub、sup标签，在使用xpath时不能直接使用text方法获取

天才小呵呵·2020-07-13 10:39

自然语言处理的数学原理（二）

文章目录统计语言模型的具体描述一个简单的例子统计语言的描述条件概率的估算统计语言模型用于分词的细节讨论二元模型的扩展统计语言模型的局限性统计语言模型的训练问题语料库的选取分词一致性与颗粒度小结转载来源：

郝伟老师的技术博客·2020-07-13 05:08

机器人的「语料」，如何获取？

本文来自作者李烨在GitChat上分享「应用聚类模型获得聊天机器人语料」，「阅读原文」查看交流实录「文末高能」编辑|嘉仔0.聊天机器人系列第三部之前笔者开过两个关于聊天机器人开发的Chat：《从零开始，

技术杂谈哈哈哈·2020-07-13 00:15

利用Python写了个成语接龙！我弟弟已经玩了三天了！还是玩不过！

诗歌语料库首先，我们利用Python爬虫来爬取诗歌，制作语料库。

编程新视野·2020-07-12 23:38

英语单词音近形似转化规律研究

基于英国国家语料库中最常见的18299个英语单词进行分析，如b-prule表示“将单词中的b字母转化为p字母”，后面的totalnumber是表示转化之后的单词有多少个是在这18299个词范围内，可以点击单词链接在爱词霸中查看详细含义

sdfjlkjsdfsaldfsdf·2020-07-12 17:04

Gensim学习笔记-2-理解Gensim中的Corpus对象

所有corpora.xxxcorpus中的对象均继承接口gensim.interfaces.CorpusABC一个语料库对象（corpus）是一个可迭代的对象，每次迭代得到一篇文档（document）一个

Mr_Hagrid·2020-07-12 17:16

NLTK中的语料资源

NTLK中不仅包括了算法程序，还有大量的语料资源。

xmsheji·2020-07-12 17:21

Co-training&主动学习

Co-training是目前很流行的一种半指导机器学习的方法,它的基本思想是:构造两个不同的分类器,利用小规模的标注语料,对大规模的未标注语料进行标注的方法.Co-training方法最大的优点是不用人工干涉

xiaoshengforever·2020-07-12 16:07

word2vector

参考文献https://www.jianshu.com/p/1405932293ea用途====================将语料库中的词转化为向量，方便后续在词向量的基础上进行各种计算。

tuntunwang·2020-07-12 15:37

Chat with Milvus #9 回顾：声纹识别

Milvuscontributor企划与后面要分享给大家的用户案例，Q&A的部分从影片的14:35开始噢|部分Q&A文字实录User：因为我现在有一个模型，在做一个（声纹识别）项目，然后就是想比如说有很多条语料是几十万条

ZILLIZ RDS·2020-07-12 14:09

11月份Github上最热门的Java开源项目

HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。在提供

Java团长在csdn·2020-07-12 14:02

从3天到1小时，谷歌给最耗时的BERT预训练时间狂吃加速

BERT在33亿文本的语料

喜欢打酱油的老鸟·2020-07-12 12:33

TextCNN

下面我们先来看一下深度学习中样本数据的处理流程首先需要对待处理的文本（语料集）进行预处理，包括一些无用的网络标签和分词等。对分词后

朱雀至夜·2020-07-12 11:47

Gensim官方教程翻译（一）——语料库与向量空间（Corpora and Vector Spaces）

2019独角兽企业重金招聘Python工程师标准>>>原文链接：http://blog.geekidentity.com/nlp/gensim/gensim_1_corpora-and-vector-spaces_translation/本教程在这里可以作为JupyterNotebook使用。如果你想记录日志，请不要忘记设置：>>>importlogging>>>logging.basicConf

weixin_34194317·2020-07-12 09:55

nltk(4)——加工原始语料库

加工原始语料库分词做自然语言处理，一定离不开数据资源，即对数据资源的分析，了解其中潜在的内容。网络上存在众多的资源，如文本，网页等等。这次写的主要是文本和网页。

江中舟·2020-07-12 04:01

nltk(3)——语料库

NLTK包含众多一系列的语料库，这些语料库可以通过nltk.package导入使用。

江中舟·2020-07-12 04:00

2018-05-18 今日事（后面每天的事宜基础模板，可加不可减）

听力：（1）听力语料库单词背诵（2）不看原文的基础下跟读，该开始读完一篇可能要一两个小时阅读：60分钟内完成三篇，词汇量！词汇量！词汇量！长难句翻译，长难句翻译，长难句翻译。作文：顾家北作文课程（另外

一个人的朝圣远行·2020-07-12 04:26

(3) 使用sklearn包提取文章的关键词

不同的是对原始语料库格式的要求，sklearn要求语料库中文章的分词之间以空格分隔，如以下示例：segment第一篇文章我是中国人。第二篇文章你是美国人。第三篇文章他叫什么名字？第四篇文章她是谁啊？

_hahaha·2020-07-12 04:35

Python 统计微博文本的单词数

importosimportxlrdimportnumpyasnpimportmatplotlib.pyplotaspltimportrefromnumpy.maimportlogxpath="/Volumes/DISK1/微博总语料库

nyoj_lvy·2020-07-12 03:10

关键字提取工具（面向英文）

语料集是英文。推荐一些相关工具。

忆梦涟·2020-07-12 03:27

120G+训练好的word2vec模型（中文词向量）

从网上了解到，很多人缺少大语料训练的word2vec模型，在此分享下使用120G+语料训练好的word2vec模型。

免点兔·2020-07-12 01:09

分类前之数据预处理

1.原始语料的规整#-*-coding:utf-8-*-#获取正负向语料库与停用词词典#将原始数据规整到一个txt文件中importos#文件夹及结果文件的存储路径path=r"D:/file_download

涵星同学·2020-07-11 23:56

K-BERT理解

0.AbstractBERT它是一种从大规模语料库中学得语言表征的模型，但是，在专业领域表现不佳。

qzlydao·2020-07-11 21:13

Gensim官方教程翻译（二）——语料库与向量空间（Corpora and Vector Spaces）

仅供我自己学习方便，翻译了原教程，原文地址：http://radimrehurek.com/gensim/tut2.html====================正==========文====================如果你想记录日志，请不要忘记设置：>>>importlogging>>>logging.basicConfig(format='%(asctime)s:%(levelnam

在路上吗·2020-07-11 21:24

论文笔记：The Effectiveness of Data Augmentation in Image Classification using Deep Learning

前言深度学习和机器学习的有效性离不开数据，神经网络可以从数据中获益，基于文本的模型因谷歌语料库的发布而受益。作者认为对于如此庞大的非结构化数据集，任

告白少年·2020-07-11 21:22

Lab_2实验总结（软件构造）

1.1PoeticWalks用两种方法实现Graph类用来存储加权有向图，并使用Graph类来在输入的每个单词之间从语料库中找出权重为2的单词插入实现诗意漫步。

De_MorgaN·2020-07-11 18:10

2019-12-15

庭前孤生竹·2020-07-11 18:07

Kaldi TIMIT x-vector 说话人识别 (声纹识别)

1前言本文使用TIMIT语料库,参考aishell使用x-vector进行说话人识别,现有的资料都是i-vector.本文参考了很多资料,如果想要了解如何使用TIMIT和ivector进行说话人识别,那么建议从

RanleyYu·2020-07-11 16:19

自然语言处理绪论

又称为“经验主义的”语言模型建模步骤：通过大规模的真是语料库，获取语言各级语言单位上的统

Jasonhaven·2020-07-11 15:17

使用中文维基百科进行GloVe实验

1.环境及语料1.1环境PythonGloVe1.2语料处理之后的中文Wiki处理步骤参考我的这篇博客：使用中文维基百科进行Word2Vec实验。

David_Hernandez·2020-07-11 13:54

搜索引擎性能评价——Cranfield评价体系

英国Cranfield工程在20世纪50年代末到60年代中期所建立的基于查询样例集、正确答案集和语料库的评测方案，则真正使信息检索

我们都是夏阁人·2020-07-11 13:51

HFT-CNN:层级多标签分类，让你的模型多学习几次

一般对于短文本的处理会借鉴上下文的语料或者同义词来扩充短文本的含义。但是由于文本的领域相关性，上下文的语料和同义词的分布未必和原始语料一致。由于以上原因短文本分类一直受到人们的关注。在

lynne233·2020-07-11 11:00

one-hot编码

例如我们的语料库中有段话：我毕业于湖南工业大学我就职于长沙代码研究所,以下是对该段话进行的分词流程：1.我们首先对语料库分词，并获取其中所有的词，然后对每个

飞向Hadoop·2020-07-11 08:05

Wikipedia 语料库处理

参考：http://licstar.net/archives/262参考的博客略旧，根据博客内容调整了处理过程第一步：下载语料最新的：http://download.wikipedia.com/zhwiki

GZGlenn·2020-07-11 08:40

一种带词性标注的分词器使用方法--HanLP分词

HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。内部算法经过工业界和学术界考验，配套书籍《自然语言处理入门》已经出版。

gentlewei·2020-07-11 06:41

维基百科语料上的word2vec实验（一）win7-64bit-python2.7安装numpy+scipy+matplotlib

下面是我搜了各种资料统一起来需要用到的文件，连接如下：http://pan.baidu.com/s/1slyJ1aX所有的这些记录都是为了能处理维基百科的语料1、numpy安装下载的文件都是可执行程序，

freedomzll·2020-07-11 06:36

Gensim学习笔记-1.Corpora模块和向量空间表示

importlogginglogging.basicConfig(format='%(asctime)s:%(levelname)s:%(message)s',level=logging.INFO)将文本转为向量现在假设我们现在有一个语料库

frostime·2020-07-11 06:43

数据压缩算法之哈夫曼编码（HUFFMAN）的实现

如果采取标准的语料库进行编码，一般可以得到比较满意的编码结果（对不同文件产生不同压缩率的折中方法）。本文采取对单独一个文件进行编码的方式来演示此压缩算法的使用。

dianxiaohuo4358·2020-07-11 05:56

python使用正则表达式处理邮件

正则表达式可以提取定义的文字模式,在爬虫,文字模式的提取中有很大作用,这里,我们举例使用正则表达式处理一个由数千邮件合并的一个txt文件语料库地址：https://www.kaggle.com/rtatman

Mu-Shen·2020-07-11 01:25

【python】gensim corpora的简单使用

python环境：Anaconda3（Python3.7）使用gensim做自然语言处理的一般思路是：使用（处理）字典---->生成（处理）语料库---->自然语言处理（tf-idf的计算等)利用列表生成字典

Yolen_Chan·2020-07-11 00:45

使用snownlp进行情感分析

主要可以进行中文分词（算法是Character-BasedGenerativeModel）、词性标注（原理是TnT、3-gram隐马）、情感分析（官网木有介绍原理，但是指明购物类的评论的准确率较高，其实是因为它的语料库主要是购物方面的

哈喽林先森·2020-07-10 23:54

HanLP 汉语言处理

HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点；提供词法分析（中文分词、词性标注、命名实体识别）、句法分析、文本分类和情感分析等功能。

Jackson_MVP·2020-07-10 22:52

GitChat 严选 | 11月免费 Top 5

主要负责项目：语料文本分类，聊天机器人设计与开发，组织举办大数据竞赛。

技术杂谈哈哈哈·2020-07-10 21:27

Lecture 6 Language Models and Recurrent Neural Networks

例如当前已有“thestudentsopenedtheir”，那么根据训练语料库，模型给出的预测可能是boo

Forlogen·2020-07-10 21:53

凝固度和自由度提取关键词

但是2400万的语料中“的电影”出现389次“电影院”出现175次“电影院”的凝固度要大于“的电影”的凝固度2

晚睡的人没对象·2020-07-10 21:25

word2vec 构建中文词向量

一、中文语料库本文采用的是搜狗实验室的搜狗新闻语料库，数据链接http://www.sogou.com/labs/resource/cs.php下载下

CW18606199334·2020-07-10 20:39

《自己动手做聊天机器人》教程

完全自动化对语料做词性标注http://www.shareditor.com/blogs

yygydok·2020-07-10 20:37

Gensim学习笔记-1--理解corpora.Dictionary

gensim中的必须理解的概念有：1rawstrings原始字符串2corpora语料库3sp

Mr_Hagrid·2020-07-10 20:19

Python 标准库精华: collections.Counter

例如，如果我们的数据语料库中的大多数美国电话号码都写成xxx-xxx-xxxx，那么字符串(206)1234567就应该转换为206-123-4567。

MHyourh·2020-07-10 18:43

推荐频道

语料