语料第42页

聊天机器人看法

今天呢，我听到了一个观点:聊天机器人如何解决在某些特定领域语料稀有的问题呢？那就是迁移学习！而且迁移学习还处于初步的发展阶段！确实该观点对我很震撼！

Babyzpj·2020-08-21 14:07

记录一下本周的主要工作及遇到的问题

另外就是继续精简词汇库，层层的抽丝剥茧，把语料滤了一遍又一遍，从两千多个变成一千多个，最后剩了几百个，并且建立

c21fbybo·2020-08-21 10:29

结巴分词和哈工大ltp词性标注结合使用

根据自己的语料，发现使用结巴分词的粒度更适合，并且在使用外部词典进行分词时，哈工大的分词模块对于外部词典中的词会有不识别的现象。

涛涛不绝蕾蕾于冬·2020-08-21 07:17

『词向量』用Word2Vec训练中文词向量（一）—— 采用搜狗新闻数据集

参考文章：搜狗语料库word2vec获取词向量自然语言处理入门(一)------搜狗新闻语料处理和word2vec词向量的训练word2vec使用方法小结目录数据集下载数据集处理（一）文档解压（二）文档提取

来日凭君发遣·2020-08-21 05:03

使用Olami SDK 语音控制一个支持HomeKit的智能家居的iOS程序

但是通过Siri进行语音控制有个很大的问题，就是Siri支持的语料无法进行自由的扩展，没办法添加更多的说法。而OlamiSDK则可以通过OSL(OLAMI语法描述语言OLAMISynt

想游泳的鱼·2020-08-21 03:31

【资源】用美剧教单词的app

废话不多说，今天要推荐的这个字典厉害了，语料库来基于美剧、英剧、公开课。

Blake教学小黑板·2020-08-21 03:21

全球最大 COVID-19 研究数据集正式开放，加强科技抗疫

全球多家研究机构以及科技企业为了更好的应对疫情，联合发布了一个COVID-19开放研究数据集（简称为CORD-19），该数据集中包含针对文本进行优化的文本处理工具包SciSpacy、在科学文本上进行预训练的BERT模型SciBERT、开放研究语料库和

徐九·2020-08-21 00:43

全球最大 COVID-19 研究数据集正式开放，加强科技抗疫

全球多家研究机构以及科技企业为了更好的应对疫情，联合发布了一个COVID-19开放研究数据集（简称为CORD-19），该数据集中包含针对文本进行优化的文本处理工具包SciSpacy、在科学文本上进行预训练的BERT模型SciBERT、开放研究语料库和

徐九·2020-08-21 00:43

NLP预训练模型-百度ERNIE2.0的效果到底有多好【附用户点评】

ERNIE是百度自研的持续学习语义理解框架，该框架支持增量引入词汇（lexical）、语法（syntactic）、语义（semantic）等3个层次的自定义预训练任务，能够全面捕捉训练语料中的词法、语法

百度NLP·2020-08-20 23:04

NLP预训练模型-百度ERNIE2.0的效果到底有多好【附用户点评】

ERNIE是百度自研的持续学习语义理解框架，该框架支持增量引入词汇（lexical）、语法（syntactic）、语义（semantic）等3个层次的自定义预训练任务，能够全面捕捉训练语料中的词法、语法

百度NLP·2020-08-20 23:04

技能工作室 | 可视化技能开发工具

搭建一个技能，总的来说分为以下几步：step1——定义技能使用场景step2——收集技能涉及的语料，设计回答话术和语音交互step3——在控制台中创建技能，搭建交互模型step4——使用代码进行

iFLYOS·2020-08-20 22:27

技能工作室 | 可视化技能开发工具

搭建一个技能，总的来说分为以下几步：step1——定义技能使用场景step2——收集技能涉及的语料，设计回答话术和语音交互step3——在控制台中创建技能，搭建交互模型step4——使用代码进行

iFLYOS·2020-08-20 22:27

复旦大学中文语料库的一些统计信息

复旦大学中文语料库的一些统计信息复旦大学的中文语料库分为训练集和验证集两部分,两部分的文档数量基本相等,但现在做测评一般都不采用这种预先划分的方法,而多用交叉验证,因此在将训练集与验证集合并之后,得到该语料库的一些基本信息如下

xiaochenchenhebobo·2020-08-20 20:46

预训练语言模型在网易严选的应用

导读：随着Bert的发布，预训练(pre-train)成为NLP领域最为热门的方向之一，大规模的无监督语料加上少量有标注的语料成为了NLP模型的标配。

小白白白又白cdllp·2020-08-20 19:11

聊天机器人——chatBot知识框架

Generative-Based:IT语料库加电影对白语料库，通过简单的案例，把IT所有知识，强AI形式，目前还没有被攻克，不错的paper：ACL会议，主题是使用了一堆词条，假设可以涵盖了社会的方方面面的知识

siyuchen1·2020-08-20 17:21

使用RNN训练语言模型

为了使用RNN建立出这样的模型，首先我们需要一个训练集，包含一个很大的英文文本语料库（acorpusofEnglishtext），语料，即语言材料。其他语言也可。

骑鱼的喵喵·2020-08-20 08:43

深度有趣 | 13 词向量的训练

id=2…如果没有gensim则安装pipinstallgensim复制代码准备好语料，例如中文维基百科分词语料加载库#-*-cod

weixin_33824363·2020-08-20 07:21

PySpark MLlib HashingTF源码分析

这个方法避免计算全局的词-索引映射，因为全局的词-索引映射在大规模语料中花费较大。def__init__(self,numFeatures=1<<20):self.numFeatures=numFea

丧心病狂の程序员·2020-08-20 07:37

gensim中word2vec训练向量

gensim中的word2vec，下面的代码可以同时实现词向量、字向量的训练fromgensim.modelsimportWord2Vecimportosimportjiebadefh1():##该函数主要是对语料的前期处理

飞翔的绵羊·2020-08-20 04:31

第3课：简单好用的中文分词利器 jieba 和 HanLP

首先，我们按照中文自然语言处理流程的第一步获取语料，然后重点进行中文分词的学习。

一纸繁鸢w·2020-08-20 04:52

是你逼我的！墨墨背单词。

所以，今年年初我定了一个计划，《美国当代语料库5000》的单词，我一定要背下来。但是从

JoecyWong·2020-08-20 03:01

Python正则表达式清洗微博文本特殊符号(网址, @, 表情符等)

在做文本分类的实验时，找到一个微博的情感分析语料，但是其中保留了很多微博中的特殊符号，对于算法的训练来说不太有利。

blmoistawinde·2020-08-20 03:55

Python开发之 Jieba分词示例

此示例先获取xlsx文件的语料内容，然后再针对语料进行分词。回顾一下：Python第

沙振宇·2020-08-20 01:30

致敬大家丨蔡元培先生的读书生涯：几乎没有一日不读点书

2017年7月18日，教育部、国家语委在北京发布《中国语言生活状况报告（2017）》，从国家语言资源监测语料库130万个文本、18亿字次中经过筛选提取出了新一轮的年度热词。

彩虹心理频道·2020-08-20 01:05

开源项目智能文本输入助手

线下部分使用cppjieba分词读取语料库创建词典，中英文字符串分割算法创建索引文件；线上部分采用MirrorLib框架搭建服务器，根据请

Worthy_Wang·2020-08-19 23:20

把时间当做朋友第三章关注步骤

这本书最有创意的部分是通过语料库分析统计词频后再反复筛选出来的托福考试中出现2次以上17次以下的核心词汇。完成这些工作花费1个月，词频统计由wordsmith软件完成只用了几十秒。

海阔天空_8592·2020-08-19 21:28

R语言tm工具包进行文本挖掘实验

本文从数据导入、语料库处理、预处理、元数据管理、创建term-document矩阵这几个方面讲述tm包括的使用。

Bentley-2012·2020-08-19 18:42

语料（HIGH FREQUENCY PHRASE）

优缺点1.positiveaspectThepositiveaspectsofadecentsalarycannotnecessarilycancelouttheharmfuleffectsoflivingfarfromfamilyandfriends.2.amajorplusSincecommutingtimeinmetropolitanareasisquiteunbearable,agoodp

松饼宋秉彦·2020-08-19 15:22

语料(WORK AND SUCCESS)

1.high-payingjobDecadesago,therewereplentyofhigh-payingjobsthatonlyrequireahigh-schooldiploma.Butnotanymore.2.putyourbestfootforwardPeoplewhohavelearnedmanydifferentskillsaremorelikelytoputtheirbestfo

松饼宋秉彦·2020-08-19 15:52

语料（LEISURE AND ENTERTAINMENT）

1.keepsbentertainedFamiliesgettodotheirweeklyshopping,pickupoddsandendsandkeepthekidsentertainedatthemall.2.catchupMallsmakegreatmeetingplacesforfriendstocatchupovercoffeeatacafepramealatthefoodcourt.

松饼宋秉彦·2020-08-19 15:03

TF-IDF算法讲解和Java实现

TF-IDF是一种统计方法，用以评估某个字词对于一个语料库中的其中一份文本的重要程度。字词的重要性随着它在文本中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

XiaoXiao_Yang77·2020-08-19 08:32

python-----简单英文语料预处理

英文语料预处理的主要步骤：（此步骤针对的是txt格式的文件，如果文件为其他格式，需要先将其转换为txt文件再进行操作）1、去除非英文字符的字符，例如符号、数字、中文等2、去停用词具体实现（python具体实现

为了男神而奋斗·2020-08-19 06:35

Python中文语料批量预处理手记

手记实用系列文章：1结巴分词和自然语言处理HanLP处理手记2Python中文语料批量预处理手记3自然语言处理手记4Python中调用自然语言处理工具HanLP手记5Python中结巴分词使用手记语料预处理封装类

weixin_34364071·2020-08-19 05:20

Python自然语言处理学习笔记(41)：5.2 标注语料库

5.2TaggedCorpora标注语料库RepresentingTaggedTokens表示标注的语言符号ByconventioninNLTK,ataggedtokenisrepresentedusingatupleconsistingofthetokenandthetag.Wecancreateoneofthesespecialtuplesfromthestandardstringrepres

weixin_34072458·2020-08-19 05:46

Arxiv网络科学论文摘要5篇(2019-01-31)

含时网络的谱多尺度社区检测及其应用;虚拟社区成员社会人口概况的计算机语言学分析;Twitter工作/就业语料库：有人工参与建立的工作相关话语数据集;模块化网络中带有群间偏差的意见动态;超越聚类系数：复杂网络中节点邻域的拓扑分析

ComplexLY·2020-08-19 04:14

Python中文语料批量预处理手记jieba

阅读目录手记实用系列文章：语料预处理封装类：执行结果：手记实用系列文章：1结巴分词和自然语言处理HanLP处理手记2Python中文语料批量预处理手记3自然语言处理手记4Python中调用自然语言处理工具

weixin_33872660·2020-08-19 04:54

处理搜狐新闻语料

数据集来源：http://www.sogou.com/labs/resource/cs.php目的：得到title集合文本，content集合文本代码：#python2importchardetwithopen("news_sohusite_xml.dat",'r')ash:x=h.readlines()#print(x[3])topics=x[3::6]print(len(topics))con

weixin_30345577·2020-08-19 04:39

用NLTK对英文语料做预处理，用gensim计算相似度

——题记来自这里提示性信息很赞参考52nlp（三）（二）（一）对所有语料进行分词（tokenizing）和词干化（stemming）利用tf-idf将语料库转换为向量空间（vectorspace）计算每个文档间的余弦距离

涵星同学·2020-08-19 03:09

问答机器人三种实现方式

#语料库你好#用户输入关键字你好呀~#返回信息代码参考：https://github.com/lengendary/springboot-aimlbo

灬点点·2020-08-19 03:59

文本分类之情感分析 – 朴素贝叶斯分类器

NLTK朴素贝叶斯分类NLTK附带了所有你需要的情感分析的入手的东西：一份带有分为POS和NEG类别的电影评论语料，以及一些可训练分类器。我们先从一个简单的N

sanfendi·2020-08-19 02:40

Python自然语言处理第一章

NLTK功能强大，它不仅为我们学习NLP提供了丰富的语料库，也为我们处理这些语料库信息提供了大量的方法，比如concordance，similar,common_contexts,genera

ZXP_LV_STUDY·2020-08-19 02:45

NLP--THUCTC: 一个高效的中文文本分类工具包

项目介绍THUCTC(THUChineseTextClassification)是由清华大学自然语言处理实验室推出的中文文本分类工具包，能够自动高效地实现用户自定义的文本分类语料的训练、评测、分类功能。

happyprince·2020-08-19 02:07

python处理人民日报语料库

#encoding:utf-8"""author:Leodate:2017-6-27"""from__future__importunicode_literals#compatiblewithpython3unicodeimportcodecsimportsysfromsysimportargvdefcharacter_tagging(input_file,output_file):input_d

mariobai·2020-08-19 02:38

kaldi语音特征预处理-mfcc特征与标签对齐（一）

以thchs30语料进行试验，对mono模型的对齐特征进行提取

Xwei1226·2020-08-19 01:38

机器学习：NLP（自然语言处理）基础，相似度分析，KNN情感分类

文章目录文本相似度分析1.把评论翻译成机器看的懂的语言1）.分词(把句子拆分成词语)2）.制作词袋模型（bag-of-word:可以理解成装着所有词的袋子）3）.用词袋模型制作语料库（corpus:把每一个句子都用词袋表示

Mr. Donkey_K·2020-08-19 00:53

【NLP】3000篇搜狐新闻语料数据预处理器的python实现

3000篇搜狐新闻语料数据预处理器的python实现白宁超2017年5月5日17:20:04摘要:关于自然语言处理模型训练亦或是数据挖掘、文本处理等等，均离不开数据清洗，数据预处理的工作。

weixin_34290352·2020-08-19 00:35

年中记录与挖坑

好吧,我也感觉基于检索的是low的,但是现在各家智能音箱貌似都没有突破这个坎.大家听到的siri的b-box,背后是一个无聊的逗逼程序员;小爱同学的惊人语录,写语料也许是一群抠脚大汉.这半年的工作,主要集中在开发一个基

MashoO·2020-08-19 00:37

pyhanlp文本分类与情感分析

语料库本文语料库特指文本分类语料库，对应IDataSet接口。而文本分类语料库包含两个概念：文档和类目。一个文档只属于一个类目，一个类目可能含有多个文档。

adnb34g·2020-08-19 00:36

基于IMDb数据集的情感分析(TF-IDF与机器学习实现)

TF-IDFTF-IDF（词频-逆文档频率）算法是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。TFIDF的主要思想是：如果某个词或短语在一

zealscott·2020-08-19 00:22

自然语言处理(NLP)预备知识

N-Gram模型的Smoothing算法（对于上面语言模型中平滑算法的一个介绍）https://blog.csdn.net/baimafujinji/article/details/51297802#搜狗新闻语料数据

zhangxiangchn·2020-08-18 23:36

推荐频道

语料

聊天机器人看法

记录一下本周的主要工作及遇到的问题

结巴分词和哈工大ltp词性标注结合使用

『词向量』用Word2Vec训练中文词向量（一）—— 采用搜狗新闻数据集

使用Olami SDK 语音控制一个支持HomeKit的智能家居的iOS程序

【资源】用美剧教单词的app

全球最大 COVID-19 研究数据集正式开放，加强科技抗疫

全球最大 COVID-19 研究数据集正式开放，加强科技抗疫

NLP预训练模型-百度ERNIE2.0的效果到底有多好【附用户点评】

NLP预训练模型-百度ERNIE2.0的效果到底有多好【附用户点评】

技能工作室 | 可视化技能开发工具

技能工作室 | 可视化技能开发工具

复旦大学中文语料库的一些统计信息

预训练语言模型在网易严选的应用

聊天机器人——chatBot知识框架

使用RNN训练语言模型

深度有趣 | 13 词向量的训练

PySpark MLlib HashingTF源码分析

gensim中word2vec训练向量

第3课：简单好用的中文分词利器 jieba 和 HanLP

是你逼我的！墨墨背单词。

Python正则表达式清洗微博文本特殊符号(网址, @, 表情符等)

Python开发 之 Jieba分词示例

致敬大家丨蔡元培先生的读书生涯：几乎没有一日不读点书

开源项目 智能文本输入助手

把时间当做朋友第三章关注步骤

R语言tm工具包进行文本挖掘实验

语料（HIGH FREQUENCY PHRASE）

语料(WORK AND SUCCESS)

语料（LEISURE AND ENTERTAINMENT）

TF-IDF算法讲解和Java实现

python-----简单英文语料预处理

Python中文语料批量预处理手记

Python自然语言处理学习笔记(41)：5.2 标注语料库

Arxiv网络科学论文摘要5篇(2019-01-31)

Python中文语料批量预处理手记jieba

处理搜狐新闻语料

用NLTK对英文语料做预处理，用gensim计算相似度

问答机器人三种实现方式

文本分类之情感分析 – 朴素贝叶斯分类器

Python自然语言处理第一章

NLP--THUCTC: 一个高效的中文文本分类工具包

python处理人民日报语料库

kaldi语音特征预处理-mfcc特征与标签对齐（一）

机器学习：NLP（自然语言处理）基础，相似度分析，KNN情感分类

【NLP】3000篇搜狐新闻语料数据预处理器的python实现

年中记录与挖坑

pyhanlp文本分类与情感分析

基于IMDb数据集的情感分析(TF-IDF与机器学习实现)

自然语言处理(NLP)预备知识

Python开发之 Jieba分词示例

开源项目智能文本输入助手