corpus 第6页

对于机器学习保险行业问答开放数据集DeepQA-1的详细注解(一)

首先感谢https://github.com/chatopera/insuranceqa-corpus-zh作者的辛苦付出，构建了保险行业的中文语料库，并且提供了一个训练以及测试例程，解决了很多人的燃眉之急

蓝天居士·2020-06-21 04:10

机器学习保险行业问答开放数据集DeepQA-1原始例程的tensorflow版改写程序

首先还是感谢https://github.com/chatopera/insuranceqa-corpus-zh作者的辛苦付出，构建了保险行业的中文语料库，并且提供了一个训练以及测试例程，解决了很多人的燃眉之急

蓝天居士·2020-06-20 21:43

对于机器学习保险行业问答开放数据集DeepQA-1的详细注解(三)

前一篇文章已经说明了，corpus.load_train()返回的是_t

蓝天居士·2020-06-20 21:43

13-垃圾邮件分类2

1.读取2.数据预处理词性还原defget_wordnet_pos(treebank_tag):iftreebank_tag.startswith('J'):returnnltk.corpus.wordnet.ADJeliftreebank_tag.startswith

00小毅00·2020-05-23 21:00

垃圾邮件分类

importcsvimportnltkimportrefromnltk.corpusimportstopwordsfromnltk.stemimportWordNetLemmatizerimportpandasaspd#返回类别defgetLb(data):ifdata.startswith("J"):returnnltk.corpus.wordnet.ADJelifdata

宋思康·2020-05-23 21:00

13-垃圾邮件分类2

1.读取2.数据预处理#词性还原defget_wordnet_pos(treebank_tag):iftreebank_tag.startswith('J'):returnnltk.corpus.wordnet.ADJeliftreebank_tag.startswith

林文文·2020-05-23 19:00

13-垃圾邮件分类2

importcsvimportnltkimportrefromnltk.corpusimportstopwordsfromnltk.stemimportWordNetLemmatizerimportpandasaspd#返回类别defgetLb(data):ifdata.startswith("J"):returnnltk.corpus.wordnet.ADJelifdata

秦拆拆·2020-05-23 18:00

13-垃圾邮件分类2

importnltkimportcsvfromnltk.corpusimportstopwordsfromnltk.stemimportWordNetLemmatizer#返回词性类别defget_word_pos(tag):iftag.startswith("J"):returnnltk.corpus.wordnet.ADJeliftag.startswith

木朽花·2020-05-23 18:00

13-垃圾邮件分类2

1.读取2.数据预处理#词性还原defget_wordnet_pos(treebank_tag):iftreebank_tag.startswith('J'):returnnltk.corpus.wordnet.ADJeliftreebank_tag.startswith

杨啊啊啊啊鹏·2020-05-23 17:00

垃圾邮件分类2

importcsvimportnltkimportrefromnltk.corpusimportstopwordsfromnltk.stemimportWordNetLemmatizerimportpandasaspd#返回类别defgetLb(data):ifdata.startswith("J"):returnnltk.corpus.wordnet.ADJelifdata

ccl666·2020-05-21 20:00

机器学习---12

importcsvimportnltkfromnltk.corpusimportstopwordsfromnltk.stemimportWordNetLemmatizer#词性pos赋值defget_word_pos(tag):iftag.startswith('J'):returnnltk.corpus.wordnet.ADJeliftag.startswith

zzzkai·2020-05-21 15:00

干货/比词典还好用的语料库

今天我们不说词典，我们说一个比词典还要牛逼的东西，那就是语料库，英文是corpus。

天天菌·2020-04-13 15:00

序列模型之Language model简记

语言模型用来估计句子的可能性(sentence)一个句子的概率（是第k个词）语料库（corpus）指的是很大的某种语言（例如英语）句子组成的文本。

madeirak·2020-03-31 22:19

Corpus Christi 游记

CorpusChristi，科珀斯克里斯蒂（又译为圣体市）位于美国得克萨斯州东南部墨西哥湾畔周末去CorpusChristi玩，下午按预约时间随船出海看海豚小码头各种闲散游艇靠在岸边，看海要从这出发我们乘坐一艘质朴的科学考察船出海了WAYPOINT在鹈鹕看来这是个自由女神像级别热门景点，一直有鹈鹕在顶端观赏，这大概就是我们常说的鹈鹕灌顶还没怎么走远，水面上就不时几只有露背癖的闲散海豚出现这艘质朴科

冰川斜阳·2020-03-17 06:14

利用auomator从文章中提取单词列表

（自行百度）打开automator，新建app，Paste_Image.pngPy文件内容，把corpus_root='/Users/noneback/protoncorpus'改成你存放txt文本的位置

鸭梨山大哎·2020-02-27 11:19

Warframe星际战甲-楞次弓(英:Lenz)|萌新推荐配卡、紫卡市场官网交易价格介绍

楞次弓是一张拥有独特力学结构的Corpus弓。该武器自带的弹药转换可以弥补它相当少的弹药总量，它独特的箭矢在爆炸前会向半径七米内施加冰冻异常状态接着在相同的范围内造成大量爆炸伤害。

an鑫_wolfxin2010·2020-02-22 08:22

NLTK学习记录2：使用语料库和词汇资源

内置的语料库importnltknltk.corpus.gutenberg.fileids()#Gutenberg语料库的全部文件idemma=nltk.corpus.gutenberg.words('

hitsunbo·2020-02-17 16:37

PyTorch实现循环神经网络

1importtorch2importtorch.nnasnn3importtime4importmath5importsys6sys.path.append("/home/kesci/input")7importd2l_jay9460asd2l8(corpus_indices

菜鸟新手0000·2020-02-14 21:00

语料库准备（JAVA）

项目环境：JDK1.8，Maven3.39，IDEA项目仓库：Github地址目前数据库表结构：表结构t_corpus_base：基础预料表，存储所有的会话，目前为创建普通索引，完整匹配（select*

WildDylan·2020-02-12 00:34

自然语言处理N天-Day0101中文自然语言处理的完整机器处理流程

教程认为不够完整，但是又不提出一个完整的来……主要流程获取语料语料预处理特征工程特征选择模型训练评价指标模型上线应用模型重构获取语料语料库Corpus

我的昵称违规了·2020-02-10 14:19

Chatbot based on Ubuntu Dialogue Corpus

CorpusFeatures此ubuntu语料既有DialogStateTrackingChallenge数据集的多次序对话特性,也有类似Twitter微博服务上的人类自然对话特点.但是它比DialogStateTrackingChallenge数据集大几个数量级.另外,相对于用于机器问答和分析的同等数量级Twitter数据集,ubunntu数据是基于特定领域的(ubuntu社区关于寻求ubunt

mugtmag·2020-02-09 07:02

数据科学之路（6）Hive使用细节再深入

先把建表语句搬过来：CREATEEXTERNALTABLEmdm_corpus_yx_labeled(`uid`string,`serial`string,`query`stringCOMMENT'问题

LiuShaodong·2020-02-08 20:18

gensim训练词向量

gensim#encoding=utf-8fromgensim.modelsimportword2vecsentences=word2vec.Text8Corpus(u'分词后的爽肤水评论.txt')model

lwyaoshen·2020-02-01 19:38

台大数位语音处理第一课

每个音配一个pattern/feature识别音+音和词的对应关系lexion【problem】相似的音难区分，用corpus训练语言模型。

马尔克ov·2020-01-07 02:30

Python 自然语言处理——nltk库入门之词性标注

下面列出了nltk库中的一些重要的模块——nltk.corpus————获取语料库。

dalalaa·2020-01-05 17:09

Milvus 百万向量搜索（SIFT1B）

1、准备测试数据和脚本本实验所使用的原始数据集为SIFT1B，关于该数据集的详细信息请参考：http://corpus-texmex.irisa.fr/。

ZILLIZ·2019-12-31 10:44

Corpus Challenge: Shoe the Tabs

凑热闹和JCR一起参加了Corpus学院一年一度和剑桥的挑战赛。乒乓球不愧中国国球，欧洲同学粗放型的打法毫无威胁。牛津今天下了雪，天也不知道阴了多久。

SIrene琳琳S·2019-12-30 09:17

干货 | 如何用COCA找到合适的形容词？

文|花胡桃Cover:BYUMagazine简介：COCACorpusofContemporaryAmericanEnglish，美国当代英语语料库，网址：corpus.byu.edu/coca/相信很多人都知道

花胡桃·2019-12-26 20:07

面试代码

tfidf计算imageimageimage[输入]:word_list=[]foriinrange(len(corpus)):word_list.append(corpus[i].split(''))

DaiMorph·2019-12-14 13:28

Python多重继承方法解析顺序（MRO构建算法）

参考：https://makina-corpus.com/blog/me

darkengine·2019-12-14 10:12

Python实现word2Vec -model

oslogging.basicConfig(format='%(asctime)s:%(levelname)s:%(message)s',level=logging.INFO)importnltkcorpus=nltk.corpus.brown.sents

Leslie_Chan·2019-12-01 17:00

pandas小demo

www.cnblogs.com/rise0111/p/11573466.html#将txt文件转换成excel文件importpandasaspdimportosfile_list=os.listdir('corpus

baihuang2797·2019-09-23 17:00

transformer xl---vocabulary

data_dir存放原始数据，defmain(unused_argv):delunused_argv#Unusedcorpus=get_lm_corpus(FLAGS.data_dir,FLAGS.dataset

ljz2016·2019-09-21 22:36

Blog 7 | 数学之美折服于隐马尔可夫模型

策略：假设语料库（Corpus）作为训练样本计算出“每种分词方式”组合后句子出现的概率，概率越大说明这种分词方式使用最广泛。因此套用数学概率计算模型：P（A1，A

丸zq·2019-09-08 20:00

word2Vec用来训练词向量

训练模型sentences=word2vec.Text8Corpus(input_corpus)#加载语料，input_corpus为路径#常用参数介绍:size词向量维度、window滑动窗口大小上下文最大距离

三不小青年·2019-08-06 15:15

word2Vec用来训练词向量

训练模型sentences=word2vec.Text8Corpus(input_corpus)#加载语料，input_corpus为路径#常用参数介绍:size词向量维度、window滑动窗口大小上下文最大距离

三不小青年·2019-08-06 15:15

酒店评论预处理程序

defcorpus_content(corpus_path,seg_path):catelist=os.listdir(corpus_path)#获取corpus_path下所有的子目录print("catelist

崔昕阳·2019-08-02 18:12

酒店评论预处理程序

defcorpus_content(corpus_path,seg_path):catelist=os.listdir(corpus_path)#获取corpus_path下所有的子目录print("catelist

崔昕阳·2019-08-02 18:12

中文NLP处理方法-to-do-list

我们把一个文本集合称为语料库（Corpus），当有几个这样的文本集合的时候，我们称之为语料库集合(Corpora)。

sakwsnow·2019-07-17 00:00

错误集锦！

X=vectorizer.fit_transform(corpus)XAttributeError:'list'objecthasnoattribute'lower'修改为：copus内格式为：

锅巴QAQ·2019-07-12 17:09

卡方检验提取特征来对文本分类

count_vect=CountVectorizer()X_train_counts=count_vect.fit_transform(corpus)tfidf_transformer=TfidfTransformer

walk walk·2019-07-12 10:07

nginx日志文件报错： connect() failed (111: Connection refused) while connecting to upstream

nginx日志文件报错：connect()failed(111:Connectionrefused)whileconnectingtoupstream网上搜到一篇类似的问题：http://corpus.hubwiz

caiqiiqi·2019-07-09 11:37

pytorch RNN处理文本

batchimporttorchimporttorch.nnasnnimportnumpyasnpfromtorch.nn.utilsimportclip_grad_norm_fromdata_utilsimportDictionary,Corpus

Lzj000lzj·2019-07-07 19:57

NLP常见单词翻译、自然语言处理入门

语料库Corpus，由词库里所有的词组成的句子，短语等语料信息，可以简单理解为一个/多个docum

Quant_Learner·2019-06-24 17:24

gensim.models.Word2Vec参数

参阅word2vec模块中的BrownCorpus，Text8Corpus或LineSentence。corpus_file(str,optional)–LineSentence格式的语料库文件路径。

lou_ym·2019-06-23 10:03

2018-06-13

FineGrainedOpinionMining现在大致介绍一下代码：代码结构代码结构如上图所示：code：存放所有的代码init.py：python初始化文件，不用管；common_lib.py：提供项目中常用的方法，如公共文件路径、分词等；corpus.py

LilacZiyun·2019-06-21 09:44

Python提取文本tf、idf

"""python提取文本的tfidf特征"""importmathfromcollectionsimportCounter#1.语料库corpus=['thisisthefirstdocument',

csdngaoqingrui·2019-06-04 15:28

Python提取文本tf、idf

"""python提取文本的tfidf特征"""importmathfromcollectionsimportCounter#1.语料库corpus=['thisisthefirstdocument',

csdngaoqingrui·2019-06-04 15:28

HMM viterbi 算法

写了一个viterbi算法，主要是加深理解哈#coding=utf-8"""首先通过语料库计算出HMM的三要素：初始状态π状态转移矩阵A发射矩阵B然后用Viterbi算法进行切词操作"""TRAIN_CORPUS

hbdongfeng·2019-05-09 09:33

Python 自然语言处理笔记（二）—— 中文分词

查找字典，如果字典中存在和匹配字段相同的词语，则匹配成功，否则去掉匹配字段的最后一个字符重新匹配重复以上过程直到匹配全部完成要求：使用正向最大匹配算法，利用给定的数据：字典文件corpus.dict.t

Dic0k·2019-03-20 23:16

推荐频道

corpus

对于机器学习保险行业问答开放数据集DeepQA-1的详细注解(一)

机器学习保险行业问答开放数据集DeepQA-1原始例程的tensorflow版改写程序

对于机器学习保险行业问答开放数据集DeepQA-1的详细注解(三)

13-垃圾邮件分类2

垃圾邮件分类

13-垃圾邮件分类2

13-垃圾邮件分类2

13-垃圾邮件分类2

13-垃圾邮件分类2

垃圾邮件分类2

机器学习---12

干货/比词典还好用的语料库

序列模型之Language model简记

Corpus Christi 游记

利用auomator从文章中提取单词列表

Warframe星际战甲-楞次弓(英:Lenz)|萌新推荐配卡、紫卡市场官网交易价格介绍

NLTK学习记录2：使用语料库和词汇资源

PyTorch实现循环神经网络

语料库准备（JAVA）

自然语言处理N天-Day0101中文自然语言处理的完整机器处理流程

Chatbot based on Ubuntu Dialogue Corpus

数据科学之路（6）Hive使用细节再深入

gensim训练词向量

台大数位语音处理第一课

Python 自然语言处理——nltk库入门之词性标注

Milvus 百万向量搜索（SIFT1B）

Corpus Challenge: Shoe the Tabs

干货 | 如何用COCA找到合适的形容词？

面试代码

Python多重继承方法解析顺序（MRO构建算法）

Python实现word2Vec -model

pandas小demo

transformer xl---vocabulary

Blog 7 | 数学之美 折服于隐马尔可夫模型

word2Vec用来训练词向量

word2Vec用来训练词向量

酒店评论预处理程序

酒店评论预处理程序

中文NLP处理方法-to-do-list

错误集锦！

卡方检验提取特征来对文本分类

nginx日志文件报错： connect() failed (111: Connection refused) while connecting to upstream

pytorch RNN处理文本

NLP常见单词翻译、自然语言处理入门

gensim.models.Word2Vec参数

2018-06-13

Python提取文本tf、idf

Python提取文本tf、idf

HMM viterbi 算法

Python 自然语言处理笔记（二）—— 中文分词

Blog 7 | 数学之美折服于隐马尔可夫模型