E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
语料
python 文本相似度计算
参考:python文本相似度计算原始
语料
格式:一个文件,一篇文章。#!
weixin_30724853
·
2020-07-28 17:11
Multi-Cue Zero-Shot Learning with Strong Supervision阅读笔记CVPR2016收录
利用外部文本数据(如wikipedia
语料
库)的方法可以被称为利用附加数据的方法,这类方法的优点是:得到
不会讲段子的正能量小栗子
·
2020-07-28 13:06
机器学习
基于Tensorflow里CNN文本分类
使用CNN进行文本分类卷积神经网络英文邮件分类
语料
simplistic,sillyandtedious.it'ssoladdishandjuvenile,onlyteenageboyscouldpossiblyfinditfunny.exploitativeandlargelydevoidofthedepthorsophisticationthatwouldmakewatchingsuchagra
AI算法工程师YC
·
2020-07-28 07:09
自然语言处理NLP
Tensorflow
深度学习
Graph Embeding(图嵌入)在短视频推荐系统的落地实战-part2
上文主要介绍了deepwalk原论文是如何从原始
语料
获得graph,以及如何从graph,随机游走出item序列。继而通过word2vec或得item向量。从而完成推荐。
数据挖掘菜鸟davidwang
·
2020-07-28 04:12
Mac下文件的编码及修改编码
在使用python3做NLP中文文本分类时,由于下载的搜狗
语料
库本身的编码有关系,本身编码是ASCII码,而我们需要以UTF-8来读取,所以就遇到如下不能显示中文文本的输出(mac下):u:{\rtf1
lilong117194
·
2020-07-28 02:14
python
BYU
语料
库指南
在中文的网络上出现率很高的COCA、COHA、BYU-BNC之类的
语料
库其实都是杨百翰大学(BrighamYoungUniversity,简称BYU)的MarkDavie创建的,全部的
语料
库在这里,除了英语
易渔_
·
2020-07-28 01:18
电子书《真实
语料
学中文》
这个暑假,我组织了一百多位汉语教师一起制作了一本名为《真实
语料
学中文》的电子书。现在已经放在了网上,供汉语教师和汉语学习者免费下载。
Yanjun
·
2020-07-28 00:54
词向量-简介
最常见的表达方式就是"one-hot",其向量维度为整个
语料
库中词的总数,每一维代表
语料
库中的一个词(出现为1,不出现为0)。
SevenBlue
·
2020-07-27 23:08
通俗易懂系列机器学习之手撕bert
bert的预训练貌似是维基百科啥的
语料
,这个模型会看很多文字资料,这样会把一些语言规律、语言的语义、上下位概念之类的信息
滚滚的纸盒子
·
2020-07-27 22:23
机器学习
Python文章相关性分析---金庸武侠小说分析
下载完成后可以用自己习惯的工具或程序做相应调整,因
语料
内容太长,博客里面不允许"堆砌",所以没复制上来,有需要的可以再联系。withopen('names.tx
deujsx4286
·
2020-07-27 21:32
知乎上公认好用的英语口语APP集合
因为它是面向英语学习者编写的词典,丰富而地道的原文
语料
库,让你从语境中去学习和使用一个单词。这是其它英语词典,包括鼎鼎大名的牛津词典都难以望其项背的。新出的COBUILD英汉词典延续了「物書堂
大拿小放
·
2020-07-27 20:54
PaperWeekly 第53期 | 更别致的词向量模型:Simpler GloVe - Part 2
本期我们将带来该系列的后半部分,包括对该词向量模型的详细求解、结果展示,以及代码和
语料
分享。模型的求解损失函数现在,我们来定义loss,以便把各个词向量求解出来。用P̃表示
PaperWeekly
·
2020-07-27 19:34
天池学习赛-NLP新闻文本分类(3/6)-词向量+机器学习模型
在句子中出现则编码为1,不出现编码为0.Bagofword词袋模型:-(1)CountVectors:统计每个单词/字在
语料
中出现的次数。(fromsklearn.fe
粉红狐狸_dhf
·
2020-07-27 19:25
文档处理之去停止词和IF-IDF
用
语料
库或数据集中的文件的总数除以某个词在
语料
库或数据集中在多少文件出现的次数,再将得到的商取对数。在总的文件数一定
九妖在行动
·
2020-07-27 18:57
python
数据
自然语言处理
C++
if-idf
检索式聊天机器人及Socket实现对话功能
1检索式聊天机器人检索式聊天机器人依据制定的答复规则,将问题在
语料
库中进行排序学习技术和深度(正则)匹配技术找到适合当前输入的最佳回复,该方法只能以固定的语言模式(设定的规则)进行回复,无法实现词语的多样组合
天然玩家
·
2020-07-27 17:22
#
自然语言处理
自然语言处理——信息抽取——远程监督关系抽取
相关文献一、基本介绍关系抽取:关系抽取目标是从文本中抽取中两个entity之间存在的关系,一般是多分类问题.比如句子乔布斯创建了苹果,关系抽取需要预测出乔布斯和苹果存在的创建的关系.远程监督的的关系抽取:
语料
是根据现有知识库对其的
无聊的人生事无聊
·
2020-07-27 17:13
信息科学
人工智能任务汇总
word2vec中文相似词计算和聚类的使用说明及c语言源码
word2vec相关基础知识、下载安装参考前文:word2vec词向量中文文本相似度计算目录:word2vec使用说明及源码介绍1.下载地址2.中文
语料
3.参数介绍4.计算相似词语5.三个词预测语义语法关系
weixin_34138255
·
2020-07-27 13:16
NLP第五篇-语言模型
,这篇主要介绍n元语法模型、数据平滑技术、贝叶斯网络、马尔可夫模型、隐马尔可夫模型、最大熵模型、最大熵马尔可夫模型和条件随机场,这一章信息量很大啊....我们上一章说做统计自然语言处理需要使用非常大的
语料
库
吕不韦
·
2020-07-27 12:57
词性标注维特比算法实现
关于\(pi,A,B\)的说明参考文章词性标注
语料
预处理实战,维特比相关算法说明参考词性标注维特比算法介绍deflog(v):ifv==0:returnnp.log(v+0.000001)returnnp.log
yhzhou
·
2020-07-22 21:00
词性标注
语料
预处理实战
此部分基于词性标注的数学表示后,针对给定的
语料
,做一些viterbi算法的一些预处理。
yhzhou
·
2020-07-19 16:00
琦叔送你一份托福疯狂输出利器
7月TOEFLONEPASSPro联报进行中,最高减免500元各位同学大家好,欢迎来到托福口语疯狂输出
语料
200例系列课程,我是微臣培训学校的陈琦,是本套课程的策划人与监制。
琦叔GRE
·
2020-07-19 00:00
python3下使用openpyxl对xlsx进行写入操作
笔者之前都是用xlwt进行excel文件写入的,直到今天要处理长
语料
的时候发生了报错:Exception:stringlongerthan32767characters.大意就是你要插入的数据太长,xlwt
天才小呵呵
·
2020-07-16 05:20
Python探索笔记
基于Text-CNN模型的中文文本分类实战
文本分类作为一种有监督学习的任务,毫无疑问的需要一个可用于有监督学习的
语料
集
高永峰_GYF
·
2020-07-16 05:41
BERT家族:K-BERT
EnablingLanguageRepresentationwithKnowledgeGraph》论文地址:https://arxiv.org/pdf/1909.07606v1作者/机构:北京大学+腾讯年份:2019.9K-BERT主要是为了提升BERT在知识驱动任务上微调性能,由于通用
语料
训练的
姆爷
·
2020-07-16 05:04
预训练语言模型
BERT
特征选择
-1.TF-IDF的误区TF-IDF可以有效评估一字词对于一个文件集或一个
语料
库中的其中一份文件的重要程度。因为它综合表征了该词在文档中的重要程度和文档区分度。
nlper
·
2020-07-16 04:09
NLP
Python+selenium+Xpath爬取百度学术文章摘要
文章目录1.selenium简介1.1安装1.2基本操作2.爬取百度学术文章摘要2.1爬取页面分析2.2Python+selenium爬取参考由于研究需要,想要用Glove训练一些自己的领域
语料
,可是没有现成的
语料
Growing_Snake
·
2020-07-16 03:29
ICML 2020论文笔记:地表最强文本摘要生成模型PEGASUS(天马)
文章目录背景摘要介绍模型预训练目标GSG预训练
语料
和下游任务实验结果消融研究Larger模型效果处理低资源数据集人工评测总结:Google发布天马-地表最强文本摘要生成模型,打败人类,我只要1000个样本
JasonLiu1919
·
2020-07-16 02:28
NLP
文本生成
深度学习
文本摘要
NLP
基于互联网
语料
的“机器翻译助手”
如果将机器翻译看做是一条线的话,那么线的一头就是类似于金山词霸的词典式方法。这种方法只提供词这一层面的翻译。对于一个不认识的英文单词,通过查找词典可以找到它对应的中文。同样,查找一个中文词可以找到很多个可能对应的英文单词。这种翻译方式很大的一个缺点是缺少翻译中的上下文信息,它只能孤立的进行词与词之间的翻译,而没有考虑到在不同的上下文环境中词的含义是不一样的。例如“吃了午饭”中的“吃”对应的词应该是
historyasamirror
·
2020-07-15 23:27
自然语言处理
Good-turning估计
思路:假定给定的
语料
库中出现\(r\)次数的词有\(N_r\)个,则有\[N=\sum_{i=1}^{\infty}rN_r\]当\(r\)较小时,我们使用\(d_r\)代替\(r\),这里\(d_r<
yhzhou
·
2020-07-15 23:00
语言模型2:二元文法求句子概率代码
回顾如果想再一次回顾语言模型的理论知识,可以直接点击语言模型(N-Gram)
语料
库:研究生物很有意思。他是研究应用。踏实研究生物的。他实验救生物的。他大学时代是研究生物的。生物专业是他的首选目标。
温柔目光
·
2020-07-15 20:28
自然语言处理
写一个夸夸机器人
语料
做聊天机器人需要训练
语料
,事实上笔者本想潜伏在一些夸夸群里收集,后拉发现这些夸夸群日渐不活跃了,
语料
的质量也比较差,于是还是去爬了豆瓣表扬小组的数据,收集的
语料
地址https://github.com
nankaizhl
·
2020-07-15 19:22
python
智能算法
ICLR论文盲审大反转:三个“8”完美过关,又来两个“1”彻底拒绝
论文这篇论文提出了一种新的模型,以便在
语料
中同时捕获语法和全局语义。怎么做到的?论文认为传统的RNN语言模型会忽略长距离的单词依
QbitAl
·
2020-07-15 18:50
Newspaper3k框架:文章的抓取和管理
注:Newspaper框架并不适用于实际工程类新闻信息爬取工作,框架不稳定,爬取过程中会有各种bug,例如获取不到url、新闻信息等,但对于想获取一些新闻
语料
的朋友不妨一试,简单方便易上手,且不需要掌握太多关于爬虫方面的专业知识
fpzRobert
·
2020-07-15 18:13
网络爬虫
在ASP.NET Core中使用brotli压缩
据谷歌研究,Brotli压缩速度同zlib的Deflate实现大致相同,而在Canterbury
语料
库上的压缩密度比LZMA和bzip2略大。
dotNET跨平台
·
2020-07-15 15:24
SRILM学习笔记说明
笔记的主要内容使用starUML及其逆向工程工具绘制,主要针对SRILM的训练(ngram-count),内含5个jpg文件:类图--与ngram-count相关的主要类的静态图;ngram-count--从
语料
训练出模型的主要流程
yqzhao
·
2020-07-15 11:42
SRILM
语言模型
#6801#
第4章
语料
库与语言知识库
语料
库统计两层含义:利用
语料
库对于语言的某个方面进行研究;一句
语料
库所反应出来的语言事实对现行语言学理论进行批判,提出新观点和理论。
ucudrrad
·
2020-07-15 11:08
简单的问答系统
并把内容分别写到两个list里(一个list对应问题集,另一个list对应答案集)importjsonimporttime#分数(5)defread_corpus(file_path):"""读取给定的
语料
库
艺术人生666
·
2020-07-15 00:37
NLP
如何在Python中快速进行
语料
库搜索:近似最近邻算法
随后,如果我们有这些词嵌入对应的
语料
库,那么我们可以通过搜索找到最相似的嵌入并检索相应的词。
大数据公社
·
2020-07-14 22:33
夜的思考Ⅰ
一黑夜给了他黑亮的眼睛迷失的年代也给了他迷失的心灵图片发自App二不是每个断开的语句都能冠以诗的奥义一如读不懂的朦胧和很直白的梨花体诗人追寻的是对心灵的修炼把激情与苦闷揉碎在字里行间三夜色中的城市无助无
语料
峭的初寒昏黄的街灯影子若近若远四酒是沉淀的精华稀释了愁怨又能将欢愉放大五漂泊的感觉一直在路上记不起沿途的风景唯有无尽的夜舔舐着心口的伤寻觅遥远的西楼独上采摘那无语的苍茫上一篇为爱撒的弥天大谎
惊鸿2019
·
2020-07-14 17:54
日志:自动问答(待整理)
微信聊天机器人资料(待整理)微信自动尬聊机器人wxpy:https://blog.csdn.net/jiangop/article/details/77992716chatterbot
语料
库https:
草木灰的学习笔记
·
2020-07-14 17:58
情感分析系列之《利用BRAT进行中文情感分析
语料
标注》
1.背景情感分析是NLP中的一大分支,无论在学术界还是工业界都有广泛的研究,在SemEval语义分析会议中有单独的情感分析任务分支,其中最难的一个任务叫做ABSA:Aspect-BasedSentimentAnalysis,面向方面的情感分析。举例来说,就是对以下句子,新版本英雄的皮肤很不错,但是游戏经常出现掉线要能识别出这样的情感标注结果:,而其中,[英雄,游戏]为实体(entity),[视觉性
owengbs
·
2020-07-14 16:23
数据挖掘
超详细中文预训练模型ERNIE使用指南-源码
作者|高开远,上海交通大学,自然语言处理研究方向最近在工作上处理的都是中文
语料
,也尝试了一些最近放出来的预训练模型(ERNIE,BERT-CHINESE,WWM-BERT-CHINESE),比对之后还是觉得百度的
kyle1314608
·
2020-07-14 13:24
自然语言处理(七)——n元语法模型计算句子出现概率
一、前言区别于形式语言进行自然语言处理,语言模型在自然语言处理中不关心句子的语法,而是关心这个句子出现的概率,即使一个句子完全符合语法逻辑,但是在
语料
库中未出现,我们仍然可以认为这个句子出现的概率为0。
宣宣啊
·
2020-07-14 11:16
自然语言处理
[看美剧练口语][Leah三步法]:美语的发音,连读,语调练习
进阶:句子连读、
语料
积累。升华:语境和语调,脱口而出。1口语常用词汇(1500-2000)日常口语中常
vvstudy
·
2020-07-14 09:32
python NLP ——获得文本
语料
和词汇资源
一获取文本
语料
库1.Gutenberg>>>fromnltk.corpusimportgutenberg>>>gutenberg.fileids()['austen-emma.txt','austen-persuasion.txt
SaltedVegetable
·
2020-07-14 05:32
NLP
PyTorch语音识别框架,将语音转成文本格式
特征基于文件的
语料
库定义配置,模型体系结构和可重复性的培训配置DeepSpeech模型具有高度可配置性各种RNN类型(RNN,LSTM,GRU)和大小(层/隐藏单元)各种激活功能(ClippedReLU
喜欢打酱油的老鸟
·
2020-07-13 20:11
人工智能
PyTorch语音识别框架
将语音转成文本格式
自然语言处理之-----Word2Vec
它的输入是一个文本
语料
库,它的输出是一组向量:该
语料
库中单词的特征向量。虽然Word2vec不是深度神经网络,但它将文本转换为深网可以理解的数字形式。
Adam坤
·
2020-07-13 19:26
AI程序员
算法
自然语言处理
机器学习
【论文阅读一】Adaptive Cross-Modal Few-shot Learning
但当视觉信息在图像分类中受到限制时,语义表示(从无监督的文本
语料
库中学习)可以提供强大的先验知识和上下文以帮助学习。此文就是基于此开展研究的,提出了AdaptiveModalityMixtureMec
warm_in_spring
·
2020-07-13 16:58
论文学习
few-shot
learning
kenlm运行不通过(已放弃,核心已转储)
最近自然语言处理可老师让我们用kenlm训练
语料
库,装了之后运行不了,不过终端也给出了解决问题的方法,最后一行(已放弃,核心已转储,的上面一行)告诉你说要rerunwith--discount_fallback
石头ym
·
2020-07-13 16:32
Spark MLlib LDA 基于GraphX实现原理及源码分析
目前广泛使用、能够分布式并行处理大规模
语料
库的有微软的LightLDA,谷歌plda、plda+,sparkLDA等等。
tanglizhe1105
·
2020-07-13 14:10
Spark
LDA
MLlib
上一页
43
44
45
46
47
48
49
50
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他