E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
语料
Word2Vec------skip-gram、CBOW、负采样、的一些理解
1.WindowbasedCo-occurrenceMatrix简单来说就是统计
语料
库中,在确定window长度的情况下,统计word的出现频率,基于词频得到关联矩阵,例如:然后,利用SVD奇异值分解,
不爱学习的木易
·
2023-02-05 11:02
学习心得
Word2vec
语料
频数标准化基本原理通常
语料
检索、词表生成结果中都会报告频数(frequency,freq或rawfrequency)。那么某词(如many)在某
语料
库中出现频数为100次说明什么呢?
静_静_
·
2023-02-05 08:49
python生成停词表_一个小型的文本分类系统-python(文末附
语料
,停用词文本文档,工程全部代码)...
背景文本挖掘是指从大量文本数据中抽取实现未知的、可理解的、最终可用的知识的过程,同时运用这些知识更好地组织信息以便将来参考。即从非结构化的文本中寻找知识的过程。目前文本挖掘主要有7个主要领域:·搜索和信息检索IR·文本聚类:使用聚类方法对词汇、片段、段落或文件进行分组和归类·文本分类:对片段、段落或文件进行分组和归类,在使用数据挖掘分类方法的基础上,经过训练地标记实例模型·Web挖掘:在互联网上进
weixin_39552037
·
2023-02-05 08:15
python生成停词表
翻译利器:
语料
库(入门篇)
从事笔译工作越久,越意识到
语料
库的重要。最近想梳理并更新一下自己的
语料
库知识、技能和资源,清理一下自己的库存,希望直接或间接地有助于提高自己的翻译工作效率和质量。
易渔_
·
2023-02-05 06:15
自然语言处理(NLP)知识整理及概述(三)
此时每一个单词可以用一个长度为V(
语料
库中vocabulary的数目)的向量来表示。在此基础上,将一个句子中每个单词的向量相加,就得
JudeArcturus
·
2023-02-04 17:28
半监督学习
训练集的每一个数据已经有特征和标签(我们在进行文本分类的时候,训练数据为已经分好类别的
语料
)有输入数据和输出数据通过学习训练集中输入数据和输出数据的关系,生成合适的函数,将输入映射到合适的输出。
筱筱思
·
2023-02-04 09:42
Gensim
1基本概念
语料
(Corpus):一组原始文本的集合,用于无监督地训练文本主题的隐层结构。
语料
中不需要人工标注的附加信息。在Gensim中,Corpus通常是一个可迭代的对象(比如列表)。
amyhy
·
2023-02-03 21:05
NLTK安装记录
1.输入命令:pipinstallnltk-i2.输入两个命令:importnltknltk.download()报错:方法一:自己下载
语料
库自己去官网下载
语料
库GitHub-nltk/nltk_data
甜藕崽
·
2023-02-03 17:20
python
机器学习
知识图谱构建过程的概念性简述
关系抽取:文本
语料
经过实体抽取之后,得到的是一系列离散的命名实体,为了得到语义信息,还需要从相关
语料
中提取出实体之间的关联
豆浆人
·
2023-02-03 14:44
知识图谱学习笔记
知识图谱
学习笔记
CharTextCNN(AG数据集---新闻主题分类)
文章目录CharTextCNN一、文件目录二、
语料
集下载地址(本文选择AG)三、数据处理(data_loader.py)四、模型(chartextcnn.py)五、训练和测试实验结果CharTextCNN
篱下浅歌生
·
2023-02-03 14:55
nlp
分类
自然语言处理
深度学习
Fasttext(AG数据集---新闻主题分类)
文章目录Fasttext一、文件目录二、
语料
集下载地址(本文选择AG)三、数据处理(AG_Dataset.py)四、模型(Fasttext.py)五、训练和测试实验结果Fasttext一、文件目录二、
语料
集下载地址
篱下浅歌生
·
2023-02-03 14:55
nlp
pytorch
深度学习
python
知识增强的NLP预训练模型【将知识图谱中的三元组向量引入到预训练模型中】
当前以Bert为代表的预训练模型在自然语言处理领域取得了显著的成功,但是由于预训练模型大多是在大规模非结构化的
语料
数据上训练出来的,因此可以通过引入外部知识在一定程度上弥补其在确定性和可解释性上的缺陷。
u013250861
·
2023-02-03 11:34
知识图谱(Knowledge
Graph)
自然语言处理
人工智能
机器学习
从最新的ACL、NAACL和EMNLP中详解知识增强的语言预训练模型
尽管PLMs可以从大量
语料
库中学习一定的知识,但仍旧存在很多问题,如知识量有限、受训练数据长尾分布影响鲁棒性不好等,在实际应用场景中效果不好。
zenRRan
·
2023-02-03 11:32
大数据
自然语言处理
python
机器学习
人工智能
大模型论文周报 | 来自北大、百度、DeepMind、OpenAI等机构前沿论文研究
大模型又可以称为FoundationModel模型,模型通过亿级的
语料
或者图像进行知识抽取,学习进而生产了亿级参数的大模型。
AITIME论道
·
2023-02-03 07:22
人工智能
大模型论文周报|来自谷歌、DeepMind、斯坦福、新加坡国立大学、腾讯等机构前沿论文研究...
大模型又可以称为FoundationModel模型,模型通过亿级的
语料
或者图像进行知识抽取,学习进而生产了亿级参数的大模型。
AITIME论道
·
2023-02-03 07:22
Gensim库的使用——Word2vec模型(二)训练自己的模型与训练参数
训练自己的Word2vec模型为了能够训练自己的Word2vec模型,你需要有一些数据,这里用LeeEvaluation
语料
库来进行训练。
桉夏与猫
·
2023-02-02 09:56
gensim
深度学习
python
深度学习
机器学习
大数据
NLP:n-gram模型
主要的应用场景:1️⃣人们基于一定的
语料
库,可以利用N-Gram来预计或者评估一个句子是否合理;2️⃣通过输入的前N个词预言下一个词(常见于输入法,这种类型的LM被称为自回归语言模型(Autoregressio
Dawn_www
·
2023-02-02 08:09
自然语言处理
自然语言处理
深度学习
机器学习
97. BERT微调、自然语言推理数据集以及代码实现
句子分类3.命名实体识别4.问题回答5.总结即使下游任务各有不同,使用BERT微调时只需要增加输出层但根据任务的不同,输入的表示,和使用的BERT特征也会不一样6.自然语言推理数据集斯坦福自然语言推断
语料
库
chnyi6_ya
·
2023-02-01 19:03
深度学习
bert
自然语言处理
人工智能
语料
准备
之前查找了很多资料,发现
语料
准备这块的方法论很有限,在我看来如果说AI是个学生,
语料
其实是教科书,是知识的海洋,是AI的粮食,非常重要。本文主要探讨有充分的
语料
基础后对
语料
进行预处理的办法。
hohoha
·
2023-02-01 13:47
【MindSpore易点通】数据处理之中文文本数据预处理
简单地归纳下深度学习中的NLP流程,如下图所示:本次要和大家分享的是Step1
语料
预处理部分,
语料
还有中文和英文等多种语言,本次分享的是中文
语料
的预处理,基本的步骤如下图所示:分词什么是分词:就是将句子
小乐快乐
·
2023-02-01 10:56
人工智能
自然语言处理
机器学习
python数据预处理的方法_文本数据预处理的方法
数据收集数据预处理数据挖掘和可视化模型构建模型评估虽然框架需要迭代,但是我们先将其看作是一个线性的过程:修正过的文本数据处理框架(依然很简单……)很显然,文本数据预处理位于框架的第二步,这一步所包含的详细步骤有以下两个:在原始文本
语料
上进行预处理
weixin_39793553
·
2023-02-01 10:25
python数据预处理的方法
NER命名实体识别
目录全文简介NER任务简介NER标注
语料
库(公开评测集)off-the-shelfNER工具评价指标序列标注标签方案四类NER常用方法基于规则的NER方法基于无监督学习的NER方法
Stansonlee
·
2023-02-01 08:15
python里的nltk库_Python 自然语言处理——nltk库入门之词性标注
下面列出了nltk库中的一些重要的模块——nltk.corpus————获取
语料
库。
我来看看就好1123
·
2023-02-01 08:05
python里的nltk库
使用python进行字频统计和词频统计
问题描述读取给定的
语料
库,根据制表符’\t’划分其文本与标签,将获得的文本仅保留汉字部分,并按字划分,保存在列表中,至少使用一种方法,统计所有汉字的出现次数,并按照从高到低的顺序排序;至少使用一种方法,
Love _YourSelf
·
2023-02-01 08:02
自然语言处理
python
自然语言处理
【AI视野·今日NLP 自然语言处理论文速览 第二十七期】Thu, 4 Nov 2021
DailyComputationandLanguagePapersHmBlogs:AbiggeneralPersiancorpusAuthorsHamzehMotahariKhansari,MehrnoushShamsfard本文介绍了波斯语的hmBlogs
语料
库
hitrjj
·
2023-01-31 23:10
NLP
Papers
自然语言处理
预训练模型
transformer
深度学习
多模态
语料
(LIFESTYLE AND SHOPPING)
1.hustleandbustleTravelingprovidesuswithatemporaryescapefromthehustleandbustleofthecity.2.burnoutYoungpeoplejugglingschoolandworkcaneasilyburnout.3.buildupIfyouprocrastinateatwork,theanxietywillbuildu
松饼宋秉彦
·
2023-01-31 20:14
NLU误召问题解决绪论
第一章NLU误召问题解决绪论第一章NLU误召问题解决绪论第二章数据层面降低NLU误召-构造误召
语料
文章目录第一章NLU误召问题解决绪论前言理论NLUDIS1.领域分类2.意图分类3.提槽NLU误召1.数据层面
巴基海贼王
·
2023-01-31 17:50
NLP
python
自然语言处理
人工智能
深度学习
数据层面降低NLU误召-构造误召
语料
第一章NLU误召问题解决绪论第二章数据层面降低NLU误召-构造误召
语料
文章目录前言理论代码1.下载领域相关闲聊视频(YouTube)1.1龟速稳定版1.2高速开车版2.裁剪视频2.1稳定版3.mp4格式转
巴基海贼王
·
2023-01-31 17:50
NLP
python
自然语言处理
nlp
【科研】ET-BERT资料库梳理
作者原repo链接https://github.com/linwhitehat/ET-BERT0.资料总库分为数据+模型+
语料
库1.数据集包含fine-tuning数据集(cstnet-tls1.3)与公开数据集
勇往直前的力量
·
2023-01-31 10:54
科研
深度学习
人工智能
爆火出圈的chatGPT如何在逆向和恶意软件分析中发挥作用
OpenAI新推出的一种人工智能技术驱动的自然语言处理工具,使用了Transformer神经网络架构,也是GPT-3.5架构,这是一种用于处理序列数据的模型,拥有语言理解和文本生成能力,尤其是它会通过连接大量的
语料
库来训练模型
seoppg
·
2023-01-31 08:49
chatgpt
KNN算法与K-Means算法的区别
首先明确一点KNN与Kmeans的算法的区别:1.KNN算法是分类算法,分类算法肯定是需要有学习
语料
,然后通过学习
语料
的学习之后的模板来匹配我们的测试
语料
集,将测试
语料
集合进行按照预先学习的
语料
模板来分类
qq_41800983
·
2023-01-30 21:24
深度学习
机器学习
KNN
KMeans
Improving Language Understandingby Generative Pre-Training
此外,即使在可获得相当大的监督
语料
情况下,以无监督学习的方式学到的表示也可以让性能显著的提升。到目前为止,最引人注目的证据是广泛使用预训练词嵌入来提高一系列NLP任务的性能。
与光i
·
2023-01-30 20:17
自然语言处理
深度学习
机器学习
论文阅读:GPT-Improving Language Understanding by Generative Pre-Training
Abstract通过在不同的无标记的文本
语料
库上生成语言模型的预训练,然后对每个任务进行区分性调整在微调期间使用任务感知的输入转换,同时对模型体系结构进行最小的更改1.INTRODUCTION未标记文本的单词级信息仍旧是一个挑战
咕噜咕噜day
·
2023-01-30 20:17
nlg_paper
GPT
预训练
GPT1
LM
论文阅读《Improving Language Understanding by Generative Pre-Training》
目标是从大量未标注
语料
库学习一种普遍的表征,不要求目标任务与未标注
语料
库在相同领域。训练分为两个阶段:首先,在未标注数据上使用语言建模来学习神
Diobld
·
2023-01-30 20:46
nlp
Improving Language Understanding by Generative Pre-Training
本文展示了先在大规模未标注
语料
上预训练生成式语言模型然后在每个判别式任务上进行fine-tuning可以获得较大的效果提升。
chansonzhang
·
2023-01-30 20:46
NLP
Papers
NLP
AI
自然语言处理
人工智能
95. BERT预训练数据代码
一方面,最初的BERT模型是在两个庞大的图书
语料
库和英语维基百科的合集上预训练的,但它很难吸引这本书的大多数读者。另一方面,现成的预训练BERT模型可能不适合医学等特定领域的应用。
chnyi6_ya
·
2023-01-30 18:02
深度学习
bert
人工智能
深度学习
jieba分词并做分析
Github:结巴分词地址https://github.com/fxsjy/jieba几种分词方法的简单使用:一.jieba安装、示例pipinstalljieba,jieba分词的
语料
是基于人民日报。
stay_foolish12
·
2023-01-30 17:31
python
python
jieba分词
自然语言处理
NLP实践之——基于深度学习的文本分类2
因此,word2vec模型可以方便地从新增
语料
中学习到新增词的向量表达,是一种高效的在线学习算法(onlinelearning)。word2vec的主要思路:通过单词和上下文
zhangxiaolinxin
·
2023-01-30 12:05
代码
笔记
理论
自然语言处理
基于重要性采样的期望估计——sampled softmax推导
一、背景在推荐召回系统中,通常会采用tow-tower模型并利用logsoftmax作为损失进行优化,设[B][B][B]为mini-batch,[C][C][C]为全局
语料
库,s(x,y)s(x,y)
Lqz72
·
2023-01-30 12:17
推荐系统
深度学习
推荐算法
人工智能
详解mmseg
根据在词典(
语料
库)中的匹配情况把原文切分成一个个词语2.两种方法为了便于后续介绍,假设要切分的原文是C1C2C3C4C5C6,C表示一个汉字。简单最大匹配:从头依次查找最长的词语,以此切割。
weixin_30549657
·
2023-01-30 10:28
当知识图谱遇上预训练语言模型
另外一条思路认为可以利用语言预训练模型,从大量文本
语料
中训练得到一个由大量参数组成的模型,这个模型中包
博文视点
·
2023-01-30 09:59
博文视点IT荐书吧
Seq2seq模型蒸馏方法
一.Seq2seq模型蒸馏方法总体过程如下1.训练teacher模型2.产生student模型3.利用teacher模型预测的logits和来自
语料
的truelabels来计算student模型的训练过程中的
haroldLiu001
·
2023-01-30 08:07
深度学习
人工智能
nlp
文献阅读:AMBERT: A Pre-trained Language Model with Multi-Grained Tokenization
AMBERT:APre-trainedLanguageModelwithMulti-GrainedTokenization1.内容简介2.原理&模型结构3.实验1.模型预训练
语料
&数据处理2.中文
语料
下的
Espresso Macchiato
·
2023-01-29 20:13
文献阅读
机器学习
人工智能
深度学习
nlp
语文课堂,让“读”字落地
语文课在读、写、听、说四项实践中,“读”是基础,因为学生只有在“读”中才能更好的积累
语料
,形成语感,悟得语言规律,发展语言能力,同时又接受文本语言所蕴含的思想、情感、情趣、价值观的熏陶感染,“读”在语文课堂的作用其实大家
守望者_accb
·
2023-01-29 14:27
获取机器学习数据
这些数据集包括人类基因组项目、CommonCrawl网页
语料
库、维基百科数据和GoogleBooksNgrams。相关信息可参见:http
weixin_30553837
·
2023-01-29 12:43
人工智能
python本科毕业设计基于神经网络的虚假评论识别系统源码,含模型及数据
主要函数:1.corpusprocess原始
语料
处理函数2.train_word2vec生成word2vec向量3.generate_id2wec获得索引的w2id,和嵌入权重embedding_weights4
Python代码大全
·
2023-01-29 10:43
Python代码大全
从零学Python
python
神经网络
深度学习
HanLp的应用 - 转自GitHub开源代码介绍
HanLP具备功能完善、性能高效、架构清晰、
语料
时新、可自定义的特点。内部算法经过工业界和学术界考验,配套书籍《自然语言处理入门》已经出版。
努力就好其他的不管
·
2023-01-29 09:55
架构之路
自然语言处理
分词
hanlp
深度学习
搜索匹配
NLP之替换不在词表中的分词为‘UNK‘
1.问题描述现在有一个词表,它是取分词后的
语料
,统计出现频率最高的300个(前300个)词构建的词表。现在要将分词后的
语料
进行替换,替换掉那些不在词表中的token为“UNK”,在词表中的则保持不变。
LeBron Le
·
2023-01-29 07:56
Python
自然语言处理
自然语言处理
python
深度学习
语音情感识别技术
情感
语料
库大致可以通过以下3个方法获的:(1)从我们的现实生活中所采集的真实的自然
语料
,然后再经过人工挑选获得可以使用的
语料
;(2)让专业或者非专业人士进行对高兴、愤怒等情感进行模仿并录制
语料
库;(3)
fpga和matlab
·
2023-01-29 07:34
MATLAB
板块16:语音信号处理
语音情感识别
python 文本聚类可视化_Python 文本相似度和聚类
考虑一个设计各种不同的概念和想法的文档
语料
库。人类以这样的方式将它们联系在一起,即使用过去学
weixin_39645249
·
2023-01-28 14:03
python
文本聚类可视化
上一页
17
18
19
20
21
22
23
24
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他