E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
语料
自然语言处理之TF-IDF原理以及利用其进行特征筛选
一.什么是TF-IDFTF-IDF(TermFrequency-InverseDocumentFrequency,词频-逆文件频率).字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在
语料
库中出现的频率成反比下降
Wenweno0o
·
2023-02-07 13:35
自学
自然语言处理
自然语言处理NLP——中文抽取式自动文摘(包括中文
语料
库处理、三种方法实现自动文摘、Rouge评价方法对自动文摘进行打分)
利用三种方法实现抽取式自动摘要,并给摘要结果打分(一、textrank二、word2vec+textrank三、MMR四、Rouge评测)具体代码我上传到了Github上,其中有45篇小论文(包括三种摘要方法生成的摘要、标准摘要和各摘要方法生成的摘要的p、r、f值),地址如下:https://github.com/God-Fish-X/Extractable-automatic-Text网上有很多
_神仙鱼_
·
2023-02-07 10:07
自然语言处理(NLP)
python
自然语言处理
python搭建一个自然语言处理_基于 Python 的简单自然语言处理实践
TwentyNewsGroup
语料
集处理20Newsgroup数据集包含了约20000篇来自于不同的新闻组的文档,最早由KenLang搜
weixin_39814088
·
2023-02-07 08:54
自然语言处理入门的第一个代码:最大正向匹配算法
最大正向匹配算法原理:从右到左依次匹配
语料
库中的词语步骤:1、找出
语料
库中最长的词语长度max_lenth2、将max_lenth与需要划分的句子进行比较,选较小值作为句子的划分长度3、根据划分长度划分句子
啊啊啊啊_ef7b
·
2023-02-07 06:38
论文答辩
teachers.iamfromchuanshancollege.mydissertationiscopus-basedstudyonthetranslationofCLWinbusinessnews.即基于
语料
库商务英语中
张大宝_537d
·
2023-02-06 19:34
BERT模型迁移到GPU上的调试经历(pytorch)
写在前面前几天阅读了一段bert模型预训练的代码,并写了解析(结合原理和代码来理解bert模型),但是这段代码中的
语料
是手动添加的两个人的一段对话,不足以显示模型的效果。
不知名的码农
·
2023-02-06 13:42
——机器学习——
知识图谱
命名实体识别
为Tesseract适配多语言模型
人们的努力集中于实现通用的多语种操作,以至于一种新的语言除了提供文本
语料
库之外,还需要进行微不足道的定制。尽管需要对各个模块进行更改,包括物理布局分析和语言后处理,但字符分类器不需要更改几个限制。
zhugeheihei
·
2023-02-06 10:21
前端
python
人工智能
论文笔记:Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks
基于远程监督的关系抽取(DistantSupervisionforRelationExtraction)\qquad与传统的关系抽取方法不同,远程监督关系抽取利用知识库中的关系实例与非结构化文本进行对齐,自动构建训练
语料
新新点灯9789
·
2023-02-06 07:48
论文笔记
远程监督
关系抽取
论文笔记
远程监督
关系抽取
Pytorch transformers tokenizer 分词器词汇表添加新的词语和embedding
目标:在NLP领域,基于公开
语料
的预训练模型,在专业领域迁移时,会遇到专业领域词汇不在词汇表的问题,本文介绍如何添加专有名词到预训练模型。
浪漫的数据分析
·
2023-02-05 15:00
NLP自然语言处理
pytorch
自然语言处理
人工智能
Char GPT社会化的过程
v=e0aKI2GGZNgChatGPT官方Blog:https://openai.com/blog/chatgpt1.学习文字接龙从网络上大量学习
语料
,作为文字输出的素材库。
帅小帅家的小吴昊
·
2023-02-05 15:52
碎片化知识学习笔记
ai
人工智能
gpt-3
chatgpt
未标注目标
语料
是否均适合用于跨语言学习?『基于对抗判别器高效利用未标注
语料
的跨语言NER算法AdvPicker』
本文公式较多,建议转至博客阅读(再过几个小时今年的ACL就要来了,赶在ddl之前,简单介绍一下韦乐,我,千惠,Börje,YiGuan等人在ACL21上的这篇工作。AdvPicker:EffectivelyLeveragingUnlabeledDataviaAdversarialDiscriminatorforCross-LingualNER(ACL-IJCNLP2021)✍️WeileChen,
gunjianpan
·
2023-02-05 12:00
Word2Vec------skip-gram、CBOW、负采样、的一些理解
1.WindowbasedCo-occurrenceMatrix简单来说就是统计
语料
库中,在确定window长度的情况下,统计word的出现频率,基于词频得到关联矩阵,例如:然后,利用SVD奇异值分解,
不爱学习的木易
·
2023-02-05 11:02
学习心得
Word2vec
语料
频数标准化基本原理通常
语料
检索、词表生成结果中都会报告频数(frequency,freq或rawfrequency)。那么某词(如many)在某
语料
库中出现频数为100次说明什么呢?
静_静_
·
2023-02-05 08:49
python生成停词表_一个小型的文本分类系统-python(文末附
语料
,停用词文本文档,工程全部代码)...
背景文本挖掘是指从大量文本数据中抽取实现未知的、可理解的、最终可用的知识的过程,同时运用这些知识更好地组织信息以便将来参考。即从非结构化的文本中寻找知识的过程。目前文本挖掘主要有7个主要领域:·搜索和信息检索IR·文本聚类:使用聚类方法对词汇、片段、段落或文件进行分组和归类·文本分类:对片段、段落或文件进行分组和归类,在使用数据挖掘分类方法的基础上,经过训练地标记实例模型·Web挖掘:在互联网上进
weixin_39552037
·
2023-02-05 08:15
python生成停词表
翻译利器:
语料
库(入门篇)
从事笔译工作越久,越意识到
语料
库的重要。最近想梳理并更新一下自己的
语料
库知识、技能和资源,清理一下自己的库存,希望直接或间接地有助于提高自己的翻译工作效率和质量。
易渔_
·
2023-02-05 06:15
自然语言处理(NLP)知识整理及概述(三)
此时每一个单词可以用一个长度为V(
语料
库中vocabulary的数目)的向量来表示。在此基础上,将一个句子中每个单词的向量相加,就得
JudeArcturus
·
2023-02-04 17:28
半监督学习
训练集的每一个数据已经有特征和标签(我们在进行文本分类的时候,训练数据为已经分好类别的
语料
)有输入数据和输出数据通过学习训练集中输入数据和输出数据的关系,生成合适的函数,将输入映射到合适的输出。
筱筱思
·
2023-02-04 09:42
Gensim
1基本概念
语料
(Corpus):一组原始文本的集合,用于无监督地训练文本主题的隐层结构。
语料
中不需要人工标注的附加信息。在Gensim中,Corpus通常是一个可迭代的对象(比如列表)。
amyhy
·
2023-02-03 21:05
NLTK安装记录
1.输入命令:pipinstallnltk-i2.输入两个命令:importnltknltk.download()报错:方法一:自己下载
语料
库自己去官网下载
语料
库GitHub-nltk/nltk_data
甜藕崽
·
2023-02-03 17:20
python
机器学习
知识图谱构建过程的概念性简述
关系抽取:文本
语料
经过实体抽取之后,得到的是一系列离散的命名实体,为了得到语义信息,还需要从相关
语料
中提取出实体之间的关联
豆浆人
·
2023-02-03 14:44
知识图谱学习笔记
知识图谱
学习笔记
CharTextCNN(AG数据集---新闻主题分类)
文章目录CharTextCNN一、文件目录二、
语料
集下载地址(本文选择AG)三、数据处理(data_loader.py)四、模型(chartextcnn.py)五、训练和测试实验结果CharTextCNN
篱下浅歌生
·
2023-02-03 14:55
nlp
分类
自然语言处理
深度学习
Fasttext(AG数据集---新闻主题分类)
文章目录Fasttext一、文件目录二、
语料
集下载地址(本文选择AG)三、数据处理(AG_Dataset.py)四、模型(Fasttext.py)五、训练和测试实验结果Fasttext一、文件目录二、
语料
集下载地址
篱下浅歌生
·
2023-02-03 14:55
nlp
pytorch
深度学习
python
知识增强的NLP预训练模型【将知识图谱中的三元组向量引入到预训练模型中】
当前以Bert为代表的预训练模型在自然语言处理领域取得了显著的成功,但是由于预训练模型大多是在大规模非结构化的
语料
数据上训练出来的,因此可以通过引入外部知识在一定程度上弥补其在确定性和可解释性上的缺陷。
u013250861
·
2023-02-03 11:34
知识图谱(Knowledge
Graph)
自然语言处理
人工智能
机器学习
从最新的ACL、NAACL和EMNLP中详解知识增强的语言预训练模型
尽管PLMs可以从大量
语料
库中学习一定的知识,但仍旧存在很多问题,如知识量有限、受训练数据长尾分布影响鲁棒性不好等,在实际应用场景中效果不好。
zenRRan
·
2023-02-03 11:32
大数据
自然语言处理
python
机器学习
人工智能
大模型论文周报 | 来自北大、百度、DeepMind、OpenAI等机构前沿论文研究
大模型又可以称为FoundationModel模型,模型通过亿级的
语料
或者图像进行知识抽取,学习进而生产了亿级参数的大模型。
AITIME论道
·
2023-02-03 07:22
人工智能
大模型论文周报|来自谷歌、DeepMind、斯坦福、新加坡国立大学、腾讯等机构前沿论文研究...
大模型又可以称为FoundationModel模型,模型通过亿级的
语料
或者图像进行知识抽取,学习进而生产了亿级参数的大模型。
AITIME论道
·
2023-02-03 07:22
Gensim库的使用——Word2vec模型(二)训练自己的模型与训练参数
训练自己的Word2vec模型为了能够训练自己的Word2vec模型,你需要有一些数据,这里用LeeEvaluation
语料
库来进行训练。
桉夏与猫
·
2023-02-02 09:56
gensim
深度学习
python
深度学习
机器学习
大数据
NLP:n-gram模型
主要的应用场景:1️⃣人们基于一定的
语料
库,可以利用N-Gram来预计或者评估一个句子是否合理;2️⃣通过输入的前N个词预言下一个词(常见于输入法,这种类型的LM被称为自回归语言模型(Autoregressio
Dawn_www
·
2023-02-02 08:09
自然语言处理
自然语言处理
深度学习
机器学习
97. BERT微调、自然语言推理数据集以及代码实现
句子分类3.命名实体识别4.问题回答5.总结即使下游任务各有不同,使用BERT微调时只需要增加输出层但根据任务的不同,输入的表示,和使用的BERT特征也会不一样6.自然语言推理数据集斯坦福自然语言推断
语料
库
chnyi6_ya
·
2023-02-01 19:03
深度学习
bert
自然语言处理
人工智能
语料
准备
之前查找了很多资料,发现
语料
准备这块的方法论很有限,在我看来如果说AI是个学生,
语料
其实是教科书,是知识的海洋,是AI的粮食,非常重要。本文主要探讨有充分的
语料
基础后对
语料
进行预处理的办法。
hohoha
·
2023-02-01 13:47
【MindSpore易点通】数据处理之中文文本数据预处理
简单地归纳下深度学习中的NLP流程,如下图所示:本次要和大家分享的是Step1
语料
预处理部分,
语料
还有中文和英文等多种语言,本次分享的是中文
语料
的预处理,基本的步骤如下图所示:分词什么是分词:就是将句子
小乐快乐
·
2023-02-01 10:56
人工智能
自然语言处理
机器学习
python数据预处理的方法_文本数据预处理的方法
数据收集数据预处理数据挖掘和可视化模型构建模型评估虽然框架需要迭代,但是我们先将其看作是一个线性的过程:修正过的文本数据处理框架(依然很简单……)很显然,文本数据预处理位于框架的第二步,这一步所包含的详细步骤有以下两个:在原始文本
语料
上进行预处理
weixin_39793553
·
2023-02-01 10:25
python数据预处理的方法
NER命名实体识别
目录全文简介NER任务简介NER标注
语料
库(公开评测集)off-the-shelfNER工具评价指标序列标注标签方案四类NER常用方法基于规则的NER方法基于无监督学习的NER方法
Stansonlee
·
2023-02-01 08:15
python里的nltk库_Python 自然语言处理——nltk库入门之词性标注
下面列出了nltk库中的一些重要的模块——nltk.corpus————获取
语料
库。
我来看看就好1123
·
2023-02-01 08:05
python里的nltk库
使用python进行字频统计和词频统计
问题描述读取给定的
语料
库,根据制表符’\t’划分其文本与标签,将获得的文本仅保留汉字部分,并按字划分,保存在列表中,至少使用一种方法,统计所有汉字的出现次数,并按照从高到低的顺序排序;至少使用一种方法,
Love _YourSelf
·
2023-02-01 08:02
自然语言处理
python
自然语言处理
【AI视野·今日NLP 自然语言处理论文速览 第二十七期】Thu, 4 Nov 2021
DailyComputationandLanguagePapersHmBlogs:AbiggeneralPersiancorpusAuthorsHamzehMotahariKhansari,MehrnoushShamsfard本文介绍了波斯语的hmBlogs
语料
库
hitrjj
·
2023-01-31 23:10
NLP
Papers
自然语言处理
预训练模型
transformer
深度学习
多模态
语料
(LIFESTYLE AND SHOPPING)
1.hustleandbustleTravelingprovidesuswithatemporaryescapefromthehustleandbustleofthecity.2.burnoutYoungpeoplejugglingschoolandworkcaneasilyburnout.3.buildupIfyouprocrastinateatwork,theanxietywillbuildu
松饼宋秉彦
·
2023-01-31 20:14
NLU误召问题解决绪论
第一章NLU误召问题解决绪论第一章NLU误召问题解决绪论第二章数据层面降低NLU误召-构造误召
语料
文章目录第一章NLU误召问题解决绪论前言理论NLUDIS1.领域分类2.意图分类3.提槽NLU误召1.数据层面
巴基海贼王
·
2023-01-31 17:50
NLP
python
自然语言处理
人工智能
深度学习
数据层面降低NLU误召-构造误召
语料
第一章NLU误召问题解决绪论第二章数据层面降低NLU误召-构造误召
语料
文章目录前言理论代码1.下载领域相关闲聊视频(YouTube)1.1龟速稳定版1.2高速开车版2.裁剪视频2.1稳定版3.mp4格式转
巴基海贼王
·
2023-01-31 17:50
NLP
python
自然语言处理
nlp
【科研】ET-BERT资料库梳理
作者原repo链接https://github.com/linwhitehat/ET-BERT0.资料总库分为数据+模型+
语料
库1.数据集包含fine-tuning数据集(cstnet-tls1.3)与公开数据集
勇往直前的力量
·
2023-01-31 10:54
科研
深度学习
人工智能
爆火出圈的chatGPT如何在逆向和恶意软件分析中发挥作用
OpenAI新推出的一种人工智能技术驱动的自然语言处理工具,使用了Transformer神经网络架构,也是GPT-3.5架构,这是一种用于处理序列数据的模型,拥有语言理解和文本生成能力,尤其是它会通过连接大量的
语料
库来训练模型
seoppg
·
2023-01-31 08:49
chatgpt
KNN算法与K-Means算法的区别
首先明确一点KNN与Kmeans的算法的区别:1.KNN算法是分类算法,分类算法肯定是需要有学习
语料
,然后通过学习
语料
的学习之后的模板来匹配我们的测试
语料
集,将测试
语料
集合进行按照预先学习的
语料
模板来分类
qq_41800983
·
2023-01-30 21:24
深度学习
机器学习
KNN
KMeans
Improving Language Understandingby Generative Pre-Training
此外,即使在可获得相当大的监督
语料
情况下,以无监督学习的方式学到的表示也可以让性能显著的提升。到目前为止,最引人注目的证据是广泛使用预训练词嵌入来提高一系列NLP任务的性能。
与光i
·
2023-01-30 20:17
自然语言处理
深度学习
机器学习
论文阅读:GPT-Improving Language Understanding by Generative Pre-Training
Abstract通过在不同的无标记的文本
语料
库上生成语言模型的预训练,然后对每个任务进行区分性调整在微调期间使用任务感知的输入转换,同时对模型体系结构进行最小的更改1.INTRODUCTION未标记文本的单词级信息仍旧是一个挑战
咕噜咕噜day
·
2023-01-30 20:17
nlg_paper
GPT
预训练
GPT1
LM
论文阅读《Improving Language Understanding by Generative Pre-Training》
目标是从大量未标注
语料
库学习一种普遍的表征,不要求目标任务与未标注
语料
库在相同领域。训练分为两个阶段:首先,在未标注数据上使用语言建模来学习神
Diobld
·
2023-01-30 20:46
nlp
Improving Language Understanding by Generative Pre-Training
本文展示了先在大规模未标注
语料
上预训练生成式语言模型然后在每个判别式任务上进行fine-tuning可以获得较大的效果提升。
chansonzhang
·
2023-01-30 20:46
NLP
Papers
NLP
AI
自然语言处理
人工智能
95. BERT预训练数据代码
一方面,最初的BERT模型是在两个庞大的图书
语料
库和英语维基百科的合集上预训练的,但它很难吸引这本书的大多数读者。另一方面,现成的预训练BERT模型可能不适合医学等特定领域的应用。
chnyi6_ya
·
2023-01-30 18:02
深度学习
bert
人工智能
深度学习
jieba分词并做分析
Github:结巴分词地址https://github.com/fxsjy/jieba几种分词方法的简单使用:一.jieba安装、示例pipinstalljieba,jieba分词的
语料
是基于人民日报。
stay_foolish12
·
2023-01-30 17:31
python
python
jieba分词
自然语言处理
NLP实践之——基于深度学习的文本分类2
因此,word2vec模型可以方便地从新增
语料
中学习到新增词的向量表达,是一种高效的在线学习算法(onlinelearning)。word2vec的主要思路:通过单词和上下文
zhangxiaolinxin
·
2023-01-30 12:05
代码
笔记
理论
自然语言处理
基于重要性采样的期望估计——sampled softmax推导
一、背景在推荐召回系统中,通常会采用tow-tower模型并利用logsoftmax作为损失进行优化,设[B][B][B]为mini-batch,[C][C][C]为全局
语料
库,s(x,y)s(x,y)
Lqz72
·
2023-01-30 12:17
推荐系统
深度学习
推荐算法
人工智能
上一页
16
17
18
19
20
21
22
23
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他