E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
语料
Lhotse 音频库管理音频数据集
3.为常用的
语料
库提供标准的数据准备方案。4.为与语音和音频相关的任
mingqian_chu
·
2023-11-29 07:44
#
音频部分
音视频
【NLP】调研|医疗领域预训练语言模型设计方法
1继续预训练BioBERT通过BERT初始化权重,基于生物医学领域
语料
库进行继续预训练;BlueBERT通过BERT初始化权重,基于PubMed摘要和MIMIC-III
风度78
·
2023-11-28 10:36
人工智能
机器学习
深度学习
python
知识图谱
PubMedBERT:生物医学自然语言处理领域的特定预训练模型
所以说在特定的领域或者需求中,大语言模型并不一定就是最优的解决方案,“小”模型也有一定的用武之地,所以今天我们来介绍PubMedBERT,它使用特定领域
语料
库从头开始预训练BERT,这是微软研究院2022
deephub
·
2023-11-28 10:01
自然语言处理
人工智能
深度学习
大语言模型
pandas 将DataFrame 转为txt文本,用以预训练,去除引号问题
由于需要训练gloveembedding,需要自己创建
语料
库用以训练,我是用pandas读取处理的,需要保存为.txt文件给模型训练。
Wisley.Wang
·
2023-11-27 17:15
study
python
【腾讯云云上实验室】向量数据库+LangChain+LLM搭建智慧辅导系统实践
目录一、搭建智慧辅导系统——向量数据库实践指南1.1、创建向量数据库并新建集合1.2、使用TKE快速部署ChatGLM1.3、部署LangChain+PyPDF+VectorDB等组件1.4、配置知识库
语料
中杯可乐多加冰
·
2023-11-27 11:40
杂谈
腾讯云
数据库
langchain
大语言模型
LLM
向量数据库
UCAS - AI学院 - 自然语言处理专项课 - 第12讲 - 课程笔记
文本分类与聚类文本分类文本——领域信息分类传统机器学习方法文本表示向量空间模型——BoW模型词的权重词频TF布尔变量逆文档频率IDFTF-IDF特征选择文档频率:根据训练
语料
中的文档频率,对所有特征进行排序词频
支锦铭
·
2023-11-27 00:08
UCAS-课程笔记
人工智能
自然语言处理
UCAS - AI学院 - 自然语言处理专项课 - 第5讲 - 课程笔记
元文法参数估计数据平滑方法语言模型自适应应用神经语言模型背景前馈神经网络语言模型循环神经网络语言模型自我注意力机制语言模型应用文本表示模型背景向量空间模型表示学习模型词语的表示学习短语的表示学习句子的表示学习文档的表示学习动态的表示学习语言模型传统语言模型n元文法统计方法于
语料
库语言学的应用发现语言使用的普遍规律通过机器
支锦铭
·
2023-11-27 00:38
UCAS-课程笔记
人工智能
自然语言处理
UCAS - AI学院 - 自然语言处理专项课 - 第4讲 - 课程笔记
UCAS-AI学院-自然语言处理专项课-第4讲-课程笔记
语料
库与语言知识库
语料
库基本概念
语料
库技术的发展
语料
库类型典型
语料
库介绍问题与现状语言知识库WordNet知网HowNet概念层次网络知识图谱
语料
库与语言知识库
语料
库基本概念语言数据库
支锦铭
·
2023-11-27 00:07
UCAS-课程笔记
自然语言处理
人工智能
【原创】理解ChatGPT之注意力机制和Transformer入门
ChatGPT之机器学习入门【原创】AIGC之ChatGPT高级使用技巧GPT是什么意思GPT的全称是GenerativePre-trainedTransformer(生成型预训练变换模型),它是基于大量
语料
数据上训练
黑夜路人
·
2023-11-26 09:14
chatgpt
transformer
人工智能
ai
AIGC
维基百科文章爬虫和聚类【二】:KMeans
其次,
语料
库对象处理完整的文章集,允许方便地访问单个文件,并提供全局数据,例
无水先生
·
2023-11-25 15:35
网上信息挖掘
人工智能
爬虫
聚类
kmeans
Python实现全角与半角相互转换
全角与半角转换在处理汉语
语料
中会经常出现,这里分别说明汉字、数字、字母的unicode编码范围。以及全角与半角的转换方法。最后给出wiki上全角和半角的编码对照表。
huanghaocs
·
2023-11-25 10:15
2022最新版-李宏毅机器学习深度学习课程-P51 BERT的各种变体
但是CoVe需要大量的翻译对,这是不容易获得的,能不能通过一大段没有标注的
语料
进行预训练呢?因为有监督的标注是十分费时费力的,因此采用自监督的方法。即给定一个无标签的
语料
QwQllly
·
2023-11-24 19:16
李宏毅机器学习深度学习
深度学习
机器学习
bert
如何利用人工智能技术提高收益:以女网红AI恋爱为例
该机器人通过深度学习算法,学习了大量人与人之间的对话
语料
,能够自然地进行多轮对话。同时,机器人还会根据用户的信息,学习他们的兴趣爱好、话题喜好等,从而更个性化地与每个用户互动。其次,通过打标签等技术手
猫之角
·
2023-11-24 14:27
TF-IDF具体算法和原理
TF-IDF算法相关概念信息检索(IR)中最常用的一种文本关键信息表示法基本信息:如果某个词在一篇文档中出现的频率高,并且在
语料
库中其它词库中其他文档中很少出现,则认为这个词具有很好的类别区分能力。
lishuaics
·
2023-11-24 06:56
算法
大数据
python
java
机器学习
Gensim
官网基本概念
语料
Corpus向量Vector稀疏向量SparseVector模型Model安装安装环境Ubuntu18.04Anaconda3-5.3.1!pipinstallgensim!
喝醉酒的小白
·
2023-11-24 06:25
Python第三方库
开源中文大语言模型整理列表
LLM通常基于神经网络模型,使用大规模的
语料
库进行训练,比如使用互联网上的海
yonghuming_123
·
2023-11-23 19:51
ChatGPT
大语言模型
开源
语言模型
人工智能
GPT自然语言处理模型
GPT的主要优点是它可以在大规模的
语料
库上进行预训练,从而学习到丰富的语言知识和模式。这使得它在各种自然语言处理任务中表现出色,尤其是在生成文本方面。GPT可
Nefelibata莫奈
·
2023-11-23 19:49
自然语言处理
深度学习
人工智能
自然语言处理评价指标
训练好的模型,上线之前要对模型进行必要的评估,目的让模型对
语料
具备较好的泛化能力。具体有以下这些指标可以参考。1.错误率、精度、准确率、精确度、召回率、F1衡量。
天一生水water
·
2023-11-23 19:14
机器学习
query correction
https://web.stanford.edu/class/cs276/pa/pa2.pdf
语料
:lmcorpus:99,904documentsquerycorpus:819,722编辑距离最多为1Levenshteinautomaton
水星no1
·
2023-11-23 15:48
使用 Lhotse 高效管理音频数据集
3.为常用的
语料
库提供标准的数据准备方案。4.为与语音和音频相关的任务提供PyTorch数据集类。5.通过音频剪辑的概念实现模型训练中
希尔贝壳AISHELL
·
2023-11-23 08:02
智能语音
音视频
基于Bagging集成学习方法的情绪分类预测模型研究(文末送书)
如果文章对你有帮助的话,欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍3.技术工具4.实验过程4.1导入数据4.2数据预处理4.3分词处理4.4词云可视化4.5构建
语料
库4.6词向量化4.7构建模型
艾派森
·
2023-11-23 01:58
机器学习
数据挖掘
python
集成学习
机器学习
分类
数据挖掘
python的random模块常用方法讲解--大全
目的长期做NLP研究,经常需将
语料
处理成特殊的格式,这个模块经常用到,每次都要去查。。。。。
UESTC_20172222
·
2023-11-22 10:53
python学习
random
python
所有方法讲解
python3.6
雅思学习阶段性反思
首要解决必拿分题,S1的简单部分;其次攻破
语料
库95%大关;最后对S2/S3的预判要足够熟悉。拿分题的解决关键在于第八章的练习
语料
库的关键在于每周的
关耳君524
·
2023-11-22 06:57
Glove词向量
这种方法首先对
语料
进行统计分析,并获得含有全局统计信息的“词-上下文”共现矩阵,然后在利用奇异值分解的方法对该矩阵进行降维,进而得到词的低维表示。然而,传统的矩阵分解方法得到的词向
makelope
·
2023-11-20 23:09
《向量数据库指南》——TruLens + Milvus Cloud构建RAG深入了解性能
索引类型对较大
语料
库可能更重要。
LCHub低代码社区
·
2023-11-19 10:20
《向量数据库指南》
langchain
人工智能
向量数据库
Milvus
Milvus
Cloud
大模型之十二十-中英双语开源大语言模型选型
当前(2023年11月17日)开源的大语言模型如下:模型所属公司发布时间开放模型许可词表大小
语料
Huggingface下载量模型结构位置编码激活函数隐变量维度dimension自注意力头的个数nheads
shichaog
·
2023-11-19 03:06
神经网络&人工智能
语言模型
人工智能
自然语言处理
HMM与LTP词性标注之LTP介绍
文章目录LTP牛刀小试上图缺点:参数太多,中文
语料
库匮乏注意力机制,相当于给每一个词赋予一个权重,权重越大的越重要。bert的缺点:神经元太多,较慢。
赵孝正
·
2023-11-18 23:28
#
1.
自然语言处理&知识图谱
人工智能
开源 LLM (大语言模型)整理(一)
LLM通常基于神经网络模型,使用大规模的
语料
库进行训练,比如使用互联网上的海量文本数据。这些模
u013250861
·
2023-11-18 22:09
LLM
开源
语言模型
人工智能
开源大语言模型完整列表
LLM通常基于神经网络模型,使用大规模的
语料
库进行训练,比如使用互联网上的海量文本数据。
ejinxian
·
2023-11-18 22:02
语言模型
人工智能
自然语言处理
【资源共享】分享3个免费ChatGPT国内AI软件,请及时收藏!
很多小伙伴应该都听说过,其不仅在自然语言处理领域取得了巨大的成就,并且被广泛用于各种应用领域:精准的自然语言处理能力:ChatGPT模型使用了大规模的预训练
语料
库进行训练,具有极强的自然语言处理能力。
码农耕地人~go
·
2023-11-17 12:19
chatgtp
chatgpt
NLP-分词器:SentencePiece【参考Chinese-LLaMA-Alpaca在通用中文
语料
上训练的20K中文词表并与原版LLaMA模型的32K词表进行合并的代码】
背景随着ChatGPT迅速出圈,最近几个月开源的大模型也是遍地开花。目前,开源的大语言模型主要有三大类:ChatGLM衍生的大模型(wenda、ChatSQL等)、LLaMA衍生的大模型(Alpaca、Vicuna、BELLE、Phoenix、Chimera等)、Bloom衍生的大模型(Bloomz、BELLE、Phoenix等)。其中,ChatGLM-6B主要以中英双语进行训练,LLaMA主要以
u013250861
·
2023-11-16 17:00
#
NLP基础/分词
自然语言处理
人工智能
日志:实现微信公众号自动问答机器人(待整理)
已有实践基础可以在Win10系统、anaconda3下跑起来自动问答程序,并且用自己的
语料
库问题分析和思路系统的数据流图如下:操作步骤服务器环境搭建桌面环境&原程连接putty日志1、第一次打开putty
草木灰的学习笔记
·
2023-11-16 15:11
自然语言处理
LLM系列 | 27 : 天工大模型Skywork解读及揭露刷榜内幕引发的思考
引言简介预训练
语料
分词器模型架构Infrastructure训练细节评测实战总结思考0.引言晨起开门雪满山,雪晴云淡日光寒。
JasonLiu1919
·
2023-11-16 01:51
LLM
人工智能
ChatGPT
LLM
人工智能
llama
chatgpt
中文大模型
人机交互——自然语言生成
基于规则的方法主要依靠专家知识库和语言学规则来生成文本,而基于统计的方法则通过大量的
语料
库和训练数据来学习生成文本的规律和模式。
AI 智能服务
·
2023-11-15 23:11
ABC
中文分词
人工智能
语音识别
自然语言处理
人机交互
大模型的实践应用6-百度文心一言的基础模型ERNIE的详细介绍,与BERT模型的比较说明
在大规模
语料
库上预先训练的BERT等神经语言表示模型可以很好地从纯文本中捕获丰富的语义模式,并通过微调的方式一致地提高各种NLP任务的性能。
微学AI
·
2023-11-15 08:59
大模型的实践应用
百度
文心一言
bert
ERNIE
部署百川大语言模型Baichuan2
Baichuan2是百川智能推出的新一代开源大语言模型,采用2.6万亿Tokens的高质量
语料
训练。在多个权威的中文、英文和多语言的通用、领域benchmark上取得同尺寸最佳的效果。
培根芝士
·
2023-11-15 05:00
AI
人工智能
ChatGPT客服系统产品-利用chatgpt训练企业知识开发个性化客服系统
打造最前沿的AI智能客服系统,基于自有数据
语料
,充分运用ChatGPT的大模型自然语言生成能力,定制化客服系统为企业提供自主性的客服服务能力。ChatGPT如何革新智能客服?
程序员老狼
·
2023-11-14 14:11
chatgpt
人工智能
【nlp】1.5 文本数据增强(回译法)
文本数据增强回译数据增强法回译数据增强法回译数据增强目前是文本数据增强方面效果较好的增强方法,一般基于google翻译接口,将文本数据翻译成另外一种语言(一般选择小语种),之后再翻译回原语言,,即可认为得到与与原
语料
同标签的新
语料
lys_828
·
2023-11-14 13:46
NLP自然语言处理
自然语言处理
python
人工智能
【nlp】1.4 文本特征处理(n-gram特征、文本长度规范:补齐与截断)
文本特征处理1什么是n-gram特征2文本长度规范及其作用文本特征处理的作用:文本特征处理包括为
语料
添加具有普适性的文本特征,如:n-gram特征,以及对加入特征之后的文本
语料
进行必要的处理,如:长度规范
lys_828
·
2023-11-14 10:51
NLP自然语言处理
自然语言处理
人工智能
【nlp】1.3 文本数据分析(标签数量分布、句子长度分布、词频统计与关键词词云)
获取标签数量分布4获取句子长度分布5获取正负样本长度散点分布6获取不同词汇总数统计7获取训练集高频形容词词云8获取验证集形容词词云1文本数据分析介绍文本数据分析的作用:文本数据分析能够有效帮助我们理解数据
语料
lys_828
·
2023-11-14 08:58
NLP自然语言处理
自然语言处理
数据分析
人工智能
【nlp】1文本预处理总括目录(附各章节链接)
2.1文本处理的基本方法2.1.1分词2.1.2词性标注2.2.3命名实体标注2.2文本张量表示方法2.2.1one-hot编码2.2.2Word2vec2.2.3WordEmbedding2.3文本
语料
的数据分析
lys_828
·
2023-11-13 17:56
NLP自然语言处理
自然语言处理
人工智能
【大模型】大语言模型
语料
下载
文章目录概述HuggingFaceobs操作git-lfs例子RedPajama-Data-1TSlimPajama-627B/gitclone续传数据格式参考资料概述大模型训练中
语料
是非常重要的,目前公网上有各种各样的
语料
可以供下载
runzhliu
·
2023-11-13 08:47
大模型
语言模型
人工智能
自然语言处理
ngram模型 java_自然语言处理中的N-Gram模型详解
N-Gram(有时也称为N元模型)是自然语言处理中一个非常重要的概念,通常在NLP中,人们基于一定的
语料
库,可以利用N-Gram来预计或者评估一个句子是否合理。
Stark Einstein
·
2023-11-12 22:04
ngram模型
java
NLP_task4文本表示_CBOW和Skip-gram模型
假设在一个
语料
集合中,一种有n
沐漜
·
2023-11-11 19:20
NLP
CBOW
Skip-gram
文本处理——Word2Vec之 Skip-Gram 模型(三)
Word2Vec是从大量文本
语料
中以无监督的方式学习语
修炼打怪的小乌龟
·
2023-11-11 19:16
Word2Vec
ZEN-基于N-gram的中文Encoder(从论文到源码)
相关背景深度学习的encoder都是基于大规模的未标注数据,但是这些encoder是否完整利用了
语料
的所有信息,这是未被证实的。类似于Bert的这些预训练模型使用的是文本的最小单位——字。
lynne233
·
2023-11-11 18:12
数据结构和算法
Bard和ChatGPT的比较?
然而,Bard和ChatGPT也有一些区别:1.学习方式不同:Bard是一种基于迁移学习的预训练语言模型,它将已有的大规模
语料
库上进行预训练,然后通过微调和特定任务的训练来适应不同的应用场景。
百态老人
·
2023-11-11 12:07
chatgpt
EMNLP2023 | LLM作用下的成分句法分析基础研究
传统的自训练方法依赖于有限且低质量的源
语料
库。为克服这一限制,本文提出用大型语言模型(LLM)增强自训练,以迭代地生成特定领域的
语料
库。
zenRRan
·
2023-11-11 11:57
进阶课6——基于Seq2Seq的开放域生成型聊天机器人的设计和开发流程
基于检索的开放领域聊天机器人需要大量的
语料
数据,其开发流程与基于任务型的聊天机器人相似,而基于深度学习的生成类型聊天机器人则具有处理开发领域的先天优势。
AI 智能服务
·
2023-11-11 10:51
AI训练师
机器人
人工智能
系统架构
人机交互
深度学习
最新ChatGPT GPT-4 文本生成技术详解(附ipynb与python源码及视频讲解)——开源DataWhale发布入门ChatGPT技术新手从0到1必备使用指南手册(三)
2.2常见的文本摘要技术2.3基于OpenAI接口的文本摘要实验2.3.1简单上手版:调用预训练模型2.3.2进阶优化版:基于自定义
语料
finetune3文本纠错任务3.1什么是文本纠错?
小胡说人工智能
·
2023-11-11 10:48
ChatGPT
ChatGPT商业应用
chatgpt
语言模型
人工智能
自然语言处理
nlp
上一页
2
3
4
5
6
7
8
9
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他