E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
语料
LLM-大模型训练-步骤(一):词表扩充【sentencepiece】
在通用中文
语料
上训练了基于sentencepiece的20K中文词表并与原版LLaMA模型的32K词表进行合并排除重复的token后,得到的最终中文LLaMA词表大小为49953需要注意的是,在fine-tune
u013250861
·
2023-09-23 22:37
大模型(预训练模型)
人工智能
中文LLaMa和Alpaca大语言模型开源方案 | 扩充中文词表 & 针对中文
语料
进行高效编码
欢迎关注『CVHub』官方微信公众号!Title:EfficientandEffectiveTextEncodingforChineseLlamaandAlpacaPDF:https://arxiv.org/pdf/2304.08177v1.pdfCode:https://github.com/ymcui/Chinese-LLaMA-Alpaca导读大型语言模型LLM,如ChatGPT和GPT-4
CVHub
·
2023-09-23 22:33
大语言模型
llama
语言模型
人工智能
搭建一个FAQ智能问答系统/服务
流程1.初始化流程1.读取QA数据集2.创建Elasticsearch的index索引3.将QA
语料
导入Elasticsearch2.查询流程输入que
Neleuska
·
2023-09-23 15:39
深度学习
神经网络
自然语言处理
pytorch
elasticsearch
python
nlp
[学术前沿]2021年5月arxiv简介论文浅读
5月2日Text-to-TextMulti-viewLearningforPassageRe-ranking近期自然语言处理地很多进展都是由在大型
语料
库上预训练得到的深度语境化表征推动的。
be5e948f337b
·
2023-09-23 01:42
LLM系列 | 20 : Llama2 实战(下篇)-中文
语料
微调(附完整代码)
今天这篇小作文作为Llama2的下篇,主要介绍如何用中文
语料
对Llama2的基座模型(7B版)进行微调并实测微调后模型的效果。本文实验完整代码请找小编索取。
JasonLiu1919
·
2023-09-23 00:49
LLM
人工智能
NLP
人工智能
LLM
llama
实战
技术动态 | 面向知识图谱构建的电子战领域
语料
库建设
转载公众号|专知本文发表于《指挥信息系统与技术》2023年第2期作者:王航,张宏军,程恺,徐有为,申秋慧,李大硕引用格式:王航,张宏军,程恺,等.面向知识图谱构建的电子战领域
语料
库建设[J].指挥信息系统与技术
开放知识图谱
·
2023-09-22 15:29
知识图谱
人工智能
大数据
WordNet
wordNetwordNet是普林斯顿大学开发的英语
语料
库,可以理解为就是一个词典,在python中的nltk.corpus可以直接获得,它良好的组织结构使得它在nlp中可以帮助我们更好的理解语义。
Athenaearl
·
2023-09-22 11:49
ChatGpt介绍和国产ChatGpt对比
它使用深度学习技术,通过对大量
语料
库的学习和训练,可以生成类似人类语言的回复。ChatGPT可以用于各种场景,如客户服务、智能助手、社交媒体等。3.ChatGPT
萧鼎
·
2023-09-21 09:58
笔记
chatgpt
TF-IDF算法
TF-IDF(TermFrequency-InverseDocumentFrequency)是一种常用于信息检索和文本挖掘的统计方法,用于评估一个词在文档集或一个
语料
库中的重要程度。
·
2023-09-20 10:40
运维
知识图谱实战导论:从什么是KG到LLM与KG/DB的结合实战
LLM如此突飞猛进呢第一部分知识图谱入门导论//待更..第二部分LLM与知识图谱的结合2.1LLM为何要与知识图谱相结合通过本文之前或本博客内之前的内容可知,由于大部分LLM都是基于过去互联网旧的预训练
语料
训练
v_JULY_v
·
2023-09-19 16:31
论文
代码
实战
知识图谱
数据库
KBQA
中国大模型
语料
数据联盟迎来9家新成员,开源第二批
语料
数据
为提升
语料
数据供给水平,推动大模型产业高质量发展加速应用创新与行业落地,9月8日,由中国大模型
语料
数据联盟(以下简称“
语料
数据联盟”)主办的数说新语·开放日首场活动在上海人工智能实验室举行。
OpenDataLab
·
2023-09-18 22:24
开源数据集下载
人工智能
深度学习
机器学习
《多模态
语料
库 “书生·万卷” 1.0 详细解读 | 附下载地址》
为了改变这一现状,OpenDataLab联合大模型
语料
数据联盟构建了“书生·万卷”数据集,旨在为学术界及产业界提供更符合主流中文价值对齐的高质量大模型多模态预训练
语料
。
OpenDataLab
·
2023-09-18 22:54
开源数据集下载
多模态数据集
人工智能
大数据
计算机视觉
深度学习
机器学习
手把手教你 5 分钟将公司 CEO 数字克隆装进公众号
首先你需要准备自己的
语料
,我们CEO的
语料
就是来自各种同性交友大会
·
2023-09-18 19:49
云计算
2018-06-30缺失角色填充笔记
侯立斌经过对ACE2005
语料
进行后期标注,并通过对缺失事件的角色的分析和统计,提出了一个基于机器学习的缺失事件角色填充方法。
少帅qaz
·
2023-09-18 12:57
完美解决torchtext方法bug问题:AttributeError: module ‘torchtext.data‘ has no attribute ‘Field‘
以下是TorchText的一些主要特点和功能:文本数据的处理:数据加载:TorchText允许用户轻松加载文本数据集,例如
语料
库、CSV
源代码杀手
·
2023-09-17 13:20
报错记录
bug
Llama2-Chinese项目:2.2-大语言模型词表扩充
思路通常是在中文
语料
库上训练一个中文tokenizer模型,然后将中文tokenizer与LLaMA原生tokenizer进行合并,最终得到一个扩展后的tokenizer模型。
NLP工程化
·
2023-09-17 10:39
人工智能
自然语言处理
Llama
大语言模型
如何实现“AI SEO伪原创”?
市面上已经有众多【AI伪原创】工具,看产品说明,介绍是基于NPL卷积神经网络千万
语料
库机器学习生成的文章。
福水
·
2023-09-17 08:30
关于管理后台和B端产品数据批量导入功能的产品思考
作为中台、后台、B端产品经理,设计数据批量导入功能大概率会遇到,因为后端主要管理的就是数据,比如用户信息、资源信息、训练
语料
等等。
落霞__孤鹜
·
2023-09-16 10:39
Gensim库的使用——Gensim库的核心概念介绍
核心概念在gensim中有一些核心的概念,这里简要介绍一下:1、Document(文档):主要是指一些文本2、Corpus(
语料
库):文档的一个集合3、Vecto
桉夏与猫
·
2023-09-16 08:47
gensim
python
机器学习
深度学习
自然语言处理
人工智能
北大 宾州树库
语料
标注集
北大标注集词性编码词性名称注解Ag形语素形容词语素。形容词代码为a,语素代码为g前面置以Aa形容词取英语形容词adjective的第1个字母ad副形词直接作状语的形容词。形容词代码a和副词代码d并在一起an名形词具有名词功能的形容词。形容词代码a和名词代码n一起b区别词取汉字“别”的声母c连词去英语连词conjunction的第1个字母Dg副语素副词性语素。副词代码为d,语素代码g前面置以Dd副词
qiqiaiairen
·
2023-09-14 16:57
语言学
北大
宾州树库
标注集
【2023】数据挖掘课程设计:基于TF-IDF的文本分类
课程设计题目基于TF-IDF的文本分类二、课程设计设置1.操作系统2.IDE3.python4.相关的库三、课程设计目标1.掌握数据预处理的方法,对训练集数据进行预处理;2.掌握文本分类建模的方法,对
语料
库的文档进行建模
QomolangmaH
·
2023-09-14 07:46
人工智能
机器学习
数据挖掘
机器学习
自然语言处理
人工智能
文本分类
中文
语料
库
下载链接:https://github.com/SophonPlus/ChineseNlpCorpus包括:
wendy云泽
·
2023-09-14 00:55
ACL论文阅读笔记_2019-10-20
EffectsofCreativityandClusterTightnessonShortTextClusteringPerformance摘要
语料
库的属性有:词汇的多样程度相关文档集群的紧密程度
语料
库的属性往往影响聚类算法的表现
雨住多一横
·
2023-09-13 23:40
腾讯混元大模型—携千亿参数勇闯“百模大战”孰胜孰败,实力说话
腾讯混元大模型是由腾讯全链路自研的通用大语言模型,拥有超千亿参数规模,预训练
语料
超2万亿tokens,具备强大的中文创作能力,复杂语境下的逻辑推理能力,以及可靠的任务执行能力。
BFT白芙堂
·
2023-09-13 19:28
人工智能
推荐10个AI人工智能技术网站(一键收藏,应有尽有)
通过学习和理解海量的
语料
库数据,MentalAI能够从中
偷拨网线的william
·
2023-09-13 16:14
人工智能
TF-IDF算法介绍和基于Python的实现
TF是词频(TermFrequency),IDF是逆文本频率(InverseDocumentFrequency) TF-IDF是一种统计方法,用以评估一字词对于一个
语料
库中的其中一份文件的重要程度。
weiambt
·
2023-09-13 12:55
python
python
数据挖掘
算法
听说最近ChatGPT很火?我来整个废话版ChatGPT!
文章目录需求分析项目初始化读取
语料
库文件实现随机模块生成文章保存文章命令行配置参数命令行交互废话版ChatGPT网页版废话版ChatGPT的功能是能根据
语料
库的配置和用户输入的规则,随机生成一篇可长可短的文本
萌萌哒の瑞萌萌
·
2023-09-13 07:14
前端
chatgpt
前端
node.js
数学之美 吴军 读书笔记
2.语言的数据,也称为
语料
。双语或者多语的对照
语料
3.文字和语言背后的数学拼音文字常用字短,生僻字复杂符合信息论的最短编码原理。比如文言文,文字少意思丰富,需要文人解码成白话文才通俗易懂。
white diamond
·
2023-09-12 22:03
论文阅读笔记
开放域问答论文-Generator-Retriever-Generator: A Novel Approach to Open-domain Question Answering
4.1数据集4.2文件编号的选择4.3实验设置5结果5.1开放域QA结果消融6结论论文链接:https://arxiv.org/pdf/2307.11278.pdf摘要开放域问答(QA)任务通常需要从大型
语料
库中检索相关信息以生成准确的答案
无脑敲代码,bug漫天飞
·
2023-09-12 07:23
知识图谱
论文阅读
AIGC:【LLM(七)】——Baichuan2:真开源可商用的中文大模型
4.3离线量化4.4量化效果五.模型微调5.1依赖安装5.2单机训练5.3多机训练5.4轻量化微调一.模型介绍Baichuan2是百川智能推出的新一代开源大语言模型,采用2.6万亿Tokens的高质量
语料
训练
J_Xiong0117
·
2023-09-12 06:46
LLMs
自然语言处理
AIGC
开源
【序列模型】第二课--自然语言处理与词嵌入
即根据拥有的尽可能多的
语料
,整理一份词典,词典长度为n,使得每个词对应一个n*1的词向量,其中该词索引所在的位置为1,其余位置为0.比如,如下图,woman这个词在索引为9853的位置上是1,其余位置为
dili8870
·
2023-09-12 05:27
人工智能
数据结构与算法
大数据
盗卡盗刷欺诈
1.黑产行业术
语料
:银行卡信息,料站:售卖信息的人,刷货:线下购物,外料:国外信用卡资料,衣服:代指卡面,机主:掌握pos机的人轨道料:通过pos机/ATM的方式,在用户刷卡时读取并保
雪碧可乐
·
2023-09-11 17:41
中国大模型
语料
数据联盟迎来9家新成员,开源第二批
语料
数据
为提升
语料
数据供给水平,推动大模型产业高质量发展加速应用创新与行业落地,9月8日,由中国大模型
语料
数据联盟(以下简称“
语料
数据联盟”)主办的数说新语·开放日首场活动在上海人工智能实验室举行。
·
2023-09-11 15:06
人工智能机器学习
《人民日报》评论热点话题金句46| 结构化面试考点 | 申论规范化表达词 | 公务员国考省考申论素材积累(2022年9月24日)
参考
语料
“人民勤俭辛劳甚,累进丰收是逐年。”古往今来,勤劳的人民,勤奋的文化,重农的传统,涵养出中华民族质朴浑厚的民族气质。
47fed7735c2d
·
2023-09-10 21:02
tokenizer.texts_to_sequences()
#如果不为不在
语料
库中的单词创建一个单独的标志,例如"",则可能出现下述情况当seed_text为"Iwenttodublin"时,长度为4;当seed_text为"Lawrencewenttodublin
唐生一
·
2023-09-10 19:27
NLP
python
nlp
语料
,何德何能,让人又爱又恨!
本文约3028字阅读需要13min一、
语料
的需求与工具的产生与发展
语料
-从业者心中永远的痛拥有数据就像拥有矿产,是构建起竞争壁垒的关键,这是AI界最根本的竞争。
语料
作为数据的一种,也不例外。
本识
·
2023-09-10 17:51
自然语言处理NLP:一文了解NLP自然语言处理技术,NLP在生活中的应用,图导加深了解,NLP
语料
库,NLP开源工具
目录1.自然语言处理NLP1.1NLP中英对照(双份)1.2相关文章2.NLP
语料
库2.1NLP
语料
库列举2.2相关文章3.NLP开源工具3.1NLP开源工具列举3.2相关文章4.自然语言文本分类模型代码
Solitary_孤影照惊鸿
·
2023-09-10 00:04
自然语言处理(NLP)
计算机
/
人工智能
自然语言处理
人工智能
MathGPT是什么,MathGPT与ChatGPT的区别是什么,MathGPT十大应用场景
与ChatGPT相比,MathGPT主要关注数学领域而非通用性的自然语言理解,因此其训练
语料
库和预测任务都与数学有关,同时还加入了数学专有的结构和语法规则,以更好地服从数学领域的特点。
『六道』
·
2023-09-09 22:58
自然语言处理
AI写作
深度学习
数据挖掘
人工智能
自然语言处理 第八章 机器翻译复习
(词表受限问题)解决办法subword方法beamsearchcoveragepenalty(翻译覆盖率问题)推敲网络(DeliberationNetwork)非自回归模型系统鲁棒性低资源神经机器翻译
语料
资源受限问题多语预训练语言模型机器翻译概述任务描
SiYuanFeng
·
2023-09-09 11:26
自然语言处理
机器翻译
人工智能
腾讯发布超千亿参数规模的混元大模型;深度学习与音乐分析与生成课程介绍
AI新闻腾讯发布超千亿参数规模的混元大模型摘要:腾讯在2023腾讯全球数字生态大会上发布混元大模型,该模型拥有超千亿的参数规模和超2万亿tokens的预训练
语料
。
go2coding
·
2023-09-09 07:45
AI日报
深度学习
人工智能
基于Bert+Attention+LSTM智能校园知识图谱问答推荐系统——NLP自然语言处理算法应用(含Python全部工程源码及训练模型)+数据集
.检索问题类别5.查询结果系统测试1.命名实体识别网络测试2.知识图谱问答系统整体测试工程源代码下载其它资料下载前言这个项目充分利用了Google的Bert模型,这是一种基于Attention的大规模
语料
预训练模型
小胡说人工智能
·
2023-09-09 07:43
NLP
学习路线
bert
lstm
nlp
知识图谱
gpt
attention
python
AIUI一些技术概念理解
一个意图又包含若干句
语料
。
语料
为交互的核心内容。按照粒度从大到小划分:应用>技能>意图>
语料
以智能音箱为例,音箱可以拥有若干个技能,比如天气、音乐、空调以及星座。
醉岩
·
2023-09-08 17:01
使用ChatGLMTokenizer处理json格式数据
我下载了一些中文wikipedia数据,准备采用ChatGLMTokenizer对齐进行清洗,整理为预训练
语料
。
一位安分的码农
·
2023-09-08 13:11
数据清洗
json
VBA实现
语料
或术语表奇偶行分列和双列合一
一、问题的提出日常的双语
语料
处理或者术语格式转化过程中经常要用到下面的操作:1.在Excel中把一列双行即上下对照的形式改为左右对照。如下图所示,把A转化为B这种样式。
PythonFun
·
2023-09-08 10:05
VBA
VBA
语料库
术语库
GPT与BERT模型
BERT和GPT都是基于预训练语言模型的思想,通过大量
语料
训练得到语言模型。两种模型都是基于Transformer模型。
Mark_Aussie
·
2023-09-08 05:07
nlp
自然语言处理
腾讯正式发布新混元大模型:规模超千亿,预训练
语料
超2万亿
该模型参数规模超过千亿,预训练
语料
超过2万亿tokens,并已成功测试于腾讯云、腾讯广告、微信搜一搜等多个内部业务和产品中。
博学的轮船Y
·
2023-09-07 16:34
腾讯
科技
可信计算技术
人工智能
云计算
大数据
NLP:中科院NLP
语料
库
中科院NLP
语料
库是由中国科学院自然语言处理与社会人文计算实验室(CASIA-NLP)研发的中文大规模自然语言处理
语料
库。该
语料
库包含了多种不同类型的文本数据,如新闻、论坛、微博、百科、小说等。
Solitary_孤影照惊鸿
·
2023-09-07 05:06
自然语言处理(NLP)
计算机
/
人工智能
自然语言处理
人工智能
【ERNIE: Enhanced Language Representation with Informative Entities】
大规模文本
语料
库和KG来训练增强语言模型ERNIE(充分利用词汇&语法&知识信息)introduction里面前两段说了现有的预训练语言模型好,但没考虑知识,而考虑知识很关键。所以就提出了ERNIE。
唯师默蓝
·
2023-09-07 03:58
大模型微调总结
在某些特定任务上无法达到实际业务需求or性能差无法直接使用==>改善特定任务下欠拟合程度数据:预训练数据分布和特定任务数据分布不一致==>将特定任务、场景的
语料
的内在关系融入大模型参数中,同时和预训练的通用
语料
建立联通关系
王小燊oom
·
2023-09-06 19:44
LLM
人工智能
企业数据,大语言模型和矢量数据库
我们可以将私有数据作为微调
语料
来让大语言模型记住新知识,这种方法虽然可以让
·
2023-09-06 17:30
矢量
上一页
6
7
8
9
10
11
12
13
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他