语料第10页

LLM-大模型训练-步骤(一)：词表扩充【sentencepiece】

在通用中文语料上训练了基于sentencepiece的20K中文词表并与原版LLaMA模型的32K词表进行合并排除重复的token后，得到的最终中文LLaMA词表大小为49953需要注意的是，在fine-tune

u013250861·2023-09-23 22:37

中文LLaMa和Alpaca大语言模型开源方案 | 扩充中文词表 & 针对中文语料进行高效编码

欢迎关注『CVHub』官方微信公众号！Title:EfficientandEffectiveTextEncodingforChineseLlamaandAlpacaPDF:https://arxiv.org/pdf/2304.08177v1.pdfCode:https://github.com/ymcui/Chinese-LLaMA-Alpaca导读大型语言模型LLM，如ChatGPT和GPT-4

CVHub·2023-09-23 22:33

搭建一个FAQ智能问答系统/服务

流程1.初始化流程1.读取QA数据集2.创建Elasticsearch的index索引3.将QA语料导入Elasticsearch2.查询流程输入que

Neleuska·2023-09-23 15:39

[学术前沿]2021年5月arxiv简介论文浅读

5月2日Text-to-TextMulti-viewLearningforPassageRe-ranking近期自然语言处理地很多进展都是由在大型语料库上预训练得到的深度语境化表征推动的。

be5e948f337b·2023-09-23 01:42

LLM系列 | 20 : Llama2 实战(下篇)-中文语料微调(附完整代码)

今天这篇小作文作为Llama2的下篇，主要介绍如何用中文语料对Llama2的基座模型(7B版)进行微调并实测微调后模型的效果。本文实验完整代码请找小编索取。

JasonLiu1919·2023-09-23 00:49

技术动态 | 面向知识图谱构建的电子战领域语料库建设

转载公众号|专知本文发表于《指挥信息系统与技术》2023年第2期作者：王航，张宏军，程恺，徐有为，申秋慧，李大硕引用格式：王航，张宏军，程恺，等.面向知识图谱构建的电子战领域语料库建设［J］.指挥信息系统与技术

开放知识图谱·2023-09-22 15:29

WordNet

wordNetwordNet是普林斯顿大学开发的英语语料库，可以理解为就是一个词典，在python中的nltk.corpus可以直接获得，它良好的组织结构使得它在nlp中可以帮助我们更好的理解语义。

Athenaearl·2023-09-22 11:49

ChatGpt介绍和国产ChatGpt对比

它使用深度学习技术，通过对大量语料库的学习和训练，可以生成类似人类语言的回复。ChatGPT可以用于各种场景，如客户服务、智能助手、社交媒体等。3.ChatGPT

萧鼎·2023-09-21 09:58

TF-IDF算法

TF-IDF（TermFrequency-InverseDocumentFrequency）是一种常用于信息检索和文本挖掘的统计方法，用于评估一个词在文档集或一个语料库中的重要程度。

·2023-09-20 10:40

知识图谱实战导论：从什么是KG到LLM与KG/DB的结合实战

LLM如此突飞猛进呢第一部分知识图谱入门导论//待更..第二部分LLM与知识图谱的结合2.1LLM为何要与知识图谱相结合通过本文之前或本博客内之前的内容可知，由于大部分LLM都是基于过去互联网旧的预训练语料训练

v_JULY_v·2023-09-19 16:31

中国大模型语料数据联盟迎来9家新成员，开源第二批语料数据

为提升语料数据供给水平，推动大模型产业高质量发展加速应用创新与行业落地，9月8日，由中国大模型语料数据联盟（以下简称“语料数据联盟”）主办的数说新语·开放日首场活动在上海人工智能实验室举行。

OpenDataLab·2023-09-18 22:24

《多模态语料库 “书生·万卷” 1.0 详细解读 | 附下载地址》

为了改变这一现状，OpenDataLab联合大模型语料数据联盟构建了“书生·万卷”数据集，旨在为学术界及产业界提供更符合主流中文价值对齐的高质量大模型多模态预训练语料。

OpenDataLab·2023-09-18 22:54

手把手教你 5 分钟将公司 CEO 数字克隆装进公众号

首先你需要准备自己的语料，我们CEO的语料就是来自各种同性交友大会

·2023-09-18 19:49

2018-06-30缺失角色填充笔记

侯立斌经过对ACE2005语料进行后期标注，并通过对缺失事件的角色的分析和统计，提出了一个基于机器学习的缺失事件角色填充方法。

少帅qaz·2023-09-18 12:57

完美解决torchtext方法bug问题：AttributeError: module ‘torchtext.data‘ has no attribute ‘Field‘

以下是TorchText的一些主要特点和功能：文本数据的处理：数据加载：TorchText允许用户轻松加载文本数据集，例如语料库、CSV

源代码杀手·2023-09-17 13:20

Llama2-Chinese项目：2.2-大语言模型词表扩充

思路通常是在中文语料库上训练一个中文tokenizer模型，然后将中文tokenizer与LLaMA原生tokenizer进行合并，最终得到一个扩展后的tokenizer模型。

NLP工程化·2023-09-17 10:39

如何实现“AI SEO伪原创”？

市面上已经有众多【AI伪原创】工具，看产品说明，介绍是基于NPL卷积神经网络千万语料库机器学习生成的文章。

福水·2023-09-17 08:30

关于管理后台和B端产品数据批量导入功能的产品思考

作为中台、后台、B端产品经理，设计数据批量导入功能大概率会遇到，因为后端主要管理的就是数据，比如用户信息、资源信息、训练语料等等。

落霞__孤鹜·2023-09-16 10:39

Gensim库的使用——Gensim库的核心概念介绍

核心概念在gensim中有一些核心的概念，这里简要介绍一下：1、Document（文档）：主要是指一些文本2、Corpus（语料库）：文档的一个集合3、Vecto

桉夏与猫·2023-09-16 08:47

北大宾州树库语料标注集

北大标注集词性编码词性名称注解Ag形语素形容词语素。形容词代码为a，语素代码为g前面置以Aa形容词取英语形容词adjective的第1个字母ad副形词直接作状语的形容词。形容词代码a和副词代码d并在一起an名形词具有名词功能的形容词。形容词代码a和名词代码n一起b区别词取汉字“别”的声母c连词去英语连词conjunction的第1个字母Dg副语素副词性语素。副词代码为d，语素代码g前面置以Dd副词

qiqiaiairen·2023-09-14 16:57

【2023】数据挖掘课程设计：基于TF-IDF的文本分类

课程设计题目基于TF-IDF的文本分类二、课程设计设置1.操作系统2.IDE3.python4.相关的库三、课程设计目标1.掌握数据预处理的方法，对训练集数据进行预处理；2.掌握文本分类建模的方法，对语料库的文档进行建模

QomolangmaH·2023-09-14 07:46

中文语料库

下载链接：https://github.com/SophonPlus/ChineseNlpCorpus包括：

wendy云泽·2023-09-14 00:55

ACL论文阅读笔记_2019-10-20

EffectsofCreativityandClusterTightnessonShortTextClusteringPerformance摘要语料库的属性有：词汇的多样程度相关文档集群的紧密程度语料库的属性往往影响聚类算法的表现

雨住多一横·2023-09-13 23:40

腾讯混元大模型—携千亿参数勇闯“百模大战”孰胜孰败，实力说话

腾讯混元大模型是由腾讯全链路自研的通用大语言模型，拥有超千亿参数规模，预训练语料超2万亿tokens，具备强大的中文创作能力，复杂语境下的逻辑推理能力，以及可靠的任务执行能力。

BFT白芙堂·2023-09-13 19:28

TF-IDF算法介绍和基于Python的实现

TF是词频(TermFrequency)，IDF是逆文本频率(InverseDocumentFrequency) TF-IDF是一种统计方法，用以评估一字词对于一个语料库中的其中一份文件的重要程度。

weiambt·2023-09-13 12:55

听说最近ChatGPT很火？我来整个废话版ChatGPT！

文章目录需求分析项目初始化读取语料库文件实现随机模块生成文章保存文章命令行配置参数命令行交互废话版ChatGPT网页版废话版ChatGPT的功能是能根据语料库的配置和用户输入的规则，随机生成一篇可长可短的文本

萌萌哒の瑞萌萌·2023-09-13 07:14

数学之美吴军读书笔记

2.语言的数据,也称为语料。双语或者多语的对照语料3.文字和语言背后的数学拼音文字常用字短，生僻字复杂符合信息论的最短编码原理。比如文言文，文字少意思丰富，需要文人解码成白话文才通俗易懂。

white diamond·2023-09-12 22:03

开放域问答论文-Generator-Retriever-Generator: A Novel Approach to Open-domain Question Answering

4.1数据集4.2文件编号的选择4.3实验设置5结果5.1开放域QA结果消融6结论论文链接：https://arxiv.org/pdf/2307.11278.pdf摘要开放域问答（QA）任务通常需要从大型语料库中检索相关信息以生成准确的答案

无脑敲代码，bug漫天飞·2023-09-12 07:23

AIGC：【LLM（七）】——Baichuan2：真开源可商用的中文大模型

4.3离线量化4.4量化效果五.模型微调5.1依赖安装5.2单机训练5.3多机训练5.4轻量化微调一.模型介绍Baichuan2是百川智能推出的新一代开源大语言模型，采用2.6万亿Tokens的高质量语料训练

J_Xiong0117·2023-09-12 06:46

【序列模型】第二课--自然语言处理与词嵌入

即根据拥有的尽可能多的语料，整理一份词典，词典长度为n，使得每个词对应一个n*1的词向量，其中该词索引所在的位置为1，其余位置为0.比如，如下图，woman这个词在索引为9853的位置上是1，其余位置为

dili8870·2023-09-12 05:27

盗卡盗刷欺诈

1.黑产行业术语料：银行卡信息，料站：售卖信息的人，刷货：线下购物，外料：国外信用卡资料，衣服：代指卡面，机主：掌握pos机的人轨道料：通过pos机/ATM的方式，在用户刷卡时读取并保

雪碧可乐·2023-09-11 17:41

中国大模型语料数据联盟迎来9家新成员，开源第二批语料数据

为提升语料数据供给水平，推动大模型产业高质量发展加速应用创新与行业落地，9月8日，由中国大模型语料数据联盟（以下简称“语料数据联盟”）主办的数说新语·开放日首场活动在上海人工智能实验室举行。

·2023-09-11 15:06

《人民日报》评论热点话题金句46| 结构化面试考点 | 申论规范化表达词 | 公务员国考省考申论素材积累（2022年9月24日）

参考语料“人民勤俭辛劳甚，累进丰收是逐年。”古往今来，勤劳的人民，勤奋的文化，重农的传统，涵养出中华民族质朴浑厚的民族气质。

47fed7735c2d·2023-09-10 21:02

tokenizer.texts_to_sequences()

#如果不为不在语料库中的单词创建一个单独的标志，例如"",则可能出现下述情况当seed_text为"Iwenttodublin"时，长度为4；当seed_text为"Lawrencewenttodublin

唐生一·2023-09-10 19:27

语料，何德何能，让人又爱又恨！

本文约3028字阅读需要13min一、语料的需求与工具的产生与发展语料-从业者心中永远的痛拥有数据就像拥有矿产，是构建起竞争壁垒的关键，这是AI界最根本的竞争。语料作为数据的一种，也不例外。

本识·2023-09-10 17:51

自然语言处理NLP：一文了解NLP自然语言处理技术，NLP在生活中的应用，图导加深了解，NLP语料库，NLP开源工具

目录1.自然语言处理NLP1.1NLP中英对照（双份）1.2相关文章2.NLP语料库2.1NLP语料库列举2.2相关文章3.NLP开源工具3.1NLP开源工具列举3.2相关文章4.自然语言文本分类模型代码

Solitary_孤影照惊鸿·2023-09-10 00:04

MathGPT是什么，MathGPT与ChatGPT的区别是什么，MathGPT十大应用场景

与ChatGPT相比，MathGPT主要关注数学领域而非通用性的自然语言理解，因此其训练语料库和预测任务都与数学有关，同时还加入了数学专有的结构和语法规则，以更好地服从数学领域的特点。

『六道』·2023-09-09 22:58

自然语言处理第八章机器翻译复习

（词表受限问题）解决办法subword方法beamsearchcoveragepenalty（翻译覆盖率问题）推敲网络（DeliberationNetwork）非自回归模型系统鲁棒性低资源神经机器翻译语料资源受限问题多语预训练语言模型机器翻译概述任务描

SiYuanFeng·2023-09-09 11:26

腾讯发布超千亿参数规模的混元大模型；深度学习与音乐分析与生成课程介绍

AI新闻腾讯发布超千亿参数规模的混元大模型摘要：腾讯在2023腾讯全球数字生态大会上发布混元大模型，该模型拥有超千亿的参数规模和超2万亿tokens的预训练语料。

go2coding·2023-09-09 07:45

基于Bert+Attention+LSTM智能校园知识图谱问答推荐系统——NLP自然语言处理算法应用(含Python全部工程源码及训练模型)+数据集

.检索问题类别5.查询结果系统测试1.命名实体识别网络测试2.知识图谱问答系统整体测试工程源代码下载其它资料下载前言这个项目充分利用了Google的Bert模型，这是一种基于Attention的大规模语料预训练模型

小胡说人工智能·2023-09-09 07:43

AIUI一些技术概念理解

一个意图又包含若干句语料。语料为交互的核心内容。按照粒度从大到小划分：应用>技能>意图>语料以智能音箱为例，音箱可以拥有若干个技能，比如天气、音乐、空调以及星座。

醉岩·2023-09-08 17:01

使用ChatGLMTokenizer处理json格式数据

我下载了一些中文wikipedia数据，准备采用ChatGLMTokenizer对齐进行清洗，整理为预训练语料。

一位安分的码农·2023-09-08 13:11

VBA实现语料或术语表奇偶行分列和双列合一

一、问题的提出日常的双语语料处理或者术语格式转化过程中经常要用到下面的操作：1.在Excel中把一列双行即上下对照的形式改为左右对照。如下图所示，把A转化为B这种样式。

PythonFun·2023-09-08 10:05

GPT与BERT模型

BERT和GPT都是基于预训练语言模型的思想，通过大量语料训练得到语言模型。两种模型都是基于Transformer模型。

Mark_Aussie·2023-09-08 05:07

腾讯正式发布新混元大模型：规模超千亿，预训练语料超2万亿

该模型参数规模超过千亿，预训练语料超过2万亿tokens，并已成功测试于腾讯云、腾讯广告、微信搜一搜等多个内部业务和产品中。

博学的轮船Y·2023-09-07 16:34

NLP：中科院NLP语料库

中科院NLP语料库是由中国科学院自然语言处理与社会人文计算实验室（CASIA-NLP）研发的中文大规模自然语言处理语料库。该语料库包含了多种不同类型的文本数据，如新闻、论坛、微博、百科、小说等。

Solitary_孤影照惊鸿·2023-09-07 05:06

【ERNIE: Enhanced Language Representation with Informative Entities】

大规模文本语料库和KG来训练增强语言模型ERNIE（充分利用词汇&语法&知识信息）introduction里面前两段说了现有的预训练语言模型好，但没考虑知识，而考虑知识很关键。所以就提出了ERNIE。

唯师默蓝·2023-09-07 03:58

大模型微调总结

在某些特定任务上无法达到实际业务需求or性能差无法直接使用==>改善特定任务下欠拟合程度数据：预训练数据分布和特定任务数据分布不一致==>将特定任务、场景的语料的内在关系融入大模型参数中，同时和预训练的通用语料建立联通关系

王小燊oom·2023-09-06 19:44

企业数据，大语言模型和矢量数据库

我们可以将私有数据作为微调语料来让大语言模型记住新知识，这种方法虽然可以让

·2023-09-06 17:30

推荐频道

语料

LLM-大模型训练-步骤(一)：词表扩充【sentencepiece】

中文LLaMa和Alpaca大语言模型开源方案 | 扩充中文词表 & 针对中文语料进行高效编码

搭建一个FAQ智能问答系统/服务

[学术前沿]2021年5月arxiv简介论文浅读

LLM系列 | 20 : Llama2 实战(下篇)-中文语料微调(附完整代码)

技术动态 | 面向知识图谱构建的电子战领域语料库建设

WordNet

ChatGpt介绍和国产ChatGpt对比

TF-IDF算法

知识图谱实战导论：从什么是KG到LLM与KG/DB的结合实战

中国大模型语料数据联盟迎来9家新成员，开源第二批语料数据

《多模态语料库 “书生·万卷” 1.0 详细解读 | 附下载地址》

手把手教你 5 分钟将公司 CEO 数字克隆装进公众号

2018-06-30缺失角色填充笔记

完美解决torchtext方法bug问题：AttributeError: module ‘torchtext.data‘ has no attribute ‘Field‘

Llama2-Chinese项目：2.2-大语言模型词表扩充

如何实现“AI SEO伪原创”？

关于管理后台和B端产品数据批量导入功能的产品思考

Gensim库的使用——Gensim库的核心概念介绍

北大 宾州树库 语料标注集

【2023】数据挖掘课程设计：基于TF-IDF的文本分类

中文语料库

ACL论文阅读笔记_2019-10-20

腾讯混元大模型—携千亿参数勇闯“百模大战”孰胜孰败，实力说话

推荐10个AI人工智能技术网站（一键收藏，应有尽有）

TF-IDF算法介绍和基于Python的实现

听说最近ChatGPT很火？我来整个废话版ChatGPT！

数学之美 吴军 读书笔记

开放域问答论文-Generator-Retriever-Generator: A Novel Approach to Open-domain Question Answering

AIGC：【LLM（七）】——Baichuan2：真开源可商用的中文大模型

【序列模型】第二课--自然语言处理与词嵌入

盗卡盗刷欺诈

中国大模型语料数据联盟迎来9家新成员，开源第二批语料数据

《人民日报》评论热点话题金句46| 结构化面试考点 | 申论规范化表达词 | 公务员国考省考申论素材积累（2022年9月24日）

tokenizer.texts_to_sequences()

语料，何德何能，让人又爱又恨！

自然语言处理NLP：一文了解NLP自然语言处理技术，NLP在生活中的应用，图导加深了解，NLP语料库，NLP开源工具

MathGPT是什么，MathGPT与ChatGPT的区别是什么，MathGPT十大应用场景

自然语言处理 第八章 机器翻译复习

腾讯发布超千亿参数规模的混元大模型；深度学习与音乐分析与生成课程介绍

基于Bert+Attention+LSTM智能校园知识图谱问答推荐系统——NLP自然语言处理算法应用(含Python全部工程源码及训练模型)+数据集

AIUI一些技术概念理解

使用ChatGLMTokenizer处理json格式数据

VBA实现语料或术语表奇偶行分列和双列合一

GPT与BERT模型

腾讯正式发布新混元大模型：规模超千亿，预训练语料超2万亿

NLP：中科院NLP语料库

【ERNIE: Enhanced Language Representation with Informative Entities】

大模型微调总结

企业数据，大语言模型和矢量数据库

北大宾州树库语料标注集

数学之美吴军读书笔记

自然语言处理第八章机器翻译复习