语料第13页

如何实现“AI SEO伪原创”？

市面上已经有众多【AI伪原创】工具，看产品说明，介绍是基于NPL卷积神经网络千万语料库机器学习生成的文章。

福水·2023-09-17 08:30

关于管理后台和B端产品数据批量导入功能的产品思考

作为中台、后台、B端产品经理，设计数据批量导入功能大概率会遇到，因为后端主要管理的就是数据，比如用户信息、资源信息、训练语料等等。

落霞__孤鹜·2023-09-16 10:39

Gensim库的使用——Gensim库的核心概念介绍

核心概念在gensim中有一些核心的概念，这里简要介绍一下：1、Document（文档）：主要是指一些文本2、Corpus（语料库）：文档的一个集合3、Vecto

桉夏与猫·2023-09-16 08:47

北大宾州树库语料标注集

北大标注集词性编码词性名称注解Ag形语素形容词语素。形容词代码为a，语素代码为g前面置以Aa形容词取英语形容词adjective的第1个字母ad副形词直接作状语的形容词。形容词代码a和副词代码d并在一起an名形词具有名词功能的形容词。形容词代码a和名词代码n一起b区别词取汉字“别”的声母c连词去英语连词conjunction的第1个字母Dg副语素副词性语素。副词代码为d，语素代码g前面置以Dd副词

qiqiaiairen·2023-09-14 16:57

【2023】数据挖掘课程设计：基于TF-IDF的文本分类

课程设计题目基于TF-IDF的文本分类二、课程设计设置1.操作系统2.IDE3.python4.相关的库三、课程设计目标1.掌握数据预处理的方法，对训练集数据进行预处理；2.掌握文本分类建模的方法，对语料库的文档进行建模

QomolangmaH·2023-09-14 07:46

中文语料库

下载链接：https://github.com/SophonPlus/ChineseNlpCorpus包括：

wendy云泽·2023-09-14 00:55

ACL论文阅读笔记_2019-10-20

EffectsofCreativityandClusterTightnessonShortTextClusteringPerformance摘要语料库的属性有：词汇的多样程度相关文档集群的紧密程度语料库的属性往往影响聚类算法的表现

雨住多一横·2023-09-13 23:40

腾讯混元大模型—携千亿参数勇闯“百模大战”孰胜孰败，实力说话

腾讯混元大模型是由腾讯全链路自研的通用大语言模型，拥有超千亿参数规模，预训练语料超2万亿tokens，具备强大的中文创作能力，复杂语境下的逻辑推理能力，以及可靠的任务执行能力。

BFT白芙堂·2023-09-13 19:28

TF-IDF算法介绍和基于Python的实现

TF是词频(TermFrequency)，IDF是逆文本频率(InverseDocumentFrequency) TF-IDF是一种统计方法，用以评估一字词对于一个语料库中的其中一份文件的重要程度。

weiambt·2023-09-13 12:55

听说最近ChatGPT很火？我来整个废话版ChatGPT！

文章目录需求分析项目初始化读取语料库文件实现随机模块生成文章保存文章命令行配置参数命令行交互废话版ChatGPT网页版废话版ChatGPT的功能是能根据语料库的配置和用户输入的规则，随机生成一篇可长可短的文本

萌萌哒の瑞萌萌·2023-09-13 07:14

数学之美吴军读书笔记

2.语言的数据,也称为语料。双语或者多语的对照语料3.文字和语言背后的数学拼音文字常用字短，生僻字复杂符合信息论的最短编码原理。比如文言文，文字少意思丰富，需要文人解码成白话文才通俗易懂。

white diamond·2023-09-12 22:03

开放域问答论文-Generator-Retriever-Generator: A Novel Approach to Open-domain Question Answering

4.1数据集4.2文件编号的选择4.3实验设置5结果5.1开放域QA结果消融6结论论文链接：https://arxiv.org/pdf/2307.11278.pdf摘要开放域问答（QA）任务通常需要从大型语料库中检索相关信息以生成准确的答案

无脑敲代码，bug漫天飞·2023-09-12 07:23

AIGC：【LLM（七）】——Baichuan2：真开源可商用的中文大模型

4.3离线量化4.4量化效果五.模型微调5.1依赖安装5.2单机训练5.3多机训练5.4轻量化微调一.模型介绍Baichuan2是百川智能推出的新一代开源大语言模型，采用2.6万亿Tokens的高质量语料训练

J_Xiong0117·2023-09-12 06:46

【序列模型】第二课--自然语言处理与词嵌入

即根据拥有的尽可能多的语料，整理一份词典，词典长度为n，使得每个词对应一个n*1的词向量，其中该词索引所在的位置为1，其余位置为0.比如，如下图，woman这个词在索引为9853的位置上是1，其余位置为

dili8870·2023-09-12 05:27

盗卡盗刷欺诈

1.黑产行业术语料：银行卡信息，料站：售卖信息的人，刷货：线下购物，外料：国外信用卡资料，衣服：代指卡面，机主：掌握pos机的人轨道料：通过pos机/ATM的方式，在用户刷卡时读取并保

雪碧可乐·2023-09-11 17:41

中国大模型语料数据联盟迎来9家新成员，开源第二批语料数据

为提升语料数据供给水平，推动大模型产业高质量发展加速应用创新与行业落地，9月8日，由中国大模型语料数据联盟（以下简称“语料数据联盟”）主办的数说新语·开放日首场活动在上海人工智能实验室举行。

·2023-09-11 15:06

《人民日报》评论热点话题金句46| 结构化面试考点 | 申论规范化表达词 | 公务员国考省考申论素材积累（2022年9月24日）

参考语料“人民勤俭辛劳甚，累进丰收是逐年。”古往今来，勤劳的人民，勤奋的文化，重农的传统，涵养出中华民族质朴浑厚的民族气质。

47fed7735c2d·2023-09-10 21:02

tokenizer.texts_to_sequences()

#如果不为不在语料库中的单词创建一个单独的标志，例如"",则可能出现下述情况当seed_text为"Iwenttodublin"时，长度为4；当seed_text为"Lawrencewenttodublin

唐生一·2023-09-10 19:27

语料，何德何能，让人又爱又恨！

本文约3028字阅读需要13min一、语料的需求与工具的产生与发展语料-从业者心中永远的痛拥有数据就像拥有矿产，是构建起竞争壁垒的关键，这是AI界最根本的竞争。语料作为数据的一种，也不例外。

本识·2023-09-10 17:51

自然语言处理NLP：一文了解NLP自然语言处理技术，NLP在生活中的应用，图导加深了解，NLP语料库，NLP开源工具

目录1.自然语言处理NLP1.1NLP中英对照（双份）1.2相关文章2.NLP语料库2.1NLP语料库列举2.2相关文章3.NLP开源工具3.1NLP开源工具列举3.2相关文章4.自然语言文本分类模型代码

Solitary_孤影照惊鸿·2023-09-10 00:04

MathGPT是什么，MathGPT与ChatGPT的区别是什么，MathGPT十大应用场景

与ChatGPT相比，MathGPT主要关注数学领域而非通用性的自然语言理解，因此其训练语料库和预测任务都与数学有关，同时还加入了数学专有的结构和语法规则，以更好地服从数学领域的特点。

『六道』·2023-09-09 22:58

自然语言处理第八章机器翻译复习

（词表受限问题）解决办法subword方法beamsearchcoveragepenalty（翻译覆盖率问题）推敲网络（DeliberationNetwork）非自回归模型系统鲁棒性低资源神经机器翻译语料资源受限问题多语预训练语言模型机器翻译概述任务描

SiYuanFeng·2023-09-09 11:26

腾讯发布超千亿参数规模的混元大模型；深度学习与音乐分析与生成课程介绍

AI新闻腾讯发布超千亿参数规模的混元大模型摘要：腾讯在2023腾讯全球数字生态大会上发布混元大模型，该模型拥有超千亿的参数规模和超2万亿tokens的预训练语料。

go2coding·2023-09-09 07:45

基于Bert+Attention+LSTM智能校园知识图谱问答推荐系统——NLP自然语言处理算法应用(含Python全部工程源码及训练模型)+数据集

.检索问题类别5.查询结果系统测试1.命名实体识别网络测试2.知识图谱问答系统整体测试工程源代码下载其它资料下载前言这个项目充分利用了Google的Bert模型，这是一种基于Attention的大规模语料预训练模型

小胡说人工智能·2023-09-09 07:43

AIUI一些技术概念理解

一个意图又包含若干句语料。语料为交互的核心内容。按照粒度从大到小划分：应用>技能>意图>语料以智能音箱为例，音箱可以拥有若干个技能，比如天气、音乐、空调以及星座。

醉岩·2023-09-08 17:01

使用ChatGLMTokenizer处理json格式数据

我下载了一些中文wikipedia数据，准备采用ChatGLMTokenizer对齐进行清洗，整理为预训练语料。

一位安分的码农·2023-09-08 13:11

VBA实现语料或术语表奇偶行分列和双列合一

一、问题的提出日常的双语语料处理或者术语格式转化过程中经常要用到下面的操作：1.在Excel中把一列双行即上下对照的形式改为左右对照。如下图所示，把A转化为B这种样式。

PythonFun·2023-09-08 10:05

GPT与BERT模型

BERT和GPT都是基于预训练语言模型的思想，通过大量语料训练得到语言模型。两种模型都是基于Transformer模型。

Mark_Aussie·2023-09-08 05:07

腾讯正式发布新混元大模型：规模超千亿，预训练语料超2万亿

该模型参数规模超过千亿，预训练语料超过2万亿tokens，并已成功测试于腾讯云、腾讯广告、微信搜一搜等多个内部业务和产品中。

博学的轮船Y·2023-09-07 16:34

NLP：中科院NLP语料库

中科院NLP语料库是由中国科学院自然语言处理与社会人文计算实验室（CASIA-NLP）研发的中文大规模自然语言处理语料库。该语料库包含了多种不同类型的文本数据，如新闻、论坛、微博、百科、小说等。

Solitary_孤影照惊鸿·2023-09-07 05:06

【ERNIE: Enhanced Language Representation with Informative Entities】

大规模文本语料库和KG来训练增强语言模型ERNIE（充分利用词汇&语法&知识信息）introduction里面前两段说了现有的预训练语言模型好，但没考虑知识，而考虑知识很关键。所以就提出了ERNIE。

唯师默蓝·2023-09-07 03:58

大模型微调总结

在某些特定任务上无法达到实际业务需求or性能差无法直接使用==>改善特定任务下欠拟合程度数据：预训练数据分布和特定任务数据分布不一致==>将特定任务、场景的语料的内在关系融入大模型参数中，同时和预训练的通用语料建立联通关系

王小燊oom·2023-09-06 19:44

企业数据，大语言模型和矢量数据库

我们可以将私有数据作为微调语料来让大语言模型记住新知识，这种方法虽然可以让

·2023-09-06 17:30

自然语言处理(八)：预训练BERT

BERT的目标是通过在大规模文本语料上进行自监督学习来学习通用的语言表示。在

青云遮夜雨·2023-09-06 17:15

自然语言处理(七)：来自Transformers的双向编码器表示（BERT）

BERT的目标是通过在大规模文本语料上进行自监督学习来学习通用的语言表示。在

青云遮夜雨·2023-09-06 17:10

TextRNN实现文本分类

思路给出的baseline为0.82(F1)，方法是将语料中所有字拆开训练成300D的word2vec后，每一句的处理采用将所有字的向量相加取平均的方法得到句向量（300D），然后使用一个全连接层进行训练

Leslie_Leung·2023-09-05 01:58

【小沐学NLP】Python使用NLTK库的入门教程

文章目录1、简介2、安装2.1安装nltk库2.2安装nltk语料库3、测试3.1分句分词3.2停用词过滤3.3词干提取3.4词形/词干还原3.5同义词与反义词3.6语义相关性3.7词性标注3.8命名实体识别

爱看书的小沐·2023-09-04 18:15

两个应用于金融领域的预训练模型FinBERT解读

两个应用于金融领域的FinBERT模型解读一、熵简科技FinBERT（中文）1.1网络架构2.2训练语料2.3.预训练方式2.3.1字词级别的预训练2.3.2任务级别的预训练2.4实验2.5总结二、FinBERT

诚诚程程成·2023-09-04 00:57

NLP：生成熟悉NLP开源工具，如NLTK、 HanLP等，并搜寻、下载和熟悉PKU、 CoreNLP, LTP MSR, AS CITYI 等语料库。

它提供了大量已经预处理好的文本数据和语料库，以及一些常用的文本处理算法和NLP工具。例如，NLTK提供了分词、词性标注、命名实体识别、情感分析等功能。

Solitary_孤影照惊鸿·2023-09-03 21:24

NLP知识要点总结

文本生成练习地址：https://github.com/FudanNLP/nlp-beginnerhttps://www.zhihu.com/question/324189960总结了NLP里的小方向并给出了任务语料以及最近的成果论文

小妖精Fsky·2023-09-03 03:05

ChatGPT和文心一言的优缺点比较

大规模训练：ChatGPT基于大规模语料库进行训练，并且采用了自监督学

BigData_001_Lz·2023-09-02 17:44

雅思备考复习不到一个月首考7.5建议

所以也是有蛮大原因是基础还不错啦）这些是我当时参考的一些复习资料，有需要的就各取所需吧~视频推荐：l听力何琼技巧班l阅读冯涛高分班/刘洪波看视频直接切入真题，做剑桥雅思官方真题，看真题解析分析总结经验：l王陆真题语料库听写单词

一口白·2023-09-02 00:04

代码生成综述

实际的代码模型也是有两条路径来实现，让训练好的NLPLLM模型经过code的训练，或者让codeLLM模型经过NLP语料的训练来实现代码生成模型。

远洋之帆·2023-09-01 09:31

大学生毕业设计论文题目大全_kaic

信达雅视角下国内护肤品产品信息的翻译策略研究听说法应用于宁江中学英语听力教学的行动研究目的论视角下亚马逊家居类产品页面翻译策略研究基于单片机的42步进电机闭环控制系统设计疫情防控下广州市从化区沙贝小学开展线上教学策略的研究功能对等视角下的雅诗兰黛广告翻译策略研究基于语料库的广东理工学院大三英语专业四级考试听力理解内容分析任务型教学法在英语教学中的积极作用

开心工作室_kaic·2023-09-01 04:56

ChatGPT是否可以进行情感交流？

由于ChatGPT是在巨大的互联网文本语料库上进行训练的，它可以为用户提供有关情感的信

心似浮云️·2023-09-01 02:30

英语假期开始

五天的语料库循环后进入精听，这个到时候还是要再找一些课来看看，又要费一番功夫，唉。说：我确实上了一阵子口语课，面对外国人也没啥紧张。但是确实也不意味着我对着一个问题侃侃而谈。

稚笔_·2023-08-31 18:25

ChatGPT进阶——如何辅助设计E-R图、流程图和时序图等

OpenAI新推出的一种人工智能技术驱动的自然语言处理工具，使用了Transformer神经网络架构，也是GPT-3.5架构，这是一种用于处理序列数据的模型，拥有语言理解和文本生成能力，尤其是它会通过连接大量的语料库来训练模型

山科智能信息处理实验室·2023-08-31 05:59

自然语言处理(六)：词的相似性和类比任务

实际上，在大型语料库上预先训练的词向量可以应用于下游的自然语言处理任务，为了直观地演示大型语料库中预训练词向量的语义，让我们将预训练词向量应用到词的相似性和类比任务中。

青云遮夜雨·2023-08-31 03:19

In-Context Retrieval-Augmented Language Models

UnknownBody·2023-08-30 20:53

推荐频道

语料