E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
语料库
【笔记】自然语言处理NLP---概论
自然语言处理概论1.1自然语言处理研究的意义、历史与现状1.1.1自然语言的特点1.1.2自然语言处理研究的意义1.1.3国外研究现状1.2NLP的方法、特点和规律1.2.1理性主义与经验主义1.2.2
语料库
语言学
xhanZ
·
2024-09-12 17:10
NLP相关
大模型书籍推荐:从头开始构建一个大型语言模型(含PDF免费)《Build a Large Language Model (From Scratch)》
你将从最初的设计和创建到通用
语料库
的预训练,一直到特定任
AI女王
·
2024-09-12 15:58
语言模型
pdf
人工智能
AI大模型
大模型
大语言模型
书籍
【拥抱AI】浅谈Prompt的书写规范及要点
Prompt的工作原理是通过建立相应的
语料库
和语义解析模型,将自然语言转换为机器可识别的指令。在大模型时代,Prompt的使用尤为重要,因为它可以帮助模型更好地理解用户的意图并
奔跑草-
·
2024-09-12 13:19
人工智能
人工智能
prompt
RAG
AI编程
大模型
LLM
AI
Agent
基于Langchain的大模型RAG技术介绍(附示例代码)
这些模型在大小和性能上各有所长,但大多数都是在通用
语料库
上进行训练的,因此它们只具备通用知识,对于专业领域的知识了解较少。
赵放-AI
·
2024-09-11 19:16
AI
langchain
人工智能
chatgpt
python
RAFT: Adapting Language Model to Domain Specific RAG
RAFT:使语言模型适应特定领域的RAG摘要1引言2LLM用于开卷考试3RAFT4评估5RAFT推广到Top-KRAG6相关工作7结论摘要在文本数据的大型
语料库
上预训练大型语言模型(LLM)现在是一种标准范式
UnknownBody
·
2024-09-07 21:43
RAG
for
LLM
语言模型
人工智能
自然语言处理
【大模型系列篇】预训练模型:BERT & GPT
该模型是在大量文本
语料库
上结合无监督和监督学习进行训练的。BERT的目标是创建一种语言模型,可以理解句子中单词的上下文和含义,同时考虑到它前后出现的单词。
木亦汐丫
·
2024-09-06 18:13
大模型
bert
gpt
人工智能
预训练模型
大模型
NLP从零开始------17.文本中阶处理之序列到序列模型(2)
机器翻译领域较为有名的平行
语料库
来自机器翻译研讨会(workshoponmachinetrans
人生百态,人生如梦
·
2024-09-04 22:20
nlp从零开始
自然语言处理
人工智能
graphrag论文精读
然而,RAG方法在处理涉及整个文本
语料库
的全局问题时效果不佳,比如“数据集中主要的主题是什么?”这些问题本质上是一个面向查询的总结任
Ramos_zl
·
2024-08-30 09:48
人工智能
FrameNet介绍——从同义词语义知识库到框架语义知识库
FrameNet是一个为期三年的项目,获得了NSF(美国国家科学基金会)的支持,专注于基于
语料库
的计算词典编纂。
禾风wyh
·
2024-08-30 07:35
语义通信
语义知识库
语料清洗软件工具测评推荐
以下是对之前提到的几个工具的简要评估,以帮助你做出选择:MicrosoftWord:如果你已经熟悉Word的操作,并且需要处理的
语料库
规模不大,那么Word可能是一个很好的选择。
热爱分享的博士僧
·
2024-08-29 23:11
数据分析
学习
python
人工智能
深度学习
常见的NLP处理框架介绍!
它提供了丰富的资源,包括文本处理、
语料库
、分类、标记、解析、语义推理
weixin_54503231
·
2024-08-27 09:21
自然语言处理
人工智能
ChatGPT:智能论文写作指南,让您成为写作高手
通过训练大量的
语料库
AI臻蚌
·
2024-03-27 01:48
chatgpt4.0
chatgpt
chatgpt
人工智能
AI写作
汉语教学备课工具推荐
BCC
语料库
网站地址:http://bcc.blcu.edu.cn150亿字的超大容量,堪称全面反映当前社会语言生活的大规模
语料库
。既有书面语体,又有口语体语料。
Mil_Pasos
·
2024-02-27 14:15
认知篇-剖析LLM基座
在众多PLM中,基于大规模
语料库
的预训练语言模型(LargeLanguageModel,LLM)以其强大的语言生成和理解能力,受到了广泛的关注。本文将深入探讨L
·
2024-02-20 18:29
openai公司的chatgpt-3.5参数库内还未增加sora的语料信息
看来,sora的
语料库
信息还未来得及加入chatgpt3.5的训练模型中。如图,chatgpt3.5回答了,说它不知道。
yrldjsbk
·
2024-02-20 17:46
神经网络技术
gpt-3
人工智能
深度学习
【摸鱼分享】2021年度网络用语大盘点!里面有你今年的关键词吗?
收录方法“2021年度十大网络用语”是基于国家语言资源监测
语料库
(网络媒体部分),采用“以智能信息处理技术为主,兼顾领域专家意见和相关站点收录情况”的方式获得的。
摸鱼人日历
·
2024-02-20 03:55
基于 InternLM 和 LangChain 搭建你的知识库(三)
这些模型通常在大型文本
语料库
上训练,以学习语言的广泛特征和结构。特定任务的数据:接着,收集和准备针对特
骆驼穿针眼
·
2024-02-19 12:41
langchain
gpt4国内怎么用 gpt4和chatGPT的区别是什么
GPT的工作原理是通过先前的大规模
语料库
进行训练,从而使模型能够理解语言的结构和上下文。这使得GPT能够以人类般的方式生成自然语言文本,回答问题,进行对话等。大家好,我
氧惠佣金真的高
·
2024-02-13 07:24
DL4J中文文档/DataVec/读取器
除了数据集中的单个条目之外,阅读器的用处包括:如果想要在
语料库
上训练文本生成器,或是以编程方式将两个条目组合在一起形成新的记录的时候该怎么办?读取器实现对于复杂的文件类型或分布式存储机制是有用的。
hello风一样的男子
·
2024-02-12 22:18
神经语言程式(NLP)项目的15 个开源训练数据集
用于聊天机器人训练的问答数据集问题-答案数据集:该
语料库
包括维基百科文章、从中手动生成的事实问题以及这些问题的手动生成的答案,用于学术研
suoge223
·
2024-02-12 09:54
机器学习实用指南
自然语言处理
人工智能
python
大数据
LLM之RAG实战(二十五)| 使用LlamaIndex和BM25重排序实践
1.1检索组件:目的:检索组件的主要功能是响应查询或提示,从大型数据库或
语料库
中提取相关文档或信
wshzd
·
2024-02-11 06:03
RAG
笔记
easyui
前端
javascript
python使用nltk进行中文
语料库
的词频分布统计
文章目录问题描述构建
语料库
统计字数统计词频分布问题描述根据给定的
语料库
,统计其中共包含多少字、平均每个词使用了多少次以及常用词的分布以及累计分布情况。
Love _YourSelf_CS
·
2024-02-09 02:19
自然语言处理
python
自然语言处理
nlp
python nltk中文_NLTK中文词性标注
比如标注功能,它自身提供了带标注的中文语库(繁体
语料库
sinica_treebank).下面来看看怎样通过数据训练来实现中文词性自动标注.可以利用它来标注中本,也可
weixin_39560064
·
2024-02-09 02:49
python
nltk中文
Python与自然语言处理库Gensim实战
它能够自动化训练出一个文本
语料库
,然后用该
语料库
来训练出一个词向量模型。在
语料库
中,每个
语料库
都是由一个个文档组成,每个文档则是由若干个单词组成。
心梓知识
·
2024-02-08 11:17
python
自然语言处理
easyui
使用ChatGpt和文心一言辅助文章创作
在使用过程中,感觉文心的中文能力更强一些,主要体现在:1
语料库
更大,比如对水浒传了解的更多2对中文的理解更细致一些。所以大部分都是使用文心一言进行辅助文章创作。
skywalk8163
·
2024-02-08 11:46
人工智能
水浒英雄学IT
chatgpt
飞桨
文心一言
人工智能
NLP_Seq2Seq编码器-解码器架构
文章目录Seq2Seq架构构建简单Seq2Seq架构1.构建实验
语料库
和词汇表2.生成Seq2Seq训练数据3.定义编码器和解码器类4.定义Seq2Seq架构5.训练Seq2Seq架构6.测试Seq2Seq
you_are_my_sunshine*
·
2024-02-08 09:53
NLP
自然语言处理
人工智能
NLP_神经概率语言模型(NPLM)
文章目录NPLM的起源NPLM的实现1.构建实验
语料库
2.生成NPLM训练数据3.定义NPLM4.实例化NPLM5.训练NPLM6.用NPLM预测新词NPLM小结NPLM的起源在NPLM之前,传统的语言模型主要依赖于最基本的
you_are_my_sunshine*
·
2024-02-07 13:20
NLP
自然语言处理
语言模型
人工智能
NLP_Bag-Of-Words(词袋模型)
文章目录词袋模型用词袋模型计算文本相似度1.构建实验
语料库
2.给句子分词3.创建词汇表4.生成词袋表示5.计算余弦相似度6.可视化余弦相似度词袋模型小结词袋模型词袋模型是一种简单的文本表示方法,也是自然语言处理的一个经典模型
you_are_my_sunshine*
·
2024-02-06 10:48
NLP
自然语言处理
人工智能
NLP_词的向量表示Word2Vec 和 Embedding
我们把
语料库
中的词和某些上下文信息,都“嵌入”了向量表示中。将词映射到向量空间时,会将这个词和它周围的一些词语一起学习,这就
you_are_my_sunshine*
·
2024-02-06 10:10
NLP
自然语言处理
word2vec
embedding
GPT原始论文:Improving Language Understanding by Generative Pre-Training论文翻译
尽管大量未标注的文本
语料库
很丰富,但用于学习这些特定任务的标注数据却很稀缺,这使得基于区分性训练的模型难以充分发挥作用。
iKang_dlut
·
2024-02-05 15:15
gpt
人工智能
深度学习
NLTK:一个先进的用来处理自然语言数据的Python程序。
它提供了易于使用的接口,通过这些接口可以访问超过50个
语料库
和词汇资源(如WordNet),还有一套用于分类、标记化、词干标记、解析和语义推理的文本处理库,以及工业级NLP库的封装器和一个活跃的讨论论坛
遗忘_eea2
·
2024-02-05 13:36
文本挖掘HW3
importosimportos.pathimportcodecsimportpandasaspdimportnumpyasnpfilePaths=[]fileContents=[]a=os.walk("C:/Users/dell/Desktop/datamining/2.1+
语料库
在做算法的巨巨
·
2024-02-05 11:55
【使用 Python 进行 NLP】 第 2 部分 NLTK
它内置了50多个文本
语料库
和词汇资源。它支持文本标记化、词性标记、词干提取、词形还原、命名实体提取、分割、分类、语义推理。
无水先生
·
2024-02-04 12:11
NLP高级和ChatGPT
人工智能
python
自然语言处理
开发语言
一些概念
1.一个文本集合称为
语料库
(Corpus),当有几个这样的文本集合的时候,我们称之为
语料库
集合(Corpora)。2.中文汉语有搜狗语料、人民日报语料。
半大人
·
2024-02-04 11:01
2021-04-12
#11-自然语言与编程语言的比较)-[1.2自然语言处理的层次](#12-自然语言处理的层次)-[1.3自然语言处理的流派](#13-自然语言处理的流派)-[1.4机器学习](#14-机器学习)-[1.5
语料库
零一安
·
2024-02-03 20:43
2018-7-28 托福基础写作
Corpus:BNCCOCA百度搜索
语料库
的用法,用处特别多TheRightWordOrganization组织统一第一段:直接支持第二段:直接支持用用加粗字体表示间接支持为正常字体递进1.段与段之间过渡词
L7_526d
·
2024-02-02 05:04
YAYI-UIE: 一个用于通用信息提取的聊天增强的指令微调框架
3、主要方法:两步指令微调:第一步:在构建的对话
语料库
上对基础LLM进行微调,以获得可以聊天的LLM:Ddialogue=instruct
Ly大可爱
·
2024-02-01 11:53
NLP事件抽取
人工智能
深度学习
自然语言处理
sklearn 计算 tfidf 得到每个词分数
fromsklearn.feature_extraction.textimportTfidfVectorizer#
语料库
可以换为其它同样形式的单词corpus=[list(range(-5,5)),list
小何才露尖尖角
·
2024-01-31 16:58
Python
sklearn
sklearn
tf-idf
python
TfidfVectorizer
词
机器学习算法实现刑事案件文本分类
因此,通过收集法律与犯罪领域文本,构建起司法领域
语料库
,使用自然语言处理技术进行挖掘,实现文本分类,并利用机器学习等技术实现对法律案件的预测具有重要意义。
deleteeee
·
2024-01-30 08:23
机器学习
分类
人工智能
自然语言处理
python
sklearn
scikit-learn
DB-GPT: Empowering Database Interactions with Private Large Language Models 导读
其核心创新在于采用了私有化的LLM技术,在特定领域的
语料库
上进行微调,以确保用户隐私和数据安全的同时,获得最先进的LLM的好处。DB-GPT的架构包括一个新颖的知识
一只特蕉
·
2024-01-30 06:04
大语言模型
大模型数据库
数据库
gpt
语言模型
TF-IDF 找出文章关键词
一个词在文章中出现的次数词频标准化1:按占比处理TF=某个词在文章中出现的次数/文章的总词数词频标准化2:按最大值处理TF=某个词在文章中出现的次数/该文出现次数最多的词的出现次数IDF(反文档频率):log(
语料库
的文档总数
Logan_addoil
·
2024-01-29 20:57
python
大数据学习之旅
tf-idf
python
NLP学习------HanLP使用实验
我跟据词向量的作者[6]所使用的分词工具来分词,会比不同工具(jieba)的效果要好,因为都是同一模式的分词,分出来的词应该都会存在于大型
语料库
中。
lanlantian123
·
2024-01-28 06:51
GPT等大语言模型是典型的人机环境交互、协同系统
在预训练阶段,GPT使用大规模的
语料库
进行训练,以学习语言的统计特征和上下文关系。在微调阶段,GPT通过与人类进行
人机与认知实验室
·
2024-01-28 06:33
gpt
语言模型
人工智能
自然语言处理
Chatgpt的崛起之路
国内使用情况及应用的领域面临的数据安全挑战与建议ChatGPT获取数据产生的问题数据泄露问题删除权问题
语料库
获取合规问题ChatGPT恶意利用产生的问题结语OpenAI11月30号发布,首先在北美、欧洲等已经引发了热烈的讨论
Sirius·Black
·
2024-01-27 21:00
AI
&
ChatGPT
ai作画
copilot
三个方面浅析数据对大语言模型的影响
因此,在训练大语言模型之前,构建一个准备充分的预训练
语料库
尤为重要。本篇文章中,将从数据规模、数量质量以及数据多样性三个方面分析数据对大语言模型的性能的影响。
快乐非自愿
·
2024-01-27 14:16
语言模型
人工智能
深度学习
ChatGPT 和文心一言哪个更好用?
ChatGPT主要基于Transformer架构,通过大量的
语料库
训练,能够自动地学习到语言的规则和模式。而文心一言则主要依赖于规则和模板,通过人工制定规则和模板来生成回复。
车马去闲闲丶
·
2024-01-25 17:52
chatgpt
文心一言
人工智能
【文献阅读】K-BERT Enabling Language Representation with Knowledge Graph
原文链接摘要指出问题:预训练的语言表示模型,例如BERT,从大规模的
语料库
中捕获通用的语言表示,但缺乏特定领域的知识。实际场景下:当专家阅读领域文本时,会利用相关知识进行推理。
SuperCooper
·
2024-01-24 22:04
bert
知识图谱
人工智能
【文献阅读】ERNIE Enhanced Language Representation with Informative Entities
论文链接摘要背景:在大规模
语料库
上预训练的BERT等LR模型可以很好地从纯文本中捕获丰富地语义模式,并进行微调以持续提高各种NLP任务的性能。
SuperCooper
·
2024-01-24 22:04
知识图谱
人工智能
预训练对话大模型深度解读
预训练对话大模型是自然语言处理领域的一项革命性技术,它通过大规模预训练
语料库
的利用,实现了对自然语言的高效理解和生成。
百度_开发者中心
·
2024-01-24 16:14
人工智能
大模型
prompt
分享一个“产业级,开箱即用”的NLP自然语言处理工具
它主要关注计算机如何准确并快速地处理大量的自然语言
语料库
。什么是自然语言
语料库
?它是用现实世界语言表达的语言学习,是从文本和语言与另一种
李楷杰
·
2024-01-24 15:22
自然语言处理
人工智能
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他