E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
语料
自然语言处理学习笔记(二)————
语料
库与开源工具
目录1.
语料
库2.
语料
库建设(1)规范制定(2)人员培训(3)人工标注3.中文处理中的常见
语料
库(1)中文分词
语料
库(2)词性标注
语料
库(3)命名实体识别
语料
库(4)句法分析
语料
库(5)文本分类
语料
库4
阿波拉
·
2023-08-03 18:19
自然语言处理
学习
笔记
语料库
brat
hanlp
nlp
学习笔记CB001:NLTK库、
语料
库、词概率、双连词、词典
聊天机器人知识主要是自然语言处理。包括语言分析和理解、语言生成、机器学习、人机对话、信息检索、信息传输与信息存储、文本分类、自动文摘、数学方法、语言资源、系统评测。NLTK库安装,pipinstallnltk。执行python。下载书籍,importnltk,nltk.download(),选择book,点Download。下载完,加载书籍,fromnltk.bookimport*。输入text*
利炳根
·
2023-08-03 13:57
三种文本特征提取(TF-IDF/Word2Vec/CountVectorizer)及Spark MLlib调用实例(Scala/Java/python)(转)
SparkMLlib提供三种文本特征提取方法,分别为TF-IDF、Word2Vec以及CountVectorizer其各自原理与调用代码整理如下:TF-IDF算法介绍:词语由t表示,文档由d表示,
语料
库由
逆视角
·
2023-08-03 10:51
ChatterBot+第三方中文
语料
库实现在线聊天机器人
设计并实现一个在线聊天机器人案例1、ChatterBotChatterBot是Python自带的基于机器学习的语音对话引擎,可以基于已知的对话库来产生回应。ChatterBot独特的语言设计可以使它可以通过训练来用任何一种语言进行对话。该项目的开源代码链接:https://github.com/gunthercox/ChatterBot2、应用案例描述ChatterBot包含的工具有助于简化训练聊
骑行去看海
·
2023-08-03 10:20
自然语言处理
python
自然语言处理
聊天机器人
TF-IDF 算法
智能问答系统是将积累的无序
语料
信息,进行有序和科学的整理,并建立基于知识的分类模型;这些分类模型可以指导新增加的
语料
咨询和服务信息,节约人力资源,提高信息处理的自动性,降低网站运行成本。
dreampai
·
2023-08-03 05:18
Doccano工具安装教程/文本标注工具/文本标注自己的项目/NLP分词器工具/自然语言处理必备工具/如何使用文本标注工具
Token分类/源码解读/代码逐行解读)_会害羞的杨卓越的博客-CSDN博客1、安装说明doccano是docummentanotation的缩写,是一个开源的文本标注工具,我们可以用它为NLP任务的
语料
库进行打标
会害羞的杨卓越
·
2023-08-02 13:34
工具教程与技巧
nlp
doccano
中文分词
自然语言处理
新闻标题文本分类任务
目录知识回顾使用debug调试知识回顾预处理内容文本主要进行清洗、分词/分字ID替换(不希望计算机看到文字,而是ID),通过
语料
表来表示,根据频率高低来分配ID号文本的ID映射到文本的一个特征向量,进行词嵌入
醋酸洋红就是我
·
2023-08-02 11:26
cv和nlp学习
深度学习
【论文阅读24】Better Few-Shot Text Classification with Pre-trained Language Model
通过从一个大型的训练前
语料
库中学习一般的语言知识,该语言模型可以在微调阶段以相对少量的标记训练数据来
Alan and fish
·
2023-08-02 08:06
论文阅读笔记
论文阅读
语言模型
人工智能
推荐17个超实用的在线英语词典和英语
语料
库和4个在线翻译平台
1.词源在线:词源在线2.朗文词典在线:朗文词典3.剑桥词典在线:剑桥4.杨伯翰大学
语料
库:杨伯翰大学
语料
库5.英国国家
语料
库:英国
语料
库6.韦氏词典在线:韦氏词典7.维基词典:维基词典8.UrbanDictionary
旱地钓鱼人
·
2023-07-31 16:31
Python3, 33行代码搞了一个聊天机器人, 这下再也不怕没人说话了。
2.4.1创建聊天机器人2.4.2与用户交互3、总结1、引言小屌丝:鱼哥,看这段代码fromchatterbotimportChatBot#创建聊天机器人chatbot=ChatBot('MyBot')#加载
语料
库
Carl_奕然
·
2023-07-31 15:59
人工智能
机器人
easyui
python
人工智能
AIGC
zore-shot,迁移学习和多模态学习
1.zore-shot定义:在ZSL中,某一类别在训练样本中未出现,但是我们知道这个类别的特征,然后通过
语料
知识库,便可以将这个类别识别出来。
笑傲江湖2023
·
2023-07-31 10:19
迁移学习
人工智能
机器学习
人虫
语料
收集17-2
罗爷:今天跟你认识啊,我谈得也高兴。跟你谈谈我们这(zhei去声)古玩行儿里,有仨规矩。第一个规矩,双方看准物件儿,这(zhei去声)价格,不能说多少(连读)钱。那(内)个时候,讲究在袖口里边儿,袖口数乾坤,不能说钱。您出多少(连读)?您要多少?不能提钱字儿。第二个规矩儿,人家拿东西来让您看,您给(ge)人看。是假的,不能说是假的,只能说,不真。不真,其实就是假的或者是赝品啊。第三个规矩,说这件东
禾戈君
·
2023-07-31 04:40
kaldi数据整理与特征提取
语言数据data/dict目录下utils/prepare_lang.sh:对data/dict文件进行处理,得到data/lang,生成以下文件内容:data/lang目录下备注:发音词典应尽可能覆盖训练
语料
你取吃屎吧
·
2023-07-30 18:55
Python自然语言处理学习笔记
nltk为超过50个
语料
库和词汇资源(如WordNet)提供易于使用的接口,以及一套用于分类、标记化、词干化、标记、解析和语义推理的文本处理库,用于工业级NLP库的包装器,以及一个活跃的讨论论坛。
creepycool
·
2023-07-30 15:37
LLaMA模型论文《LLaMA: Open and Efficient Foundation Language Models》阅读笔记
LLaMA的重点是比通常情况下使用更多的
语料
,来训练一系列可在各种推理预算下实现可能的最佳性能的语言模型。摘要翻译:我们在此介绍LLaMA,这是一个参数范围从7B
beingstrong
·
2023-07-30 11:55
深度学习
llama
语言模型
论文阅读
1. 中文NLP笔记:中文自然语言处理的一般流程
图片发自App今天开始一起学习中文自然语言处理中文NLP一般流程1.获取
语料
语料
,是NLP任务所研究的内容通常用一个文本集合作为
语料
库(Corpus)来源:已有
语料
积累的文档下载
语料
搜狗
语料
、人民日报
语料
抓取
语料
不会停的蜗牛
·
2023-07-29 17:14
基于Hologres向量计算与大模型免费定制专属聊天机器人
使用大模型定制聊天机器人,除了训练大模型的方式外,还可以使用提示词微调(Prompt-tuning)的方法,在提问时提供特定行业的相关
语料
,结合大模型的阅读理解和信息整合能力,对该垂直行业的问题提供更贴切
阿里云大数据AI技术
·
2023-07-28 13:43
机器人
人工智能
python
使用BERT进行fine-tuning
Fine-tuning就是载入预训练好的Bert模型,在自己的
语料
上再训练一段时间。
Nevrast
·
2023-07-28 10:07
企业数据,大语言模型和矢量数据库
我们可以将私有数据作为微调
语料
来让大语言模型记住新知识,这种方法虽然可以让
九章云极DataCanvas
·
2023-07-28 10:48
语言模型
数据库
人工智能
对gpt的简单认识
GPT模型以无监督学习的方式使用大规模
语料
库进行预训练,并具有生成文本和理解文本的能力。GPT模型的核心组件是Transformer架构,它由编码器和解码器组成。编码器用于将输入序列转换为隐藏表示
那个雨季
·
2023-07-28 06:40
gpt
gpt-3
i18多语言翻译插件使用
引入import{useTranslation,Trans}from"react-i18next";const{t}=useTranslation();翻译t('')更新
语料
库package.json中
戈多走了
·
2023-07-27 21:19
javascript
前端
开发语言
精调训练中文LLaMA模型实战教程,民间羊驼模型
LLaMA模型实战教程,民间羊驼模型博文3:精调训练中文LLaMA模型实战教程,民间羊驼模型(本博客)简介在学习完上篇【博文2:本地训练中文LLaMA模型实战教程,民间羊驼模型】后,我们已经学会了使用无监督的
语料
预训练
会写代码的孙悟空
·
2023-07-27 13:45
chatGPT
llama
深度学习
python
本地部署中文LLaMA模型实战教程,民间羊驼模型
1:本地部署中文LLaMA模型实战教程,民间羊驼模型(本博客)博文2:本地训练中文LLaMA模型实战教程,民间羊驼模型博文3:精调训练中文LLaMA模型实战教程,民间羊驼模型简介LLaMA大部分是英文
语料
训练的
会写代码的孙悟空
·
2023-07-27 13:41
chatGPT
llama
深度学习
python
chatgpt
文本预处理——文本数据分析
目录文本数据分析中文酒店评价
语料
获得训练集和验证集的标签数量分布获取训练集和验证集的句子长度分布获取训练集和验证集的正负样本长度散点分布获得训练集和验证集不同词汇总数统计获得训练集上正负的样本的高频形容词词云获得验证集上正负的样本的形容词词云文本数据分析中文酒店评价
语料
获得训练集和验证集的标签数量分布获取训练集和验证集的句子长度分布获取训练集和验证集的正负样本长度散点分布获得训练集和验证集不同词汇
醋酸洋红就是我
·
2023-07-27 09:46
pytorch解决nlp
数据分析
深度学习
自然语言处理
《人民日报》评论热点话题金句32| 结构化面试考点 | 申论规范化表达词 | 公考国考省考申论素材积累(2022年9月9日)
参考
语料
百年大计,教育为本;教育大计,教师为本。回望过去,教育兴国,教育强国,是一个多世纪以来中国人的愿望和梦想。“教育是一门‘仁
47fed7735c2d
·
2023-07-27 04:34
LLaMA 2: Open Foundation and Fine-Tuned Chat Models
LLaMA2:OpenFoundationandFine-TunedChatModelsPre-trainingFine-tuningRewardmodelRLHF参考Pre-training数据层面:预训练
语料
比
HanZee
·
2023-07-27 02:43
llama
综艺节目奇葩说辩论中的语用预设分析
本文以2019年综艺节目奇葩说第六季十四期的节目内容为
语料
,主要从事实预设、信念预设、状态预设以及行为预设四类预设视角出发,分析预设在选手进行陈述辩论中的具体应用,以及在论辩中发挥的作用。
Stella98
·
2023-07-26 18:20
HMM与CRF模型的使用过程有哪些差异?
HMM模型HMM模型表示为:lambda=HMM(A,B,pi),其中A,B,pi都是模型的参数,分别称作:转移概率矩阵,发射概率矩阵和初始概率矩阵.接着,我们开始训练HMM模型,
语料
就是事先准备好的一定数量的观测序列及
传智教育
·
2023-07-26 06:49
人工智能
机器学习
深度学习
LIMA:小规模监督数据指令微调
论文标题:LIMA:LessIsMoreforAlignment论文链接:https://arxiv.org/abs/2305.11206论文来源:MetaAI一、概述语言模型在大规模
语料
上以预测下一个
酷酷的群
·
2023-07-25 21:52
人工智能
模板模式
背景我们有一个模型训练平台,当我们训练模型的时候,需要预处理,先检测
语料
是否满足需要,如果满足发送模型训练消息到训练平台,生
小老头_e6be
·
2023-07-25 12:53
NLP(十八)利用ALBERT提升模型预测速度的一次尝试
模型中,笔者介绍了如何利用tensorflow-serving部署来部署深度模型模型,在那篇文章中,笔者利用kashgari模块实现了经典的BERT+Bi-LSTM+CRF模型结构,在标注了时间的文本
语料
山阴少年
·
2023-07-25 03:21
NLP
ALBERT
机器学习:Bert and its family
Bert先用无监督的
语料
去训练通用模型,然后再针对小任务进行专项训练学习。
uncle_ll
·
2023-07-25 00:06
机器学习
bert
预训练模型
图(graph)神经网络--GAT网络(pytorch版代码分析)
GAT(GraphAttentionNetwork)GitHub项目(GAT[keras版]GAT[pytotch版]GAT[tensorflow版])该项目做的任务仍是图中节点分类问题,
语料
仍是Cora1
布口袋_天晴了
·
2023-07-23 17:15
论文浅尝 | KGNLI: 知识图谱增强的自然语言推理模型
现有的大多数方法都是基于训练
语料
库来获得语义知识从而进行推理的,很少采用背景知识或者限制与少量特定类型的知识。本文提出了一种新颖的知识图谱增强的NLI模型(KGNLI),以利
开放知识图谱
·
2023-07-23 07:03
python
机器学习
人工智能
深度学习
知识图谱
黄文琪雅思口语 Part1必考题hometown
语料
1sky-highadj.极高的;高昂的Thecostoflivingissky-high.消费特别高。2toweringskyscraper摩天大楼Thecityscapeisquiteattractiveduetothetoweringskyscrapers.3belikeamagnetfortourists像吸铁一样吸引游客Thecityislikeamagnetfortourists.这个
Sharon黄文琪
·
2023-07-22 08:21
ICASSP2023论文解读|如何检测会议记录中的待办事项?
因此,达摩院构建并开源了AMC-A
语料
库,这或是首个带有行动项标注的中文会议
语料
库。
语音之家
·
2023-07-22 06:17
智能语音
人工智能
语音识别
语言模型
深度学习
chatgpt和openai的Chat completion(聊天补全)介绍
OpenAI的聊天补全技术采用了深度学习模型,如GPT-3,它可以从大量的
语料
库中学习和理解语言的规律和结构,从而生成高质量、连贯的聊天内容。
magento全栈开发
·
2023-07-22 06:11
人工智能
ChatGPT:开启人工智能对话时代的技术巅峰
架构与训练ChatGPT的核心架构是一个多层的变压器(transformer)模型,该模型在预训练阶段通过大规模的
语料
库数据进行自监督学习。预训练完成后,通过微调阶段,使用有人工标注的对话数
GPT1736
·
2023-07-21 23:42
chatgpt
人工智能
雅思复习计划
22天备考计划(暂行情况)1、《王陆
语料
库》:7页/天,每一页25min,预估耗时3h2、作文:小作文或大作文1篇,预估耗时1.5h3、雅思真题阅
王彬成
·
2023-07-21 16:32
大语言模型的预训练[6]:思维链(Chain-of-thought,CoT)定义原理详解、Zero-shot CoT、Few-shot CoT 以及在LLM上应用
Chain-of-thought,CoT)定义原理详解、Zero-shotCoT、Few-shotCoT以及在LLM上应用1.思维链定义背景在2017-2019年之间,随着Transformer模型的提出,计算资源与大规模
语料
库不断出现
汀、人工智能
·
2023-07-21 14:34
AI前沿技术汇总
人工智能
自然语言处理
思维链
chain
of
though
CoT
大语言模型
LLM
听书 樊登读书《父母的语言》听后感
父母们应该提供
语料
丰富的词汇环境,多和孩子说说话,刺激孩子的大脑神经元。让孩子赢在起跑线上。在与孩子沟通当中,应遵循3T原则,第一个Tunein,共情关注。
WWendy_5207
·
2023-07-21 09:19
Fine-tune mT5模型
我们之前介绍过,Google的大规模预训练语言模型T5(Text-to-TextTransferTransformer)是仅仅基于英文
语料
训练的,因此无法应用在中文
语料
上。
乘瓠散人
·
2023-07-21 05:29
GloVe模型理解
GloVe模型GloVe(GlobalVectors)模型认为
语料
库中单词出现的统计(共现矩阵)是学习词向量表示的无监督学习算法的重要资料。问题在于如何基于这些统计生成单词向量表示。
愤怒的可乐
·
2023-07-20 05:20
人工智能
自然语言处理
Glove词向量
共现矩阵
共现矩阵主要用于发现主题,解决词向量相近关系的表示;将共现矩阵行(列)作为词向量例如:
语料
库如下:•Ilikedeeplearning.•IlikeNLP.
贾世林jiashilin
·
2023-07-20 05:20
机器学习
基于 Hologres 向量计算与大模型免费定制专属聊天机器人
使用大模型定制聊天机器人,除了训练大模型的方式外,还可以使用提示词微调(Prompt-tuning)的方法,在提问时提供特定行业的相关
语料
,结合大模型的阅读理解和信息整合能力,对该垂直行业的问题提供更贴切
阿里云云栖号
·
2023-07-20 04:00
我是程序员
机器人
python
深度学习
云计算
云原生
线上
语料
分析工具
北京大学中国语言学研究中心CCL现代汉语
语料
库北京大学中国语言学研究中心CCL现代汉语
语料
库线上搜索人民日报图文数据库(1946-2020)人民日报图文数据库(1946-2020)其他
语料
库在线网站研究资源下载
语料
处理工具
离兮丶斜阳
·
2023-07-19 19:59
Python3.7:使用csv模块的writerow()函数保存的csv文件产生空行
写在前面最近在做
语料
的时候发现这样一个问题,用csv模块生成的文件每条数据都跟了一行空行,如下图所示:代码结构解决办法在open()内增加一个参数newline=’’即可,代码结构如下:withopen
南浔Pyer
·
2023-07-19 16:24
日常困惑
Python编程
python
csv
关于伪原创 各类伪原创对比分析
应用户要求,最近在对我开发的那个站群软件做升级打算接入伪原创处理,目前市面上伪原创的工具五花八门,原理无非就3种,一种是nlp
语料
训练的,这种目前用的应该是最少的、可以说基本没有,另外两种就是翻译的和分词替换的
夜刺
·
2023-07-19 10:23
伪原创
github
2021-04-19 ch9 词向量技术
矩阵分解法构造矩阵X形状式词库size×词库size分解后得到S\V\D,其中S矩阵就是词向量坏处是矩阵分解是全局方法,分解的过程依赖于所有的
语料
库,一旦
语料
库变了,X就变了。不方便做增量更新。
柠樂helen
·
2023-07-19 06:40
五月有余
专注是让自己投身于当下最重要的事,从最小的模块和
语料
开始积累,这些细节最终会在说和写两个维度上进行生化。
小橙梓
·
2023-07-19 04:28
上一页
9
10
11
12
13
14
15
16
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他