E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
语料
【NLP】34. 数据专题:如何打造高质量训练数据集
本篇博客将系统梳理LLM数据构建中的核心流程,以FineWeb为例,揭示如何打造一个有规模、有质量、无偏见的训练
语料
,并讨论相关的伦理与公平性问题。一、构建
语料
第一步:F
pen-ai
·
2025-05-21 02:52
机器学习
深度学习
自然语言处理
人工智能
用 Gensim 实现 Word2Vec 古诗生成
我们将借助它完成从
语料
处理到古诗生成的全流程。
万能小贤哥
·
2025-05-18 01:15
word2vec
人工智能
自然语言处理
AI时代大数据已经不火了吗?
例如,中国DeepSeek-R1模型通过整合微信生态中积累的4.2亿篇私域
语料
库,显著提升了信息处理效率,其数据密度是传统爬虫数据的2
AI方案2025
·
2025-05-18 00:31
人工智能
大数据
大语言模型与多模态模型比较
一、核心差异:输入数据类型与模态融合输入数据类型LLM:仅处理文本数据,例如文本分类、机器翻译、问答等任务,通过大规模
语料
库学习语言规律。
有梦想的攻城狮
·
2025-05-17 19:32
AI知识大全
语言模型
人工智能
自然语言处理
大语言模型
LLM
Language models are few-shot learners:语言模型是小样本学习者
摘要近期的研究表明,通过在大规模文本
语料
上进行预训练,再针对特定任务进行微调,可以在许多自然语言处理任务和基准测试中取得显著提升。
AI专题精讲
·
2025-05-16 12:50
大模型专题系列
人工智能
BitNet b1.58 2B4T Technical Report
主要内容模型介绍:介绍了BitNetb1.582B4T,这是首个20亿参数规模的开源原生1比特大语言模型,在4万亿词元的
语料
库上进行训练,通过多种基准测试评估其性能,模型权重在HuggingFace上发布
UnknownBody
·
2025-05-13 15:24
LLM
Daily
Technical
Report
人工智能
语言模型
[自然语言处理] NLP-文本预处理-详解
一、认识文本预处理1文本预处理及其作用文本
语料
在输送给模型前一般需要一系列的预处理工作,才能符合模型输入的要求,如:将文本转化成模型需要的张量,规范张量的尺寸等,而且科学的文本预处理环节还将有效指导模型超参数的选择
AIAdvocate
·
2025-05-12 07:55
自然语言处理
easyui
人工智能
python
文本预处理
1991-2023年上市公司创新信息披露数据
本文采用其中的CBOW(ContinuousBag-of-wordsModel)模型对中文
语料
进行训练。描述性创新关键词如
经管数据库
·
2025-05-11 08:01
数据分析
面向网络安全的开源 大模型-Foundation-Sec-8B
它基于Llama3.1-8B架构构建,并通过在一个精心策划和整理的网络安全专业
语料
库上进行持续预训练而得到增强。
云上笛暮
·
2025-05-09 07:05
AI
for
Security
人工智能
安全
智源:LLM中文高质量互联网
语料
库
标题:CCI3.0-HQ:alarge-scaleChinesedatasetofhighqualitydesignedforpre-traininglargelanguagemodels来源:arXiv,2410.18505摘要我们介绍CCI3.0-HQ,这是中国企业互联网3.0(CCI3.0)的高质量500GB子集,使用一种新型的两级混合过滤管道开发,可显著提高数据质量。为了评估其有效性,我们
大模型任我行
·
2025-05-06 19:24
大模型-模型训练
人工智能
自然语言处理
语言模型
论文笔记
Flux.dev 多风格文生图大模型微调-游戏AI研究所
目录1数据集准备多风格
语料
2模型选择与初始化3超参数设置4开始训练与监控参考文献1数据集准备多风格
语料
收集和构建高质量、多样化的多风格图像数据集是最关键的第一步。
游戏AI研究所
·
2025-05-05 12:05
技术分享
计算机视觉
人工智能
深度学习
电子病历高质量
语料
库构建方法与架构项目(智能数据目录篇)
电子病历高质量
语料
库的构建是医疗人工智能发展的基础性工作,而智能数据目录作为数据治理的核心组件,能够有效管理这些
语料
资源。
Allen_Lyb
·
2025-05-05 11:25
医疗高效编程研发
架构
人工智能
健康医疗
机器学习
深度学习
DeepSeek破界而来:重构大规模深度检索的算力与边界
然而,随着模型参数量突破万亿级门槛,传统的深度检索系统正面临前所未有的挑战:当模型需要处理包含数百亿甚至数万亿文档的
语料
库时,如何在保持高精度的同时实现毫秒级响应?
Want595
·
2025-05-05 08:01
大模型原理与应用
重构
人工智能
AIGC
深入解析:大模型应用开发中的分类及常见大模型介绍
这类大模型的主要特点是它们在大规模
语料
库上进行了训练,以学习自然语言的各种语法、语义和语境规则
AI大模型-王哥
·
2025-05-04 05:41
分类
数据挖掘
人工智能
LLM
大模型
llama
AI大模型
大语言模型原理基础与前沿 语言模型和分词
在深度学习框架中,语言模型通常通过神经网络实现,并使用大规模
语料
库进行预训练,以学习语言的统计规
杭州大厂Java程序媛
·
2025-05-03 14:03
java
python
javascript
kotlin
golang
架构
人工智能
藏语英语中文机器翻译入门实践
基于统计的方法:基于大量双语
语料
统计概率进行翻译。基于深度学习的方法(当前主流):序列到序列(Seq2Seq)模型:将源语言序列转换为目标
山海青风
·
2025-05-02 21:34
藏文信息化
机器翻译
人工智能
自然语言处理
python
nlp
大模型微调:技术迭代与实践指南
微调的量取决于预训练
语料
库和任务特定
语料
库之间的相似性。随着技术的发展,微调方法也在不断迭代更新,从而提高了模型的性能和参数效率。本文将探讨大模型微调的常见方法,并提供一个实践指南。PEFT
人工智能培训咨询叶梓
·
2025-04-28 15:07
人工智能前沿
语言模型
人工智能
微调
提示工程
调优
性能优化
大模型培训
电子病历高质量
语料
库构建方法与架构项目(智能质控体系建设篇)
电子病历高质量
语料
库是构建智能病历质控系统的基础,它不仅为AI模型提供训练数据,还为医疗
Allen_Lyb
·
2025-04-28 13:54
医疗高效编程研发
架构
健康医疗
数据分析
动态规划
人工智能
迁移学习(基础)
Pretrainedmodel)一般情况下预训练模型都是大型模型,具备复杂的网络结构,众多的参数量,以及足够大的数据集进行训练而产生的模型,在NLP领域,预训练模型往往是语言模型,因为语言模型是无监督的,可以获得大量的
语料
Psycho_MrZhang
·
2025-04-26 11:02
FineTuning
迁移学习
人工智能
机器学习
AI大模型重构电商搜索推荐的数据治理组织架构优化实践
大模型在处理大规模
语料
数据时具备显著优势,能够更好地理解和表达电商场景中的复杂语义和上下文信息
AI大模型应用之禅
·
2025-04-26 09:53
java
python
javascript
kotlin
golang
架构
人工智能
一文详解训练LLM流程
LLM训练包括预训练、微调等环节,其中预训练阶段通过处理大规模
语料
库数据,让模型学习语言的统计规律、语义信息和上下文关系,微调阶段则是在预训练的基础上,使用特定任务的数据对模型进行进一步的调整。
莫杨94
·
2025-04-26 01:55
llama
人工智能
深度学习
自然语言处理
电子病历高质量
语料
库构建方法与架构项目(计划篇)
然而,电子病历数据具有非结构化、噪声大、专业性强等特点,如何构建高质量电子病历
语料
库成为医疗自然语言处理领域的核心挑战。
Allen_Lyb
·
2025-04-25 11:48
医疗高效编程研发
架构
人工智能
健康医疗
数据分析
动态规划
AI-大模型
,其核心特征包括:参数量级:现代大模型参数规模通常超过100亿(如GPT-3达1750亿)架构基础:基于Transformer的自注意力机制训练成本:需要数千张GPU/TPU的分布式训练数据需求:训练
语料
通常达
ghjhjjjbjibh
·
2025-04-25 06:09
人工智能
【程序员 NLP 入门】词嵌入 - 上下文中的窗口大小是什么意思? (★小白必会版★)
如何统计
语料
的共现矩阵?基于计数的表示方法
青松ᵃⁱ
·
2025-04-24 18:20
自然语言处理
人工智能
ViT中的Postion Embedding(位置编码)详解:数据从一维到二维的变化
它的主流方法是在大型文本
语料
库上进行预训练,然后在较小的特定任务数据集上进行微调,得益于它的计算效率和可扩展性等优点,它可以训练前所未有的规模,并且随着模型和数据集的增长,仍然没有出现性能饱和的迹象。
程序员非鱼
·
2025-04-24 15:28
transformer
embedding
人工智能
深度学习
transformer
计算机视觉
大模型相关 XSS等 漏洞事件深度剖析
模型基于注意力机制,通过海量
语料
数据进行预训练,并经过监督微调、人类反馈的强化学习等进行对齐,构建形成深度神经网络,并增加审核、过滤等安全机制,使算法模型部署后能够根据人类的指令或者提示,实现语义分析、
阳光普照世界和平
·
2025-04-24 06:00
xss
web安全
【程序员 NLP 入门】词嵌入 - 如何基于计数的方法表示文本? (★小白必会版★)
如何统计
语料
的共现矩阵?基于计数的表示方法存
青松ᵃⁱ
·
2025-04-24 03:40
程序猿的AI快车道
自然语言处理
人工智能
Python NLTK库【NLP核心库】全面解析
NaturalLanguageToolkit)库的全面深入讲解,涵盖核心功能、应用场景及代码示例:NLTK库基础一、NLTK简介NLTK是Python中用于自然语言处理(NLP)的核心库,提供了丰富的文本处理工具、算法和
语料
库
老胖闲聊
·
2025-04-23 20:54
python
自然语言处理
开发语言
Python爬虫根据关键词爬取知网论文摘要并保存到数据库中【入门必学】
由于需要一些
语料
做研究,
语料
要求是知网上的论文摘要,但是目前最新版的知网爬起来有些麻烦,所以我利用的是知网的另外一个搜索接口比如下面这个网页:http://search.cnki.net/Search.aspx
学术严谨
·
2025-04-23 16:28
python
数据库
数据挖掘
mysql
Day10 【基于LSTM实现自回归语言模型文本续写任务】
基于LSTM实现文本续写任务目标数据准备程序说明定义模型结构前向传播构建词表加载
语料
构建训练样本构建数据集训练模型文本续写困惑度计算训练过程展示目标本文基于给定的词表,将输入的文本以字符分割为若干个词,
Mechanotrooper
·
2025-04-20 08:19
自然语言处理
#
文本生成
lstm
语言模型
浅谈大语言模型(LLM)的微调与部署
大语言模型如GPT、BERT等,通常是在大规模通用
语料
库上预训练的,具备广泛的语言理解能力。但要在特定任务(如医疗问答、法律文档分析)上表现更好,就需要微调。
云端源想
·
2025-04-19 11:24
语言模型
人工智能
自然语言处理
论文略读:Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?
这类系统通常需要独立的模块来进行信息检索、问答和数据库查询等任务大模型时代,尤其是上下文语言模型(LCLM)时代,上述问题可以“一体化”完成LCLM可以直接接收包含文本、图像、音频等多模态信息的整个
语料
库作为输入
UQI-LIUWJ
·
2025-04-19 04:45
论文笔记
语言模型
人工智能
自然语言处理
虚实共生时代的情感革命:AI恋爱陪伴的兴起、困境与未来
通过深度学习算法解析3000万段真实对话的
语料
库,结合VR设备提供的多模态交互,当代虚拟对象已能实现瞳孔微表情的精确模拟与声线情感的颗粒化呈现。
晓晓不觉早
·
2025-04-15 12:08
人工智能
TensorFlow深度学习实战(12)——词嵌入技术详解
构建词嵌入5.使用Gensim探索嵌入空间6.动态嵌入小结系列链接0.前言在本节中,我们首先介绍词嵌入的概念,然后介绍两种实现词嵌入的方式:Word2Vec和GloVe,学习如何使用Gensim库从零开始构建
语料
库的词嵌入
盼小辉丶
·
2025-04-15 11:33
深度学习
tensorflow
自然语言处理
一文搞懂通义千问(Qwen)相关的核心概念
语言和多模态模型均在大规模、多语言、多模态数据上进行预训练,并在高质量
语料
上后训练以与人类偏好对齐。通义千问分为闭源和开源两大版本。开源模型包括:通义千问(Qwen):语言模型Qw
大模型面试
·
2025-04-09 20:47
人工智能
AI大模型
大模型
LLM
ai
Qwen
agi
2001-2023年上市公司供应链中断风险数据
得到了上市公司年报MD&A部分的文本
语料
。构建供应链中断风险种子词集。根据供应链中断风险的定义与来源(Kleindorf
经管数据集
·
2025-04-09 08:02
数据分析
从代码学习深度学习 - NLP之文本预处理 PyTorch版
文本预处理的核心代码解析2.1读取数据集:`read_time_machine`2.2分词处理:`tokenize`2.3词频统计:`count_corpus`2.4构建词表:`Vocab`类2.5加载
语料
库
飞雪白鹿€
·
2025-04-07 03:50
深度学习-pytorch版
深度学习
pytorch
AI大型语言模型企业级应用开发架构实战:实时数据流处理与推理
1.背景介绍近年来,随着人工智能技术的迅速发展,特别是基于大规模
语料
库的预训练模型及其海量计算能力的释放,越来越多的公司、组织和个人开始关注并尝试将这些高性能模型部署到生产环境中,进行业务落地。
AI天才研究院
·
2025-04-03 06:08
AI实战
DeepSeek
R1
&
大数据AI人工智能大模型
Python实战
大数据
人工智能
语言模型
AI
LLM
Java
Python
架构设计
【
语料
数据爬虫】Python爬虫|批量采集讲话稿数据(1)
前言本文是该专栏的第6篇,后面会持续分享Python爬虫采集各种
语料
数据的的干货知识,值得关注。在本文中,笔者将主要来介绍基于Python,来实现批量采集“讲话稿”数据。
写python的鑫哥
·
2025-04-02 06:27
语料数据爬虫案例
python
爬虫
语料
写作素材
讲话稿
数据
Word
TF-IDF算法及sklearn实现
TF-IDF是一种统计方法,用以评估一字词对与一个文件集或一个
语料
库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比的增加,但同时会
雪顶猫的鳄
·
2025-04-01 20:12
python
tf-idf
算法
sklearn
python
2025年渗透测试面试题总结- 某蚂蚁-安全工程师-实习(题目+回答)
目录蚂蚁-安全工程师-实习数据库Fuzz的改进思路1.覆盖率引导的深度优化2.测试
语料
的智能化生成3.执行环境的精细化监控数据库漏洞利用的危害层级1.权限提升与数据泄露2.远程代码执行(RCE)3.持久化与供应链攻击
独行soc
·
2025-03-31 23:39
2025年渗透测试面试指南
安全
面试
职场和发展
web安全
红蓝攻防
python
java
【
语料
数据爬虫】Python爬虫|批量采集讲话稿数据【范文网】(2)
前言本文是该专栏的第7篇,后面会持续分享Python爬虫采集各种
语料
数据的的干货知识,值得关注。本文,笔者将主要介绍基于Python,来实现批量采集范文网“讲话稿”数据。
写python的鑫哥
·
2025-03-31 20:49
语料数据爬虫案例
python
爬虫
语料
写作素材
讲话稿
数据
Word
【揭秘】什么是AI写作?AI写作是助手还是威胁?
AI写作是指利用人工智能技术,特别是自然语言处理(NLP)和机器学习(ML)技术,结合深度学习算法,通过大规模
语料
库和预训练模型来模仿和生成人类语言文本内容的过程。
ychenhub
·
2025-03-30 06:55
AIGC
AI写作
AIGC
AI写作
ai写作
NLP:词向量
该模型适合分析大规模
语料
,能够生成高质量的词向量。
00&00
·
2025-03-27 14:19
深度学习
自然语言处理
人工智能
自然语言处理
人工智能
深度学习
LLM-Agent方法评估与效果分析
从基础的单智能体强化学习算法(如PPO)到多智能体协作、
语料
重组以及在线自学习等新技术不断涌现,研究人员致力于探索如何提高LLM在实际应用中的决策能力、推理能力和任务执行效率。
·
2025-03-22 18:50
agent人工智能ai开发
迁移学习入门
一般预训练模型具备复杂的网络模型结构;一般是在大量的
语料
下训练完成的预训练语言模型的类别现在我们接触到的预训练语言模型,基本上都是基于transformer这个模型迭代而来的因此划分模型类别的时候,以transformer
EmbodiedTech
·
2025-03-19 16:14
人工智能
大模型
迁移学习
人工智能
机器学习
基于 svm 的金融咨询情感分析
详细代码与代码说明可见我的github:https://github.com/ouprince/svm处理流程:(1)金融咨询处理1.利用7万多条利好/利空
语料
(已经标注好的,分为1正性,-1负性两类)
ouprince
·
2025-03-16 10:28
NLP
svm
情感分析
基于AI算法实现的情感倾向分析的方法
download.csdn.net/download/pythonyanyan/87430621背景目前,情感倾向分析的方法主要分为两类:一种是基于情感词典的方法;一种是基于机器学习的方法,如基于大规模
语料
库的机器学习
程序员奇奇
·
2025-03-16 10:28
计算机毕设
人工智能
算法
【LLM大模型】大模型涌现能力及 Prompt Engineering提示词
作为概率模型,大语言模型甚至不知道数字代表的真实含义,模型只是在学习了无数的
语料
之后,发现了一些数学结论之间的潜在概率关系,才最终涌现出了数学运算或者复杂推理的能力。但是“涌现能力
Langchain
·
2025-03-13 18:15
prompt
人工智能
llama
langchain
ai大模型
LLM
Python|基于DeepSeek大模型,自动生成
语料
数据(10)
而在本文中,笔者将基于DeepSeek大模型,通过Python来实现“自动生成目标
语料
数据”,并对生成的
语料
数据进行json格式存储,以及docx文档形式
写python的鑫哥
·
2025-03-10 02:41
AI大模型实战应用
人工智能
python
大模型
DeepSeek
生成
语料
数据
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他