机智的叉烧

NLP入门实践总结：预训练时代下的文本分类、数据增强与模型调优、常见数据集与动手实践...

分类问题是NLP（Natural Language Processing，自然语言处理）领域的经典常见任务，而随着预训练模型的发展，预训练时代下的文本分类算法逐步成为了我们从事NLP相关工作的必备技能。

本文作为NLP经典任务入门的实践总结，结合了最前沿的算法、开源工具（飞桨自然语言处理模型库PaddleNLP）与代码实操、工作实践，希望借此抛砖引玉，能多多交流探讨当前预训练模型在文本分类上的应用，供大家一起参考学习。

一、场景介绍

文本分类，顾名思义，就是对给定的一个句子或一段文本进行分类。文本分类在互联网、金融、医疗、法律、工业等领域都有广泛的应用，例如文章主题分类、商品信息分类、对话意图分类、论文专利分类、邮件自动标签、评论正负倾向识别、投诉事件分类、广告检测以及敏感违法内容检测等，这些应用场景全部都可以抽象为文本分类任务。

根据任务类别定义，可以将文本分类划分为二分类/多分类、多标签、层次分类三类场景。以下面的新闻分类为例：

二分类/多分类：标签集中有两个或以上的标签类别，每个样本有且只有一个标签；
多标签：每个样本有一个或多个标签；
层次分类：特殊的多分类或多标签任务，标签之间具有层次关系。比如下图样本的一级标签是体育，二级标签是足球，体育为足球的父标签。

图：三类文本分类场景

二、技术方案选型与开源工具推荐

预训练模型微调、提示学习是当前解决分类任务的主流思路。此外，笔者最近还使用了PaddleNLP中开源的基于语义索引的技术方案，下面一一介绍。

方案一：预训练模型微调

预训练模型微调是目前NLP领域最通用的文本分类方案。预训练模型与具体的文本分类任务的关系可以直观地理解为，预训练模型已经懂得了通用的句法、语义等知识，采用具体下游任务数据微调训练可以使得模型”更懂”这个任务，在预训练过程中学到的知识基础可以使文本分类效果事半功倍。

图：模型精度-时延图

在预训练模型选择上，推荐使用百度开源的文心ERNIE 系列模型，其在精度和性能上的综合表现已全面领先于 UER/RoBERTa、Huawei/TinyBERT、HFL/RBT、RoBERTa-wwm-ext-large等中文模型。PaddleNLP开源了如下多种尺寸的ERNIE系列预训练模型，满足多样化的精度、性能需求：

ERNIE 1.0-Large-zh-CW（24L1024H）
ERNIE 3.0-Xbase-zh（20L1024H）
ERNIE 2.0-Base-zh (12L768H)
ERNIE 3.0-Base (12L768H)
ERNIE 3.0-Medium (6L768H)
ERNIE 3.0-Mini (6L384H)
ERNIE 3.0-Micro (4L384H)
ERNIE 3.0-Nano (4L312H)
… …

除中文模型外，PaddleNLP 也提供ERNIE 2.0英文版、以及基于96种语言（涵盖法语、日语、韩语、德语、西班牙语等几乎所有常见语言）预训练的多语言模型ERNIE-M，满足不同语言的文本分类任务需求。

方案二：提示学习

提示学习（Prompt Learning）适用于标注成本高、标注样本较少的文本分类场景。在小样本场景中，相比于预训练模型微调学习，提示学习能取得更好的效果。提示学习的主要思想是将文本分类任务转换为构造提示（Prompt）中掩码的分类预测任务，使用待预测字的预训练向量来初始化分类器参数，充分利用预训练语言模型学习到的特征和标签文本，从而降低样本量需求。PaddleNLP集成了R-Drop 和 RGL 等前沿策略，帮助提升模型效果。

图：预训练模型微调 vs 提示学习

如下图，在多分类、多标签、层次分类任务的小样本场景下，提示学习比预训练模型微调方案，效果上有显著优势。

方案三：语义索引

基于语义索引的文本分类方案适用于标签类别不固定、或大规模标签类别的场景。在新增标签类别的情况下，无需重新训练模型。语义索引的目标是从海量候选召回集中快速、准确地召回一批与输入文本语义相关的文本。基于语义索引的文本分类方法具体来说是将标签集作为召回目标集，召回与输入文本语义相似的标签作为文本的标签类别，尤其适用于层次分类场景。

综上，针对多分类、多标签、层次分类等高频分类场景，推荐使用PaddleNLP中开源的预训练模型微调、提示学习、语义索引三种端到端全流程分类方案。

PaddleNLP文本分类方案提供了简单易用的数据标注-模型训练-模型调优-模型压缩-预测部署全流程方案，如下图所示。

开发者仅需输入指定格式的数据，一行命令即可开启文本分类训练。对于训练结果不理想情况，分析模块提供了多种模型调优方案，解决文本分类数据难题。

对于模型部署上线要进一步压缩模型体积的需求，可一行代码调用PaddleNLP的模型压缩 API ——采用了DynaBERT 中宽度自适应裁剪策略，对预训练模型多头注意力机制中的头（Head ）进行重要性排序，保证更重要的头（Head ）不容易被裁掉，然后用原模型作为蒸馏过程中的教师模型，宽度更小的模型作为学生模型，蒸馏得到的学生模型就是我们裁剪得到的模型。实验表明模型裁剪能够有效缩小模型体积、减少内存占用、提升推理速度。此外，模型裁剪去掉了部分冗余参数的扰动，增加了模型的泛化能力，在部分任务中预测精度得到提高。通过模型裁剪，可以得到更快、更准的模型！

表：模型裁剪效果

完成模型训练和裁剪后，开发者可以根据需求选择是否进行低精度（FP16/INT8）加速，快速高效实现模型离线或服务化部署。

对预训练时代NLP任务入门感兴趣的小伙伴，可以扫码报名进群，获取PaddleNLP官方近期组织的直播链接，进群还可获得10GB NLP学习大礼包等超多福利~此外，课程中还将介绍数据增强、稀疏数据与脏数据挖掘等数据、模型调优策略，亲测好用，这部分是课程精华，非常推荐各位NLPer去学习交流。

挖掘该工具更多的潜力和惊喜，请进传送门（STAR收藏起来，不易走丢~）

https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/text_classification

图：PaddleNLP文本分类详细文档介绍

接下来，我们来看如何进行数据、模型调优。

三、数据、模型调优

在实际工作中，除了技术方案选型、如何进行模型调优、如何解决少样本等问题，使很多开发者望而却步，迟迟难以上线。

有这么一句话在业界广泛流传，"数据决定了机器学习的上限，而模型和算法只是逼近这个上限"，可见数据质量的重要性。PaddleNLP文本分类方案依托TrustAI可信增强能力和数据增强API开源了模型分析模块，针对标注数据质量不高、训练数据覆盖不足、样本数量少等文本分类常见数据痛点，提供稀疏数据筛选、脏数据清洗、数据增强三种数据优化策略，解决训练数据缺陷问题，用低成本方式获得大幅度的效果提升。

集可信分析和增强于一体的可信AI工具集-TrustAI，能够有效识别和优化NLP领域数据标注的常见问题，如『训练数据中存在脏数据阻碍模型效果提升』，『数据标注成本太高但又不清楚该标注什么数据』，『数据分布有偏导致模型鲁棒性差』等，TrustAI能帮助NLP开发者解决训练数据缺陷问题，用最小的标注成本获得最大幅度的效果提升

可戳项目地址了解详情：

https://github.com/PaddlePaddle/TrustAI

策略一：稀疏数据筛选

基于TrustAI中可信增强方法挖掘待预测数据中缺乏训练集数据支持的数据（稀疏数据），然后使用特征相似度方法选择能够提供证据支持的训练数据进行数据增强，或选择能够提供证据支持的未标注数据进行数据标注，这两种稀疏数据筛选策略均能有效提升模型表现。

策略二：脏数据清洗

基于TrustAI的可信增强能力，采用表示点方法(Representer Point)计算训练数据对模型的影响分数，分数高的训练数据表明对模型影响大，这些数据有较大概率为脏数据（被错误标注的样本）。脏数据清洗策略通过高效识别训练集中脏数据，有效降低人力检查成本。

我们在多分类、多标签、层次分类场景中评测脏数据清洗策略，实验表明脏数据清洗策略对文本分类任务有显著提升效果。

策略三：数据增强

PaddleNLP内置数据增强API，支持词替换、词删除、词插入、词置换、基于上下文生成词（MLM预测）、TF-IDF等多种数据增强策略，只需一行命令即可实现数据集增强扩充。我们在某分类数据集（500条）中测评多种数据增强策略，实验表明在数据量较少的情况下，数据增强策略能够增加数据集多样性，提升模型效果。

图：数据增强策略效果

总结一下PaddleNLP开源的文本分类场景方案特色：

方案全覆盖：涵盖文本分类高频场景，开源微调、提示学习、基于语义索引多种分类技术方案，满足不同文本分类落地需求；
模型高效调优：强强结合数据增强能力与TrustAI可信增强技术，解决脏数据、标注数据欠缺以及数据不平衡等问题，大幅提升模型效果；
产业级全流程：打通数据标注-模型训练-模型调优-模型压缩-预测部署全流程，助力开发者简单高效地完成文本分类任务。

百度飞桨PaddleNLP官方直播分享课程

10月27日-28日，两位百度高工将带来直播分享，详细解读预训练时代下的文本分类系统方案，数据增强与模型调优策略，推荐一波（定好闹钟哦，不确定是否有回放）~

*注：如果已经在前文扫码进群，无需重复操作。

扫码还可获得文本分类常用数据集、NLP学习大礼包等超多福利！

四、实践经验总结

1、数据为王时代

以笔者个人的实践经验来说，提高文本分类精度最快、最有效的方法是既不是模型，也不是算法调参，而是数据质量。文本分类总的来说不是个复杂的自然语言处理任务（甚至可以说是最基本的任务），如何更好地进行数据标签的划分，减少混淆重合情况和高质量的数据标注（正确标注，标准统一，且训练集与预测数据分布一致）是得到高精度的文本分类模型的关键。

标签体系划分

文本分类任务的标签体系依具体的任务而定，一个清晰分界明确的标签体系有利于提升数据标注质量。在多分类任务中需尽量避免标签之间范围重合，避免标注环节中遇到相似的样本时，有的被标记为A，有的标记为B，降低模型准确率。

标注正确

"Garbage in, garbage out（垃圾进，垃圾出）"，如果训练数据包含很多错误，可想而知模型不会有很好的预测结果。人工检查所有数据标注是否准确，成本不低，因此可以借助前文介绍的TrustAI工具，计算训练数据对模型的扰动，来筛选出脏数据进行重新标注。

训练数据和测试数据分布一致

模型学习的过程可以理解为拟合训练数据分布的过程，只有模型学习与预测场景相似的训练样本，才能在预测数据上有更好的表现。在实践场景中效果差，基本是这个问题。

精选有效信息

目前预训练模型通常支持的max_length最大为512，有些模型可能会应用一些策略使模型能够接受输入长度最长2048，当然还有一些支持长文本的模型例如Longformer，ERNIE-Doc。但输入文本过长，容易爆显存，训练速度过慢，并且由于文本包含过多无用的信息干扰使模型效果变差。如何精选文本数据需要根据实际情况而定，常见方法如按句号对句子截断、利用正则匹配筛选有效文本内容等。

充足的数据

虽然文本分类在零样本和小样本领域有许多探索，但效果暂时还是很难超越在充足训练数据下进行微调。人工标注结合数据增强策略是常见扩充数据的方法。

2、更多实战

PaddleNLP开源的文本分类方案涵盖多分类、多标签、层次分类三大场景，提供微调、提示学习、基于语义检索等多种分类技术方案。很全了！并且强强结合数据增强能力与可信增强技术，解决脏数据、标注数据欠缺、数据不平衡等问题，能够大幅提升模型效果，值得一试。

可以快速使用PaddleNLP完成实现多分类、多标签、层次分类任务。你可以仿照数据集格式，替换数据集目录，直接训练自己的数据。赶紧实践起来吧！

地址：

https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/text_classification

更多精彩直播

PaddleNLP项目地址：
GitHub: https://github.com/PaddlePaddle/PaddleNLP

TrustAI项目地址：

GitHub: https://github.com/PaddlePaddle/TrustAI

2025 年最值得收听的 AI 播客推荐！助你轻松掌握人工智能前沿动态！真智AI 人工智能开发语言机器学习
如今，几乎每个人都被告知需要提升技能，而当前许多组织最看重的技能之一就是人工智能（AI）。学习AI相关技能通常涉及数学、统计学和机器学习，但除此之外，你还需要了解行业趋势、业内人士的观点以及各大公司的动态。然而，学习并不意味着时刻都要埋头苦读！有时候，你需要给大脑一个喘息的机会，同时依然能获取有价值的信息。而收听AI相关的播客，就是一个轻松高效的方式。以下是2025年你必须关注的AI播客！1.Th
人工智能概念 zhangpeng455547940 计算机人工智能
机器学习、深度学习、大模型机器学习提供框架，使得系统可以从数据中学习算法：线性回归、逻辑回归、支持向量机、决策树、随机森林、K近邻算法深度学习是实现这一目标的工具，模仿人脑，使用多层神经网络进行学习算法：多层感知器、卷积神经网络、循环神经网络、长短期记忆网络大模型指参数量巨大的深度学习模型人工智能应用：自然语言处理、图像识别与生成、语音识别、政务与企业服务...
HMML——3D AI Coding的基础语言 AIGC5D-Longan 人工智能
编程语言（如Python、Java、C++等），作为2D编程的语言，也是AI开发的主力工具。2D编程语言内容呈现和交互，与3D世界、物理世界的高维复杂性之间的割裂日益凸显。HMML（超多元空间标记语言HyperMultspaceMarkupLanguage），是新的3D编程语言，也是3DAICoding的基础语言。3DAICoding的诞生，标志编程语言首次实现与人类多维认知的深度对齐。通过HMM
机器学习(二) 本文(2.5万字) | KNN算法原理及Python复现 | 小酒馆燃着灯机器学习算法 k近邻算法
文章目录一KNN算法原理二KNN三要素三机器学习中标准化四KNN分类预测规则五KNN回归预测规则六KNN算法实现方式七KDTree7.1构造KDtree7.2KDtree查找最近邻八KNN特点九KNN算法实现案例一案例二1.机器学习2.深度学习与目标检测3.YOLOv54.YOLOv5改进5.YOLOv8及其改进6.Python与PyTorch7.工具8.小知识点9.杂记一KNN算法原理K近邻分类
（十一）人工智能 - Python 教程 - Python元组星星学霸人工智能 -Python系列教程 python 搜索引擎开发语言
更多系列教程，每天更新更多教程关注：xxxueba.com星星学霸1元组（Tuple）元组是有序且不可更改的集合。在Python中，元组是用圆括号编写的。实例创建元组：thistuple=("apple","banana","cherry")print(thistuple)("apple","banana","cherry")2访问元组元素可以通过引用方括号内的索引号来访问元组元素：实例打印元组中
院士领衔、IEEE Fellow 坐镇，清华、上交大、复旦、同济等专家齐聚 2025 全球机器学习技术大会 CSDN资讯机器学习人工智能
随着Manus出圈，OpenManus、OWL迅速开源，OpenAI推出智能体开发工具，全球AI生态正经历新一轮智能体革命。大模型如何协同学习？大模型如何自我进化？新型强化学习技术如何赋能智能体？围绕这些关键问题，由CSDN&Boolan联合举办的「2025全球机器学习技术大会」将于4月18-19日在上海隆重举行。大会云集院士、10所高校科研工作者、近30家一线科技企业技术实战专家组成的超50位重
CES Asia2025新机制引关注，科技创新奖申报火热赛逸展张胜科技
随着2025第七届亚洲消费电子技术贸易展（赛逸展）“展位即门票”机制的推出，科技创新奖的申报工作也正式拉开帷幕。截至目前，已有数十家企业提交了申报材料，涵盖人工智能、物联网、智能硬件等多个热门领域。据了解，CESAsia2025科技创新奖旨在表彰在科技研发和产品创新方面取得卓越成就的企业。此次申报面向所有预订展位的参展企业，评审过程将由行业专家、院士，协会，学者和媒体代表共同参与，确保评选结果的公
再添殊荣！移远通信工业智能品牌宝维塔™斩获AI创新应用奖移远通信算力人工智能工业智能
12月24日，2024中国物联网产业大会暨第21届慧聪品牌盛会在深圳圆满落幕。会上，移远通信凭借其工业智能品牌宝维塔™在推动AI技术落地与应用创新方面的卓越贡献，获颁“AI创新应用奖”。作为科技发展的前沿力量，AI技术正深刻改变着各行各业的生产模式和效率，尤其在工业领域，展现出了巨大潜力。宝维塔™是移远通信精心打造的工业智能品牌，专注于将人工智能、边缘计算、机器视觉、深度学习、软件算法平台等前沿技
出海行动派 | 全球服务新征程！Bonree ONE海外版正式发布运维
在云计算、大数据与物联网深度融合的驱动下，全球IT运维行业正经历从被动响应到主动智能的深刻变革。Gartner最新数据显示，可观测性市场规模将从2021年的68亿美元跃升至2027年的111亿美元，复合年增长率达8.3%，标志着企业对应用稳定性与用户体验的极致追求已成为数字化转型的核心命题。与此同时，全球化进程中的文化差异与合规要求，对运维解决方案的本地化适配能力提出了更高挑战。BonreeONE
c++基础详解我要进步！ c++
C++是一种功能强大且灵活的编程语言，用于系统编程、应用程序开发、游戏开发等多个领域。下面我将详细讲解C++的基础知识，涵盖以下几个方面：目录c++基础详解1.基本语法2.变量和数据类型3.运算符4.控制流5.函数6.数组和字符串7.指针和引用8.面向对象编程1.基本语法C++程序的基本结构如下：#include//包含输入输出流库intmain(){ std::cout：包含标准输入输出库。
手写机器学习算法系列——K-Means聚类算法(一) 木有鱼丸223 手写机器学习算法系列机器学习算法聚类
代码仓库(数字空间项目，GN可上)不想看的话，我也将代码上传到本博客中。1.聚类算法简介在数据科学和机器学习领域，聚类(Clustering)算法是一种无监督学习方法，它将相似的对象分到同一个组，而不同的对象则被分到不同的组。这种算法的主要目标是根据数据的特征进行分组，以此找出数据的内在结构。聚类算法的一个核心特点就是它并不需要预先知道数据的类别，而是通过算法自动进行分组。在实际应用中，我们常见的
.net 插件式开发——实现web框架中大数据算法嵌入(BP算法逼近) weixin_34219944 json 人工智能
关于算法的引入：插件式架构设计，可移植性强，利于算法的升级。【插件式开发相关资料】https://www.cnblogs.com/lenic/p/4129096.html以BP算法为例：1、首先定义一个接口规范////////插件的统一入口///publicinterfaceIPluginPerfrom{//////统一算法插件入口//////输出参数的个数///输出参数///输入参数///str
图像工具插件：Editor.js 的图像处理解决方案贡沫苏Truman
图像工具插件：Editor.js的图像处理解决方案imageImageBlockforEditor.js项目地址:https://gitcode.com/gh_mirrors/image8/imageEditor.js的图像工具插件是一个强大的开源项目，致力于为Editor.js富文本编辑器提供图像处理功能。该项目主要使用JavaScript编程语言，并且是基于Editor.js的插件架构进行开发
验证码识别：使用OCR技术识别图形验证码详解数据知道 2025年爬虫和逆向教程 ocr python 爬虫 OCR识别验证码识别图片验证码
文章目录一、基本原理二、所需工具2.1Python环境2.2图像处理库2.3OCR引擎2.4Python接口三、实现步骤3.1获取验证码图像3.2图像预处理3.3使用OCR进行字符识别3.4基本OCR识别样例四、提高识别准确率的方法4.1字符分割4.2使用深度学习模型4.3数据增强4.4集成多个OCR引擎五、实际应用中的注意事项六、总结验证码（CAPTCHA）是一种用于区分人类用户和自动化程序的安
国产编辑器EverEdit - 脚本(解锁文本编辑的无限可能) 编辑器爱好者妙用编辑器 #《EverEdit使用手册》编辑器 EverEdit EmEditor Notepad
1脚本1.1应用场景脚本是一种功能扩展代码，用于提供一些编辑器通用功能提供不了的功能，帮助用户在特定工作场景下提高工作效率，几乎所有主流的编辑器、IDE都支持脚本。 EverEdit的脚本支持js(语法与javascript类似)、VBScript两种编程语言(注：也可以支持其他语言，但较复杂)，EverEdit本身提供了大量对编辑器自身操作的API，通过脚本语言和API，用户可以极大的扩展
2025扩展可能性采购和供应链管理使用AI报告100+份汇总解读|附PDF下载拓端研究室百度人工智能
原文链接：https://tecdat.cn/?p=40348在当今快速发展的商业环境中，采购和供应链管理领域正经历着深刻变革，人工智能（AI）技术的融入成为推动这一变革的关键力量。本报告汇总解读聚焦于AI在采购和供应链管理中的应用，深入剖析其发展现状、面临挑战与潜在机遇。通过对大量数据的分析，揭示AI技术在实际应用中的具体表现，如不同行业的采用比例、应用场景等。本报告汇总洞察基于文末135份供应
【Python系列】如何通过PyQt5构建桌面应用东临碣石82 python
Python标准内置了Tkinter库可以用于开发桌面应用，但其创建的界面外观不够现代。PyQt5是一个用于创建图形用户界面（GUI）的Python库，它基于强大的Qt库，为Python开发者提供了丰富的功能和选项，用于构建高质量的跨平台桌面应用程序。以下是PyQt5的详细介绍：一、基本概述定义：PyQt5是一个用于Python编程语言的GUI库，它基于Qt5框架，由RiverbankComput
从LayerNorm到RMSNorm：深度学习归一化技术的进化！qwen2.5的技术。 KangkangLoveNLP qwen2.5 深度学习人工智能 transformer pytorch 自然语言处理 python 神经网络
RMSNorm（RootMeanSquareNormalization，均方根归一化）是一种用于深度学习的归一化技术，是LayerNorm（层归一化）的一种改进。它通过计算输入数据的均方根（RootMeanSquare,RMS）来进行归一化，避免了传统归一化方法中均值和方差的计算1.LayerNorm（层归一化）LayerNorm（层归一化）是一种用于深度学习的归一化技术，主要用于稳定训练过程、加
Visual Studio 2022和C++实现带多组标签的Snowflake SQL查询批量数据导出程序 weixin_30777913 c++云计算开发语言 sql 数据仓库
设计一个基于多个带标签SnowflakeSQL语句作为json配置文件的VisualStudio2022的C++代码程序，实现根据不同的输入参数自动批量地将Snowflake数据库的数据导出为CSV文件到本地目录上，标签加扩展名.csv为导出数据文件名，文件已经存在则覆盖原始文件。需要考虑SQL结果集是大数据量分批数据导出的情况，通过多线程和异步操作来提高程序性能，程序需要异常处理和输出，输出出错
Python Pandas带多组参数和标签的Snowflake数据库批量数据导出程序 weixin_30777913 pandas python 云计算数据仓库
设计一个基于多个带标签的SnowflakeSQL模板作为配置文件和多组参数的PythonPandas代码程序，实现根据不同的输入参数自动批量地将Snowflake数据库中的数据导出为CSV文件到指定目录上，然后逐个文件压缩为zip文件，标签和多个参数（以“_”分割）为组成导出数据文件名，文件已经存在则覆盖原始文件。需要考虑SQL结果集是大数据量分批数据导出的情况，通过多线程和异步操作来提高程序性能
C#带多组标签的Snowflake SQL查询批量数据导出程序 weixin_30777913 c#数据仓库云计算 sql
设计一个基于多个带标签SnowflakeSQL语句作为json配置文件的C#代码程序，实现根据不同的输入参数自动批量地将Snowflake数据库的数据导出为CSV文件到本地目录上，标签加扩展名.csv为导出数据文件名，文件已经存在则覆盖原始文件。需要考虑SQL结果集是大数据量分批数据导出的情况，通过多线程和异步操作来提高程序性能，程序需要异常处理和输出，输出出错时的错误信息，每次每个查询导出数据的
【Agent实战】发票信息识别提取专家（AI +OCR技术结合ChatGPT4o能力+结构化prompt（CoT、One-shot等）+Knowledge - RAG+API工具Agent项目实践）姚瑞南大模型落地探索及agent搭建 RAG技术应用探索 prompt实战应用案例人工智能 ocr prompt AIGC chatgpt gpt agi
本文原创作者：姚瑞南AI-agent大模型运营专家，先后任职于美团、猎聘等中大厂AI训练专家和智能运营专家岗；多年人工智能行业智能产品运营及大模型落地经验，拥有AI外呼方向国家专利与PMP项目管理证书。（转载需经授权）目录1.项目背景2.项目目标定性：定量：3.发票核心字段概述4.关键举措5.Workflow设计思路及编排5.1整体设计思路5.2流程搭建及解读流程解读：代码节点：解析agent数据
深入解析：大型机器学习模型的基本概念与特点 AI大模型-大飞机器学习人工智能 AI大模型 AI 神经网络大模型
大模型是指具有大规模参数和复杂计算结构的机器学习模型。本文从大模型的基本概念出发，对大模型领域容易混淆的相关概念进行区分，并就大模型的发展历程、特点和分类、泛化与微调进行了详细解读，供大家在了解大模型基本知识的过程中起到一定参考作用。本文目录如下：·大模型的定义·大模型相关概念区分·大模型的发展历程·大模型的特点·大模型的分类·大模型的泛化与微调1.大模型的定义大模型是指具有大规模参数和复杂计算结
【从零开始学习计算机科学】编程语言（一）常用编程语言的发展与介绍贫苦游商学习 java python c++编程语言 r语言 javascript
【从零开始学习计算机科学】编程语言（一）常用编程语言的发展与介绍编程语言可读性可写性可靠性代价影响编程语言的因素编程语言的分类编程语言设计中的权衡编程语言的实现方法编程环境编程语言的发展过程低级语言时代高级语言时代第一个高级语言—Fortran第一个结构化程序设计语言—ALGOL最简单的语言——BASIC编程语言里一个重要的里程碑——Pascal现代程序语言革命的起点——C语言面向对象时代Java
你所不知道的关于AI的27个冷知识——AI的军事应用贫苦游商 transformer 人工智能自动化算法 gpt
AI的军事应用亲爱的朋友们，今天我们要踏入一个既神秘又令人激动的领域——人工智能（AI）在军事中的应用。想象一下，一个由智能机器人和无人机组成的军队，能够进行精准打击和复杂的战略部署，这一切听起来像是科幻电影中的场景，但在现实中已经逐渐成为可能。让我们一起探索AI在军事中的奇妙应用以及它所带来的挑战。智能无人机：空中的无形战士首先，让我们飞向天空，看看那些令人惊叹的智能无人机。这些无人机不仅能进行
普通人如何利用GPT赚钱之开发虚拟助手贫苦游商普通人利用AI搞钱系列 gpt 人工智能深度学习机器人 AIGC
普通人如何利用GPT赚钱之开发虚拟助手随着人工智能技术的迅猛发展，GPT（GenerativePre-trainedTransformer）作为一种强大的语言模型，正在改变我们的生活和工作方式。普通人如何利用GPT赚钱？开发虚拟助手是一个极具潜力的方向。本文将探讨如何开发虚拟助手，以及如何通过这一技术实现经济收益。什么是虚拟助手虚拟助手是一种基于人工智能的技术，能够理解自然语言并执行特定任务。它们
深入浅出 K 近邻算法：原理、实践与应用烂蜻蜓机器学习近邻算法算法
引言在机器学习的众多算法中，K近邻算法（K-NearestNeighbors，简称KNN）以其简洁而强大的特性占据着重要地位。它既可以用于分类任务，也能在回归任务中发挥作用。无论是处理简单数据集，还是面对复杂的数据分布，KNN都展现出独特的魅力。本文将深入探讨KNN算法的原理、特点、优缺点、实现步骤以及在分类和回归任务中的具体应用。KNN算法的基本原理KNN算法属于监督学习范畴，其核心思想质朴而直
【漫话机器学习系列】137.随机搜索（Randomized Search） IT古董漫话机器学习系列专辑机器学习人工智能
随机搜索（RandomizedSearch）详解在机器学习和深度学习的模型训练过程中，超参数调优（HyperparameterTuning）是至关重要的一环。随机搜索（RandomizedSearch）是一种高效的超参数优化方法，它通过在候选超参数的数值分布（如正态分布、均匀分布等）中随机选择超参数组合，从而找到最优的超参数配置。1.超参数调优的必要性超参数是模型在训练之前需要人为设定的参数，例如
南京大学×百度“星河杯”AI大模型创意校园赛正式起航
3月9日，教育部长怀进鹏在十四届全国人大二次会议民生主题记者会上，谈到了人工智能+教育的重要性。他强调，要把人工智能技术深入到教育教学和管理的全过程和全环节，研究其有效性和适应性，让青年一代更加主动地学习，让教师更加创造性地教学。南京大学早在年初就已经敏锐地洞察到了人工智能的重要性，在新学期工作布置会上，发布了一个前瞻性决策：24年9月面向全体本科新生开设“人工智能通识核心课程体系”，南京大学党委
大模型（DeepSeek等）是否会动摇AI工程师的工作？点我头像干啥 Ai 深度学习人工智能 AI编程计算机视觉
引言近年来，人工智能（AI）领域取得了突飞猛进的发展，尤其是大模型（如GPT-3、BERT、DeepSeek等）的出现，极大地推动了自然语言处理（NLP）、计算机视觉（CV）等领域的进步。大模型凭借其强大的泛化能力和广泛的应用场景，逐渐成为AI领域的核心技术之一。然而，随着大模型的普及，一个备受关注的问题浮出水面：大模型是否会动摇AI工程师的工作？本文将从多个角度探讨这一问题，分析大模型对AI工程
html页面js获取参数值 0624chenhong html
1.js获取参数值js function GetQueryString(name) { var reg = new RegExp("(^|&)"+ name +"=([^&]*)(&|$)"); var r = windo
MongoDB 在多线程高并发下的问题 BigCat2013 mongodb DB 高并发重复数据
最近项目用到 MongoDB , 主要是一些读取数据及改状态位的操作. 因为是结合了最近流行的 Storm进行大数据的分析处理，并将分析结果插入Vertica数据库，所以在多线程高并发的情境下, 会发现 Vertica 数据库中有部分重复的数据. 这到底是什么原因导致的呢？笔者开始也是一筹莫展，重复去看 MongoDB 的 API , 终于有了新发现： com.mongodb.DB 这个类有
c++ 用类模版实现链表(c++语言程序设计第四版示例代码) CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T> class Node { private: Node<T> * next; public: T data;
最近情况麦田的设计者感慨考试生活
在五月黄梅天的岁月里，一年两次的软考又要开始了。到目前为止，我已经考了多达三次的软考，最后的结果就是通过了初级考试（程序员）。人啊，就是不满足，考了初级就希望考中级，于是，这学期我就报考了中级，明天就要考试。感觉机会不大，期待奇迹发生吧。这个学期忙于练车，写项目，反正最后是一团糟。后天还要考试科目二。这个星期真的是很艰难的一周，希望能快点度过。
linux系统中用pkill踢出在线登录用户被触发 linux
由于linux服务器允许多用户登录，公司很多人知道密码，工作造成一定的障碍所以需要有时踢出指定的用户 1/#who 查出当前有那些终端登录（用 w 命令更详细） # who root pts/0 2010-10-28 09:36 (192
仿QQ聊天第二版肆无忌惮_ qq
在第一版之上的改进内容: 第一版链接: http://479001499.iteye.com/admin/blogs/2100893 用map存起来号码对应的聊天窗口对象,解决私聊的时候所有消息发到一个窗口的问题. 增加ViewInfo类,这个是信息预览的窗口,如果是自己的信息,则可以进行编辑. 信息修改后上传至服务器再告诉所有用户,自己的窗口
java读取配置文件知了ing
1，java读取.properties配置文件 InputStream in; try { in = test.class.getClassLoader().getResourceAsStream("config/ipnetOracle.properties");//配置文件的路径 Properties p = new Properties()
__attribute__ 你知多少？矮蛋蛋 C++gcc
原文地址: http://www.cnblogs.com/astwish/p/3460618.html GNU C 的一大特色就是__attribute__ 机制。__attribute__ 可以设置函数属性（Function Attribute ）、变量属性（Variable Attribute ）和类型属性（Type Attribute ）。 __attribute__ 书写特征是：
jsoup使用笔记 alleni123 java 爬虫 JSoup
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.7.3</version> </dependency> 2014/08/28 今天遇到这种形式，
JAVA中的集合 Collectio 和Map的简单使用及方法百合不是茶 list map set
List ,set ,map的使用方法和区别 java容器类类库的用途是保存对象，并将其分为两个概念： Collection集合：一个独立的序列，这些序列都服从一条或多条规则;List必须按顺序保存元素，set不能重复元素；Queue按照排队规则来确定对象产生的顺序（通常与他们被插入的
杀LINUX的JOB进程 bijian1013 linux unix
今天发现数据库一个JOB一直在执行，都执行了好几个小时还在执行，所以想办法给删除掉系统环境： ORACLE 10G Linux操作系统操作步骤如下：第一步.查询出来那个job在运行，找个对应的SID字段 select * from dba_jobs_running--找到job对应的sid &n
Spring AOP详解 bijian1013 java spring AOP
最近项目中遇到了以下几点需求，仔细思考之后，觉得采用AOP来解决。一方面是为了以更加灵活的方式来解决问题，另一方面是借此机会深入学习Spring AOP相关的内容。例如，以下需求不用AOP肯定也能解决，至于是否牵强附会，仁者见仁智者见智。 1.对部分函数的调用进行日志记录，用于观察特定问题在运行过程中的函数调用
[Gson六]Gson类型适配器(TypeAdapter) bit1129 Adapter
TypeAdapter的使用动机 Gson在序列化和反序列化时，默认情况下，是按照POJO类的字段属性名和JSON串键进行一一映射匹配，然后把JSON串的键对应的值转换成POJO相同字段对应的值，反之亦然，在这个过程中有一个JSON串Key对应的Value和对象之间如何转换(序列化/反序列化)的问题。以Date为例，在序列化和反序列化时，Gson默认使用java.
【spark八十七】给定Driver Program，如何判断哪些代码在Driver运行，哪些代码在Worker上执行 bit1129 driver
Driver Program是用户编写的提交给Spark集群执行的application，它包含两部分作为驱动： Driver与Master、Worker协作完成application进程的启动、DAG划分、计算任务封装、计算任务分发到各个计算节点(Worker)、计算资源的分配等。计算逻辑本身，当计算任务在Worker执行时，执行计算逻辑完成application的计算任务
nginx 经验总结 ronin47 nginx 总结
　　　深感nginx的强大，只学了皮毛，把学下的记录。　　　获取Header 信息，一般是以$http_XX（ＸＸ是小写）获取body,通过接口，再展开，根据Ｋ取Ｖ　　　获取uri,以$arg_XX &n
轩辕互动-1.求三个整数中第二大的数2.整型数组的平衡点 bylijinnan 数组
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class ExoWeb { public static void main(String[] args) { ExoWeb ew=new ExoWeb(); System.out.pri
Netty源码学习-Java-NIO-Reactor bylijinnan java 多线程 netty
Netty里面采用了NIO-based Reactor Pattern 了解这个模式对学习Netty非常有帮助参考以下两篇文章： http://jeewanthad.blogspot.com/2013/02/reactor-pattern-explained-part-1.html http://gee.cs.oswego.edu/dl/cpjslides/nio.pdf
AOP通俗理解 cngolon spring AOP
1.我所知道的aop 初看aop,上来就是一大堆术语，而且还有个拉风的名字，面向切面编程，都说是OOP的一种有益补充等等。一下子让你不知所措，心想着：怪不得很多人都和我说aop多难多难。当我看进去以后，我才发现：它就是一些java基础上的朴实无华的应用，包括ioc，包括许许多多这样的名词，都是万变不离其宗而已。 2.为什么用aop&nb
cursor variable 实例 ctrain variable
create or replace procedure proc_test01 as type emp_row is record( empno emp.empno%type, ename emp.ename%type, job emp.job%type, mgr emp.mgr%type, hiberdate emp.hiredate%type, sal emp.sal%t
shell报bash: service: command not found解决方法 daizj linux shell service jps
今天在执行一个脚本时，本来是想在脚本中启动hdfs和hive等程序，可以在执行到service hive-server start等启动服务的命令时会报错，最终解决方法记录一下：脚本报错如下： ./olap_quick_intall.sh: line 57: service: command not found ./olap_quick_intall.sh: line 59
40个迹象表明你还是PHP菜鸟 dcj3sjt126com 设计模式 PHP 正则表达式 oop
你是PHP菜鸟，如果你：1. 不会利用如phpDoc 这样的工具来恰当地注释你的代码2. 对优秀的集成开发环境如Zend Studio 或Eclipse PDT 视而不见3. 从未用过任何形式的版本控制系统，如Subclipse4. 不采用某种编码与命名标准，以及通用约定，不能在项目开发周期里贯彻落实5. 不使用统一开发方式6. 不转换（或）也不验证某些输入或SQL查询串（译注：参考PHP相关函
Android逐帧动画的实现 dcj3sjt126com android
一、代码实现： private ImageView iv; private AnimationDrawable ad; @Override protected void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState); setContentView(R.layout
java远程调用linux的命令或者脚本 eksliang linux ganymed-ssh2
转载请出自出处： http://eksliang.iteye.com/blog/2105862 Java通过SSH2协议执行远程Shell脚本(ganymed-ssh2-build210.jar) 使用步骤如下： 1.导包官网下载: http://www.ganymed.ethz.ch/ssh2/ ma
adb端口被占用问题 gqdy365 adb
最近重新安装的电脑，配置了新环境，老是出现： adb server is out of date. killing... ADB server didn't ACK * failed to start daemon * 百度了一下，说是端口被占用，我开个eclipse，然后打开cmd，就提示这个，很烦人。一个比较彻底的解决办法就是修改
ASP.NET使用FileUpload上传文件 hvt .net C#hovertree asp.net webform
前台代码： <asp:FileUpload ID="fuKeleyi" runat="server" /> <asp:Button ID="BtnUp" runat="server" onclick="BtnUp_Click" Text="上传" />
代码之谜（四）- 浮点数（从惊讶到思考） justjavac 浮点数精度代码之谜 IEEE
在『代码之谜』系列的前几篇文章中，很多次出现了浮点数。浮点数在很多编程语言中被称为简单数据类型，其实，浮点数比起那些复杂数据类型（比如字符串）来说，一点都不简单。单单是说明 IEEE浮点数就可以写一本书了，我将用几篇博文来简单的说说我所理解的浮点数，算是抛砖引玉吧。一次面试记得多年前我招聘 Java 程序员时的一次关于浮点数、二分法、编码的面试，多年以后，他已经称为了一名很出色的
数据结构随记_1 lx.asymmetric 数据结构笔记
第一章 1.数据结构包括数据的逻辑结构、数据的物理/存储结构和数据的逻辑关系这三个方面的内容。 2.数据的存储结构可用四种基本的存储方法表示，它们分别是顺序存储、链式存储、索引存储和散列存储。 3.数据运算最常用的有五种，分别是查找/检索、排序、插入、删除、修改。 4.算法主要有以下五个特性：输入、输出、可行性、确定性和有穷性。 5.算法分析的
linux的会话和进程组网络接口 linux
会话：一个或多个进程组。起于用户登录，终止于用户退出。此期间所有进程都属于这个会话期。会话首进程：调用setsid创建会话的进程1.规定组长进程不能调用setsid，因为调用setsid后，调用进程会成为新的进程组的组长进程.如何保证？先调用fork，然后终止父进程，此时由于子进程的进程组ID为父进程的进程组ID，而子进程的ID是重新分配的，所以保证子进程不会是进程组长，从而子进程可以调用se
二维数组元素的连续求解 1140566087 二维数组 ACM
import java.util.HashMap; public class Title { public static void main(String[] args){ f(); } // 二位数组的应用 //12、二维数组中，哪一行或哪一列的连续存放的0的个数最多，是几个0。注意，是“连续”。 public static void f(){
也谈什么时候Java比C++快 windshome java C++
刚打开iteye就看到这个标题“Java什么时候比C++快”，觉得很好笑。你要比，就比同等水平的基础上的相比，笨蛋写得C代码和C++代码，去和高手写的Java代码比效率，有什么意义呢？我是写密码算法的，深刻知道算法C和C++实现和Java实现之间的效率差，甚至也比对过C代码和汇编代码的效率差，计算机是个死的东西，再怎么优化，Java也就是和C

NLP入门实践总结：预训练时代下的文本分类、数据增强与模型调优、常见数据集与动手实践...

你可能感兴趣的:(大数据,编程语言,机器学习,人工智能,深度学习)