代表性样本第19页

deepseek本地部署后做微调训练实现智能对话的一些建议

数据集应满足以下要求：格式：通常使用JSONL（JSONLines）格式，每行包含一个训练样本。内容：数据应包含对话的上下文和目标输出，例如：{"context":"你好！今天天气不错。"

慧香一格·2025-02-18 14:34

机器学习和线性回归、softmax回归

每个“特征-标签”对都称为一个样本（example）。我们的目标是生成一个模型，能够将任何输⼊特征映射到标签（即预测）。回归——平方误差损失函数回归（regression）是最简单的监督学习任务之一。

小名叫咸菜·2025-02-18 13:53

AI 编程工具崛起，程序员的未来是否岌岌可危？

这一趋势首先得益于开源社区和代码托管平台提供的丰富代码样本，它们为AI模型的学习提供了充足的素材。其次，编程语言本身的严格语法和结构化特点，使得AI能够高效、精确地理解和生成代码。

·2025-02-18 13:26

国产GPU算力公司及产品

目前，中国有多家从事国产算力GPU研发与生产的企业，以下是一些代表性的公司及其相关产品概述：景嘉微：近期，景嘉微宣布成功研发了“景宏系列”AI算力产品，该系列面向AI训练、AI推理、科学计算等领域，支持

算力资源比较多·2025-02-17 10:22

机器学习：k均值

在“无监督学习”中，训练样本的标记信息是未知的，目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律，为进一步的数据分析提供基础，较为经典的是聚类。

golemon.·2025-02-17 08:38

深度学习（1)-简单神经网络示例

我们将使用MNIST数据集，图2-1给出了MNIST数据集的一些样本。在机器学习中，分类问题中的某个类别叫作类（class），数据点叫作样本（sample），与某个样本对应的类叫作标签（label）。

yyc_audio·2025-02-16 21:41

计算机视觉：COCO数据集

这些图像来自不同的场景和对象，使得数据集具有广泛的代表性。2.丰富的标注信息物

00&00·2025-02-16 17:15

DeepSeek-R1-Zero 与 DeepSeek-R1 的异同与优劣分析

DeepSeek-R1-Zero与DeepSeek-R1的异同与优劣分析一、相同点核心训练方法：两者均基于强化学习（RL），采用GroupRelativePolicyOptimization（GRPO）算法，通过组内样本的奖励相对比较优化策略模型

AI生成曾小健·2025-02-16 04:34

单细胞分析（11）——scRNA-seq数据整合

不同样本来源（如多个实验室、不同测序平台、不同患者）可能会导致非生物学因素的影响，从而影响数据分析的准确性。

生信小鹏·2025-02-16 01:15

LangChain开发【NL2SQL】应用（few-shot优化）

这篇文章来讲一下优化什么是few-shot使用这些少量的、调整后的样本对预训练模型进行微调其实就是给LLM少量示例关于few-shot的研究：https://medium.com/ubiai-nlp/step

向羿燃·2025-02-15 22:48

1.5 企业级AI大模型四阶技术全景解析：从Prompt到Pre-training的进化路径

从Prompt到Pre-training的进化路径一、技术演进金字塔：四阶技术如何构建AI新范式▲预训练│（万亿参数基建）├─大模型微调│（领域知识注入）├─AI智能体│（任务自动化）└─提示工程（零样本交互

少林码僧·2025-02-15 21:08

langchain学习笔记之小样本提示词Few-shot Prompt Template

langchain学习笔记之小样本提示词引言Few-shotPromptTemplates\text{Few-shotPromptTemplates}Few-shotPromptTemplates简单介绍示例集创建创建

静静的喝酒·2025-02-15 21:08

多模态小样本学习颠覆传统！

小样本学习与多模态结合是当前人工智能领域的热门研究方向，旨在通过结合多模态数据（如视觉、语言、音频等）来提高模型在数据稀缺情况下的学习效率和性能。

沃恩智慧·2025-02-15 03:15

拉普拉斯平滑（Laplacian smoothing）

概念零概率问题：在计算事件的概率时，如果某个事件在观察样本库（训练集）中没有出现过，会导致该事件的概率结果是0。

潜心学习的渣渣·2025-02-14 22:07

【论文阅读】Revisiting the Assumption of Latent Separability for Backdoor Defenses

https://github.com/Unispac/Circumventing-Backdoor-Defenses摘要和介绍在各种后门毒化攻击中，来自目标类别的毒化样本和干净样本通常在潜在空间中形成两个分离的簇

开心星人·2025-02-14 19:10

《深度解析：批量、随机和小批量梯度下降的区别与应用》

例如，若训练集中有1000个样本，那么每次迭代

·2025-02-14 09:40

第二章：9.5 多个输出的分类

多标签分类问题多标签分类问题是一种特殊的分类问题，其中每个输入样本可以同时属于多个类别。这与单标签分类问题不同，在单标签分类问题中，每个输入样本只能属于一个类别。

望云山190·2025-02-14 05:33

R中单细胞RNA-seq分析教程 (6)

原因很直接：目前的单细胞RNA测序技术每次只能捕捉到有限样本的分子状态。为了在多个实验和不同条件下对众多样本进行测量，通常需要对来自不同实验的单细胞RNA测序数据进行联合分析。

·2025-02-13 20:18

线性回归、逻辑回归及SVM

可以简单的理解为：在给定训练样本点和已知的公式后，对于一个或多个未知参数，机器会自动枚举参数的所有可能取值（对于多个参数要枚举它们的不同组合），直到找到那个最符合样本点分布的参数（或参数组合）。

@迷途小书童·2025-02-13 07:38

瑞熙贝通|智能实验教学管理平台建设方案

在负一楼室外建设废液、废气和生物制品的处理平台，在虚拟仿真室建设局域网和数据采集中心，以“物联网”模式贯穿始终，运用射频识别、传感识别、图像识别、互联互通等技术，完成实验室运行管控、设备使用申请、设备耗材管控、样品样本检测

瑞熙贝通实验室综合管理平台·2025-02-13 02:27

解锁高并发架构：国内主流系统的架构组合与应对策略

本文将详细解析高并发架构的核心要素，并针对不同项目需求，介绍国内主流且具有代表性的高并发架构组合方案，为开发者提供实用的参考。一、什么是高并发架构？高并发是指系统在同一时间内能够处理

诸葛先生ljz·2025-02-13 01:53

Laplace(拉普拉斯)平滑

零概率问题，就是在计算实例的概率时，如果某个量x，在观察样本库（训练集）中没有出现过，会导致整个实例的概率结果是0。

郑万通·2025-02-12 20:45

编写测试用例的方法_编写测试用例的几种方法

(一)等价类划分法定义：等价类划分法是把所有可能输入的数据，即程序的输入域划分策划国内若干部分(子集)，然后从每一个子集中选取少数具有代表性的数据作为测试用例。

格灵深瞳DeepGlint·2025-02-12 17:47

如何从零开始，训练AI大模型？零基础入门到精通，收藏这一篇就够了

但还有一个很直观的情况，随着预训练样本的质量不断提升，训练手段的优化。新的模型，往往效果能轻松反超参数量两倍于它的模型。例如，最新出的minicpm，微信内部评测效果也是非常棒的。

网络安全大白·2025-02-12 10:09

AUC完全总结：定义、手撕计算代码、优缺点

曲线二分类混淆矩阵如下：真实情况label=1真实情况label=0预测情况label=1TPFP预测情况label=0FNTN假阳率（FalsePositiveRate）FPR=FP/(FP+TN)，即在所有真实的负样本中

zs1996_·2025-02-12 08:54

初创公司AI大模型战略：李开复的选择与启示

本文将深入探讨初创公司在AI大模型发展中的策略选择，并以李开复的案例为分析样本。初创公司与大模型：挑战与机遇并

·2025-02-12 01:33

自动评估基准 | 设计你的自动评估任务

数据集需要注意的问题样本是由谁创建的？在我看来，按照样本的标注员素质高

·2025-02-12 01:59

【机器学习】样本不均衡问题解决策略（欠采样方法总结）

文章目录前言1.没有绝对最好，但可以根据场景选择最佳确定效果最好的方法的核心在于以下几个方面：2.方法特点对比及推荐场景3.如果不考虑复杂度和资源开销，哪些方法更值得试用？（1）推荐方法：综合性能最突出的（2）具体任务导向推荐4.总结：前言在选择欠采样方法时，没有一个方法可以在所有情况下都普遍适用并效果最好。不同的欠采样方法在实际应用中的效果取决于数据的具体特征、类分布情况、噪声水平以及实际任务要

又喝真露·2025-02-11 18:05

强化学习关键技术：重要性采样深度剖析

目录一、引言二、重要性采样基本原理（一）什么是重要性采样（二）重要性采样在强化学习中的作用三、判断采样好坏的方法（一）偏差（Bias）（二）方差（Variance）（三）有效样本数量（EffectiveSampleSize

进一步有进一步的欢喜·2025-02-11 08:21

k折交叉验证（k-fold Cross-validation）

交叉验证，顾名思义，就是重复的使用数据，把得到的样本数据进行切分，组合为不同的训练集和测试集，用训练集来训练模型，用测试集来评估模型预测的好坏。

向大厂出发·2025-02-11 03:43

单细胞数据整合-解决AnnData合并时ValueError: cannot reindex from a duplicate axis问题

项目场景：使用scanpy包进行单细胞数据分析时，往往需要整合多个样本的数据，也就是将多个AnnData对象合并为一个AnnData对象。

bamboo_shoot_kk·2025-02-11 00:20

【AI论文】LIMO：推理中少即是多

仅凭817个精心挑选的训练样本，LIMO就在AIME数据集上取得了57.1%的准确率，在MAT

东临碣石82·2025-02-10 16:55

(全新整理)700多所高校科技教育经费历史数据

包括科学研究和技术开发活动）的全部费用，本次分享的是728所高校的历年科技经费支出数据，希望对大家有所帮助一、数据介绍数据名称：700多所高校科技经费历史数据数据范围：728所高校数据年份：2008-2017年数据样本

.Android安卓科研室.·2025-02-10 10:34

使用MATLAB实现SMOTE算法

SMOTE算法通过合成新的少数类样本来平衡类别不平衡的数据集。它通过在少数类样本之间插入合成样本，以增加少数类样本的数量。这些合成样本是通过在少数类样

PixelLancer·2025-02-09 22:42

Manus Metagloves Pro精准塑造动作捕捉XR领域未来

Manus推出的动作捕捉数据手套，以下将从其特点、应用场景两方面展开介绍：产品特点•高精度追踪：采用量子跟踪技术，配备毫米级精确的指尖跟踪传感器，可实现高保真手指跟踪，信号latency≤7.5ms，传感器样本率达

虚拟现实产品超市·2025-02-09 17:41

CosyVoice /F5-TTS /GPT-SoVITS /Fish-Speech 开源语音克隆与文本转语音（TTS）项目的对比整理

：项目CosyVoiceF5-TTSGPT-SoVITSFish-Speech核心技术双向流式语音合成，支持离线与流式一体化建模基于流匹配的ConvNeXt文本表示，SwaySampling采样策略零样本

云樱梦海·2025-02-08 10:27

【AI中数学-信息论-综合实例】缩小AI巨人：大模型神经网络的压缩与裁剪

我们将通过五个在实际应用中具有代表性的案

云博士的AI课堂·2025-02-07 22:03

KNN算法：从思想到实现（附代码）

新样本寻找K个最近邻分类问题:多数表决回归问题:均值计算KNN核心思想如何做一个样

lihuayong·2025-02-07 03:29

2024年技术总结与2025年最有潜力的技术发展方向

本文将回顾2024年的关键技术成果，并展望2025年的技术发展趋势，附加一些具有代表性的开源项目例子，供大家参考。

Allen-Steven·2025-02-07 02:23

机器学习与数据挖掘：决策树（知识点总结）

基本流程决策树算法递归返回的三个条件：当前结点包含的样本全属于同一类别，无需划分;当前属性集为空,或是所有样本在所有属性上取值相同，无法划分;*将当前节点标记为叶节点，将其类别设定为该节点所含样本最多的类别

KE.WINE·2025-02-07 02:49

【大模型LLM面试合集】训练数据_数据格式

每个样本可以是一个字符串或者是一个tokenized的文本序列。标签数据：标签数据是与输入数据对应的标签或类别。标签可以是单个类别，也可以是多个类别的集合。对于多分类任务，通常使用one

X.AI666·2025-02-06 18:28

在深度学习中，样本不均衡问题是一个常见的挑战，尤其是在你的老虎机任务中，某些的中奖倍数较高

在深度学习中，样本不均衡问题是一个常见的挑战，尤其是在你的老虎机任务中，某些的中奖倍数较高在深度学习中，样本不均衡问题是一个常见的挑战，尤其是在你的老虎机任务中，某些的中奖倍数较高而其他的中奖倍数较低。

zhangfeng1133·2025-02-06 17:53

跟三叔一起学manim——初识Manim

目录前言什么是Manim一个例子参考资料前言很多人把数学当成一门人类纯思维活动的学科，这是不对的，数学和物理，化学等学科一样，也是一门实验性学科，像计算圆周率的蒲丰投针法和蒙特卡罗法就是非常具有代表性的数学试验

三行数学·2025-02-06 16:44

deseq2进行差异分析时的分组问题

示例1：两组比较#创建一个示例数据集，包含4个样本dds=1.10中，所选的阈值是过滤器的最低分位数，其中拒绝数接近拟合曲线在过滤器分位数上的峰值。“接近”定义为在1个残差标准差内。

请你喝好果汁641·2025-02-06 06:07

Python-机器学习（二）-K近邻算法的原理与鸢尾花数据集实现详解

fromsklearn.neighborsimportKNeighborsClassifierk=5#对模型训练clf=KNeighborsClassifier(n_neighbors=k)clf.fit(x,y)#对样本进行预测

2401_84009679·2025-02-05 22:00

Python中的决策树算法探索基本原理

决策树的基本原理决策树的基本思想是通过对数据进行分割，逐步缩小数据的范围，从而使得每个叶节点（终节点）中的样本属于同一类别或具有相似的特征。决策树的构

myCOTB·2025-02-05 12:21

数据库操作 -- 添加数据、查看表结构、多表查询、创建视图、创建存储过程、多表删除记录

任务点：•向每个表插入3条测试数据（样本数据包含下面题目中使用的数据）；•查询出所有选修了“数据库原理”课程的学生学号、姓名和籍贯；•查询出“数据库原理”这门课的最高成绩；•查询有哪些课程没有被任何同学选修

小鞠..·2025-02-05 10:34

医疗方向的可视化大屏，十分契合医疗行业数据量大的特点

从患者的个人基本信息、过往病史、各项检查检验报告，到医疗机构日常运营产生的物资管理数据、设备运行数据，再到大规模医疗研究中的海量样本数据，这些数据的规模和复杂性不断增加。

大象数据工场·2025-02-05 08:23

自定义数据集使用scikit-learn中svm的包实现svm分类

数据集生成：-使用make_classification函数生成包含1000个样本的数据集，设置20个特征，其中10个是有信息的特征，类别数为2，通过设置random_state=42保证每次运行生成的数据相同

知识鱼丸·2025-02-05 01:31

第12章 Flink

Flink是一种具有代表性的开源流处理架构，它实现了GoogleDataflow流计算模型，是一种兼具高吞吐、低延迟和高性能的实时流计算框架，并且同时支持批处理和流处理。

wyz191·2025-02-04 23:17

推荐频道

代表性样本