datawhale 第2页

Datawhale X 李宏毅苹果书 AI夏令营Day03

一、打卡Datawhale二、学习1、文档学习图中展示了一个函数集合，其中包含多个未知参数的函数fθ1(x)和fθ2(x)。通过将这些函数组合起来，可以得到一个更大的函数集合。

xuanEpiphany29·2024-08-27 06:34

Datawhale X 李宏毅苹果书 AI夏令营Day02

一、打卡Datawhale进入打卡链接选择相对应的任务打卡就可以了二、学习1、线性模型依旧是b站上老师的授课视频，我找到知乎上解释很好的文章，分享一下机器学习（一）线性模型————理论篇线性回归模型、对数几率模型

xuanEpiphany29·2024-08-24 19:21

FastAPI部署大模型Llama 3.1

项目地址：self-llm/models/Llama3_1/01-Llama3_1-8B-InstructFastApi部署调用.mdatmaster·datawhalechina/self-llm(github.com

记得叫Mark周更·2024-08-23 14:12

Datawhale AI夏令营第四期魔搭- AIGC文生图方向 task03笔记

如何学习八图ai模型kolors1,Kolors是由快手公司开源的第三代文本到图像生成模型，基于StableDiffusion框架开发。它支持中英文输入，特别在中文内容的理解和生成上表现出色。2,深度学习基础：熟悉神经网络、卷积神经网络（CNN）、Transformer等深度学习模型的基本原理。自然语言处理（NLP）：了解文本编码、语言模型等NLP技术，因为Kolors在生成图像时需要理解并处理输

汪贤阳·2024-08-22 11:30

(202402)多智能体MetaGPT入门2：AI Agent知识体系结构

早上真好·2024-03-02 03:14

深入浅出PyTorch学习网址

https://datawhalechina.github.io/thorough-pytorch/

今天是学习的一天·2024-02-23 19:38

Datawhale用免费GPU线上跑AI项目实践课程任务一学习笔记。部署ChatGLM3-6B模型

前言本篇文章为学习笔记，流程参照Datawhale用免费GPU线上跑AI项目实践课程任务，个人写此文章为记录学习历程和补充概念，并希望为后续的学习者开辟道路，没有侵权的意思。

Hoogte-oile·2024-02-20 21:04

Datawhale零基础入门金融风控Task1 赛题理解

Task1赛题理解Tip:本次新人赛是Datawhale与天池联合发起的0基础入门系列赛事第四场——零基础入门金融风控之贷款违约预测挑战赛。

一缕阳光lyz·2024-02-20 13:47

【强化学习】day1 强化学习基础、马尔可夫决策过程、表格型方法

写在最前：参加DataWhale十一月组队学习记录【教程地址】https://github.com/datawhalechina/joyrl-bookhttps://datawhalechina.github.io

宏辉·2024-02-20 09:32

李宏毅机器学习笔记 2.回归

最近在跟着Datawhale组队学习打卡，学习李宏毅的机器学习/深度学习的课程。

Simone Zeng·2024-02-12 11:34

Djiango后端开发入门学习之task04--serializers（序列化器，准确说是数据类型转化器）及应用

本文根据datawhale开源Djiango后端开发入门(https://github.com/Joe-2002/sweettalk-django4.2）Task04：序列化器serializers

小鳄鱼队里一只小蜗牛·2024-02-12 10:30

datawhale 10月学习——树模型与集成学习：梯度提升树

前情回顾决策树CART树的实现集成模式两种并行集成的树模型AdaBoost结论速递本次学习了GBDT，首先了解了用于回归的GBDT，将损失使用梯度下降法进行减小；用于分类的GBDT要稍微复杂一些，需要对分类损失进行定义。学习了助教提供的代码。目录前情回顾结论速递1用于回归的GBDT1.1原理1.2代码实现2用于分类的GBDT2.1原理2.2代码实现1用于回归的GBDT1.1原理与AdaBoost类

SheltonXiao·2024-02-11 14:39

Datawhale组队学习GNN-task04 数据完整存储与内存的数据集类+节点预测与边预测任务实践

DataWhale开源学习资料:https://github.com/datawhalechina/team-learning-nlp/tree/master/GNN6.1数据完全存于内存的数据集类学习在

79f3c66c2fe7·2024-02-10 15:12

DataWhale概率统计4——方差分析

6.方差分析6.1概要方差分析（Analysisofvariance,ANOVA）主要研究分类变量作为自变量时，对因变量的影响是否显著，用于两个及两个以上样本均属差别的显著性检验。由于各种因素的影响，研究所得的数据呈现波动状。造成波动的原因可分为两类，一是不可控的随机因素，另一是研究中施加对结果形成影响的可控因素6.2原理方差分析（ANOVA）又称“变异数分析”或“F检验”，是由罗纳德·费雪爵士发

摩卡Daddy·2024-02-09 11:33

Task 4：建模调参

Datawhale零基础入门数据挖掘-Task4建模调参四、建模与调参4.1学习目标了解常用的机器学习模型，并掌握机器学习模型的建模与调参流程完成相应学习打卡任务4.2内容介绍线性回归模型：线性回归对于特征的要求

我是曾阿牛·2024-02-08 13:36

Task02 消息传递图神经网络

参考链接：https://github.com/datawhalechina/team-learning-nlp/blob/master/GNN/Markdown%E7%89%88%E6%9C%AC/4

沫2021·2024-02-08 11:04

Docker学习四：Docker 网络

前言本次学习来自于datawhale组队学习：教程地址为：https://github.com/datawhalechina/team-learning-program/tree/master/Docker

浩波的笔记·2024-02-07 12:49

第五章变形

参考：https://datawhalechina.github.io/joyful-pandas/build/html/%E7%9B%AE%E5%BD%95/ch5.html#id2一、长宽表的变形（

叶小刀_b59f·2024-02-07 00:47

5分钟搞定几百张表格转换，Python办公自动化就是这么6！

最近在参加学习开源社区Datawhale组织的"21天精通Pandas学习"，其中有个练习题做起来很有意思，练习题本身很简单，我在这里稍微引申一下让大家体会一下Pandas处理数据功能的灵活和强大。

木头里有虫911·2024-02-04 17:33

NLP实践-文本分类（docker踩坑记录）

前述本篇记录来源于datawhale组织的组队学习活动，内容是中文预测训练模型泛化能力挑战赛，该比赛采用docker镜像的提交方式，提交打包好的代码镜像来运行得出预测结果。

撸猫摸鱼选手·2024-02-03 19:58

Datawhale 组队学习之大模型理论基础Task9 大模型法律

第11章大模型法律11.1简介此内容主要探讨法律对大型语言模型的开发和部署有何规定。先看看法律的特点：法律就如我国法律教材所给出的一样，有依靠国家强制力保证实施的特点。而法律在大模型中也是不可或缺的，缺少了法律的约束，一切数据的使用、用户隐私的保护等等都会出现各种各样的问题。11.2版权法大型语言模型或任何机器学习模型，都是基于数据进行训练的，而这些数据是人类劳动的结果（例如，作者，程序员，摄影师

AIzealot无·2024-02-02 16:33

【NLP】Datawhale-AI夏令营Day6-7打卡：大模型

⭐️最近参加了由Datawhale主办、联合科大讯飞、阿里云天池发起的AI夏令营（第三期），我参与了深度学习实践-NLP（自然语言处理）方向⭐️作为NLP小白，我希望能通过本次夏令营的学习实践，对NLP

不雨_亦潇潇·2024-02-02 07:51

GPT-4竟被CS学生「开源」了！

Datawhale开源开源：免费GPT-4，编辑：新智元【导读】最近，一名来自欧洲的计算机系学生竟然把GPT-4给「开源」了。

Datawhale·2024-02-02 06:01

ChatGLM-6B：自定义数据集和模型微调！

Datawhale干货开源：ChatGLM，编辑：Coggle数据科学ChatGLM-6B介绍ChatGLM-6B是一个开源的、支持中英双语问答的对话语言模型，基于GeneralLanguageModel

Datawhale·2024-02-01 20:52

OfficeAutomation——Task04 Python 操作 PDF

OfficeAutomation——Task04Python操作PDFlinks：https://github.com/datawhalechina/team-learning-program/blob

棠糖䉎·2024-02-01 16:08

datawhale 大模型学习第六章-大模型之Adaptation

一、为什么需要Adaptation1.1简介从语言模型的训练方式来说，例如GPT-3，训练语料通常是海量的，各种领域的，不针对任何特定任务的文本信息。这种方法的优点在于模型具有广泛的适用性，但也带来了一些挑战。比如下游任务的多样性，不同的下游任务与语言模型的预训练方式可以非常不同：格式不同：BERT训练过程中使用了MASK标记，而许多下游任务可能并不使用这些标记。自然语言推理任务（NLI）涉及两个

fan_fan_feng·2024-01-29 18:25

datawhale 大模型学习第八章-分布式训练

近年来，随着Transformer、MOE架构的提出，使得深度学习模型轻松突破上万亿规模参数，传统的单机单卡模式已经无法满足超大模型进行训练的要求。因此，需要基于单机多卡、甚至是多机多卡进行分布式大模型的训练。对于训练任务来说，“大”体现在两个方面：模型大和训练数据大。模型大:需要把模型拆成多个部分，并分布到不同的机器上训练，即模型并行；训练数据大:需要把数据拆成多个小的数据片，并分布到不同的机器

fan_fan_feng·2024-01-29 18:25

datawhale 大模型学习第十一章-大模型法律篇

简介新技术与法律关系：大型语言模型（LLM）的出现引发了对现有法律适用性的探讨，尤其是在版权、隐私和公平使用等方面。互联网法律挑战：互联网的匿名性和无国界特性对法律的管辖权提出了挑战。法律与道德区分：法律具有强制执行力，而道德则依赖于社会共识和组织规范。大型语言模型的法律问题数据收集与训练：LLM依赖大量数据，可能涉及未经许可的数据使用，引发版权和隐私问题。应用领域：LLM在问答、聊天机器人等下游

fan_fan_feng·2024-01-29 18:25

datawhale 大模型学习第九\十章-大模型有害性

大模型危害性主要包括：社会偏见性能差异有害信息虚假信息性能差异和社会偏见常常与历史性歧视一致。这将带来更加猛烈的少数群体偏见和边缘化。一、性能差异即系统对于某些人群（例如年轻人或白人）的准确性高于其他人群（如老年人或黑人）例如，Blodgett等人在2017年的研究发现，语言识别系统对非洲裔美国英语的表现不如对标准英语。二、社会偏见系统的预测或生成的文本在目标概念（例如科学）与特定人群（例如男性或

fan_fan_feng·2024-01-29 18:54

whale-quant【01_投资与量化投资】(学习与笔记)

本文整体来自datawhale_whale-quant内容的学习，在基础上加了自己的总结与补充。后续将会补充笔记。内容质量很高，喜欢的盆友请给github项目点一个strar以鼓励！

王多头发·2024-01-28 01:58

Datawhale 202210 Excel | 第五、六、七章 Excel函数示例 & Excel函数列表

Excel函数示例&Excel函数列表函数列表第五章IF函数5.1if函数5.2if函数与复杂逻辑5.3ifs函数第五章练习第六章查找函数6.1VLOOKUP6.2XLOOKUP第六章练习第七章动态函数7.1FILTER-[官方文档](https://support.microsoft.com/zh-cn/office/filter-函数-f4f7cb66-82eb-4767-8f7c-4877a

o0卤化氢0o·2024-01-27 21:29

DataWhale 大数据处理技术组队学习task1

DataWhale大数据处理技术组队学习task1一、大数据概述1.大数据时代（详细内容参考参考文章）2.大数据的概念（又或者是特点）4V数据量大（Volume）数据来源：可以是计算机、手机，也可以是其他联网设备

Y_fulture·2024-01-27 19:33

Datawhale 组队学习之大模型理论基础 Task7 分布式训练

第8章分布式训练8.1为什么分布式训练越来越流行近年来，模型规模越来越大，对硬件（算力、内存）的发展提出要求。因为内存墙的存在，单一设持续提高芯片的集成越来越困难，难以跟上模型扩大的需求。为了解决算力增速不足的问题，人们考虑用多节点集群进行分布式训练，以提升算力。8.2常见的并行策略分为“数据并行”和“模型并行”。8.2.1数据并行数据并行，需要对各个设备上的梯度进行AllReduce，以确保各个

AIzealot无·2024-01-27 19:00

GNN学习第六天

首先感谢datawhale的课程内容：引用GNN/Markdown版本/5-基于图神经网络的节点表征学习.md·Datawhale/team-learning-nlp-码云-开源中国(gitee.com

def1037aab9e·2024-01-27 01:59

Datawhale 大模型基础 Task6 模型之Adaptation篇笔记

通用大模型不能适用于全部领域，并且有着时效性等问题，因此需要进行适应来改善其性能。适应主要分为：预训练模型（主干部分的训练，最消耗算力）；获取特定领域的数据集；找一些参数用于适配；定义损失函数来作为适配的标准；进行问题的优化表示。适应的方法主要有：探测、微调（可以提升零样本性能、改善泛化能力、获取新任务的能力）。轻量微调和微调的思路大题相似，分为轻量级微调的变体、提示词微调、前缀微调、适配器微调。

AIzealot无·2024-01-26 06:40

Datawhale Task5：模型训练篇

本章学习模型训练第6章模型训练模型训练主要由目标函数和优化算法组成6.1目标函数有三类语言模型的目标函数：只包含解码器的模型（如，GPT-3）：计算单向上下文嵌入（contextualembeddings），一次生成一个token只包含编码器的模型（如，BERT）：计算双向上下文嵌入编码器解码器模型（如，T5）：编码输入，解码输出我们可以使用任何模型将token序列映射到上下文嵌入中（例如，LST

AIzealot无·2024-01-26 06:40

datawhale 大模型学习第五章-模型训练

一、目标函数今天要讨论的是以下三种模型结构：Decoder-only模型：例如，GPT-3，单向上下文嵌入，在生成文本时一次生成一个tokenEncoder-only模型:例如，BERT,利用双向上下文注意力生成embedingEncoder-decoder模型：例如，T5,利用双向上下文编码，利用单向上下文生成文本最终结果就是将token序列映射为一个Embedding向量其中：L:代表文本长度

fan_fan_feng·2024-01-24 16:20

DW大模型理论基础第二章大模型的能力

大模型的能力参考链接：https://github.com/datawhalechina/so-large-lm/tree/mainGPT-3——这个具有代表性的⼤型语⾔模型的能⼒值得我们探讨。

LucyFang2020·2024-01-24 08:49

第五章：大模型的数据

参考链接：https://github.com/datawhalechina/so-large-lm/tree/main一、大语言模型背后的数据⼤型语⾔模型是在"原始⽂本"上进⾏训练的。

LucyFang2020·2024-01-24 08:49

第十一章：大模型之Adaptation

参考链接：https://github.com/datawhalechina/so-large-lm/tree/main1引言为什么需要Adaptation?

LucyFang2020·2024-01-24 08:45

datawhale 大模型学习第四章-新模型架构

一、现状GPT3是一个通过96个Transformerblock堆叠在一起的神经网络.即：每一个TransformerBlock是一个多头注意力层的Block目前大模型的规模已经到了极限（模型越大，需要训练资源和时间也就越长）二、混合专家模型混合专家模型通俗点讲就是：有N个专家，每个专家有各种的不同领域能力和模型参数，通过一个门控制机制来给不同专家分配权重，最终汇总所有专家的结果。优点：1.专家与

fan_fan_feng·2024-01-22 21:48

深度强化学习Task2：策略梯度算法

本篇博客是本人参加Datawhale组队学习第二次任务的笔记【教程地址】文章目录基于价值算法和基于策略算法的比较策略梯度算法策略梯度算法的直观理解策略梯度算法REINFORCE算法基于平稳分布的策略梯度算法

卡拉比丘流形·2024-01-22 07:16

datawhale 第三章-模型架构

一、大模型的分词器1.1什么是分词？分词的目的是将输入文本分成一个个词元，保证各个词元拥有相对完整和独立的语义，以供后续任务（比如学习embedding或者作为高级模型的输入）使用。1.2分词的三种粒度词粒度在英文等语言中有着天然的空格分隔，但是对于中文等语言可能需要额外的分词算法来进行处理（比如中文的jieba分词）词粒度的缺点：词粒度的词表由于长尾效应可能会非常大，并且稀有词往往很难学好；OO

fan_fan_feng·2024-01-21 08:41

(202401)深度强化学习基础2：策略梯度

文章目录前言策略梯度1基于价值算法的缺点2策略梯度算法3REINFORCE算法本章小结前言感谢Datawhale成员的开源本次学习内容的文档地址为第九章策略梯度策略梯度这个章节会开始介绍基于策略梯度的算法

早上真好·2024-01-20 22:27

（202401）深度强化学习基础与实践1：马尔科夫过程、DNQ算法回顾

文章目录序言马尔科夫决策过程含义性质回报状态转移矩阵DQN算法深度网络经验回放目标网络实战DQN算法DQN算法进阶DoubleDQNDuelingDQNNoisyDQNPERDQNC51算法序言本文章记录Datawhale

早上真好·2024-01-20 22:56

datawhale 大模型理论基础引言

学习地址：大模型理论基础一、什么是语言模型（LanguageModel)语言模型其实是一个概率模型，给每一个句子列表计算一个概率值：p(x1,…,xL)例如：p(the,mouse,ate,the,cheese)=0.02,p(the,cheeseate,the,mouse)=0.01,p(the,cheeseate,the,mouse)=0.01自回归语言模型(Autoregressivelan

fan_fan_feng·2024-01-20 19:49

datawhale 第二章-大模型的能力

一、概述GPT-3作为一个语言模型，被训练来预测下一个词。并未明确针对特定任务进行训练。在某些任务上，比如语言建模，GPT-3大幅度超越了现有技术的最高水平；在其他任务上，GPT-3与训练有素，拥有大量标签数据的系统竞争时，却明显落后二、语言模型的适应性：从语言模型到任务模型的转化将要给语言模型往特定任务模型转换的过程中，需要以下两个输入：任务描述：即解释一下你这个任务是要干嘛的训练实例：也就是通

fan_fan_feng·2024-01-20 19:49

Datawhale 强化学习笔记(二）马尔可夫过程，DQN 算法

函数如何用梯度下降的方式更新网络参数强化学习vs深度学习提高训练稳定性的技巧经验回放目标网络代码实战DQN算法进阶DoubleDQNDuelingDQN算法代码实战参考在线阅读文档github教程开源框架JoyRLdatawhalechina

RessCris·2024-01-20 17:54

DataWhale组队学习之知识图谱task04

参考datawhale开源组织:https://github.com/datawhalechina/team-learning-nlp/blob/master/KnowledgeGraph_Basic/

YANJINING·2024-01-20 16:28

Datawhale AI夏令营机器学习组学习日记（任务2.1-2.2）

一、任务2.11.1任务内容字段x1至x8为用户相关的属性，为匿名处理字段。添加代码对这些数据字段的取值分析，那些字段为数值类型？那些字段为类别类型？对于数值类型的字段，考虑绘制在标签分组下的箱线图。从common_ts中提取小时，绘制每小时下标签分布的变化。对udmap进行onehot，统计每个key对应的标签均值，绘制直方图。1.2代码解析1.2.1字段x1至x8属性分析#导入库importp

m0_49558200·2024-01-20 06:11

推荐频道

datawhale

Datawhale X 李宏毅苹果书 AI夏令营Day03

Datawhale X 李宏毅苹果书 AI夏令营Day02

FastAPI部署大模型Llama 3.1

Datawhale AI夏令营第四期魔搭- AIGC文生图方向 task03笔记

(202402)多智能体MetaGPT入门2：AI Agent知识体系结构

深入浅出PyTorch学习网址

Datawhale用免费GPU线上跑AI项目实践课程任务一学习笔记。部署ChatGLM3-6B模型

Datawhale零基础入门金融风控Task1 赛题理解

【强化学习】day1 强化学习基础、马尔可夫决策过程、表格型方法

李宏毅机器学习笔记 2.回归

Djiango后端开发入门学习之task04--serializers（序列化器，准确说是数据类型转化器）及应用

datawhale 10月学习——树模型与集成学习：梯度提升树

Datawhale组队学习GNN-task04 数据完整存储与内存的数据集类+节点预测与边预测任务实践

DataWhale概率统计4——方差分析

Task 4：建模调参

Task02 消息传递图神经网络

Docker学习四：Docker 网络

第五章 变形

5分钟搞定几百张表格转换，Python办公自动化就是这么6！

NLP实践-文本分类（docker踩坑记录）

Datawhale 组队学习之大模型理论基础Task9 大模型法律

【NLP】Datawhale-AI夏令营Day6-7打卡：大模型

GPT-4竟被CS学生「开源」了！

ChatGLM-6B：自定义数据集和模型微调！

OfficeAutomation——Task04 Python 操作 PDF

datawhale 大模型学习 第六章-大模型之Adaptation

datawhale 大模型学习 第八章-分布式训练

datawhale 大模型学习 第十一章-大模型法律篇

datawhale 大模型学习 第九\十章-大模型有害性

whale-quant【01_投资与量化投资】(学习与笔记)

Datawhale 202210 Excel | 第五、六、七章 Excel函数示例 & Excel函数列表

DataWhale 大数据处理技术组队学习task1

Datawhale 组队学习之大模型理论基础 Task7 分布式训练

GNN学习第六天

Datawhale 大模型基础 Task6 模型之Adaptation篇 笔记

Datawhale Task5：模型训练篇

datawhale 大模型学习 第五章-模型训练

DW大模型理论基础 第二章 大模型的能力

第五章：大模型的数据

第十一章：大模型之Adaptation

datawhale 大模型学习 第四章-新模型架构

深度强化学习Task2：策略梯度算法

datawhale 第三章-模型架构

(202401)深度强化学习基础2：策略梯度

（202401）深度强化学习基础与实践1：马尔科夫过程、DNQ算法回顾

datawhale 大模型理论基础 引言

datawhale 第二章-大模型的能力

Datawhale 强化学习笔记(二）马尔可夫过程，DQN 算法

DataWhale组队学习之知识图谱task04

Datawhale AI夏令营 机器学习组学习日记（任务2.1-2.2）

第五章变形

datawhale 大模型学习第六章-大模型之Adaptation

datawhale 大模型学习第八章-分布式训练

datawhale 大模型学习第十一章-大模型法律篇

datawhale 大模型学习第九\十章-大模型有害性

Datawhale 大模型基础 Task6 模型之Adaptation篇笔记

datawhale 大模型学习第五章-模型训练

DW大模型理论基础第二章大模型的能力

datawhale 大模型学习第四章-新模型架构

datawhale 大模型理论基础引言

Datawhale AI夏令营机器学习组学习日记（任务2.1-2.2）