E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
DataWhale
datawhale
10月学习——树模型与集成学习:梯度提升树
前情回顾决策树CART树的实现集成模式两种并行集成的树模型AdaBoost结论速递本次学习了GBDT,首先了解了用于回归的GBDT,将损失使用梯度下降法进行减小;用于分类的GBDT要稍微复杂一些,需要对分类损失进行定义。学习了助教提供的代码。目录前情回顾结论速递1用于回归的GBDT1.1原理1.2代码实现2用于分类的GBDT2.1原理2.2代码实现1用于回归的GBDT1.1原理与AdaBoost类
SheltonXiao
·
2024-02-11 14:39
学习
集成学习
机器学习
决策树
Datawhale
组队学习GNN-task04 数据完整存储与内存的数据集类+节点预测与边预测任务实践
DataWhale
开源学习资料:https://github.com/
datawhale
china/team-learning-nlp/tree/master/GNN6.1数据完全存于内存的数据集类学习在
79f3c66c2fe7
·
2024-02-10 15:12
DataWhale
概率统计4——方差分析
6.方差分析6.1概要方差分析(Analysisofvariance,ANOVA)主要研究分类变量作为自变量时,对因变量的影响是否显著,用于两个及两个以上样本均属差别的显著性检验。由于各种因素的影响,研究所得的数据呈现波动状。造成波动的原因可分为两类,一是不可控的随机因素,另一是研究中施加对结果形成影响的可控因素6.2原理方差分析(ANOVA)又称“变异数分析”或“F检验”,是由罗纳德·费雪爵士发
摩卡Daddy
·
2024-02-09 11:33
Task 4:建模调参
Datawhale
零基础入门数据挖掘-Task4建模调参四、建模与调参4.1学习目标了解常用的机器学习模型,并掌握机器学习模型的建模与调参流程完成相应学习打卡任务4.2内容介绍线性回归模型:线性回归对于特征的要求
我是曾阿牛
·
2024-02-08 13:36
Task02 消息传递图神经网络
参考链接:https://github.com/
datawhale
china/team-learning-nlp/blob/master/GNN/Markdown%E7%89%88%E6%9C%AC/4
沫2021
·
2024-02-08 11:04
Docker学习四:Docker 网络
前言本次学习来自于
datawhale
组队学习:教程地址为:https://github.com/
datawhale
china/team-learning-program/tree/master/Docker
浩波的笔记
·
2024-02-07 12:49
工具
docker
网络
第五章 变形
参考:https://
datawhale
china.github.io/joyful-pandas/build/html/%E7%9B%AE%E5%BD%95/ch5.html#id2一、长宽表的变形(
叶小刀_b59f
·
2024-02-07 00:47
5分钟搞定几百张表格转换,Python办公自动化就是这么6!
最近在参加学习开源社区
Datawhale
组织的"21天精通Pandas学习",其中有个练习题做起来很有意思,练习题本身很简单,我在这里稍微引申一下让大家体会一下Pandas处理数据功能的灵活和强大。
木头里有虫911
·
2024-02-04 17:33
NLP实践-文本分类(docker踩坑记录)
前述本篇记录来源于
datawhale
组织的组队学习活动,内容是中文预测训练模型泛化能力挑战赛,该比赛采用docker镜像的提交方式,提交打包好的代码镜像来运行得出预测结果。
撸猫摸鱼选手
·
2024-02-03 19:58
NLP
docker
Datawhale
组队学习之大模型理论基础Task9 大模型法律
第11章大模型法律11.1简介此内容主要探讨法律对大型语言模型的开发和部署有何规定。先看看法律的特点:法律就如我国法律教材所给出的一样,有依靠国家强制力保证实施的特点。而法律在大模型中也是不可或缺的,缺少了法律的约束,一切数据的使用、用户隐私的保护等等都会出现各种各样的问题。11.2版权法大型语言模型或任何机器学习模型,都是基于数据进行训练的,而这些数据是人类劳动的结果(例如,作者,程序员,摄影师
AIzealot无
·
2024-02-02 16:33
学习
人工智能
自然语言处理
法律
【NLP】
Datawhale
-AI夏令营Day6-7打卡:大模型
⭐️最近参加了由
Datawhale
主办、联合科大讯飞、阿里云天池发起的AI夏令营(第三期),我参与了深度学习实践-NLP(自然语言处理)方向⭐️作为NLP小白,我希望能通过本次夏令营的学习实践,对NLP
不雨_亦潇潇
·
2024-02-02 07:51
人工智能AI
#
自然语言处理NLP
人工智能
自然语言处理
NLP
大模型
微调大模型
指令微调
AIGC
GPT-4竟被CS学生「开源」了!
Datawhale
开源开源:免费GPT-4,编辑:新智元【导读】最近,一名来自欧洲的计算机系学生竟然把GPT-4给「开源」了。
Datawhale
·
2024-02-02 06:01
人工智能
ChatGLM-6B:自定义数据集和模型微调!
Datawhale
干货开源:ChatGLM,编辑:Coggle数据科学ChatGLM-6B介绍ChatGLM-6B是一个开源的、支持中英双语问答的对话语言模型,基于GeneralLanguageModel
Datawhale
·
2024-02-01 20:52
OfficeAutomation——Task04 Python 操作 PDF
OfficeAutomation——Task04Python操作PDFlinks:https://github.com/
datawhale
china/team-learning-program/blob
棠糖䉎
·
2024-02-01 16:08
自动化
datawhale
大模型学习 第六章-大模型之Adaptation
一、为什么需要Adaptation1.1简介从语言模型的训练方式来说,例如GPT-3,训练语料通常是海量的,各种领域的,不针对任何特定任务的文本信息。这种方法的优点在于模型具有广泛的适用性,但也带来了一些挑战。比如下游任务的多样性,不同的下游任务与语言模型的预训练方式可以非常不同:格式不同:BERT训练过程中使用了MASK标记,而许多下游任务可能并不使用这些标记。自然语言推理任务(NLI)涉及两个
fan_fan_feng
·
2024-01-29 18:25
人工智能
深度学习
大模型
自然语言处理
算法
datawhale
大模型学习 第八章-分布式训练
近年来,随着Transformer、MOE架构的提出,使得深度学习模型轻松突破上万亿规模参数,传统的单机单卡模式已经无法满足超大模型进行训练的要求。因此,需要基于单机多卡、甚至是多机多卡进行分布式大模型的训练。对于训练任务来说,“大”体现在两个方面:模型大和训练数据大。模型大:需要把模型拆成多个部分,并分布到不同的机器上训练,即模型并行;训练数据大:需要把数据拆成多个小的数据片,并分布到不同的机器
fan_fan_feng
·
2024-01-29 18:25
学习
datawhale
大模型学习 第十一章-大模型法律篇
简介新技术与法律关系:大型语言模型(LLM)的出现引发了对现有法律适用性的探讨,尤其是在版权、隐私和公平使用等方面。互联网法律挑战:互联网的匿名性和无国界特性对法律的管辖权提出了挑战。法律与道德区分:法律具有强制执行力,而道德则依赖于社会共识和组织规范。大型语言模型的法律问题数据收集与训练:LLM依赖大量数据,可能涉及未经许可的数据使用,引发版权和隐私问题。应用领域:LLM在问答、聊天机器人等下游
fan_fan_feng
·
2024-01-29 18:25
学习
datawhale
大模型学习 第九\十章-大模型有害性
大模型危害性主要包括:社会偏见性能差异有害信息虚假信息性能差异和社会偏见常常与历史性歧视一致。这将带来更加猛烈的少数群体偏见和边缘化。一、性能差异即系统对于某些人群(例如年轻人或白人)的准确性高于其他人群(如老年人或黑人)例如,Blodgett等人在2017年的研究发现,语言识别系统对非洲裔美国英语的表现不如对标准英语。二、社会偏见系统的预测或生成的文本在目标概念(例如科学)与特定人群(例如男性或
fan_fan_feng
·
2024-01-29 18:54
大模型
学习
大模型
自然语言处理
whale-quant【01_投资与量化投资】(学习与笔记)
本文整体来自
datawhale
_whale-quant内容的学习,在基础上加了自己的总结与补充。后续将会补充笔记。内容质量很高,喜欢的盆友请给github项目点一个strar以鼓励!
王多头发
·
2024-01-28 01:58
区块链
人工智能
大数据
Datawhale
202210 Excel | 第五、六、七章 Excel函数示例 & Excel函数列表
Excel函数示例&Excel函数列表函数列表第五章IF函数5.1if函数5.2if函数与复杂逻辑5.3ifs函数第五章练习第六章查找函数6.1VLOOKUP6.2XLOOKUP第六章练习第七章动态函数7.1FILTER-[官方文档](https://support.microsoft.com/zh-cn/office/filter-函数-f4f7cb66-82eb-4767-8f7c-4877a
o0卤化氢0o
·
2024-01-27 21:29
笔记
Excel
1024程序员节
DataWhale
大数据处理技术组队学习task1
DataWhale
大数据处理技术组队学习task1一、大数据概述1.大数据时代(详细内容参考参考文章)2.大数据的概念(又或者是特点)4V数据量大(Volume)数据来源:可以是计算机、手机,也可以是其他联网设备
Y_fulture
·
2024-01-27 19:33
大数据处理技术
学习
大数据
数据分析
Datawhale
组队学习之大模型理论基础 Task7 分布式训练
第8章分布式训练8.1为什么分布式训练越来越流行近年来,模型规模越来越大,对硬件(算力、内存)的发展提出要求。因为内存墙的存在,单一设持续提高芯片的集成越来越困难,难以跟上模型扩大的需求。为了解决算力增速不足的问题,人们考虑用多节点集群进行分布式训练,以提升算力。8.2常见的并行策略分为“数据并行”和“模型并行”。8.2.1数据并行数据并行,需要对各个设备上的梯度进行AllReduce,以确保各个
AIzealot无
·
2024-01-27 19:00
程序猿的基本素养
跟着无神学机器学习
学习
分布式
人工智能
GNN学习第六天
首先感谢
datawhale
的课程内容:引用GNN/Markdown版本/5-基于图神经网络的节点表征学习.md·
Datawhale
/team-learning-nlp-码云-开源中国(gitee.com
def1037aab9e
·
2024-01-27 01:59
Datawhale
大模型基础 Task6 模型之Adaptation篇 笔记
通用大模型不能适用于全部领域,并且有着时效性等问题,因此需要进行适应来改善其性能。适应主要分为:预训练模型(主干部分的训练,最消耗算力);获取特定领域的数据集;找一些参数用于适配;定义损失函数来作为适配的标准;进行问题的优化表示。适应的方法主要有:探测、微调(可以提升零样本性能、改善泛化能力、获取新任务的能力)。轻量微调和微调的思路大题相似,分为轻量级微调的变体、提示词微调、前缀微调、适配器微调。
AIzealot无
·
2024-01-26 06:40
跟着无神学机器学习
笔记
人工智能
深度学习
AIGC
prompt
Datawhale
Task5:模型训练篇
本章学习模型训练第6章模型训练模型训练主要由目标函数和优化算法组成6.1目标函数有三类语言模型的目标函数:只包含解码器的模型(如,GPT-3):计算单向上下文嵌入(contextualembeddings),一次生成一个token只包含编码器的模型(如,BERT):计算双向上下文嵌入编码器解码器模型(如,T5):编码输入,解码输出我们可以使用任何模型将token序列映射到上下文嵌入中(例如,LST
AIzealot无
·
2024-01-26 06:40
AIGC
人工智能
datawhale
大模型学习 第五章-模型训练
一、目标函数今天要讨论的是以下三种模型结构:Decoder-only模型:例如,GPT-3,单向上下文嵌入,在生成文本时一次生成一个tokenEncoder-only模型:例如,BERT,利用双向上下文注意力生成embedingEncoder-decoder模型:例如,T5,利用双向上下文编码,利用单向上下文生成文本最终结果就是将token序列映射为一个Embedding向量其中:L:代表文本长度
fan_fan_feng
·
2024-01-24 16:20
学习
大模型
DW大模型理论基础 第二章 大模型的能力
大模型的能力参考链接:https://github.com/
datawhale
china/so-large-lm/tree/mainGPT-3——这个具有代表性的⼤型语⾔模型的能⼒值得我们探讨。
LucyFang2020
·
2024-01-24 08:49
大数据
第五章:大模型的数据
参考链接:https://github.com/
datawhale
china/so-large-lm/tree/main一、大语言模型背后的数据⼤型语⾔模型是在"原始⽂本"上进⾏训练的。
LucyFang2020
·
2024-01-24 08:49
大数据
第十一章:大模型之Adaptation
参考链接:https://github.com/
datawhale
china/so-large-lm/tree/main1引言为什么需要Adaptation?
LucyFang2020
·
2024-01-24 08:45
大数据
datawhale
大模型学习 第四章-新模型架构
一、现状GPT3是一个通过96个Transformerblock堆叠在一起的神经网络.即:每一个TransformerBlock是一个多头注意力层的Block目前大模型的规模已经到了极限(模型越大,需要训练资源和时间也就越长)二、混合专家模型混合专家模型通俗点讲就是:有N个专家,每个专家有各种的不同领域能力和模型参数,通过一个门控制机制来给不同专家分配权重,最终汇总所有专家的结果。优点:1.专家与
fan_fan_feng
·
2024-01-22 21:48
学习
大模型
深度强化学习Task2:策略梯度算法
本篇博客是本人参加
Datawhale
组队学习第二次任务的笔记【教程地址】文章目录基于价值算法和基于策略算法的比较策略梯度算法策略梯度算法的直观理解策略梯度算法REINFORCE算法基于平稳分布的策略梯度算法
卡拉比丘流形
·
2024-01-22 07:16
深度学习
算法
机器学习
人工智能
强化学习
深度学习
datawhale
第三章-模型架构
一、大模型的分词器1.1什么是分词?分词的目的是将输入文本分成一个个词元,保证各个词元拥有相对完整和独立的语义,以供后续任务(比如学习embedding或者作为高级模型的输入)使用。1.2分词的三种粒度词粒度在英文等语言中有着天然的空格分隔,但是对于中文等语言可能需要额外的分词算法来进行处理(比如中文的jieba分词)词粒度的缺点:词粒度的词表由于长尾效应可能会非常大,并且稀有词往往很难学好;OO
fan_fan_feng
·
2024-01-21 08:41
人工智能
(202401)深度强化学习基础2:策略梯度
文章目录前言策略梯度1基于价值算法的缺点2策略梯度算法3REINFORCE算法本章小结前言感谢
Datawhale
成员的开源本次学习内容的文档地址为第九章策略梯度策略梯度这个章节会开始介绍基于策略梯度的算法
早上真好
·
2024-01-20 22:27
参与dw开源学习
深度学习
(202401)深度强化学习基础与实践1:马尔科夫过程、DNQ算法回顾
文章目录序言马尔科夫决策过程含义性质回报状态转移矩阵DQN算法深度网络经验回放目标网络实战DQN算法DQN算法进阶DoubleDQNDuelingDQNNoisyDQNPERDQNC51算法序言本文章记录
Datawhale
早上真好
·
2024-01-20 22:56
参与dw开源学习
pytorch
深度学习
datawhale
大模型理论基础 引言
学习地址:大模型理论基础一、什么是语言模型(LanguageModel)语言模型其实是一个概率模型,给每一个句子列表计算一个概率值:p(x1,…,xL)例如:p(the,mouse,ate,the,cheese)=0.02,p(the,cheeseate,the,mouse)=0.01,p(the,cheeseate,the,mouse)=0.01自回归语言模型(Autoregressivelan
fan_fan_feng
·
2024-01-20 19:49
大模型
人工智能
大模型
datawhale
第二章-大模型的能力
一、概述GPT-3作为一个语言模型,被训练来预测下一个词。并未明确针对特定任务进行训练。在某些任务上,比如语言建模,GPT-3大幅度超越了现有技术的最高水平;在其他任务上,GPT-3与训练有素,拥有大量标签数据的系统竞争时,却明显落后二、语言模型的适应性:从语言模型到任务模型的转化将要给语言模型往特定任务模型转换的过程中,需要以下两个输入:任务描述:即解释一下你这个任务是要干嘛的训练实例:也就是通
fan_fan_feng
·
2024-01-20 19:49
大模型
人工智能
大模型
Datawhale
强化学习笔记(二)马尔可夫过程,DQN 算法
函数如何用梯度下降的方式更新网络参数强化学习vs深度学习提高训练稳定性的技巧经验回放目标网络代码实战DQN算法进阶DoubleDQNDuelingDQN算法代码实战参考在线阅读文档github教程开源框架JoyRL
datawhale
china
RessCris
·
2024-01-20 17:54
强化学习
笔记
算法
DataWhale
组队学习之知识图谱task04
参考
datawhale
开源组织:https://github.com/
datawhale
china/team-learning-nlp/blob/master/KnowledgeGraph_Basic/
YANJINING
·
2024-01-20 16:28
Datawhale
AI夏令营 机器学习组学习日记(任务2.1-2.2)
一、任务2.11.1任务内容字段x1至x8为用户相关的属性,为匿名处理字段。添加代码对这些数据字段的取值分析,那些字段为数值类型?那些字段为类别类型?对于数值类型的字段,考虑绘制在标签分组下的箱线图。从common_ts中提取小时,绘制每小时下标签分布的变化。对udmap进行onehot,统计每个key对应的标签均值,绘制直方图。1.2代码解析1.2.1字段x1至x8属性分析#导入库importp
m0_49558200
·
2024-01-20 06:11
机器学习
学习
人工智能
数据挖掘
python
数据分析
Datawhale
AI夏令营 机器学习组学习日记(任务1)
一、赛题内容本次大赛提供了讯飞开放平台海量的应用数据作为训练样本,参赛选手需要基于提供的样本构建模型,预测用户的新增情况。赛题数据由约62万条训练集、20万条测试集数据组成,共包含13个字段。其中uuid为样本唯一标识,eid为访问行为ID,udmap为行为属性,其中的key1到key9表示不同的行为属性,如项目名、项目id等相关字段,common_ts为应用访问记录发生时间(毫秒时间戳),其余字
m0_49558200
·
2024-01-20 06:10
人工智能
机器学习
学习
python
数据挖掘
大数据
贷款违约预测-Task5 模型融合
赛题:零基础入门数据挖掘-零基础入门金融风控之贷款违约预测项目地址:https://github.com/
datawhale
china/team-learning-data-mining/tree/master
致Great
·
2024-01-19 21:45
【
Datawhale
x 财务学习笔记】用智谱清言的代码沙盒进行分析
体验网址智谱清言:https://chatglm.cn/prompt帮我分析一下这个excel文件,从财务角度给出利润情况,并给出优化建议体验结果首先,我将查看上传的Excel文件的内容,以便了解其结构和包含的数据。然后,我将基于这些数据进行分析,并提供财务角度的利润情况和优化建议。让我们开始吧。importpandasaspd#LoadtheExcelfilefile_path='/mnt/da
JeffDingAI
·
2024-01-19 16:21
学习
笔记
清华毕业生去哪了?
Datawhale
分享2023届就业情况,来源:清华大学近日,清华就业工作会召开清华2023届档案在校本科毕业生3200多人档案在校研究生毕业生5200多人这些清华学生毕业后都去哪了?就业还是深造?
Datawhale
·
2024-01-19 09:03
ICLR 2024接收率31%,清华LCM论文作者:讲个笑话,被拒了!
Datawhale
分享顶会:ICLR2024,编辑:机器之心你被拒了吗?ICLR2024国际学习表征会议已经来到了第十二届,将于今年5月7日-11日在奥地利维也纳会展中心举行。
Datawhale
·
2024-01-19 09:33
超过GPT3.5?Mixtral 8*7B 模型结构分析
Datawhale
干货作者:宋志学,
Datawhale
成员前言2023年12月11日,MistralAI团队发布了一款高质量的稀疏专家混合模型Mixtral8x7B。
Datawhale
·
2024-01-19 09:00
gpt-3
寻找游戏大模王赛后分享(我的寻找游戏大模王之旅
AI原生应用大赛的Top1荆轲刺秦王团队的小罗,很高兴能在这里与大家分享我们这次比赛的经验,同时也希望以后有机会可以和大家一起交流学习~左二是我初遇首先,怀着对创作游戏和学习大模型的那么一份憧憬,作为
Datawhale
Unicornlyy
·
2024-01-18 10:20
大模型
游戏
人工智能
python
图像处理——人脸情绪识别(python卷积神经网络)
、项目背景二、项目任务三、数据说明四、项目步骤1.图片基本情况查看2.图片处理3.模型构建4.模型训练5.验证集验证模型效果6.使用模型进行预测总结前言这是我第一次做图像处理的项目,项目基于科大讯飞和
Datawhale
机智的小神仙儿
·
2024-01-18 09:15
图像处理
python
深度学习
机器学习
人脸识别
吃瓜教程Task1:概览西瓜书+南瓜书第1、2章
更多学习内容可以参考下面的链接:南瓜书的地址:https://github.com/
datawhale
china/pumpkin-book【视频链接】https://www.bilibili.com/video
卡拉比丘流形
·
2024-01-18 05:45
机器学习
机器学习
人工智能
深度强化学习Task1:马尔可夫过程、DQN算法回顾
本篇博客是本人参加
Datawhale
组队学习第一次任务的笔记【教程地址】https://github.com/
datawhale
china/joyrl-book【强化学习库JoyRL】https://github.com
卡拉比丘流形
·
2024-01-18 05:14
深度学习
算法
人工智能
深度学习
神经网络
python
强化学习
Datawhale
大模型基础理论 Day1 引言
开源链接如下:https://github.com/
datawhale
china/so-large-lm/blob/main/docs/content/ch01.md语言模型的概念:即能够赋予每个有意义的词
AIzealot无
·
2024-01-16 02:29
跟着无神学机器学习
AIGC
人工智能
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他