dataWhale 第36页

记首次CCF数据算法竞赛的心得与收获（排名top1、top2%、top8%），CCF明年再会！

暑假两个月的学习过程中，感觉自己学的还行，就想找些比赛来看看，也是机缘巧合吧，看到DataWhale公众号和水哥他们的公众号Coggle数据科学在介绍有关CCF的算法比赛，就抱着尝试的心情，选择了几个报名

代码届的小白·2020-12-07 10:44

python实现概率论与数理统计_机器学习数学基础：数理统计与描述性统计

↑↑↑关注后"星标"Datawhale每日干货&每月组队学习，不错过Datawhale干货作者：吴忠强，Datawhale优秀学习者所谓机器学习和深度学习，背后的逻辑都是数学，所以数学基础在这个领域非常关键

西西里的小裁缝·2020-11-27 16:18

2020CCF BDCI 企业非法集资风险预测-线上0.848（水哥的baseline），在此基础已做到线上0.848，排名前1%（参赛队伍3000+））。

首先感谢DataWhale这个组织，今年上半年在学校机器学习的过程中得知有这么个开源组织，南瓜书也是他们一起编写，看过西瓜书《机器学习-周志华》的同学应该都知道吧。

代码届的小白·2020-11-27 15:18

零基础入门推荐系统 - 新闻推荐-Task1 (DataWhale学习小组)

sweetshark·2020-11-25 22:04

李宏毅强化学习完整笔记！开源项目《LeeDeepRL-Notes》发布

Datawhale开源核心贡献者：王琦、杨逸远、江季提起李宏毅老师，熟悉强化学习的读者朋友一定不会陌生。很多人选择的强化学习入门学习材料都是李宏毅老师的台大公开课视频。

布客飞龙·2020-11-23 00:39

李宏毅强化学习完整笔记！开源项目《LeeDeepRL-Notes》发布

Datawhale开源核心贡献者：王琦、杨逸远、江季提起李宏毅老师，熟悉强化学习的读者朋友一定不会陌生。很多人选择的强化学习入门学习材料都是李宏毅老师的台大公开课视频。

布客飞龙·2020-11-22 23:31

机器学习如何计算特征的重要性_机器学习中的特征工程总结！

↑点击蓝字关注极市平台作者丨张峰来源丨Datawhale编辑丨极市平台极市导读特征工程是机器学习，甚至是深度学习中最为重要的一部分，是数据科学中最有创造力的一部分。

weixin_39967096·2020-11-22 15:32

加载tf模型正确率很低_深度学习模型训练全流程！

↑↑↑关注后"星标"Datawhale每日干货&每月组队学习，不错过Datawhale干货作者：黄星源、奉现，Datawhale优秀学习者本文从构建数据验证集、模型训练、模型加载和模型调参四个部分对深度学习中模型训练的全流程进行讲解

weixin_39726131·2020-11-21 11:13

Python高阶函数使用总结！

↑↑↑关注"AI派"每周送书本文约2000字，建议阅读6分钟审稿人：耿远昊，Datawhale成员，华东师范大学，开源教程《Joyful-Pandas》核心贡献者。

Wang_AI·2020-11-20 09:00

2021年我的互联网秋招算法岗总结！

↑↑↑关注后"星标"Datawhale每日干货&每月组队学习，不错过Datawhale干货作者：李金泽，清华大学，Datawhale作者前言一晃接近三个月过去了，秋招也到了尾声，之前一直忙于写毕业论文，

Datawhale·2020-11-18 20:00

机器学习数学基础：随机事件与随机变量

这次借着在Datawhale组织的概率统计专题学习的机会再重新温习一遍数学基础，非常感谢组织的这次学习机会。

拒绝气泡·2020-11-16 23:26

python基础学习_整理了我开始分享学习笔记到现在超过250篇优质文章，涵盖数据分析、爬虫、机器学习等方面，别再说不知道该从哪开始，实战哪里找了...

大家好，我是老表，Python终身学习者，也是开源学习组织Datawhale终身成员，有近两年的Python编程学习经验，热爱爬虫与数据分析，目前是一名数据分析师(实习)。

weixin_39574388·2020-11-12 06:40

图解GPT-2（完整版）！

Datawhale干货译者：张贤，哈尔滨工程大学，Datawhale原创作者干货长文，建议收藏阅读，收藏等于看完。

zenRRan·2020-11-10 22:28

【深度强化学习】8. DDPG算法及部分代码解析

【DataWhale打卡】DDPG算法DeepDeterministricPolicyGradient视频参考自：https://www.bilibili.com/video/BV1yv411i7xd?

*pprp*·2020-11-07 20:01

【NLP】图解 BERT 预训练模型！

作者：张贤，哈尔滨工程大学，Datawhale原创作者本文约7000字，NLP专栏文章，建议收藏阅读审稿人：Jepson，Datawhale成员，毕业于中国科学院，目前在腾讯从事推荐算法工作。

风度78·2020-11-05 09:00

NLP专栏｜图解 BERT 预训练模型！

↑↑↑关注后"星标"Datawhale每日干货&每月组队学习，不错过Datawhale干货作者：张贤，哈尔滨工程大学，Datawhale原创作者本文约7000字，NLP专栏文章，建议收藏阅读审稿人：Jepson

Datawhale·2020-11-01 19:00

python基础学习_整理了开始分享学习笔记到现在超过250篇优质文章，涵盖数据分析、爬虫、机器学习等方面...

大家好，今天给大家介绍一位Python终身学习者：老表，Python终身学习者，也是开源学习组织Datawhale终身成员，有近两年的Python编程学习经验，热爱爬虫与数据分析，目前是一名数据分析师(

weixin_39602615·2020-10-22 22:45

【Datawhale】numpy学习-数据类型及数组创建

文章目录常量数据类型常见数据类型创建数据类型时间日期和时间增量datetime64基础数组的创建依据现有数据来创建ndarray通过asarray()函数进行创建依据内置函数填充方式利用数值范围来创建ndarray数组的属性课后习题(记录重要的)常量numpy.nan：表示空值。nan=NaN=NAN，两个numpy.nan是不相等的。numpy.isnan(x,*args,**kwargs)Te

小珈猫·2020-10-19 15:50

Datawhale·2020-10-16 10:00

机器学习模型评估指标总结！

Datawhale干货作者：太子长琴，Datawhale优秀学习者本文对机器学习模型评估指标进行了完整总结。机器学习的数据集一般被划分为训练集和测试集，训练集用于训练模型，测试集则用于评估模型。

文文学霸·2020-10-07 11:23

YOLO算法最全综述：从YOLOv1到YOLOv5

↑↑↑关注后"星标"Datawhale每日干货&每月组队学习，不错过Datawhale干货作者：初识cv，编辑：极市平台来源丨https://zhuanlan.zhihu.com/p/136382095

Datawhale·2020-10-05 19:00

Datawhale第17期学习笔记task4

建模与调参4.1学习目标1.学习在金融分控领域常用的机器学习模型2.学习机器学习模型的建模过程与调参流程4.2内容介绍建立获取数据文件tools.py#!/usr/bin/python#-*-coding:utf-8-*-#tool.py用于读取数据，输出模型计算结果，绘制图形等from__future__importprint_functionimportpickleimportsqlite3i

XinTong_efae·2020-09-24 20:21

DataWhale Task3 特征工程

Task03啦，希望能坚持学完，继续加油！自己在可视化和时间变量的处理上不太熟练，以后要多多练习呀~先把用到的库调用下importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltimportseabornassnsimportdatetimefromtqdmimporttqdm#这个库没怎么用过fromsklearn.preprocessi

夜明猪啊·2020-09-21 20:58

Datawhale 零基础入门金融风控-贷款违约预测-Task2数据分析

赛题：零基础入门数据挖掘-二手车交易价格预测赛题地址1EDA目标EDA的价值主要在于熟悉数据集，了解数据集，对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。当了解了数据集之后我们下一步就是要去了解变量间的相互关系以及变量与预测值之间的存在关系。引导数据科学从业者进行数据处理以及特征工程的步骤,使数据集的结构和特征集让接下来的预测问题更加可靠。完成对于数据的探索性分析，并

鹿港小小镇·2020-09-19 01:15

入门金融风控比赛-Task2-数据分析

3.为特征工程做准备项目地址：https://github.com/datawhalechina/team-learning-data-minin

℡folk·2020-09-18 23:53

Datawhale编程实践LeetCode分类练习——Task03：查找1之查找表/二分查找（Python）

查找表查找表第一类：查找有无--set第二类：查找对应关系(键值对应)--dict第三类：改变映射关系--map查找表算法应用349.两个数组的交集350.两个数组的交集II202.快乐数290.单词规律205.同构字符串451.根据字符出现频率排序242.有效的字母异位词二分查找35.搜索插入位置540.有序数组中的单一元素410.分割数组的最大值查找表第一类：查找有无–set元素’a’是否存在

x___xxxx·2020-09-17 14:22

我的XGBoost学习经历及动手实践

↑↑↑关注后"星标"Datawhale每日干货&每月组队学习，不错过Datawhale干货作者：李祖贤深圳大学，Datawhale高校群成员知乎地址：http://www.zhihu.com/people

Datawhale·2020-09-17 10:59

动手学数据分析 Task05：数据建模及模型评估

文章目录动手学数据分析Task05：数据建模及模型评估一、重点与思考动手学数据分析本次跟随Datawhale组织的动手学数据分析组队学习，对数据分析继续加强学习，希望能有所收获。

RexT1·2020-09-17 05:52

数据挖掘实践（资金流入流出预测）Task06：学习总结

文章目录数据挖掘实践Task06：学习总结数据挖掘实践本次跟随Datawhale组织的数据挖掘实践组队学习，希望能有所收获。Datawhale是一个很好的开源组织，会组织很多优质、开源的系列学习。

RexT1·2020-09-17 05:52

动手学数据分析 Task04：数据可视化

文章目录动手学数据分析Task04：数据可视化一、重点与思考动手学数据分析本次跟随Datawhale组织的动手学数据分析组队学习，对数据分析继续加强学习，希望能有所收获。

RexT1·2020-09-17 05:52

数据挖掘实践（资金流入流出预测）Task04：特征工程 & Task05：建模预测

文章目录数据挖掘实践Task04：特征工程&Task05：建模预测数据挖掘实践本次跟随Datawhale组织的数据挖掘实践组队学习，希望能有所收获。

RexT1·2020-09-17 05:51

Python爬虫编程实践 Task02（知识梳理脑图+全部资源教程）

Python爬虫编程实践本次跟随Datawhale组队学习Python爬虫，希望能有所收获。Datawhale是一个很好的开源组织，会组织很多免费的知识学习。

RexT1·2020-09-17 05:51

Datawhale 零基础入门CV赛事-Task4 模型训练与验证

Datawhale零基础入门CV赛事-Task4模型训练与验证1.构造验证集在机器学习模型（特别是深度学习模型）的训练过程中，模型是非常容易过拟合的。

力智纵恒·2020-09-17 04:06

Task 2：条件循环结构（Datawhale-Python学习笔记）

2.1条件语句2.1.1if语句ifexpression:expr_true_suiteif语句的expr_true_suite代码块只有当条件表达式expression结果为True时才执行，否则将继续执行紧跟在该代码块后面的语句。单个if语句中的expression条件表达式可以通过布尔操作符and，or和not实现多重条件判断。2.1.2if-else语句ifexpression:expr_

鸡米花甜辣酱·2020-09-17 04:03

重磅 | 完备的 AI 学习路线，最详细的资源整理！

【导读】本文由知名开源平台，AI技术平台以及领域专家：Datawhale，ApacheCN，AI有道和黄海广博士联合整理贡献，内容涵盖AI入门基础知识、数据分析\挖掘、机器学习、深度学习、强化学习、前沿

AI蜗牛车·2020-09-16 15:39

Datawhale-数据分析-Task04 数据可视化

数据可视化导入数据matplotlib中有常用的线型图。常用的还有柱状图。此外，还有直方图和密度图。直方图是一种可对值频率进行离散化显示的柱状图。而密度图是通过计算可能会产生观测数据的连续概率分布的估计而产生的。可视化展示泰坦尼克号数据集中男女中生存人数分布情况（柱状图）。可以从图上看出女性的存活人数要多于男性。可视化展示泰坦尼克号数据集中男女中生存人与死亡人数的比例图可以直观看出女性生存比例要高

Bread Sir·2020-09-16 03:28

Datawhale-数据分析-Task03 数据重构

导入数据数据合并将data文件夹里面的所有数据都载入，与之前的原始数据相比，观察他们的之间的关系使用concat方法：将数据train-left-up.csv和train-right-up.csv横向合并为一张表，并保存这张表为result_up使用concat方法：将train-left-down和train-right-down横向合并为一张表，并保存这张表为result_down。然后将上边

Bread Sir·2020-09-16 03:28

Datawhale-数据分析-Task05 数据建模及模型评估

特征工程缺失值填充编码分类变量模型搭建处理完前面的数据我们就得到建模数据，下一步是选择合适模型在进行模型选择之前我们需要先知道数据集最终是进行监督学习还是无监督学习除了根据我们任务来选择模型外，还可以根据数据样本量以及特征的稀疏性来决定刚开始我们总是先尝试使用一个基本的模型来作为其baseline，进而再训练其他模型做对比，最终选择泛化能力或性能比较好的模型切割训练集和测试集按比例切割训练集和测试

Bread Sir·2020-09-16 03:28

DATAWHALE-动手学深度学习PyTorch 笔记记录2 attention mask

【Attention中maskpad的weight的做法】在attention中，对attentionscore进行softmax时，需要考虑到query与pad计算得到的score应该忽略。我们在处理时可以先正常地用高维tensor形式将所有score计算出来，然后根据key的句长将pad所在位置的weight进行mask掉。下面的代码实现了给定二维tensorX，根据X_len将X中指定位置替

安琪已经 了·2020-09-16 00:01

Datawhale动手学深度学习 -- 笔记

1.数据展示的只是feature的其中一维和label之间的关系~可以用下面的代码展示二维的feature和label之间的关系2.我认为这里的代码实现的并不是sgd方法，而是mbgd。sgd是每次随机选择一个样本点来更新梯度，代码中实现的是每次用batch_size中所有的数据来更新梯度。3.训练部分的代码，sgd优化部分给的代码是sgd([w,d],lr,batch_size)。我认为这里

安琪已经 了·2020-09-16 00:01

Datawhale&阿里云天池二手车交易价格预测 Task3：特征工程

这篇博文后续会再进行补充在构造特征之前，需要对数据进行异常值处理，缺失值处理。记录针对二手车数据集中一些特征的处理。1.时间特征数据集中包含了汽车注册日期regDate和汽车上线日期creatDate，形式为例如20160101。处理的方式为：计算上线日期与注册日期的差值，生成新的特征–汽车使用时间。由先验知识可知，二手汽车的价格与使用时间成反比。2.地理特征数据集中包含了地区编码regionCo

安琪已经 了·2020-09-16 00:29

DATAWHALE-动手学深度学习PyTorch skip gram -- 训练数据的形式+负采样实践trick

对Skipgram模型一直都只是知道思想，就是由中心词预测窗口内的背景词，但是从来没有动手实现过。这次有机会从头开始实现，发现了许多实践上的问题。重点一：训练样本的形式一开始非常纠结的一个问题是：每个训练样本的形式是什么样的？例如，{w1,w2,w3,w4,w5}，以w3为中心词，window_size为2，得到context为{w1，w2，w4，w5}。那么此时的训练样本到底是input=w3,

安琪已经 了·2020-09-16 00:29

2020-3-24-DataWhale Task2-天池二手车交易价格预测EDA-数据分析

DataWhaleTask2学习记录比赛介绍实操记录代码部分：学习记录比赛介绍赛题与数据：（https://tianchi.aliyun.com/competition/entrance/231784/

mcqlyxxx·2020-09-15 23:46

DataWhale数据挖掘任务一

1：导入数据：观察一下数据的维度，importnumpyasnpimportpandasaspdimportmatplotlib.pyplotaspltimportseabornassnsdefinitData():fr=open('E:\BaiduNetdiskDownload\data.csv')data=pd.read_csv(fr)print(data.head(),data.shape)

IceSkyLake·2020-09-15 23:26

【阿里云天池初体验】1.赛题理解 | 金融风控之贷款违约预测挑战赛

前言1.1赛题背景1.2数据介绍1.3评估指标1.4赛题分析总结前言本次比赛是Datawhale与天池联合发起的0基础入门系列赛事第四场——零基础入门金融风控之贷款违约预测挑战赛，也是本人第一次接触数据科学竞赛

ATMH_Zhang·2020-09-15 23:19

Datawhale 数据挖掘新手入门笔记 -Task4 建模调参

文章目录一、前言二、学习目标三、学习过程1.相关原理介绍与推荐（1）线性回归(2)决策树(DecisionTree)（3）GBDT模型(4)XGBoost模型(5)LightGBM模型2.读取数据3.线性回归&五折交叉验证&模拟真实业务情况（1）简单建模(2)五折交叉验证(3)模拟真实业务情况（4）绘制学习率曲线与验证曲线4.多种模型对比(1)线性模型&嵌入式特征选择(2)非线性模型5.模型调参（

DreamStar_w·2020-09-15 21:58

Datawhale & 阿里云天池二手车交易价格预测 Task2 : 数据的探索性分析（EDA）

正在参与datawhale和阿里云天池共同举办的数据挖掘比赛~竞赛链接：零基础入门数据挖掘-二手车交易价格预测数据集可见的数据集包含了训练集（15w），测试集（5w）。

安琪已经 了·2020-09-15 21:28

求职攻略 | Datawhale助力秋招最强战甲

Datawhale团队成员offer收割机牵头，带领14名成员历时2个月，整理了一份机器学习算法工程师求职面经：Daily-interview。

weixin_34241036·2020-09-15 21:49

DataWhale

DaytwoLOGISTICREGRESSIONLinearregression&LogisticregressionTheprincipleoflogisticregressionlossfunctionoptimizationRegularizationModelevaluationindexAdvantagesDisadvantagesSampleimbalanceissuesklearnp

liyingjiehh·2020-09-15 21:14

推荐频道

dataWhale

记首次CCF数据算法竞赛的心得与收获（排名top1、top2%、top8%），CCF明年再会！

python实现概率论与数理统计_机器学习数学基础：数理统计与描述性统计

2020CCF BDCI 企业非法集资风险预测-线上0.848（水哥的baseline），在此基础已做到线上0.848，排名前1%（参赛队伍3000+））。

零基础入门推荐系统 - 新闻推荐-Task1 (DataWhale学习小组)

推荐系统之协同过滤

李宏毅强化学习完整笔记！开源项目《LeeDeepRL-Notes》发布

李宏毅强化学习完整笔记！开源项目《LeeDeepRL-Notes》发布

机器学习如何计算特征的重要性_机器学习中的特征工程总结！

加载tf模型 正确率很低_深度学习模型训练全流程！

Python高阶函数使用总结！

2021年我的互联网秋招算法岗总结！

机器学习数学基础：随机事件与随机变量

python基础学习_整理了我开始分享学习笔记到现在超过250篇优质文章，涵盖数据分析、爬虫、机器学习等方面，别再说不知道该从哪开始，实战哪里找了...

图解GPT-2（完整版）！

【深度强化学习】8. DDPG算法及部分代码解析

【NLP】图解 BERT 预训练模型！

NLP专栏｜图解 BERT 预训练模型！

python基础学习_整理了开始分享学习笔记到现在超过250篇优质文章，涵盖数据分析、爬虫、机器学习等方面...

【Datawhale】numpy学习-数据类型及数组创建

万字长文带你了解推荐系统全貌！

机器学习模型评估指标总结！

YOLO算法最全综述：从YOLOv1到YOLOv5

Datawhale第17期学习笔记task4

DataWhale Task3 特征工程

Datawhale 零基础入门金融风控-贷款违约预测-Task2数据分析

入门金融风控比赛-Task2-数据分析

Datawhale编程实践LeetCode分类练习——Task03：查找1之查找表/二分查找（Python）

我的XGBoost学习经历及动手实践

动手学数据分析 Task05：数据建模及模型评估

数据挖掘实践（资金流入流出预测）Task06：学习总结

动手学数据分析 Task04：数据可视化

数据挖掘实践（资金流入流出预测）Task04：特征工程 & Task05：建模预测

Python爬虫编程实践 Task02（知识梳理脑图+全部资源教程）

Datawhale 零基础入门CV赛事-Task4 模型训练与验证

Task 2：条件循环结构（Datawhale-Python学习笔记）

重磅 | 完备的 AI 学习路线，最详细的资源整理！

Datawhale-数据分析-Task04 数据可视化

Datawhale-数据分析-Task03 数据重构

Datawhale-数据分析-Task05 数据建模及模型评估

DATAWHALE-动手学深度学习PyTorch 笔记记录2 attention mask

Datawhale动手学深度学习 -- 笔记

Datawhale&阿里云天池 二手车交易价格预测 Task3：特征工程

DATAWHALE-动手学深度学习PyTorch skip gram -- 训练数据的形式+负采样实践trick

2020-3-24-DataWhale Task2-天池二手车交易价格预测EDA-数据分析

DataWhale数据挖掘任务一

【阿里云天池初体验】1.赛题理解 | 金融风控之贷款违约预测挑战赛

Datawhale 数据挖掘新手入门笔记 -Task4 建模调参

Datawhale & 阿里云天池 二手车交易价格预测 Task2 : 数据的探索性分析（EDA）

求职攻略 | Datawhale助力秋招最强战甲

DataWhale

加载tf模型正确率很低_深度学习模型训练全流程！

Datawhale&阿里云天池二手车交易价格预测 Task3：特征工程

Datawhale & 阿里云天池二手车交易价格预测 Task2 : 数据的探索性分析（EDA）