Datawhale 零基础入门数据挖掘-Task1 、Task2

task1:https://tianchi.aliyun.com/notebook-ai/detailspm=5176.12586969.1002.15.1cd8593ajJvr33&postId=95456 

其中的一个小知识点:二类分类问题中的精确率(precision)与召回率(recall)

通常,以关注的类为正类,其他类为反类,分类器在测试数据集上的预测或正确或不正确,4种情况出现的总数分别记为:

    TP——将正类预测为正类数;

    FN——将正类预测为负类数;

    FP——将负类预测为正类数;

    TN——将负类预测为负类数;

   精确率定义为:

   召回率定义为:

   精确率和召回率的调和均值:

精确率 : 当模型做一次新的预测时,它预测对的概率是多少。

召回率 : 对于一个预测集,我么能将其中正例的多少正确的寻找出来。

精确率和召回率的调和均值 : F1即精确率和召回率的加权调和平均。


task2 https://tianchi.aliyun.com/notebook-ai/detail?postId=95457

可视化的几个语句:

Datawhale 零基础入门数据挖掘-Task2 数据分析

1)缺省值可视化

2)通过偏度、峰度

2)数字特征可视化

数字特征相互之间的关系可视化

每个数字特征得分布可视化

3)类别特征可视化

类别特征箱形图可视化 # 

类别特征的小提琴图可视化#

类别特征的柱形图可视化#

类别特征的每个类别频数可视化(count_plot)#

你可能感兴趣的:(Datawhale 零基础入门数据挖掘-Task1 、Task2)