《机器学习算法竞赛实战》学习笔记1.竞赛简介

本文是《机器学习算法竞赛实战》(人民邮电出版社)的笔记的第一篇,希望可以通过这样的方式督促自己学习。

第1章.初见竞赛

  • 1.竞赛平台简介
    • 1.1Kaggle
      • 1.1.1概况Overview
      • 1.1.2数据Data
      • 1.1.3代码笔记Code
      • 1.1.4论坛Discussion
      • 1.1.5排行榜Leaderboard
      • 1.1.6规则Rules
    • 1.2天池
    • 1.3DataFountain(DF)
    • 1.4DataCastle(DC)
    • 1.5Kesci
    • 1.6JDATA
  • 2.竞赛流程
    • 2.1问题建模
    • 2.2数据探索
    • 2.3特征工程
    • 2.4模型训练
    • 2.5模型融合

1.竞赛平台简介

1.1Kaggle

大名鼎鼎的国际竞赛平台kaggle,地位无需多言。提一句,kaggle在国内注册时可能出现显示不出验证码的问题,网上很多解决方法。
《机器学习算法竞赛实战》学习笔记1.竞赛简介_第1张图片

1.1.1概况Overview

简要介绍竞赛,包括Description(描述)、Evaluation(评分)、Prizes(奖项)、Timeline(时间轴)四部分

  1. Description:竞赛背景介绍及主办方信息
  2. Evaluation:给出该次竞赛的评价标准以及提交文件格式
  3. Prizes:展示奖金
  4. Timeline:介绍时间线(!合理安排时间

1.1.2数据Data

通常是CSV宽表格式。data部分有个单独的data description,通常会给出所有表格数据信息(采集来源、任务说明、详细字段含义……)

1.1.3代码笔记Code

该次竞赛的开源社区。融合、学习的好地方。

1.1.4论坛Discussion

参赛者交流处,有很多赛事相关讨论。大佬互动的地方/doge

1.1.5排行榜Leaderboard

展示排行榜。有的会分A榜B榜

1.1.6规则Rules

该次竞赛的相关规则,比概览部分更加详细。需注意,以免违规导致功亏一篑

1.2天池

中文平台,对英语不太好的朋友很友好。
天池分初赛和复赛,初赛(离线赛阶段)是固定时间点评测;复赛(平台赛阶段),选手在本地调试算法并完成模型训练,提交推断过程的Docker镜像,由镜像产生预测结果,进行实时评测。

1.3DataFountain(DF)

CCF指定的专业大数据及人工智能竞赛平台,与学术界紧密联系。特色:对行业的细分以及落地场景的多样化

1.4DataCastle(DC)

数据城堡

1.5Kesci

和鲸社区,提供在线的notebook训练环境(收费)

1.6JDATA

京东旗下。主要涉及电商及物流,质量难度都高

2.竞赛流程

问题建模
数据探索
特征工程
模型训练
模型融合

2.1问题建模

分析数据进而抽象出建模目标和方案。自行利用主办方提供的数据构造训练集与测试集

2.2数据探索

Exploratory Data Analysis,探索性数据分析,简称EDA。在大致了解问题建模方式后,需结合对赛题背景业务的理解去看数据长什么样子、数据是否和描述相符、包含哪些信息等。首先需要对数据有清晰认知,主要是宽表中各个字段的取值含义、范围和数据结构等。然后更深层次地结合标签分析特征的分布状态、训练集与测试集的同分布情况、特征之间的业务关联以及隐含信息表征等

2.3特征工程

Feature Engineering。特征决定机器学习预测效果上限,算法不断逼近这个上限。最费时模块

2.4模型训练

选模型、调参数

2.5模型融合

找找队友,看看Code

你可能感兴趣的:(机器学习,算法,人工智能)