医学生数据科学之路-Ⅰ(基础篇)

The data science roadmap for medical students
开学后智能医学社已经进行了几次练习,但学生的完成情况并不理想,今天我准备为医学生做一下课程的体系构建,这样能让想学习的同学提前学习,落后的同学,知道自己在哪个阶段,哪个步骤了。
医学生并不是专业的coder或者engineer,所以类似的Roadmap并不太适用。

医学生想要步入数据科学,以下几点必须注意:

  • 弱化数学及统计学
  • 短期速成,容易掌握
  • 启发思维为主,主张代码复用
  • 符合医学思维和医药数据需求
  • 实践为王,解决医学科学问题

先上图,数据科学金字塔,如果你按我的知识体系,能以最快的速度爬到塔尖

医学生数据科学之路-Ⅰ(基础篇)_第1张图片

我们采用的程序语言是python和R,至于为什么,根本无需解释了。我更喜欢R,双条腿走路,不吃亏。整个学习体系,大部分以现有的优秀教程为主,实在不行,我就自己做教程,一步一步带你到达巅峰。最后警告大家一句:高处不胜寒!

Week 1 / Git、R、python 基础,小热身

本周,通过一些小练习和一些基础教程,来学习一些简单的编程语法和版本控制(git)。

Week 2 / 环境搭建,R和python形影不离

数据科学的王者是Anaconda,但我觉得它似乎太臃肿了,我更倾向于自己搭建。

所有工具,都建议采用英文界面,所有工具的安装目录都不得出现中文

Week 3 / 扫盲科普

数据科学必须了解的概念:机器学习,深度学习,神经网络,机器学习经典模型(算法)
每个视频都不长。算是入门科普。

是什么系列

https://www.bilibili.com/vide...
https://www.bilibili.com/vide...
https://www.bilibili.com/vide...
https://www.bilibili.com/vide...
https://www.bilibili.com/vide...

经典算法5分钟

https://space.bilibili.com/10...

医学生数据科学之路-Ⅰ(基础篇)_第2张图片

医学生数据科学之路-Ⅰ(基础篇)_第3张图片

Data!Data!Data!

编程语言数据类型

医学生数据科学之路-Ⅰ(基础篇)_第4张图片

统计学数据类型

  • Numeric
    Data that are expressed on a numeric scale.

    • Continuous
      Data that can take on any value in an interval. (Synonyms: interval, float, numeric)
    • Discrete
      Data that can take on only integer values, such as counts. (Synonyms: integer, count)
  • Categorical
    Data that can take on only a specific set of values representing a set of possible categories. (Synonyms: enums, enumerated, factors, nominal)

    • Binary
      A special case of categorical data with just two categories of values, e.g., 0/1, true/false. (Synonyms: dichotomous, logical, indicator, boolean)
    • Ordinal
      Categorical data that has an explicit ordering. (Synonym: ordered factor)

医学生数据科学之路-Ⅰ(基础篇)_第5张图片

Rectangular Data

The typical frame of reference for an analysis in data science is a rectangular data object, like a spreadsheet or database table.

xml,json,csv.....
Data frame
Rectangular data (like a spreadsheet) is the basic data structure for statistical and machine learning models.
Feature

A column within a table is commonly referred to as a feature.

attribute, input, predictor, (independent) variable, regressors, covariates
Outcome measurement Y

Many data science projects involve predicting an outcome Y

dependent variable, response, target, output
  • In the regression problem, Y is quantitative (e.g price, blood pressure).
  • In the classification problem, Y takes values in a finite, unordered set (survived/died, digit 0-9, cancer class of tissue sample).
Records

A row within a table is commonly referred to as a record.

case, example, instance, observation, pattern, sample

你可能感兴趣的:(机器学习数据分析)