深度之眼比赛实战班第一场比赛作业1.3 | 个人笔记

文章目录

  • 作业视频3
    • 得到数据后的思路:
    • 观察比赛信息
      • Overview(总览)
      • Data(数据)
    • 代码实践
      • New code knowledge
      • Overview of ppf.ProfileReport
        • Dataset info
        • Variables types
        • Warnings (含缺失值项)
        • Variables
          • Numeric(数值型数据)
            • Statistics(统计)
            • Histogram(柱状图)
            • Common Values(共同值)
            • Extreme Values(极端值)
          • Categorical(类别型数据)
        • Correlations(相关性)

作业视频3

得到数据后的思路:

  1. 数据明确后就要看到是个什么问题
    对于要预测的值,连续值做回归,离散值做预测

  2. 哪些算法可以做这个问题(回归/分类)慢慢积累

    • 回归:线性回归,决策树,SVM
    • 分类:线性回归,决策树,SVM
  3. 要用的算法(线性回归)要什么样的数据才可以用上

    • 线性回归: 数值型数据
  4. 数据中是否含有字符串或者缺失值,如何将它们变为数值型

  5. 数据特征工程的思路,数据的EDA(推荐pandas_profiling)、特征选择、特征组合或分割

    • EDA(*):一键生成数据报表
    • 特征选择:特征参数过多不利于计算,容易过拟合,需要做选择
    • 特征组合:特征之间有所联系可以组合成一个较综合的特征
    • 特征分割:类似于One-hot编码
  6. 算法的选择

    • Xgb(Xgboost)
    • Lgb(Lightgbm)
    • ANN(Adaboost)

观察比赛信息

Overview(总览)

  • Name: House Prices: Advanced Regression Techniques(房价:高级回归技术)
  • Goal: predict the sales price for each house – predict the value of the SalePrice variable(预测测试集中的SalePrice变量)
  • Metric(评估方式):Root-Mean-Squared-Error(RMSE,均方根误差)(取log意味着在预测贵和便宜的房子的时候误差对结果的影响相同)
  • Submission File Format(提交文件格式):Id, SalePrice各一列

Data(数据)

  • File descriptions:下载下来的所有数据的描述
    • train.csv - 训练集 size: 1459x81
    • test.csv - 测试集 size: 1459x80
    • dara_description.txt - 对于(训练集的)每一列的描述
    • sample_submission.csv - 提交样本 size: 1459x2
  • Data fields:对于每个特征都是什么意思

代码实践

New code knowledge

# 读取csv文件
filename = pd.read_csv("filename.csv")

# 探索文件数据的前五行
filename.head()

# 用于探索性数据分析
import pandas_profiling as ppf

# 简要报告
ppf.ProfileReport(filename)

Overview of ppf.ProfileReport

Dataset info

Dataset info 数据集信息
Number of variables 变量的数量 81
Number of observations 观察值的数量 1460
Total Missing(%) 缺失值总占比 5.9%
Total size in memory 总内存大小 924.0KiB
Average record size in memory 平均记录内存大小 648.1B

Variables types

Variables types 变量类型
Numeric 数值型 38
Categorical 类别型 43
Boolean 布尔型 0
Data 日期型 0
Text(Unique) 文本型(特殊) 0
Rejected 不合格类型 0
Unsupported 不支持类型 0

Warnings (含缺失值项)

零值缺失值
蓝色标签Zeros 和 灰色标签Missing分别代表了零值(0)和缺失值(NaN)


Variables

Numeric(数值型数据)

Toggle(简介):

  • Distinct count 非重复条目数

    • Unique(%) 非重复条目占总条目数百分比
    • Missing(% / n) 缺失值(百分比/个数)
    • Infinite(% / n) 无穷量(百分比/个数)
    • Mean 平均值
  • Minimum 最小值

  • Maximum 最大值

  • Zeros(%) 零值


Details:

  • Statistics(统计)
    Quantile statistics 分位数统计 Descriptive statistics 描述性统计
    Minimum 最小值 Standard deviation 标准(偏)差
    5-th percentile 第5%个数 coef(ficient) of variation 变异系数1
    Q1 第25%个数 Kurtosis 峰度2
    Median(Q2) 中位数 Mean 平均值
    Q3 第75%个数 MAD 平均绝对偏差3
    95-th percentile 第95%个数 skewness 偏态
    Maximum 最大值 Sum
    Range 范围(max -min) Variance 方差
    Interquartile range 四分位范围 Memory size 内存大小
  • Histogram(柱状图)

深度之眼比赛实战班第一场比赛作业1.3 | 个人笔记_第1张图片

X ——  数值范围
Y ——  Frequency(这个范围的数值出现的频率)
  • Common Values(共同值)

深度之眼比赛实战班第一场比赛作业1.3 | 个人笔记_第2张图片

出现频率最高的数的前十个数值,次数(n)和频率(%)
  • Extreme Values(极端值)

深度之眼比赛实战班第一场比赛作业1.3 | 个人笔记_第3张图片

选取最大和最小各五个值并记录它们的次数和频率

Categorical(类别型数据)

Toggle:

  • Distinct count 非重复条目数
  • Unique(%) 非重复条目占总条目数百分比
  • Missing(%) 缺失值百分比
  • Missing(n) 缺失值数
  • 图表内容: 由多到少前三个值,剩余(非缺失)值,缺失值

Details:

一张表格,所有非缺失值逐项列举数量以及占总条目比,缺失值统一列举


Correlations(相关性)

以Pearson和Spearman两个相关系数描述各个特征间的相关度,由蓝到红越来越相关


From Video
Data 2019-08-09~10
OS Windows 10
State Energetic
Author BlackSheepX

就此写完,今天有新的任务要做,新人写笔记欢迎指点和交流,欢迎+vx:xjq1305936314(备注CSDN最好了不然我容易想不起来)
也祝深度之眼越办越好?一个全凭自觉的平台
(另外买课和vip的同学加我可以给你优惠哦?)


  1. 比较两组相差较大或者量纲不同的数据时,变异系数可以消除量纲影响,也是反应数据离散程度的绝对值,公式:cv=σ/μ (标准差 / 平均值) ↩︎

  2. 中心矩 μ k = E [ ( X − E [ X ] ) k ] = ∫ − ∞ + ∞ ( x − μ ) k f ( x ) d x \mu_{k}=\mathrm{E}\left[(X-\mathrm{E}[X])^{k}\right]=\int_{-\infty}^{+\infty}(x-\mu)^{k} f(x) d x μk=E[(XE[X])k]=+(xμ)kf(x)dx, 其中求得μ4后,峰值γ24/ σ4-3,多个数据的峰值 Kurt ⁡ ( ∑ i = 1 n X i ) = 1 n 2 ∑ i = 1 n Kurt ⁡ ( X i ) \operatorname{Kurt}\left(\sum_{i=1}^{n} X_{i}\right)=\frac{1}{n^{2}} \sum_{i=1}^{n} \operatorname{Kurt}\left(X_{i}\right) Kurt(i=1nXi)=n21i=1nKurt(Xi) ↩︎

  3. M A D = 1 n ∑ i = 1 n ∣ x i − m ( x ) ∣ M A D=\frac{1}{n} \sum_{i=1}^{n}\left|x_{i}-m(x)\right| MAD=n1i=1nxim(x) ,是所有单个观测值与算术平均值的偏差的绝对值的平均 ↩︎

你可能感兴趣的:(比赛班,思路)