【Data】数据归一化处理(data normalization)

  • 介绍 Intro
  • 解决的问题
  • 常用方法 Methods
    • 线性归一化
    • 非线性归一化
  • Ref

介绍 Intro

数据的归一化,就是将各路嘈杂的数据映射到一个统一的区间上,只保留相对尺度而消去背景信息,从而方便下一步处理。

常用的归一化区间有

  • [0,1] [ 0 , 1 ]
  • [1,1] [ − 1 , 1 ]
  • [0.5,0.5] [ − 0.5 , 0.5 ]
  • [a,b] [ a , b ] 自定义区间

解决的问题

  • 输入的数据单位不一样,导致难以直接处理。比如给人推荐衣服,身高的参数可能是 (1.5m,1.8m) ( 1.5 m , 1.8 m ) , 而体重的参数可能是 (40kg,100kg) ( 40 k g , 100 k g ) , 这两个数据就需要归一化之后再做下一步处理
  • 数据变化区间不同,对模型的影响不同,比如 x1(200,5000) x 1 ∈ ( − 200 , 5000 ) x2(10,16) x 2 ∈ ( 10 , 16 ) 相比,前者对模型的影响显著大于后者。
  • y y ′ y y 对应起来。模型的输出 y y ′ 可能是 (0.1,0.5) ( 0.1 , 0.5 ) , 而 ground truth 中的 y y 可能是 (120,280) ( 120 , 280 ) ,需要把二者对应起来。

常用方法 Methods

线性归一化

x(min,max) x ∈ ( min , max ) 映射到 (a,b) ( a , b ) 区间,其操作为

x=xminmaxmin×(ba)+a x ′ = x − min max − min × ( b − a ) + a

非线性归一化

使用归一化函数

  • sigmoid
  • tanh

Ref

  • CNN神经网络层次分析

你可能感兴趣的:(Data)