Run-length encoding

在kaggle上做题时遇到一个编码技术:Run-length encoding,此处记录一下~

 

行程编码(RLE)是一种无损数据压缩形式,其中数据的runs(即,在许多连续数据元素中出现相同数据值的序列)被存储为单个数据值和计数,而不是原来的runs。这对包含许多此类runs的数据最有用。例如,考虑简单的图形图像,如图标,线条图。它对于没有很多runs的文件没有用,因为它可能会大大增加文件大小。

 

例如,考虑在纯白色背景上包含纯黑色文本的屏幕。空白区域中会有很多长白色像素,文本中会有很多短黑色像素。假设的扫描线,B代表黑色像素,W代表白色,可能如下所示:

WWWWWWWWWWWWBWWWWWWWWWWWWBBBWWWWWWWWWWWWWWWWWWWWWWWWBWWWWWWWWWWWWWW

通过应用于上述假设扫描线的行程编码(RLE)数据压缩算法,可以如下呈现:

12W1B12W3B24W1B14W

这可以解释为十二个W,一个B,十二个W,三个B的序列。

 

参考地址:https://en.wikipedia.org/wiki/Run-length_encoding#Example

kaggle题目:https://www.kaggle.com/c/severstal-steel-defect-detection/overview/evaluation

你可能感兴趣的:(Kaggle)