RANSAC算法

RANSAC算法全称是随机抽样一致算法(random sample consensus,RANSAC)RANSAC算法的基本假设是样本中包含正确数据(inliers,可以被模型描述的数据),也包含异常数据(outliers,偏离正常范围很远、无法适应数学模型的数据),即数据集中含有噪声。这些异常数据可能是由于错误的测量、错误的假设、错误的计算等产生的。同时RANSAC也假设,给定一组正确的数据,存在可以计算出符合这些数据的模型参数的方法。数据分两种:有效数据(inliers)无效数据(outliers)。偏差不大的数据称为有效数据,偏差大的数据是无效数据。如果有效数据占大多数,无效数据只是少量时,我们可以通过最小二乘法或类似的方法来确定模型的参数和误差;如果无效数据很多(比如超过了50%的数据都是无效数据),最小二乘法就失效了,我们需要新的算法。

如果一组二位的数据点含有许多噪声点,直接采用最小二乘法求出的数学模型不够准确。而比较好的方法就是用RANSAC算法剔除那些噪声点,获得最大的支持数据集合,再用最大支持数据通过最小二乘求出最佳数学模型。

首先如果没有使用RANSAC算法,通过最小二乘法模拟出的数学模型如下图所示,其中的二位数据是我们随机生成的包含噪声点的数据集合。


RANSAC算法_第1张图片

可以看出,上半部分是误差较大的点,而通过最小二乘拟合的直线将噪声点也考虑进去,得到的不是最佳数学模

型。

现在我们采用RANSAC算法剔除一些噪声点后,在进行最小二乘拟合得到的图如下所示。

RANSAC算法_第2张图片

其中红色的直线是未使用RANSAC算法拟合的直线,蓝色的直线是使用RANSAC算法拟合的直线。从中可以看出使用RANSAC算法之后的数学模型更佳。

算法:

伪代码的算法如下所示:

输入:

Data       一组观测数据

Model     适应于数据的模型

       适应于模型的最小数据个数

       算法的迭代次数

        用于决定数据是否适应于模型的阈值

        判定模型是否适用于数据集的数据数目

Best_model  与数据最匹配的模型参数(没有返回null)

Best_consensus_set 估计出模型的数据点

Best_error   跟数据相关的估计出的模型错误

iterations 0

best_model null

best_consensus_set null

best_error 无穷大

while iterations )

maybe_inliers 从数据集中随机选择n个点

maybe_model 适合于maybe_inliers的模型参数

consensus_set maybe_inliers

for 每个数据集中不属于maybe_inliers的点 

if 如果点适合于maybe_model,且错误小于t 

将点添加到consensus_set

if ( consensus_set中的元素数目大于d 

已经找到了好的模型,现在测试该模型到底有多好

better_model 适合于consensus_set中所有点的模型参数

this_error better_model究竟如何适合这些点的度量

if this_error best_error )

我们发现了比以前好的模型,保存该模型直到更好的模型出现

best_model  better_model

best_consensus_set consensus_set

best_error  this_error

增加迭代次数

返回 best_model, best_consensus_set, best_error


这次的模拟实验是使用matlab实现的,详细代码可在此处下载点击打开链接





你可能感兴趣的:(机器学习,图像算法,数据)