肤色检测、磨皮、锐化、美白算法都比较成熟了,只要选对方案,针对平台作进一步优化即可。
一、磨皮篇
此处感谢imageshop,更多的内容可以参考他的的博文。
尝试过双边滤波,利用空间位置关系和像素值的双边关系,对其进行低通高斯滤波处理,opencv里面有内置的功能,而且针对CPU等进行了优化,无奈速度还是太慢,无法满足实时性。
最后通过imageshop了解到了导向滤波算法,如果直接使用这个算法,效率还是比较慢,幸亏后面作者提出了加速的算法,效果还不错,速度大大提升了。最后通过汇编并行指令、建表等方法进行进一步优化。
二、锐化篇
没有太多可说的,自身图像叠加上高频分量,选择好几组档位的滤波器系数,滤波即可。
三、美白篇
选用了一个最简单的方法,增强光线,可以提前建表减少计算量,也没有太多的东西。
针对比较大的图像,1080p以上,可以先进行人脸检测和跟踪,对指定区域进行美颜处理。
针对720p不算很大的图像,可以直接进行上述处理。
四、声音与图像
最后,通过这2个月对图像相关东西的接触,下面谈一下自己对声音与图像的认识。
声音和图像很相似,又有很多的不同。
声音更多偏向物理波、信号分析、心理听觉,不够直接,可能需要通过设备去捕捉,全部的客观信息就可以用一张时频分析图来表示,如果加上空间信息,里面的内容还是挺多的。
对于人类交流来说,声音的第一要义就是要听清楚,听懂,还原真实现场感。
如果是作品,通常这一点基于都能保证。
如果是通话,通常要做回声消除、去噪、信息压缩、可懂度增强。
如果是娱乐,音效、空间声场增强,趋向真实、高保真,模拟真实的3D场景感。
过去,都是靠奴隶来解放自己,完成各种各样的杂事,又给予最低级的报酬。
如今,这些都是非法的,那就只有通过机器帮助自己完成这些事,自己从事更高级的劳动。
对于人类与机器来说,机器听懂人类的指令、理解指令、完成指令,和人类通过语言交流。
对应着智能化的技术:识别、自然语言理解、合成。
对于一幅图,人接触图像的时候,会自动关注自己感兴趣的内容。
图像更多偏向图形、几何、视觉。软件算法方面侧重寻找像素点之间的关系,基于块之间的规律,关注点的跟踪,通常是基于矩阵块的运算。应用面广,信息量大,有更多的开源项目,例如Opencv。
一个图像处理效果,它通常有多种可以尝试的算法,这个需要根据实际场景和熟悉程度,选择合适的算法并进行场景优化。
其次,图像的数据量大,通常需要进行指令集或者算法级层面的效率优化。
最后,牛逼的Paper里面通常能看到相关的作者会开放代码,这一点比音频、语音论文要好。