(转载)大数据实战:站在JMP分析平台上的FIT足迹识别技术

http://www.csdn.net/article/2014-03-16/2818786-interview-jmp-fit

摘要:

1、作为公益性动物保护组织,WildTrack是如何在JMP统计分析软件上开发出自己的技术——FIT(Footprints Identification Technology,足迹识别技术)。 


2、FIT,足迹识别技术,实际上是基于JMP软件的数据分析方法创造出来的“APP或工具包”(我们更倾向认为这是一种SaaS)。其原理是通过动物脚印的分析、追踪、比较来进行数据分析,确定整个生物种群的生存、生活规律和发展的状况,为动物保护有关方面的决策打下基础。FIT已经在非洲大象、黑犀牛、白犀牛、狮子、猎豹、犰狳、北极熊等动物追踪和分析中都有所应用。更有意思的是,Jewell和Alibhai已经与国家林业局猫科动物研究中心一起,在东北虎基地里面做了很多野外工作,并与四川卧龙和雅安一起,共同为大熊猫的保护和野生大熊猫种群的调查、探寻做着基础的培训工作。


3、一步步构建起他们的足迹识别技术。当然,问题很多:

  • 如何辨识脚印?用数码摄像机或者普通照相机来拍摄。
  • 如何辨识其中的区别模式?来确保能够准确地将两组看起来很相似的脚印中辨别出这是两只不同的犀牛。这需要找到一套简单的统计方法来建立模型。事实上,正常人眼中一样的脚印,在统计学中是有显著差异的。其目标是,通过模型将脚印还原回犀牛的世界,区分究竟是一只犀牛还是两只完全不同的犀牛。
  • 如何辨识出如动物性别这样更深层次的需求?也就是说,除了辨识它是属于不同的犀牛之外,还要能够辨认出它到底是属于雌性犀牛还是雄性犀牛。
技术开发人员能够将“图形、图像引入数据分析的世界,通过我们提供的图形来分析其中的元素,并找出图形之间显著、规律性的差别。

4、通过JMP中复杂的数学原理和方法开发FIT工具包,实现在辨别动物身份的同时,辨别性别、年龄等目标都已经实现。而通过对区域内动物脚印分析,可以确认动物数量和活动范围,进而为制定动物保护策划提供依据。这些FIT已经做到,是“非常了不起的突破”。

5、FIT在JMP软件里附加的一个工具包,菜单中有不同生物种群的组合。每个物种都有很独特脚印的模式和特征,有些物种有高度的相似性,比如猫科动物里的老虎、狮子、豹、山猫等等,它们的脚印模式都是四个脚趾头在前,后面一个大的脚掌的印子,不仅长相一样,模式也有高度的相似性。对于那些生物来说,只要调整里面一些关键的参数就可以。对于其他的一些物种来说,就要开发出一些完全不同的新的工具包或模块来做,比如大熊猫,大熊猫和猫科动物不一样的地方在于,大熊猫的前面有五个脚趾,在侧面还有一个专门用于抓握东西的另外的小趾头,在底下还有一块类似于小脚掌的东西,所以它的模式、结构长相和其他动物是不一样的。而以大象来举例,所有大象的脚印都是一样,都是一个巨大的椭圆形,没有太多的细节可以参考,所以它辨识的难度自然要增加一些。所以专门为大象这样的物种,开发出完全全新的模块,去适应它的脚掌。

6、FIT都是用JMP的脚本语言开发出来的。现在还在持续开发,增加更多功能和特征,让它变成对于野外工作的人来说更加容易使用和辨识,而不需要懂太多统计学原理和技术。举个例子,从操作层面看,只要将图片的信息拉入菜单,就可以自动计算图形特征,并自由设置图像点,来对图形图像进行旋转和重新处理,确保与标准化样本一致。这样就不需要对野外取证人员有太苛刻的要求才可以拍照,因为标尺度已经设置在系统中,只要简单操作就可以完成。除此以外,还可以通过不同的参数设置,如雪的厚度会影响脚印,很深的雪和很浅的雪,出来的效果有可能是不一样的。所以系统允许输入不同参数,即取照时雪的厚度是怎样,系统就会自动调整图形的关键位置的参考点。

7、 东北虎的脚印分析过程是怎么样的?

Jewell:首先通过圈养或者捕获的东北虎进行样本的对照,通过反复校验模型和严密的测试,最终保证了近乎100%准确度。而后,通过图像分析和数据处理,将野生东北虎的脚印变成一组组的X坐标和Y坐标的数据。对一张脚印图形而言,需要130个测量值。我们对比分析了600张脚印数据,得出44头东北虎的结论。并通过进一步的设定,判断这是哪种类型的东北虎(雄性或雌性),以及是年轻或年老的。而这些结论,都可以通过图形分析展现出来。


8、“数据分析不仅在中国,即使在全球也还没有进入一个主流应用的领域。很多大型企业内部报表还是Excel,商业智能软件都还没有。BI是数据展示,当发现其中有些项目或者业绩出现变化时,就需要进行统计分析了。而目前现状是,即使是行业领先企业,数据分析也没有落实到这些层面,比如银行,对于风险、市场营销、运营、财务、绩效管理、网点设置等关键领域导入数据进行分析的意识还不足。”

“值得高兴的是,现在很多大的厂商都构建了独立的数据分析团队,尝试性的做交叉销售、提升销售、交易关联性分析。企业数据应用深度、市场竞争力、整体环境的变化都使得这两年数据分析热了起来。相信未来,在统计分析的平台上,应用分析将会百花齐放。”


你可能感兴趣的:((转载)大数据实战:站在JMP分析平台上的FIT足迹识别技术)