大数据挖掘建模流程概述

公众号链接
在大数据挖掘与人工智能流行的今天,无论是在职场还是在学术研究领域,各个行业都希望能够利用大数据的手段,提高自身研究的科学性或者决策的合理性,从而达到更为严谨和智能的效果。然而,小编发现一个非常严重的问题,不管是学术研究领域还是市场应用,有很多人并不清晰大数据挖掘或者算法建模的流程。导致科研成果与算法的切合度低,市场环境追捧某一算法,使得项目效果不理想的现象。所以小编给出数据建模系列从框架的角度简单梳理一下大数据建模的流程,供各个行业的学术研究者以及行业新人所参考。
今天我们来阐述大数据建模流程目前所存在的问题。并进行一个流程框架的简单描述,从而帮助想利用大数据的研究者更好的把握大数据与本身专业结合的章程。
首先,我们先来看一下非专业人士对数据建模这个流程存在的误区。例如:最近小编总是听到这样的问题:是否可以考虑用某一个算法(例深度学习)去做某个专业的研究呢?提这种问题的有大学研究工作者,也有在职多年的算法工程师和数据分析师。这时候我一般会反问一句:你的任务或者研究的主题是什么呢?大多数的回答是还没有确定或者是并不知道。甚至有人告诉小编依靠技术来确定命题是很高效的,这突然让我意识到框架流程的重要性。如果说你是一个算法研究人员,目的就是创造新的算法,那么以算法确定研究方向是无可厚非的;但是,如果你从事于其他研究领域,那么数据挖掘或者算法就是技术工具。它们是辅佐于你的命题或者业务的,切不可本末倒置,否则算法并不会解决你的实际需求,还有可能把本来很好的想法实现的很差,导致无法继续研究或者落地。
因此在这里我们给大家首先提供一个依存关系或者说是基本流程,明确一下具体实施步骤。当你确定并且分析完一个具体任务后,会发现总会存在一些事物联系与研究对象,而大数据就是把这些潜在的性质通过有效的分析手段和模型挖掘出来。所以只要是有样本都是可以做数据分析的,只是方法不尽相同。如果没有样本,我们也可以利用专家系统进行分析。这就是数据建模的广泛性,它可以作用到各个领域。然而,挖掘任务的潜在信息的实际是数据建模的过程,而狭义上算法的作用仅仅是用来确定模型的具体形式或者是数学表达式,然后通过计算机编程来进行求解,生成精美的可视化图,使得结果更为直观。从而得出结论,这是一个非常清晰的逻辑关系,切不可混乱。这个依存关系我们用流程图的形式展示,如下:
大数据挖掘建模流程概述_第1张图片

以上五个步骤在专业领域称之为一个完整的任务流程,其中从数据处理到优化调试我们称为一个任务的框架(模型)。我们要求每一步都要非常的精准而且全面。

当然一个大的项目不可能只包含一个任务,通常都是多个任务的组成,所以一个项目或者一个主题确定下来,要更全面的去分析你的任务种类,继而进行任务分析,这是尤为关键的。逻辑缜密且完善的任务分析,基本可以奠定了整个项目的框架,非常有利于模型的搭建和实现。
而,对于算法研究者而言,你们的关注点就是在模型,算法以及实现上,而不依存于业务,一个新的算法要具有普适性,稳定性以及可实现性;所以,算法本身的研究还是非常困难的,需要具备大量的数学知识,而算法改进相对创新而言会简单许多,可以说真正的算法科学家的数学功底绝对是非常厉害的。
好了,今天我们就说到这里,以上,是我们针对数据建模流程以及现存在的逻辑问题,做了一个简单的概述,后续公众号会给出每一步骤的详细的解析,始得大家更为清楚数据建模流程的细节。从而更好的辅佐于我们的业务以及科学研究。
大数据挖掘建模流程概述_第2张图片

你可能感兴趣的:(机器学习知识)