大数据及其价值
大数据是近几年非常热门的一个概念。到底什么叫做大数据呢?简单而言,就是具备4V属性的数据:
Volume:量非常大,大到一台计算机所无法处理的数据;
Variety:来源广泛,包括文本、图像、语音、机器传感器信号、日算计程序日志等;
Velocity:产生速度非常快;
Veracity:准确性要求高。
关于大数据,有许多大家耳熟能详的经典案例,比如沃尔玛的“啤酒和尿布”案例;Target商场预测17岁女孩怀孕的等。
*对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:458345782,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系 .
通过这些例子,我们可以了解到大数据具有非常大的潜力和应用价值。如果能够分析出数据的潜在含义,它将在生活中的各个领域发挥巨大的作用。
越来越多的企业和组织也确实在挖掘数据的力量。
比如:电商网站会根据用户的历史浏览记录做个性化推荐;音乐网站则根据用户听歌历史和有同样爱好者的听歌记录,给用户推送喜欢的音乐;还有现在非常热门的自动驾驶、图像识别等技术,都是以大数据为基础的。
数据
科学
什么是数据科学?
那么多数据,通过什么手段才能挖掘出它们的潜在价值?
在这方面,人们已经做了许多研究和尝试。数据科学就是这些研究和探索的成果——
数据科学是一门新兴学科,专门研究利用数据学习知识。其目标是通过从数据中提取出有价值的部分来生产数据产品。
它也是一门交叉学科,采用数据统计和机器学习的方法,通过挖掘数据背后的潜在含义来帮助人们理解问题,解决问题,从而辅助人类决策。
数据科学结合了诸多领域的理论和技术,包括:
应用数学
统计
模式识别
机器学习
数据可视化
数据仓库
高性能计算
等……
新兴领域
很多每天都在报道数据科学将是未来一个有前途的新兴领域,它会给各个产业都带来变革。
从“大数据”一词在中国的普及程度就可以知道,这一概念的热度非常高。
很多高校都已经开设了数据科学专业或相关课程,那么我们可以预期,未来数据分析的人才量将会呈指数上升。
不过,到目前为止,数据分析还是一门人才紧缺的学科,专业的数据分析人才还有很大缺口。
本来许多行业都会用到数据分析的知识,因此,很多不同领域的优秀人才纷纷转向数据分析岗位,这也是当前的一大趋势。
自学数据科学
其实,只要有志于此,即便没有在学校里专门学习过数据科学,也可以通过自学、培训和交流活动等手段来提升自己。以一种自我驱动的方式掌握这门学科的知识。
可以选择:
从MOOC网站上学习;
与专业人才进行交流;
参加一些真实场景的比赛;
等,都可以学到非常多的理论知识,并获得项目经验。
数据科学家的基本素质
专业通过应用数据科学来解决实际问题的人,叫做数据科学家。
成为数据科学家需要具备哪些知识呢?
数据科学是一门交叉学科,数据科学家必须同时具备计算机、数学和统计的专业知识。
计算机——需要了解基本的算法和数据结构,命令行操作,能够编写爬虫获取数据,并掌握如Python,R或Scala这类适合数据分析的编程语言。
统计学——要掌握基本的概率分布,假设检验,以及AB Test的基本知识。
数学——大学高等数学学到的知识,比如微积分,线性代数和概率论。
此外,还需要掌握一些分布式存储、数据处理等方面的系统和工具,比如 Hadoop, MapReduce, AWS等。
数据科学家还需要具备良好的沟通能力。
这样才能够将数据分析的结果展示出去,让没有任何背景的人也能很快明白数据背后的真实价值,有什么具体的用处,以及未来能提高什么方面的能力。
数据可视化也是必备技能,因为要在分析结果时做出简明易懂的图表。
总的来说,数据科学家需要掌握的东西很多——既要像工科生,会技术;也要像文科生,懂审美;还要像演说家,通过和不同部门沟通交流来理清问题思路,学习业务知识,并最后将自己的结论告诉给别人。
数据
分析的流程
数据科学为解决问题和做出决策提供了一套方法,大概分为5个步骤:
【step-1】定义问题
只有准确地定义了问题,才能知道要解决什么。
为此,数据科学家需要理解问题背景和业务知识,即business understanding。TA需要理解:
用户提出这个问题,背后真正的目的是什么?
能够帮助用户改善什么?
能够帮助用户创造多少的价值?
这个问题是不是数据可解的问题?
……
另外,还需要深入理解用户所在领域的行业理论知识,才能更好地为解决这个问题提供背景知识。
【step-2】获取数据
在理解了问题背景之后,就可以开始为解决问题寻找可以使用的数据了。
数据的来源多种多样,数据科学家需要先对数据进行理解,然后才能知道:
现有的数据是否能够支持我们解决当前问题?
现有数据的质量如何?
还需要什么数据?
……
【step-3】数据预处理
往往实际收集到的数据质量并不像在课堂项目或者比赛时拿到的数据那么好。缺失值,异常值是非常常见的。
因此,经常需要花费巨大的精力在数据的预处理上。
数据科学家们天天盯着屏幕看:
数据有无缺失?
如果缺失应该如何处理?
这个值从图上看偏离很远,是应该丢弃还是保留其特殊含义?
……
还有,通常情况下,在数据库当中有大量多对多关系的数据表,关联十分复杂。理清这些关系就是一个非常劳神且无聊的过程。
往往为后续训练模型准备好一个切实可用的数据框表,就要花费掉投入整个项目的大部分精力和资源。
日常做项目中,可能70%~80%的时间都用在了这一步。数据分析其实是一个非常乏味的工作。
【step-4】设计分析方法、分析、并评估结果
数据清洗好后,我们就进入了数据分析的核心步骤——决定如何分析数据,从而最大程度发挥它们的价值。
数据分析大概包括如下内容:
【4.1】探索性分析
了解数据的字段含义、数据量;检查数据质量(有否异常值、缺失值、拼写或输入错误等)。
【4.2】统计分析
统计各个字段的数据分布,最大值、最小值等。
可以运用可视化手段来发现数据中存在的规律或相关性。
【4.3】数据处理
思考如何提高数据质量:
怎么处理异常值、缺失值?
数据的特征是否有用?
是否需要加工特征?
如何选择特征?
……
最后将处理干净的数据用于训练模型。
【4.4】数据建模
数据模型多种多样,有解决分类问题的模型,也有解决预测问题的模型。
首先我们需要选择模型类型,之后利用处理好的数据对模型进行训练,并进行验证和测试。
然后进入迭代的过程:
需要评估模型在实际生活中是否有用——有时候在训练时有很高精确度的模型,在实际运行中并非如此。
如果模型在实际应用中反馈比较差,就需要回到问题的定义阶段,去了解是否是问题定义不合适,或者是数据特征不明显等。
只有不断迭代才能在实际的生产生活中得到更好的效果。
【step-5】展示结果/结果上线
在获得了足够实用的模型,或者分析结果之后,还需要向其他人(用户、决策者)解释分析结果,清楚地表达结果的价值。
当模型准备就绪后,可以请工程师部署上线,到产品中去实现其功能。
在工业界应用大数据的难点
不得不说,大数据技术在工业界的应用相较于新兴的互联网行业,遇到了更多的障碍:
观念的问题
首先,最核心的还是人的问题。
对于传统行业的从业人员来说,他们对于大数据知之甚少,既不了解数据的价值,也不知道大数据可以为他们做些什么。
具体表现就是他们常常无法清楚的定义一个问题,甚至不明确到底什么问题是数据可以解决的。
他们或许认为大数据非常厉害,可以解决任何问题,却不明白具体要解决什么问题。
反过来,数据科学家又不是业务领域的专家,对领域知识了解甚少,可能会盲目的提出一些项目方向,而这些解决方案对于世界业务又不是很有用。
如此一来,很可能就陷入了“大数据无用”的恶性循环。
体制的问题
许多工业企业是大型国企、央企或者大型民企。都存在着一套复杂而缓慢的审批流程。人员又对数据科学持有观望的态度。
因此在与数据企业分享数据资源上会非常困难。
总要花费大量的时间和业务人员进行沟通,说服他们开放数据给数据专业人员。
可能数据分析本身用不了太久时间,但为了获取数据,光申请流程就需要耗费几个月甚至更久的时间。
数据的问题
客观而言,工业大数据和互联网数据也有很大的区别。
工业领域人为录入的数据非常稀少,大部分数据来自于机器数据(传感器信号)。本身机器系统兼容性不好,导致数据种类繁多,缺乏统一标准。
而且,很多现实的生产环境条件恶劣,所在地偏远(郊区或者人非常少的地方)。导致数据传输不及时,或者精度不可靠,数据质量可能会很差。
甚至因为一些特殊原因,造成数据大部分缺失,使得后期的数据分析偏差严重。
多数中小型企业没有高质量的数字化系统来记录数据,还在采用非常落后的方式——用纸币记录工作流程参数或设备参数。这些数据可能最后根本就没有被存储下来,都被浪费掉了。
而大型企业,则往往拥有多套系统,缺乏同步管理,数据的采集也没有固定流程和策略,加之数据量庞大,造成最终数据质量不高。
用户预期管理的问题
到了数据建模阶段,还会遇到很大的问题:工艺人员往往非常关心模型的可解释性和控制性。
如果运用非常复杂的算法,比如SVM或者神经网络,是无法解释问题的,这时工艺人员则会有疑惑。
即使这些高级算法取得非常好的结果,他们也不是很放心。他们需要在任何时刻都能对模型进行控制。
数据科学家用高级的神经网络去做,但把训练好的模型交给工艺人员后,会收到他们的质疑。这也是在工业数据分析中比较无奈的一点。
模型质量和效率的问题
在工业大数据分析中,用户普遍对模型的精度要求更高,容错率更低。
因为分析结果都是要投入的实际的生产操作环节当中去的。如果不能保证精度的话,可能会造成很大的损失。
比如在化工生产环节,如果数据分析模型的结果出现纰漏,是有可能造成重大事故的!
所以,在得到可靠验证之前,不应该把模型应用到生产环节。
另外,工业IOT的通信频率一般在毫秒级别。机器产生数据的数量也非常庞大,一般都是按TB来计算的。
因此工业大数据对于数据的传输和存储有很高要求,需要制定一套定制化的数据存储解决方案,才能符合工业大数据的场景。
而且,工业数据通常是时序数据,也就是和时间相关的一种数据类型。故而需要时序数据库来存储这些数据。
这种时序数据库又必须具备分布式运算的能力,并能够容纳多元、异构的数据,对于数据的采集和存取都必须在毫秒级别。
存储数据的平台需要有基本的数据分析和可视化能力,还能够兼容不同的工业协议接口。
如此之多的要求,都是其他领域的数据分析很少遇到的。
工业
大数据应用场景
我们来看两个工业大数据分析中的典型场景:
故障预警
传统工业界的做法:设备的维护发生在故障之后。
一旦设备发生了故障,首先需要停机;然后会花费很长时间去寻找问题来源;之后才实施维修。
显然这样会耽误生产运行,造成成本损失。
如果能够通过分析历史的工矿数据,了解设备在正常运行下的参数,历史上发生问题时参数的变化,就可以通过分析工矿数据来建立大数据模型,做到故障预警——当设备出现同样问题之后(真正发生故障之前),设备就会发出预警。
这样,维修人员就能在设备停机之前对其进行维修处理。
通过分析历史上经常损坏的设备和部件信息,就可以提前准备部件,避免当设备出现故障的时候再去采购。这也降低了零部件更换过程中的等待时间。从而提高整体的企业运行效率效率。
产品质量优化
提高产品的良品率也是大数据在工业界应用的一大场景。
在生产过程中,工作人员往往无法实时对参数进行优化,只能在生产结束后对产品进行检测,并且回溯到生产时的设备参数,再进行研究。
这样就产生了滞后性——无法在生产过程中阻止不良产品的生产。
如果通过对历史工艺的参数分析,发现最优的参数组合,并在设备生产的过程中实时监控这些工业参数的变化,随时进行调整,就能够有效提高产品的良品率,减少不必要的损失。
因此在工业中,对于设备有一个全生命管理周期的概念,这也是工业大数据中一个重要的领域。
工业
大数据应用的前景
道路曲折,前途光明
传统工业企业从自身的储备而言,一般不具备大数据分析的能力,需要引入互联网大数据的技术和人才。
但因为传统行业偏保守,想要进入其中非常困难。
不过,一旦被工业企业认可,就会发现一片汪洋。可惜很多人往往在此之前就倒下了。
在做工业大数据分析的时候,首先需要一两个成功的、可落地的案例,让工业界人士看到之后,跨过心里这道坎,才会愿意分享数据,探讨行业知识。
因此必须有足够的耐心的和传统工业人士沟通,需要花费很长时间在交流和获取他们的信任上。
进入到正式工作阶段后,在定义问题时,就要搞清楚:问题到底是不是是数据可以解决的。
不是所有的投资都有回报,也不是所有的问题都能用数据解决,但是一定有能够用数据解决的问题。
最好的方法就是坐下来和传统工业企业内的行业专家进行交流,通过不断迭代提出真正可解决的数据方案。
不仅是和具体的执行人员沟通,还需要对企业的决策者进行宣贯、交流。他们了解了大数据,才会有胆量去尝试。
工业大数据分析一般是从大型企业开始采用的。通过大企业的应用落地,再同类型进行推广,比较容易被其他企业借鉴。
而对于中小企儿,让他们用大数据方法解决问题之前,需要为他们建立一套完善的数据收集机制,让他们先能够收集数据。待数据完善后,再做进一步的分析。
不必迷信大数据
传统行业的问题,也不是一定要有大数据才能解决的。
对于工业大数据来说,不管生产中的工艺参数还是特征,如果单纯将这些数据整理好放入模型进行训练,往往不会取得好的效果。
更加重要的是要去理解这些数据背后的物理意义。
有时候运用机理模型或者专家经验可以阐释出新的特征。这样比简单地把数据扔进模型好得多。
数据分析只是一个辅助的方法,依据行业内积累已久的业务经验和理论进行分析,结果可能会比大数据更加可靠。
所以,对于很多有志于从事工业大数据的人来说,一定要增加自己的领域知识积累。
另外,很多情况下工业数据量很小,通过简单的统计分析就可以得出结论,而不必采用什么炫酷的大数据技术。
在与用户沟通的时候,我们既要强调大数据的实用性,又不能盲目地说大数据能解决所有问题。也要承认很多问题不用大数据也能解决。
*对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:458345782,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系 .