一次搞懂什么是大数据

无论是在公司上班或是在学的莘莘学子,我们每天上传至云端的档案数量,多达1亿张相片、10亿份文件… 更别提数位影音、交易、生物医疗… 每天全球所所创造的资料量高达 2.5 exabyes。
但资料量大就是大数据吗?

 

大数据是什么?

大数据(Big Data)又被称为巨量资料,也指数量庞大而无法以传统方式处理的资料,其概念其实就是过去10年广泛用于企业内部的资料分析、商业智慧(Business Intelligence)和统计应用的总和。但大数据现在不只是资料处理的工具,更是一种企业思维和商业模式,因为资料量大量增加、软件技术进步、储存设备成本下降和云端环境成熟等等,让资料分析从过去的洞悉历史进阶到预测未来,甚至是破旧立新,开创新的商业模式。

大数据的兴起使资料探勘、统计领域成为热门科目,也使大数据工具开发更加快速、更容易取得与使用。而无论何种产业皆能透过分析大数据预测未来趋势,使大数据成为各行各业都在发展的数位技术。

 

大数据的特性

一般来说大数据的特性可被归类为「3V」,包括资料量(Volume)、资料多样性(Variety)与资料实时性(Velocity)。但其实不论是几V,大数据的资料特质和传统资料最大的不同是,资料来源多元、种类繁多且大多是非结构化的资料,而且更新速度非常快,导致资料量大大增加。

 一次搞懂什么是大数据_第1张图片

1.资料量(Volume)

大数据与传统数据有一差异在于资料量的多寡,因资料量远大于传统数据,所以以「大数据」一词来区分两者。若是以量化表示,大数据特别指在一天内可生成1TB以上资料量的数据(等于128个8G随身碟,相当可观!)也因为资料量大,无法以传统的方式储存处理,因此发展出大数据这一新型态科学。


2.资料多样性(Variety)

与我们常见的转帐纪录、浏览纪录仅纪录一种数据不同,大数据的资料类型庞大且复杂,由于形式多元复杂,大数据储存也需要不同于传统数据的储存技术。


3.资料实时性(Velocity)

大数据与传统数据一大的不同点,就是数据生成的速度极快。由于网际网络与信息设备普及,每一个人随时随地都可以创造数据,数据生成的速度已与过去不可相比。同时也强调资料的时效性,随着使用者每秒都在产生大量的数据反馈,过去三五年的资料已毫无用处,一旦资料串流到运算服务器,企业便须立即进行分析、实时得到结果并立即做出反应修正,才能发挥资料的最大价值。

 

在3V成为大数据主要定义后,随着储存资料的成本下降、取得成本也下降,大数据发展出第四个特性:Veracity(资料真实性),意指除了资料量,也需要确认资料的真实性,过滤掉不真实的数据与异常数值之后,分析出来的结果才能达到准确预测的目的。

 

大数据分析步骤

第一步.取得

数据随时随地都在产生,可以说是随手可得。大型的企业,搜集客户的使用纪录就可达到以数据预测未来的目标;若是中小型的企业,则可主动提供问卷请客户填写,逐步累积信息量。


第二步.储存

由于资料量庞大,处理储存大数据是第一个难关。因此处理大数据时多使用分散式处理系统,透过分割资料与备份储存,突破存储器过小的障碍。


第三步.运算

为达到预测未来的目的,机器可以透过分类、回归分析、排序、关联分析等方式找出其中规律,并运分析工具进行运算。


第四步.视觉化

经过分析后的数据为数字与列表,阅读上不易。因此可搭配视觉化工具,将数据转化为图表的方式会变得容易阅读与理解。

 

Lalamove为一结合科技数据的物流公司,我们运用过往的客户数据数据库,并由专业的客户维运部门专员分析客户以往的使用模式,在未来需求量可能暴增的时节,提早提供客户专门的配送规划及协助,使客户在爆单季节无须额外担心物流运送相关的问题!

你可能感兴趣的:(大数据,人工智能,介绍,big,data)