1.1 大数据概论

 

1.1 大数据概论

任务目的

  • 了解大数据的概念及其特征
  • 熟悉大数据的典型应用场景
  • 了解大数据部门的业务流程

任务清单

  • 任务1:大数据概念
  • 任务2:大数据特点
  • 任务3:大数据应用场景
  • 任务4:大数据发展前景
  • 任务5:业务流程分析

任务1:大数据概念

何谓“大数据”(Big Data),“大数据”计量单位已经超过TB级别发展到PB、EB、ZB、YB甚至是BB级别。

“大数据”是一个较为抽象的概念,至今尚无确切、统一的定义,各方对“大数据”给出了10余种不同的定义,比较典型的是:

最早提出“大数据”这一概念的全球知名咨询公司麦肯锡的定义:“大数据”是指在一定时间内无法用传统数据库软件工具采集、存储、管理和分析其内容的数据集合。

 研究机构Gartner是这样定义“大数据”的:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

 若从技术角度来看,大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。

任务2:大数据特点

  一般认为,大数据主要具有以下5个方面的典型特征,即规模性(Volume)、多样性(Variety)、高速性(Velocity)、价值性(Value)、以及真实性(Veracity),即所谓的5V,接下来,通过一张图来具体描述。

1.1 大数据概论_第1张图片

 

  接下来针对图中的 5V 特征进行简要介绍,具体如下。

1. 规模性(Volume)

  大数据的特征首先就是数据规模大

  从前MP3时代,一个小小的MB级别的MP3就可以满足很多人的需求,然而随着时间的推移,存储单位从过去的GB到TB,乃至现在的PB、EB级别。随着信息技术的高速发展,数据开始爆发性增长。社交网络(微博、推特、脸书)、移动网络、各种智能工具,服务工具等,都成为数据的来源。

  淘宝网近4亿的会员每天产生的商品交易数据约20TB;脸书约10亿的用户每天产生的日志数据超过300TB。迫切需要智能的算法、强大的数据处理平台和新的数据处理技术,来统计、分析、预测和实时处理如此大规模的数据。

  数据相关计量单位的换算关系下表所示:

1.1 大数据概论_第2张图片

2. 多样性(Variety)

  广泛的数据来源,决定了大数据形式的多样性。大数据可以分为三类:

  一是结构化数据,指的是可以使用关系型数据库表示和存储,表现为二维形式的数据。一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。如财务系统数据、信息管理系统数据、医疗系统数据等;

  二是非结构化的数据,指的是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。如视频、图片、音频等;

  三是半结构化数据,是结构化数据的一种形式,它并不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层。因此,它也被称为自描述的结构。半结构化数据,属于同一类实体可以有不同的属性,即使他们被组合在一起,这些属性的顺序并不重要。如HTML文档、JSON数据、邮件、网页等。

  有统计显示,目前结构化数据占据整个互联网数据量的75%以上,而产生价值的大数据,往往是这些非结构化数据。

3. 高速性(Velocity)

  数据的增长速度和处理速度是大数据高速性的重要体现。与以往的报纸、书信等传统数据载体生产传播方式不同,在大数据时代,大数据的交换和传播主要是通过互联网和云计算等方式实现的,其生产和传播数据的速度是非常迅速的。

  另外,海量数据的背后带来的是更大的挑战,即如何快速计算分析大数据已经成为当下热门的话题。举个常见的例子,我们经常使用百度搜索去找自己想要的商品,那么百度是在成千上万的结果中毫秒级的找到符合你关键词的选项呢,这就需要大数据的高速处理能力。

4. 价值性(Value)

  大数据的核心特征是价值,其实价值密度的高低和数据总量的大小是成反比的,即数据价值密度越高数据总量越小,数据价值密度越低数据总量越大。

  任何有价值的信息的提取依托的就是海量的基础数据。当然,目前大数据背景下有个未解决的问题,如何通过强大的机器算法更迅速地在海量数据中完成数据的价值提纯。

5. 真实性(Veracity)

  真实性,其实就是数据的质量,海量数据并不一定都能反映用户真实的行为信息或者客观事物的真实信息。以网页访客数据为例,很多网站为了赚取更多的广告费用,会使用作弊机器人对广告进行点击,这样其实就造成了作弊流量,而这些流量并不能反映用户真实需求。

任务3:大数据应用场景

  大数据无处不在,大数据应用于各个行业,包括金融、汽车、餐饮、电信、能源、体能和娱乐等在内的社会各行各业都已经融入了大数据的印迹。

1. 电商大数据——精准营销法宝

  电商是最早利用大数据进行精准营销的行业,除了精准营销,电商可以依据客户消费习惯来提前为客户备货,并利用便利店作为货物中转点,在客户下单15分钟内将货物送上门,提高客户体验。

  例如:马云的菜鸟网络宣称的24小时完成在中国境内的送货;以及刘强东宣传未来京东将在15分钟完成送货上门都是基于客户消费习惯的大数据分析和预测。

1.1 大数据概论_第3张图片

2. 金融大数据——财源滚滚来

  随着大数据技术的应用,越来越多的金融企业也开始投身到大数据应用实践中。

  麦肯锡的一份研究显示,金融业在大数据价值潜力指数中排名第一。

  典型的案例有:花旗银行利用IBM沃森电脑为财富管理客户推荐产品;美国银行利用客户点击数据集为客户提供特色服务,如有竞争的信用额度;招商银行利用客户刷卡、存取款、电子银行转帐、微信评论等行为数据进行分析,每周给客户发送针对性广告信息,里面有顾客可能感兴趣的产品和优惠信息。

  可见,大数据在金融行业的应用可以总结为以下五个方面:精准营销、风险管控、决策支持、效率提升以及产品设计

1.1 大数据概论_第4张图片

3. 医疗大数据——看病更高效

  大数据让就医、看病更简单。随着大数据在医疗行业的深度融合,大数据平台积累了海量的病例、病例报告、治愈方案、药物报告等信息资源,所有常见的病例、既往病例等都记录在案,医生通过有效、连续的诊疗记录,能够给病人优质、合理的诊疗方案。这样不仅提高医生的看病效率,而且能够降低误诊率,从而让患者在最短的时间接受最好的治疗。

1.1 大数据概论_第5张图片

4. 零售大数据——最懂消费者

  零售行业大数据应用有两个层面,一个层面是零售行业可以了解客户消费喜好和趋势,进行商品的精准营销,降低营销成本。另一层面是依据客户购买产品,为客户提供可能购买的其它产品,扩大销售额,也属于精准营销范畴。例如:美国零售业的传奇故事——“啤酒与尿布”。

1.1 大数据概论_第6张图片

5. 交通大数据——畅通出行

  交通作为人类行为的重要组成和重要条件之一,对于大数据的感知也是最急迫的。目前,交通的大数据应用主要在两个方面,一方面可以利用大数据传感器数据来了解车辆通行密度,合理进行道路规划包括单行线路规划。另一方面可以利用大数据来实现即时信号灯调度,提高已有线路运行能力。

1.1 大数据概论_第7张图片

6. 舆情监控大数据——名侦探柯南

  《黑猫警长》大家都很熟悉,它讲述的是“黑猫警长”如何精明能干、对坏人穷追不舍、跌宕起伏的故事情节。拿到大数据时代背景下的话,虽然它也能体现“黑猫警长”的尽职尽责、聪明能干,但更多的会归结到一个问题:为何还是如此的被动、低效?疾病可以预防,难道犯罪不能预防么?

  答案是肯定的。国家正在将大数据技术用于舆情监控,其收集到的数据除了解民众诉求,降低群体事件之外,还可以用于犯罪管理。

1.1 大数据概论_第8张图片

任务4:大数据发展前景

1. 大数据发展前景之国家政策

  党的十八大提出“实施国家大数据战略”,国务院印发《促进大数据发展行动纲要》,大数据技术和应用处于创新突破期,国内市场需求处于爆发期,我国大数据产业面临重要的发展机遇。

  党的十九大提出“推动互联网、大数据、人工智能和实体经济深度融合”。

1.1 大数据概论_第9张图片

 

2. 大数据发展前景之国际方面

  国际数据公司IDC预测,到2020年,企业基于大数据计算分析平台的支出将突破5000亿美元。目前,我国大数据人才只有46万,未来3到5年人才缺口达150万之多。

1.1 大数据概论_第10张图片

 

3. 大数据发展前景之高校方面

  2016年北京大学、对外经济贸易大学、中南大学首次成功申请到“数据科学与大数据技术”本科新专业。2017年,第二批32所高校获批。2018年教育部最新公布的高校新增专业名单中,有248所学校获批,是过去两次审批通过额度近8倍。

1.1 大数据概论_第11张图片

 

  目前,全国共有283所本科高校开设“数据科学与大数据技术”专业,270所高职院校成功申报“大数据技术与应用”专业,199所本科高校在建设人工智能专业。

任务5:业务流程分析

  1. 产品人员提需求:统计总用户数、日活跃用户数、回流用户数等

 

     2.数据部门搭建数据平台、分析数据指标

 

     3.数据可视化(报表展示,邮件发送,Echarts)

1.1 大数据概论_第12张图片

 

 

你可能感兴趣的:(Hadoop技术)