hadoop介绍以及未来发展

大数据作为当今世界的重要商业行为,给无数商家和企业带来了无数的发展机遇和机会,这里介绍一下,因为sap也是需要进入大数据时代的,毕竟跟这互联网,sap有发展,如果单纯就是应用在企业中,会错失很多良机。比如sap服务的很多客户,卖苹果的一家单位,当时只是一家小作坊,但是后来通过sap达到了一定量级,然后做到了当地的巨无霸企业。
大数据主要有如下几个特点:
1.数据体量很大
2.数据类型多样
3.商业价值
4.速度快
有两个例子,一个是电子地图,比如Google maps ,百度maps,高德地图。还有一个是网站购物,可以通过用户最近购买的东西做判定,知道这个用户最近的情况,可以做一个用户画像,分析的指标有如下几个:
基本信息,购买能力,行为特征,社交网络,心理特征以及兴趣和爱好。比如特喜欢的车,丰田凯美瑞或者中国红旗,可以经过往年的营销和口碑,以及功能判定这个人的个性,以及以后他的职业。还可以通过喜欢的音乐歌手,比如周杰伦,林俊杰判断特喜欢的歌曲类型来做营销,一般是情一些明星过来代言,明星收取一部分代言费,然后代言的产品价格上涨,还是消费者买单,没办法,谁让你喜欢他呢。

我是计算机这边的,不是营销的,所以这里介绍一下,你说你经常参与营销活动,但是你只是参与的线下活动,后台的事情,没有了解。实际上,计算机都是通过后台收集的用户数据进行精准营销的,比如你喜欢关晓彤,那么商家可能就会联系她来做代言,然后向你推销产品了,加油吧,你女神的酒,够你喝一壶了。
这里我来写写做好大数据,作为basis,应该做哪些事情。
首先,搞清楚,大数据的两个核心,一个是数据的存储,一个是数据的计算。
最早时Google研发了世界上第一个真正意义上的大数据分布式存储和计算产品,就是google file system 和google mapreduce。

根据分布式的思想,文件数量体量超过一台服务器的最大容量的时候,如果要继续存储,那必须根据数据整体的规模大小,以及单台服务器的存储最大容量,计算出存储该文件 数据需要的服务器总台数,从而实现服务器节点数量的规划,然后将这些节点用网络的方式组织起来,变成一个集群。再部署一个系统,作为管理。
并行处理也有一些问题,如下:
一个作业如何平均分布很多个单独的任务去处理?
计算过程中各个节点上的资源如何统一分配和回收?
中间产生的计算结果如何及时的统计汇总?
集群服务器计算完成的最终结果是如何统一的输出?

大数据符合以下的架构:
数据交易万象 接口等
数据生成dag 数据分析软件
数据分析。hiv分布式数据仓库 sql
数据存储 云存储 云数据库 Hadoop集群
数据收集 历史数据文件 点击流 数据市场 实时日志 数据流

你可能感兴趣的:(hadoop,大数据,分布式)