对于“大数据”(Big data)研究机构Gartner给出了定义,“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
引用自 big大鸟 的博客
大数据的来源非常广泛,如信息管理系统、网络信息系统、物联网系统、科学实验系统等,其数据类型包括结构化数据、半结构化数据和非结构化数据。
(1)信息管理系统:企业内部使用的信息系统,包括办公自动化系统、业务管理系统等。信息管理系统主要通过用户输入和系统二次加工的方式产生数据,其生产的大数据大多为结构化数据,通常存储在数据库中。
(2)网络信息系统:基于网络运行的信息系统即网络信息系统是大数据产生的重要方式。如电子商务系统、社交网络、社会媒体等。网络信息系统产生的大数据多数为半结构化数据或非结构化数据。
(3)物联网系统:物联网是新一代信息技术,其核心和基础仍然是互联网,是互联网基础上的延伸和扩展的网络,其用户端延伸和扩展到了物品与物品之间,进行信息交流和通信,而其具体实现是通过传感技术获取外界的物理、化学和生物等数据信息。
(4)科学实验系统:主要用于科学技术研究,可以由真实的实验产生数据,也可以通过模拟方式获取仿真数据。
大数据呈现“4V1O”特征,具体如下:
(1) 数据量大(Volume)
(2)多样化(Variety)
(3)数据价值密度化(Value)
(4)速度快,时效高(Velocity)
(5)数据是在线的(On-Line)
大数据无处不在,大数据应用于各个行业,包括金融、汽车、餐饮、电信、能源、体能和娱乐等在内的社会各行各业都已经融入了大数据的印迹。
制造业:利用工业大数据提升制造业水平,包括产品故障诊断与预测、分析工艺流程、改进生产工艺,优化生产过程能耗、工业供应链分析与优化、生产计划与排程。
金融行业:大数据在高频交易、社交情绪分析和信贷风险分析三大金融创新领域发挥重大作用。
汽车行业:利用大数据和物联网技术的无人驾驶汽车,在不远的未来将走入我们的日常生活。
互联网行业:借助于大数据技术,可以分析客户行为,进行商品推荐和针对性广告投放。
电信行业:利用大数据技术实现客户离网分析,及时掌握客户离网倾向,出台客户挽留措施。
能源行业:随着智能电网的发展,电力公司可以掌握海量的用户用电信息,利用大数据技术分析用户用电模式,可以改进电网运行,合理设计电力需求响应系统,确保电网运行安全。
物流行业:利用大数据优化物流网络,提高物流效率,降低物流成本。
城市管理:可以利用大数据实现智能交通、环保监测、城市规划和智能安防。
生物医学:大数据可以帮助我们实现流行病预测、智慧医疗、健康管理,同时还可以帮助我们解读DNA,了解更多的生命奥秘。
体育娱乐:大数据可以帮助我们训练球队,决定投拍哪种题财的影视作品,以及预测比赛结果。
安全领域:政府可以利用大数据技术构建起强大的国家安全保障体系,企业可以利用大数据抵御网络攻击,警察可以借助大数据来预防犯罪。
个人生活,:大数据还可以应用于个人生活,利用与每个人相关联的“个人大数据”,分析个人生活行为习惯,为其提供更加周到的个性化服务。
大数据的价值,远远不止于此,大数据对各行各业的渗透,大大推动了社会生产和生活,未来必将产生重大而深远的影响。
查询引擎:Phoenix Stinger Presto Shark Pig Cloudera-Impal Apache-Drill Apache-Tajo Hive
流式计算:Facebook-Puma Twitter-Rainbird Yahoo-S4 Twitter-Storm
等等
详情点击博客文章“大数据平台的软件有哪些?”
(1)Excel
Excel作为一个入门级工具,是快速分析数据的理想工具,也能创建供内部使用的数据图,但是Excel在颜色、线条和样式上课选择的范围有限,这也意味着用Excel很难制作出能符合专业出版物和网站需要的数据图。
(2)D3
D3(Data Driven Documents)是支持SVG渲染的另一种JavaScript库。但是D3能够提供大量线性图和条形图之外的复杂图表样式,例如Voronoi图、树形图、圆形集群和单词云等。
(3)Processing
Processing是数据可视化的招牌工具。你只需要编写一些简单的代码,然后编译成Java。Processing可以在几乎所有平台上运行。
(4)Jaspersoft BI 套件
Jaspersoft包是一个通过数据库列生成报表的开源软件。行业领导者发现Jaspersoft软件是一流的, 许多企业已经使用它来将SQL表转化为pdf,,这使每个人都可以在会议上对其进行审议。另外,JasperReports提供了一个连接配置单元来替代HBase。
(5)Ingres Corp
它拥有超过一万客户而且正在扩增。它通过Vectorwise以及对ParAccel实现了扩展。这些发展分别导致了Actian Vector和Actian Matrix的创建。它有Apache,Cloudera,Hortonworks以及其他发行版本可供选择。
(6)PolyMaps
PolyMaps是一个地图库,主要面向数据可视化用户。PolyMaps在地图风格化方面有独到之处,类似CSS样式表的选择器。
(7)Pentaho Business Analytics
Pentaho的工具可以连接到NoSQL数据库,有很多内置模块,可以把它们拖放到一个图片上, 然后将它们连接起来。
(8)Openlayers
Openlayers可能是所有地图库中可靠性最高的一个。虽然文档注释并不完善。且学习曲线非常陡峭,但是对于特定的任务来说,Openlayers能够提供一些其他地图库都没有的特殊工具。
(9)Talend Open Studio
Talend是一个统一的平台,它通过提供一个统一的,跨企业边界生命周期管理的环境,使数据管理和应用更简单便捷。这种设计可以帮助企业构建灵活、高性能的企业架构,在次架构下,集成并启用百分之百开源服务的分布式应用程序变为可能。
(10)Cloudera
Cloudera正在努力为开源Hadoop,提供支持,Hadoop可以作为目标数据仓库,高效的数据平台,或现有数据仓库的ETL来源。企业规模可以用作集成Hadoop与传统数据仓库的基础。 Cloudera致力于成为数据管理的“重心”。