大数据培训:生活中这些场景都用到了大数据

  来源:千锋大数据

         一、什么是大数据

  大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。

  中国电子技术标准化研究院2015年12月在《 大数据标准化白皮书V2.0 》 中提及维基百科(Wikipedia)给出的定义是:大数据,或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。

  二、大数据的应用

  大数据技术在近年来一直在飞速地发展,目前大部分人对“大数据”的概念理解得不是很透彻。其实,在我们的日常生活中,很多人已经利用“大数据”做了很多事情,这些都是实实在在的“大数据”实例应用。

  1. 大型网站Web服务器的日志分析

  一个大型网站的Web服务器集群,每5分钟收录的点击日志高达800GB左右,峰值点击每秒达到900万次。每隔5分钟将数据装载到内存中,高速计算网站的热点URL,并将这些信息反馈给前端缓存服务器,以提高缓存命中率。

大数据培训:生活中这些场景都用到了大数据_第1张图片

  2. 运营商流量经营分析

  每天的流量数据在2TB~5TB左右,拷贝到HDFS上,通过交互式分析引擎框架,能运行几百个复杂的数据清洗和报表业务,总时间比类似硬件配置的小型机集群和DB2快2~3倍。

大数据培训:生活中这些场景都用到了大数据_第2张图片

  3. 城市交通卡口视频监控信息的实时分析

  采用基于流式 Stream进行全省范围的交通卡口通过视频监控收录的信息进行实时分析、告警和统计(计算实时路况),对全省范围内未年检车辆或套牌车的分析延时在300毫秒左右,可以做出实时告警,所以开车的朋友最好要按时年检。

  4. 互联网舆情监控系统

  利用先进的云计算搜索平台和倒排索引,舆情监测系统支持对海量信息库的高效搜索以及对于各种新闻博客等网站进行垂直抓取;采用自有算法的网页结构分析,对抓取到的数据进行准确地分析和判断,从而为政府和企业客户提供精准有效的互联网舆情数据服务。

  大数据的应用还有很多,已经真正地应用到了生活的许多场景当中。大数据技术解决了庞大数据量的存储与计算的问题,从数据到信息,从信息到认知,从认知到预测。

  三、数据的来源

  1. 计算机产生的数据

  可能包含着关于因特网和其他使用者行动和行为的有趣信息,从而提供了对他们的愿望和需求潜在的有用认识。

  2.移动通信数据

  能够上网的智能手机等移动设备的使用越来越普遍。移动通信设备记录的数据量和数据的立体完整度,常常优于各家互联网公司掌握的数据。

  3.机器和传感器数据

  来自感应器、量表和其他设施的数据、定位/GPS系统数据等。这包括功能设备会创建或生成的数据,例如智能温度控制器、智能电表、工厂机器和连接互联网的家用电器的数据。几年前,跟踪遥测发动机运行仅限于价值数百万美元的航天飞机。现在,汽车生产商在车辆中配置了监视器,连续提供车辆机械系统整体运行情况。一旦数据可得,公司将千方百计从中渔利。这些机器传感数据属于大数据的范围。

  4.人为数据

  人为数据包括电子邮件、文档、图片、音频、视频,以及通过微信、博客、推特、维基、脸书、Linkedin等社交媒体产生的数据流。这些数据大多数为非结构性数据,需要用文本分析功能进行分析。至今最大的数据是音频、视频和符号数据。这些数据结构松散,数量巨大,很难从中挖掘有意义的结论和有用的信息。

  5.互联网上的“开放数据”来源

  四、数据的处理流程

  一般而言,大数据处理流程,可分为四个步骤:数据采集、数据导入和清洗处理、数据统计和分析、数据挖掘应用。这四个步骤看起来与现在数据处理分析没有太大区别,但实际上大数据数据集更多更大,相互之间的关联也就越多。

大数据培训:生活中这些场景都用到了大数据_第3张图片

  1、收集

  原始数据种类多样,格式、位置、存储、时效性等迥异。数据收集从异构数据源中收集数据并转换成相应的格式方便处理。

  2、数据导入和清洗处理

  采集好数据,肯定有不少是重复或是无用的数据,此时需要通过对数据进行处理,将这些来自前端的数据导入到集中的大型分布式数据库,或者分布式存储集群,并进行简单的清洗和预处理工作。而这个过程当中最大的挑战就是导入的数据量大,经常会达到百兆,甚至千兆级别。

  3、数据统计和分析

  统计与分析很多需要用到工具来处理,比如可视化工具、spss工具、一些结构算法模型,分类汇总,满足企业的数据分析需求。这个过程最大的特点就是目的清晰,按照一定规则去分类汇总,才能得到有效分析,这部分处理起来也很占用系统资源。

  4、数据挖掘应用

  收集数据的最终目的就是透过数据挖掘背后的联系,分析原因找出规律然后应用到实际业务中,经过各种算法,预测结果,调整战略方向。

你可能感兴趣的:(大数据学习)