大数据框架综述

                                                [email protected]

目录

1       概述. 4

1.1 技术现状... 4

1.2 发展规划... 4

1.3 大数据发展历史... 5

1.3.1 概念... 5

1.3.2 大数据的特征... 5

1.3.3 发展历史... 5

2       大数据的应用领域. 6

3       技术路线. 8

3.1 常规分析... 9

3.2 数据挖掘... 9

3.2.1 分类... 9

3.2.2 回归... 9

3.2.3 聚类... 10

3.2.4 关联规则... 10

3.2.5 神经网络方法... 10

3.2.6 Web数据挖掘... 10

3.3 数据建模... 11

3.4 商业智能BI 13

3.5 数据可视化... 13

4       案例分析. 13

4.1 阿里大数据分析... 13

4.2 智慧城管... 14

4.3 甘肃省兰州市政务大数据平台... 14

4.4 大数据优化营商环境... 14

4.5 客服中心... 14

4.6 舆情监测平台与政务数据结合... 15

4.7 经典案例... 16

5       大数据、云计算、人工智能之间的关系. 17

6       整体规划. 18

6.1 规划思路... 18

6.2 整体架构... 19

摘要

大数据提供了海量数据的采集、存储、处理、分析能力。云计算提供弹性的资源框架。人工智能是数据挖掘发展的最新阶段。以大数据为代表的新一代计算、存储、分析技术,在信息技术高度发展的今天,带来了更强大的数据处理能力;通过大量廉价的机器设备作为数据存储和计算节点,使人们的业务可以不再限制于物理的存储和计算能力,以极低的价格获得近乎无限的计算力和存储力支撑业务的未来发展。

本文介绍了大数据技术的发展历史、应用领域、数据挖掘的思路和技术并分析了多个领域的案例。文章还介绍了大数据、云计算以及人工智能之间的相互关系和发展历程。最后介绍了搭建通用大数据平台的规划思路和整体架构,为下一步搭建平台提供基本方向。未来的工作将以此为基础,详细研究各组件的特点和应用实践,搭建适合公司整体战略的通用大数据平台。

1     概述
1.1 技术现状
1) 采用B/S结构的网络应用 
B/S(Browser/Server)结构即浏览器和服务器结构。用户工作界面是通过WWW浏览器来实现,极少部分事务逻辑在前端实现,但是主要事务逻辑在服务器端实现,形成三层结构,降低了用户的总体成本。
2) 遵循J2EE规范
J2EE支持Java语言,使得基于J2EE标准开发的应用可以跨平台地移植;J2EE提供了企业计算中需要的所有服务,且更加易用:J2EE中多数标准定义了接口,例如JNDI、JDBC、Java Mail等,因此可以和许多厂商的产品配合,容易得到广泛的支持;J2EE树立了一个广泛而通用的标准,大大简化了应用开发和移植过程。
3) 采用SOA架构
面向服务架构(SOA)是一个基于组件的模型,它将应用系统划分为很多离散的服务,这些服务各自执行某个特定的功能,通过标准格式定义接口组合在一起构成一个大的应用系统。这些服务可以运行在不同的软硬件环境下,形成一个跨平台、松耦合、可扩展的技术架构。
4) 运用AJAX技术
AJAX是一种创建交互式网页应用的网页开发技术。AJAX仅向服务器发送并取回必需的数据,这使得服务器与客户端之间的数据传输大量减少(大约只有原来的5%)能够更为迅捷地回应用户动作。此外,很多简单的处理工作可以在客户端完成,缩减了服务器与客户端之间的交互频次,减轻了对Web服务器的压力。
1.2 发展规划
当前的项目建设基本以云平台和大数据为基础构建基本的技术平台,运用BS和SOA技术构建业务系统。大数据和云平台的技术主要使用华为云等第三方完成。构建基于开源技术的大数据平台,通过人工智能、虚拟云计算、神经网络模型、机器算法等进行数据挖掘,进而发现事物间的相关关系,预测事件发生的概率。提供统一的大数据文件存储、数据分析、数据建模、数据可视化等统一的大数据平台框架服务,可以为不同的项目定制更贴合业务的服务,积累大数据的技术应用案例,提高人工智能、深度学习、物联网等新技术的应用效率。
云计算平台软件、虚拟化软件当前以Hadoop和OpenStack为代表,这些开源技术经过互联网公司近几年的应用,已经有了较为成熟的经验,不需要自己开发。但是对于应用行业来说,行业应用没有现成和通用的软件,需要针对特定的应用需求专门开发,涉及到诸多并行化算法、索引查询优化技术研究、以及系统的设计实现,这些都为大数据处理技术的发展提供了巨大的驱动力。
1.3 大数据发展历史
1.3.1 概念
大数据技术是指从各种各样类型的巨量数据中,快速获得有价值信息的技术。大数据一般指在10TB(1TB=1024GB)规模以上的数据量。
通过互联网、社交网络、物联网,人们能够及时全面地获得大信息。同时,信息自身存在形式的变化与演进,也使得作为信息载体的数据以远超人们想象的速度迅速膨胀。
1.3.2 大数据的特征
数据体量巨大:从TB级别,跃升到PB级别。
数据类型繁多:网络日志、视频、图片、地理位置信息等。
价值密度低:以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。
处理速度快:从大量的数据中快速查询、分析,提取有用信息。
1.3.3 发展历史
1.3.3.1    起源于谷歌
人们通常认为,大数据起源于谷歌的“三驾马车”:谷歌文件系统、MapReduce和 BigTable,这三篇论文分别发表于 2003年、2004年和 2007年。2007年亚马逊也发表了一篇关于 Dynamo系统的论文。这几篇论文奠定了大数据时代的基础。
Google作为互联网泡沫破灭后第一次上市的大型 IT公司,它的市值在上市之后飞速增长。原因在于,Google的广告业务做得非常成功,而广告业务成功的很大一部分原因是它用了大数据技术。当时,很多相关的互联网企业因此都认为大数据是改变自己命运的机会,因此纷纷加入大数据圈子,入局的有微软、阿里巴巴、雅虎、Facebook、LinkedIn、Twitter等公司。
1.3.3.2    Hadoop的大数据系统实现
Hadoop项目最初开始于 2006年 1月,是“大数据之父”道格 • 卡丁(Doug Cutting)把他对谷歌文件系统、MapReduce的实现,从爬虫项目 Nutch里独立出来形成的。Hadoop的主要贡献者是雅虎,Facebook、LinkedIn、Twitter等公司也都贡献了一些影响深远的项目。
Hadoop以外的系统主要有两个:一个是微软自己研发的 Cosmos,中文叫作“宇宙”(copy谷歌思路,改进);另外一个系统是阿里巴巴的 ODPS(2016年Cosmos解散,部分人员进入阿里ODPS,重命名为MaxCompute)。
微软:一方面,微软当时和开源社区关系不好,无法和雅虎一起合作;另一方面,微软当时希望通过自己的技术实现一套大数据平台。
阿里:淘宝的业务量激增,当时的技术已经出现很多问题。Hadoop的出现给阿里带来新的研究方向。为了应对当前的业务需求和未来的发展考虑,阿里提供两套云梯方案同时进行。1、Hadoop团队(云梯1,基于Hadoop,快速应用,开源社区无话语权,开发受限)。2、ODPS团队(云梯2,基于Hadoop的C++改良版本)。
Hadoop的主要商业公司出现在2009年,主要包括Cloudera,Hortonworks和MapR,以提供大数据系统的咨询、商业化集成软件和技术支持盈利。Cloudera峰值估值41亿美元,Hortonworks峰值估值10亿美元,两者都已上市,并于2019年1月合并。MapR峰值估值10亿美元,也在积极寻求上市。
根据Cloudera的2019年7月10日发布的消息,从2019年9月到2020年1月,将为以前闭源组件建立新的开源项目,从而使Hadoop的生态环境更加的开放和易用。
2     大数据的应用领域
1、城市规划
通过对城市地理、气象等自然信息和经济、社会、文化、人口等人文社会信息的挖掘,可以为城市规划提供强大的决策支持,强化城市管理服务的科学性和前瞻性。
在新城的规划方面,通过对地理、人口等信息数据的分析,可以清晰地认知城市未来的人口数量和增长趋势。根据城市的发展策略和经济特点,市政部门可以在不同的地理位置设定功能区域规划,包括工业园区、物流园区、中央商务区、居住卫星城、医院、公安局(派出所)、大学城、文化场所、运动设施、图书馆等城市配套服务设施。
在老城区的规划方面,通过分析经济快速发展和功能定位的差异、人口数量和结构性的变化,市政部门同样可以制定城市调整和优化的解决方案,比如老工业区的拆移、外迁和升级改造计划,老的商业区、居住区、城中村的改造和功能再定位等。
2、交通管理
在交通管理方面,通过对道路交通信息的实时挖掘,能有效缓解交通拥堵,并快速响应突发状况,为城市交通的良性运转提供科学的决策依据。
通过整合道路交通、公共交通、对外交通的大数据,汇聚气象、环境、人口、土地等行业数据构建交通大数据平台,提供道路交通状况判别及预测,辅助交通决策管理,支撑智慧出行服务,加快交通大数据服务模式创新。实现智慧的交通拥堵提醒、疏散管理、智慧的公交到站监测、智慧的交通事故的应急调度、智慧的民众的交通信息查询、智慧的个人私家车管理等。
3、公共安全
在公共安全领域,通过大数据的挖掘,汇聚融合涉及公共安全的人口、警情、网吧、宾馆、火车、民航、视频、人脸、指纹等海量业务数据,建设公共安全领域的大数据资源库,全面提升公共安全突发事件监测预警、快速响应和高效打击犯罪等能力。可以及时发现人为或自然灾害、恐怖事件,提高应急处理能力和安全防范能力。针对公共安全领域治安防控、反恐维稳、情报研判、案情侦破等实战需求,建设基于大数据的公共安全管理和应用平台。
4、环境保护
通过水质、气候、土壤、植被等环境信息的汇聚,并结合大数据分析与挖掘技术,实现环境信息的实时动态监测和分析,为环保工作者提供环境规划、决策的科学依据和环境治理抓手。例如,通过传感器捕获水质情况,得到溶解氧、水温、电导率、氨氮、PH值等参数作为参考,并结合以往水质变化情况进行综合分析、预测,为政府等部门提供水质变化应急决策支持。
习近平总书记曾明确指出,要推进全国生态环境监测数据联网共享,开展生态环境大数据分析。李克强总理也强调,要在环保等重点领域引入大数据监管,主动查究违法违规行为。要运用现代信息技术加强政府公共服务和市场监管,推动简政放权和政府职能转变,构建“互联网+”绿色生态,实现生态环境数据互联互通和开放共享。
国家有关部门期望大数据、“互联网+”等信息技术要成为推进环境治理体系和治理能力现代化的重要手段,加强生态环境大数据综合应用和集成分析,为生态环境保护科学决策提供有力支撑。
借助大数据采集技术,将收集到的关于各项环境质量指标的信息进行数据分析,我们能够准确、快速地了解环境问题的成因、变化趋势,从而更科学地应对,对于指导下一步环境治理方案的制定,精准监测环境治理效果,动态更新治理方案有科学意义
5、农业
通过农业相关信息数据的汇聚和大数据分析处理技术的运用,能够全面及时掌握农业的发展动态和未来趋势。例如通过对近年来各地的降雨、气温、土壤状况和历年农作物产量的综合分析,可以预测农产品的生产趋势,指导政府进行激励措施、作物存储和农业服务政策的制定。
为了不断推进农业经济的优化,实现可持续的产业发展和区域产业结构优化,进一步推动智慧农业的建设进程,大数据将推动传统的农业生产方式应向数据驱动的智慧化生产方式转变。
6、制造业
随着市场竞争的日益激烈,基于大数据的及时、正确、科学决策将成为企业生存与发展的关键因素。通过对企业生产、销售、能耗、成本、财务等各个环节的数据进行综合分析与模型预测,能够帮助企业实时掌握能耗情况、设备运行状况等关键信息,助力企业的科学决策和产品质量管控,降低成本,提高企业竞争力。
7、医疗卫生
通过整合医疗、药品、气象和社交网络等相关医疗信息数据,构建医疗大数据平台,形成智能临床诊断模式和自主就医模式的创新,为市民、医生、政府合理优化医疗资源配置。同时提供流行病跟踪与分析、临床诊疗精细决策、疫情监测及处置、疾病就医导航、健康自我检查等服务。
大数据搜索可辅助国家及早发现疫情和多发性疾病;可协助医院和医疗研究机构更好的跟踪分析医疗效果,提升药品研发能力;可协助医院进行科学的就诊预测和管理;可协助民众进行基于医院医生的大数据的选择;根据个体医疗档案进行大数据的长期的健康分析。
8、食品安全
通过汇聚政府各部门的食品安全监管数据、食品检验监测数据、食品生产经营企业索证索票数据、食品安全投诉举报数据等相关食品安全数据,构建食品安全大数据平台,辅助政府及相关部门进行食品安全预警和食品溯源,帮助政府进行食品安全管理,同时为企业、第三方机构、公众提供基于大数据的食品安全服务。
9、教育
针对全民学习、终身教育的需求,建设教育大数据服务平台。积累数字教育资源,收集教育服务平台学习者行为数据和学习爱好数据,能够为千万级学习者提供个性化的终身在线学习服务,提高教育资源的共享和利用率,实现因材施教,优化教学过程,提高教学质量,为教育政策调整提供决策支持。同时,基于大数据支撑的优质教育资源开发、积累、融合、共享的服务机制,为全体学习者提供个性化选择与推送相结合的终身学习在线服务模式。
10、电力
针对智能电网建设、维护和管理的需求,收集发电厂实时运行数据,建立发电厂数字仿真模型,为提高生产安全性、提高发电效率(降低单位电能煤耗、厂用电指标)提供决策依据。通过实时收集电网电力资产状态数据,实现电力资产在线状态检测、电网运行在线监控、主动安全预警及调度维保,保障电网可靠高效运行;通过快速收集和分析用电数据,为需求响应、负荷预测、调度优化、投资决策提供支持。
3     技术路线
开展大数据分析,首先应开展业务调研和数据调研工作,明确分析需求,其次应开展数据准备工作,即选择数据源、进行数据抽样选择、数据类型选择、缺失值处理、异常值检测和处理、数据标准化、数据簇分类、变量选择等,再次应进行数据处理工作,即进行数据采集、数据清洗、数据转换等工作,最后开展数据分析建模及展现工作。
3.1 常规分析
揭示数据间的静态关系,具有离线延时性,而且对数据结构化要求高。一般性数据无法直接分析。
3.2 数据挖掘
数据挖掘是利用业务知识从数据中发现和解释知识的过程,在大数据时代,数据挖掘是最关键的工作。
大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程,也是一种决策支持过程。其主要基于人工智能,机器学习,模式学习,统计学等,将统计学和计算机技术等科学结合起来,揭示数据之间的隐藏的的关系,将数据的分析范围从从已知扩展到未知,从过去扩展到未来。通过对大数据高度自动化地分析,做出归纳性的推理,从中挖掘出潜在的模式,可以帮助企业、商家、用户调整市场政策、减少风险、理性面对市场,并做出正确的决策。目前,在很多领域尤其是在商业领域如银行、电信、电商等,数据挖掘可以解决很多问题,包括市场营销策略制定、背景分析、企业管理危机等。
大数据的挖掘常用的方法包括关联、分类、聚类、回归、神经网络、Web分析等。这些方法从不同的角度对数据进行挖掘。
3.2.1 分类
分类是找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到多个给定的类别中。可以应用到分类、趋势预测等场景,如淘宝商铺将用户在一段时间内的购买情况划分成不同的类,根据情况向用户推荐关联类的商品,从而增加商铺的销售量。
常用方法:决策树(先生长后裁剪)。
3.2.2 回归
通过函数表达数据映射的关系来发现属性值之间的依赖关系。它可以应用到对数据序列的预测及相关关系的研究中去。在市场营销中,回归分析可以被应用到各个方面。如通过对本季度销售的回归分析,对下一季度的销售趋势作出预测并做出针对性的营销改变。
常用方法:逻辑回归,多元线性回归。
回归和分类都是需要模仿正确数据进行学习,是有监督学习。
3.2.3 聚类
针对数据的相似性和差异性将一组数据自动分为几个类别。属于同一类别的数据间的相似性很大,但不同类别之间数据的相似性很小,跨类的数据关联性很低。包括客户分类、文档分类、最佳地点选择等。针对客户特征进行客户群划分。由此,我们可以对不同客户群采取差异化的促销方式;
常用方法:K-Means(距离最近分类)。
3.2.4 关联规则
关联规则是隐藏在数据项之间的关联或相互关系,即可以根据一个数据项的出现推导出其他数据项的出现。关联规则挖掘技术已经被广泛应用于金融行业企业中用以预测客户的需求,各银行在自己的ATM 机上通过捆绑客户可能感兴趣的信息供用户了解并获取相应信息来改善自身的营销。分析发现购买面包的顾客中有很大比例的人同时购买牛奶,由此我们可以将牛奶与面包放在同一个地方。
关联规则的挖掘过程主要包括两个阶段:第一阶段为从海量原始数据中找出所有的高频项目组;第二阶段为从这些高频项目组产生关联规则。
聚类和关联规则可以自动在无标识的情况下学习,是无监督学习。
3.2.5 神经网络方法
神经网络作为一种先进的人工智能技术,因其自身自行处理、分布存储和高度容错等特性非常适合处理非线性的以及那些以模糊、不完整、不严密的知识或数据为特征的处理问题,它的这一特点十分适合解决数据挖掘的问题。典型的神经网络模型主要分为三大类:第一类是以用于分类预测和模式识别的前馈式神经网络模型,其主要代表为函数型网络、感知机;第二类是用于联想记忆和优化算法的反馈式神经网络模型,以Hopfield 的离散模型和连续模型为代表。第三类是用于聚类的自组织映射方法,以ART 模型为代表。虽然神经网络有多种模型及算法,但在特定领域的数据挖掘中使用何种模型及算法并没有统一的规则,而且人们很难理解网络的学习及决策过程。
3.2.6 Web数据挖掘
Web数据挖掘是一项综合性技术,指Web 从文档结构和使用的集合C 中发现隐含的模式P,如果将C看做是输入,P 看做是输出,那么Web 挖掘过程就可以看做是从输入到输出的一个映射过程。
当前越来越多的Web 数据都是以数据流的形式出现的,因此对Web 数据流挖掘就具有很重要的意义。目前常用的Web数据挖掘算法有:PageRank算法,HITS算法以及LOGSOM 算法。这三种算法提到的用户都是笼统的用户,并没有区分用户的个体。目前Web 数据挖掘面临着一些问题,包括:用户的分类问题、网站内容时效性问题,用户在页面停留时间问题,页面的链入与链出数问题等。在Web 技术高速发展的今天,这些问题仍旧值得研究并加以解决。
3.3 数据建模
 大数据框架综述_第1张图片
第一步:选择模型
我们需要基于业务问题,来决定可以选择哪些可用的模型。比如,如果要预测产品销量,则可以选择数值预测模型(比如回归模型,时序预测……);如果要预测员工是否离职,则可以选择分类模型(比如决策树、神经网络……)。当前绝大多数的建模,都是选择一个已有的数学模型来调整适应业务需要。
第二步:训练模型
模型由通用的固定模式和不确定的参数,就比如回归模型中的α、β等参数。训练模型,其实就是要基于真实的业务数据来确定最合适的模型参数。一旦找到最优参数,模型就基本可用了。
第三部:评估模型
评估模型,判断模型质量。数值预测模型中,评价模型质量的常用指标有:平均误差率、判定系数R2,等等;评估分类预测模型质量的常用指标(如下图所示)有:正确率、查全率、查准率、ROC曲线和AUC值等等。在真实的业务场景中,评估指标是基于测试集的,而不是训练集。所以,在建模时,一般要将原始数据集分成两部分,一部分用于训练模型,叫训练集;另一部分用于评估模型,叫测试集或验证集。
如果发现在训练集和测试集上的预测效果差不多,就表示模型质量尚好,应该可以直接使用了。如果发现训练集和测试集上的预测效果相差太远,就说明模型还有优化的余地。当然,如果只想验证一次就想准确评估出模型的好坏,好像是不合适的。所以,建议采用交叉验证的方式来进行多次评估,以找到准确的模型误差。
其实,模型的评估是分开在两个业务场景中的:一是基于过去发生的业务数据进行验证,即测试集。本来,模型的构建就是基于过去的数据集的构建的。二是基于真实的业务场景数据进行验证。即,在应用模型步骤中检验模型的真实应用结果。
第四步:应用模型
应用模型,就是将模型应用于真实的业务场景,解决工作中的业务问题,比如预测客户行为,划分客户群等等。应用模型过程中,还需要收集业务预测结果与真实的业务结果,以检验模型在真实的业务场景中的效果,同时用于后续模型的优化。
第五步:优化模型
优化模型,一般发生在两种情况下:
一是在评估模型中,如果发现模型欠拟合,或者过拟合,说明这个模型待优化。
二是在真实应用场景中,定期进行优化,或者当发现模型在真实的业务场景中效果不好时,也要启动优化。
如果在评估模型时,发现模型欠拟合(即效果不佳)或者过拟合,则模型不可用,需要优化模型。所谓的模型优化,可以有以下几种情况:
1)重新选择一个新的模型;
2)模型中增加新的考虑因素;
3)尝试调整模型中的阈值到最优;
4)尝试对原始数据进行更多的预处理,比如派生新变量。
不同的模型,其模型优化的具体做法也不一样。比如回归模型的优化,你可能要考虑异常数据对模型的影响,也要进行非线性和共线性的检验;再比如说分类模型的优化,主要是一些阈值的调整,以实现精准性与通用性的均衡。
当然,也可以采用元算法来优化模型,就是通过训练多个弱模型,来构建一个强模型(即三个臭皮匠,顶上一个诸葛亮)来实现模型的最佳效果。
数据建模实例
数据预处理
# 1,读入数据
# 2,选择合适的建模样本
# 3,数据集划分成训练集和测试集
第一步:数据预处理,包括
(1)数据清洗
(2)格式转换
(3)缺失值填补
第二步:变量衍生
第三步:分箱,采用ChiMerge,要求分箱完之后:
(1)不超过5箱
(2)Bad Rate单调
(3)每箱同时包含好坏样本
(4)特殊值如-1,单独成一箱
连续型变量可直接分箱
类别型变量:
(a)当取值较多时,先用bad rate编码,再用连续型分箱的方式进行分箱
(b)当取值较少时:
(b1)如果每种类别同时包含好坏样本,无需分箱
(b2)如果有类别只包含好坏样本的一种,需要合并
第四步:WOE编码、计算IV
第五步:单变量分析和多变量分析,均基于WOE编码后的值。
(1)选择IV高于0.01的变量
(2)比较两两线性相关性。如果相关系数的绝对值高于阈值,剔除IV较低的一个
第六步:逻辑回归模型。
要求:
1,变量显著
2,符号为负
'''
第七步:模型验证

3.4 商业智能BI
一些列事实作为支持,辅助商业决策的技术和方法,一般都有数据仓库DW、联机分析处理OLAP、数据挖掘、数据备份和恢复等板块,但是底层的方法还是数据挖掘。
3.5 数据可视化
大数据时代,展示数据可以更好辅助理解数据、演绎数据。
4     案例分析
4.1 阿里大数据分析
阿里的各个平台的数据:APP、网站、支付宝等,大量用户日志数据会被记录并存储下来,这一步就是数据采集。这一步数据是海量的,需要巨大的存储空间和即时处理能力,如实时处理和离线处理。
第二层,数据处理层,常见熟悉的Hadoop、Hive、HBase、Storm等,主要是将数据打上标签,送给下一个层级。
第三层,推荐系统,数据可能用到回归、聚类、分类、关联分析、用户画像,最终推荐系统输送给业务系统。
第四层,业务系统。业务系统会以各种方式展现在客户端:如APP推送、千人千面首页、用户杀熟、系统推荐、刷单预警等。
4.2 智慧城管
某城市管理局作为该区政府的核心职能部门,面对城市数据量的爆发式增长,常规的、零散的数据存储方式和工作方式已不能满足现有的业务需求,利用数据分析系统对城市管理数据进行统一的运行管理成为了紧迫要求。结合区城管系统项目建设的实际需求,充分运用大数据的先进理念、技术和资源,深入挖掘数据价值,搭建成“开放、安全、高效、易用”的城管行业大数据平台,实现了城市管理运行数据的快速、高效、安全地汇聚、连接、共享,打破了原有业务数据存在的“信息孤岛”现象,通过城市管理数据从独立分散到互联协同,从粗放式管理到智慧化、精细化管理的转型升级,实现了城市管理的问题发现快捷精准化、处置快速扁平化、统计分析评价科学化,为不断提升城市管理水平及运行效率,辅助政府部门的科学决策发挥了重要作用。
4.3 甘肃省兰州市政务大数据平台
目前,甘肃省兰州市在政务大数据平台的帮助下,在线办理事项已经超过660项,可办率达96.77%。以前居民在办事时,要带很多纸质版的证件和资料,工作人员要挨个翻阅、审验真伪,工作量很大。现在,在街道的政务大厅,只需要群众的身份证号,就能查到其相关证件信息。不仅方便了办事的群众,也大大提高了政务工作效率。
4.4 大数据优化营商环境
湖南省湘西土家族苗族自治州的地理位置并非十分优越,但在发展政务大数据的路上尝到了甜头。在优化营商环境方面,政府有很多减税降费的政策落地要靠大数据。谁可以减税,谁不可以减税,大数据可以统一查询办理。了解湘西这里的投资环境需要网络查询,不可能每个人都跑到湘西实地考察。通过 ‘智慧湘西’平台,可以全方位了解湘西的情况。
4.5 客服中心
广发卡客服中心积极推进服务创新,充分挖掘海量客户数据的价值,在开发银行大数据平台的基础上,创新推出“客户Face Time--大数据时代客户标签画像”。该业务能根据客户的历史行为对客户画像进行描画,细化分群,建立客户服务专属标签群。随后将基于客户特征集合形成的客户标签以行业首创的“九宫格”界面的形式传输到客户服务系统前端,确保客服代表可以通过可视化、友好化的界面即时全面掌握客户画像及代表的用户特征和潜在需求,有的放矢的完成精准服务和差异化服务。凭借此项技术,广发卡客服中心在中国银行业协会第四届优秀客服中心评选上打败众多竞争对手,揽获“优秀创新奖”。
客户画像:基于客户特征集合形成的客户标签,进行精准服务和差异化服务。
客户分布:热力地图展现客户分布,为营销策略提供思路。气泡图根据满意度与提及次数的分布对客户进行精细分组。
客户概览:两个KPI图展示接待客户总量以及平均满意度;
重点客户:分组柱图,筛选出接待与时长最多的客户。方便锁定问题客户,以提供个性化服务。
 大数据框架综述_第2张图片
4.6 舆情监测平台与政务数据结合 
各级政府也一直在强调政务信息公开,国务院总理李克强在“2016年夏季达沃斯论坛”开幕式致辞时强调,“我们还要开放政府公共服务的平台,最大限度地推进政府数据为社会共享,便利群众和企业办事创业,提高政府效率”。2020年年底前,我国将逐步实现信用、交通、医疗、卫生、就业、社保、地理、文化、教育、科技、农业、环境、安监、气象、企业登记监管等数据集开放,带动大数据增殖性、公益性开发和创新应用,充分释放数据红利。
比如百度、新浪微博、微信等正在变成超级信息工厂,互联网越来越多的成为人民群众获取信息的源头。现在的网络监测技术能够对数据进行自动抓取,并对数据进行鉴别、萃取、分析和解读,通过“加工”实现数据的“增值”,从而为相关服务提供数据支撑。
人们热衷于在微博、微信等社交媒体上发布自己的照片、心情、行踪等各类信息,一切都会留下痕迹,一切行为皆为数据。爬虫服务器就可以通过记录下这些用户的登录时间、信息消费习惯、地理位置等大量后台数据,然后进分析,实现为更快捷、更准确、更全面地监测和应对舆情提供可能。通过跟踪关联数据提高趋势研判,可以更精确地分析更多的数据信息,可以看到相关的隐性信息。通过搭建关联领域的专业数据库等,可以在预警、研判、应对、决策环节,丰富和完善决策体系。
4.7 经典案例
1、梅西百货:根据需求和库存的情况,该公司对多达7300万种货品进行实时调价。
2. Tipp24 AG针对欧洲博彩业构建的下注和预测平台。该公司分析数十亿计的交易以及客户的特性,然后通过预测模型对特定用户进行动态的营销活动。这项举措减少了90%的预测模型构建时间。
3. 沃尔玛的搜索。这家零售业寡头为其网站Walmart.com自行设计了最新的搜索引擎,利用语义数据进行文本分析、机器学习和同义词挖掘等。根据沃尔玛的说法,语义搜索技术的运用使得在线购物的完成率提升了10%到15%。“对沃尔玛来说,这就意味着数十亿美元的金额。”
4.快餐业的视频分析。该公司通过视频分析等候队列的长度,然后自动变化电子菜单显示的内容。如果队列较长,则显示可以快速供给的食物;如果队列较短,则显示那些利润较高但准备时间相对长的食品。
5. Morton牛排店的品牌认知。当一位顾客开玩笑地通过推特向这家位于芝加哥的牛排连锁店订餐送到纽约Newark机场(他将在一天工作之后抵达该处)时,Morton就开始了自己的社交秀。首先,分析推特数据,发现该顾客是本店的常客,也是推特的常用者。根据客户以往的订单,推测出其所乘的航班,然后派出一位身着燕尾服的侍者为客户提供晚餐。
6. PredPol公司通过与洛杉矶和圣克鲁斯的警方以及一群研究人员合作,基于地震预测算法的变体和犯罪数据来预测犯罪发生的几率,可以精确到500平方英尺的范围内。在洛杉矶运用该算法的地区,盗窃罪和暴力犯罪分布下降了33%和21%。
7. Tesco(特易购)和运营效率。这家超市连锁在其数据仓库中收集了700万部冰箱的数据。通过对这些数据的分析,进行更全面的监控并进行主动的维修以降低整体能耗。
8. American Express(美国运通,AmEx)。以往,AmEx只能实现事后诸葛式的报告和滞后的预测。该公司构建真正能够预测忠诚度的模型,基于历史交易数据,用115个变量来进行分析预测。对于澳大利亚将于之后四个月中流失的客户,已经能够识别出其中的24%。
5     大数据、云计算、人工智能之间的关系
 大数据框架综述_第3张图片
资源Infranstracture包括计算资源、存储资源、网络资源。
计算资源指CPU和内存。
存储资源指硬盘空间。
网络资源:网络带宽。
弹性是指时间和空间的灵活。
发展历史:物理机时代时间和空间灵活性不足,使用虚拟化后可以满足时间和空间的灵活性,但是配置复杂,需要人工配置(以商业的VMware和开源的Xen和KVM为代表)。随着集群规模增大,自动调度中心功能的云化或池化诚挚为云计算。
私有云:自建机房+厂商云化软件
公有云:厂商机房+厂商云化软件
混合云:私有云+公有云。
云厂商发展历史:亚马逊为应对双11类似高峰购买场景,需要构建弹性资源管理平台。考虑到商业利益,亚马逊自建云平台,在满足自身需要的同时取得了高额利润。2018年,亚马逊AWS年营收达256.55亿美元,运营利润73亿美元。公有云第二大厂商Rackspace为扩大影响,Rackspace和美国航空航天局合作创办了开源软件OpenStack。催生了IBM、惠普、戴尔、华为、联想大批云厂商。至此,OpenStack已经成为开源云平台的事实标准。当前技术已经能够实现多个OpenStack集群异地多套部署统一管理。管理资源的云平台称之为LaaS基础设施服务。
应用管理:资源管理之上,需要自动配置软件的服务,可以统一配置常用软件,称之为PaaS。自定义软件可以通过Docker等实现自动部署。Docker使用容器技术,将软件进行隔离(软件隔离)和镜像(状态隔离)。
数据分为结构化,非结构化(网页,语音,视频),半结构化数据(XML等)。数据经过梳理和清洗后提取有意义的数据称为信息。信息中总结规律称为知识。知识用于指导实践称为智慧。
大数据处理过程:收集数据,传输,存储,处理和分析,检索(用户主动)和挖掘(平台主动)。
由于数据量越来越大,大数据处理的各个过程都需要集群处理。大数据与云计算相结合实现了大数据的集群处理云化。
   大数据框架综述_第4张图片大数据框架综述_第5张图片

从数据中挖掘出规则进一步发展,通过模拟人类思维过程,称为人工智能。定义为:人工制造出来的系统所表现出来的智能。通过各种制定各种规则生成决策,是人工智能的推理阶段,称为专家系统。机器学习是从数据总自动分析获得规律并能够进行预测,是人工智能的分支。深度学习是机器学习中神经网络算法的延伸,目标是通过神经网络算法进行规律总结。神经网络的普遍性定理是这样说的,假设函数f(x),不管这个函数是什么样的,总会确保有个神经网络能够对任何可能的输入x,其值f(x)(或者某个能够准确的近似)是神经网络的输出。
人工智能需要大量的数据和算力,需要大数据和云计算提供支撑。
人工智能等软件可以提供各种服务,在云平台上提供各种在线API,可供各种应用使用,称为SaaS。
6     整体规划
6.1 规划思路
基于开源的通用大数据平台是一个标准的开放式、可扩展平台。整体规划思路按照“注重实战、顶层设计、统筹规划、突出重点、分步实施、持续改进”的原则,采用开放灵活架构,以Hadoop和Spark为基础,以公司的发展方向为引导,以服务业务为目标,充分发挥既有资源作用和新一代信息技术潜能,建设符合公司发展战略和业务实际需要的通用大数据平台。
平台将从数据采集、数据存储、分析处理能力、业务应用功能4大方面进行整体规划。
数据采集:首先按照数据来源不同,分为生成系统在线数据流与离线文本数据(从外部定时获取的临时分析数据)。其中离线文本数据,通过外部工具或应用API可以导入到大数据平台;各生产系统数据,则按照时效性的要求,做不同的方式处理,实时性要求不高(非实时要求),可定期抽取的数据(如一天更新一次)等,通过ETL方式导入,ETL可实现动态配置,包括ETL数据源、抽取字段,标准字段项、目标库、抽取频率等;对实时性要求高的,则通过开发标准接口方式实现数据的实时接入。
数据接入存在多样性,提供多种标准技术,如Sqool,Kafka,flume等,可以收集日志、关系型数据库、APP数据流等满足数据接入的要求。
数据存储
基于当今成熟的Hadoop、Hbase、Hive等大数据技术,在该技术架构下,数据存储计算节点可以根据数据增量的大小,进行线性扩展,同时考虑各数据单元应用场景不同,设计不同的数据存储方式,满足各数据存储的需要及数据不断增加的发展需要。根据不同应用场景,提供大数据存储,大文件存储,小文件存储等多种应用解决方案。
平台大数据的应用,除了利用经典业务分析模型外,在充分考虑业务的发展以及实战的需要后,增加自定义分析模型与调度,实现高扩展性的分析能力。
数据分析
基于ElasticSearch、Spark等技术,提供基础分析能力,如全文检索,关联分析,分类等基本功能,提供基本操作流程,为业务应用提供基础分析模型,简化业务难度,提高业务效率。
通过用户自定义数据来源、自定义分析规则、自定义分析步骤、自定义调度引擎等,实现分析能力的高度可扩展,满足不同业务需要。在分析服务不断应用的过程中,优化分析模型,提取公共分析模型,不断完善大数据分析中台,积累公司的技术力量,为后续的技术发展提供基础和动力。
业务规划
在业务功能规划层面,采用开放式架构,构建应用服务中台。各项目根据自身的需要,完成应用的建设,提取应用服务,把建好的应用服务按照规范流程发布至应用中台。在业务不断应用的过程中,不断提高应用服务能力,积累应用服务能力,提高服务的广度和深度,降低业务的开发难度,提高业务应用效率。
6.2 整体架构
平台以Flume为日志等收集工具,通过kafka接入数据流,通过Sqoop接入结构化数据,以HDFS为大数据存储平台,以HBase为小文件存储NoSql数据库,通过Hive构建数据仓库,以Spark为基础运算平台进行数据建模和分析运算。
 大数据框架综述_第6张图片
Flume
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。flume主要是日志采集组件,可以从tomcat服务日志或者nginx日志中获取产生的日志。
Sqoop
Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
Kafka
Kafka是一个分布式、分区化、多副本的消息发布-订阅系统,它提供了类似于JMS的特性,但在设计上完全不同,它具有消息持久化、高吞吐、分布式、多客户端支持、实时等特性,适用于离线和在线的消息消费,如常规的消息收集、网站活性跟踪、聚合统计系统运营数据(监控数据)、日志收集等大量数据的互联网服务的数据收集场景。
HDFS
hdfs是一个分布式文件存储系统,可以将大量的大文件进行存储,它和其他的分布式文件系统的主要区别是它是一个高容错的系统,适合部署在廉价的机器上,并且hdfs能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。
HBase是一个基于HDFS的NoSql数据库,是一个开源的,分布式的,版本化的非关系数据库,模仿Google的Bigtable。能够托管非常大的表 ,规模达到百亿行百万列。Apache HBase:
YARN是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。YARN 分层结构的本质是 ResourceManager。这个实体控制整个集群并管理应用程序向基础计算资源的分配。
Oozie是基于工作流引擎的开源框架,是用于Hadoop平台的开源的工作流调度引擎,是用来管理Hadoop作业,属于web应用程序,由Oozie client和Oozie Server两个组件构成,Oozie Server运行于Java Servlet容器(Tomcat)中的web程序。
ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。
ElasticSearch
ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是第二流行的企业搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。
Spark
Spark是一种内存迭代计算环境,其启用的是内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。是对 Hadoop 的补充,可以在 Hadoop 文件系统中并行运行。
可以在Spark基础上进行批处理、交互式分析、迭代式机器学习、流处理,因此Spark可以成为一个用途广泛的计算引擎,并在未来取代Map/Reduce的地位。
Spark四大组件包括Spark Streaming、Spark SQL、Spark MLlib和Spark GraphX。它们的主要应用场景是:
Spark Streaming
Spark Streaming基于微批量方式的计算和处理,可以用于处理实时的流数据。它使用DStream,简单来说就是一个弹性分布式数据集(RDD)系列,处理实时数据。
Spark SQL
Spark SQL可以通过JDBC API将Spark数据集暴露出去,而且还可以用传统的BI和可视化工具在Spark数据上执行类似SQL的查询。用户还可以用Spark SQL对不同格式的数据(如JSON,Parquet以及数据库等)执行ETL,将其转化,然后暴露给特定的查询。
Spark MLlib
MLlib是一个可扩展的Spark机器学习库,由通用的学习算法和工具组成,包括二元分类、线性回归、聚类、协同过滤、梯度下降以及底层优化原语。用于机器学习和统计等场景
Spark GraphX
GraphX是用于图计算和并行图计算的新的(alpha)Spark API。通过引入弹性分布式属性图(Resilient Distributed Property Graph),一种顶点和边都带有属性的有向多重图,扩展了Spark RDD。为了支持图计算,GraphX暴露了一个基础操作符集合(如subgraph,joinVertices和aggregateMessages)和一个经过优化的Pregel API变体。此外,GraphX还包括一个持续增长的用于简化图分析任务的图算法和构建器集合。

 

 

 

你可能感兴趣的:(大数据与云计算,数据挖掘,大数据,数据分析)