大数据的普及讲解

大数据介绍

目录

大数据技术背景:... 3

一、 数据组织集成... 3

1. 数据存储... 3

1) 分布式文件/对象存储系统... 3

2) 分布式关系型数据库... 3

3) 分析型数据库... 4

4) 搜索引擎... 4

5) 图数据库... 4

6) 列存储数据库... 4

7) 文档数据库... 4

8) 键值存储数据库... 4

2. 数据计算... 5

1) 流式计算(Streaming compute)... 5

2) 大规模批量计算(batch compute)... 5

3) 即席查询分析 (ad-hoc query) 5

4) 全量计算 & 增量计算... 5

5) 图计算... 6

6) 分布式协调系统... 6

7) 集群资源管理和调度... 6

8) 工作流管理引擎... 6

3. 数据仓库... 7

4. 数据挖掘... 7

二、 数据应用... 7

三、 数据治理... 7

四、 大数据典型模式... 7

1. B2B大数据交易... 7

2. 咨询研究报告... 8

3. 数据挖掘云计算软件... 8

4. 大数据咨询分析服务... 8

5. 政府决策咨询智库... 8

6. 自有平台大数据分析... 8

7. 大数据投资工具... 9

8. 定向采购线上交易平台... 9

9. 非营利性数据征信评价机构... 9

五、 大数据发展趋势... 9

趋势一:物联网... 10

趋势二:智慧城市... 10

趋势三:增强现实(AR)与虚拟现实(VR) 10

趋势四:区块链技术... 10

趋势五:语音识别技术... 11

趋势六:人工智能(AI) 11

趋势七:数字汇流... 11

大数据发展背景

最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”数据,让一切有迹可循,让一切有源可溯。我们每天都在产生数据,创造大数据和使用大数据,只是,你,仍然浑然不知。

企业组织利用相关数据和分析可以帮助它们降低成本、提高效率、开发新产品、做出更明智的业务决策等等。大数据的价值,远远不止于此,大数据对各行各业的渗透,大大推动了社会生产和生活,未来必将产生重大而深远的影响。

数据治理——>数据应用——>基础技术——>数据传输——>数据组织集成——>数据采集

上面流程图是大数据技术是实现完整的流程图,前三部分专业太强,不适合做普惠性的讲解。我们通常说的大数据技术主要应用于数据组织集成,数据应用,数据治理。HDFS,Druid,MonetDB,Hbase,Elasticsearch,Redis,Memcached,Spark等技术语主要用来解决数据组织集成的问题;数据服务,数据可视化,数据共享,数据预警,应用部署等术语都是数据应用的主要方面;数据治理相关标准,元数据管理,数据质量,数据安全等是数据治理的主要内容。下面分三块来详细讲述:

一、数据组织集成

  1. 数据存储

大数据存储面向海量、异构、大规模结构化非结构化等数据提供高性能高可靠的存储以及访问能力,通过优化存储优化存储基础设施、提供高性能。高吞吐率、大容量的数据存储方案,解决巨大数据量的存储问题,同时为大规模数据分析、计算、加工提供支撑。

1) 分布式文件/对象存储系统

分布式存储系统面向海量数据的存储访问与共享需求,提供基于多存储节点的高性能,高可靠和可伸缩性的数据存储和访问能力,实现分布式存储节点上多用户的访问共享。

目前业界比较流行的分布式存储系统如下:HDFS、OpenStack Swift、Ceph、GlusterFS、Lustre、AFS、OSS。

2) 分布式关系型数据库

随着传统的数据库技术日趋成熟、计算机网络技术的飞速发展和应用范围的扩大,以分布式为主要特征的数据库系统的研究与开发受到人们的注意。关系型数据库也是建立在关系模型基础上的数据库,借助于集合代数等数学概念和方法来处理数据库中的数据。由于集中式关系型数据库系统的不足(性能、扩展性),分布式关系型数据库目前越来越多。

目前业界比较流行的分布式关系型数据库如下:DRDS、TiDB、GreenPlum、Cobar、Aurora、Mycat。

3) 分析型数据库

分析数据库是面向分析应用的数据库,与传统的数据库不同,它可以对数据进行在线统计、数据在 线分析、随即查询等发掘信息数据价值的工作,是数据库产品一个重要的分支。

目前业界比较流行的分析型数据库如下:Kylin、AnalyticDB、Druid、Clickhouse、Vertica、MonetDB、InfiniDB、LucidDB。

4) 搜索引擎

大数据时代,如何帮助用户从海量信息中快速准确搜索到目标内容,就需要搜索引擎。大数据搜索引擎是一个提供分布式,高性能、高可用、可伸缩的搜索和分析系统。

目前常见的搜索引擎技术如下:Elasticsearch、Solr、OpenSearch。

5) 图数据库

图数据库源起欧拉和图理论,也可称为面向/基于图的数据库,对应的英文是 Graph Database。图形数据库是 NoSQL 数据库的一种类型,它应用图形理论存储实体之间的关系信息。图形数据库是一种非关系型数据库,它应用图形理论存储实体之间的关系信息。最常见例子就是社会网络中人与人之间的关系。图数据库的基本含义是以“图”这种数据结构存储和查询数据,而不是存储图片的数据库。它的数据模型主要是以节点和关系(边)来体现,也可处理键值对。它的优点是快速解决复杂的关系问题。

目前业界比较流行的图数据库如下:Titan、Neo4J、ArangoDB、OrientDB、MapGraph、ALLEGROGRAPH。

6) 列存储数据库

列式数据库是以列相关存储架构进行数据存储的数据库,主要适合于批量数据处理和即时查询。相对应的是行式数据库,数据以行相关的存储体系架构进行空间分配,主要适合于大批量的数据处理,常用于联机事务型数据处理。

目前业界比较流行的列存储数据库如下:Phoenix、Cassandra、Hbase、Kudu、Hypertable。

7) 文档数据库

文档型数据库是 NoSQL 中非常重要的一个分支,它主要用来存储、索引并管理面向文档的数据或者类似的半结构化数据。

目前业界比较流行的文档型数据库如下:MongoDb、CouchDB、OrientDB、MarkLogic。

8) 键值存储数据库

目前业界比较流行的键值存储数据库如下:Redis、Memcached、Tair。

  1. 数据计算

大数据计算主要完成海量数据并行处理、分析挖掘等面向业务需求。大数据计算通过将海量的数据分片,多个计算节点并行化执行,实现高性能、高可靠的数据处理,同时提供分布式任务管理和调度的支撑。针对不同的数据处理需求,主要有大规模批量处理、流式计算、图计算、即席分析等多种计算。

1) 流式计算(Streaming compute)

流式计算:利用分布式的思想和方法,对海量“流”式数据进行实时处理。流式计算更加强调计算数据流和低时延。这边所谓的流数据( streaming data)是一种不断增长的,无限的数据集。

流式计算是否等于实时计算?习惯上实时和流式等价,但其实这种观点并不完全正确。数据的发生的时间和处理时间有可能是不一致的,只能说流式计算是一种低延迟的计算方式。

注意:本文将微批处理和流处理混在一起。

业界常见的流式计算框架:Storm、Flink、Yahoo S4、Kafka Stream、Twitter Heron、Apache Samza、Spark Streaming。

2) 大规模批量计算(batch compute)

大规模批量计算是对存储的静态数据进行大规模并行批处理的计算。批量计算是一种批量、高时延、主动发起的计算。习惯上我们认为离线和批量等价,但其实是不准确的。离线计算一般是指数据处理的延迟。这里有两方面的含义第一就是数据是有延迟的,第二是是时间处理是延迟。在数据是实时的情况下,假设一种情况:当我们拥有一个非常强大的硬件系统,可以毫秒级的处理 Gb 级别的数据,那么批量计算也可以毫秒级得到统计结果。

业界常见的大规模批量计算框架:Tez、MapReduce、Hive、Spark、Pig、大数据的编程模型 Apache Beam。

3) 即席查询分析 (ad-hoc query)

大数据进行即席查询分析近两年日益成为关注领域。即席查询(Ad Hoc)是用户根据自己的需求,灵活的选择查询条件,系统能够根据条件快速的进行查询分析返回结果。即席查询和分析的计算模式兼具了良好的时效性与灵活性,是对批处理,流计算两大计算模式有力补充。大规模批量计算解决了大数据量批处理的问题,而即席查询分析则解决了适合商业智能分析人员的便捷交互式分析的问题。

业界常见的框架:Impala、Hawq、Dremel、Drill、Phoenix、Tajo、Presto、Hortonworks Stinger。

4) 全量计算 & 增量计算

很多大数据的任务中,数据是一个增量收集和更新的过程,这时候对于数据的处理可以使是全量加上增量计算的方式。增量计算只对部分新增数据进行计算来极大提升计算过程的效率,可应用到数据增量或周期性更新的场合。典型例子就是搜索引擎的周期性索引更新。

相关基础知识:Lambda 架构、Kappa 架构、IOTA 架构。

业界常见框架:Microsoft Kineograph、Galaxy、Google Percolator、Druid。

5) 图计算

图计算是一类在实际应用中非常常见的计算类型。许多大数据都是以大规模图或网络的形式呈现,如社交网络、传染病传播途径、交通事故对路网的影响许多非图结构的大数据,也常常会被转换为图模型后进行分析。图数据结构很好地表达了数据之间的关联性。要处理规模巨大的图数据,传统的单机处理方式已经无力处理,必须采用大规模机器集群构成的并行数据库。

相关基础知识:GAS 编程模型、BSP 模型、节点为中心编程模型、计算范型。

业界常见框架:Pregel、GraphChi、Spark GraphX、PowerGrah、Apache Giraph、Apache Hama。

6) 分布式协调系统

大规模分布式系统中需要解决各种类型的协调需求,例如当当系统中加入一个进程或者物理机,如何自动获取参数和配置,当进程和物理机发生改变如何通知其他进程;单主控服务发生瘫痪,如何能够从备份中选取新的主控服务。分布式协调系统适用于大型的分布式系统,可以提供 统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等服务。

业界常见框架:Chubby、阿里 Diamond、阿里 ConfigServer、zookeeper、Eureka、Consul。

7) 集群资源管理和调度

资源管理调度的本质是集群、数据中心级别的资源统一管理和分配,以提高效率。其中,多租户、弹性计算、动态分配是资源管理系统要核心解决问题。

管理调度框架:Omega、Brog、Mesos、Corona、Yarn、Torca。

管理和监控工具:Ambari、Chukwa、Hue。

8) 工作流管理引擎

随着企业的发展,他们的工作流程变得更加复杂,越来越多的有着错综复杂依赖关系的工作流需要增加监控,故障排除。如果没有明确的血缘关系。就可能出现问责问题,对元数据的操作也可能丢失。这就是有向无环图(DAG),数据管道和工作流管理器发挥作用的地方。

复杂的工作流程可以通过 DAG 来表示。DAG 是一种图结构。信息必须沿特定方向在顶点间传递,但信息无法通过循环返回起点。DAG 的构建是数据管道,或者是一个进程的输入成为下一个进程的输入的顺序进程。

构建这些管道可能会很棘手,但幸运的是,有几个开源的工作流管理器可用于解决这个问题,允许程序员专注于单个任务和依赖关系。

业界常见框架:Oozie、Azkaban、Luigi、Airflow。

  1. 数据仓库

随着数据库技术和管理系统的不断发展和普及,人们已不再满足于一般的业务处理。同时随着数据量的不断增大,如何能够更好地利用数据,将数据转化成商业价值,已经成为人们越来越关心的问题。

举例来说,数据库系统可以很好地解决事务处理,实现对数据的“增删改查”等功能,但是却不能提供很好的决策分析支持。因为事务处理首先考虑响应的及时性,多数情况都是在处理当前数据,而决策分析需要考虑的是数据的集成性和历史性,可能对分析处理的时效性要求不高。所以为了提高决策分析的有效性和完整性,人们逐渐将一部分或者大部分数据从联机事物处理系统中剥离出来,形成今天的数据仓库系统。

  1. 数据挖掘

分析挖掘是通过算法从大数据红提炼出具有价值的信息和知识的过程。以机器和算法为主导,充分发挥机器在数据分析挖掘中的效率和可靠性的优势,提供对结构化数据以及文本、图像、视频和语言等非结构数据分析挖掘。数据分析挖掘包括一些通用的数据挖掘方法,也包括深度学习,机器学习,统计分析等。

二、数据应用

大数据应用是整个大数据生命周期中最重要的一个环节之一。随着大数据应用越来越广泛,应用的行业也越来越低,每天都可以看到大数据的一些新奇的应用,从而帮助人们从中获取到真正有用的价值。大数据应用方面相关技术有数据服务,数据可视化,数据共享,数据预警,应用部署。

三、数据治理

过去的十年,我们经历了数据量高速膨胀的时期,这些海量的、分散在不同角落的异构数据导致了数据资源的价值低、应用难度大等问题。如何将海量数据应用于决策、营销和产品创新?如何利用大数据平台优化产品、流程和服务?如何利用大数据更科学地制定公共政策、实现社会治理?所有这一切,都离不开大数据治理。可以说,在大数据战略从顶层设计到底层实现的“落地”过程中,治理是基础,技术是承载,分析是手段,应用是目的。这个时候数据治理体系建设可能不是一个选择,而是唯一的出路。

  1. 元数据管理

元数据 MetaData 狭义的解释是用来描述数据的数据,广义的来看,除了业务逻辑直接读写处理的那些业务数据,所有其它用来维持整个系统运转所需的信息/数据都可以叫作元数据。比如数据表格的 Schema 信息,任务的血缘关系,用户和脚本/任务的权限映射关系信息等等。

管理这些附加 MetaData 信息的目的,一方面是为了让用户能够更高效的挖掘和使用数据,另一方面是为了让平台管理人员能更加有效的做好系统的维护管理工作。

  1. 数据安全

没有安全做保障,一切大数据应用都是空谈。数据业务未来最大的挑战就是如何安全落地。特别是随着一些列数据安全的问题发生,对大数据的保护成为全球关注的热点。各个企业特别是掌握了海量用户信息的大型企业,有责任也有义务去保护数据的安全。

四、大数据典型模式

  1. B2B大数据交易

所国内外均有企业在推动大数据交易。目前,我国正在探索“国家队”性质的B2B大数据交易所模式。2014年2月20日,国内首个面向数据交易的产业组织—中关村大数据交易产业联盟成立,同日,中关村数海大数据交易平台启动,定位大数据的交易服务平台。2015年4月15日,贵阳大数据交易所正式挂牌运营并完成首批大数据交易。贵阳大数据交易所完成的首批数据交易卖方为深圳市腾讯计算机系统有限公司、广东省数字广东研究院,买方为京东云平台、中金数据系统有限公司。2015年5月26日,在2015贵阳国际大数据产业博览会暨全球大数据时代贵阳峰会上,贵阳大数据交易所推出《2015年中国大数据交易白皮书》和《贵阳大数据交易所702公约》,为大数据交易所的性质、目的、交易标的、信息隐私保护等指明了方向,奠定了大数据金矿变现的产业基础。

  1. 咨询研究报告

国内咨询报告的数据大多来源于国家统计局等各部委的统计数据,由专业的研究员对数据加以分析、挖掘,找出各行业的定量特点进而得出定性结论,常见于“市场调研分析及发展咨询报告”,如“2015~2020年中国通信设备行业市场调研分析及发展咨询报告”、“2015~2020年中国手机行业销售状况分析及发展策略”、“2015年光纤市场分析报告”等,这些咨询报告面向社会销售,其实就是O2O的大数据交易模式。

各行各业的分析报告为行业内的大量企业提供了智力成果、企业运营和市场营销的数据参考,有利于市场优化供应链,避免产能过剩,维持市场稳定。这些都是以统计部门的结构化数据和非结构化数据为基础的专业研究,这就是传统的一对多的行业大数据商业模式。

  1. 数据挖掘云计算软件

云计算的出现为中小企业分析海量数据提供了廉价的解决方案,SaaS模式是云计算的最大魅力所在。云计算服务中SaaS软件可以提供数据挖掘、数据清洗的第三方软件和插件。

业内曾有专家指出,大数据=海量数据+分析软件+挖掘过程,通过强大的各有千秋的分析软件来提供多样性的数据挖掘服务就是其盈利模式。国内已经有大数据公司开发了这些架构在云端的大数据分析软件:它集统计分析、数据挖掘和商务智能于一体,用户只需要将数据导入该平台,就可以利用该平台提供的丰富算法和模型,进行数据处理、基础统计、高级统计、数据挖掘、数据制图和结果输出等。数据由系统统一进行管理,能够区分私有和公有数据,可以保证私有数据只供持有者使用,同时支持多样数据源接入,适合分析各行各业的数据,易学好用、操作界面简易直观,普通用户稍做了解即可使用,同时也适合高端用户自己建模进行二次开发。

  1. 大数据咨询分析服务

机构及企业规模越大其拥有的数据量就越大,但是很少有企业像大型互联网公司那样有自己的大数据分析团队,因此必然存在一些专业型的大数据咨询公司,这些公司提供基于管理咨询的大数据建模、大数据分析、商业模式转型、市场营销策划等,有了大数据作为依据,咨询公司的结论和咨询成果更加有说服力,这也是传统咨询公司的转型方向。比如某国外大型IT研究与顾问咨询公司的副总裁在公开场合曾表示,大数据能使贵州农业节省60%的投入,同时增加80%的产出。该公司能做出这样的论断当然是基于其对贵州农业、天气、土壤等数据的日积月累以及其建模分析能力。

  1. 政府决策咨询智库

党的十八届三中全会通过的《中共中央关于全面深化改革若干重大问题的决定》明确提出,加强中国特色新型智库建设,建立健全决策咨询制度。这是中共中央文件首次提出“智库”概念。

近几年,一批以建设现代化智库为导向、以服务国家发展战略为目标的智库迅速成立,中国智库数量从2008年的全球第12位跃居当前第2位。大数据是智库的核心,没有了数据,智库的预测和分析将为无源之水。在海量信息甚至泛滥的情况下,智库要提升梳理、整合信息的能力必然需要依靠大数据分析。

研究认为,93%的行为是可以预测的,如果将事件数字化、公式化、模型化,其实多么复杂的事件都是有其可以预知的规律可循,事态的发展走向是极易被预测的。可见,大数据的应用将不断提高政府的决策效率和决策科学性。

  1. 自有平台大数据分析

随着大数据的价值被各行各业逐渐认可,拥有广大客户群的大中型企业也开始开发、建设自有平台来分析大数据,并嵌入到企业内部的ERP系统信息流,由数据来引导企业内部决策、运营、现金流管理、市场开拓等,起到了企业内部价值链增值的作用。

在分析1.0时代,数据仓库被视作分析的基础。2.0时代,公司主要依靠Hadoop集群和NoSQL数据库。3.0时代的新型“敏捷”分析方法和机器学习技术正在以更快的速度来提供分析结果。更多的企业将在其战略部门设置首席分析官,组织跨部门、跨学科、知识结构丰富、营销经验丰富的人员进行各种类型数据的混合分析。

  1. 大数据投资工具

证券市场行为、各类指数与投资者的分析、判断以及情绪都有很大关系。2002年诺贝尔经济学奖授予了行为经济学家卡尼曼和实验经济学家史密斯,行为经济学开始被主流经济学所接受,行为金融理论将心理学尤其是行为科学理论融入金融中。现实生活中拥有大量用户数据的互联网公司将其论坛、博客、新闻报道、文章、网民用户情绪、投资行为与股票行情对接,研究的是互联网的行为数据,关注热点及市场情绪,动态调整投资组合,开发出大数据投资工具,比如大数据类基金等。这些投资工具直接将大数据转化为投资理财产品。

  1. 定向采购线上交易平台

数据分析结果很多时候是其他行业的业务基础,国内目前对实体经济的电子商务化已经做到了B2C、C2C、B2B等,甚至目前O2O也越来越流行,但是对于数据这种虚拟商品而言,目前还没有具体的线上交易平台。比如服装制造企业针对某个省份的市场,需要该市场客户的身高、体重的中位数和平均数数据,那么医院体检部门、专业体检机构就是这些数据的供给方。通过获取这些数据,服装企业将可以开展精细化生产,以更低的成本生产出贴合市场需求的服装。假想一下,如果有这样一个“大数据定向采购平台”,就像淘宝购物一样,可以发起买方需求,也可以推出卖方产品,通过这样的模式,外加第三方支付平台,“数据分析结论”这种商品就会悄然而生,这种商品不占用物流资源、不污染环境、快速响应,但是却有“供”和“需”双方巨大的市场。而且通过这种平台可以保障基础数据安全,大数据定向采购服务平台交易的不是底层的基础数据,而是通过清洗建模出来的数据结果。所有卖方、买方都要实名认证,建立诚信档案机制并与国家信用体系打通。

  1. 非营利性数据征信评价机构

在国家将公民信息保护纳入刑法范围之前,公民个人信息经常被明码标价公开出售,并且形成了一个“灰色产业”。为此,2009年2月28日通过的刑法修正案(七)中新增了出售、非法提供公民个人信息罪,非法获取公民个人信息罪。该法条中特指国家机关或者金融、电信、交通、教育、医疗等单位的工作人员,不得将公民个人信息出售或非法提供给他人。而公民的信息在各种考试中介机构、房产中介、钓鱼网站、网站论坛依然在出售,诈骗电话、骚扰电话、推销电话在增加运营商话务量的同时也在破坏整个社会的信用体系和公民的安全感。

虽然数据交易之前是交易所规定的经过数据清洗的数据,但是交易所员工从本质上是无法监控全国海量的数据的。数据清洗只是对不符合格式要求的数据进行清洗,主要有不完整的数据、错误的数据、重复的数据三大类。因此,建立非营利性数据征信评价机构是非常有必要的,将数据征信纳入企业及个人征信系统,作为全国征信系统的一部分,避免黑市交易变成市场的正常行为。

除了征信评价机构之外,未来国家公共安全部门也许会成立数据安全局,纳入网络警察范畴,重点打击将侵犯企业商业秘密、公民隐私的基础数据进行数据贩卖的行为。

五、大数据发展趋势

轻装信息化为我们认识数字经济、“互联网+”等提供了一个科学合理的认识和理论框架。今后,我国应该继续坚持中国特色信息化认识框架,加强研究与创新,以轻装信息化为理论基础,以“互联网+”为政策总线,以数字经济为发展方向,构建科学合理的信息化政策框架。

趋势一:物联网

物联网:把所有物品通过信息传感设备与互联网连接起来,进行信息交换,即物物相息,以实现智能化识别和管理。

物联网是新一代信息技术的重要组成部分,也是“信息化”时代的重要发展阶段。

物联网的核心和基础仍然是互联网,是在互联网基础上的延伸和扩展的网络;

其用户端延伸和扩展到了任何物品与物品之间,进行信息交换和通信,也就是物物相息。

趋势二:智慧城市

智慧城市就是运用信息和通信技术手段感测、分析、整合城市运行核心系统的各项关键信息;

对包括民生、环保、公共安全、城市服务、工商业活动在内的各种需求做出智能响应。

其实质是利用先进的信息技术,实现城市智慧式管理和运行,进而为城市中的人创造更美好的生活,促进城市的和谐、可持续成长。

这项趋势的成败取决于数据量跟数据是否足够,这有赖于政府部门与民营企业的合作;

此外,发展中的5G网络是全世界通用的规格,如果产品被一个智慧城市采用,将可以应用在全世界的智慧城市。

趋势三:增强现实(AR)与虚拟现实(VR)

拟现实技术是一种可以创建和体验虚拟世界的计算机仿真系统,它利用计算机生成一种模拟环境;

是一种多源信息融合的、交互式的三维动态视景和实体行为的系统仿真使用户沉浸到该环境中。

这两个技术最近开始降价跟提升质量,走向大众市场。

VR应用一开始以电玩为主,现在的应用却超越电玩,可以用来教学,靠着VR设备,把家里的插头电线完成配线,就像有水电技师在教学一样。

趋势四:区块链技术

区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。

所谓共识机制是区块链系统中实现不同节点之间建立信任、获取权益的数学算法。

区块链技术是指一种全民参与记账的方式。所有的系统背后都有一个数据库,你可以把数据库看成是就是一个大账本。

区块链有很多不同应用方式,美国几乎所有科技公司都在尝试如何应用,最常见的应用是比特币跟其他加密货币的交易。

趋势五:语音识别技术

人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。

很多专家都认为语音识别技术是2000年至2010年间,信息技术领域十大重要的科技发展技术之一。

语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等。

这项产业有个很大优点,就是发展技术的公司都打算把这项技术商品化。

像是google、Amazon跟苹果的语音识别技术都可透过授权,使用在其他业者的硬件服务上。

趋势六:人工智能(AI)

人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

人工智能需要被教育,汇入很多信息才能进化,进而产生一些意想不到的结果。

AI影响幅度很大,例如媒体业,现在计算机跟机器人可以写出很好的文章,而且1小时产出好几百篇,成本也低。

AI对经济发展会产生剧烈影响,很多知识产业跟白领工作也可能被机器人取代。

但他对于AI的态度很正面,这会让生活更好,例如自驾车绝对比人驾车更安全。

趋势七:数字汇流

大约从 1995 年左右,就陆续有人在讨论所谓“数位汇流”,在不同的使用情境之下,我们还是会需要很不一样的数位装置 — 光是萤幕大小就有好多种选项,音响效果、摄影机,都需要不同的配套。

所以数位比较像是“iCloud”,也就是说所有的装置会存取同一个远端资料库,让你的数位生活可以完全同步,随时、无缝的切换使用情境。

但除了“载具”的汇流,我们更应关心的是另一个数位汇流,一个网路商业模式的汇流,或者更明确的说,数字汇流就是“内容”与“电子商务”的汇流。

大数据成为时代发展一个必然的产物,而且大数据正在加速渗透到我们的日常生活中,从衣食住行各个层面均有体现。

大数据时代,一切可量化,一切可分析。

谁也不能断定大数据未来真正的发展趋势,但一定是以多种技术为依托且相互结合,才能释放大数据的“洪荒之力”。

你可能感兴趣的:(大数据的普及讲解)