1.什么是区块链?
区块链起源于比特币区,块链是一个信息技术领域的术语。从本质上讲,它是一个共享数据库,存储于其中的数据或信息,具有“不可伪造”“全程留痕”“可以追溯”“公开透明”“集体维护”等特征。基于这些特征,区块链技术奠定了坚实的“信任“基础,创造了可靠的“合作”机制,具有广阔的运用前景。
区块链是分布式数据存储、点对点传输、共识机制、 加密算法等计算机技术的新型应用模式。
2.区块链类型
2.1公有区块链
世界上任何个体或者团体都可以发送交易,且交易能够获得该区块链的有效确认,任何人都可以参与其共识过程。
2.2私有区块链
仅仅使用区块链的总账技术进行记账,可以是一个公司,也可以是个人,独享该区块链的写入权限,本链 与其他的分布式存储方案没有太大区别。
2.3联合区块链
由某个群体内部指定多个预选的节点为记账人,每个 块的生成由所有的预选节点共同决定(预选节点参与 共识过程),其他接入节点可以参与交易,但不过问 记账过程(本质上还是托管记账,只是变成分布式记 账,预选节点的多少,如何决定每个块的记账者成为该区块链的主要风险点),其他任何人可以通过该区 块链开放的API进行限定查询
3.特征
3.1 去中心化
区块链技术不依赖额外的第三方管理机构或硬件设 施,没有中心管制,除了自成一体的区块链本身,通 过分布式核算和存储,各个节点实现了信息自我验证、传递和管理。去中心化是区块链最突出最本质的
3.2 开放性
区块链技术基础是开源的,除了交易各方的私有信息 被加密外,区块链的数据对所有人开放,任何人都可 以通过公开的接口查询区块链数据和开发相关应用, 因此整个系统信息高度透明。
3.3 独立性
基于协商一致的规范和协议(类似比特币采用的哈希 算法等各种数学算法),整个区块链系统不依赖其他 第三方,所有节点能够在系统内自动安全地验证、交换数据,不需要任何人为的干预
3.4 安全性
只要不能掌控全部数据节点的51%,就无法肆意操控 修改网络数据,这使区块链本身变得相对安全,避免 了主观人为的数据变更
3.5 匿名性
除非有法律规范要求,单从技术上来讲,各区块节点 的身份信息不需要公开或验证,信息传递可以匿名进行
4.应用
金融/物联网/物流/公共服务/数字版权/保险/公益 等各方面都有应用
1.什么是物联网
物联网是一个基于互联网、传统电信网等的信息承载体,它让所有能够被独立寻址的普通物理对象形成互联互通的网络。
物联网的核心和基础仍然是互联网,是在互联网基础上的延伸和扩展的网络,其用户端延伸和扩展到了任何物品与物品之间,进行 信息交换和通信。
2.基本特征
2.1 整体感知
可以通过射频识别,二维码,智能传感器感知获取物体各类信息。
2.2 可靠传输
通过对互联网、无线网络的融合,将物体的信息实 时、准确地传送,以便信息交流、分享。
2.3 智能处理
用各种智能技术,对感知和传送到的数据、信息进行 分析处理,实现监测与控制的智能化。
3.包含的关键技术
射频识别技术、传感网、M2M系统框架、云计算
4.应用
智能交通、智能家居
1.什么是大数据
大数据,指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
2.大数据特征
容量:
数据的大小决定所考虑的数据的价值和潜在的信息
种类:
数据类型的多样性
速度:
指获得数据的速度
可变性:
妨碍了处理和有效地管理数据的过程
真实性:
数据的质量
复杂性:
数据量巨大,来源多渠道
价值:
合理运用大数据,以低成本创造高价值
3.大数据Hadoop技术
Hadoop是Apache公司开发的一个开源框架,它允许在整个集群使用简单编程模型计算机的分布式环境存储并处理大数据。
Hadoop的核心有以下几点:
HDFS(分布式文件存储系统)
数据以块的形式,分布在集群的不同节点。在使用 HDFS时,无需关心数据是存储在哪个节点上、或者 是从哪个节点从获取的,只需像使用本地文件系统一 样管理和存储文件系统中的数据。
MapReduce(分布式计算框架)
分布式计算框架将复杂的数据集分发给不同的节点去操作,每个节点会周期性的返回它所完成的工作和最新的状态。
YARN(资源调度器)
相当于电脑的任务管理器,对资源进行管理和调度
4.大数据发展趋势
数据资源化
资源化是指大数据成为企业和社会关注的重要战略资 源,并已成为大家争相抢夺的新焦点
与云计算的深度结合
大数据离不开云处理,云处理为大数据提供了弹性可拓展的基础设备,是产生大数据的平台之一
科学理论的突破
随着大数据的快速发展,就像计算机和互联网一样,大数据很有可能是新一轮的技术革命。
数据泄露泛滥
1.什么是人工智能
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科 学
2.人工智能、机器学习、深度学习三者的关系
机器学习:一种实现人工智能的方法
深度学习:一种实现机器学习的技术
2.1 什么是深度学习
深度学习是学习样本数据的内在规律和表示层次,这 些学习过程中获得的信息对诸如文字,图像和声音等 数据的解释有很大的帮助。它的最终目标是让机器能 够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。
深度学习是一类模式分析方法的统称,就具体研究内容而言,主要涉及三类方法:
①基于卷积运算的神经网络系统,即卷积神经网络( CNN)
②基于多层神经元的自编码神经网络,包括自编码( Auto encoder)以及近年来受到广泛关注的稀疏编码
两类
③以多层自编码神经网络的方式进行预训练,进而结合 鉴别信息进一步优化神经网络权值的深度置信网络(DBN)
2.2 深度学习特点
区别于传统的浅层学习,深度学习的不同在于强调了模型结构的深度,通常有5层、6层,甚至10多层的隐层节点;明确了特征学习的重要性。也就是说,通过逐层特征变换,将样本在原空间的特征表示变换到一个新特征空间,从而使分类或预测更容易。与人工规则构造特征的方法相比,利用大数据来学习特征,更能够刻画数据丰富的内在信息
2.3 深度学习典型模型
典型的深度学习模型有卷积神经网络( convolutional neural network)、DBN和堆栈自编码网络(stacked auto-encoder network)模型等,下面对这些模型进行描述。
卷积神经网络模型
在无监督预训练出现之前,训练深度神经网络通常非常困难,而其中一个特例是卷积神经网络。卷积神经网络受视觉系统的结构启发而产生。第一个卷积神经网络计算模型是在Fukushima的神经认知机中提出的,基于神经元之间的局部连接和分层组织图像转换,将有相同参数的神经元应用于前一层神经网络的不同位置,得到一种平移不变神经网络结构形式。后来,Le Cun等人在该思想的基础上,用误差梯度设计并训练卷积神经网络,在一些模式识别任务上得到优越的性能。至今,基于卷积神经网络的模式识别系统是最好的实现系统之一,尤其在手写体字符识别任务上表现出非凡的性能。
深度信任网络模型
DBN可以解释为贝叶斯概率生成模型,由多层随机隐变量组成,上面的两层具有无向对称连接,下面的层得到来自上一层的自顶向下的有向连接,最底层单元的状态为可见输入数据向量。DBN由若2F结构单元堆栈组成,结构单元通常为RBM(RestIlcted Boltzmann Machine,受限玻尔兹曼机)。堆栈中每个RBM单元的可视层神经元数量等于前一RBM单元的隐层神经元数量。根据深度学习机制,采用输入样例训练第一层RBM单元,并利用其输出训练第二层RBM模型,将RBM模型进行堆栈通过增加层来改善模型性能。在无监督预训练过程中,DBN编码输入到顶层RBM后,解码顶层的状态到最底层的单元,实现输入的重构。RBM作为DBN的结构单元,与每一层DBN共享参数。
堆栈自编码网络模型
堆栈自编码网络的结构与DBN类似,由若干结构单元堆栈组成,不同之处在于其结构单元为自编码模型( auto-en-coder)而不是RBM。自编码模型是一个两层的神经网络,第一层称为编码层,第二层称为解码层。
2.4 深度学习训练过程
自下上升的非监督学习
就是从底层开始,一层一层地往顶层训练。采用无标定数据(有标定数据也可)分层训练各层参数,这一步可以看作是一个无监督训练过程,这也是和传统神经网络区别最大的部分,可以看作是特征学习过程。具体的,先用无标定数据训练第一层,训练时先学习第一层的参数,这层可以看作是得到一个使得输出和输入差别最小的三层神经网络的隐层,由于模型容量的限制以及稀疏性约束,使得得到的模型能够学习到数据本身的结构,从而得到比输入更具有表示能力的特征;在学习得到n-l层后,将n-l层的输出作为第n层的输入,训练第n层,由此分别得到各层的参数。
自顶向下的监督学习
就是通过带标签的数据去训练,误差自顶向下传输,对网络进行微调。基于第一步得到的各层参数进一步优调整个多层模型的参数,这一步是一个有监督训练过程。第一步类似神经网络的随机初始化初值过程,由于第一步不是随机初始化,而是通过学习输入数据的结构得到的,因而这个初值更接近全局最优,从而能够取得更好的效果。所以深度学习的良好效果在很大程度上归功于第一步的特征学习的过程。
3.人工智能的应用
机器视觉,指纹识别,人脸识别,专家系统,自动规 划,智能搜索,定理证明,博弈,语言和图像理解 等。人工智能是一门边缘学科,属于自然科学和社会 科学的交叉
4.人工智能的现有成果
人际对弈、模式识别、自动驾驶
1.什么是云计算
狭义上讲,云计算就是一种提供资源的网络,从广义上说,云计算是与信息技术、软件、互联网相关的一 种服务,这种计算资源共享池叫做“云”,云计算把许 多计算资源集合起来,通过软件实现自动化管理,只 需要很少的人参与,就能让资源被快速提供。
2.云计算特点
虚拟化技术
动态可拓展
按需部署
可靠性高
灵活性高
性价比高
可拓展性
3.云计算服务类型
3.1平台即服务
(Platform as a Service,缩写PaaS)与软件即服务不同,平台即服务是面向开发者的云计算。这种云计算最大的特征是它自带开发环境,并向开发者提供开发工具包。
它的代表有Google的GAE(Google App Engine),还有国内的百度的BAE、新浪的SAE等。平台即服务与软件即服务之间可以相互转换。如果是消费者,购买Dropbox的服务,那Dropbox就是软件即服务。如果是开发者,利用Dropbox提供的开发包借助Dropbox的服务开发自己的服务,那么Dropbox本身就是平台即服务,构筑在Dropbox之上的开发者的服务就是软件即服务。
以前,开发者如果要搭建一个网站,需要做很多准备工作,比如购买服务器,安装操作系统,搭建开发环境等等。现在,开发者如果购买平台即服务云计算,就可以省去上面费时费力的准备工作,直接进行网站的开发。不仅如此,开发者还可以使用各种现成的服务,比如GAE会向开发者提供Google内部使用的先进的开发工具和领先的大数据技术。
这一切都使得网站开发变得比以前轻松很多,这也是云计算时代互联网更加繁荣的原因之一。
3.2软件即服务
(Software as a Service,缩写SaaS)软件即服务是普通消费者可以感知到的云计算,它的代表有Dropbox,还有国内用户熟悉的百度云、腾讯微云等。
这种云计算最大的特征就是消费者并不购买任何实体的产品,而是购买具有与实体产品同等功能的服务。以前,我们是花钱购买的是服务器上的存储空间。现在,我们花钱购买的是Dropbox的存储服务。表面上看,两者没有实际的区别。但是换一个角度来看,两者却完全不同。以前,我们花钱购买服务器上的存储空间,假设是空间容量是10G,我们是真正的买到了服务器上的10G空间。如果我们不上传文件的话,那么服务器上的这10G空间就是空的。现在,我们购买Dropbox的存储服务,假设空间容量还是10G,我们却并没有真正的买到Dropbox服务器上10G的空间,我们买到的是10G空间的服务。也就是说,如果我们上传文件,Dropbox会将文件分开放在任何地方的任何服务器上,如果我们不上传文件,Dropbox的服务器上就根本没有属于我们的任何空间。
3.3基础架构即服务
(Infrastructure as a Service,缩写IaaS)基础架构即服务一般面向的是企业用户,它的代表有Amazon的AWS(Amazon Web Service),还有国内的PPPCloud等。
这种云计算最大的特征在于,它并不像传统的服务器租赁商一样出租具体的服务器实体,它出租的是服务器的计算能力和存储能力。AWS将Amazon计算中心的所有的服务器的计算能力和存储能力整合成一个整体,然后将其划分为一个个虚拟的实例,每一个实例代表着一定的计算能力和存储能力。购买AWS云计算服务的公司就以这些实例就作为计量单位。基础架构即服务与平台即服务有显著的区别,基础架构即服务提供的只有计算能力和存储能力的服务,平台即服务提供的除了计算能力和存储能力的服务,还提供给开发者的完备的开发工具包和配套的开发环境。也就是说,开发者使用平台即服务时,可以直接开始进行开发工作。而使用基础架构即服务时,则必须先进行如安装操作系统、搭建开发环境等准备工作。
基础架构即服务是云计算的基石,平台即服务和软件即服务构建在它的上面,分别为开发者和消费者提供服务,而它本身则为大数据服务。
1.什么是数据挖掘
数据挖掘是指从大量数据中通过算法搜索隐藏于其中信息的过程。
数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标
2.数据挖掘特点
基于大量数据:小型数据可以人工分析总结规律、小数据量无法反应真实世界普遍特性
非平凡性:数据挖掘的知识一定是不简单的
隐含性:数据挖掘要发现深藏数据内部的知识,而不是直接浮 现在数据表面的知识
新奇性:挖掘的知识在以前是未知的,否则只是验证了经验
价值性:可以为企业带来直接间接的效益
3.数据挖掘步骤
定义问题
建立数据挖掘库
分析数据
准备数据
建立模型
评价模型和分析
4.数据挖掘经典算法
4.1 神经网络法
模拟生物神经系统的结构和功能,是一种通过训练来学习的非线性预测模型,它将每一个连接看作一个处理单元,试图模拟人脑神经元的功能,可完成分类、聚类、特征挖掘等多种数据挖掘任务
4.2 决策树法
决策树是根据对目标变量产生效用的不同而建构分类的规则,通过一系列的规则对数据进行分类的过程,其表现形式是类似于树形结构的流程图。比如,在贷款申请中,要对申请的风险大小做出判断。
4.3 遗传算法
遗传算法模拟了自然选择和遗传中发生的繁殖、交配和基因突变现象,是一种采用遗传结合、遗传交叉变异及自然选择等操作来生成实现规则的、基于进化理论的机器学习方法。
4.4 粗糙集法
粗糙集法也称粗糙集理论,是一种新的处理含糊、不精确、不完备问题的数学工具,可以处理数据约简、数据相关性发现、数据意义的评估等问题。
4.5 模糊集法
模糊集法是利用模糊集合理论对问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。模糊集合理论是用隶属度来描述模糊事物的属性。系统的复杂性越高,模糊性就越强
4.6 关联规则法
关联规则反映了事物之间的相互依赖性或关联性
5.数据挖掘的任务
预测建模
分类:预测离散目标变量
回归:预测连续目标变量
关联分析:用于发现描述数据强关联特征模式
聚类分析:发现紧密相关的观测值族群,发现紧密相关的观测值群组,使得与属于不同簇的观察值相比,同一簇的观察值相互之间尽可能的类似
异常检测:识别其特征显著不同于其他数据的观测值
6.挖掘过程
数据准备
数据集成
数据选择
预处理
数据挖掘
结构表达与解释
7.成功案例
数据挖掘帮助Credilogros Cía Financiera S.A.改善客户信用评分、数据挖掘帮助DHL实时跟踪货箱温度、电信行业应用
1.什么是5G
第五代移动通信技术(英语:5th generation mobile networks或5th generation wireless systems、5th-Generation,简称5G或5G技术)是最新一代蜂窝移动通信技术,也是继4G(LTE-A、WiMax)、3G(UMTS、LTE)和2G(GSM)系统之后的延伸。5G的性能目标是高数据速率、减少延迟、节省能源、降低成本、提高系统容量和大规模设备连接。
5G网络的主要优势在于,数据传输速率远远高于以前的蜂窝网络,最高可达10Gbit/s,比当前的有线互联网要快,比先前的4G LTE蜂窝网络快100倍。另一个优点是较低的网络延迟(更快的响应时间),低于1毫秒,而4G为30-70毫秒。由于数据传输更快,5G网络将不仅仅为手机提供服务,而且还将成为一般性的家庭和办公网络提供商,与有线网络提供商竞争。以前的蜂窝网络提供了适用于手机的低数据率互联网接入,但是一个手机发射塔不能经济地提供足够的带宽作为家用计算机的一般互联网供应商
2.应用领域
2.1 车联网与自动驾驶
车联网技术经历了利用有线通信的路侧单元(道路提示牌)以及2G/3G/4G网络承载车载信息服务的阶段,正在依托高速移动的通信技术,逐步步入自动驾驶时代。根据中国、美国、日本等国家的汽车发展规划,依托传输速率更高、时延更低的5G网络,将在2025年全面实现自动驾驶汽车的量产,市场规模达到1万亿美元 。
2.2 外科手术
2019年1月19日,中国一名外科医生利用5G技术实施了全球首例远程外科手术。这名医生在福建省利用5G网络,操控30英里(约合48公里)以外一个偏远地区的机械臂进行手术。在进行的手术中,由于延时只有0.1秒,外科医生用5G网络切除了一只实验动物的肝脏。5G技术的其他好处还包括大幅减少了下载时间,下载速度从每秒约20兆字节上升到每秒50千兆字节——相当于在1秒钟内下载超过10部高清影片。5G技术最直接的应用很可能是改善视频通话和游戏体验,但机器人手术很有可能给专业外科医生为世界各地有需要的人实施手术带来很大希望。
5G技术将开辟许多新的应用领域,以前的移动数据传输标准对这些领域来说还不够快。5G网络的速度和较低的延时性首次满足了远程呈现、甚至远程手术的要求。
2.3. 智能电网
因电网高安全性要求与全覆盖的广度特性,智能电网必须在海量连接以及广覆盖的测量处理体系中,做到99.999%的高可靠度;超大数量末端设备的同时接入、小于20 ms的超低时延,以及终端深度覆盖、信号平稳等是其可安全工作的基本要求
1.IPV6简介
IPv6是英文“Internet Protocol Version 6”(互联网协议第6版)的缩写,是互联网工程任务组(IETF)设计的用于替代IPv4的下一代IP协议,其地址数量号称可以为全世界的每一粒沙子编上一个地址 。
由于IPv4最大的问题在于网络地址资源有限,严重制约了互联网的应用和发展。IPv6的使用,不仅能解决网络地址资源数量的问题,而且也解决了多种接入设备连入互联网的障碍 。
2.地址类型
IPv6协议主要定义了三种地址类型:单播地址(Unicast Address)、组播地址(Multicast Address)和任播地址(Anycast Address)。与原来在IPv4地址相比,新增了“任播地址”类型,取消了原来IPv4地址中的广播地址,因为在IPv6中的广播功能是通过组播来完成的。
单播地址:用来唯一标识一个接口,类似于IPv4中的单播地址。发送到单播地址的数据报文将被传送给此地址所标识的一个接口。
组播地址:用来标识一组接口(通常这组接口属于不同的节点),类似于IPv4中的组播地址。发送到组播地址的数据报文被传送给此地址所标识的所有接口。
任播地址:用来标识一组接口(通常这组接口属于不同的节点)。发送到任播地址的数据报文被传送给此地址所标识的一组接口中距离源节点最近(根据使用的路由协议进行度量)的一个接口。
IPv6地址类型是由地址前缀部分来确定,主要地址类型与地址前缀的对应关系如下:
1.定义:
边缘计算是一个分布式计算的范式,正如云计算也是一个分布式计算的范式。边缘计算的定义是任何在数据源和云数据中心之间的计算和网络资源。这个定义把数据源和云之间的所有设备都看成边缘计算设备。
例如智能手机是body things和云之间的边缘计算设备,智能家居的网关是home things和云之间的边缘计算设备,微数据中心MDC和Cloudlet是移动设备和云之间的边缘计算设备。
2.边缘计算的数据的特点
大数据的特点是3V。Velocity(速度)、Variety(多样)、Volume(容量)
速度分为:实时、近实时、周期性、批处理、离线
多样分为:Things、Web/视频/社交、文本/音频/照片、数据库、表格
容量分为:ZB、EB、PB、TB、GB
3.边缘计算和云计算的区别
从数据的生产和消费的角度来看,云计算和边缘计算的区别:
云计算应用场景下,云端是数据的生产者,而用户和终端设备,是数据的消费者。例如,智能手机对于Youtube云计算是消费者。
边缘计算应用场景下,用户和终端设备,是数据的生产者。云端是数据的消费者。例如物联网传感器数据通过边缘计算上传到云端进行消费。
4.边缘计算和雾计算的区别
边缘计算和雾计算都是用来处理数据的,它们的区别不像边缘计算和云计算那么清晰。在很多场合,边缘计算和雾计算的概念甚至可以互相替换。它俩的关键区别,在于数据处理的位置。
边缘计算中,数据是在贴近设备侧处理的。比如传感器的数据通过串口传输到直连的网关内,进行分析处理。
雾计算中,数据处理是在局域网中或连在局域网上的硬件进行处理的。因此,雾计算的数据是在局域网的网关或者雾计算节点上进行的。
边缘计算的计算靠近数据源。边缘计算更关注于物,而雾计算更关注于现场的网络基础设施。
简而言之,边缘计算将智能放在设备侧,而雾计算是放在局域网内。
5.边缘计算的优点
低延迟,提高响应速度
在本地进行实时数据处理
更低的运维成本,因为数据量分散到不同节点
更低的网络流量,因为传输的数据更少
1.什么是数字孪生
根据GE的定义,数字孪生是资产和流程的软件形式的代表,可用于理解、预测和优化性能,其目的是提高资产和流程的性能。
GE认为,数字孪生由三个数字化的部分组成:
数据模型: 数据模型是描述数字孪生的结构和特征的系统、资产和组件的层次结构。
分析或算法:分析或算法是根据物理模型和人工智能/机器学习模型,预测、描述和规定当前和未来资产或流程的行为。
知识:知识是提供分析、主题专业知识、历史数据和行业最佳实践的数据源。
根据数字孪生的定义,数字孪生是资产和流程的软件形式的代表。那么,数字孪生就是数字化的,它的三个组成部分数据模型、分析或算法、知识,都是数字化的。
从动态的角度来看,数字孪生就是把知识(资产和流程的数据)喂到层次化的数据模型里面,然后用资产或流程的物理模型或人工智能/机器学习模型,对当前或未来的资产或流程的行为进行预测、描述。
2.如何才能实现数字孪生
数字孪生使用历史上下文和性能数据来理解过去,使用直接和间接数据来查看当前情况,并应用机器学习和知识来预测未来。
数字孪生的层次结构通常分为四层:组件、资产、系统和流程。
组件孪生(component twin):这是单个资产的某个组成部分的数字孪生,例如刀片、灯泡、旋转设备上的一个轴承。组件孪生通常是对其所属资产的性能有重大影响的主要子组件。
资产孪生(asset twin):这是整个资产的数字孪生。资产孪生是组件孪生的集合。例如汽轮机、发动机。资产孪生在设备级别提供可见性。
系统或单元孪生(system/unit twin):系统或单元孪生是一组执行系统或网络范围功能的资产的集合。例如飞机、联合循环电厂、石油和天然气精炼厂或工厂中的生产线。系统孪生提供了对一组相互依赖的设备的可见性。
流程孪生(process twin):流程孪生通常是提供一组活动或操作(如制造流程)的视图的最高级别的数字孪生。流程孪生可以由一组资产或系统孪生组成。它更关注流程本身,而不是设备。例如生产流程。
通过了解当前上下文和预测数字孪生的未来状态,就可以有效地监视、模拟和控制资产或流程,并优化资产的生命周期。
3.数字孪生的好处
提高可靠性和可用性
降低风险
降低维护成本
提高产量
提高生产速度