E
ETL:ETL 代表提取、转换和加载。它指的是这一个过程:「提取」原始数据,通过清洗/丰富的手段,把数据「转换」为「适合使用」的形式,并且将其「加载」到合适的库中供系统使用。即使 ETL 源自数据仓库,但是这个过程在获取数据的时候也在被使用,例如,在大数据系统中从外部源获得数据。
企业级应用(Enterprise applications):其实是一个软件行业内部通用的一个术语。如果解释成通俗易懂的话来说,那就是一个企业范围内所使用的、基于计算机的稳定的、安全的和高效的分布式信息管理系统。
探索性分析(Exploratory analysis) :在没有标准的流程或方法的情况下从数据中发掘模式。是一种发掘数据和数据集主要特性的一种方法
E字节(EB: Exabytes):约等于1000 PB(petabytes), 约等于1百万 GB。如今全球每天所制造的新信息量大约为1 EB。
提取-转换-加载(ETL: Extract, Transform and Load) – 是一种用于数据库或者数据仓库的处理过程。即从各种不同的数据源提取(E)数据,并转换(T)成能满足业务需要的数据,最后将其加载(L)到数据库。
企业生产力(Enterrrise productivity):企业在一定时期为社会提供某种产品或劳务的能力。
F
模糊逻辑(Fuzzy logic):我们有多少次对一件事情是确定的,例如 100% 正确?很稀少!我们的大脑将数据聚合成部分的事实,这些事实进一步被抽象为某种能够决定我们决策的阈值。模糊逻辑是一种这样的计算方式,与像布尔代数等等中的「0」和「1」相反,它旨在通过渐渐消除部分事实来模仿人脑。
故障切换(Failover) :当系统中某个服务器发生故障时,能自动地将运行任务切换到另一个可用服务器或节点上。
架构(Framework):又名软件架构,是有关软件整体结构与组件的抽象描述,用于指导大型软件系统各个方面的设计。
流量监控(Flow monitoring): 流量监控指的是对数据流进行的监控,通常包括出数据、入数据的速度、总流量。微信用户可以在腾讯手机管家4.7上实现流量的精准监控。
容错设计(Fault-tolerant design) :一个支持容错设计的系统应该能够做到当某一部分出现故障也能继续运行。
金融(Finance):是人们在不确定环境中进行资源跨期的最优配置决策的行为。
G
游戏化(Gamification) :在其他非游戏领域中运用游戏的思维和机制,这种方法可以以一种十分友好的方式进行数据的创建和侦测,非常有效。
图形数据库(Graph Databases) :运用图形结构(例如,一组有限的有序对,或者某种实体)来存储数据,这种图形存储结构包括边缘、属性和节点。它提供了相邻节点间的自由索引功能,也就是说,数据库中每个元素间都与其他相邻元素直接关联。
网格计算(Grid computing) :将许多分布在不同地点的计算机连接在一起,用以处理某个特定问题,通常是通过云将计算机相连在一起。
H
Hadoop 用户体验(Hadoop User Experience /Hue):Hue 是一个能够让使用 Apache Hadoop 变得更加容易的开源接口。它是一款基于 web 的应用;它有一款分布式文件系统的文件浏览器;它有用于 MapReduce 的任务设计;它有能够调度工作流的框架 Oozie;它有一个 shell、一个 Impala、一个 Hive UI 以及一组 Hadoop API。
人力资本(Human capital):是指劳动者受到教育、培训、实践经验、迁移、保健等方面的投资而获得的知识和技能的积累,亦称“非物力资本”。
硬件设施(Hardware): 计算机系统中由电子,机械和光电元件等组成的各种物理装置的总称。
高性能分析应用(HANA):这是 SAP 公司为大数据传输和分析设计的一个软硬件内存平台。
HBase: 一个分布式的面向列的数据库。它使用 HDFS 作为其底层存储,既支持利用 MapReduce 进行的批量计算,也支持利用事物交互的批量计算。
Hadoop – 一个开源的分布式系统基础框架,可用于开发分布式程序,进行大数据的运算与存储。
Hadoop数据库(HBase) :一个开源的、非关系型、分布式数据库,与Hadoop框架共同使用。
分布式文件系统(Hadoop Distributed File System):是一个被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。
高性能计算(HPC: High-Performance-Computing) :使用超级计算机来解决极其复杂的计算问题。
部署在云上的Hadoop(Hadoop in the cloud):某些云解决方案完全基于某个特定服务,该服务将会加载并处理数据。例如,借助 IBM Bluemix,您可以基于 IBM InfoSphere BigInsights 配置一个 MapReduce 服务,该服务可以处理高达 20GB 的信息。但 Hadoop 服务的大小、配置与复杂性是不可配置的。其他基于服务的解决方案也提供同样类别的复杂性。
I
基础设施即服务(Infrastructure As a Service):消费者通过Internet 可以从完善的计算机基础设施获得服务。这类服务称为基础设施即服务。
基础设施即代码(Infrastructure As a Code):一种通过源代码就可以解析计算和网络架构的一种方式,然后就可以认为是任何一种软件系统。这些代码可以在源代码管理中被保存以确保可审性和再塑性,受限于测试实践和持续交付的所有准则。这是十几年前就被用在处理成长中的云计算平台的方法,也将会是日后处理计算架构的主要方式。
内存计算(In-memory computing):通常认为,任何不涉及到 I/O 访问的计算都会更快一些。内存计算就是这样的技术,它把所有的工作数据集都移动到集群的集体内存中,避免了在计算过程中向磁盘写入中间结果。Apache Spark 就是一个内存计算的系统,它相对 Mapreduce 这类 I/O 绑定的系统具有很大的优势。
物联网(IoT):最新的流行语就是物联网(IoT)。IoT 是嵌入式对象中(如传感器、可穿戴设备、车、冰箱等等)的计算设备通过英特网的互联,它们能够收发数据。物联网生成了海量的数据,带来了很多大数据分析的机遇。
内存数据库(IMDB: In-memory) :一种数据库管理系统,与普通数据库管理系统不同之处在于,它用主存来存储数据,而非硬盘。其特点在于能高速地进行数据的处理和存取。
法律上的数据一致性(Juridical data compliance) :当你使用的云计算解决方案,将你的数据存储于不同的国家或不同的大陆时,就会与这个概念扯上关系了。你需要留意这些存储在不同国家的数据是否符合当地的法律。