大数据技术名词解释

1、Hadoop:由Apache基金会所开发的分布式系统基础架构,是一个能够对大量数据进行分布式数据的软件框架。Hadoop包含多个技术核心:HDFS、MapReduce、Hive、Hbase。

2、HDFS:Hadoop Distributed File System,即分布式文件系统,其关键技术:NameNode、DataNode。

3、MapReduce:根源是函数性编程中的Map和Reduce,Map函数接受一组数据并将其转换为键/值对列表,Reduce函数接受Map函数生成的列表,然后根据它的键缩小键/值对。

4、Hbase:是一个分布式、面向列的开源数据库。

5、Hive:建立在Hadoop上的数据仓库基础架构,它提供一系列的工具,可以用来进行存储、查询、分析存储在Hadoop上的大规模数据的机制。

6、Zookeeper:为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。

7、Pig:大数据分析平台、为用户提供多种接口。Pig是一种编程语言,它简化了Hadoop常见的工作服务。

8、NoSQL:Not only SQL,泛指非关型数据库,区分传统的关系型数据库。表现最突出的产品有:MongoDB、Hbase、CouchDB、Cassandra、SequoiaDB等。

9、Spark:类似Hadoop MapReduce的通用并行框架,不同之处在于Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,可优化迭代工作负载。发展势头很猛,有人甚至因此认为Hadoop已死。

10、Docker:一个开源的应用程序容器,开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器上,也可以实现虚拟化。目前只能虚拟基于Linux的服务,Windows服务还不能被虚拟,但据说未来会。相对于虚拟机可以大大提高资源的利用率,而不是把有限的资源浪费在虚拟化硬件上,所以一经推出就备受吹捧。

-----不断补充中--------

大数据技术比较复杂,罗列名词的目的是帮助自己理清大数据技术的组成,不至于在工作中被各种术语弄晕,更好地提升自己。

你可能感兴趣的:(天天向上)