部署定制化的Azure HDInsight 集群及相关参数的优化



近期帮客户部署了一套基于Azure HDInsight的大数据项目,该系统一共部署了25A7节点的HDInsight的集群,整个集群的资源为200Core/1.4T内存.

HDInsight是微软Azure 上提供的Hadoop集群PAAS服务,它给客户带来的最主要的价值在于:

  1. 快速/按需部署HADOOP集群。通常用户要在本地数据中心或IDC部署一套HADOOP集群,需要部署相应的服务器/网络设备,安装操作系统,安装/配置HADOOP的系统软件等,工作量还是很大的。而基于HDInsight用户可以通过Azure的管理门户,输入一些简单的参数或是通过PowerShell脚本快速创建Hadoop集群。

  2. 同时支持HDFSBlob存储。这是HDInsight和本地部署Hadoop很不一样的地方。HDInsight除了支持HDFS,也支持把要处理的数据放在AzureBlob存储中(Azure推荐的方式)。这点对用户最大的好处在于,用户即便把HDInsight集群删除掉,相关数据不受影响。新建的HDInsight集群可以直接继续处理原有数据。另外,多个HDInsight的集群可以处理同一份数据。

  3. HDInsight可以按需部署/停用/伸缩。Azure上的服务通常是按资源使用的量来付费,即用多少付多少,HDInsight也是如此。典型的场景是用户并不需要7*24使用HADOOP来做计算处理,这样用户可以选择在需要的时候新建集群,而计算完成后删除集群,原始数据和结果集都在AzureBlob存储中。一个25个节点的集群大约在半个小时以内可以部署完成。

  4. HDInsight可以定制化。定制化体现在两个方面,一方面HDInsight相关配置参数(CoreSiteyarnSite/Mapreduce/hive等)可以直接使用系统默认,也可以根据实际应用的需要在创建的时候指定;另一方面,客户可以根据需要在HDInsight的节点上部署相关的应用,比如部署R语言/部署Solr等。

 

接下来,我从以下几个方面介绍在实际部署HDInsight集群中几个常见的需求及解决方案:

  1. 通过PowerShell脚本部署HDInsight集群

  2. 关于资源调用的问题及解决办法

  3. 解决集群迁移过程中元数据的导入/导出和迁移问题

  4. 如何调整和固化相关参数

  5. 调整HDInsight集群的时区及对HDInsight进行定制化

你可能感兴趣的:(hadoop,大数据,cloud,PaaS,HDinsight)