本文共 1301 字,大约阅读时间需要 4 分钟。
在前两篇文章中,我们介绍了Hadoop集群部署的3个方式,即《》,《》。本文我们着重讲解最后一种方式,即构建自定义的Hadoop集群,作为对用户更为开放的一个部署选项。
在复杂的业务背景下,往往某一种特定模型无法满足需求。比如,公司三个部门A、B、C,分别需要自建Hadoop集群,但是他们需要消费相同的数据。三个部门对Hadoop集群的资源要求(CPU、内存、存储)存在不同需求,且大多数情况下他们对Hadoop使用不在同一时间:A部门主要于凌晨至早六点,运行每日例行任务;B部门需要在下午四点至夜间十点左右运行查询处理任务,对实时性要求相对比较高;C部门需要在大部分的白天时段运行一些研究、开发和测试的任务。如何有效利用硬件服务器资源成为该公司IT部门重点考虑的问题。
如下图所示,如果不采用虚拟化技术进行整合,资金投入(CAPEX)意味着每个集群最大负载时硬件投资总和。但是通过整合,可以将三个集群共享资源池,CAPEX意味着通盘最大负载。而且目前虚拟化可以带来2:1到4:1的整合比,极大的减少了资本投入。
根据三个部门的需求,我们搭建统一的一套HDFS存储集群,分别为三个计算集群提供存储服务。这样避免了搭建三个存储集群所引发的跨网络的大量数据迁移和拷贝工作,让需要维护的存储集群从三个减少到一个,从而减少操作成本OPEX,也节省了原来需要采买大量存储器的资本投入CAPEX。另外,由于B部门对时间延迟要求高,我们将其搭建成具有虚拟化节点感知的满足数据本地性要求的计算集群(具体方法请参见本博客“包含节点网络拓扑和主机排布策略的存储/计算分离模型”)。另外A、C部门的集群搭建成单一计算节点集群,并指向上述统一的HDFS集群。这样搭建,就保证了不同计算集群之间的资源隔离、故障隔离、配置隔离和安全隔离。
当然您也可以根据您的具体业务需求,将Hadoop集群和其他应用一并整合。
注:本文所使用的所有集群定义文件和命令都基于BDE1.0 GA Build。
如有任何问题,您可以发邮件至。
关于vSphere Big Data Extensions:
VMware vSphere Big Data Extensions(简称BDE)基于vSphere平台支持大数据和Apache Hadoop作业。BDE以开源Serengeti项目为基础,为企业级用户提供一系列整合的管理工具,通过在vSphere上虚拟化Apache Hadoop,帮助用户在基础设施上实现灵活、弹性、安全和快捷的大数据部署、运行和管理工作。了解更多关于VMware vSphere Big Data Extensions的信息,请参见。
作者介绍
张锦波
VMware大数据解决方案工程师
目前负责VMware大数据解决方案的架构和实现,是大数据方面的技术专家。曾担任vSphere Big Data Extensions(BDE)、Serengeti等大数据项目的产品经理,负责集群管理,高可靠性和弹性伸缩等重要功能的规划。在此之前就职于EMC,从事数据库管理等产品的研发工作。
转载地址:http://bolya.baihongyu.com/