[ 登录 ][ 注册 ] 天极传媒: 比特网 | 天极网 | IT专家网 | IT商网 | 52PK游戏网 | 手机天极 | IT分众 |
您现在的位置: IT专家网 > CIO子站 > CIO评论分析

如何帮助IDC卸掉“电手铐”

作者: 刘梅,  出处:CIOinsight, 责任编辑: 徐蕊, 
2008-09-11 12:59
  作为一家以地球物理勘探与服务业务为主的企业,东方地球物理公司对高性能计算旺盛的需求,使得原本被忽视的电能需求成为束缚他们发展的“手铐”,他们希望找到一种有效的方法从中解脱出来。

  作为一家以地球物理勘探与服务业务为主的企业,东方地球物理公司对高性能计算旺盛的需求,使得原本被忽视的电能需求成为束缚他们发展的“手铐”,他们希望找到一种有效的方法从中解脱出来。

  成本之痛

  2008年8月7日,北京2008奥运会开幕式前一天,东方地球物理公司(以下简称BGP)研究院副总工程师、处理中心总工、教授级高工赖能和从河北涿州驱车北京,一天跑了两个地方,上地和中关村,与4家公司进行技术交流,高密度的工作安排一切都是为了数据中心如何提高设备利用率、如何节能降耗。

  “目前我们每天的电费大约3万多元。”据赖能和说道,从2002年到2007年,BGP所拥有的CPU数量、总体运算能力、总存储容量分别增长了40倍、7354倍和300倍。“我们现在拥有超过1.5万颗CPU、2.6万多个核、2000T存储规模的数据中心,每年光电费成本就超过1000多万元。”

  作为中石油的找油先锋。赖能和所在的东方地球物理公司主要以地球物理勘探业务为主,国内业务分布在12个省区15个油田,国际业务分布在全球30多个国家。BGP在全球地球物理服务公司中综合实力排名第四位,陆上地震勘探排全球第一位。

  据赖能和透露,BGP之所以具有如此强大的勘探能力,高性能计算(HPC)发挥了重要的作用。“CPU和计算能力的增加,间接地给BGP带来的就是能耗不断增加。”赖能和给记者算了一笔账:如果增加1万颗CPU,考虑到空间、照明、人员等环境因素和制冷设备冗余,光是大功率的专业空调就需要新增22台。如果将来增加到2.5万~3万颗CPU,加上机房制冷空调、UPS等设备的能耗,那时的电费真可谓是一个“天文数字”了。

  计算能力的增加是目前石油勘探行业的发展形势所迫。一方面,要确保国家能源安全,这一任务非常艰巨;另一方面,近年来随着油气勘探开发的不断深入,勘探开发的技术难度越来越大。油气公司为了解决复杂地表及地下地质构造成像问题,提高地震资料成像精度和勘探开发效益,减少勘探开发风险,加大了地震叠前偏移处理技术的推广应用力度,所以勘探公司必须大幅度增加自身的计算能力。

  “每年的电费真让人心痛!”赖能和在为能耗的问题而苦恼之时,管理的困境也在围绕着他。

  管理之困

  相比于其他企业,BGP数据中心绝对是个“老壮派”,自1964年建立已历经了40多年的发展:1995年以前完全是大型机时代,机器从最早1973年的DJS150百万次/秒计算能力开始,到1977年物探局引进的千万次/秒计算能力的CYBER1724计算机。自1995年后,进入UNIX时代,BGP开始引进IBMSP2机器,2002年开始应用PC集群。除计算能力增长很快外,机房面积也扶摇直上。直到现在,BGP的数据中心已超过3600平米,加上其他地区分院的机房,总面积高达6000平米。

  数据中心计算能力和面积的飞涨增加了管理的复杂性。“1万多颗CPU管理非常繁杂,如何合理调配,充分发挥它门的性能,是个大课题。”据赖能和解释,与CPU相配套的存储、网络技术的发展得并没有像CPU的发展那么快,所以CPU的性能很难充分发挥出来。另外,面对高密度的机房,人力已经无法管理。以涿州为例,150个机柜分布于2层楼中,每层1600平米。哪个机柜的CPU出现问题,哪个地方的网络堵塞了,只有专业人员到现场才能看出来,即使看出来,可能也无法真正了解清楚,这很费时间。管理人员很难了解到机柜的利用率是多少,当一部分服务器完成计算任务之后,它们处于闲置状态很难快速传递到管理平台之中。数据的安全也令人担心,磁盘都是机械和电子设备,难免出现磁盘本身的故障和人员操作的失误,几千TB的数据都是BGP宝贵的数字资产。

  设施的安全性也不可掉以轻心。UPS、空调等诸多设备,要保证它们运营时的安全,是不是存在安全隐患?目前虽然采取了一些温度、湿度、漏水的监控措施,但还是不够完善。今年7月闷热潮湿的天气比较多,再加上空调排水管的老化,接头地方不牢,数据中心的空调突然出现滴水。这可急坏了管理层和技术人员,机房里那么多的设备,最怕的就是水,万一哪台有个好歹……好在发现得及时,没有造成太大影响。但这次事件给领导敲响了警钟,也引起了高度重视,他们立即组织人员重点找原因,进行排查。

  赖能和说:“像我们这样的大型数据中心,要有安保措施、报警系统、自动监控系统,这样才能更好地杜绝运营中的安全隐患。”经过这次事情后,他们立刻着手进行整改。

  优化之艰

  与普通数据中心不同,HPC的节能降耗是一项系统工程。普通的数据中心可以通过降低电压、动态平衡负荷的方式来降低CPU能耗,但是高性能计算机因为负担的数据量大,在CPU、操作系统、应用软件、机房制冷层面,都应该指定具有节能降耗的解决方案。而且这些解决方案必须相互间有所关联和互动,才能保证整体节能降耗的效率和效果。

  赖能和举了个例子,如果要达到1万颗CPU的计算能力,考虑空间、照明、人员等环境因素和制冷设备冗余,总共需要100KW专业空调22台。降耗节能是数据中心非常关心的一个问题,近5年他们已投入1300多万元,经历四五次大的改造,进行资源优化配置、技术改造,收到了近亿元的经济效益。

共2页。 1 2 :

网友评论

笔名 
请您注意:遵守国家有关法律、法规,尊重网上道德,承担一切因您的行为而直接或间接引起的法律责任。    IT专家网友拥有管理笔名和留言的一切权利。

邮件订阅