川庆物探机房运维:统一自动化调度管理

2018-08-08 12:02 水冷编辑 网络整理
ROCCAT 捷致

  【天极网IT新闻频道】经过快速稳定的发展,川庆物探IT规模逐渐扩大,IT基础架构建设趋于完备。云计算时代,川庆物探着眼于业务扩展的需要,引入云资源,加快了川庆物探信息化建设的步伐。但是,川庆物探原有的IT运维并不完善,IT运维服务模式的改革创新势在必行。

  目前川庆物探共有3个数据中心机房:2个在成都,1个在新疆库尔勒。其中库尔勒为移动式机房,成都1楼机房主要为利旧将下线的老设备,2楼机房为承载川庆物探重要业务应用的集群化服务器和存储资源。

  目前针对机房及设备间的管理都比较完善,服务器和存储设备资源均已池化,但随着支撑业务应用的逐渐增多,资源的合理利用是一个较大问题。

  1 行业特性

  对石油勘探行业而言,IT资源除了存储海量数据的设备外,最关键的就是计算资源。石油勘探行业采集的地质数据数量庞大,而且需要经由地震资料处理类软件和地震资料解释类软件复杂的运算才能完成数据分析工作,这两类软件分别用于地震数据的处理和地震数据的解释,其所需要的运算量相当庞大。

  采集上来的原始数据经过地震资料处理类软件或解释类软件的复杂运算,再通过矩阵的变化,迭代后会产生更庞大的数据量。最后,输出原始数据处理结果时,又需要进行大量计算,最后变成与原始数据体量规模相似的数据。

  2 项目背景

  2016年底,勤智运维与川庆物探研究中心合作,搭建一体化智能运维平台承担整个研究中心的运维支撑工作。川庆物探研究中心通过部署勤智OneCenter一体化运维管理平台,对川庆成都数据中心机房的核心网络设备、计算和存储集群资源进行了全面监控;通过网络拓扑图、设备性能视图、设备告警视图、自动化运维及定制化功能,直观了解网络设备、技术、存储集群资源的使用情况,并能及时发现设备故障;通过自动化资源调度合理分配、计算、存储资源,由被动运维变为主动运维。

  3 现状描述及需求分析

  3.1 现状描述

  类似川庆物探研究中心计算所这样的科研机构,承载地学研究、勘探数据分析等任务的石油勘探行业的研究所或计算中心,都面临着同样的信息化运维难题。随着数据规模不断增长,计算压力逐渐变大,计算所的规模也在扩大。川庆物探现有3个数据中心,2个在成都,1个在新疆。各数据中心只能负责各自的数据,数据中心之间的远程监控还未实现。

  为了保障勘探项目的顺利进行,为各项目组提供服务,川庆物探研究中心计算所投资建设的高性能计算平台有2000多个计算节点,近40000个CPU,每个CPU的核数超过了10000。硬件上的投入看似足够,但当项目繁忙需要很多应用软件同时在高性能计算平台上运行时,系统的稳定性就会出现问题。川庆物探急需一套专业的一体化运维平台,实现网络、计算、存储资源监控、远程、自动化的调度管理,让投资的硬件、软件资源的利用率更高,为业务顺利开展提供服务保障。

  3.2 需求分析

  随着川庆物探投资建设的高性能计算平台上线运行,各核心网络设备运行基本畅通,计算及存储资源在实际项目中的合理高效利用成为关注的焦点。为此,川庆物探从实际业务出发提出了如下要求:

  1)实现对核心网络设备的全面监控,并可在拓扑视图中直观显示网络架构、设备的运行状态和网络链路的性能和通断情况。

  2)实现对计算及存储集群资源监控,并通过统计视图展现集群资源CPU、内存使用情况。

  3)实现磁盘阵列各文件系统的信息采集,并以图表方式展现。

  4)实现以矩阵方式展现各计算集群节点运行应用分布情况,不同应用以不同颜色区分。

  5)实现计算集群资源通过自动化执行脚本方式自动调度分配。

  4 解决方案

水冷网www.shuileng.net报道经过快速稳定的发展,川庆物探IT规模逐渐扩大,IT基础架构建设趋于完备。云计算时代...

Thermaltake 曜越
如果本文侵犯了您的权利, 请联系 goofy543%163.com(请将%换为@) ,本网立即做出处理,谢谢。

延伸 · 阅读

评论 · 交流

说点什么吧,也许可以帮到大家!
  • 全部评论(0
    还没有评论,快来抢沙发吧!