13501825792
公司动态

数据中心自动化运维技术
2025-02-20

 自从数据中心引入了云计算、虚拟化等大咖技术,立刻变了模样,这些技术大幅提升了数据中心的运行效率,给数据中心带来了诸多好处。不过,任何事情都有两面性,我们在享受新技术带来的益处时,也给数据中心运维的管理带来了不便,需要管理对象的数量、规模及复杂度均呈现指数级增长,传统人工干预、保姆式管理监控与故障处理的方式肯定无法满足要求了。比如对于公有云及大型私有云,服务器数量往往可以达到数万到数十万、百万规模,各类系统云服务及租户的业务应用负载数量,也达到了数以百万乃至千万级的程度,这样全靠人工维护不现实,必须引入自动化、智能化运维的管理模式,将人均维护管理效率从平均每人数十台服务器,提升到平均每人数千台服务器。运维的管理不能成为数据中心上云发展的绊脚石,也要跟得上数据中心的发展。本文将着重介绍几种现代运维中运用的新技术手段

 数据中心难免会出现这样那样的问题,靠人工发现不仅速度慢,而且容易误判。不妨将这个识别工作交由软件来处理。首先,要建立一个故障模式库,长期积累各种曾经或者可能会出现的故障预判、识别,这个故障库内容要实时保持更新,不断将一些新的故障类型和经验输入进去。其次,将故障判断的方法告知软件设备,由软件自动完成判断,软件根据从数据中心各个设备收集上来的运行参数,与故障模式库里保存的参数进行对比,如果发现有相同的,认为是数据中心出故障了。最后,数据中心可以采取告警方式通知运维人员,也可以由软件执行一键式修复。这个取决于业务的重要性以及数据中心故障经验积累的丰富性,万一恢复动作错误,可能会引发二次故障,给数据中心带来更大的损失,所以修复机制一定要慎重,非紧急的业务故障不建议采用自动修复,待人员确认之后再去手工执行修复。