• 文档
  • 控制台
  • 登录
  • 立即注册
    目前不支持用户自主注册,如需注册账号,请联系400-080-1100
运维中心用户指南
最近更新时间:2023-04-04 12:40:33

1 运维中心介绍

1.1 什么是运维中心?

随着技术的发展,云计算正成为技术应用的基础底座。一个功能完善的云计算平台能够对业务应用的开发部署和运维起到明显的推动作用。而随着云计算技术发展,云平台自身的规模越来越大,运维成本越来越高。同时,随着虚拟化、容器、数据库中间件等技术的推进,平台对自身运维能力的要求也越来越高。传统的依赖人力进行运维的方式,在大规模多功能的场景下显得捉襟见肘。对于运维能力的自动化、平台化、规范化建设成为了云计算行业的必备工作。运维中心,为中国电子云的运维部门、专属云的实施服务人员、专属云用户侧运维人员提供了对中国电子云公有云和专属云的监控运维能力,帮助我们的客户及用户更好地管理中国电子云及专属云。使用运维中心,能够简单便捷地管理云平台上的各个产品。

1.1.1 运维中心有何特点?

运维中心能够为客户提供云平台运维中的各项能力,帮助用户在较少人力资源的情况下,管理众多的设备及服务。当设备及服务需要扩展的时候,并不需要对人力资源进行扩充。因此,使用运维中心,可以有效预估成本、控制成本,同时能够使用自动化工具、标准化流程等提高运维效率,最终实现降本增效。运维中心为更好地帮助客户实现运维目标,具备以下特点:

• 集中元数据管理:使用 CMDB 技术,将监控运维当中所需的模型、字段以及模型之间的关系管理起来,同时具备预置关键模型以及自定义模型的能力。可以实现对上层系统或者功能的强有力支撑。面对复杂多变的业务需求,能够在底层数据层面进行灵活的处理。

• 设备统一管理:能够针对运行中的设备进行统一的管理,可以对 linux 服务器、麒麟服务器、路由器、交换机、防火墙等设备进行统一监控,用户可以在一个视图上对这些设备进行查看与管理。

• 灵活易用的告警通知:平台通过告警规则管理,通知规则管理,告警触发模板,告警静默等完成了对告警的全生命周期管理。

• 运维中心提供从设备接入、监控、告警配置、通知等运维监控的核心流程,帮助用户方便简单地完成基础设施的监控。

1.1.2 主要功能

运维中心的主要功能有:

• 从 CMDB 中选择未接入监控的设备进行监控:提供多种设备接入的方式,当前有单台设备添加、通过资产管理系统添加设备等选择。

• 容器集群监控:用户可以在集群详情页面查看集群的资源水位、集群状态、存储信息、节点信息、工作负载、命名空间、事件等详细数据和状态。

• 设备监控:用户可以在设备详情页面查看设备的基础监控、性能指标、硬盘监控、CPU 监控、文件监控、进程监控、硬件监控等设备的监控信息。

• 日志监控:用户可以通过日志监控查看 syslog。 

• 告警查看:用户能够在告警页面,查看当前告警信息,包括正在发生的告警、刚刚发生的告警等。

• 告警历史:用户可以通过告警历史页面查看历史告警信息。

• 告警管理:告警管理实现了告警规则的管理,即针对哪些设备的哪些监控参数,当其值超过阈值时,给不同的人发送不同级别的告警信息。同时,为了方便用户进行告警规则的输入,提供触发规则模板,便于对常用的告警触发规则进行管理,并提供告警规则中触发条件的快速导入能力。

• 通知管理:配置告警发生之后,应当通知谁,如何进行通知。

• 告警静默:用户可以配置什么时间段针对哪些设备不进行通知,以便在设备维护时间不会收到该设备的相关通知。

• 配置管理:用户可以通过配置管理实现资源元数据管理,管理资源模型及关联关系。

• 操作日志:记录用户在平台的所有操作。

• 用户与用户组:用户的管理,包括用户的创建、查看、删除、将用户加入或移除用户组等能力。

• 角色管理:用户可以通过此功能,自定义角色类型及权限。

1.2 基本概念

运维中心的基本概念有:

• 设备:标识系统中运行的物理或者虚拟设备,比如服务器、交换机、路由器、防火墙等。

• 设备凭证:用于登录或者访问设备的用户及密码信息。

• 告警:当告警规则内的触发条件被满足时,系统发出的告警信息。

• 告警规则:描述具体设备集合与一组触发条件的关联情况,用户决定在其中针对哪些设备,当其哪些监控项超过阈值时即产生告警。

• 触发条件:设置针对每个目标产生的数据基于哪些对比关系,产生告警。

• 告警静默:静默规则管理,即针对哪些运监控对象的监控指标,在某个时间段内,其产生的告警均不进行通知。

• 通知:与“告警”区分开来,通知是当告警规则内的触发条件被满足时,以邮件、短信、站内信等形式发出通知,具有明确的接收者。

• 触发条件模板:告警规则中,设备的监控项、阈值关联、周期等的组合,主要为了避免针对不同的设备重复输入一些基本监控项和阈值等规则条件。

• 用户:使用平台的用户。

• 用户组:给用户进行分组,便于通过组对用户进行管理。

• 操作日志:用户在平台上操作时候产生的具体记录信息。

1.3 产品优势

全面的监控数据

运维中心采集的设备数据包含了 CPU、内存、分区、硬盘、接口、进程、文件、硬件监控等监控信息,从硬件到操作系统都有对应的监控展示。同时展示信息分为瞬时值和历史值,瞬时值用数字等展示,历史值采用图表的形式展示。

更好的用户体验

运维中心功能根据用户的实际使用场景设计,完全贴合用户使用习惯,因此能够提供良好的用户体验。

支持麒麟系统

与中国电子云紧密关联。


1.4 实现原理

1.4.1 逻辑架构

实现原理


组件详情

组件 功能描述
前端页面 展示运维页面,供用户使用。展示设备、监控、告警、通知等信息。
网关 请求从前端发起之后,首先经过网关,然后到达之后的各个服务。
设备管理 管理 负责设备的管理工作。包括设备的导入,设备信息的拉取。
监控 实现监控数据的拉取、存储、检索等能力。
告警 实现告警规则、静默规则、告警触发规则的管理。
通知 实现通知规则的管理。
CMDB

作为底层元数据管理组件,将设备资源进行统一管理,向上对设备管理、监控告警提供基础数据支撑。


1.4.2 业务流

运维中心典型业务流程如下:

(1) 用户管理。使用统一管理平台创建的具有运维中心管理权限的账号登录系统,创建对应的用

户以及用户组。

(2) 添加设备。单个添加或者从 ITSM 导入具体设备信息。

(3) 查看设备监控信息。设备列表,查看设备的监控信息,确保设备正确接入。

(4) 创建告警规则。创建告警规则,当设备监控项的数值超过阈值的时候,系统能够根据告警规则产生告警。

(5) 创建通知规则。定义产生的告警如何通知到具体联系人。

(6) 查看告警。用户查看当前系统产生的告警,并进行告警的处理。

(7) 设置告警静默。当用户需要进行如设备维护等活动的时候,设备对应的维护时间段,此时间段内针对设备的通知不生效。

1.5 应用场景

云管理侧纳管底层基础设施

在中国电子云专属云部署后,管理侧无法采用租户侧云产品,同时不接受第三方产品对基础设施系统进行侵入式管理。因而,对云产品底层的组件或者设施进行纳管,此时则需要并且必须需要运维中心作为底层基础设施管理平台。

云管理侧内部告警

当管理需要跨越租户视角,对底层实例问题提前感知、对底层基础设施异常情况及时了解与处置,则需要依托运维中心,实现云管理侧的内部告警与通知的配置与管理。通常情况下,这在中国电子云专属云遭到上层意料之外问题时,配合电子云运维人员追查问题时尤为有用。

1.6 使用限制

1. 运维中心只纳管中国电子云的相关设施

运维中心只负责中国电子云专属云范畴内的基础设施纳管与监控告警的需求。

2. 运维中心只负责中国电子云管理范畴内的监控与告警

如您有自定义监控指标(非监控指标参数)的需求,且当前运维中心的监控指标无法通过配置、转换满足您的需求,您可能需要联系我们的技术顾问评估技术方案并输出定制需求。

意见反馈

文档内容是否对您有帮助?

如您有其他疑问,您也可以通过在线客服来与我们联系探讨 在线客服

联系我们
回到顶部