2019年的工作整理总结

2019 年终整理

运维平台

CMDB

我们目前已经接入了腾讯云的 dntg 项目

通过 canal+kafka 和额外的监控保证数据的及时性和准确性

在多项目和多云环境上还需要进行迭代完善

维护功能

正常的发展应该是 手工->脚本->平台->自动化 这个流程

然而我们直接抛开了平台这个阶段, 直接做了自动化.

导致我们后期的工作不好展开(主要是标准化的问题)

所以要将标准化的优先级提高

巡检系统

主要是系统资源和业务状态的巡检

目前基于 openfalcon 做的有些鸡肋, 无法通过时间筛选

后期计划通过 openfalcon+elasticsearch 来实现

账单系统

主要是基于腾讯云的账单进行分析实现的.

所以在腾讯云的项目可以实现复用.

但是在其他云环境上就需要再次开发了.

定时任务系统

集中管理服务器的周期任务

包括周期任务和定时任务

这一块还在构思

自动化

部署

目前来看已经是最优解

剩下的是标准化和集成其他项目

迁移

目前一个人能在”半小时”内完成迁移计划(无论迁移规模大小)

后期自动化主要是在于

  1. 集成运维平台(需要标准化)

  2. 钉钉审批

合服

受限于业务架构和数据风险

一直没有开始做自动化合服, 主要人力消耗点.

需要在这块做一些突破.

更新

两块工作

  1. 目前主要对维护脚本整理和标准化以便接入运维平台

  2. 通过 jenkins 实现交付, 通过钉钉审批实现协作

告警监控

告警

告警这块只是做了个简单的接口自用

因为春节期间告警的故障导致没有空闲服务器部署.

所以需要把告警的高可用做起来.

监控

监控覆盖率和监控指标, 两个重点

  1. 需要梳理下业务的整体架构和监控点.

  2. 监控系统的扩展性

日志系统

业务日志

目前已经搭建了业务的日志, 方便研发运营检索.

没有对业务的日志进行监控和分析, 优先级较低

系统日志

目前系统日志还未开始实施.

目的是可以对系统日志监控, 发现一些潜在的问题

及时处理避免业务的故障, 优先级较低