提供事件管理解决方案的 PagerDuty 株式会社(总部:东京都港区,代表取缔役社长:山根伸行,以下简称:PagerDuty)公开了导入 PagerDuty 的株式会社 NTT Docomo(总部:东京都千代田区,以下简称:NTT Docomo)的案例。 NTT Docomo 自2020年导入以来,目前已将 PagerDuty 作为横跨多个服务和系统的「事件管理平台」加以利用。他们有组织地创建了「主动(预防型)运营」以预防客户影响,并实现了 DevOps 体制的进一步高度化。 **导入当时的课题与导入效果** NTT Docomo 负责各种服务的开发和运营。在2020年导入 PagerDuty 之前,整个组织每月从多个监控工具发出多达10,000个警报,减少噪音成为当务之急。当时,人工协作和深夜调用频繁,运营效率化和减轻应对负担是主要课题。 导入 PagerDuty 后,通过利用 AI 和规则引擎,不必要的警报从每月10,000个大幅减少到1,000个,实现了「需要关注的信息」的明确化。此外,通过创建自动调用适当负责人的机制,初始响应时间从数小时戏剧性地缩短到「3分钟」。结果,非关键业务的应对时间每月减少了40小时,使系统转变为不再需要将监控业务外包给外部监控中心(NOC)的体制。 **5年持续改进诞生的「三个演进」** 此外,通过随后五年的持续改进,该公司实现了以下「三个演进」: 1. **提高可见性和部门间协作:** 创建了可以在单一屏幕上横向俯瞰多个服务状态的系统。通过不仅向 IT 部门,还向业务部门发送通知,实现了快速的信息共享。 2. **流程标准化和知识集成:** 规范了「异常检测、确认(ACK)、笔记记录」的流程。在 PagerDuty 上累积了过去类似案例和应对方针作为知识,消除了对个人专业知识的依赖。 3. **彻底的主动运营:** 严格将通知分为「警报(紧急)」和「警告(提醒)」,并在警告阶段当天处理,创建了预防客户影响显现的机制。 **未来展望** NTT Docomo 正在展望利用 AI 和自动化技术的「下一代运营」。未来,他们旨在实现一个由 AI 自动学习过去的应对历史、总结情况、分析原因,甚至提出最佳应对方针的世界。政策是将事件的检测和识别主要交给以 PagerDuty 为中心的机器,而人类则专注于「客户指导」和「业务风险判断」等高层次的决策。 *有关案例研究的更多详细信息,请访问 [https://www.pagerduty.co.jp/customers/d](https://www.pagerduty.co.jp/customers/d)