纽约 – 作为领先的 AI 驱动观察性与安全平台,Datadog, Inc. (NASDAQ: DDOG) 今日宣布「GPU 监控(GPU Monitoring)」正式向全球客户开放。本产品旨在解决企业在寻求扩展且有效的管理方法以应对日益增长的 AI 成本时,目前最常见的挑战之一。 Datadog 首席产品官 Yanbin Li 表示:「GPU 实例已占计算成本的 14%,这对于力求以可扩展且高效的方式构建 AI 优先技术的企业来说是一个巨大挑战。许多企业虽然意识到成本在增加,但却无法按业务部门分配 GPU 成本,也无法掌握工作负载的背景信息,或确定改进的明确下一步措施。结果导致预算制定和计划变得异常困难。」 GPU 监控的推出,是首个作为单一解决方案提供整个 AI 栈集成可视化的产品。这使得企业能够在单一屏幕上,将 GPU 资源池(Fleet)的健康状况、成本、性能与使用这些资源的部门和成员直接关联起来,实现性能下降工作负载的快速故障排除并降低成本。 Li 进一步指出:「当发生容量分配错误、训练和推理工作负载停滞以及成本增加等情况时,AI 成本的妥善管理将成为管理层级别的重要课题。每个人都意识到管理 GPU 成本是一个待解决的重大问题,但许多企业仍处于试错阶段,很难在单一屏幕上掌握整个技术栈发生的情况。GPU 监控以空前的效率和可靠性解决了这一难题。」 目前使用的 GPU 相关工具虽然提供设备健康状况的概览指针,但无法揭示跨部门的资源竞争问题,无法解释训练或推理工作负载失败的原因,也无法可视化哪些设备处于闲置状态或使用效率低下。这种可视化的缺乏导致调查耗时,开发部门为了安全起见倾向于过度储备资源,结果产生了不必要的成本。 GPU 监控通过将 GPU 资源池的遥测数据与消耗这些资源的工作负载直接挂钩,简化了这一过程。同时,它为平台工程团队和机器学习团队提供共同的画面进行协作调查,从而实现: - 在抑制过度成本的同时扩展 AI:基于 GPU 资源使用模式的可视化与预测,以及判断是购买新 GPU 还是释放现有资源的具体判断准则,平台团队可以规避昂贵的资本投资或长期的采购流程。机器学习团队可以更迅速地获取所需容量,管理层则能在可预测的支出下获得更高的 ROI。 - 加速 AI 实施与部署:通过将停滞的工作负载直接关联到支撑它的 GPU、Pod 和进程,团队可以在几分钟而非几小时内确定性能瓶颈,让工程师专注于 AI 项目的交付。 - 避免代价高昂的故障:预先识别不健康的 GPU,并在故障波及整个集群导致训练或推理延迟之前进行处理。 - 最大化 GPU 成本的 ROI:团队对 GPU 的利用率和成本负责,可以轻松识别何处发生了过度储备或未充分利用的情况。这使得资源回收和再分配成为可能,从而减少浪费性支出。 Hyperbolic 产品负责人 Kai Fan 表示: 「得益于 Datadog GPU 监控,我们现在可以轻松掌握多租户 GPU 基础设施的情况。无需额外配置,即可立即将实例和设备单位的内核利用率、内存、功耗和温度等信息可视化。仪表板初始状态功能就很齐全,自定义也很容易,只需几分钟即可构建为每个客户隔离的界面。」