NVIDIA发布AI平台 大幅减少超算数据中心停机时间

日前,NVIDIA发布了NVIDIA Mellanox UFM Cyber-AI平台,该平台运用AI分析技术检测安全威胁和运行问题并预测网络故障,能够大幅减少InfiniBand数据中心的停机时间。

NVIDIA Mellanox UFM Cyber-AI平台

UFM平台产品系列已管理InfiniBand系统近十年,此次扩展将使用AI通过实时和历史遥测及工作负载数据来学习数据中心的运行节奏和网络工作负载模式。它能根据这一基准追踪系统的运行状况和网络修改并检测性能下降、使用情况和配置文件更改。

该全新平台可发出警报,提示系统和应用异常行为、潜在系统故障以及威胁,并执行纠正措施。它还能在系统遭受黑客攻击,安装恶意应用(例如加密币挖币软件)时发出安全警报。这减少了数据中心的停机时间,而根据ITIC的研究,停机1小时所造成的成本通常在30万美元以上。

NVIDIA Mellanox网络事业部高级营销副总裁Gilad Shainer表示:“ UFM Cyber-AI平台能够确定数据中心的独特生命体征并通过它们识别性能下降、组件故障和异常使用方式。有了它,系统管理员可以快速检测和响应潜在的安全威胁并解决即将发生的故障,从而节省成本,确保客户业务的连续性。”

澳大利亚国家计算基础设施(NCI Australia)的服务和技术副总监Allan Williams说:“NCI在国家研究领域发挥着关键作用。我们的超级计算基础设施为5000名研究人员提供服务,他们将其用于关键性的国家和国际研究活动。UFM使我们能够有效地管理超级计算机并优化其性能。我们期待利用UFM Cyber-AI的新功能,进一步提高我们的超级计算利用率,提高我们的投资回报。”

俄亥俄州超级计算机中心(Ohio Supercomputer Center)协会理事长Douglas Johnson表示:“多年来,我们的InfiniBand数据中心一直使用UFM平台。UFM和Mellanox网络团队的专业知识已成为我们管理网络和实现稳定性的基础。UFM Cyber-AI平台具有很多出众的优点。”

UFM Cyber-AI平台对UFM Enterprise平台进行了补充。UFM Enterprise平台提供网络监视、管理、性能优化、配置检查和安全电缆管理功能。

NVIDIA还发布了UFM系列的第三款产品——UFM Telemetry平台。这款工具能够捕获实时网络遥测数据,该数据将被传输到本地或云端数据库,用于监视网络性能和验证网络配置。

【ZOL客户端下载】看最新科技资讯,APP市场搜索“中关村在线”,客户端阅读体验更好。

(7469651)

版权声明:本文源自 网络, 于,由 楠木轩 整理发布,共 1099 字。

转载请注明: NVIDIA发布AI平台 大幅减少超算数据中心停机时间 - 楠木轩