ModelEngine AI容器Flex:ai组件正式开源

zgqhope

73人浏览 · 2026-01-27 14:30:36

zgqhope · 2026-01-27 14:30:36 发布

ModelEngine Flex:ai包含多个关键功能模块，具体如下：

显存/算力控制模块：负责硬件资源显存和算力两类资源的申请，分配与回收，通过限制应用程序使用硬件资源时占用的显存和算力，隔离不同容器中使用的XPU资源，实现硬件资源的虚拟化。

XPU设备插件（XPU-Device-Plugin）：兼容硬件资源（如NVIDIA GPU）生命周期的管理，增加XPU虚拟资源的生命周期管理，实现硬件资源的虚拟化切分。在小资源任务的场景中，能够有效提高硬件资源的利用率。

XPU监控（XPU-Exporter）：面向XPU虚拟化资源定制的监控组件，从硬件资源中采集算力性能指标，并将其转换为标准的Promethues格式，提供Metrics接口，最终可集成到集群的Prometheus生态中。

基于以上关键模块，Flex:ai 目前具备三大核心能力：XPU算力细粒度切分和控制、XPU显存细粒度控制、以及 XPU 全维度监控能力。系统可将单张算力卡实现10%粒度的细粒度切分，并支持对虚拟化后的算力单元进行监控。在小模型无法充分利用整卡算力的场景下，该方案可提升硬件资源利用率约 30%。

ModelEngine社区

更多推荐

从崩溃到自愈：Temporal+MCP-Agent构建永不中断的AI工作流

你是否遇到过AI工作流执行到90%突然崩溃的绝望？训练了数小时的模型因服务器重启前功尽弃？团队协作时因某人未及时审批导致整个流程停滞？本文将展示如何通过Temporal与MCP-Agent的深度集成，彻底解决这些痛点，构建真正企业级的可靠AI工作流系统。读完本文你将掌握：- 3行代码实现工作流故障自愈- 零停机升级正在运行的AI任务- 跨团队协作的工作流信号机制- 从本地开发到生产集群