ModelEngine AI容器Flex:ai组件正式开源
·
ModelEngine Flex:ai包含多个关键功能模块,具体如下:
-
显存/算力控制模块:负责硬件资源显存和算力两类资源的申请,分配与回收,通过限制应用程序使用硬件资源时占用的显存和算力,隔离不同容器中使用的XPU资源,实现硬件资源的虚拟化。
-
XPU设备插件(XPU-Device-Plugin):兼容硬件资源(如NVIDIA GPU)生命周期的管理,增加XPU虚拟资源的生命周期管理,实现硬件资源的虚拟化切分。在小资源任务的场景中,能够有效提高硬件资源的利用率。
-
XPU监控(XPU-Exporter):面向XPU虚拟化资源定制的监控组件,从硬件资源中采集算力性能指标,并将其转换为标准的Promethues格式,提供Metrics接口,最终可集成到集群的Prometheus生态中。
基于以上关键模块,Flex:ai 目前具备三大核心能力:XPU算力细粒度切分和控制、XPU显存细粒度控制、以及 XPU 全维度监控能力。系统可将单张算力卡实现10%粒度的细粒度切分,并支持对虚拟化后的算力单元进行监控。在小模型无法充分利用整卡算力的场景下,该方案可提升硬件资源利用率约 30%。
更多推荐


所有评论(0)