信创模盒 ModelHub XC|XC-LLM 推出重磅首发功能InfiniVRAM:开创“一卡多模”新格局

日前,范式智能 $06682(06682)$ 正式发布了自研的信创模盒大模型推理引擎XC-LLM,今天,信创模盒ModelHub XC进一步推出该引擎的首个关键特性——无限显存InfiniVRAM。作为面向信创算力环境打造的新一代推理基础设施,XC-LLM旨在系统化解决信创环境下普遍面临的适配性、成本与运行效率三大核心挑战。

本次发布的 InfiniVRAM 聚焦于突破国产算力芯片在显存容量与生态适配上的现实约束。该技术通过“显存—内存协同+系统级调度编排”的联合方案,使单张算力卡能够承载并稳定运行多个大模型,并支持多模型总显存需求显著超过物理显存容量的场景,推动算力资源从“可部署”走向“可运行、可调度、可运营”。未来,XC-LLM还将陆续释放更多面向信创架构的深度优化能力,如针对信创芯片的指令集优化、算力异构混部调度等,持续提升国产算力运行效率与性价比。

从“一模型一卡”到“多模型共享”:破解“冷模型”资源浪费难题

在多模型推理场景中,为确保各类模型随时可用,服务商往往需为每个模型单独分配算力资源。对于使用频率低却需长期在线的“冷模型”(如小语种翻译模型、垂直行业模型等),传统部署方式导致显存长期闲置,推高了整体运营成本。

InfiniVRAM通过智能化显存管理机制,支持在单卡上部署多个模型。系统根据请求动态调度,仅将活跃模型数据保留于高速显存,非活跃模型数据则自动置换至系统内存。该机制在保障服务体验的同时,实现了显存资源的共享与高效复用。此技术对上层应用完全透明——从应用视角看,如同面对一个具备无限显存的GPU,从而能够突破物理限制,灵活部署大量模型。

系统级调度加持 保障多模型长期稳定共存

仅实现显存置换并不足以应对生产环境中的复杂性。模型请求存在时间不确定性与优先级差异,资源竞争与突发负载易引发性能抖动。为此,InfiniVRAM 以系统工程思路,集成了统一调度与资源编排能力,对模型实例、算力卡及显存状态进行全局感知与协同治理。

合作伙伴睿思智联为该方案提供了面向信创环境的调度与编排能力,协调模型切换时机,平滑控制显存换入换出节奏,有效降低资源竞争带来的抖动,为多模型稳定共存提供可观测、可控的运行环境。

打通生态壁垒,实现跨芯片通用适配

在英伟达的CUDA生态中,已有“统一内存”等底层技术支持显存扩展。然而在**、海光、寒武纪、摩尔线程、沐曦等多元国产芯片环境中,缺乏成熟且通用的原生内存统一管理方案。InfiniVRAM 针对这一挑战,构建了覆盖多层的通用工程路径:

推理引擎层:通过内存管理劫持等技术绕过统一地址管理限制,结合统一协议实现智能数据调度;

显存管理层:抽象显存管理接口,实现与各类国产算力卡的通用对接;

资源治理层:采用集中式申请与销毁管理,减少频繁初始化带来的开销,提升置换效率;

系统层:结合统一调度编排,实现模型实例与资源状态的全局管控。

实测验证:秒级热切换,实现“一卡多模”可行

目前,InfiniVRAM 已在** **3 芯片完成验证。测试在单张 64GB 显存的算力卡上同时部署两个 Qwen3-14B 模型(各需约 54GB)。在总需求远超物理容量的情况下,系统持续服务单模型请求时性能稳定;当请求切换至另一模型,调度系统触发秒级资源重编排,完成数据换入换出与资源重分配,全过程对应用透明。

测试表明,结合显存超售与统一调度治理,InfiniVRAM 可在“低频交替访问、多模型并存”的生产场景中,实现模型快速热切换与资源高效复用,为低成本维护多模型在线提供了可行路径。

XC-LLM开源下载地址:https://git.modelhub.org.cn:9443/EngineX/xc-llm

推动规模化落地,助力国产算力走向“业务可用”

信创模盒ModelHub XC表示,XC-LLM 将持续优化 InfiniVRAM 的性能与稳定性,并推动其与主流 AI 框架及推理引擎生态的深度融合。睿思智联也将进一步完善面向信创算力的统一调度与运营能力。双方将通过持续协同,推动国产算力从“资源可用”迈向“业务可用”,为信创生态下 AI 应用规模化落地提供坚实支撑。

范式智能是一家2014年成立的上市公司,是中国AI+企业服务领域的领导者,2025年实现集团化升级后,公司主营业务涵盖面向企业服务的B端业务第四范式,以及面向消费电子市场的C端业务Phancy。

免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。

举报

评论

  • 推荐
  • 最新
empty
暂无评论