计算机系存储实验室研究成果获第24届USENIX文件与存储技术会议杰出技术贡献奖
新清华 2026年03月13日 第2392期 学术前沿
本报讯 近日,计算机系存储实验室的题为“GPU检查点保存和恢复的快速和轻量级方案”的论文,在第24届USENIX文件与存储技术会议上获得杰出技术贡献奖。计算机系副教授陆游游为论文通讯作者,2021级博士生曾少勋为第一作者。
该论文提出了一种快速且轻量级的图形处理器(GPU)检查点保存和恢复方案组呼寄存器(GCR),通过分离数据路径与控制路径,提出GPU的增量式检查点技术,高效支撑了多种现代GPU负载的关键应用场景,对于提升GPU集群整体利用率具有重要意义。GCR支持vLLM、DeepSpeed、Transformers等主流框架和多种型号的GPU,在几乎不影响应用正常执行(性能干扰低于1%)的前提下,该方案可将检查点保存延迟降低至原来的28%,恢复延迟降低至13%。论文还实现了高质量开源,其在功能完备性、性能可复现性等方面均展现出了高水准。
(计算机系)