网站首页

AI大讲堂：突破多LLM服务资源瓶颈，提升GPU利用率

日期 : 2025-06-13 点击数：人工智能与计算机学院文图：祁秋瑶,审核：钱鹏江

为响应国家科教兴国战略方针，推动人工智能基础技术的革新与算力资源的高效利用，充分挖掘研究生的科研创新潜能，拓展前沿技术视野，人工智能与计算机学院于6月10日依托“江南AI大讲堂”平台，举办了主题学术讲座。本次讲座特邀美国加州大学洛杉矶分校（UCLA）计算机科学系教授徐国庆作主题报告，讲座以“多LLM服务的GPU资源高效利用技术”为核心，深度解析了其团队研发的新一代自适应GPU共享系统Prism，本次活动由陈璟老师主持。

徐国庆教授以《多LLM服务GPU资源高效利用技术》为题，深入剖析了当前大语言模型（LLM）服务中“单GPU绑定单模型”部署模式导致的资源利用率低下、成本高昂等核心痛点。他重点介绍了其团队研发的新一代自适应GPU共享系统Prism。该系统通过创新的动态资源协同调度机制，结合轻量级缓存管理与预初始化模型引擎等关键技术，成功突破了传统方案的内存分配僵化与模型加载缓慢瓶颈。徐教授强调，Prism不仅解决了当前资源利用率问题，其设计的跨平台资源抽象层，更为未来支持异构硬件协同及边缘计算场景适配奠定了坚实基础，将加速大模型技术的普惠化落地。

会后，徐国庆教授与师生展开面对面交流。除深入探讨Prism系统技术实现与边缘计算应用外，更针对学生关注的学术方向选择、研究能力提升等实际问题进行指导。

徐国庆作报告

上一篇：人工智能与计算机学院举办2024-2025学年第二学期导师学校下一篇：人工智能与计算机学院举行2025届毕业生代表座谈会