为响应国家科教兴国战略方针,推动人工智能基础技术的革新与算力资源的高效利用,充分挖掘研究生的科研创新潜能,拓展前沿技术视野,人工智能与计算机学院于6月10日依托“江南AI大讲堂”平台,举办了主题学术讲座。本次讲座特邀美国加州大学洛杉矶分校(UCLA)计算机科学系教授徐国庆作主题报告,讲座以“多LLM服务的GPU资源高效利用技术”为核心,深度解析了其团队研发的新一代自适应GPU共享系统Prism,本次活动由陈璟老师主持。
徐国庆教授以《多LLM服务GPU资源高效利用技术》为题,深入剖析了当前大语言模型(LLM)服务中“单GPU绑定单模型”部署模式导致的资源利用率低下、成本高昂等核心痛点。他重点介绍了其团队研发的新一代自适应GPU共享系统Prism。该系统通过创新的动态资源协同调度机制,结合轻量级缓存管理与预初始化模型引擎等关键技术,成功突破了传统方案的内存分配僵化与模型加载缓慢瓶颈。徐教授强调,Prism不仅解决了当前资源利用率问题,其设计的跨平台资源抽象层,更为未来支持异构硬件协同及边缘计算场景适配奠定了坚实基础,将加速大模型技术的普惠化落地。
会后,徐国庆教授与师生展开面对面交流。除深入探讨Prism系统技术实现与边缘计算应用外,更针对学生关注的学术方向选择、研究能力提升等实际问题进行指导。

徐国庆作报告