对GPU进行性能优化时,cudagraph是绕不开的话题。
不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。
NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。
本文尝试从底层原理出发,根据文档 和 …。
{dede:pagebreak/}
显示器选择 2k分辨率还是144hz刷新率?
鸿蒙PC操作系统是不是就是手机操作系统?
如何看待2025江苏国补在6月1日突然暂停下线?
作为一个服务器,node.js 是性能最高的吗?
湖北襄阳一高中全班 45 人有 43 人超 600 分,这个班是怎么做到的?其成功经验是否可复制?
女明星穿瑜伽裤出门是什么体验?
真的没有人觉得2k是一个很尴尬的分辨率吗?
未来几年,市场对 AI 人才的需求会集中在哪几个方向?
你身边身材最好的女生是什么样?
新婚那天晚上你们是怎样度过的?
近期充电宝***,能不能看出资本家的良心坏了?
前端是不是快没了?
能分享一下你写过的rust项目吗?
消息称苹果 macOS 26 将不再支持部分旧款英特尔 CPU 机型,这背后原因有哪些?
为什么没人提微软裁员?
如何评价张靓颖刘宇宁《九万字》?