对GPU进行性能优化时,cudagraph是绕不开的话题。
不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。
NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。
本文尝试从底层原理出发,根据文档 和 …。
{dede:pagebreak/}
未来江苏会不会被广东越甩越远?
女生真正的完美身材是什么样子?
为什么大家不再提星链了(包括外网)?
有没有什么软件是适合老师出题考试用的?
海贼王为什么现在被全网黑?
鸿蒙电脑应用开发和鸿蒙手机是一样的吗?
女生当海王什么感觉?
请问有没有什么工具能够生成局域网的网络拓扑结构图?
如何自己搭建家庭服务器?
MySQL不香吗,为啥还要Elasticsearch?
你最喜欢哪门编程语言?为什么?
为什么中国主机带宽比美国贵5倍(原来错误的10000倍),比如阿里云?
中国的导弹水平到底怎么样?
中国民间中小工厂能快速造出武器吗?
你卡过最厉害的bug是什么?
顶级军事家的水平有多恐怖呢?