对GPU进行性能优化时,cudagraph是绕不开的话题。
不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。
NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。
本文尝试从底层原理出发,根据文档 和 …。
{dede:pagebreak/}
如何评价b站数码区up主 “大狸子切切里”?
为什么 electron 不做成独立的 runtime?
如何看待今年上半年印度GDP达到日本95%?
什么是 AI Agent(智能体)?
为什么现在知乎有一种j***a运行速度很慢,很吃***的论调?
有一个***约你出去,你会去吗?
大厂后端开发需要掌握docker和k8s吗?
7.5号预言日本大灾难的?是真的吗?
笨、傻、蠢有什么区别?
手机的运行内存真的有必要上16GB吗?
怎么才能有尤雨溪一半强,该怎么学习?
有没有什么惊为天人的 Logo 设计?
独立开发***能盈利吗?感觉好累...
如何看待华为Pura80标准版手机接口竟倒退成USB 2.0?要是也烧了WIFI是不是不好备份数据?
百度为什么越来越垃圾了?
为什么某些人说中国现在全球军事实力第一,但包括中国人在内很多人不认可?