对GPU进行性能优化时,cudagraph是绕不开的话题。
不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。
NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。
本文尝试从底层原理出发,根据文档 和 …。
{dede:pagebreak/}
什么时候你意识到做技术永无出路?
央企的信创,是否有必要把 spring 替换成国产的 solon ?
哪张照片让你觉得刘亦菲美得不可方物?
为什么从事技术的人普遍都比较难沟通?
哪一段代码最能体现c语言的魅力?
超级喜欢穿短裙正常吗?
作为一个服务器,node.js 是性能最高的吗?
Flutter 为什么没有一款好用的UI框架?
为什么一些人喜欢去掉 Vim 欢迎页上的“帮助乌干达的可怜儿童”?
有什么树莓派的代替品吗?
这种裙子是不是对直男爆杀?
你最近有什么烦心事吗?把这里当树洞,说出来,可以吗?
有哪些事情是你去了越南以后才知道的?
怎么看待三十而已里说的养鱼让人玩物丧志,养鱼是魔鬼,是黑洞,养鱼毁三代鱼缸毁一生的话?
为什么越来越多的国内男孩,要娶国外女孩?
明星现实中真的很漂亮吗?