对GPU进行性能优化时,cudagraph是绕不开的话题。
不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。
NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。
本文尝试从底层原理出发,根据文档 和 …。
{dede:pagebreak/}
为什么这次以色列打伊朗,网上声讨的人少了,反而都是嘲笑调侃伊朗?
普通人用得着4k分辨率的显示器吗?
为什么个人需要公网ip?
国产手机APP为什么越来越臃肿?
养乌龟是什么体会?
你为什么选择了flutter?
北京日报点名批评“苏超”过度娱乐化,它是否管的太宽了?为什么无良媒体不会被查封取缔?
为什么小米不是用玄戒o1而是用骁***gen3作为小米yu7的座舱芯片呢?
go 有哪些成熟点的后台管理框架?
央视怎么又开始报道伊朗的防空能力了?是有神秘的力量开始介入了吗?
你曾看到空乘做过的最傻的事情是什么?
如何评价软件 Typora?
为什么我养的龟忽然死了?
你为什么选择了flutter?
为什么直到2024年国外媒体都把俄罗斯军事排第二?
如何评价MiniMax开源首个视觉RL统一框架V-Triune,实现推理感知一肩挑,其技术上有何优势?