对GPU进行性能优化时,cudagraph是绕不开的话题。
不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。
NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。
本文尝试从底层原理出发,根据文档 和 …。
{dede:pagebreak/}
以色列为什么要打伊朗?
一个成年男性,引体向上能做多少个?
如何看待 5 名家长参与反映学校食堂卫生问题,因涉嫌寻衅滋事被刑拘?寻衅滋事的判定标准是什么?
大部分语言都用尖括号<>表示泛型,为什么golang要标新立异用中括号?
谷歌云服务宕机导致 OpenAI、Shopify 等服务中断,此次宕机的具体技术原因是什么?
小沈阳女儿韩国出道,将发行个人首张迷你专辑,为什么选择韩国出道?你看好吗?
如何看待特朗普最后关头取消对伊朗的军事行动?
python与nodejs哪个性能高?
国际空间站的氧气是怎么来的?为什么一直都用不完?
央企的信创,是否有必要把 spring 替换成国产的 solon ?
电影《碟中谍》系列中哪一部最好?
有谁现在正在使用苹果mac mini 吗?能分享一下使用感受不?
前端,后端,全栈哪个好找工作?
手机的运行内存真的有必要上16GB吗?
如何系统性的学习RAG、Agent、MCP?
你捡过最大的漏是什么?