对GPU进行性能优化时,cudagraph是绕不开的话题。
不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。
NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。
本文尝试从底层原理出发,根据文档 和 …。
{dede:pagebreak/}
为什么所有主流浏览器的 User-Agent 都是 Mozilla/x.0 开头?
《甄嬛传》中祺贵人为什么和甄嬛反目?
为什么中国要积极支持伊朗呢?
如何看待多地开展查摆年轻干部玩心重、贪图享乐、说话随意、社会交往复杂、生活不检点等问题的行动?
Nginx 能做什么好玩的事情?
为什么信创更倾向j***a而不是c#?难道Oracle比微软更开放?
为什么 php 可以做到 7 毫秒以内响应,而 .net 做不到?
MySQL不香吗,为啥还要Elasticsearch?
《原神》5.7 版本魔神任务第五章•第六幕「你存在的时空」体验如何?
055万吨驱逐舰是不是有些被过于神化了,有没有了解的大佬详细解释一下?
你捡过最大的漏是什么?
程序员每天会阅读哪些技术网站来提升自己?
Rust、Go、Zig、Dart、C3、C++、C,仓颉、moonbit、凹语言哪个语言更有未来?
想做流量卡代理,有哪些靠谱的流量卡代理平台?
现代艺术只考虑意义、不考虑美感吗?
如何评价阿里等大厂笔试现已经禁用本地IDE?