对GPU进行性能优化时,cudagraph是绕不开的话题。
不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。
NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。
本文尝试从底层原理出发,根据文档 和 …。
{dede:pagebreak/}
贫贱夫妻百事哀能哀到什么地步?
日本AV对中国人的毒害有多大?
为什么在武侠游戏里,总不能很好的表现出轻功的特色呢?
月之暗面 Kimi 首个 Agent 开启内测,可生成易追溯的万字报告,有哪些技术亮点?
维护一个大型开源项目是怎样的体验?
普通人用得着4k分辨率的显示器吗?
如何看待不超过1879元的Mac mini(M4+16/256GB+票),易用性吊打同级其他台式电脑?
实体店为什么生意越来越难做了?
为什么 electron 不做成独立的 runtime?
为什么买的小乌龟总是养不活呀?
这世界上有什么不能造***吗?
为什么Go仅仅160MB的安装包就可以编译程序,而Rust却还需要几个GB的VC++才能编译?
有用 NAS 被联通以安全为由要求停止使用的吗?
小米首款 SUV YU7 发布,有九种配色,25.35 万元起售,该车市场竞争力如何?你会买吗?
宁波东方理工大学学费每人每学年 9.6 万,为什么会这么贵?
开车的人和不开车的人思维有什么区别?