对GPU进行性能优化时,cudagraph是绕不开的话题。
不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。
NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。
本文尝试从底层原理出发,根据文档 和 …。
{dede:pagebreak/}
老实人被逼急了会怎么样呢?
为什么大家不再提星链了(包括外网)?
听说百度文心一言已经停止训练了,真的***的?百度这是准备放弃ai了吗?
程序员看剧的时候,如果看到有敲代码页面,会暂停看代码吗?
靳东、宋佳分封视帝、视后,《我的阿勒泰》获最佳剧集,如何评价 30 届上海电视节白玉兰奖获奖名单?
据说go和c#的开发者都说自己比较节省内存,你们认为呢?
朝鲜能在20年内赶上韩国的生活水平吗?
什么是Android逆向?如何学习安卓逆向?
当初中俄为什么不摧毁朝鲜的核设施,让朝鲜拥有了自己的核武器?
成为体育女主播,光「好看」就够了吗?
为什么美军B2实战以后认为一部分网友又没信心了?
如何看待演员夏雨称「真正玩极限运动的都是胆小的人」,如何理解这一观点?
只能选一个,你选谁?
23999元的鸿蒙电脑,值得买吗?
城管如果彻底解散,中国应该大庆三天吗?
在杭州2021年买房的你,房子亏了多少了?