对GPU进行性能优化时,cudagraph是绕不开的话题。
不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。
NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。
本文尝试从底层原理出发,根据文档 和 …。
{dede:pagebreak/}
在韩国生活有什么体验?
如何解决Cursor等Agent编码开发轮次多了过后代码库变成屎山的问题?
大三做的海报,离就业差多远?
如何看待盲人up主蒙眼炒鸡蛋在成都各大医院都买不到胰岛素,最后进抢救室?
有一张巨强的显卡是什么体验?
新手平面设计师(方向美工)怎么有目的提升设计能力?
手机的运行内存真的有必要上16GB吗?
什么笑话让你看一次笑一次?
ERP实施从哪几方面入手能保证成功?
北京多所高校建议舍弃罗马仕充电宝,品牌方称正调查,罗马仕充电宝质量如何?如何排查所用充电宝是否安全?
当下房子已经跌到这样了,你会买吗,为什么?
现在是2025年6月,现在的房价是阴跌还是暴跌?还会继续跌多久?是否已经开始分化?
微软宣布 5 月 28 日开始下架「Microsoft 远程桌面」应用,背后原因有哪些?
大一计算机新生怎么合理利用github?
字节引入Rust是否代表J***a的缺点Go也没解决?
你是怎么发现亲戚开始见不得你好的?