对GPU进行性能优化时,cudagraph是绕不开的话题。
不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。
NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。
本文尝试从底层原理出发,根据文档 和 …。
{dede:pagebreak/}
你读过最冷门,但「含金量极高」的书是什么?
什么是 5G 固定无线接入(FWA)?
为什么 Bun 选择了 Zig 以及 JSCore?
长得和刘亦菲很像是一种什么体验?
太空中没有氧气,为什么太阳还在燃烧?
卸载迅雷后,***文件变成xunlei.bittorrent.6,怎么还原回去啊,心态炸了!?
各位程序员岱佬们可以分享一下你们敲代码时的好习惯吗?
平面设计师要被时代淘汰了吗?
钱学森曾以党性担保人体特异功能是真的,钱老是真糊涂还是***糊涂?
据说go和c#的开发者都说自己比较节省内存,你们认为呢?
如何评价引入 Liquid Glass 设计的 iOS 26?
17岁,在高中,每天该怎么利用自己的闲暇时间提升画技?
为什么感觉wps的用户越来越多,office没人用了?
想要入行音***开发,但是没有相关项目经验怎么办?
怎么学习前端开发?求推荐学习路线?
如何评价张靓颖刘宇宁《九万字》?