对GPU进行性能优化时,cudagraph是绕不开的话题。
不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。
NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。
本文尝试从底层原理出发,根据文档 和 …。
{dede:pagebreak/}
写业务的话,go是不是垃圾?
为什么现在键盘轴体不用颜色命名了,全是些莫名其妙的名字,看不懂到底是什么?
北京多所高校建议舍弃罗马仕充电宝,品牌方称正调查,罗马仕充电宝质量如何?如何排查所用充电宝是否安全?
2025 国内公司前端团队都在搞些什么?
不用CDN就没事,用阿里云CDN就被攻击刷流量,阿里云表示证明不了就要用户买单,如何看到这种行为?
世界上最大的航母有多大?
小腿能粗到什么地步?
《原神》5.7 版本魔神任务第五章•第六幕「你存在的时空」体验如何?
如何评价首个女性友好的编程语言HerCode?
你都用 Python 来做什么?
女朋友学音乐的,给我备注 B大调音阶 是什么含义呢?
前端怎么实现预览pdf文件?
请问哪种输入法比较好用?
毕设答辩,老师说node不可能写后台怎么办?
前端为什么总是推脱效果实现不了?
如何评价***伊内斯·特洛奇亚的身材?