有人说,我做一款AI芯片,只要原生支持PyTorch就好了呀,用户直接用PyTorch跑模型,根本接触不到CUDA呀。
没错,一般的用户只要在PyTorch层面做应用,但是总是有新的模型架构出来,这些架构都需要做特定的性能优化才能在一个芯片上得到较高的性能,这时候就涉及到算子开发了。
比如说一开始LLM在GPU上的性能不好,后来社区针对Nvidia GPU做了flash attention等的优化才把LLM的性能提升到了比较可观的程度。
CUDA已经被各种开源AI框…。
{dede:pagebreak/}
Chrome 浏览器设计的神细节有哪些?
前端,后端,全栈哪个好找工作?
为什么感觉腾讯的风评越来越好了?
如何评价B站峰哥亡命天涯直播中说面包就是比馒头好吃,中国古代不吃面包是因为贫穷,没有足够的柴火?
golang总体上有什么缺陷?
谁能告诉我这是什么虫,在电脑上爬出来吓死我了 ?
为什么 php 可以做到 7 毫秒以内响应,而 .net 做不到?
***拍大尺度片子时摄影师不会看光吗?
现在是2025年6月,现在的房价是阴跌还是暴跌?还会继续跌多久?是否已经开始分化?
做数据库内核开发的是不是很少?
能分享一下你写过的rust项目吗?
程序员不租房住车里,称三年多省了差不多十万,被质疑占用公共***,怎样看他的选择?这算占用公共***吗?
为什么不用rust重写Nginx?
为什么我的鼠标最多用半年按键就会失灵?
如果战争爆发,中国普通老百姓枪都不会打该怎样自卫?
网传《碟中谍 8》亏损可能超 14 亿,是真的吗?这背后的原因是什么?