首先,面数越多,VS的调用会越多,开销越大。PC级别的显卡目前对VS的开销不太敏感,但是移动端性能有限,还是尽量注意。
其次,为了在shader里支持ddx和ddy相关的功能(即使你不调用这两个接口,内部也是需要这个功能的,比如纹理采样中需要计算出mipmap值),GPU里处理像素是以2x2为单位的。网上摘的一段话:
The pixel shader always processes 2 X 2 groups of pixels (called "quads") but there is no other part of a GPU that necessarily does. Quads exist for the purpose of mip mapped texture filtering; if you compute texture coordinates for each pixel in a 2 X 2 quad, you can do a little bit of math on the four coordinates to determine which mip maps should be sampled.
This is one of many reasons why a GPU is poor at rendering tiny triangles. A one-pixel triangle is shaded as a 2 X 2 quad, which wastes 75% of pixel shader resources.
如果三角形数量达到像素级别,那么会带来大量的冗余处理,这也是为什么UE5里的Nanite采用了Visibility buffer。
?
还有,对于移动端GPU来说,采用的架构是TBR或者TBDR,VS的处理结果不会按照正常的渲染管线直接进行下一步的光栅化,而是先从片上高速缓冲区写入进系统内存,然后逐tile渲染时又会回读。实质上就是用将顶点数据读写进系统内存替换帧缓冲区的读写。如果顶点数量太多,那就成了负优化了,因为VS里出来的顶点的属性还是挺多的。
常用的减少面数的手段有LOD、视锥剔除、遮挡剔除等,最新的技术有UE5的Nanite。
|