目前,Intel Cascade Lake至強、Ice Lake酷睿處理器已經支持BF16,ARM下一代ARMv8 CPU架構也會加入。BF16雖然不屬于IEEE標準規范,但它的優勢正得到越來越廣泛的驗證和認可。
BF16可以視為精簡版的FP32單精度浮點指令,使用8個有效位、8個階位,內存和帶寬占用減半,執行效率大大提升,同時又在性能方面遠勝FP16,可以大大提升AI人工智能、ML機器學習、DL深度學習等應用的性能、效率,不再受限于FP16的性能、FP32的效率。
根據模擬,BF16相比于FP16帶來的性能提升在不同運算類型中,少則可達1.6倍,多則能夠超過4倍。
現代3D游戲渲染不太可能從BF16中獲益,但是隨著GPU越來越多地參與AI、ML、DL運算,BF16的加入必將會給AMD顯卡帶來強大的加成,未來值得期待。
關鍵詞: