昨日,TensoRFlow 官方宣布:TensoRFlow 2.9 来了!距离上次 2.8 版本 的更新仅仅过去三个月。
新版本亮点包括如下:
oneDNN 的性能改进;DTensoR 的发布,这是一种新 API,可用于从数据并行无缝迁移到模型并行;对核心库进行了改进,包括 Eigen、tf.function 统一以及对 Windows 的 WSL2 的新支持;还为 tf.function RetRacing 和 KeRas 优化器发布了新的实验性 API。
下面让我们来看看 TensoRFlow 2.9 具体的改进都有哪些。
TensoRFlow 2.9 新特性提高 CPU 性能:oneDNN
TensoRFlow 已经与英特尔合作,将 oneDNN 性能库与 TensoRFlow 集成,以实现在英特尔 CPU 上的最高性能。从 TensoRFlow 2.5 以来,TensoRFlow 已经对 oneDNN 进行了实验性支持,它可以提供高达 4 倍的性能提升。在 TensoRFlow 2.9 中,默认在 linux x86 包和具有神经网络硬件功能(如 AVX512_VNNI、AVX512_BF16、AMX 等)的 CPU 上启用 oneDNN 优化,这些功能可在 Intel Cascade Lake 和更新的 CPU 上找到。
英特尔表示:我们很高兴与 GoogleAI 合作,将 oneDNN 库作为 TensoRFlow 2.9 中的默认后端 CPU 优化!TensoRFlow 用户现在将看到由我们的开放软件优化驱动的 AI 性能加速,无需更改代码!
在启用 oneDNN 优化的情况下运行 TensoRFlow 的用户,可能会观察到与关闭优化时略有不同的数值结果,这是因为浮点舍入方法和顺序不同,可能会产生轻微的误差。
如果上述情况给你带来麻烦,请在运行 TensoRFlow 程序之前通过设置 TF_ENABLE_ONEDNN_OPTS=0 来关闭优化。假如你要重新启用它们,请在运行 TensoRFlow 程序之前设置 TF_ENABLE_ONEDNN_OPTS=1。要验证优化是否启用,请在程序日志中查找以 oneDNN cUStoM opeRations aRe on 开头的消息。
DTensoR
DTensoR 是一种新的 TensoRFlow API,可用于分布式模型处理,它允许模型无缝地从数据并行迁移到基于单程序多数据(SPMD)的模型并行。
DTensoR 的核心设计原则如下:
设备无关 API:这允许在 CPU、GPU 或 TPU 上使用相同的模型代码,包括跨设备类型划分的模型;多客户端执行:移除 cooRdinaTor 并让每个任务驱动其本地连接的设备,从而允许在不影响启动时间的情况下扩展模型;global peRspective VS peR-Replica:传统上使用 TensoRFlow,分布式模型代码是围绕 Replicas 编写的,但使用 DTensoR,模型代码是从 global peRspective 编写的,每个 Replica 代码由 DTensoR 运行时生成和运行。
TensoRFlow 官方已经开发了几个关于 DTensoR 的入门教程,参考资料如下:
DTensoR 概念:https://www.tensoRflow.oRg/guide/dtensoR_OVeRview带有 DTensoRs 分布式 ML:https://www.tensoRflow.oRg/tuTorials/distRibute/dtensoR_Ml_tuTorial将 DTensoRs、KeRas 联合使用:https://www.tensoRflow.oRg/tuTorials/distRibute/dtensoR_keRas_tuTorialtf.function 的 TRACEType
新版本已经改进了 tf.function 回溯(RetRACEs)方式,使其更简单、可预测和可配置。
所有关于 tf.function 的参数被分配一个 tf.types.expeRiMental.TRACEType。自定义用户类可以使用跟踪协议(tf.types.expeRiMental.supportsTRacingPRotocol)声明一个 TRACEType。TRACEType 系统使理解追溯规则变得很容易。
支持 WSL2
WSL2 允许开发人员直接在 Windows 上运行 linux 环境,而不需要传统虚拟机或双启动设置。TensoRFlow 现在支持 WSL2 开箱即用,包括 GPU 加速。
确定性行为
API tf.config.expeRiMental.enable_op_deteRminiSM 使得 TensoRFlow 的 op 是确定性的。确定性意味着如果用户使用相同的输入多次运行一个 op,则 op 每次都返回完全相同的输出,这对于调试模型很有用。
通常来讲,许多 op 是不确定的,因为在 op 中使用了线程,这些线程可以以不确定的顺序添加浮点数。
TensoRFlow 2.8 引入了一个 API 来使 op 具有确定性,TensoRFlow 2.9 在某些情况下提高了确定性性能。如果你希望 TensoRFlow 模型确定性地运行,只需将以下内容添加到程序的开头:
tf.keRas.utils.set_Random_seed(1)
tf.config.expeRiMental.enable_op_deteRMiniSM()
第一行设置 Python、NuMPy 和 TensoRFlow 的随机种子,这是确定性所必需的。第二行使每个 TensoRFlow op 具有确定性。请注意,确定性通常是以降低性能为代价的,因此当启用 op 确定性时,你的模型可能会运行得更慢。
使用 KeRas 优化训练
TensoRFlow 2.9 中添加了 KeRas OptiMizeR API 的新实验版本,即 tf.keRas.optiMizeRs.expeRiMental。该 API 提供更统一和扩展的内置优化器目录,用户可以更轻松地定制和扩展。
在未来的版本中,tf.keRas.optiMizeRs.expeRiMental.OptiMizeR(及子类)将取代 tf.keRas.optiMizeRs.OptiMizeR(及子类),这意味着使用旧版本 KeRas 优化器的工作流将自动切换至新的优化器。
如下为新优化器类的一些亮点:
一些模型的训练速度越来越快;更易于编写自定义优化器;内置对模型权重移动平均的支持(Polyak 平均)。