AI算法效率每16个月提速一倍，算力革命超越摩尔定律

作者 | 蒋宝尚

编辑 | 丛末

摩尔定律预测芯片性能每18个月翻一倍，那 AI 算法性能多少个月翻一番？

答案是16个月。

图注：蓝点是给定时间的最低计算机，灰点是测量值。

观察结果是每16个月性能翻一倍。近日，OpenAI针对AI算法在过去数年中性能的提升做了一个详细的分析。他们发现，自2012年以来，在 ImageNet 分类上训练具有相同性能的神经网络，所需要的计算量，每16个月降低一倍。

与2012年相比，现在将神经网络训练到 AlexNet 的性能，所需的计算量仅为原来的1/44（相比之下，摩尔定律仅降低为1/11）。若将“算法效率”定义为：减少训练特定任务所需的计算量。我们还可以看到：

在ImageNet上，ResNet-50 级别的训练效率翻倍时间大约为17个月；

在WMT’14的翻译任务上，Transformer相比seq2seq，训练的“算法效率”提升了61倍，所用时间约为 3 年，也即翻倍时间为 6 个月；

在围棋任务上，AlphaGo Zero所需的计算量是AlphaZero的1/8，翻倍时间仅为 4 个月；在Dota 任务上，翻倍时间仅为 25 天！！！

所有这些结果表明，对于近期投入大量资金的这些 AI 任务，算法上的进步相比硬件的进步（服从摩尔定律，每18个月翻倍），能产生更多的效益。

如果用有效计算的概念把AI和计算的趋势结合起来，那么，其表现就如下图所示：AI和计算的趋势被分解为硬件效率（摩尔定律）以及金钱和并行化（money/parallelization）之后，算法效率的提升只占总体提升的一部分。

主要衡量指标

前面也提到，所使用的衡量方法对现有的开源项目的再实现。

另外OpenAI还在体系结构之间进行了少量超参数调整以及小范围的调优。

使用的计算是基于以下结果：

1、每个图像的浮点计算，由PyTorch库计数

2、图片每个epoch的数量

3、架构的性能优于或等于OpenAI训练的AlexNet模型所需的时间间隔数。

据OpenAI介绍，其很大程度上遵循了PyTorch示例模型中建议的超参数，对于每一个模型都使用SGD进行训练，批次大小为256，冲量（momentum）为0.9，权重衰减设置为1e-4。对于预处理的架构，例如GoogleNet 和 VGG，学习率为0.01，对于其他架构学习率为0.1。

RESNET-50学习曲线

如图所示对于AlexNet，作者遵循了原始论文的学习率表（learning rate schedule），每30个epoch衰减10倍，其他的则降低1000倍的学习率。

为了检查超参数设置是否合理，作者在ResNet18上进行了扫描，并将初始学习率设置为0.0316、0.1以及0.316，总的衰减率为250X，1000X，以及2500X。

另外，对于除AlexNet以外的所有模型，作者对学习率及进行了平滑处理，如上图所示，显然这对早期的学习非常重要。

在论文中，OpenAI还提到，除了效率，还有许多其他衡量标准揭示了人工智能领域的整体算法进展，毕竟算法还受到底层硬件、硬件利用率以及云设施的改进影响。例如当处于低数据体系时，样本效率是关键。当考虑到经济效益时候，GPU、参数、FLOPs（浮点运算次数）推理效率的提高也很有意义。

主要结果

前面也提到，从2012年到目前，实现AlexNet级别性能所需的计算减少到了原来的1/44。

另外，作者还将训练效率的进步分为数据效率和减少每个时间段所需的FLOP数量。如下表所示，将总训练效率收益分解为每一epoch的训练周期和每一epoch的浮点运算数。

另一个观察结果是：基于FLOPs的学习曲线。这可以帮助理清模型之间的比较。如下图所示，与其他模型相比，某些模型（例如ShuffleNet_v2）使用比较少的计算量就能达到其他模型（例如AlexNet）能够达到的准确率。

Vgg-11的最大精度要比AlexNet高，但达到相同精度所需要花费的计算量却要比AlexNet大很多。另一方面，如果综合考虑算力和准确率，则ResNet50优于VGG-11，GoogLeNet优于AlexNet。第三个观察结果是：ResNet-50分类性能效率提升和AlexNet类似，而围棋、Dota和机器翻译等任务的效率提升速度相比AlexNet要快很多。如下表所示，就浮点运算而言，给定任务，其计算效率都有不同程度提高。

再放一次

另外，更为细致的观察发现，1）翻译任务在较短的时间内取得的进步比CV更大；2）对围棋和DOTA的观察时间比较短，但只要在接下来的 5 年里，在围棋上再有三倍，DOTA上再有5倍的性能提升，它们的效率增益就能超过视觉任务了。

另外，在利用ImageNet完成相关推理任务时，效率的提升同样是明显的：

1、Shufflenet实现了AlexNet级别的性能，推理效率在5年内提高了18倍(15个月翻一番)；

2、EfficientNet-b0在3年半的时间内就达到了ResNet-50级别的性能，推理效率提高了10倍。

局限性以及未来工作

当然，此次对计算效率的测量还是存在局限性的。

首先，尚不清楚观察到的效率趋势在多大程度上可以泛化到其他AI任务上。也就是说，在Al领域中是否存在一个与摩尔定律相当的“AI定律”，还不能得出肯定的结论。

其次，算法效率的提升只是进步的一个表现，此次分析并没有量化整体的进步。毕竟AI能力进步背后是整体概念的表现，而不仅仅是效率的提升。

此外，本分析主要关注模型的最终训练运行成本（final training run cost），并不是总开发成本（total development costs）。

一些算法上的改进使超参数的空间变得更大，从而可以更稳定地训练模型。另一方面，架构搜索也增大了最终训练运行成本和总开发成本之间的差距。

一般来说，算法的改进是推动AI进步的关键因素，动态测量SOTA算法效率的改进，将有助于评估算法效率提升的质量，推动AI算法的改进。由于硬件和算法效率提升可以相互叠加，所以AI的进步应该综合考虑这两者的情况。

（雷锋网）、（雷锋网）、（雷锋网）