由于超快的CPU内核与相对慢的存储器之间的速度差距在日渐增大,存储器系统可能成为当前制约系统性能的主要瓶颈。此外,低功耗是另一个重要的设计考虑,尤其在电池供电设备与日俱增的情况下更是如此。低功耗意味着更长的电池续航时间和设备使用时间。在常见的应用场合,存储器功耗通常占了应用处理器功耗相当大的一部分,而且,随着存储器设计日益复杂、容量增大、分层增多,存储器功耗往往会迅速增加。因此,降低存储器功耗非常有利于延长电池续航时间。为了更好地了解各种应用的固有行为,有必要探究存储器的特性、建立存储器模型,以判断应用是否涉及频繁的存储器存取操作,甚至帮助预测应用的性能。
本文提供了一种简单、经济的方法,能以可接受的精确度动态地表征应用的计算及存储器的构成。
描述存储器特性的方法
如果不涉及存储器操作,那么CPU利用率应该随着CPU内核的频率呈线性关系,而应用成本(定义为CPU利用率和CPU频率的乘积)应该保持恒定。但在考虑存储器存取以后,CPU利用率就不再随内核频率呈线性关系了。在频率较高时,存储器对性能的影响往往更大,因为CPU要用更多的CPU周期等待存储器的响应(这里我们假定,存储器频率不随CPU频率而变)。从这种意义上,应用可以分为两种类型:计算限定型和存储器限定型。
接下来,我们来讲述如何用三种不同的方法表征存储器特性,并帮助确定应用的CPU利用率。在此,硬件性能信息是通过查看性能监视单元(Performance Monitoring Unit,简称PMU)来收集的。因此,Marvell的方法仅适用于有PMU硬件支持的系统。
1. 整体数据缓存失效率:直觉上,较高的数据缓存失效率意味着更大的存储器流量。为了获得数据缓存失效率的数值,我们需要监视一级数据缓存和二级数据缓存(如果有的话)的存取操作和失效总数。
2. 主存储器访问率:外部存储器控制器的占用率直接表明了存储器的利用率。为了得到主存储器访问率数值,必须收集两种PMU信息:存储器控制器被占用的周期总数;监视窗口中的周期总数。
3. 数据停顿率:流水线停顿主要由数据相关性引起,而数据不可用的原因是存储器存取速度远比CPU速度低。因此,流水线的停顿次数反映了存储器的流量情况。此外,流水线停顿次数还表明了存储器存取的重要性。并不是每次存储器存取都对最终性能有关键影响,因此,持续跟踪因数据相关性对性能造成影响的存储器存取操作,是相当有用的。使用这种方法,可以监视由数据相关性引起停顿的事件情况。此外,必须记录总的周期数,以计算每个窗口中的数据停顿率。
这些不同的方法从不同角度反映出存储器的特性。我们能以合理的开销使用一种方法或组合使用多种方法,以更有效地进行性能分析、做出更准确的预测。
在测试中,我们使用了Marvell的应用处理器,运行基于Linux的操作系统,采用QVGA LCD显示器作为测试平台。该应用处理器包括两级缓存。在本次研究中,我们专注于MP3、AAC+和H.264解码器。
图1显示了对三种不同方法进行比较的结果。每张图都包括两条曲线:一条是启动了二级(L2)缓存的情况;另一条则是禁用了二级缓存的情况。测试了三个CPU频率。
图1:表征存储器特性的三种方法
存储器存取任务不繁重时,CPU利用率与内核频率呈近似线性关系,因此内核频率变化时,应用成本曲线(如负载曲线中所示)应与内核频率曲线呈平直并行走向。L2缓存接通时,MP3和AAC+解码器是很好的例子,因为MP3和AAC+解码器仅引入很少量的存储器存取操作,而且这些存取操作大多数都由L2缓存处理了。在没有L2缓存的情况下,应用负载随内核频率升高而增大。我们还发现,无论L2缓存接通还是断开,缓存失效率在CPU频率变化时,没有显著改变,这意味着,要表示存储器的存取情况,整体数据缓存失效率不是一个非常有效的衡量指标。
直觉上,存储器访问率包含了与缓存失效率类似的系统信息量,因为缓存失效直接引发存储器存取。不过,我们得到的结果表明,情况并非如此。例如,H.264 QCIF解码器显示了与H.264 QVGA解码器类似的缓存失效率趋势。但是与H.264 QCIF解码器相比,H.624 QVGA解码器在存储器存取上所占应用时间的百分比要大得多。这再一次证明,只监视缓存失效率是不够的。如果总体缓存存取量微不足道,那么缓存失效率未必导致性能下降。没有L2缓存的MP3解码器是这种情况的一个很好的例子。另一方面,典型的缓存失效率可能导致大量存储器存取操作。H.264 QVGA解码器显示了这种趋势。
有些存储器存取可能对性能发生关键的影响,另一些则可能影响不大。无论缓存失效率、总体缓存存取量,还是主存储器访问率,都无法用以区分存储器存取是否对性能有关键影响。幸运的是,我们发现,数据停顿率是一个非常好的指标。显然,除了MP3解码器,对所有其它应用,数据停顿率曲线与应用成本都是同步的。在我们所做的实验中,数据停顿率是用来预测应用负载的最佳衡量指标。MP3解码器的存储器存取频度极低,因此,在整体上存储器存取操作非常少的情况下,即使存在一些能产生关键影响的存储器存取操作,它对性能的影响也是微不足道的。
图2提供了一种基于存储器特性预测CPU利用率的算法。该算法首先检查,存储器访问率是否低于预先定义的门限T1。如果是,我们就预测,CPU利用率与CPU频率呈线性关系;否则,就分两步预测CPU利用率:(1)与频率成比例;(2)根据数据停顿率调整。在第二步,我们再引入两个门限:T2和T3。为了采用这个算法,我们必须跟踪主存储器访问率和数据停顿率。因此,最多必须监视3种PMU信息:(a)外部存储器控制器被占用的总周期数;(b)由于数据相关性而导致流水线停顿的总次数;(c)监视窗口中的总周期数。(a)/(c)给出DDR%,而(b)/(c)给出Stall%。这种算法可以很容易纳入电源管理框架中。
图2:一种简单的性能预测算法。
本文结论
总之,如果整体上存储器存取频度可以忽略不计,那么就可以预测,CPU利用率与CPU频率成比例。如果存储器存取频度并非微不足道,那么预测CPU利用率时,就应该同时使用数据停顿率。本白皮书是基于一篇会议论文撰写的,该论文研究了有助于表征存储器特性的3种存储器指标,论文以此为基础提出了一种改进性能预测的算法。未来的工作可能还包括:用更多应用做实验;基于用户输入和/或更多系统反馈设计动态自适应门限,以此优化我们的算法。