引言
从20世纪70年代世界上第一个为嵌入式应用而设计的微处理器Intel 4004诞生以来,嵌入式系统已经发展了30多年。近几年,嵌入式系统(embedded system)已经成为电子信息产业中最具增长力的一个分支。随着手机、PDA、GPS、机顶盒等新兴产品的大量应用,嵌入式系统的市场正在以每年30%的速度递增,嵌入式系统的设计也成为软硬件工程师越来越关心的话题。
嵌入式系统是以应用为中心、以计算机技术为基础,并且软硬件可裁减,适用于应用系统对功能、可靠性、成本、体积、功耗等有严格要求的专用计算机系统[1]。在嵌入式系统的设计中,低功耗设计(Low-Power Design)是必须面对的问题。其原因在于嵌入式系统被广泛应用于便携式和移动性较强的产品中,而这些产品不是一直都有充足的电源供应,往往靠电池来供电,所以应从每一个细节来考虑降低功率消耗,尽可能地延长电池的使用时间。事实上,从全局来考虑低功耗设计已经成为了一个越来越迫切的问题。
低功耗是便携式电子设备必须具备的一个关键特性。过去几年的研究主要针对硬件部分,而现在人们则更注重通过优化软件部分来降低系统功耗。要想对软件进行优化,必须了解每条指令所产生的功耗,并选择正确的编译方法,以降低程序执行的功耗。由于各种微处理器架构不同,指令集和功耗也不一样。因此,适用于某一处理器的优化方式并不一定适用于其他处理器。这样,选择与可降低功耗的软件相匹配的微处理器便十分重要。
1 编译优化
编译器的作用是将由高级语言编写的程序,如C/C++等,翻译成能够在目标机上执行的程序。换句话说,编译器为高级语言程序员提供了一个抽象层,使得程序员能够通过编写与实际问题相近的高级语言代码(而不用汇编或者机器语言),方便地解决实际问题;同时,也使得程序的可读性和可维护性得到保证,提高软件开发的效率。另外,将程序移植到新的目标机,也只要用相应的编译器对程序进行重新编译,而不必重新编写程序。
但是某些情况下,这样的做法是以牺牲程序的执行性能为代价的。编译器的有效性以及它所生成的代码效率,可以与专家级的汇编/机器语言程序员所编写的代码相比较得出,因此可以通过对编译器的优化,生成效率更高的代码。
通过优化编译器可以有效地降低嵌入式设备的功耗。在一个程序中,每一条指令都将激活微处理器中的某些硬件部件,因此,正确选择指令可降低处理器的功耗。通过建立特定处理器架构下指令集的功耗信息,利用“减少跳转的指令重排序”等方法,可以进行有效的软件低功率优化。
这里作两点假设:① 每一条指令都有一个固定量的功率;② 每条指令的散热与它的操作数及其他指令无关。从图1可以看到,通过对指令的重新排序,可以把一段程序的初始功率状况,如图1(a)所示,转换成图1(b)所示的那样。可以得出这样的结论:尽管两种情况中局部区域的散热状况不一样,但是它们所消耗的总电能是一致的。换句话说,可以在不影响总耗电的情况下,对程序的局部散热情况作出某些调整,以符合实际的需要。下面通过将指令进行重新排序来实现系统功耗的降低[2]。
图1程序内局部区域功率的两种可能性
2 指令排序
我们知道,运行某一特定程序的处理器的功率P=I×Vdd(I为平均电流,Vdd为给定的电压),则程序的功耗E=P×t(t为程序的执行时间);同时,t=N×T(T为指令周期),即为主频的倒数,N为程序执行的周期数)。在嵌入式系统,尤其是在移动设备中,一般都通过电池供电,故系统的功耗是一个非常重要的指标。现在,Vdd和T都是已知量,因此程序消耗的电能E与电流I和程序周期数N的乘积成正比。这里通过引用参考文献[3]中所建立的模型来进行阐述。该模型中通过示波器等设备,测量并估计执行每条指令所需要的电流I[4]。综上所述,可以利用嵌入式处理器中的多数据存储区域的特性,实现数据的并行处理,通过对指令的排序,减少指令的执行周期,从而达到降低功耗的目的。
2.1 举例
假设有一段C语言程序,如图2(a)所示。图2(b)是其相应的汇编代码,图2(c)表示每个结点带有两个权值的数据依赖图(Data Dependence Graph,DDG)。第一个权值表示结点在DDG中的深度,如V10的第一个权值为1,V0的第一个权值为6。假设这个权值越大,表示其优先级越高,如图2(c)中V0和V1具有最高的优先级。
图2C语言代码、汇编代码与数据依赖图
图3为未使用文中的算法前指令的执行顺序。注意,图中的黑体字,即V2、V6以及V9,与其他指令不同。它们是ADD或者MPY指令,需要用到系统的ALU部件。在同一指令周期中,可以同时执行ALU运算以及MOVE操作,但是不可以同时执行两个ALU操作。
图3指令排序前结点的执行顺序
节点的第二个权值,表示相关寄存器的生命周期。如图4所示,V0所依赖的寄存器是r0,它的生命周期为1到3,即为2。从图中可以得出以下结论:此段程序总共需要11个指令周期和最少同时使用2个寄存器。
图4指令排序前的状况
图5为基于本文的算法,将指令重新排序后的情况。程序总的执行周期变为6,但是所占用的寄存器个数增加到3。由此也可以看到,程序的执行周期与寄存器的个数之间也是一个折衷权衡的结果。
图5基于排序算法后的情况
文中借用了参考文献[3]中所建立的模型,用以计算程序的耗电量。在图5中,程序执行时所需要的总电流I=780 mA,总的执行周期数为N=6,因此消耗电路E=N×I=6×780 mA=4 680 mA。不使用任何算法的情况,即图2所示,E=N×I=1 080×11=11 880 mA。通过使用文中的算法,将程序执行周期减少了,同时程序的功耗也降低了。也就是说,通过使用文中的算法,程序的执行性能得到提高,系统的功耗也最大程度地得到了优化。由此可见,在这一层面上,采用何种算法是非常重要的。
2.2 算法描述
文中的算法是基于文献[5]中提出的以串列为基础的排序机制,主要是以减少程序的执行周期为目的,同时考虑到使用尽量少的寄存器。程序的描述如下:
① 构造数据依赖图DDG。
② 构造带权的元组,其中第一个权值为结点在DDG中的深度,设为P;第二个权值为生命周期,设为L。
③ 查找就绪表R(如图3所示)。
④ while就绪表R不为空 do
P值为最高结点所具有的最高优先级
if当前指令周期中的结点的深度<P
if存在几个结点
if结点具有相同的优先级
if结点具有相同的生命周期
则在DDG中处于相同子树的结点具有高优先级,加入到新的排序序列中(使在进行ALU操作时执行1至2条MOVE指令成为可能)
else
生命周期越小的结点越具有高优先级,加入到新的排序序列中(用于减少寄存器数)
else
具有最大深度的结点具有高优先级,加入到新的排序序列中(用于减少指令周期)else直接加入到新的排序序列中
else
break
在以上的算法中,结点的深度是最为重要的。它用于控制整个程序所需的指令周期数,从而使程序的功耗得到有效的控制。另外,结点的生命周期也是相当重要的,它可以控制程序中所用到的寄存器的个数。这在DSP处理器中显得尤为重要。同时,该算法也充分利用了处理器的数据并行处理能力,为在同一指令周期内执行不同的操作提供了可能。
3 结论
近年来,功耗成为嵌入式应用领域的一个越来越令人关注的问题。尤其是在移动设备中,由于通过电池供电,功耗显得尤为重要。当前的编译器很少能够充分利用处理器的各种特性,因此编译生成的代码不能与那些专家级汇编程序员写出的代码相提并论。本文从软件角度出发,提出了一个优化编译器,对指令进行重新排序的算法,通过优化编译器来实现降低系统的功耗。下一步工作则要选择和研究某种特定的微处理器,然后创建相关工具,产生这种微处理器的指令集功耗信息,再进一步运用该算法实现编译优化,最终实现功耗的优化。