因为ARM体系结构本身并不包含除法运算硬件,所以在ARM上实现除法是十分耗时的。ARM指令集中没有直接提供除法汇编指令,当代码中出现除法运算时,ARM编译器会调用C库函数(有符合除法调用_rt_sdiv,无符合除法调用_rt_udiv),来实现除法操作。根据除数和被除数的不同,32bit的除法运算一般要占有20-140个指令周期。除法运算占用的指令周期,由下面公式计算。
Time(除数n/被除数d)
=C0+C1*log2(除数n/被除数d)=
=C0+C1*(log2(除数)-log2(被除数)).
为了避免在程序中出现除法操作,编程时尽量使用其他运算来代替除法操作。如,使用x>(z×y)来代替(x/y)>z。
另外,在无法避免的除法运算中,尽量使用无符合除法代替有符号除法。这是因为在ARM库函数中,无符合除法的运算速度要快于有符合除法。
下面章节将详细讨论如何在代码中提高除法运算的执行效率。
14.2.1合并除法和求余运算
ARM的除法运算库函数能同时返回运算的商和余数。
在一些同时需要商和余数的情况下,编译器将调用一次除法运算函数同时存储运算的商和余数。
下面是一个编译器调用除法库,同时存储运算的商和余数的例子。
源程序如下。
intcombined_div_mod(inta,intb)
{
return(a/b)+(a%b);
}
下面是编译器编译出的汇编代码。
combined_div_mod
STMDBsp!,{lr}
MOVa3,a2
MOVa2,a1
MOVa1,a3
BL__rt_sdiv
ADDa1,a1,a2
LDMIAsp!,{pc}
从上面的例子可以看出,调用一次除法运算,同时返回了商和余数。
14.2.2使用2的整数次幂做除数
当2的整数次幂做除数时,编译器会自动将除法运算转换成移位运算。所以在编写程序算法时,尽量使用2的整数次幂做除数。
下面的例子显示了编译器对除法运算的自动优化。
源程序如下。
typedefunsignedintuint;
uintdiv16u(uinta)
{returna/16;
}
intdiv16s(inta)
{returna/16;
}
编译器的编译结果如下。
div16u
MOVa1,a1,LSR#4
MOVpc,lr
div16s
CMPa1,#0
ADDLTa1,a1,#&f
MOVa1,a1,ASR#4
MOVpc,lr
从上面的例子可以看出,无符号除法的运算速度快于有符号除法。