二、高效的编写循环体
1. 使用减计数到零的循环结构,这样编译器就不需要分配一个寄存器来保存循环终止值,而且与0比较的指令也可以省略。
2. 使用无符号的循环计数值,循环继续的条件为i != 0而不是i > 0,这样可以保证循环开销只有两条指令。
3. 如果事先知道循环体至少会执行一次,那么使用do – while循环要比for循环好,这样可以使编译器省去检查循环计数初值是否为零的步骤。
4. 展开重要的循环体可降低循环开销,但不要过度展开,如果循环的开销对整个程序来说占的比例很小,那么循环展开反而会增加代码量并降低cache的性能。
5. 尽量使数组的大小是4或8的倍数,这样就可以容易地以2,4,8次等多种选择展开循环,而不需要担心剩余数组元素的问题。
三、高效的寄存器分配
1. 应该尽量限制函数内部循环所用局部变量的数目,最多不超过12个,这样,编译器就可以把这些变量都分配给ARM寄存器。
2. 可以引导编译器,通过查看是否属于最内层循环的变量来确定某个变量的重要性。
四、高效地调用函数
1. 尽量限制函数参数的个数,不要超过四个,这样函数调用的效率会更高。也可以将几个相关的参数组织在一个结构体中,用传递结构体指针来代替多个参数。
2. 把比较小的被调用函数和调用函数放在同一个源文件中,并且要先定义,后调用,这样编译器就知道了被调用函数生成的代码,并以此对调用函数进行一些优化或者内联较小的被调用函数。
3. 对性能影响较大的重要函数可使用关键字_inline进行内联,不过这个关键字只是一个提示,编译器可能会忽略它。内联一个大的函数将会大大增加代码量,而对性能却不会有大的改善。