3.3.2 定点加法
乘的过程中,程序员可不考虑溢出而只需调整运算中的小数点。而加法则是一个更加复
杂的过程。首先,加法运算必须用相同的Q点表示;其次,程序员或者允许其结果有足够
的高位以适应位的增长,或者必须准备解决溢出问题。如果操作数仅为16位长,其结果
可用双精度数表示。下面举例说明16位数相加的两种途径。
1.保留32位结果
LAC OP1 ;(Q15)
ADD OP2 ;(Q15)
SACH ANSHI ;(高16位结果)
SACL ANSLO ;(低16位结果)
2.调整小数点保留16位结果
LAC OP1,15 ;(Q14数用ACCH表示)
ADD OP2,15 ;(Q14数用ACCH表示)
SACH ANS ;(Q14)
加法运算最可能出现的问题是运算结果溢出。TMS320提供了检查溢出的专用指令BV,此
外,使用溢出保护功能可使累加结果溢出时累加器饱和为最大的整数或负数。当然,即
使如此,运算精度还是大大降低。因此,最好的方法是完全理解基本的物理过程并注意
选择数的表达方式。
3.3.3 定点除法
在通用DSP芯片中,一般不提供单周期的除法指令,为此必须采用除法子程序来实现。二
进制除法是乘法的逆运算。乘法包括一系列的移位和加法,而除法可分解为一系列的减
法和移位。下面来说明除法的实现过程。
设累加器为8位,且除法运算为10除以3。除的过程就是除数逐步移位并与被除数比较的
过程,在每一步进行减法运算,如果能减则将位插入商中。
(1) 除数的最低有效位对齐被除数的最高有效位。
00001010
- 00011000
11110010
(2) 由于减法结果为负,放弃减法结果,将被除数左移一位再减。
00010100
- 00011000
11111000
(3) 结果仍为负,放弃减法结果,被除数左移一位再减。
00101000
- 00011000
00010000
(4) 结果为正,将减法结果左移一位后加1,作最后一次减。
00100001
- 00011000
00001001
(5) 结果为正,将结果左移一位加1得最后结果。高4位代表余数,低4位表示商。
00010011
即商为0011=3,余数为0001=1。
TMS320没有专门的除法指令,但使用条件减指令SUBC可以完成有效灵活的除法功能。使
用这一指令的唯一限制是两个操作数必须为正。程序员必须事先了解其可能的运算数的
特性,如其商是否可以用小数表示及商的精度是否可被计算出来。这里每一种考虑可影
响如何使用SUBC指令的问题。下面给出两种不同情况下的TMS320C25除法程序。
(1) 分子小于分母
DIV_A:
LT NUMERA
MPY DENOM
PAC
SACH TEMSGN ;取商的符号
LAC DENOM
ABS
SACL DENOM ;使分母为正
ZALH NUMERA ;使分子为正
ABS
RPTK 14
SUBC DENOM ;除循环15次
SACL QUOT
LAC TEMSGN
BGEZ A1 ;若符号为正,则完成
ZAC
SUB QUOT
SACL QUOT ;若为负,则商为负
A1: RET
这个程序中,分子在NUMERA中,分母在DENOM中,商存在QUOT中,TEMSGN为暂存单元。
(2) 规定商的精度
DIV_B:
LT NUMERA
MPY DENOM
PAC
SACH TEMSGN ;取商的符号
LAC DENOM
ABS
SACL DENOM ;使分母为正
LACK 15
ADD FRAC
SACL FRAC ;计算循环计数器
LAC NUMERA
ABS ;使分子为正
RPT FRAC
SUBC DENOM ;除循环16+FRAC次
SACL QUOT
LAC TEMSGN
BGEZ B1 ;若符号为正,则完成
ZAC
SUB QUOT
SACL QUOT ;若为负,则商为负
B1: RET
与DIV_A相同,这个程序中,分子在NUMERA中,分母在DENOM中,商存在QUOT中,TEMSGN
为暂存单元。FRAC中规定商的精度,如商的精度为Q13,则调用程序前FRAC单元中的值应
为13。
3.4 非线性运算的定点快速实现
在数值运算中,除基本的加减乘除运算外,还有其他许多非线性运算,如对数运算、开
方运算、指数运算、三角函数运算等,实现这些非线性运算的方法一般有:(1)调用DSP
编译系统的库函数;(2)查表法;(3)混合法。下面分别介绍这三种方法。
1.调用DSP编译系统的库函数
TMS320C2X/C5X
的C编译器提供了比较丰富的运行支持库函数。在这些库函数中,包含了
诸如对数、开方、三角函数、指数等常用的非线性函数。在C程序中(也可在汇编程序中
)只要采用与库函数相同的变量定义,就可以直接调用。例如,在库函数中,定义了以1
0为底的常用对数log10( ):
#include <math.h>
double log10(double x);
在C程序中按如下方式调用:
float x,y;
x = 10.0;
y = log10(x);
从上例可以看出,库函数中的常用对数log10(
)要求的输入值为浮点数,返回值也为浮
点数,运算的精度完全可以保证。直接调用库函数非常方便,但由于运算量大,很难在
实时DSP中得到应用。
2.查表法
在实时DSP应用中实现非线性运算,一般都采取适当降低运算精度来提高程序的运算速度
。查表法是快速实现非线性运算最常用的方法。采用这种方法必须根据自变量的范围和
精度要求制作一张表格。显然输入的范围越大,精度要求越高,则所需的表格就越大,
即存储量也越大。查表法求值所需的计算就是根据输入值确定表的地址,根据地址就可
得到相应的值,因而运算量较小。查表法比较适合于非线性函数是周期函数或已知非线
性函数输入值范围这两种情况,例3.12和例3.13分别说明这两种情况。
例3.12 已知正弦函数y=cos(x),制作一个512点表格,并说明查表方法。
由于正弦函数是周期函数,函数值在-1至+1之间,用查表法比较合适。
由于Q15的表示范围为-1至32767/32768之间,原则上讲-1至+1的范围必须用Q14表示
。但一般从方便和总体精度考虑,类似情况仍用Q15表示,此时+1用32767来表示。
(1) 产生512点值的C语言程序如下所示:
#define N 512
#define pi 3.14159
int sin_tab[512];
void main( )
{
int i;
for(i=0;i<N;i++) sin_tab=(int)(32767*sin(2*pi*i/N));
}
(2) 查表
查表实际上就是根据输入值确定表的地址。设输入x在0~2p之间,则x对应于512点表的
址为:index = (int)(512*x/2p),则 y = sin(x) = sin_tab[index]。
如果x用Q12定点数表示,将512/2p用Q8表示为
20861,则计算正弦表的地址的公式为:
index = (x*20861L)>>20。
例3.13
用查表法求以2为底的对数,已知自变量取值范围为0.5~1,要求将自变量范围均
匀划分为10等分。试制作这个表格并说明查表方法。
(1) 做表:
y = log2(x),由于x在0.5到1之间,因此y在-1到0之间,x和y均可用Q15表示。由于对x
均匀划分为10段,因此,10段对应于输入x的范围如表3.2所示。若每一段的对数值都取
第1点的对数值,则表中第1段的对数值为y0(Q15) =
(int)(log2(0.5)×32768),第2段
的对数值为y1(Q15) = (int)(log2(0.55)×32768),依次类推。
表3.2 logtab0 10点对数表(输入0.5~1)
地址 输入值 对数值(Q15)
0 0.50~0.55 -32768
1 0.55~0.60 -28262
2 0.60~0.65 -24149
3 0.65~0.70 -20365
4 0.70~0.75 -16862
5 0.75~0.80 -13600
6 0.80~0.85 -10549
7 0.85~0.90 -7683
8 0.90~0.95 -4981
9 0.95~1.00 -2425
(2) 查表:
查表时,先根据输入值计算表的地址,计算方法为:index=((x-16384)×20)>>15。式中
,index就是查表用的地址。例如,已知输入x= 26869,则index=6,因此y=-10549。
3.混合法
(1) 提高查表法的精度
上述方法查表所得结果的精度随表的大小而变化,表越大,则精度越高,但存储量也越
大。当系统的存储量有限而精度要求也较高时,查表法就不太适合。那么能否在适当增
加运算量的情况下提高非线性运算的精度呢?下面介绍一种查表结合少量运算来计算非
线性函数的混合法,这种方法适用于在输入变量的范围内函数呈单调变化的情形。
混合法是在查表的基础上采用计算的方法以提高当输入值处于表格两点之间时的精度。
提高精度的一个简便方法是采用折线近似法,如图3.1所示。
仍以求以2为底的对数为例(例3.13)。设输入值为x,则精确的对数值为y,在表格值的两
点之间作一直线,用y'作为y的近似值,则有:
y'=y0+ y其中y0由查表求得。现在只需在查表求得y0的基础上增加 y即可。
y的计算方法如下:
y=( x/ x0) y= x( y0/ x0)
式中 y0/ x0对每一段来说是一个恒定值,可作一个表格直接查得。此外计算
x时需用到
每段横坐标的起始值,这个值也可作一个表格。这样共有三个大小均为10的表格,分别
为存储每段起点对数值的表logtab0、存储每段 y0/ x0
值的表logtab1和存储每段输入
起始值x0的表logtab2,表logtab1和表logtab2可用下列两个数组表示:
int logtab1[10]={22529,20567,18920,17517,16308,
15255,14330,13511,12780,12124}; /* y0/ x0 : Q13*/
int logtab2[10]={16384,18022,19660,21299,22938,
24576,26214,27853,29491,31130}; /* x0: Q15*/
综上所述,采用混合法计算对数值的方法可归纳为:
①根据输入值,计算查表地址:index=((x-16384)×20)>>15;
②查表得y0=logtab0[index];
③计算 x=x-logtab2[index];
④计算 y=( x×logtab1[index])>>13;
⑤计算得结果y=y0+ y。
例3.14 已知x=0.54,求log2(x)。
0.54的精确对数值为y=log2(0.54)=-0.889。
混合法求对数值的过程为:
①定标Q15,定标值x=0.54*32768=17694;
②表地址index=((x-16384)×20)>>15=0;
③查表得y0=logtab0[0]=-32768;
④计算 x=x-logtab2[0]=17694-16384=1310;
⑤计算 y=( xlogtab1[0])>>13=(1310*22529L)>>13=3602;
⑥计算结果y=y0+ y=-32768+3602=-29166。
结果y为Q15定标,折算成浮点数为-29166/32768=-0.89,可见精度较高。
(2) 扩大自变量范围
如上所述,查表法比较适用于周期函数或自变量的动态范围不是太大的情形。对于像对
数这样的非线性函数,输入值和函数值的变化范围都很大。如果输入值的变化范围很大
,则作表就比较困难。那么能否比较好地解决这个问题,既不使表格太大,又能得到比
较高的精度呢?下面讨论一种切实可行的方法。
设x是一个大于0.5的数,则x可以表示为下列形式:
x =式中,0.5≤m≤1.0,e为整数。则求 x 的对数可以表示为:
log2(x) = log2( ) = log2(m) + log2( ) = e + log2(m)
也就是说,求x的对数实际上只要求
m的对数就可以了,而由于m的数值在0.5~1.0之间,
用上面介绍的方法是完全可以实现的。例如:
log2(10000) = log2(0.61035× ) = log2(0.61035) + 14 = 13.2877
可见,如果一个数可以用比较简便的方法表示为上面的形式,则求任意大小数的对数也
是比较方便的。TMS320C2X/C5X指令集提供了一条用于对ACC中的数进行规格化的指令
NORM ,该指令的作用就是使累加器中的数左移,直至数的最高位被移至累加器的第30位
。例如,对数值10000进行规格化的TMS320C25程序为:
LAC #10000
SACL TEMP
ZALH TEMP
LAR AR1,#0FH
RPT 14
NORM *-
上述程序执行后,AR1=#0eH,ACCH=2000(10进制)。对一个16位整数 x
进行上述程序处理实际上就是做这样一个等效变换:
x =
其中,寄存器AR1包含的值为15-Q,累加器ACC高16位包含的值为
,其数值在16384~32768之间。
例3.15 实现以2为底的对数的C定点模拟程序
int logtab0[10]={-32768,-28262,-24149,-20365,-16862,
-13600,-10549,-7683,-4981,-2425}; /*Q15*/
int logtab1[10]={22529,20567,18920,17517,16308,
15255,14330,13511,12780,12124}; /*Q13*/
int logtab2[10]={16384,18022,19660,21299,22938,
24576,26214,27853,29491,31130}; /*Q15*/
int log2_fast(int Am)
{
int point,point1;
int index,x0,dx,dy,y;
point=0;
while(Am<16384) {point++;Am=Am<<1;} /*对Am进行规格化*/
point1=(15-point-4)*512; /*输入为Q4,输出为Q9*/
index=((Am-16384)*20L)>>15; /*求查表地址*/
dx=Am-logtab2[index];
dy=((long)dx*logtab1[index])>>13;
y=(dy+logtab0[index])>>6; /*Q9*/
y=point1+y;
return (y);
}
上述程序中,输入值Am采用Q4表示,输出采用Q9表示,如果输入输出的Q值与上面程序中
的不同,则应做相应的修改。
3.5 小 结
本章讨论了DSP芯片进行定点运算所涉及的一些基本问题,这些问题包括:数的定标,D
SP程序的定点模拟,DSP芯片的定点运算以及定点实现非线性函数的快速实现方法等。充
分理解这些问题对于用定点芯片实现DSP算法具有非常重要的作用。