]> Shamusworld >> Repos - rmac/blob - fltpoint.c
Fix for bug 120. AND can never accept an address register as destination in all 680x0...
[rmac] / fltpoint.c
1 //
2 // Floating point to IEEE-754 conversion routines
3 //
4 // by James Hammons
5 // (C) 2018 Underground Software
6 //
7 // Since there are no guarantees vis-a-vis floating point numbers in C, we have
8 // to utilize routines like the following in order to guarantee that the thing
9 // we get out of the C compiler is an honest-to-God IEEE-754 style floating
10 // point number (since that's what the Motorola processors that we target
11 // expect).
12 //
13
14 #include "fltpoint.h"
15 #include <float.h>
16 #include <math.h>
17 #include <stdio.h>
18
19 //
20 // Check for IEEE-754 conformance (C99 compilers should be OK here)
21 //
22 // The reason we do this is mainly to ensure consistency across all platforms,
23 // even those that still haven't implemented C99 compliance after other
24 // compilers have had them for decades. The long and the short of it is, there
25 // are no guarantees for floating point implementations across platforms the
26 // way there is for ints (in <stdint.h>, for example) and so we have to be
27 // careful that bad assumptions vis-a-vis floating point numbers don't creep
28 // into the codebase and cause problems similar to the ones we had when adding
29 // proper 64-bit support. Hence, the following ugliness...
30 //
31 // IEEE-745 expects the following for floats and doubles:
32 //  float: exponent is 8 bits, mantissa is 24 bits
33 // double: exponent is 11 bits, mantissa is 53 bits
34 // FLT_RADIX should be 2
35 #ifdef FLT_RADIX
36         #if FLT_RADIX != 2
37         #error "FLT_RADIX: Your compiler sucks. Get a real one."
38         #endif
39 #endif
40 #ifdef FLT_MANT_DIG
41         #if FLT_MANT_DIG != 24
42         #error "FLT_MANT_DIG: Your compiler sucks. Get a real one."
43         #endif
44 #endif
45 #ifdef DBL_MANT_DIG
46         #if DBL_MANT_DIG != 53
47         #error "DBL_MANT_DIG: Your compiler sucks. Get a real one."
48         #endif
49 #endif
50 #ifdef FLT_MAX_EXP
51         #if FLT_MAX_EXP != 128
52         #error "FLT_MAX_EXP: Your compiler sucks. Get a real one."
53         #endif
54 #endif
55 #ifdef DBL_MAX_EXP
56         #if DBL_MAX_EXP != 1024
57         #error "DBL_MAX_EXP: Your compiler sucks. Get a real one."
58         #endif
59 #endif
60 //
61 // So if we get here, we can be pretty sure that a float is 4 bytes and a
62 // double is 8. IEEE-754? Maaaaaaaaybe. But we don't have to worry about that
63 // so much, as long as the token stream is OK (floats are 4 bytes, doubles are
64 // 8).
65 //
66
67
68 uint32_t FloatToIEEE754(float f)
69 {
70         uint32_t sign = (signbit(f) ? 0x80000000 : 0);
71
72         // Split the float into normalized mantissa (range: (-1, -0.5], 0,
73         // [+0.5, +1)) and base-2 exponent
74         // d = mantissa * (2 ^ exponent) *exactly* for FLT_RADIX=2
75         // Also, since we want the mantissa to be non-inverted (2's complemented),
76         // we make sure to pass in a positive number (floats/doubles are *not* 2's
77         // complemented) as we already captured the sign bit above.
78         int32_t exponent;
79         float mantissa = frexpf((f < 0 ? -f : f), &exponent);
80
81         // Set the exponent bias for IEEE-754 floats
82         exponent += 0x7E;
83
84         // Check for zero, set the proper exponent if so (zero exponent means no
85         // implied leading one)
86         if (f == 0)
87                 exponent = 0;
88
89         // Extract most significant 24 bits of mantissa
90         mantissa = ldexpf(mantissa, 24);
91
92         // Convert to an unsigned int
93         uint32_t ieeeVal = truncf(mantissa);
94
95         // ieeeVal now has the mantissa in binary format, *including* the leading 1
96         // bit; so we have to strip that bit out, since in IEEE-754, it's implied.
97         ieeeVal &= 0x007FFFFF;
98
99         // Finally, add in the other parts to make a proper IEEE-754 float
100         ieeeVal |= sign | ((exponent & 0xFF) << 23);
101
102         return ieeeVal;
103 }
104
105
106 uint64_t DoubleToIEEE754(double d)
107 {
108         uint64_t sign = (signbit(d) ? 0x8000000000000000LL : 0);
109         int32_t exponent;
110
111         // Split double into normalized mantissa (range: (-1, -0.5], 0, [+0.5, +1))
112         // and base-2 exponent
113         // d = mantissa * (2 ^ exponent) *exactly* for FLT_RADIX=2
114         // Also, since we want the mantissa to be non-inverted (2's complemented),
115         // we make sure to pass in a positive number (floats/doubles are *not* 2's
116         // complemented) as we already captured the sign bit above.
117         double mantissa = frexp((d < 0 ? -d : d), &exponent);
118
119         // Set the exponent bias for IEEE-754 doubles
120         exponent += 0x3FE;
121
122         // Check for zero, set the proper exponent if so
123         if (d == 0)
124                 exponent = 0;
125
126         // Extract most significant 53 bits of mantissa
127         mantissa = ldexp(mantissa, 53);
128
129         // Convert to an unsigned int
130         uint64_t ieeeVal = trunc(mantissa);
131
132         // ieeeVal now has the mantissa in binary format, *including* the leading 1
133         // bit; so we have to strip that bit out, since in IEEE-754, it's implied.
134         ieeeVal &= 0x000FFFFFFFFFFFFF;
135
136         // Finally, add in the other parts to make a proper IEEE-754 double
137         ieeeVal |= sign | ((uint64_t)(exponent & 0x7FF) << 52);
138
139         return ieeeVal;
140 }
141
142
143 void DoubleToExtended(double d, uint8_t out[])
144 {
145         int8_t sign = (signbit(d) ? 0x80 : 0);
146         int32_t exponent;
147         double mantissa = frexp((d < 0 ? -d : d), &exponent);
148         exponent += 0x3FFE;
149
150         if (d == 0)
151                 exponent = 0;
152
153         mantissa = ldexp(mantissa, 64);
154         uint64_t intMant = trunc(mantissa);
155
156         // Motorola extended floating point is 96 bits, so we pack it into the
157         // 12-byte array that's passed in. The format is as follows: 1 bit (sign),
158         // 15 bits (exponent w/$3FFF bias), 16 bits of zero, 64 bits of mantissa.
159         out[0] = sign | ((exponent >> 8) & 0x7F);
160         out[1] = exponent & 0xFF;
161         out[2] = 0;
162         out[3] = 0;
163         out[4] = (intMant >> 56) & 0xFF;
164         out[5] = (intMant >> 48) & 0xFF;
165         out[6] = (intMant >> 40) & 0xFF;
166         out[7] = (intMant >> 32) & 0xFF;
167         out[8] = (intMant >> 24) & 0xFF;
168         out[9] = (intMant >> 16) & 0xFF;
169         out[10] = (intMant >> 8) & 0xFF;
170         out[11] = intMant & 0xFF;
171 }
172
173
174 //
175 // Convert a host native floating point number to a fixed point number.
176 //
177 uint64_t DoubleToFixedPoint(double d, int intBits, int fracBits)
178 {
179         uint8_t signBit = (signbit(d) ? 1 : 0);
180
181         // Ensure what we're working on is positive...
182         if (d < 0)
183                 d *= -1;
184
185         double scaleFactor = (double)(1 << fracBits);
186         uint64_t result = (uint64_t)(d * scaleFactor);
187
188         // Invert the result, if necessary
189         if (signBit == 1)
190                 result = (result = 0xFFFFFFFFFFFFFFFFLL) + 1;
191
192         return result;
193 }
194