headers/math/log.rst

*a9aff440SNick Desaulniers.. _log_algorithm:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers========================
*a9aff440SNick DesaulniersLog/Log10/Log2 Algorithm
*a9aff440SNick Desaulniers========================
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. default-role:: math
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersIn this short note, we will discuss in detail about the computation of
*a9aff440SNick Desaulniers:math:`\log(x)` function, with double precision inputs, in particular, the range
*a9aff440SNick Desaulniersreduction steps and error analysis.  The algorithm is broken down into 2 main
*a9aff440SNick Desaulniersphases as follow:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers1. Fast phase:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers  a. Range reduction
*a9aff440SNick Desaulniers  b. Polynomial approximation
*a9aff440SNick Desaulniers  c. Ziv's test
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers2. Accurate phase (if Ziv's test failed):
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers  a. Further range reduction
*a9aff440SNick Desaulniers  b. Polynomial approximation
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersFast phase
*a9aff440SNick Desaulniers==========
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersRange reduction
*a9aff440SNick Desaulniers---------------
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersLet `x = 2^{e_x} (1 + m_x)` be a normalized double precision number, in which
*a9aff440SNick Desaulniers`-1074 \leq e_x \leq 1022` and `0 \leq m_x < 1` such that
*a9aff440SNick Desaulniers`2^{52} m_x \in \mathbb{Z}`.
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersThen from the properties of logarithm:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. math::
*a9aff440SNick Desaulniers  \log(x) &= \log\left( 2^{e_x} (1 + m_x) \right) \\
*a9aff440SNick Desaulniers          &= \log\left( 2^{e_x} \right) + \log(1 + m_x) \\
*a9aff440SNick Desaulniers          &= e_x \log(2) + \log(1 + m_x)
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniersthe computation of `\log(x)` can be reduced to:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers1. compute the product of `e_x` and `\log(2)`,
*a9aff440SNick Desaulniers2. compute `\log(1 + m_x)` for `0 \leq m_x < 1`,
*a9aff440SNick Desaulniers3. add step 1 and 2.
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersTo compute `\log(1 + m_x)` in step 2, we can reduce the range further by finding
*a9aff440SNick Desaulniers`r > 0` such that:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. math::
*a9aff440SNick Desaulniers  | r(1 + m_x) - 1 | < C \quad \quad \text{(R1)}
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniersfor small `0 < C < 1`.  Then if we let `u = r(1 + m_x) - 1`, `|u| < C`:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. math::
*a9aff440SNick Desaulniers  \log(1 + m_x) &= \log \left( \frac{r (1 + m_x)}{r} \right) \\
*a9aff440SNick Desaulniers                &= \log(r (1 + m_x) ) - \log(r) \\
*a9aff440SNick Desaulniers                &= \log(1 + u) - \log(r)
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniersand step 2 can be computed with:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniersa. extract `r` and `-\log(r)` from look-up tables,
*a9aff440SNick Desaulniersb. compute the reduced argument `u = r(1 + m_x) - 1`,
*a9aff440SNick Desaulniersc. compute `\log(1 + u)` by polynomial approximation or further range reduction,
*a9aff440SNick Desaulniersd. add step a and step c results.
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersHow to derive `r`
*a9aff440SNick Desaulniers-----------------
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersFor an efficient implementation, we would like to use the first `M` significant
*a9aff440SNick Desaulniersbits of `m_x` to look up for `r`.  In particular, we would like to find a value
*a9aff440SNick Desaulniersof `r` that works for all `m_x` satisfying:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. math::
*a9aff440SNick Desaulniers  k 2^{-M} \leq m_x < (k + 1) 2^{-M} \quad \text{for some} \quad
*a9aff440SNick Desaulniers  k = 0..2^{M} - 1. \quad\quad \text{(M1)}
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersLet `r = 1 + s`, then `u` can be expressed in terms of `s` as:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. math::
*a9aff440SNick Desaulniers  u &= r(1 + m_x) - 1 \\
*a9aff440SNick Desaulniers    &= (1 + s)(1 + m_x) - 1 \\
*a9aff440SNick Desaulniers    &= s m_x + s + m_x  &\quad\quad \text{(U1)} \\
*a9aff440SNick Desaulniers    &= s (1 + m_x) + m_x \\
*a9aff440SNick Desaulniers    &= m_x (1 + s) + s.
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersFrom the condition `\text{(R1)}`, `s` is bounded by:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. math::
*a9aff440SNick Desaulniers  \frac{-C - m_x}{1 + m_x} < s < \frac{C - m_x}{1 + m_x} \quad\quad \text{(S1)}.
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersSince our reduction constant `s` must work for all `m_x` in the interval
*a9aff440SNick Desaulniers`I = \{ v: k 2^{-M} \leq v < (k + 1) 2^{-M} \}`, `s` is bounded by:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. math::
*a9aff440SNick Desaulniers  \sup_{v \in I} \frac{-C - v}{1 + v} < s < \inf_{v \in I} \frac{C - v}{1 + v}
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersFor a fixed constant `|c| < 1`, let `f(v) = \frac{c - v}{1 + v}`, then its
*a9aff440SNick Desaulniersderivative is:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. math::
*a9aff440SNick Desaulniers  f'(v) = \frac{(-1)(1 + v) - (1)(c - v)}{(1 + v)^2} = \frac{-1 - c}{(1 + v)^2}.
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersSince `|c| < 1`, `f'(v) < 0` for all `v \neq -1`, so:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. math::
*a9aff440SNick Desaulniers  \sup_{v \in I} f(v) &= f \left( \inf\{ v: v \in I \} \right)
*a9aff440SNick Desaulniers                       = f \left( k 2^{-M} \right) \\
*a9aff440SNick Desaulniers  \inf_{v \in I} f(v) &= f \left( \sup\{ v: v \in I \} \right)
*a9aff440SNick Desaulniers                       = f \left( (k + 1) 2^{-M} \right)
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersHence we have the following bound on `s`:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. math::
*a9aff440SNick Desaulniers  \frac{-C - k 2^{-M}}{1 + k 2^{-M}} < s \leq
*a9aff440SNick Desaulniers  \frac{C - (k + 1) 2^{-M}}{1 + (k + 1) 2^{-M}}. \quad\quad \text{(S2)}
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersIn order for `s` to exist, we need that:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. math::
*a9aff440SNick Desaulniers  \frac{C - (k + 1) 2^{-M}}{1 + (k + 1) 2^{-M}} >
*a9aff440SNick Desaulniers  \frac{-C - k 2^{-M}}{1 + k 2^{-M}}
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulnierswhich is equivalent to:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. math::
*a9aff440SNick Desaulniers  \quad\quad 2C - 2^{-M} + (2k + 1) 2^{-M} C > 0
*a9aff440SNick Desaulniers  \iff C > \frac{2^{-M - 1}}{1 + (2k + 1) 2^{-M - 1}} \quad\quad \text{(C1)}.
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersConsider the case `C = 2^{-N}`.  Since `0 \leq k \leq 2^M - 1,` the right hand
*a9aff440SNick Desaulniersside of `\text{(C1)}` is bounded by:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. math::
*a9aff440SNick Desaulniers  2^{-M - 1} > \frac{2^{-M - 1}}{1 + (2k + 1) 2^{-M - 1}} \geq
*a9aff440SNick Desaulniers  \frac{2^{-M - 1}}{1 + (2^{M + 1} - 1) 2^{-M - 1}} > 2^{-M - 2}.
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersHence, from `\text{(C1)}`, being an exact power of 2, `C = 2^{-N}` is bounded below
*a9aff440SNick Desaulniersby:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. math::
*a9aff440SNick Desaulniers  C = 2^{-N} \geq 2^{-M - 1}.
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersTo make the range reduction efficient, we will want to minimize `C` (maximize
*a9aff440SNick Desaulniers`N`) while keeping the required precision of `s`(`r`) as low as possible.  And
*a9aff440SNick Desaulniersfor that, we will consider the following two cases: `N = M + 1` and `N = M`.
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersCase 1 - `N = M + 1`
*a9aff440SNick Desaulniers~~~~~~~~~~~~~~~~~~~~
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersWhen `N = M + 1`, `\text{(S2)}` becomes:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. math::
*a9aff440SNick Desaulniers  \frac{-2^{-M - 1} - k 2^{-M}}{1 + k 2^{-M}} < s <
*a9aff440SNick Desaulniers  \frac{2^{-M - 1} - (k + 1) 2^{-M}}{1 + (k + 1) 2^{-M}}.
*a9aff440SNick Desaulniers  \quad\quad \text{(S2')}
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersThis is an interval of length:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. math::
*a9aff440SNick Desaulniers  l &= \frac{2^{-M - 1} - (k + 1) 2^{-M}}{1 + (k + 1) 2^{-M}} -
*a9aff440SNick Desaulniers       \frac{-2^{-M - 1} - k 2^{-M}}{1 + k 2^{-M}} \\
*a9aff440SNick Desaulniers    &= \frac{(2k + 1)2^{-2M - 1}}{(1 + k 2^{-M})(1 + (k + 1)2^{-M})}
*a9aff440SNick Desaulniers    \quad\quad \text{(L1)}
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersAs a function of `k`, the length `l` has its derivative with respect to `k`:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. math::
*a9aff440SNick Desaulniers  \frac{dl}{dk} =
*a9aff440SNick Desaulniers  \frac{2^{2M + 1} - 2k(k + 1) - 1}
*a9aff440SNick Desaulniers       {2^{4M}(1 + k 2^{-M})^2 (1 + (k + 1) 2^{-M})^2}
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulnierswhich is always positive for `0 \leq k \leq 2^M - 1`.  So for all
*a9aff440SNick Desaulniers`0 < k < 2^{-M}` (`k = 0` will be treated differently in edge cases), and for
*a9aff440SNick Desaulniers`M > 2`, `l` is bounded below by:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. math::
*a9aff440SNick Desaulniers  l > 2^{-2M}.
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersIt implies that we can always find `s` with `\operatorname{ulp}(s) = 2^{-2M}`.
*a9aff440SNick DesaulniersAnd from `\text{(U1)}`, `u = s(1 + m_x) + m_x`, its `ulp` is:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. math::
*a9aff440SNick Desaulniers  \operatorname{ulp}(u) &= \operatorname{ulp}(s) \cdot \operatorname{ulp}(m_x) \\
*a9aff440SNick Desaulniers                        &= 2^{-2M} \operatorname{ulp}(m_x).
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersSince:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. math::
*a9aff440SNick Desaulniers  |u| < C = 2^{-N} = 2^{-M - 1},
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersIts required precision is:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. math::
*a9aff440SNick Desaulniers  \operatorname{prec}(u) &= \log_2(2^{-M-1} / \operatorname{ulp}(u)) \\
*a9aff440SNick Desaulniers                         &= \log_2(2^{M - 1} / \operatorname{ulp}(m_x)) \\
*a9aff440SNick Desaulniers                         &= M - 1 - \log_2(\operatorname{ulp}(m_x)).
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersThis means that in this case, we cannot restrict `u` to be exactly representable
*a9aff440SNick Desaulniersin double precision for double precision input `x` with `M > 2`.  Nonetheless,
*a9aff440SNick Desaulniersfor a reasonable value of `M`, we can have `u` exactly representable in double
*a9aff440SNick Desaulniersprecision for single precision input `x` (`\operatorname{ulp}(m_x) = 2^{-23}`)
*a9aff440SNick Desaulnierssuch that `|u| < 2^{-M - 1}` using a look-up table of size `2^M`.
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersA particular formula for `s` can be derived from `\text{(S2')}` by the midpoint
*a9aff440SNick Desaulniersformula:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. math::
*a9aff440SNick Desaulniers  s &= 2^{-2M} \operatorname{round}\left( 2^{2M} \cdot \operatorname{midpoint}
*a9aff440SNick Desaulniers       \left(-\frac{-2^{-M - 1} - k2^{-M}}{1 + k 2^{-M}},
*a9aff440SNick Desaulniers       \frac{2^{-M-1} - (k + 1)2^{-M}}{1 + (k + 1) 2^{-M}}\right) \right) \\
*a9aff440SNick Desaulniers    &= 2^{-2M} \operatorname{round}\left( 2^{2M} \cdot \frac{1}{2} \left(
*a9aff440SNick Desaulniers       \frac{-2^{-M - 1} - k2^{-M}}{1 + k 2^{-M}} +
*a9aff440SNick Desaulniers       \frac{2^{-M - 1} + (k + 1)2^{-M}}{1 + (k + 1) 2^{-M}}
*a9aff440SNick Desaulniers    \right) \right) \\
*a9aff440SNick Desaulniers    &= 2^{-2M} \operatorname{round}\left( \frac{
*a9aff440SNick Desaulniers       - \left(k + \frac{1}{2} \right) \left(2^M - k - \frac{1}{2} \right) }
*a9aff440SNick Desaulniers       {(1 + k 2^{-N})(1 + (k + 1) 2^{-N})} \right) \\
*a9aff440SNick Desaulniers    &= - 2^{-2M} \operatorname{round}\left( \frac{
*a9aff440SNick Desaulniers       \left(k + \frac{1}{2} \right) \left(2^M - k - \frac{1}{2} \right) }
*a9aff440SNick Desaulniers       {(1 + k 2^{-N})(1 + (k + 1) 2^{-N})} \right)  \quad\quad \text{(S3)}
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersThe corresponding range and formula for `r = 1 + s` are:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. math::
*a9aff440SNick Desaulniers  \frac{1 - 2^{-M - 1}}{1 + k 2^{-M}} < r \leq
*a9aff440SNick Desaulniers  \frac{1 + 2^{-M - 1}}{1 + (k + 1) 2^{-M}}
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. math::
*a9aff440SNick Desaulniers  r &= 2^{-2M} \operatorname{round}\left( 2^{2M} \cdot
*a9aff440SNick Desaulniers       \operatorname{midpoint}\left( \frac{1 - 2^{-M - 1}}{1 + k 2^{-M}},
*a9aff440SNick Desaulniers          \frac{1 + 2^{-M - 1}}{1 + (k + 1) 2^{-M}}\right) \right) \\
*a9aff440SNick Desaulniers    &= 2^{-2M} \operatorname{round}\left( 2^{2M} \cdot \frac{1}{2} \left(
*a9aff440SNick Desaulniers       \frac{1 + 2^{-M-1}}{1 + (k + 1) 2^{-M}} + \frac{1 - 2^{-M-1}}{1 + k 2^{-M}}
*a9aff440SNick Desaulniers    \right) \right) \\
*a9aff440SNick Desaulniers    &= 2^{-2M} \operatorname{round}\left( 2^{2M} \cdot \frac{
*a9aff440SNick Desaulniers       1 + \left(k + \frac{1}{2} \right) 2^{-M} - 2^{-2M-2} }{(1 + k 2^{-M})
*a9aff440SNick Desaulniers       (1 + (k + 1) 2^{-M})} \right)
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersCase 1 - `N = M`
*a9aff440SNick Desaulniers~~~~~~~~~~~~~~~~
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersWhen `N = M`, `\text{(S2)}` becomes:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. math::
*a9aff440SNick Desaulniers  \frac{-(k + 1)2^{-M}}{1 + k 2^{-M}} < s < \frac{-k 2^{-M}}{1 + (k + 1) 2^{-M}}
*a9aff440SNick Desaulniers  \quad\quad \text{(S2")}
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersThis is an interval of length:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. math::
*a9aff440SNick Desaulniers  l &= \frac{- k 2^{-M}}{1 + (k + 1) 2^{-M}} -
*a9aff440SNick Desaulniers       \frac{- (k + 1) 2^{-M}}{1 + k 2^{-M}} \\
*a9aff440SNick Desaulniers    &= \frac{2^{-M} (1 + (2k + 1) 2^{-M})}{(1 + k 2^{-M})(1 + (k + 1)2^{-M})}
*a9aff440SNick Desaulniers    \quad\quad \text{(L1')}
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersAs a function of `k`, its derivative with respect to `k`:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. math::
*a9aff440SNick Desaulniers  \frac{dl}{dk} =
*a9aff440SNick Desaulniers  -\frac{2^{-2M}(k(k + 1)2^{-M + 1} + 2^{-M} + 2k + 1)}
*a9aff440SNick Desaulniers        {(1 + k 2^{-M})^2 (1 + (k + 1) 2^{-M})^2}
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulnierswhich is always negative for `0 \leq k \leq 2^M - 1`.  So for `M > 1`, `l` is
*a9aff440SNick Desaulniersbounded below by:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. math::
*a9aff440SNick Desaulniers  l > \frac{2^{-M - 1} (3 - 2^{-M})}{2 - 2^{-M}} > 2^{-M - 1}.
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersIt implies that we can always find `s` with `\operatorname{ulp}(s) = 2^{-M-1}`.
*a9aff440SNick DesaulniersAnd from `\text{(U1)}`, `u = s(1 + m_x) + m_x`, its `ulp` is:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. math::
*a9aff440SNick Desaulniers  \operatorname{ulp}(u) &= \operatorname{ulp}(s) \cdot \operatorname{ulp}(m_x) \\
*a9aff440SNick Desaulniers                        &= 2^{-M - 1} \operatorname{ulp}(m_x).
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersSince:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. math::
*a9aff440SNick Desaulniers  |u| < C = 2^{-N} = 2^{-M},
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersIts required precision is:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. math::
*a9aff440SNick Desaulniers  \operatorname{prec}(u) &= \log_2(2^{-M} / \operatorname{ulp}(u)) \\
*a9aff440SNick Desaulniers                         &= \log_2(2 / \operatorname{ulp}(m_x)) \\
*a9aff440SNick Desaulniers                         &= 1 - \log_2(\operatorname{ulp}(m_x)).
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersHence, for double precision `x`, `\operatorname{ulp}(m_x) = 2^{-52}`, and the
*a9aff440SNick Desaulniersprecision needed for `u` is `\operatorname{prec}(u) = 53`, i.e., `u` can be
*a9aff440SNick Desaulniersexactly representable in double precision.  And in this case, `s` can be
*a9aff440SNick Desaulniersderived from `\text{(S2")}` by the midpoint formula:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. math::
*a9aff440SNick Desaulniers  s &= 2^{-M - 1} \operatorname{round}\left( 2^{M + 1} \cdot
*a9aff440SNick Desaulniers       \operatorname{midpoint} \left(-\frac{-(k + 1)2^{-M}}{1 + k 2^{-M}},
*a9aff440SNick Desaulniers       \frac{-k2^{-M}}{1 + (k + 1) 2^{-M}}\right) \right) \\
*a9aff440SNick Desaulniers    &= 2^{-M - 1} \operatorname{round}\left( 2^{M + 1} \cdot \frac{1}{2} \left(
*a9aff440SNick Desaulniers       \frac{-(k + 1)2^{-M}}{1 + k 2^{-M}} + \frac{-k2^{-M}}{1 + (k + 1) 2^{-M}}
*a9aff440SNick Desaulniers       \right) \right) \\
*a9aff440SNick Desaulniers    &= -2^{-M - 1} \operatorname{round}\left( \frac{
*a9aff440SNick Desaulniers       (2k + 1) + (2k^2 + 2k + 1) 2^{-M} }
*a9aff440SNick Desaulniers       {(1 + k 2^{-N})(1 + (k + 1) 2^{-N})} \right)  \quad\quad \text{(S3')}
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersThe corresponding range and formula for `r = 1 + s` are:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. math::
*a9aff440SNick Desaulniers  \frac{1 - 2^{-M}}{1 + k 2^{-M}} < r \leq \frac{1 + 2^{-M}}{1 + (k + 1) 2^{-M}}
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. math::
*a9aff440SNick Desaulniers  r &= 2^{-M-1} \operatorname{round}\left( 2^{M + 1} \cdot
*a9aff440SNick Desaulniers       \operatorname{midpoint}\left( \frac{1 - 2^{-M}}{1 + k 2^{-M}},
*a9aff440SNick Desaulniers          \frac{1 + 2^{-M}}{1 + (k + 1) 2^{-M}}\right) \right) \\
*a9aff440SNick Desaulniers    &= 2^{-M-1} \operatorname{round}\left( 2^{M + 1} \cdot \frac{1}{2} \left(
*a9aff440SNick Desaulniers       \frac{1 + 2^{-M}}{1 + (k + 1) 2^{-M}} + \frac{1 - 2^{-M}}{1 + k 2^{-M}}
*a9aff440SNick Desaulniers    \right) \right) \\
*a9aff440SNick Desaulniers    &= 2^{-M - 1} \operatorname{round}\left( 2^{M + 1} \cdot \frac{
*a9aff440SNick Desaulniers       1 + \left(k + \frac{1}{2} \right) 2^{-M} - 2^{-2M-1} }{(1 + k 2^{-M})
*a9aff440SNick Desaulniers       (1 + (k + 1) 2^{-M})} \right)
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersEdge cases
*a9aff440SNick Desaulniers----------
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers1. When `k = 0`, notice that:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. math::
*a9aff440SNick Desaulniers  0 = k 2^{-N} \leq m_x < (k + 1) 2^{-N} = 2^{-N} = C,
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniersso we can simply choose `r = 1` so that `\log(r) = 0` is exact, then `u = m_x`.
*a9aff440SNick DesaulniersThis will help reduce the accumulated errors when `m_x` is close to 0 while
*a9aff440SNick Desaulniersmaintaining the range reduction output's requirements.
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers2. When `k = 2^{N} - 1`, `\text{(S2)}` becomes:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. math::
*a9aff440SNick Desaulniers  -\frac{1}{2} - \frac{C - 2^{-M-1}}{2 - 2^{-M}} <> s \leq
*a9aff440SNick Desaulniers  -\frac{1}{2} + \frac{C}{2}.
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniersso when `C > 2^{-M - 1}` is a power of 2, we can always choose:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. math::
*a9aff440SNick Desaulniers  s = -\frac{1}{2}, \quad \text{i.e.} \quad r = \frac{1}{2}.
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersThis reduction works well to avoid catastrophic cancellation happening when
*a9aff440SNick Desaulniers`e_x = -1`.
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersThis also works when `C = 2^{-M - 1}` if we relax the condition on `u` to
*a9aff440SNick Desaulniers`|u| \leq C = 2^{-M-1}`.
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersIntermediate precision, and Ziv's test
*a9aff440SNick Desaulniers--------------------------------------
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersIn the fast phase, we want extra precision while performant, so we use
*a9aff440SNick Desaulniersdouble-double precision for most intermediate computation steps, and employ Ziv
*a9aff440SNick Desaulnierstest to see if the result is accurate or not.  In our case, the Ziv's test can
*a9aff440SNick Desaulniersbe described as follow:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers1. Let `re = re.hi + re.lo` be the double-double output of the fast phase
*a9aff440SNick Desaulniers   computation.
*a9aff440SNick Desaulniers2. Let `err` be an estimated upper bound of the errors of `re`.
*a9aff440SNick Desaulniers3. If `\circ(re.hi + (re.lo - err)) == \circ(re.hi + (r.lo + err))` then the
*a9aff440SNick Desaulniers   result is correctly rounded to double precision for the current rounding mode
*a9aff440SNick Desaulniers   `\circ`.  Otherwise, the accurate phase with extra precision is needed.
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersFor an easy and cheap estimation of the error bound `err`, since the range
*a9aff440SNick Desaulniersreduction step described above is accurate, the errors of the result:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. math::
*a9aff440SNick Desaulniers  \log(x) &= e_x \log(2) - \log(r) + \log(1 + u) \\
*a9aff440SNick Desaulniers          &\approx e_x \log(2) - \log(r) + u P(u)
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulnierscome from 2 parts:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers1. the look-up part: `e_x \log(2) - \log(r)`
*a9aff440SNick Desaulniers2. the polynomial approximation part: `u P(u)`
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersThe errors of the first part can be computed with a single `\operatorname{fma}`
*a9aff440SNick Desaulniersoperation:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. math::
*a9aff440SNick Desaulniers  err_1 = \operatorname{fma}(e_x, err(\log(2)), err(\log(r))),
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniersand then combining with the errors of the second part for another
*a9aff440SNick Desaulniers`\operatorname{fma}` operation:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. math::
*a9aff440SNick Desaulniers  err = \operatorname{fma}(u, err(P), err_1)
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersAccurate phase
*a9aff440SNick Desaulniers==============
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersExtending range reduction
*a9aff440SNick Desaulniers-------------------------
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersSince the output `u = r(1 + m_x) - 1` of the fast phase's range reduction
*a9aff440SNick Desaulniersis computed exactly, we can apply further range reduction steps by
*a9aff440SNick Desaulniersusing the following formula:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. math::
*a9aff440SNick Desaulniers  u_{i + 1} = r_i(1 + u_i) - 1 = u_i \cdot r_i + (r_i - 1),
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulnierswhere `|u_i| < 2^{-N_i}` and `u_0 = u` is representable in double precision.
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersLet `s_i = r_i - 1`, then we can rewrite it as:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. math::
*a9aff440SNick Desaulniers  u_{i + 1} &= (1 + s_i)(1 + u_i) - 1 \\
*a9aff440SNick Desaulniers            &= s_i u_i + u_i + s_i \\
*a9aff440SNick Desaulniers            &= u_i (1 + s_i) + s_i
*a9aff440SNick Desaulniers            &= s_i (1 + u_i) + u_i.
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersThen the bound on `u_{i + 1}` is translated to `s_i` as:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. math::
*a9aff440SNick Desaulniers  \frac{-2^{-N_{i + 1}} - u_i}{1 + u_i} < s_i < \frac{2^{-N_{i + 1}} - u_i}{1 + u_i}.
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersLet say we divide the interval `[0, 2^-{N_i})` into `2^{M_i}` subintervals
*a9aff440SNick Desaulniersevenly and use the index `k` such that:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. math::
*a9aff440SNick Desaulniers  k 2^{-N_i - M_i} \leq u_i < (k + 1) 2^{-N_i - M_i},
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniersto look-up for the reduction constant `s_{i, k}`.  In other word, `k` is given
*a9aff440SNick Desaulniersby the formula:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. math::
*a9aff440SNick Desaulniers  k = \left\lfloor 2^{N_i + M_i} u_i \right\rfloor
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersNotice that our reduction constant `s_{i, k}` must work for all `u_i` in the
*a9aff440SNick Desaulniersinterval `I = \{ v: k 2^{-N_i - M_i} \leq v < (k + 1) 2^{-N_i - M_i} \}`,
*a9aff440SNick Desaulniersso it is bounded by:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. math::
*a9aff440SNick Desaulniers  \sup_{v \in I} \frac{-2^{-N_{i + 1}} - v}{1 + v} < s_{i, k} < \inf_{v \in I} \frac{2^{-N_{i + 1}} - v}{1 + v}
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersFor a fixed constant `|C| < 1`, let `f(v) = \frac{C - v}{1 + v}`, then its derivative
*a9aff440SNick Desaulniersis:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. math::
*a9aff440SNick Desaulniers  f'(v) = \frac{(-1)(1 + v) - (1)(C - v)}{(1 + v)^2} = \frac{-1 - C}{(1 + v)^2}.
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersSince `|C| < 1`, `f'(v) < 0` for all `v \neq -1`, so:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. math::
*a9aff440SNick Desaulniers  \sup_{v \in I} f(v) &= f \left( \inf\{ v: v \in I \} \right)
*a9aff440SNick Desaulniers                       = f \left( k 2^{-N_i - M_i} \right) \\
*a9aff440SNick Desaulniers  \inf_{v \in I} f(v) &= f \left( \sup\{ v: v \in I \} \right)
*a9aff440SNick Desaulniers                       = f \left( (k + 1) 2^{-N_i - M_i} \right)
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersHence we have the following bound on `s_{i, k}`:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. math::
*a9aff440SNick Desaulniers  \frac{-2^{-N_{i + 1}} - k 2^{-N_i - M_i}}{1 + k 2^{-N_i - M_i}} < s_{i, k}
*a9aff440SNick Desaulniers  \leq \frac{2^{-N_{i + 1}} - (k + 1) 2^{-N_i - M_i}}{1 + (k + 1) 2^{-N_i - M_i}}
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersThis interval is of length:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. math::
*a9aff440SNick Desaulniers  l &= \frac{2^{-N_{i + 1}} - (k + 1) 2^{-N_i - M_i}}{1 + (k + 1) 2^{-N_i - M_i}} -
*a9aff440SNick Desaulniers  \frac{-2^{-N_{i + 1}} - k 2^{-N_i - M_i}}{1 + k 2^{-N_i - M_i}} \\
*a9aff440SNick Desaulniers  &= \frac{2^{-N_{i + 1} + 1} - 2^{-N_i - M_i} + (2k + 1) 2^{-N_{i + 1} - N_i - M_i}}
*a9aff440SNick Desaulniers      {(1 + k 2^{-N_i - M_i})(1 + (k + 1) 2^{-N_i -M_i})}
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersSo in order to be able to find `s_{i, k}`, we need that:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. math::
*a9aff440SNick Desaulniers  2^{-N_{i + 1} + 1} - 2^{-N_i - M_i} + (2k + 1) 2^{-N_{i + 1} - N_i - M_i} > 0
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersThis give us the following bound on `N_{i + 1}`:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. math::
*a9aff440SNick Desaulniers  N_{i + 1} \leq N_i + M_i + 1.
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersTo make the range reduction effective, we will want to maximize `N_{i + 1}`, so
*a9aff440SNick Desaulnierslet consider the two cases: `N_{i + 1} = N_i + M_i + 1` and
*a9aff440SNick Desaulniers`N_{i + 1} = N_i + M_i`.
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersThe optimal choice to balance between maximizing `N_{i + 1}` and minimizing the
*a9aff440SNick Desaulniersprecision needed for `s_{i, k}` is:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. math::
*a9aff440SNick Desaulniers  N_{i + 1} = N_i + M_i,
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniersand in this case, the optimal `\operatorname{ulp}(s_{i, k})` is:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. math::
*a9aff440SNick Desaulniers  \operatorname{ulp}(s_{i, k}) = 2^{-N_i - M_i}
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniersand the corresponding `\operatorname{ulp}(u_{i + 1})` is:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. math::
*a9aff440SNick Desaulniers  \operatorname{ulp}(u_{i + 1}) &= \operatorname{ulp}(u_i) \operatorname{ulp}(s_{i, k}) \\
*a9aff440SNick Desaulniers    &= \operatorname{ulp}(u_i) \cdot 2^{-N_i - M_i} \\
*a9aff440SNick Desaulniers    &= \operatorname{ulp}(u_0) \cdot 2^{-N_0 - M_0} \cdot 2^{-N_0 - M_0 - M_1} \cdots 2^{-N_0 - M_0 - M_1 - \cdots - M_i} \\
*a9aff440SNick Desaulniers    &= 2^{-N_0 - 53} \cdot 2^{-N_0 - M_0} \cdot 2^{-N_0 - M_0 - M_1} \cdots 2^{-N_0 - M_0 - M_1 - \cdots - M_i}
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersSince `|u_{i + 1}| < 2^{-N_{i + 1}} = 2^{-N_0 - M_1 - ... -M_i}`, the precision
*a9aff440SNick Desaulniersof `u_{i + 1}` is:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. math::
*a9aff440SNick Desaulniers  \operatorname{prec}(u_{i + 1}) &= (N_0 + 53) + (N_0 + M_0) + \cdots +
*a9aff440SNick Desaulniers    (N_0 + M_0 + \cdots + M_i) - (N_0 + M_0 + \cdots + M_i) \\
*a9aff440SNick Desaulniers    &= (i + 1) N_0 + i M_0 + (i - 1) M_1 + \cdots + M_{i - 1} + 53
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersIf we choose to have the same `M_0 = M_1 = \cdots = M_i = M`, this can be
*a9aff440SNick Desaulnierssimplified to:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers.. math::
*a9aff440SNick Desaulniers  \operatorname{prec}(u_{i + 1}) = (i + 1) N_0 + \frac{i(i + 1)}{2} \cdot M + 53.
*a9aff440SNick Desaulniers
*a9aff440SNick DesaulniersWe summarize the precision analysis for extending the range reduction in the
*a9aff440SNick Desaulnierstable below:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers+-------+-----+-----------+------------+--------------+-----------------+-------------------+
*a9aff440SNick Desaulniers| `N_0` | `M` | No. steps | Table size | Output bound | ulp(`s_{i, k}`) | prec(`u_{i + 1}`) |
*a9aff440SNick Desaulniers+-------+-----+-----------+------------+--------------+-----------------+-------------------+
*a9aff440SNick Desaulniers| 7     |  4  |         1 |         32 | `2^{-11}`    | `2^{-12}`       |  60               |
*a9aff440SNick Desaulniers|       |     +-----------+------------+--------------+-----------------+-------------------+
*a9aff440SNick Desaulniers|       |     |         2 |         64 | `2^{-15}`    | `2^{-16}`       |  71               |
*a9aff440SNick Desaulniers|       |     +-----------+------------+--------------+-----------------+-------------------+
*a9aff440SNick Desaulniers|       |     |         3 |         96 | `2^{-19}`    | `2^{-20}`       |  86               |
*a9aff440SNick Desaulniers|       |     +-----------+------------+--------------+-----------------+-------------------+
*a9aff440SNick Desaulniers|       |     |         4 |        128 | `2^{-23}`    | `2^{-24}`       | 105               |
*a9aff440SNick Desaulniers|       |     +-----------+------------+--------------+-----------------+-------------------+
*a9aff440SNick Desaulniers|       |     |         5 |        160 | `2^{-27}`    | `2^{-28}`       | 128               |
*a9aff440SNick Desaulniers|       |     +-----------+------------+--------------+-----------------+-------------------+
*a9aff440SNick Desaulniers|       |     |         6 |        192 | `2^{-31}`    | `2^{-32}`       | 155               |
*a9aff440SNick Desaulniers|       +-----+-----------+------------+--------------+-----------------+-------------------+
*a9aff440SNick Desaulniers|       |  5  |         3 |        192 | `2^{-22}`    | `2^{-23}`       |  89               |
*a9aff440SNick Desaulniers|       |     +-----------+------------+--------------+-----------------+-------------------+
*a9aff440SNick Desaulniers|       |     |         4 |        256 | `2^{-27}`    | `2^{-28}`       | 111               |
*a9aff440SNick Desaulniers|       |     +-----------+------------+--------------+-----------------+-------------------+
*a9aff440SNick Desaulniers|       |     |         5 |        320 | `2^{-32}`    | `2^{-33}`       | 138               |
*a9aff440SNick Desaulniers|       |     +-----------+------------+--------------+-----------------+-------------------+
*a9aff440SNick Desaulniers|       |     |         6 |        384 | `2^{-37}`    | `2^{-38}`       | 170               |
*a9aff440SNick Desaulniers|       +-----+-----------+------------+--------------+-----------------+-------------------+
*a9aff440SNick Desaulniers|       |  6  |         3 |        384 | `2^{-25}`    | `2^{-26}`       |  92               |
*a9aff440SNick Desaulniers|       |     +-----------+------------+--------------+-----------------+-------------------+
*a9aff440SNick Desaulniers|       |     |         4 |        512 | `2^{-31}`    | `2^{-32}`       | 117               |
*a9aff440SNick Desaulniers|       +-----+-----------+------------+--------------+-----------------+-------------------+
*a9aff440SNick Desaulniers|       |  7  |         1 |        256 | `2^{-24}`    | `2^{-15}`       |  60               |
*a9aff440SNick Desaulniers|       |     +-----------+------------+--------------+-----------------+-------------------+
*a9aff440SNick Desaulniers|       |     |         2 |        512 | `2^{-21}`    | `2^{-22}`       |  74               |
*a9aff440SNick Desaulniers+-------+-----+-----------+------------+--------------+-----------------+-------------------+
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulnierswhere:
*a9aff440SNick Desaulniers
*a9aff440SNick Desaulniers- Number of steps = `i + 1`
*a9aff440SNick Desaulniers- Table size = `(i + 1) 2^{M + 1}`
*a9aff440SNick Desaulniers- Output bound = `2^{-N_{i + 1}} = 2^{-N_0 - (i + 1) M}`
*a9aff440SNick Desaulniers- `\operatorname{ulp}(s_{i, k}) = 2^{-N_{i + 1} - 1}`
*a9aff440SNick Desaulniers- `\operatorname{prec}(u_{i + 1}) = (i + 1) N_0 + \frac{i(i + 1)}{2} \cdot M + 53`