arm-optimized-routines/math/tgamma128.c

5a02ffc3SAndrew Turner/*
5a02ffc3SAndrew Turner * Implementation of the true gamma function (as opposed to lgamma)
5a02ffc3SAndrew Turner * for 128-bit long double.
5a02ffc3SAndrew Turner *
5a02ffc3SAndrew Turner * Copyright (c) 2006-2024, Arm Limited.
5a02ffc3SAndrew Turner * SPDX-License-Identifier: MIT OR Apache-2.0 WITH LLVM-exception
5a02ffc3SAndrew Turner */
5a02ffc3SAndrew Turner
5a02ffc3SAndrew Turner/*
5a02ffc3SAndrew Turner * This module implements the float128 gamma function under the name
5a02ffc3SAndrew Turner * tgamma128. It's expected to be suitable for integration into system
5a02ffc3SAndrew Turner * maths libraries under the standard name tgammal, if long double is
5a02ffc3SAndrew Turner * 128-bit. Such a library will probably want to check the error
5a02ffc3SAndrew Turner * handling and optimize the initial process of extracting the
5a02ffc3SAndrew Turner * exponent, which is done here by simple and portable (but
5a02ffc3SAndrew Turner * potentially slower) methods.
5a02ffc3SAndrew Turner */
5a02ffc3SAndrew Turner
5a02ffc3SAndrew Turner#include <float.h>
5a02ffc3SAndrew Turner#include <math.h>
5a02ffc3SAndrew Turner#include <stdbool.h>
5a02ffc3SAndrew Turner#include <stddef.h>
5a02ffc3SAndrew Turner
5a02ffc3SAndrew Turner/* Only binary128 format is supported.  */
5a02ffc3SAndrew Turner#if LDBL_MANT_DIG == 113
5a02ffc3SAndrew Turner
5a02ffc3SAndrew Turner#include "tgamma128.h"
5a02ffc3SAndrew Turner
5a02ffc3SAndrew Turner#define lenof(x) (sizeof(x)/sizeof(*(x)))
5a02ffc3SAndrew Turner
5a02ffc3SAndrew Turner/*
5a02ffc3SAndrew Turner * Helper routine to evaluate a polynomial via Horner's rule
5a02ffc3SAndrew Turner */
5a02ffc3SAndrew Turnerstatic long double poly(const long double *coeffs, size_t n, long double x)
5a02ffc3SAndrew Turner{
5a02ffc3SAndrew Turner    long double result = coeffs[--n];
5a02ffc3SAndrew Turner
5a02ffc3SAndrew Turner    while (n > 0)
5a02ffc3SAndrew Turner        result = (result * x) + coeffs[--n];
5a02ffc3SAndrew Turner
5a02ffc3SAndrew Turner    return result;
5a02ffc3SAndrew Turner}
5a02ffc3SAndrew Turner
5a02ffc3SAndrew Turner/*
5a02ffc3SAndrew Turner * Compute sin(pi*x) / pi, for use in the reflection formula that
5a02ffc3SAndrew Turner * relates gamma(-x) and gamma(x).
5a02ffc3SAndrew Turner */
5a02ffc3SAndrew Turnerstatic long double sin_pi_x_over_pi(long double x)
5a02ffc3SAndrew Turner{
5a02ffc3SAndrew Turner    int quo;
5a02ffc3SAndrew Turner    long double fracpart = remquol(x, 0.5L, &quo);
5a02ffc3SAndrew Turner
5a02ffc3SAndrew Turner    long double sign = 1.0L;
5a02ffc3SAndrew Turner    if (quo & 2)
5a02ffc3SAndrew Turner        sign = -sign;
5a02ffc3SAndrew Turner    quo &= 1;
5a02ffc3SAndrew Turner
5a02ffc3SAndrew Turner    if (quo == 0 && fabsl(fracpart) < 0x1.p-58L) {
5a02ffc3SAndrew Turner        /* For numbers this size, sin(pi*x) is so close to pi*x that
5a02ffc3SAndrew Turner         * sin(pi*x)/pi is indistinguishable from x in float128 */
5a02ffc3SAndrew Turner        return sign * fracpart;
5a02ffc3SAndrew Turner    }
5a02ffc3SAndrew Turner
5a02ffc3SAndrew Turner    if (quo == 0) {
5a02ffc3SAndrew Turner        return sign * sinl(pi*fracpart) / pi;
5a02ffc3SAndrew Turner    } else {
5a02ffc3SAndrew Turner        return sign * cosl(pi*fracpart) / pi;
5a02ffc3SAndrew Turner    }
5a02ffc3SAndrew Turner}
5a02ffc3SAndrew Turner
5a02ffc3SAndrew Turner/* Return tgamma(x) on the assumption that x >= 8. */
5a02ffc3SAndrew Turnerstatic long double tgamma_large(long double x,
5a02ffc3SAndrew Turner                                bool negative, long double negadjust)
5a02ffc3SAndrew Turner{
5a02ffc3SAndrew Turner    /*
5a02ffc3SAndrew Turner     * In this range we compute gamma(x) as x^(x-1/2) * e^-x * K,
5a02ffc3SAndrew Turner     * where K is a correction factor computed as a polynomial in 1/x.
5a02ffc3SAndrew Turner     *
5a02ffc3SAndrew Turner     * (Vaguely inspired by the form of the Lanczos approximation, but
5a02ffc3SAndrew Turner     * I tried the Lanczos approximation itself and it suffers badly
5a02ffc3SAndrew Turner     * from big cancellation leading to loss of significance.)
5a02ffc3SAndrew Turner     */
5a02ffc3SAndrew Turner    long double t = 1/x;
5a02ffc3SAndrew Turner    long double p = poly(coeffs_large, lenof(coeffs_large), t);
5a02ffc3SAndrew Turner
5a02ffc3SAndrew Turner    /*
5a02ffc3SAndrew Turner     * To avoid overflow in cases where x^(x-0.5) does overflow
5a02ffc3SAndrew Turner     * but gamma(x) does not, we split x^(x-0.5) in half and
5a02ffc3SAndrew Turner     * multiply back up _after_ multiplying the shrinking factor
5a02ffc3SAndrew Turner     * of exp(-(x-0.5)).
5a02ffc3SAndrew Turner     *
5a02ffc3SAndrew Turner     * Note that computing x-0.5 and (x-0.5)/2 is exact for the
5a02ffc3SAndrew Turner     * relevant range of x, so the only sources of error are pow
5a02ffc3SAndrew Turner     * and exp themselves, plus the multiplications.
5a02ffc3SAndrew Turner     */
5a02ffc3SAndrew Turner    long double powhalf = powl(x, (x-0.5L)/2.0L);
5a02ffc3SAndrew Turner    long double expret = expl(-(x-0.5L));
5a02ffc3SAndrew Turner
5a02ffc3SAndrew Turner    if (!negative) {
5a02ffc3SAndrew Turner        return (expret * powhalf) * powhalf * p;
5a02ffc3SAndrew Turner    } else {
5a02ffc3SAndrew Turner        /*
5a02ffc3SAndrew Turner         * Apply the reflection formula as commented below, but
5a02ffc3SAndrew Turner         * carefully: negadjust has magnitude less than 1, so it can
5a02ffc3SAndrew Turner         * turn a case where gamma(+x) would overflow into a case
5a02ffc3SAndrew Turner         * where gamma(-x) doesn't underflow. Not only that, but the
5a02ffc3SAndrew Turner         * FP format has greater range in the tiny domain due to
5a02ffc3SAndrew Turner         * denormals. For both reasons, it's not good enough to
5a02ffc3SAndrew Turner         * compute the positive result and then adjust it.
5a02ffc3SAndrew Turner         */
5a02ffc3SAndrew Turner        long double ret = 1 / ((expret * powhalf) * (x * negadjust) * p);
5a02ffc3SAndrew Turner        return ret / powhalf;
5a02ffc3SAndrew Turner    }
5a02ffc3SAndrew Turner}
5a02ffc3SAndrew Turner
5a02ffc3SAndrew Turner/* Return tgamma(x) on the assumption that 0 <= x < 1/32. */
5a02ffc3SAndrew Turnerstatic long double tgamma_tiny(long double x,
5a02ffc3SAndrew Turner                               bool negative, long double negadjust)
5a02ffc3SAndrew Turner{
5a02ffc3SAndrew Turner    /*
5a02ffc3SAndrew Turner     * For x near zero, we use a polynomial approximation to
5a02ffc3SAndrew Turner     * g = 1/(x*gamma(x)), and then return 1/(g*x).
5a02ffc3SAndrew Turner     */
5a02ffc3SAndrew Turner    long double g = poly(coeffs_tiny, lenof(coeffs_tiny), x);
5a02ffc3SAndrew Turner    if (!negative)
5a02ffc3SAndrew Turner        return 1.0L / (g*x);
5a02ffc3SAndrew Turner    else
5a02ffc3SAndrew Turner        return g / negadjust;
5a02ffc3SAndrew Turner}
5a02ffc3SAndrew Turner
5a02ffc3SAndrew Turner/* Return tgamma(x) on the assumption that 0 <= x < 2^-113. */
5a02ffc3SAndrew Turnerstatic long double tgamma_ultratiny(long double x, bool negative,
5a02ffc3SAndrew Turner                                    long double negadjust)
5a02ffc3SAndrew Turner{
5a02ffc3SAndrew Turner    /* On this interval, gamma can't even be distinguished from 1/x,
5a02ffc3SAndrew Turner     * so we skip the polynomial evaluation in tgamma_tiny, partly to
5a02ffc3SAndrew Turner     * save time and partly to avoid the tiny intermediate values
5a02ffc3SAndrew Turner     * setting the underflow exception flag. */
5a02ffc3SAndrew Turner    if (!negative)
5a02ffc3SAndrew Turner        return 1.0L / x;
5a02ffc3SAndrew Turner    else
5a02ffc3SAndrew Turner        return 1.0L / negadjust;
5a02ffc3SAndrew Turner}
5a02ffc3SAndrew Turner
5a02ffc3SAndrew Turner/* Return tgamma(x) on the assumption that 1 <= x <= 2. */
5a02ffc3SAndrew Turnerstatic long double tgamma_central(long double x)
5a02ffc3SAndrew Turner{
5a02ffc3SAndrew Turner    /*
5a02ffc3SAndrew Turner     * In this central interval, our strategy is to finding the
5a02ffc3SAndrew Turner     * difference between x and the point where gamma has a minimum,
5a02ffc3SAndrew Turner     * and approximate based on that.
5a02ffc3SAndrew Turner     */
5a02ffc3SAndrew Turner
5a02ffc3SAndrew Turner    /* The difference between the input x and the minimum x. The first
5a02ffc3SAndrew Turner     * subtraction is expected to be exact, since x and min_hi have
5a02ffc3SAndrew Turner     * the same exponent (unless x=2, in which case it will still be
5a02ffc3SAndrew Turner     * exact). */
5a02ffc3SAndrew Turner    long double t = (x - min_x_hi) - min_x_lo;
5a02ffc3SAndrew Turner
5a02ffc3SAndrew Turner    /*
5a02ffc3SAndrew Turner     * Now use two different polynomials for the intervals [1,m] and
5a02ffc3SAndrew Turner     * [m,2].
5a02ffc3SAndrew Turner     */
5a02ffc3SAndrew Turner    long double p;
5a02ffc3SAndrew Turner    if (t < 0)
5a02ffc3SAndrew Turner        p = poly(coeffs_central_neg, lenof(coeffs_central_neg), -t);
5a02ffc3SAndrew Turner    else
5a02ffc3SAndrew Turner        p = poly(coeffs_central_pos, lenof(coeffs_central_pos), t);
5a02ffc3SAndrew Turner
5a02ffc3SAndrew Turner    return (min_y_lo + p * (t*t)) + min_y_hi;
5a02ffc3SAndrew Turner}
5a02ffc3SAndrew Turner
5a02ffc3SAndrew Turnerlong double tgamma128(long double x)
5a02ffc3SAndrew Turner{
5a02ffc3SAndrew Turner    /*
5a02ffc3SAndrew Turner     * Start by extracting the number's sign and exponent, and ruling
5a02ffc3SAndrew Turner     * out cases of non-normalized numbers.
5a02ffc3SAndrew Turner     *
5a02ffc3SAndrew Turner     * For an implementation integrated into a system libm, it would
5a02ffc3SAndrew Turner     * almost certainly be quicker to do this by direct bitwise access
5a02ffc3SAndrew Turner     * to the input float128 value, using whatever is the local idiom
5a02ffc3SAndrew Turner     * for knowing its endianness.
5a02ffc3SAndrew Turner     *
5a02ffc3SAndrew Turner     * Integration into a system libc may also need to worry about
5a02ffc3SAndrew Turner     * setting errno, if that's the locally preferred way to report
5a02ffc3SAndrew Turner     * math.h errors.
5a02ffc3SAndrew Turner     */
5a02ffc3SAndrew Turner    int sign = signbit(x);
5a02ffc3SAndrew Turner    int exponent;
5a02ffc3SAndrew Turner    switch (fpclassify(x)) {
5a02ffc3SAndrew Turner      case FP_NAN:
5a02ffc3SAndrew Turner        return x+x; /* propagate QNaN, make SNaN throw an exception */
5a02ffc3SAndrew Turner      case FP_ZERO:
5a02ffc3SAndrew Turner        return 1/x; /* divide by zero on purpose to indicate a pole */
5a02ffc3SAndrew Turner      case FP_INFINITE:
5a02ffc3SAndrew Turner        if (sign) {
5a02ffc3SAndrew Turner            return x-x; /* gamma(-inf) has indeterminate sign, so provoke an
5a02ffc3SAndrew Turner                         * IEEE invalid operation exception to indicate that */
5a02ffc3SAndrew Turner        }
5a02ffc3SAndrew Turner        return x;     /* but gamma(+inf) is just +inf with no error */
5a02ffc3SAndrew Turner      case FP_SUBNORMAL:
5a02ffc3SAndrew Turner        exponent = -16384;
5a02ffc3SAndrew Turner        break;
5a02ffc3SAndrew Turner      default:
5a02ffc3SAndrew Turner        frexpl(x, &exponent);
5a02ffc3SAndrew Turner        exponent--;
5a02ffc3SAndrew Turner        break;
5a02ffc3SAndrew Turner    }
5a02ffc3SAndrew Turner
5a02ffc3SAndrew Turner    bool negative = false;
5a02ffc3SAndrew Turner    long double negadjust = 0.0L;
5a02ffc3SAndrew Turner
5a02ffc3SAndrew Turner    if (sign) {
5a02ffc3SAndrew Turner        /*
5a02ffc3SAndrew Turner         * Euler's reflection formula is
5a02ffc3SAndrew Turner         *
5a02ffc3SAndrew Turner         *    gamma(1-x) gamma(x) = pi/sin(pi*x)
5a02ffc3SAndrew Turner         *
5a02ffc3SAndrew Turner         *                        pi
5a02ffc3SAndrew Turner         * => gamma(x) = --------------------
5a02ffc3SAndrew Turner         *               gamma(1-x) sin(pi*x)
5a02ffc3SAndrew Turner         *
5a02ffc3SAndrew Turner         * But computing 1-x is going to lose a lot of accuracy when x
5a02ffc3SAndrew Turner         * is very small, so instead we transform using the recurrence
5a02ffc3SAndrew Turner         * gamma(t+1)=t gamma(t). Setting t=-x, this gives us
5a02ffc3SAndrew Turner         * gamma(1-x) = -x gamma(-x), so we now have
5a02ffc3SAndrew Turner         *
5a02ffc3SAndrew Turner         *                         pi
5a02ffc3SAndrew Turner         *    gamma(x) = ----------------------
5a02ffc3SAndrew Turner         *               -x gamma(-x) sin(pi*x)
5a02ffc3SAndrew Turner         *
5a02ffc3SAndrew Turner         * which relates gamma(x) to gamma(-x), which is much nicer,
5a02ffc3SAndrew Turner         * since x can be turned into -x without rounding.
5a02ffc3SAndrew Turner         */
5a02ffc3SAndrew Turner        negadjust = sin_pi_x_over_pi(x);
5a02ffc3SAndrew Turner        negative = true;
5a02ffc3SAndrew Turner        x = -x;
5a02ffc3SAndrew Turner
5a02ffc3SAndrew Turner        /*
5a02ffc3SAndrew Turner         * Now the ultimate answer we want is
5a02ffc3SAndrew Turner         *
5a02ffc3SAndrew Turner         *    1 / (gamma(x) * x * negadjust)
5a02ffc3SAndrew Turner         *
5a02ffc3SAndrew Turner         * where x is the positive value we've just turned it into.
5a02ffc3SAndrew Turner         *
5a02ffc3SAndrew Turner         * For some of the cases below, we'll compute gamma(x)
5a02ffc3SAndrew Turner         * normally and then compute this adjusted value afterwards.
5a02ffc3SAndrew Turner         * But for others, we can implement the reciprocal operation
5a02ffc3SAndrew Turner         * in this formula by _avoiding_ an inversion that the
5a02ffc3SAndrew Turner         * sub-case was going to do anyway.
5a02ffc3SAndrew Turner         */
5a02ffc3SAndrew Turner
5a02ffc3SAndrew Turner        if (negadjust == 0) {
5a02ffc3SAndrew Turner            /*
5a02ffc3SAndrew Turner             * Special case for negative integers. Applying the
5a02ffc3SAndrew Turner             * reflection formula would cause division by zero, but
5a02ffc3SAndrew Turner             * standards would prefer we treat this error case as an
5a02ffc3SAndrew Turner             * invalid operation and return NaN instead. (Possibly
5a02ffc3SAndrew Turner             * because otherwise you'd have to decide which sign of
5a02ffc3SAndrew Turner             * infinity to return, and unlike the x=0 case, there's no
5a02ffc3SAndrew Turner             * sign of zero available to disambiguate.)
5a02ffc3SAndrew Turner             */
5a02ffc3SAndrew Turner            return negadjust / negadjust;
5a02ffc3SAndrew Turner        }
5a02ffc3SAndrew Turner    }
5a02ffc3SAndrew Turner
5a02ffc3SAndrew Turner    /*
5a02ffc3SAndrew Turner     * Split the positive domain into various cases. For cases where
5a02ffc3SAndrew Turner     * we do the negative-number adjustment the usual way, we'll leave
5a02ffc3SAndrew Turner     * the answer in 'g' and drop out of the if statement.
5a02ffc3SAndrew Turner     */
5a02ffc3SAndrew Turner    long double g;
5a02ffc3SAndrew Turner
5a02ffc3SAndrew Turner    if (exponent >= 11) {
5a02ffc3SAndrew Turner        /*
5a02ffc3SAndrew Turner         * gamma of any positive value this large overflows, and gamma
5a02ffc3SAndrew Turner         * of any negative value underflows.
5a02ffc3SAndrew Turner         */
5a02ffc3SAndrew Turner        if (!negative) {
5a02ffc3SAndrew Turner            long double huge = 0x1p+12288L;
5a02ffc3SAndrew Turner            return huge * huge; /* provoke an overflow */
5a02ffc3SAndrew Turner        } else {
5a02ffc3SAndrew Turner            long double tiny = 0x1p-12288L;
5a02ffc3SAndrew Turner            return tiny * tiny * negadjust; /* underflow, of the right sign */
5a02ffc3SAndrew Turner        }
5a02ffc3SAndrew Turner    } else if (exponent >= 3) {
5a02ffc3SAndrew Turner        /* Negative-number adjustment happens inside here */
5a02ffc3SAndrew Turner        return tgamma_large(x, negative, negadjust);
5a02ffc3SAndrew Turner    } else if (exponent < -113) {
5a02ffc3SAndrew Turner        /* Negative-number adjustment happens inside here */
5a02ffc3SAndrew Turner        return tgamma_ultratiny(x, negative, negadjust);
5a02ffc3SAndrew Turner    } else if (exponent < -5) {
5a02ffc3SAndrew Turner        /* Negative-number adjustment happens inside here */
5a02ffc3SAndrew Turner        return tgamma_tiny(x, negative, negadjust);
5a02ffc3SAndrew Turner    } else if (exponent == 0) {
5a02ffc3SAndrew Turner        g = tgamma_central(x);
5a02ffc3SAndrew Turner    } else if (exponent < 0) {
5a02ffc3SAndrew Turner        /*
5a02ffc3SAndrew Turner         * For x in [1/32,1) we range-reduce upwards to the interval
5a02ffc3SAndrew Turner         * [1,2), using the inverse of the normal recurrence formula:
5a02ffc3SAndrew Turner         * gamma(x) = gamma(x+1)/x.
5a02ffc3SAndrew Turner         */
5a02ffc3SAndrew Turner        g = tgamma_central(1+x) / x;
5a02ffc3SAndrew Turner    } else {
5a02ffc3SAndrew Turner        /*
5a02ffc3SAndrew Turner         * For x in [2,8) we range-reduce downwards to the interval
5a02ffc3SAndrew Turner         * [1,2) by repeated application of the recurrence formula.
5a02ffc3SAndrew Turner         *
5a02ffc3SAndrew Turner         * Actually multiplying (x-1) by (x-2) by (x-3) and so on
5a02ffc3SAndrew Turner         * would introduce multiple ULPs of rounding error. We can get
5a02ffc3SAndrew Turner         * better accuracy by writing x = (k+1/2) + t, where k is an
5a02ffc3SAndrew Turner         * integer and |t|<1/2, and expanding out the obvious factor
5a02ffc3SAndrew Turner         * (x-1)(x-2)...(x-k+1) as a polynomial in t.
5a02ffc3SAndrew Turner         */
5a02ffc3SAndrew Turner        long double mult;
5a02ffc3SAndrew Turner        int i = x;
5a02ffc3SAndrew Turner        if (i == 2) { /* x in [2,3) */
5a02ffc3SAndrew Turner            mult = (x-1);
5a02ffc3SAndrew Turner        } else {
5a02ffc3SAndrew Turner            long double t = x - (i + 0.5L);
5a02ffc3SAndrew Turner            switch (i) {
5a02ffc3SAndrew Turner                /* E.g. for x=3.5+t, we want
5a02ffc3SAndrew Turner                 * (x-1)(x-2) = (2.5+t)(1.5+t) = 3.75 + 4t + t^2 */
5a02ffc3SAndrew Turner              case 3:
5a02ffc3SAndrew Turner                mult = 3.75L+t*(4.0L+t);
5a02ffc3SAndrew Turner                break;
5a02ffc3SAndrew Turner              case 4:
5a02ffc3SAndrew Turner                mult = 13.125L+t*(17.75L+t*(7.5L+t));
5a02ffc3SAndrew Turner                break;
5a02ffc3SAndrew Turner              case 5:
5a02ffc3SAndrew Turner                mult = 59.0625L+t*(93.0L+t*(51.50L+t*(12.0L+t)));
5a02ffc3SAndrew Turner                break;
5a02ffc3SAndrew Turner              case 6:
5a02ffc3SAndrew Turner                mult = 324.84375L+t*(570.5625L+t*(376.250L+t*(
5a02ffc3SAndrew Turner                    117.5L+t*(17.5L+t))));
5a02ffc3SAndrew Turner                break;
5a02ffc3SAndrew Turner              case 7:
5a02ffc3SAndrew Turner                mult = 2111.484375L+t*(4033.5L+t*(3016.1875L+t*(
5a02ffc3SAndrew Turner                    1140.0L+t*(231.25L+t*(24.0L+t)))));
5a02ffc3SAndrew Turner                break;
*f3087befSAndrew Turner	    default:
*f3087befSAndrew Turner	        __builtin_unreachable();
5a02ffc3SAndrew Turner            }
5a02ffc3SAndrew Turner        }
5a02ffc3SAndrew Turner
5a02ffc3SAndrew Turner        g = tgamma_central(x - (i-1)) * mult;
5a02ffc3SAndrew Turner    }
5a02ffc3SAndrew Turner
5a02ffc3SAndrew Turner    if (!negative) {
5a02ffc3SAndrew Turner        /* Positive domain: return g unmodified */
5a02ffc3SAndrew Turner        return g;
5a02ffc3SAndrew Turner    } else {
5a02ffc3SAndrew Turner        /* Negative domain: apply the reflection formula as commented above */
5a02ffc3SAndrew Turner        return 1.0L / (g * x * negadjust);
5a02ffc3SAndrew Turner    }
5a02ffc3SAndrew Turner}
5a02ffc3SAndrew Turner
5a02ffc3SAndrew Turner#endif