lib/libkern/softfloat.c

*37ecf0c7Smiod/*	$OpenBSD: softfloat.c,v 1.6 2014/07/01 20:21:17 miod Exp $	*/
433075b6Spvalchev/*	$NetBSD: softfloat.c,v 1.1 2001/04/26 03:10:47 ross Exp $	*/
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev * This version hacked for use with gcc -msoft-float by bjh21.
433075b6Spvalchev * (Mostly a case of #ifdefing out things GCC doesn't need or provides
433075b6Spvalchev *  itself).
433075b6Spvalchev */
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev * Things you may want to define:
433075b6Spvalchev *
433075b6Spvalchev * SOFTFLOAT_FOR_GCC - build only those functions necessary for GCC (with
433075b6Spvalchev *   -msoft-float) to work.  Include "softfloat-for-gcc.h" to get them
433075b6Spvalchev *   properly renamed.
433075b6Spvalchev */
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev===============================================================================
433075b6Spvalchev
433075b6SpvalchevThis C source file is part of the SoftFloat IEC/IEEE Floating-point
433075b6SpvalchevArithmetic Package, Release 2a.
433075b6Spvalchev
433075b6SpvalchevWritten by John R. Hauser.  This work was made possible in part by the
433075b6SpvalchevInternational Computer Science Institute, located at Suite 600, 1947 Center
433075b6SpvalchevStreet, Berkeley, California 94704.  Funding was partially provided by the
433075b6SpvalchevNational Science Foundation under grant MIP-9311980.  The original version
433075b6Spvalchevof this code was written as part of a project to build a fixed-point vector
433075b6Spvalchevprocessor in collaboration with the University of California at Berkeley,
433075b6Spvalchevoverseen by Profs. Nelson Morgan and John Wawrzynek.  More information
433075b6Spvalchevis available through the Web page `http://HTTP.CS.Berkeley.EDU/~jhauser/
433075b6Spvalchevarithmetic/SoftFloat.html'.
433075b6Spvalchev
433075b6SpvalchevTHIS SOFTWARE IS DISTRIBUTED AS IS, FOR FREE.  Although reasonable
433075b6Spvalcheveffort has been made to avoid it, THIS SOFTWARE MAY CONTAIN FAULTS THAT
433075b6SpvalchevWILL AT TIMES RESULT IN INCORRECT BEHAVIOR.  USE OF THIS SOFTWARE IS
433075b6SpvalchevRESTRICTED TO PERSONS AND ORGANIZATIONS WHO CAN AND WILL TAKE FULL
433075b6SpvalchevRESPONSIBILITY FOR ALL LOSSES, COSTS, OR OTHER PROBLEMS ARISING FROM
433075b6SpvalchevTHEIR OWN USE OF THE SOFTWARE, AND WHO ALSO EFFECTIVELY INDEMNIFY
433075b6Spvalchev(possibly via similar legal warning) JOHN HAUSER AND THE INTERNATIONAL
433075b6SpvalchevCOMPUTER SCIENCE INSTITUTE AGAINST ALL LOSSES, COSTS, OR OTHER PROBLEMS
433075b6SpvalchevARISING FROM THE USE OF THE SOFTWARE BY THEIR CUSTOMERS AND CLIENTS.
433075b6Spvalchev
433075b6SpvalchevDerivative works are acceptable, even for commercial purposes, so long as
433075b6Spvalchev(1) they include prominent notice that the work is derivative, and (2) they
433075b6Spvalchevinclude prominent notice akin to these four paragraphs for those parts of
433075b6Spvalchevthis code that are retained.
433075b6Spvalchev
433075b6Spvalchev===============================================================================
433075b6Spvalchev*/
433075b6Spvalchev
433075b6Spvalchev#ifdef SOFTFLOAT_FOR_GCC
433075b6Spvalchev#include "softfloat-for-gcc.h"
433075b6Spvalchev#endif
433075b6Spvalchev
433075b6Spvalchev#include "milieu.h"
433075b6Spvalchev#include "softfloat.h"
433075b6Spvalchev
*37ecf0c7Smiodfloat32 normalizeRoundAndPackFloat32(flag, int16, bits32);
*37ecf0c7Smiodfloat64 normalizeRoundAndPackFloat64(flag, int16, bits64);
*37ecf0c7Smiod
433075b6Spvalchev/*
433075b6Spvalchev * Conversions between floats as stored in memory and floats as
433075b6Spvalchev * SoftFloat uses them
433075b6Spvalchev */
433075b6Spvalchev#ifndef FLOAT64_DEMANGLE
433075b6Spvalchev#define FLOAT64_DEMANGLE(a)	(a)
433075b6Spvalchev#endif
433075b6Spvalchev#ifndef FLOAT64_MANGLE
433075b6Spvalchev#define FLOAT64_MANGLE(a)	(a)
433075b6Spvalchev#endif
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevFloating-point rounding mode, extended double-precision rounding precision,
433075b6Spvalchevand exception flags.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev * XXX: This may cause options-MULTIPROCESSOR or thread problems someday.
433075b6Spvalchev * 	Right now, it does not.  I've removed all other dynamic global
433075b6Spvalchev * 	variables. [ross]
433075b6Spvalchev */
433075b6Spvalchev#ifdef FLOATX80
433075b6Spvalchevint8 floatx80_rounding_precision = 80;
433075b6Spvalchev#endif
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevPrimitive arithmetic functions, including multi-word arithmetic, and
433075b6Spvalchevdivision and square root approximations.  (Can be specialized to target if
433075b6Spvalchevdesired.)
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchev#include "softfloat-macros.h"
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevFunctions and definitions to determine:  (1) whether tininess for underflow
433075b6Spvalchevis detected before or after rounding by default, (2) what (if anything)
433075b6Spvalchevhappens when exceptions are raised, (3) how signaling NaNs are distinguished
433075b6Spvalchevfrom quiet NaNs, (4) the default generated quiet NaNs, and (5) how NaNs
433075b6Spvalchevare propagated from function inputs to output.  These details are target-
433075b6Spvalchevspecific.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchev#include "softfloat-specialize.h"
433075b6Spvalchev
433075b6Spvalchev#ifndef SOFTFLOAT_FOR_GCC /* Not used */
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevTakes a 64-bit fixed-point value `absZ' with binary point between bits 6
433075b6Spvalchevand 7, and returns the properly rounded 32-bit integer corresponding to the
433075b6Spvalchevinput.  If `zSign' is 1, the input is negated before being converted to an
433075b6Spvalchevinteger.  Bit 63 of `absZ' must be zero.  Ordinarily, the fixed-point input
433075b6Spvalchevis simply rounded to an integer, with the inexact exception raised if the
433075b6Spvalchevinput cannot be represented exactly as an integer.  However, if the fixed-
433075b6Spvalchevpoint input is too large, the invalid exception is raised and the largest
433075b6Spvalchevpositive or negative integer is returned.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevstatic int32 roundAndPackInt32( flag zSign, bits64 absZ )
433075b6Spvalchev{
433075b6Spvalchev    int8 roundingMode;
433075b6Spvalchev    flag roundNearestEven;
433075b6Spvalchev    int8 roundIncrement, roundBits;
433075b6Spvalchev    int32 z;
433075b6Spvalchev
433075b6Spvalchev    roundingMode = float_rounding_mode();
433075b6Spvalchev    roundNearestEven = ( roundingMode == float_round_nearest_even );
433075b6Spvalchev    roundIncrement = 0x40;
433075b6Spvalchev    if ( ! roundNearestEven ) {
433075b6Spvalchev        if ( roundingMode == float_round_to_zero ) {
433075b6Spvalchev            roundIncrement = 0;
433075b6Spvalchev        }
433075b6Spvalchev        else {
433075b6Spvalchev            roundIncrement = 0x7F;
433075b6Spvalchev            if ( zSign ) {
433075b6Spvalchev                if ( roundingMode == float_round_up ) roundIncrement = 0;
433075b6Spvalchev            }
433075b6Spvalchev            else {
433075b6Spvalchev                if ( roundingMode == float_round_down ) roundIncrement = 0;
433075b6Spvalchev            }
433075b6Spvalchev        }
433075b6Spvalchev    }
433075b6Spvalchev    roundBits = absZ & 0x7F;
433075b6Spvalchev    absZ = ( absZ + roundIncrement )>>7;
433075b6Spvalchev    absZ &= ~ ( ( ( roundBits ^ 0x40 ) == 0 ) & roundNearestEven );
433075b6Spvalchev    z = absZ;
433075b6Spvalchev    if ( zSign ) z = - z;
433075b6Spvalchev    if ( ( absZ>>32 ) || ( z && ( ( z < 0 ) ^ zSign ) ) ) {
433075b6Spvalchev        float_raise( float_flag_invalid );
433075b6Spvalchev        return zSign ? (sbits32) 0x80000000 : 0x7FFFFFFF;
433075b6Spvalchev    }
433075b6Spvalchev    if ( roundBits ) float_set_inexact();
433075b6Spvalchev    return z;
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevTakes the 128-bit fixed-point value formed by concatenating `absZ0' and
433075b6Spvalchev`absZ1', with binary point between bits 63 and 64 (between the input words),
433075b6Spvalchevand returns the properly rounded 64-bit integer corresponding to the input.
433075b6SpvalchevIf `zSign' is 1, the input is negated before being converted to an integer.
433075b6SpvalchevOrdinarily, the fixed-point input is simply rounded to an integer, with
433075b6Spvalchevthe inexact exception raised if the input cannot be represented exactly as
433075b6Spvalchevan integer.  However, if the fixed-point input is too large, the invalid
433075b6Spvalchevexception is raised and the largest positive or negative integer is
433075b6Spvalchevreturned.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevstatic int64 roundAndPackInt64( flag zSign, bits64 absZ0, bits64 absZ1 )
433075b6Spvalchev{
433075b6Spvalchev    int8 roundingMode;
433075b6Spvalchev    flag roundNearestEven, increment;
433075b6Spvalchev    int64 z;
433075b6Spvalchev
433075b6Spvalchev    roundingMode = float_rounding_mode();
433075b6Spvalchev    roundNearestEven = ( roundingMode == float_round_nearest_even );
433075b6Spvalchev    increment = ( (sbits64) absZ1 < 0 );
433075b6Spvalchev    if ( ! roundNearestEven ) {
433075b6Spvalchev        if ( roundingMode == float_round_to_zero ) {
433075b6Spvalchev            increment = 0;
433075b6Spvalchev        }
433075b6Spvalchev        else {
433075b6Spvalchev            if ( zSign ) {
433075b6Spvalchev                increment = ( roundingMode == float_round_down ) && absZ1;
433075b6Spvalchev            }
433075b6Spvalchev            else {
433075b6Spvalchev                increment = ( roundingMode == float_round_up ) && absZ1;
433075b6Spvalchev            }
433075b6Spvalchev        }
433075b6Spvalchev    }
433075b6Spvalchev    if ( increment ) {
433075b6Spvalchev        ++absZ0;
433075b6Spvalchev        if ( absZ0 == 0 ) goto overflow;
433075b6Spvalchev        absZ0 &= ~ ( ( (bits64) ( absZ1<<1 ) == 0 ) & roundNearestEven );
433075b6Spvalchev    }
433075b6Spvalchev    z = absZ0;
433075b6Spvalchev    if ( zSign ) z = - z;
433075b6Spvalchev    if ( z && ( ( z < 0 ) ^ zSign ) ) {
433075b6Spvalchev overflow:
433075b6Spvalchev        float_raise( float_flag_invalid );
433075b6Spvalchev        return
433075b6Spvalchev              zSign ? (sbits64) LIT64( 0x8000000000000000 )
433075b6Spvalchev            : LIT64( 0x7FFFFFFFFFFFFFFF );
433075b6Spvalchev    }
433075b6Spvalchev    if ( absZ1 ) float_set_inexact();
433075b6Spvalchev    return z;
433075b6Spvalchev
433075b6Spvalchev}
a657e0a7Smartynas
a657e0a7Smartynas#ifdef __alpha__
a657e0a7Smartynas/*
a657e0a7Smartynas-------------------------------------------------------------------------------
a657e0a7SmartynasTakes the 128-bit fixed-point value formed by concatenating `absZ0' and
a657e0a7Smartynas`absZ1', with binary point between bits 63 and 64 (between the input words),
a657e0a7Smartynasand returns the properly rounded 64-bit integer corresponding to the input.
a657e0a7SmartynasIf `zSign' is 1, the input is negated before being converted to an integer.
a657e0a7SmartynasOrdinarily, the fixed-point input is simply rounded to an integer, with
a657e0a7Smartynasthe inexact exception raised if the input cannot be represented exactly as
a657e0a7Smartynasan integer.
a657e0a7Smartynas-------------------------------------------------------------------------------
a657e0a7Smartynas*/
a657e0a7Smartynasstatic int64 roundAndPackInt64NoOverflow( flag zSign, bits64 absZ0,
a657e0a7Smartynas    bits64 absZ1 )
a657e0a7Smartynas{
a657e0a7Smartynas    int8 roundingMode;
a657e0a7Smartynas    flag roundNearestEven, increment;
a657e0a7Smartynas    int64 z;
a657e0a7Smartynas
a657e0a7Smartynas    roundingMode = float_rounding_mode();
a657e0a7Smartynas    roundNearestEven = ( roundingMode == float_round_nearest_even );
a657e0a7Smartynas    increment = ( (sbits64) absZ1 < 0 );
a657e0a7Smartynas    if ( ! roundNearestEven ) {
a657e0a7Smartynas        if ( roundingMode == float_round_to_zero ) {
a657e0a7Smartynas            increment = 0;
a657e0a7Smartynas        }
a657e0a7Smartynas        else {
a657e0a7Smartynas            if ( zSign ) {
a657e0a7Smartynas                increment = ( roundingMode == float_round_down ) && absZ1;
a657e0a7Smartynas            }
a657e0a7Smartynas            else {
a657e0a7Smartynas                increment = ( roundingMode == float_round_up ) && absZ1;
a657e0a7Smartynas            }
a657e0a7Smartynas        }
a657e0a7Smartynas    }
a657e0a7Smartynas    if ( increment ) {
a657e0a7Smartynas        ++absZ0;
a657e0a7Smartynas        absZ0 &= ~ ( ( (bits64) ( absZ1<<1 ) == 0 ) & roundNearestEven );
a657e0a7Smartynas    }
a657e0a7Smartynas    z = absZ0;
a657e0a7Smartynas    if ( zSign ) z = - z;
a657e0a7Smartynas    if ( absZ1 ) float_set_inexact();
a657e0a7Smartynas    return z;
a657e0a7Smartynas
a657e0a7Smartynas}
a657e0a7Smartynas#endif /* __alpha__ */
433075b6Spvalchev#endif
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the fraction bits of the single-precision floating-point value `a'.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6SpvalchevINLINE bits32 extractFloat32Frac( float32 a )
433075b6Spvalchev{
433075b6Spvalchev
433075b6Spvalchev    return a & 0x007FFFFF;
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the exponent bits of the single-precision floating-point value `a'.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6SpvalchevINLINE int16 extractFloat32Exp( float32 a )
433075b6Spvalchev{
433075b6Spvalchev
433075b6Spvalchev    return ( a>>23 ) & 0xFF;
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the sign bit of the single-precision floating-point value `a'.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6SpvalchevINLINE flag extractFloat32Sign( float32 a )
433075b6Spvalchev{
433075b6Spvalchev
433075b6Spvalchev    return a>>31;
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevNormalizes the subnormal single-precision floating-point value represented
433075b6Spvalchevby the denormalized significand `aSig'.  The normalized exponent and
433075b6Spvalchevsignificand are stored at the locations pointed to by `zExpPtr' and
433075b6Spvalchev`zSigPtr', respectively.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevstatic void
433075b6Spvalchev normalizeFloat32Subnormal( bits32 aSig, int16 *zExpPtr, bits32 *zSigPtr )
433075b6Spvalchev{
433075b6Spvalchev    int8 shiftCount;
433075b6Spvalchev
433075b6Spvalchev    shiftCount = countLeadingZeros32( aSig ) - 8;
433075b6Spvalchev    *zSigPtr = aSig<<shiftCount;
433075b6Spvalchev    *zExpPtr = 1 - shiftCount;
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevPacks the sign `zSign', exponent `zExp', and significand `zSig' into a
433075b6Spvalchevsingle-precision floating-point value, returning the result.  After being
433075b6Spvalchevshifted into the proper positions, the three fields are simply added
433075b6Spvalchevtogether to form the result.  This means that any integer portion of `zSig'
433075b6Spvalchevwill be added into the exponent.  Since a properly normalized significand
433075b6Spvalchevwill have an integer portion equal to 1, the `zExp' input should be 1 less
433075b6Spvalchevthan the desired result exponent whenever `zSig' is a complete, normalized
433075b6Spvalchevsignificand.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6SpvalchevINLINE float32 packFloat32( flag zSign, int16 zExp, bits32 zSig )
433075b6Spvalchev{
433075b6Spvalchev
433075b6Spvalchev    return ( ( (bits32) zSign )<<31 ) + ( ( (bits32) zExp )<<23 ) + zSig;
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevTakes an abstract floating-point value having sign `zSign', exponent `zExp',
433075b6Spvalchevand significand `zSig', and returns the proper single-precision floating-
433075b6Spvalchevpoint value corresponding to the abstract input.  Ordinarily, the abstract
433075b6Spvalchevvalue is simply rounded and packed into the single-precision format, with
433075b6Spvalchevthe inexact exception raised if the abstract input cannot be represented
433075b6Spvalchevexactly.  However, if the abstract value is too large, the overflow and
433075b6Spvalchevinexact exceptions are raised and an infinity or maximal finite value is
433075b6Spvalchevreturned.  If the abstract value is too small, the input value is rounded to
433075b6Spvalcheva subnormal number, and the underflow and inexact exceptions are raised if
433075b6Spvalchevthe abstract input cannot be represented exactly as a subnormal single-
433075b6Spvalchevprecision floating-point number.
433075b6Spvalchev    The input significand `zSig' has its binary point between bits 30
433075b6Spvalchevand 29, which is 7 bits to the left of the usual location.  This shifted
433075b6Spvalchevsignificand must be normalized or smaller.  If `zSig' is not normalized,
433075b6Spvalchev`zExp' must be 0; in that case, the result returned is a subnormal number,
433075b6Spvalchevand it must not require rounding.  In the usual case that `zSig' is
433075b6Spvalchevnormalized, `zExp' must be 1 less than the ``true'' floating-point exponent.
433075b6SpvalchevThe handling of underflow and overflow follows the IEC/IEEE Standard for
433075b6SpvalchevBinary Floating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevstatic float32 roundAndPackFloat32( flag zSign, int16 zExp, bits32 zSig )
433075b6Spvalchev{
433075b6Spvalchev    int8 roundingMode;
433075b6Spvalchev    flag roundNearestEven;
433075b6Spvalchev    int8 roundIncrement, roundBits;
433075b6Spvalchev    flag isTiny;
433075b6Spvalchev
433075b6Spvalchev    roundingMode = float_rounding_mode();
433075b6Spvalchev    roundNearestEven = ( roundingMode == float_round_nearest_even );
433075b6Spvalchev    roundIncrement = 0x40;
433075b6Spvalchev    if ( ! roundNearestEven ) {
433075b6Spvalchev        if ( roundingMode == float_round_to_zero ) {
433075b6Spvalchev            roundIncrement = 0;
433075b6Spvalchev        }
433075b6Spvalchev        else {
433075b6Spvalchev            roundIncrement = 0x7F;
433075b6Spvalchev            if ( zSign ) {
433075b6Spvalchev                if ( roundingMode == float_round_up ) roundIncrement = 0;
433075b6Spvalchev            }
433075b6Spvalchev            else {
433075b6Spvalchev                if ( roundingMode == float_round_down ) roundIncrement = 0;
433075b6Spvalchev            }
433075b6Spvalchev        }
433075b6Spvalchev    }
433075b6Spvalchev    roundBits = zSig & 0x7F;
433075b6Spvalchev    if ( 0xFD <= (bits16) zExp ) {
433075b6Spvalchev        if (    ( 0xFD < zExp )
433075b6Spvalchev             || (    ( zExp == 0xFD )
433075b6Spvalchev                  && ( (sbits32) ( zSig + roundIncrement ) < 0 ) )
433075b6Spvalchev           ) {
433075b6Spvalchev            float_raise( float_flag_overflow | float_flag_inexact );
433075b6Spvalchev            return packFloat32( zSign, 0xFF, 0 ) - ( roundIncrement == 0 );
433075b6Spvalchev        }
433075b6Spvalchev        if ( zExp < 0 ) {
433075b6Spvalchev            isTiny =
433075b6Spvalchev                   ( float_detect_tininess == float_tininess_before_rounding )
433075b6Spvalchev                || ( zExp < -1 )
433075b6Spvalchev                || ( zSig + roundIncrement < 0x80000000 );
433075b6Spvalchev            shift32RightJamming( zSig, - zExp, &zSig );
433075b6Spvalchev            zExp = 0;
433075b6Spvalchev            roundBits = zSig & 0x7F;
433075b6Spvalchev            if ( isTiny && roundBits ) float_raise( float_flag_underflow );
433075b6Spvalchev        }
433075b6Spvalchev    }
433075b6Spvalchev    if ( roundBits ) float_set_inexact();
433075b6Spvalchev    zSig = ( zSig + roundIncrement )>>7;
433075b6Spvalchev    zSig &= ~ ( ( ( roundBits ^ 0x40 ) == 0 ) & roundNearestEven );
433075b6Spvalchev    if ( zSig == 0 ) zExp = 0;
433075b6Spvalchev    return packFloat32( zSign, zExp, zSig );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevTakes an abstract floating-point value having sign `zSign', exponent `zExp',
433075b6Spvalchevand significand `zSig', and returns the proper single-precision floating-
433075b6Spvalchevpoint value corresponding to the abstract input.  This routine is just like
433075b6Spvalchev`roundAndPackFloat32' except that `zSig' does not have to be normalized.
433075b6SpvalchevBit 31 of `zSig' must be zero, and `zExp' must be 1 less than the ``true''
433075b6Spvalchevfloating-point exponent.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
*37ecf0c7Smiodfloat32
433075b6Spvalchev normalizeRoundAndPackFloat32( flag zSign, int16 zExp, bits32 zSig )
433075b6Spvalchev{
433075b6Spvalchev    int8 shiftCount;
433075b6Spvalchev
433075b6Spvalchev    shiftCount = countLeadingZeros32( zSig ) - 1;
433075b6Spvalchev    return roundAndPackFloat32( zSign, zExp - shiftCount, zSig<<shiftCount );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the fraction bits of the double-precision floating-point value `a'.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6SpvalchevINLINE bits64 extractFloat64Frac( float64 a )
433075b6Spvalchev{
433075b6Spvalchev
433075b6Spvalchev    return FLOAT64_DEMANGLE(a) & LIT64( 0x000FFFFFFFFFFFFF );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the exponent bits of the double-precision floating-point value `a'.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6SpvalchevINLINE int16 extractFloat64Exp( float64 a )
433075b6Spvalchev{
433075b6Spvalchev
433075b6Spvalchev    return ( FLOAT64_DEMANGLE(a)>>52 ) & 0x7FF;
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the sign bit of the double-precision floating-point value `a'.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6SpvalchevINLINE flag extractFloat64Sign( float64 a )
433075b6Spvalchev{
433075b6Spvalchev
433075b6Spvalchev    return FLOAT64_DEMANGLE(a)>>63;
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevNormalizes the subnormal double-precision floating-point value represented
433075b6Spvalchevby the denormalized significand `aSig'.  The normalized exponent and
433075b6Spvalchevsignificand are stored at the locations pointed to by `zExpPtr' and
433075b6Spvalchev`zSigPtr', respectively.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevstatic void
433075b6Spvalchev normalizeFloat64Subnormal( bits64 aSig, int16 *zExpPtr, bits64 *zSigPtr )
433075b6Spvalchev{
433075b6Spvalchev    int8 shiftCount;
433075b6Spvalchev
433075b6Spvalchev    shiftCount = countLeadingZeros64( aSig ) - 11;
433075b6Spvalchev    *zSigPtr = aSig<<shiftCount;
433075b6Spvalchev    *zExpPtr = 1 - shiftCount;
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevPacks the sign `zSign', exponent `zExp', and significand `zSig' into a
433075b6Spvalchevdouble-precision floating-point value, returning the result.  After being
433075b6Spvalchevshifted into the proper positions, the three fields are simply added
433075b6Spvalchevtogether to form the result.  This means that any integer portion of `zSig'
433075b6Spvalchevwill be added into the exponent.  Since a properly normalized significand
433075b6Spvalchevwill have an integer portion equal to 1, the `zExp' input should be 1 less
433075b6Spvalchevthan the desired result exponent whenever `zSig' is a complete, normalized
433075b6Spvalchevsignificand.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6SpvalchevINLINE float64 packFloat64( flag zSign, int16 zExp, bits64 zSig )
433075b6Spvalchev{
433075b6Spvalchev
433075b6Spvalchev    return FLOAT64_MANGLE( ( ( (bits64) zSign )<<63 ) +
433075b6Spvalchev			   ( ( (bits64) zExp )<<52 ) + zSig );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevTakes an abstract floating-point value having sign `zSign', exponent `zExp',
433075b6Spvalchevand significand `zSig', and returns the proper double-precision floating-
433075b6Spvalchevpoint value corresponding to the abstract input.  Ordinarily, the abstract
433075b6Spvalchevvalue is simply rounded and packed into the double-precision format, with
433075b6Spvalchevthe inexact exception raised if the abstract input cannot be represented
433075b6Spvalchevexactly.  However, if the abstract value is too large, the overflow and
433075b6Spvalchevinexact exceptions are raised and an infinity or maximal finite value is
433075b6Spvalchevreturned.  If the abstract value is too small, the input value is rounded to
433075b6Spvalcheva subnormal number, and the underflow and inexact exceptions are raised if
433075b6Spvalchevthe abstract input cannot be represented exactly as a subnormal double-
433075b6Spvalchevprecision floating-point number.
433075b6Spvalchev    The input significand `zSig' has its binary point between bits 62
433075b6Spvalchevand 61, which is 10 bits to the left of the usual location.  This shifted
433075b6Spvalchevsignificand must be normalized or smaller.  If `zSig' is not normalized,
433075b6Spvalchev`zExp' must be 0; in that case, the result returned is a subnormal number,
433075b6Spvalchevand it must not require rounding.  In the usual case that `zSig' is
433075b6Spvalchevnormalized, `zExp' must be 1 less than the ``true'' floating-point exponent.
433075b6SpvalchevThe handling of underflow and overflow follows the IEC/IEEE Standard for
433075b6SpvalchevBinary Floating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevstatic float64 roundAndPackFloat64( flag zSign, int16 zExp, bits64 zSig )
433075b6Spvalchev{
433075b6Spvalchev    int8 roundingMode;
433075b6Spvalchev    flag roundNearestEven;
433075b6Spvalchev    int16 roundIncrement, roundBits;
433075b6Spvalchev    flag isTiny;
433075b6Spvalchev
433075b6Spvalchev    roundingMode = float_rounding_mode();
433075b6Spvalchev    roundNearestEven = ( roundingMode == float_round_nearest_even );
433075b6Spvalchev    roundIncrement = 0x200;
433075b6Spvalchev    if ( ! roundNearestEven ) {
433075b6Spvalchev        if ( roundingMode == float_round_to_zero ) {
433075b6Spvalchev            roundIncrement = 0;
433075b6Spvalchev        }
433075b6Spvalchev        else {
433075b6Spvalchev            roundIncrement = 0x3FF;
433075b6Spvalchev            if ( zSign ) {
433075b6Spvalchev                if ( roundingMode == float_round_up ) roundIncrement = 0;
433075b6Spvalchev            }
433075b6Spvalchev            else {
433075b6Spvalchev                if ( roundingMode == float_round_down ) roundIncrement = 0;
433075b6Spvalchev            }
433075b6Spvalchev        }
433075b6Spvalchev    }
433075b6Spvalchev    roundBits = zSig & 0x3FF;
433075b6Spvalchev    if ( 0x7FD <= (bits16) zExp ) {
433075b6Spvalchev        if (    ( 0x7FD < zExp )
433075b6Spvalchev             || (    ( zExp == 0x7FD )
433075b6Spvalchev                  && ( (sbits64) ( zSig + roundIncrement ) < 0 ) )
433075b6Spvalchev           ) {
433075b6Spvalchev            float_raise( float_flag_overflow | float_flag_inexact );
433075b6Spvalchev            return FLOAT64_MANGLE(
433075b6Spvalchev		FLOAT64_DEMANGLE(packFloat64( zSign, 0x7FF, 0 )) -
433075b6Spvalchev		( roundIncrement == 0 ));
433075b6Spvalchev        }
433075b6Spvalchev        if ( zExp < 0 ) {
433075b6Spvalchev            isTiny =
433075b6Spvalchev                   ( float_detect_tininess == float_tininess_before_rounding )
433075b6Spvalchev                || ( zExp < -1 )
433075b6Spvalchev                || ( zSig + roundIncrement < LIT64( 0x8000000000000000 ) );
433075b6Spvalchev            shift64RightJamming( zSig, - zExp, &zSig );
433075b6Spvalchev            zExp = 0;
433075b6Spvalchev            roundBits = zSig & 0x3FF;
433075b6Spvalchev            if ( isTiny && roundBits ) float_raise( float_flag_underflow );
433075b6Spvalchev        }
433075b6Spvalchev    }
433075b6Spvalchev    if ( roundBits ) float_set_inexact();
433075b6Spvalchev    zSig = ( zSig + roundIncrement )>>10;
433075b6Spvalchev    zSig &= ~ ( ( ( roundBits ^ 0x200 ) == 0 ) & roundNearestEven );
433075b6Spvalchev    if ( zSig == 0 ) zExp = 0;
433075b6Spvalchev    return packFloat64( zSign, zExp, zSig );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevTakes an abstract floating-point value having sign `zSign', exponent `zExp',
433075b6Spvalchevand significand `zSig', and returns the proper double-precision floating-
433075b6Spvalchevpoint value corresponding to the abstract input.  This routine is just like
433075b6Spvalchev`roundAndPackFloat64' except that `zSig' does not have to be normalized.
433075b6SpvalchevBit 63 of `zSig' must be zero, and `zExp' must be 1 less than the ``true''
433075b6Spvalchevfloating-point exponent.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
*37ecf0c7Smiodfloat64
433075b6Spvalchev normalizeRoundAndPackFloat64( flag zSign, int16 zExp, bits64 zSig )
433075b6Spvalchev{
433075b6Spvalchev    int8 shiftCount;
433075b6Spvalchev
433075b6Spvalchev    shiftCount = countLeadingZeros64( zSig ) - 1;
433075b6Spvalchev    return roundAndPackFloat64( zSign, zExp - shiftCount, zSig<<shiftCount );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev#ifdef FLOATX80
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the fraction bits of the extended double-precision floating-point
433075b6Spvalchevvalue `a'.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6SpvalchevINLINE bits64 extractFloatx80Frac( floatx80 a )
433075b6Spvalchev{
433075b6Spvalchev
433075b6Spvalchev    return a.low;
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the exponent bits of the extended double-precision floating-point
433075b6Spvalchevvalue `a'.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6SpvalchevINLINE int32 extractFloatx80Exp( floatx80 a )
433075b6Spvalchev{
433075b6Spvalchev
433075b6Spvalchev    return a.high & 0x7FFF;
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the sign bit of the extended double-precision floating-point value
433075b6Spvalchev`a'.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6SpvalchevINLINE flag extractFloatx80Sign( floatx80 a )
433075b6Spvalchev{
433075b6Spvalchev
433075b6Spvalchev    return a.high>>15;
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevNormalizes the subnormal extended double-precision floating-point value
433075b6Spvalchevrepresented by the denormalized significand `aSig'.  The normalized exponent
433075b6Spvalchevand significand are stored at the locations pointed to by `zExpPtr' and
433075b6Spvalchev`zSigPtr', respectively.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevstatic void
433075b6Spvalchev normalizeFloatx80Subnormal( bits64 aSig, int32 *zExpPtr, bits64 *zSigPtr )
433075b6Spvalchev{
433075b6Spvalchev    int8 shiftCount;
433075b6Spvalchev
433075b6Spvalchev    shiftCount = countLeadingZeros64( aSig );
433075b6Spvalchev    *zSigPtr = aSig<<shiftCount;
433075b6Spvalchev    *zExpPtr = 1 - shiftCount;
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevPacks the sign `zSign', exponent `zExp', and significand `zSig' into an
433075b6Spvalchevextended double-precision floating-point value, returning the result.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6SpvalchevINLINE floatx80 packFloatx80( flag zSign, int32 zExp, bits64 zSig )
433075b6Spvalchev{
433075b6Spvalchev    floatx80 z;
433075b6Spvalchev
433075b6Spvalchev    z.low = zSig;
433075b6Spvalchev    z.high = ( ( (bits16) zSign )<<15 ) + zExp;
433075b6Spvalchev    return z;
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevTakes an abstract floating-point value having sign `zSign', exponent `zExp',
433075b6Spvalchevand extended significand formed by the concatenation of `zSig0' and `zSig1',
433075b6Spvalchevand returns the proper extended double-precision floating-point value
433075b6Spvalchevcorresponding to the abstract input.  Ordinarily, the abstract value is
433075b6Spvalchevrounded and packed into the extended double-precision format, with the
433075b6Spvalchevinexact exception raised if the abstract input cannot be represented
433075b6Spvalchevexactly.  However, if the abstract value is too large, the overflow and
433075b6Spvalchevinexact exceptions are raised and an infinity or maximal finite value is
433075b6Spvalchevreturned.  If the abstract value is too small, the input value is rounded to
433075b6Spvalcheva subnormal number, and the underflow and inexact exceptions are raised if
433075b6Spvalchevthe abstract input cannot be represented exactly as a subnormal extended
433075b6Spvalchevdouble-precision floating-point number.
433075b6Spvalchev    If `roundingPrecision' is 32 or 64, the result is rounded to the same
433075b6Spvalchevnumber of bits as single or double precision, respectively.  Otherwise, the
433075b6Spvalchevresult is rounded to the full precision of the extended double-precision
433075b6Spvalchevformat.
433075b6Spvalchev    The input significand must be normalized or smaller.  If the input
433075b6Spvalchevsignificand is not normalized, `zExp' must be 0; in that case, the result
433075b6Spvalchevreturned is a subnormal number, and it must not require rounding.  The
433075b6Spvalchevhandling of underflow and overflow follows the IEC/IEEE Standard for Binary
433075b6SpvalchevFloating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevstatic floatx80
433075b6Spvalchev roundAndPackFloatx80(
433075b6Spvalchev     int8 roundingPrecision, flag zSign, int32 zExp, bits64 zSig0, bits64 zSig1
433075b6Spvalchev )
433075b6Spvalchev{
433075b6Spvalchev    int8 roundingMode;
433075b6Spvalchev    flag roundNearestEven, increment, isTiny;
433075b6Spvalchev    int64 roundIncrement, roundMask, roundBits;
433075b6Spvalchev
433075b6Spvalchev    roundingMode = float_rounding_mode();
433075b6Spvalchev    roundNearestEven = ( roundingMode == float_round_nearest_even );
433075b6Spvalchev    if ( roundingPrecision == 80 ) goto precision80;
433075b6Spvalchev    if ( roundingPrecision == 64 ) {
433075b6Spvalchev        roundIncrement = LIT64( 0x0000000000000400 );
433075b6Spvalchev        roundMask = LIT64( 0x00000000000007FF );
433075b6Spvalchev    }
433075b6Spvalchev    else if ( roundingPrecision == 32 ) {
433075b6Spvalchev        roundIncrement = LIT64( 0x0000008000000000 );
433075b6Spvalchev        roundMask = LIT64( 0x000000FFFFFFFFFF );
433075b6Spvalchev    }
433075b6Spvalchev    else {
433075b6Spvalchev        goto precision80;
433075b6Spvalchev    }
433075b6Spvalchev    zSig0 |= ( zSig1 != 0 );
433075b6Spvalchev    if ( ! roundNearestEven ) {
433075b6Spvalchev        if ( roundingMode == float_round_to_zero ) {
433075b6Spvalchev            roundIncrement = 0;
433075b6Spvalchev        }
433075b6Spvalchev        else {
433075b6Spvalchev            roundIncrement = roundMask;
433075b6Spvalchev            if ( zSign ) {
433075b6Spvalchev                if ( roundingMode == float_round_up ) roundIncrement = 0;
433075b6Spvalchev            }
433075b6Spvalchev            else {
433075b6Spvalchev                if ( roundingMode == float_round_down ) roundIncrement = 0;
433075b6Spvalchev            }
433075b6Spvalchev        }
433075b6Spvalchev    }
433075b6Spvalchev    roundBits = zSig0 & roundMask;
433075b6Spvalchev    if ( 0x7FFD <= (bits32) ( zExp - 1 ) ) {
433075b6Spvalchev        if (    ( 0x7FFE < zExp )
433075b6Spvalchev             || ( ( zExp == 0x7FFE ) && ( zSig0 + roundIncrement < zSig0 ) )
433075b6Spvalchev           ) {
433075b6Spvalchev            goto overflow;
433075b6Spvalchev        }
433075b6Spvalchev        if ( zExp <= 0 ) {
433075b6Spvalchev            isTiny =
433075b6Spvalchev                   ( float_detect_tininess == float_tininess_before_rounding )
433075b6Spvalchev                || ( zExp < 0 )
433075b6Spvalchev                || ( zSig0 <= zSig0 + roundIncrement );
433075b6Spvalchev            shift64RightJamming( zSig0, 1 - zExp, &zSig0 );
433075b6Spvalchev            zExp = 0;
433075b6Spvalchev            roundBits = zSig0 & roundMask;
433075b6Spvalchev            if ( isTiny && roundBits ) float_raise( float_flag_underflow );
433075b6Spvalchev            if ( roundBits ) float_set_inexact();
433075b6Spvalchev            zSig0 += roundIncrement;
433075b6Spvalchev            if ( (sbits64) zSig0 < 0 ) zExp = 1;
433075b6Spvalchev            roundIncrement = roundMask + 1;
433075b6Spvalchev            if ( roundNearestEven && ( roundBits<<1 == roundIncrement ) ) {
433075b6Spvalchev                roundMask |= roundIncrement;
433075b6Spvalchev            }
433075b6Spvalchev            zSig0 &= ~ roundMask;
433075b6Spvalchev            return packFloatx80( zSign, zExp, zSig0 );
433075b6Spvalchev        }
433075b6Spvalchev    }
433075b6Spvalchev    if ( roundBits ) float_set_inexact();
433075b6Spvalchev    zSig0 += roundIncrement;
433075b6Spvalchev    if ( zSig0 < roundIncrement ) {
433075b6Spvalchev        ++zExp;
433075b6Spvalchev        zSig0 = LIT64( 0x8000000000000000 );
433075b6Spvalchev    }
433075b6Spvalchev    roundIncrement = roundMask + 1;
433075b6Spvalchev    if ( roundNearestEven && ( roundBits<<1 == roundIncrement ) ) {
433075b6Spvalchev        roundMask |= roundIncrement;
433075b6Spvalchev    }
433075b6Spvalchev    zSig0 &= ~ roundMask;
433075b6Spvalchev    if ( zSig0 == 0 ) zExp = 0;
433075b6Spvalchev    return packFloatx80( zSign, zExp, zSig0 );
433075b6Spvalchev precision80:
433075b6Spvalchev    increment = ( (sbits64) zSig1 < 0 );
433075b6Spvalchev    if ( ! roundNearestEven ) {
433075b6Spvalchev        if ( roundingMode == float_round_to_zero ) {
433075b6Spvalchev            increment = 0;
433075b6Spvalchev        }
433075b6Spvalchev        else {
433075b6Spvalchev            if ( zSign ) {
433075b6Spvalchev                increment = ( roundingMode == float_round_down ) && zSig1;
433075b6Spvalchev            }
433075b6Spvalchev            else {
433075b6Spvalchev                increment = ( roundingMode == float_round_up ) && zSig1;
433075b6Spvalchev            }
433075b6Spvalchev        }
433075b6Spvalchev    }
433075b6Spvalchev    if ( 0x7FFD <= (bits32) ( zExp - 1 ) ) {
433075b6Spvalchev        if (    ( 0x7FFE < zExp )
433075b6Spvalchev             || (    ( zExp == 0x7FFE )
433075b6Spvalchev                  && ( zSig0 == LIT64( 0xFFFFFFFFFFFFFFFF ) )
433075b6Spvalchev                  && increment
433075b6Spvalchev                )
433075b6Spvalchev           ) {
433075b6Spvalchev            roundMask = 0;
433075b6Spvalchev overflow:
433075b6Spvalchev            float_raise( float_flag_overflow | float_flag_inexact );
433075b6Spvalchev            if (    ( roundingMode == float_round_to_zero )
433075b6Spvalchev                 || ( zSign && ( roundingMode == float_round_up ) )
433075b6Spvalchev                 || ( ! zSign && ( roundingMode == float_round_down ) )
433075b6Spvalchev               ) {
433075b6Spvalchev                return packFloatx80( zSign, 0x7FFE, ~ roundMask );
433075b6Spvalchev            }
433075b6Spvalchev            return packFloatx80( zSign, 0x7FFF, LIT64( 0x8000000000000000 ) );
433075b6Spvalchev        }
433075b6Spvalchev        if ( zExp <= 0 ) {
433075b6Spvalchev            isTiny =
433075b6Spvalchev                   ( float_detect_tininess == float_tininess_before_rounding )
433075b6Spvalchev                || ( zExp < 0 )
433075b6Spvalchev                || ! increment
433075b6Spvalchev                || ( zSig0 < LIT64( 0xFFFFFFFFFFFFFFFF ) );
433075b6Spvalchev            shift64ExtraRightJamming( zSig0, zSig1, 1 - zExp, &zSig0, &zSig1 );
433075b6Spvalchev            zExp = 0;
433075b6Spvalchev            if ( isTiny && zSig1 ) float_raise( float_flag_underflow );
433075b6Spvalchev            if ( zSig1 ) float_set_inexact();
433075b6Spvalchev            if ( roundNearestEven ) {
433075b6Spvalchev                increment = ( (sbits64) zSig1 < 0 );
433075b6Spvalchev            }
433075b6Spvalchev            else {
433075b6Spvalchev                if ( zSign ) {
433075b6Spvalchev                    increment = ( roundingMode == float_round_down ) && zSig1;
433075b6Spvalchev                }
433075b6Spvalchev                else {
433075b6Spvalchev                    increment = ( roundingMode == float_round_up ) && zSig1;
433075b6Spvalchev                }
433075b6Spvalchev            }
433075b6Spvalchev            if ( increment ) {
433075b6Spvalchev                ++zSig0;
433075b6Spvalchev                zSig0 &=
433075b6Spvalchev                    ~ ( ( (bits64) ( zSig1<<1 ) == 0 ) & roundNearestEven );
433075b6Spvalchev                if ( (sbits64) zSig0 < 0 ) zExp = 1;
433075b6Spvalchev            }
433075b6Spvalchev            return packFloatx80( zSign, zExp, zSig0 );
433075b6Spvalchev        }
433075b6Spvalchev    }
433075b6Spvalchev    if ( zSig1 ) float_set_inexact();
433075b6Spvalchev    if ( increment ) {
433075b6Spvalchev        ++zSig0;
433075b6Spvalchev        if ( zSig0 == 0 ) {
433075b6Spvalchev            ++zExp;
433075b6Spvalchev            zSig0 = LIT64( 0x8000000000000000 );
433075b6Spvalchev        }
433075b6Spvalchev        else {
433075b6Spvalchev            zSig0 &= ~ ( ( (bits64) ( zSig1<<1 ) == 0 ) & roundNearestEven );
433075b6Spvalchev        }
433075b6Spvalchev    }
433075b6Spvalchev    else {
433075b6Spvalchev        if ( zSig0 == 0 ) zExp = 0;
433075b6Spvalchev    }
433075b6Spvalchev    return packFloatx80( zSign, zExp, zSig0 );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevTakes an abstract floating-point value having sign `zSign', exponent
433075b6Spvalchev`zExp', and significand formed by the concatenation of `zSig0' and `zSig1',
433075b6Spvalchevand returns the proper extended double-precision floating-point value
433075b6Spvalchevcorresponding to the abstract input.  This routine is just like
433075b6Spvalchev`roundAndPackFloatx80' except that the input significand does not have to be
433075b6Spvalchevnormalized.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevstatic floatx80
433075b6Spvalchev normalizeRoundAndPackFloatx80(
433075b6Spvalchev     int8 roundingPrecision, flag zSign, int32 zExp, bits64 zSig0, bits64 zSig1
433075b6Spvalchev )
433075b6Spvalchev{
433075b6Spvalchev    int8 shiftCount;
433075b6Spvalchev
433075b6Spvalchev    if ( zSig0 == 0 ) {
433075b6Spvalchev        zSig0 = zSig1;
433075b6Spvalchev        zSig1 = 0;
433075b6Spvalchev        zExp -= 64;
433075b6Spvalchev    }
433075b6Spvalchev    shiftCount = countLeadingZeros64( zSig0 );
433075b6Spvalchev    shortShift128Left( zSig0, zSig1, shiftCount, &zSig0, &zSig1 );
433075b6Spvalchev    zExp -= shiftCount;
433075b6Spvalchev    return
433075b6Spvalchev        roundAndPackFloatx80( roundingPrecision, zSign, zExp, zSig0, zSig1 );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev#endif
433075b6Spvalchev
433075b6Spvalchev#ifdef FLOAT128
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the least-significant 64 fraction bits of the quadruple-precision
433075b6Spvalchevfloating-point value `a'.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6SpvalchevINLINE bits64 extractFloat128Frac1( float128 a )
433075b6Spvalchev{
433075b6Spvalchev
433075b6Spvalchev    return a.low;
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the most-significant 48 fraction bits of the quadruple-precision
433075b6Spvalchevfloating-point value `a'.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6SpvalchevINLINE bits64 extractFloat128Frac0( float128 a )
433075b6Spvalchev{
433075b6Spvalchev
433075b6Spvalchev    return a.high & LIT64( 0x0000FFFFFFFFFFFF );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the exponent bits of the quadruple-precision floating-point value
433075b6Spvalchev`a'.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6SpvalchevINLINE int32 extractFloat128Exp( float128 a )
433075b6Spvalchev{
433075b6Spvalchev
433075b6Spvalchev    return ( a.high>>48 ) & 0x7FFF;
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the sign bit of the quadruple-precision floating-point value `a'.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6SpvalchevINLINE flag extractFloat128Sign( float128 a )
433075b6Spvalchev{
433075b6Spvalchev
433075b6Spvalchev    return a.high>>63;
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevNormalizes the subnormal quadruple-precision floating-point value
433075b6Spvalchevrepresented by the denormalized significand formed by the concatenation of
433075b6Spvalchev`aSig0' and `aSig1'.  The normalized exponent is stored at the location
433075b6Spvalchevpointed to by `zExpPtr'.  The most significant 49 bits of the normalized
433075b6Spvalchevsignificand are stored at the location pointed to by `zSig0Ptr', and the
433075b6Spvalchevleast significant 64 bits of the normalized significand are stored at the
433075b6Spvalchevlocation pointed to by `zSig1Ptr'.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevstatic void
433075b6Spvalchev normalizeFloat128Subnormal(
433075b6Spvalchev     bits64 aSig0,
433075b6Spvalchev     bits64 aSig1,
433075b6Spvalchev     int32 *zExpPtr,
433075b6Spvalchev     bits64 *zSig0Ptr,
433075b6Spvalchev     bits64 *zSig1Ptr
433075b6Spvalchev )
433075b6Spvalchev{
433075b6Spvalchev    int8 shiftCount;
433075b6Spvalchev
433075b6Spvalchev    if ( aSig0 == 0 ) {
433075b6Spvalchev        shiftCount = countLeadingZeros64( aSig1 ) - 15;
433075b6Spvalchev        if ( shiftCount < 0 ) {
433075b6Spvalchev            *zSig0Ptr = aSig1>>( - shiftCount );
433075b6Spvalchev            *zSig1Ptr = aSig1<<( shiftCount & 63 );
433075b6Spvalchev        }
433075b6Spvalchev        else {
433075b6Spvalchev            *zSig0Ptr = aSig1<<shiftCount;
433075b6Spvalchev            *zSig1Ptr = 0;
433075b6Spvalchev        }
433075b6Spvalchev        *zExpPtr = - shiftCount - 63;
433075b6Spvalchev    }
433075b6Spvalchev    else {
433075b6Spvalchev        shiftCount = countLeadingZeros64( aSig0 ) - 15;
433075b6Spvalchev        shortShift128Left( aSig0, aSig1, shiftCount, zSig0Ptr, zSig1Ptr );
433075b6Spvalchev        *zExpPtr = 1 - shiftCount;
433075b6Spvalchev    }
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevPacks the sign `zSign', the exponent `zExp', and the significand formed
433075b6Spvalchevby the concatenation of `zSig0' and `zSig1' into a quadruple-precision
433075b6Spvalchevfloating-point value, returning the result.  After being shifted into the
433075b6Spvalchevproper positions, the three fields `zSign', `zExp', and `zSig0' are simply
433075b6Spvalchevadded together to form the most significant 32 bits of the result.  This
433075b6Spvalchevmeans that any integer portion of `zSig0' will be added into the exponent.
433075b6SpvalchevSince a properly normalized significand will have an integer portion equal
433075b6Spvalchevto 1, the `zExp' input should be 1 less than the desired result exponent
433075b6Spvalchevwhenever `zSig0' and `zSig1' concatenated form a complete, normalized
433075b6Spvalchevsignificand.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6SpvalchevINLINE float128
433075b6Spvalchev packFloat128( flag zSign, int32 zExp, bits64 zSig0, bits64 zSig1 )
433075b6Spvalchev{
433075b6Spvalchev    float128 z;
433075b6Spvalchev
433075b6Spvalchev    z.low = zSig1;
433075b6Spvalchev    z.high = ( ( (bits64) zSign )<<63 ) + ( ( (bits64) zExp )<<48 ) + zSig0;
433075b6Spvalchev    return z;
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevTakes an abstract floating-point value having sign `zSign', exponent `zExp',
433075b6Spvalchevand extended significand formed by the concatenation of `zSig0', `zSig1',
433075b6Spvalchevand `zSig2', and returns the proper quadruple-precision floating-point value
433075b6Spvalchevcorresponding to the abstract input.  Ordinarily, the abstract value is
433075b6Spvalchevsimply rounded and packed into the quadruple-precision format, with the
433075b6Spvalchevinexact exception raised if the abstract input cannot be represented
433075b6Spvalchevexactly.  However, if the abstract value is too large, the overflow and
433075b6Spvalchevinexact exceptions are raised and an infinity or maximal finite value is
433075b6Spvalchevreturned.  If the abstract value is too small, the input value is rounded to
433075b6Spvalcheva subnormal number, and the underflow and inexact exceptions are raised if
433075b6Spvalchevthe abstract input cannot be represented exactly as a subnormal quadruple-
433075b6Spvalchevprecision floating-point number.
433075b6Spvalchev    The input significand must be normalized or smaller.  If the input
433075b6Spvalchevsignificand is not normalized, `zExp' must be 0; in that case, the result
433075b6Spvalchevreturned is a subnormal number, and it must not require rounding.  In the
433075b6Spvalchevusual case that the input significand is normalized, `zExp' must be 1 less
433075b6Spvalchevthan the ``true'' floating-point exponent.  The handling of underflow and
433075b6Spvalchevoverflow follows the IEC/IEEE Standard for Binary Floating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevstatic float128
433075b6Spvalchev roundAndPackFloat128(
433075b6Spvalchev     flag zSign, int32 zExp, bits64 zSig0, bits64 zSig1, bits64 zSig2 )
433075b6Spvalchev{
433075b6Spvalchev    int8 roundingMode;
433075b6Spvalchev    flag roundNearestEven, increment, isTiny;
433075b6Spvalchev
433075b6Spvalchev    roundingMode = float_rounding_mode();
433075b6Spvalchev    roundNearestEven = ( roundingMode == float_round_nearest_even );
433075b6Spvalchev    increment = ( (sbits64) zSig2 < 0 );
433075b6Spvalchev    if ( ! roundNearestEven ) {
433075b6Spvalchev        if ( roundingMode == float_round_to_zero ) {
433075b6Spvalchev            increment = 0;
433075b6Spvalchev        }
433075b6Spvalchev        else {
433075b6Spvalchev            if ( zSign ) {
433075b6Spvalchev                increment = ( roundingMode == float_round_down ) && zSig2;
433075b6Spvalchev            }
433075b6Spvalchev            else {
433075b6Spvalchev                increment = ( roundingMode == float_round_up ) && zSig2;
433075b6Spvalchev            }
433075b6Spvalchev        }
433075b6Spvalchev    }
433075b6Spvalchev    if ( 0x7FFD <= (bits32) zExp ) {
433075b6Spvalchev        if (    ( 0x7FFD < zExp )
433075b6Spvalchev             || (    ( zExp == 0x7FFD )
433075b6Spvalchev                  && eq128(
433075b6Spvalchev                         LIT64( 0x0001FFFFFFFFFFFF ),
433075b6Spvalchev                         LIT64( 0xFFFFFFFFFFFFFFFF ),
433075b6Spvalchev                         zSig0,
433075b6Spvalchev                         zSig1
433075b6Spvalchev                     )
433075b6Spvalchev                  && increment
433075b6Spvalchev                )
433075b6Spvalchev           ) {
433075b6Spvalchev            float_raise( float_flag_overflow | float_flag_inexact );
433075b6Spvalchev            if (    ( roundingMode == float_round_to_zero )
433075b6Spvalchev                 || ( zSign && ( roundingMode == float_round_up ) )
433075b6Spvalchev                 || ( ! zSign && ( roundingMode == float_round_down ) )
433075b6Spvalchev               ) {
433075b6Spvalchev                return
433075b6Spvalchev                    packFloat128(
433075b6Spvalchev                        zSign,
433075b6Spvalchev                        0x7FFE,
433075b6Spvalchev                        LIT64( 0x0000FFFFFFFFFFFF ),
433075b6Spvalchev                        LIT64( 0xFFFFFFFFFFFFFFFF )
433075b6Spvalchev                    );
433075b6Spvalchev            }
433075b6Spvalchev            return packFloat128( zSign, 0x7FFF, 0, 0 );
433075b6Spvalchev        }
433075b6Spvalchev        if ( zExp < 0 ) {
433075b6Spvalchev            isTiny =
433075b6Spvalchev                   ( float_detect_tininess == float_tininess_before_rounding )
433075b6Spvalchev                || ( zExp < -1 )
433075b6Spvalchev                || ! increment
433075b6Spvalchev                || lt128(
433075b6Spvalchev                       zSig0,
433075b6Spvalchev                       zSig1,
433075b6Spvalchev                       LIT64( 0x0001FFFFFFFFFFFF ),
433075b6Spvalchev                       LIT64( 0xFFFFFFFFFFFFFFFF )
433075b6Spvalchev                   );
433075b6Spvalchev            shift128ExtraRightJamming(
433075b6Spvalchev                zSig0, zSig1, zSig2, - zExp, &zSig0, &zSig1, &zSig2 );
433075b6Spvalchev            zExp = 0;
433075b6Spvalchev            if ( isTiny && zSig2 ) float_raise( float_flag_underflow );
433075b6Spvalchev            if ( roundNearestEven ) {
433075b6Spvalchev                increment = ( (sbits64) zSig2 < 0 );
433075b6Spvalchev            }
433075b6Spvalchev            else {
433075b6Spvalchev                if ( zSign ) {
433075b6Spvalchev                    increment = ( roundingMode == float_round_down ) && zSig2;
433075b6Spvalchev                }
433075b6Spvalchev                else {
433075b6Spvalchev                    increment = ( roundingMode == float_round_up ) && zSig2;
433075b6Spvalchev                }
433075b6Spvalchev            }
433075b6Spvalchev        }
433075b6Spvalchev    }
433075b6Spvalchev    if ( zSig2 ) float_set_inexact();
433075b6Spvalchev    if ( increment ) {
433075b6Spvalchev        add128( zSig0, zSig1, 0, 1, &zSig0, &zSig1 );
433075b6Spvalchev        zSig1 &= ~ ( ( zSig2 + zSig2 == 0 ) & roundNearestEven );
433075b6Spvalchev    }
433075b6Spvalchev    else {
433075b6Spvalchev        if ( ( zSig0 | zSig1 ) == 0 ) zExp = 0;
433075b6Spvalchev    }
433075b6Spvalchev    return packFloat128( zSign, zExp, zSig0, zSig1 );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevTakes an abstract floating-point value having sign `zSign', exponent `zExp',
433075b6Spvalchevand significand formed by the concatenation of `zSig0' and `zSig1', and
433075b6Spvalchevreturns the proper quadruple-precision floating-point value corresponding
433075b6Spvalchevto the abstract input.  This routine is just like `roundAndPackFloat128'
433075b6Spvalchevexcept that the input significand has fewer bits and does not have to be
433075b6Spvalchevnormalized.  In all cases, `zExp' must be 1 less than the ``true'' floating-
433075b6Spvalchevpoint exponent.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevstatic float128
433075b6Spvalchev normalizeRoundAndPackFloat128(
433075b6Spvalchev     flag zSign, int32 zExp, bits64 zSig0, bits64 zSig1 )
433075b6Spvalchev{
433075b6Spvalchev    int8 shiftCount;
433075b6Spvalchev    bits64 zSig2;
433075b6Spvalchev
433075b6Spvalchev    if ( zSig0 == 0 ) {
433075b6Spvalchev        zSig0 = zSig1;
433075b6Spvalchev        zSig1 = 0;
433075b6Spvalchev        zExp -= 64;
433075b6Spvalchev    }
433075b6Spvalchev    shiftCount = countLeadingZeros64( zSig0 ) - 15;
433075b6Spvalchev    if ( 0 <= shiftCount ) {
433075b6Spvalchev        zSig2 = 0;
433075b6Spvalchev        shortShift128Left( zSig0, zSig1, shiftCount, &zSig0, &zSig1 );
433075b6Spvalchev    }
433075b6Spvalchev    else {
433075b6Spvalchev        shift128ExtraRightJamming(
433075b6Spvalchev            zSig0, zSig1, 0, - shiftCount, &zSig0, &zSig1, &zSig2 );
433075b6Spvalchev    }
433075b6Spvalchev    zExp -= shiftCount;
433075b6Spvalchev    return roundAndPackFloat128( zSign, zExp, zSig0, zSig1, zSig2 );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev#endif
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of converting the 32-bit two's complement integer `a'
433075b6Spvalchevto the single-precision floating-point format.  The conversion is performed
433075b6Spvalchevaccording to the IEC/IEEE Standard for Binary Floating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevfloat32 int32_to_float32( int32 a )
433075b6Spvalchev{
433075b6Spvalchev    flag zSign;
433075b6Spvalchev
433075b6Spvalchev    if ( a == 0 ) return 0;
433075b6Spvalchev    if ( a == (sbits32) 0x80000000 ) return packFloat32( 1, 0x9E, 0 );
433075b6Spvalchev    zSign = ( a < 0 );
433075b6Spvalchev    return normalizeRoundAndPackFloat32( zSign, 0x9C, zSign ? - a : a );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of converting the 32-bit two's complement integer `a'
433075b6Spvalchevto the double-precision floating-point format.  The conversion is performed
433075b6Spvalchevaccording to the IEC/IEEE Standard for Binary Floating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevfloat64 int32_to_float64( int32 a )
433075b6Spvalchev{
433075b6Spvalchev    flag zSign;
433075b6Spvalchev    uint32 absA;
433075b6Spvalchev    int8 shiftCount;
433075b6Spvalchev    bits64 zSig;
433075b6Spvalchev
433075b6Spvalchev    if ( a == 0 ) return 0;
433075b6Spvalchev    zSign = ( a < 0 );
433075b6Spvalchev    absA = zSign ? - a : a;
433075b6Spvalchev    shiftCount = countLeadingZeros32( absA ) + 21;
433075b6Spvalchev    zSig = absA;
433075b6Spvalchev    return packFloat64( zSign, 0x432 - shiftCount, zSig<<shiftCount );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev#ifdef FLOATX80
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of converting the 32-bit two's complement integer `a'
433075b6Spvalchevto the extended double-precision floating-point format.  The conversion
433075b6Spvalchevis performed according to the IEC/IEEE Standard for Binary Floating-Point
433075b6SpvalchevArithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevfloatx80 int32_to_floatx80( int32 a )
433075b6Spvalchev{
433075b6Spvalchev    flag zSign;
433075b6Spvalchev    uint32 absA;
433075b6Spvalchev    int8 shiftCount;
433075b6Spvalchev    bits64 zSig;
433075b6Spvalchev
433075b6Spvalchev    if ( a == 0 ) return packFloatx80( 0, 0, 0 );
433075b6Spvalchev    zSign = ( a < 0 );
433075b6Spvalchev    absA = zSign ? - a : a;
433075b6Spvalchev    shiftCount = countLeadingZeros32( absA ) + 32;
433075b6Spvalchev    zSig = absA;
433075b6Spvalchev    return packFloatx80( zSign, 0x403E - shiftCount, zSig<<shiftCount );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev#endif
433075b6Spvalchev
433075b6Spvalchev#ifdef FLOAT128
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of converting the 32-bit two's complement integer `a' to
433075b6Spvalchevthe quadruple-precision floating-point format.  The conversion is performed
433075b6Spvalchevaccording to the IEC/IEEE Standard for Binary Floating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevfloat128 int32_to_float128( int32 a )
433075b6Spvalchev{
433075b6Spvalchev    flag zSign;
433075b6Spvalchev    uint32 absA;
433075b6Spvalchev    int8 shiftCount;
433075b6Spvalchev    bits64 zSig0;
433075b6Spvalchev
433075b6Spvalchev    if ( a == 0 ) return packFloat128( 0, 0, 0, 0 );
433075b6Spvalchev    zSign = ( a < 0 );
433075b6Spvalchev    absA = zSign ? - a : a;
433075b6Spvalchev    shiftCount = countLeadingZeros32( absA ) + 17;
433075b6Spvalchev    zSig0 = absA;
433075b6Spvalchev    return packFloat128( zSign, 0x402E - shiftCount, zSig0<<shiftCount, 0 );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev#endif
433075b6Spvalchev
433075b6Spvalchev#ifndef SOFTFLOAT_FOR_GCC /* __floatdi?f is in libgcc2.c */
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of converting the 64-bit two's complement integer `a'
433075b6Spvalchevto the single-precision floating-point format.  The conversion is performed
433075b6Spvalchevaccording to the IEC/IEEE Standard for Binary Floating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevfloat32 int64_to_float32( int64 a )
433075b6Spvalchev{
433075b6Spvalchev    flag zSign;
433075b6Spvalchev    uint64 absA;
433075b6Spvalchev    int8 shiftCount;
433075b6Spvalchev
433075b6Spvalchev    if ( a == 0 ) return 0;
433075b6Spvalchev    zSign = ( a < 0 );
433075b6Spvalchev    absA = zSign ? - a : a;
433075b6Spvalchev    shiftCount = countLeadingZeros64( absA ) - 40;
433075b6Spvalchev    if ( 0 <= shiftCount ) {
433075b6Spvalchev        return packFloat32( zSign, 0x95 - shiftCount, absA<<shiftCount );
433075b6Spvalchev    }
433075b6Spvalchev    else {
433075b6Spvalchev        shiftCount += 7;
433075b6Spvalchev        if ( shiftCount < 0 ) {
433075b6Spvalchev            shift64RightJamming( absA, - shiftCount, &absA );
433075b6Spvalchev        }
433075b6Spvalchev        else {
433075b6Spvalchev            absA <<= shiftCount;
433075b6Spvalchev        }
433075b6Spvalchev        return roundAndPackFloat32( zSign, 0x9C - shiftCount, absA );
433075b6Spvalchev    }
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of converting the 64-bit two's complement integer `a'
433075b6Spvalchevto the double-precision floating-point format.  The conversion is performed
433075b6Spvalchevaccording to the IEC/IEEE Standard for Binary Floating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevfloat64 int64_to_float64( int64 a )
433075b6Spvalchev{
433075b6Spvalchev    flag zSign;
433075b6Spvalchev
433075b6Spvalchev    if ( a == 0 ) return 0;
433075b6Spvalchev    if ( a == (sbits64) LIT64( 0x8000000000000000 ) ) {
433075b6Spvalchev        return packFloat64( 1, 0x43E, 0 );
433075b6Spvalchev    }
433075b6Spvalchev    zSign = ( a < 0 );
433075b6Spvalchev    return normalizeRoundAndPackFloat64( zSign, 0x43C, zSign ? - a : a );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev#ifdef FLOATX80
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of converting the 64-bit two's complement integer `a'
433075b6Spvalchevto the extended double-precision floating-point format.  The conversion
433075b6Spvalchevis performed according to the IEC/IEEE Standard for Binary Floating-Point
433075b6SpvalchevArithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevfloatx80 int64_to_floatx80( int64 a )
433075b6Spvalchev{
433075b6Spvalchev    flag zSign;
433075b6Spvalchev    uint64 absA;
433075b6Spvalchev    int8 shiftCount;
433075b6Spvalchev
433075b6Spvalchev    if ( a == 0 ) return packFloatx80( 0, 0, 0 );
433075b6Spvalchev    zSign = ( a < 0 );
433075b6Spvalchev    absA = zSign ? - a : a;
433075b6Spvalchev    shiftCount = countLeadingZeros64( absA );
433075b6Spvalchev    return packFloatx80( zSign, 0x403E - shiftCount, absA<<shiftCount );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev#endif
433075b6Spvalchev
433075b6Spvalchev#ifdef FLOAT128
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of converting the 64-bit two's complement integer `a' to
433075b6Spvalchevthe quadruple-precision floating-point format.  The conversion is performed
433075b6Spvalchevaccording to the IEC/IEEE Standard for Binary Floating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevfloat128 int64_to_float128( int64 a )
433075b6Spvalchev{
433075b6Spvalchev    flag zSign;
433075b6Spvalchev    uint64 absA;
433075b6Spvalchev    int8 shiftCount;
433075b6Spvalchev    int32 zExp;
433075b6Spvalchev    bits64 zSig0, zSig1;
433075b6Spvalchev
433075b6Spvalchev    if ( a == 0 ) return packFloat128( 0, 0, 0, 0 );
433075b6Spvalchev    zSign = ( a < 0 );
433075b6Spvalchev    absA = zSign ? - a : a;
433075b6Spvalchev    shiftCount = countLeadingZeros64( absA ) + 49;
433075b6Spvalchev    zExp = 0x406E - shiftCount;
433075b6Spvalchev    if ( 64 <= shiftCount ) {
433075b6Spvalchev        zSig1 = 0;
433075b6Spvalchev        zSig0 = absA;
433075b6Spvalchev        shiftCount -= 64;
433075b6Spvalchev    }
433075b6Spvalchev    else {
433075b6Spvalchev        zSig1 = absA;
433075b6Spvalchev        zSig0 = 0;
433075b6Spvalchev    }
433075b6Spvalchev    shortShift128Left( zSig0, zSig1, shiftCount, &zSig0, &zSig1 );
433075b6Spvalchev    return packFloat128( zSign, zExp, zSig0, zSig1 );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev#endif
433075b6Spvalchev#endif /* !SOFTFLOAT_FOR_GCC */
433075b6Spvalchev
433075b6Spvalchev#ifndef SOFTFLOAT_FOR_GCC /* Not needed */
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of converting the single-precision floating-point value
433075b6Spvalchev`a' to the 32-bit two's complement integer format.  The conversion is
433075b6Spvalchevperformed according to the IEC/IEEE Standard for Binary Floating-Point
433075b6SpvalchevArithmetic---which means in particular that the conversion is rounded
433075b6Spvalchevaccording to the current rounding mode.  If `a' is a NaN, the largest
433075b6Spvalchevpositive integer is returned.  Otherwise, if the conversion overflows, the
433075b6Spvalchevlargest integer with the same sign as `a' is returned.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevint32 float32_to_int32( float32 a )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign;
433075b6Spvalchev    int16 aExp, shiftCount;
433075b6Spvalchev    bits32 aSig;
433075b6Spvalchev    bits64 aSig64;
433075b6Spvalchev
433075b6Spvalchev    aSig = extractFloat32Frac( a );
433075b6Spvalchev    aExp = extractFloat32Exp( a );
433075b6Spvalchev    aSign = extractFloat32Sign( a );
433075b6Spvalchev    if ( ( aExp == 0xFF ) && aSig ) aSign = 0;
433075b6Spvalchev    if ( aExp ) aSig |= 0x00800000;
433075b6Spvalchev    shiftCount = 0xAF - aExp;
433075b6Spvalchev    aSig64 = aSig;
433075b6Spvalchev    aSig64 <<= 32;
433075b6Spvalchev    if ( 0 < shiftCount ) shift64RightJamming( aSig64, shiftCount, &aSig64 );
433075b6Spvalchev    return roundAndPackInt32( aSign, aSig64 );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev#endif /* !SOFTFLOAT_FOR_GCC */
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of converting the single-precision floating-point value
433075b6Spvalchev`a' to the 32-bit two's complement integer format.  The conversion is
433075b6Spvalchevperformed according to the IEC/IEEE Standard for Binary Floating-Point
433075b6SpvalchevArithmetic, except that the conversion is always rounded toward zero.
433075b6SpvalchevIf `a' is a NaN, the largest positive integer is returned.  Otherwise, if
433075b6Spvalchevthe conversion overflows, the largest integer with the same sign as `a' is
433075b6Spvalchevreturned.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevint32 float32_to_int32_round_to_zero( float32 a )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign;
433075b6Spvalchev    int16 aExp, shiftCount;
433075b6Spvalchev    bits32 aSig;
433075b6Spvalchev    int32 z;
433075b6Spvalchev
433075b6Spvalchev    aSig = extractFloat32Frac( a );
433075b6Spvalchev    aExp = extractFloat32Exp( a );
433075b6Spvalchev    aSign = extractFloat32Sign( a );
433075b6Spvalchev    shiftCount = aExp - 0x9E;
433075b6Spvalchev    if ( 0 <= shiftCount ) {
433075b6Spvalchev        if ( a != 0xCF000000 ) {
433075b6Spvalchev            float_raise( float_flag_invalid );
433075b6Spvalchev            if ( ! aSign || ( ( aExp == 0xFF ) && aSig ) ) return 0x7FFFFFFF;
433075b6Spvalchev        }
433075b6Spvalchev        return (sbits32) 0x80000000;
433075b6Spvalchev    }
433075b6Spvalchev    else if ( aExp <= 0x7E ) {
433075b6Spvalchev        if ( aExp | aSig ) float_set_inexact();
433075b6Spvalchev        return 0;
433075b6Spvalchev    }
433075b6Spvalchev    aSig = ( aSig | 0x00800000 )<<8;
433075b6Spvalchev    z = aSig>>( - shiftCount );
433075b6Spvalchev    if ( (bits32) ( aSig<<( shiftCount & 31 ) ) ) {
433075b6Spvalchev        float_set_inexact();
433075b6Spvalchev    }
433075b6Spvalchev    if ( aSign ) z = - z;
433075b6Spvalchev    return z;
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev#ifndef SOFTFLOAT_FOR_GCC /* __fix?fdi provided by libgcc2.c */
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of converting the single-precision floating-point value
433075b6Spvalchev`a' to the 64-bit two's complement integer format.  The conversion is
433075b6Spvalchevperformed according to the IEC/IEEE Standard for Binary Floating-Point
433075b6SpvalchevArithmetic---which means in particular that the conversion is rounded
433075b6Spvalchevaccording to the current rounding mode.  If `a' is a NaN, the largest
433075b6Spvalchevpositive integer is returned.  Otherwise, if the conversion overflows, the
433075b6Spvalchevlargest integer with the same sign as `a' is returned.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevint64 float32_to_int64( float32 a )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign;
433075b6Spvalchev    int16 aExp, shiftCount;
433075b6Spvalchev    bits32 aSig;
433075b6Spvalchev    bits64 aSig64, aSigExtra;
433075b6Spvalchev
433075b6Spvalchev    aSig = extractFloat32Frac( a );
433075b6Spvalchev    aExp = extractFloat32Exp( a );
433075b6Spvalchev    aSign = extractFloat32Sign( a );
433075b6Spvalchev    shiftCount = 0xBE - aExp;
433075b6Spvalchev    if ( shiftCount < 0 ) {
433075b6Spvalchev        float_raise( float_flag_invalid );
433075b6Spvalchev        if ( ! aSign || ( ( aExp == 0xFF ) && aSig ) ) {
433075b6Spvalchev            return LIT64( 0x7FFFFFFFFFFFFFFF );
433075b6Spvalchev        }
433075b6Spvalchev        return (sbits64) LIT64( 0x8000000000000000 );
433075b6Spvalchev    }
433075b6Spvalchev    if ( aExp ) aSig |= 0x00800000;
433075b6Spvalchev    aSig64 = aSig;
433075b6Spvalchev    aSig64 <<= 40;
433075b6Spvalchev    shift64ExtraRightJamming( aSig64, 0, shiftCount, &aSig64, &aSigExtra );
433075b6Spvalchev    return roundAndPackInt64( aSign, aSig64, aSigExtra );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of converting the single-precision floating-point value
433075b6Spvalchev`a' to the 64-bit two's complement integer format.  The conversion is
433075b6Spvalchevperformed according to the IEC/IEEE Standard for Binary Floating-Point
433075b6SpvalchevArithmetic, except that the conversion is always rounded toward zero.  If
433075b6Spvalchev`a' is a NaN, the largest positive integer is returned.  Otherwise, if the
433075b6Spvalchevconversion overflows, the largest integer with the same sign as `a' is
433075b6Spvalchevreturned.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevint64 float32_to_int64_round_to_zero( float32 a )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign;
433075b6Spvalchev    int16 aExp, shiftCount;
433075b6Spvalchev    bits32 aSig;
433075b6Spvalchev    bits64 aSig64;
433075b6Spvalchev    int64 z;
433075b6Spvalchev
433075b6Spvalchev    aSig = extractFloat32Frac( a );
433075b6Spvalchev    aExp = extractFloat32Exp( a );
433075b6Spvalchev    aSign = extractFloat32Sign( a );
433075b6Spvalchev    shiftCount = aExp - 0xBE;
433075b6Spvalchev    if ( 0 <= shiftCount ) {
433075b6Spvalchev        if ( a != 0xDF000000 ) {
433075b6Spvalchev            float_raise( float_flag_invalid );
433075b6Spvalchev            if ( ! aSign || ( ( aExp == 0xFF ) && aSig ) ) {
433075b6Spvalchev                return LIT64( 0x7FFFFFFFFFFFFFFF );
433075b6Spvalchev            }
433075b6Spvalchev        }
433075b6Spvalchev        return (sbits64) LIT64( 0x8000000000000000 );
433075b6Spvalchev    }
433075b6Spvalchev    else if ( aExp <= 0x7E ) {
433075b6Spvalchev        if ( aExp | aSig ) float_set_inexact();
433075b6Spvalchev        return 0;
433075b6Spvalchev    }
433075b6Spvalchev    aSig64 = aSig | 0x00800000;
433075b6Spvalchev    aSig64 <<= 40;
433075b6Spvalchev    z = aSig64>>( - shiftCount );
433075b6Spvalchev    if ( (bits64) ( aSig64<<( shiftCount & 63 ) ) ) {
433075b6Spvalchev        float_set_inexact();
433075b6Spvalchev    }
433075b6Spvalchev    if ( aSign ) z = - z;
433075b6Spvalchev    return z;
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev#endif /* !SOFTFLOAT_FOR_GCC */
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of converting the single-precision floating-point value
433075b6Spvalchev`a' to the double-precision floating-point format.  The conversion is
433075b6Spvalchevperformed according to the IEC/IEEE Standard for Binary Floating-Point
433075b6SpvalchevArithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevfloat64 float32_to_float64( float32 a )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign;
433075b6Spvalchev    int16 aExp;
433075b6Spvalchev    bits32 aSig;
433075b6Spvalchev
433075b6Spvalchev    aSig = extractFloat32Frac( a );
433075b6Spvalchev    aExp = extractFloat32Exp( a );
433075b6Spvalchev    aSign = extractFloat32Sign( a );
433075b6Spvalchev    if ( aExp == 0xFF ) {
433075b6Spvalchev        if ( aSig ) return commonNaNToFloat64( float32ToCommonNaN( a ) );
433075b6Spvalchev        return packFloat64( aSign, 0x7FF, 0 );
433075b6Spvalchev    }
433075b6Spvalchev    if ( aExp == 0 ) {
433075b6Spvalchev        if ( aSig == 0 ) return packFloat64( aSign, 0, 0 );
433075b6Spvalchev        normalizeFloat32Subnormal( aSig, &aExp, &aSig );
433075b6Spvalchev        --aExp;
433075b6Spvalchev    }
433075b6Spvalchev    return packFloat64( aSign, aExp + 0x380, ( (bits64) aSig )<<29 );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev#ifdef FLOATX80
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of converting the single-precision floating-point value
433075b6Spvalchev`a' to the extended double-precision floating-point format.  The conversion
433075b6Spvalchevis performed according to the IEC/IEEE Standard for Binary Floating-Point
433075b6SpvalchevArithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevfloatx80 float32_to_floatx80( float32 a )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign;
433075b6Spvalchev    int16 aExp;
433075b6Spvalchev    bits32 aSig;
433075b6Spvalchev
433075b6Spvalchev    aSig = extractFloat32Frac( a );
433075b6Spvalchev    aExp = extractFloat32Exp( a );
433075b6Spvalchev    aSign = extractFloat32Sign( a );
433075b6Spvalchev    if ( aExp == 0xFF ) {
433075b6Spvalchev        if ( aSig ) return commonNaNToFloatx80( float32ToCommonNaN( a ) );
433075b6Spvalchev        return packFloatx80( aSign, 0x7FFF, LIT64( 0x8000000000000000 ) );
433075b6Spvalchev    }
433075b6Spvalchev    if ( aExp == 0 ) {
433075b6Spvalchev        if ( aSig == 0 ) return packFloatx80( aSign, 0, 0 );
433075b6Spvalchev        normalizeFloat32Subnormal( aSig, &aExp, &aSig );
433075b6Spvalchev    }
433075b6Spvalchev    aSig |= 0x00800000;
433075b6Spvalchev    return packFloatx80( aSign, aExp + 0x3F80, ( (bits64) aSig )<<40 );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev#endif
433075b6Spvalchev
433075b6Spvalchev#ifdef FLOAT128
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of converting the single-precision floating-point value
433075b6Spvalchev`a' to the double-precision floating-point format.  The conversion is
433075b6Spvalchevperformed according to the IEC/IEEE Standard for Binary Floating-Point
433075b6SpvalchevArithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevfloat128 float32_to_float128( float32 a )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign;
433075b6Spvalchev    int16 aExp;
433075b6Spvalchev    bits32 aSig;
433075b6Spvalchev
433075b6Spvalchev    aSig = extractFloat32Frac( a );
433075b6Spvalchev    aExp = extractFloat32Exp( a );
433075b6Spvalchev    aSign = extractFloat32Sign( a );
433075b6Spvalchev    if ( aExp == 0xFF ) {
433075b6Spvalchev        if ( aSig ) return commonNaNToFloat128( float32ToCommonNaN( a ) );
433075b6Spvalchev        return packFloat128( aSign, 0x7FFF, 0, 0 );
433075b6Spvalchev    }
433075b6Spvalchev    if ( aExp == 0 ) {
433075b6Spvalchev        if ( aSig == 0 ) return packFloat128( aSign, 0, 0, 0 );
433075b6Spvalchev        normalizeFloat32Subnormal( aSig, &aExp, &aSig );
433075b6Spvalchev        --aExp;
433075b6Spvalchev    }
433075b6Spvalchev    return packFloat128( aSign, aExp + 0x3F80, ( (bits64) aSig )<<25, 0 );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev#endif
433075b6Spvalchev
433075b6Spvalchev#ifndef SOFTFLOAT_FOR_GCC /* Not needed */
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevRounds the single-precision floating-point value `a' to an integer, and
433075b6Spvalchevreturns the result as a single-precision floating-point value.  The
433075b6Spvalchevoperation is performed according to the IEC/IEEE Standard for Binary
433075b6SpvalchevFloating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevfloat32 float32_round_to_int( float32 a )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign;
433075b6Spvalchev    int16 aExp;
433075b6Spvalchev    bits32 lastBitMask, roundBitsMask;
433075b6Spvalchev    int8 roundingMode;
433075b6Spvalchev    float32 z;
433075b6Spvalchev
433075b6Spvalchev    aExp = extractFloat32Exp( a );
433075b6Spvalchev    if ( 0x96 <= aExp ) {
433075b6Spvalchev        if ( ( aExp == 0xFF ) && extractFloat32Frac( a ) ) {
433075b6Spvalchev            return propagateFloat32NaN( a, a );
433075b6Spvalchev        }
433075b6Spvalchev        return a;
433075b6Spvalchev    }
433075b6Spvalchev    if ( aExp <= 0x7E ) {
433075b6Spvalchev        if ( (bits32) ( a<<1 ) == 0 ) return a;
433075b6Spvalchev        float_set_inexact();
433075b6Spvalchev        aSign = extractFloat32Sign( a );
433075b6Spvalchev        switch ( float_rounding_mode() ) {
433075b6Spvalchev         case float_round_nearest_even:
433075b6Spvalchev            if ( ( aExp == 0x7E ) && extractFloat32Frac( a ) ) {
433075b6Spvalchev                return packFloat32( aSign, 0x7F, 0 );
433075b6Spvalchev            }
433075b6Spvalchev            break;
433075b6Spvalchev         case float_round_down:
433075b6Spvalchev            return aSign ? 0xBF800000 : 0;
433075b6Spvalchev         case float_round_up:
433075b6Spvalchev            return aSign ? 0x80000000 : 0x3F800000;
433075b6Spvalchev        }
433075b6Spvalchev        return packFloat32( aSign, 0, 0 );
433075b6Spvalchev    }
433075b6Spvalchev    lastBitMask = 1;
433075b6Spvalchev    lastBitMask <<= 0x96 - aExp;
433075b6Spvalchev    roundBitsMask = lastBitMask - 1;
433075b6Spvalchev    z = a;
433075b6Spvalchev    roundingMode = float_rounding_mode();
433075b6Spvalchev    if ( roundingMode == float_round_nearest_even ) {
433075b6Spvalchev        z += lastBitMask>>1;
433075b6Spvalchev        if ( ( z & roundBitsMask ) == 0 ) z &= ~ lastBitMask;
433075b6Spvalchev    }
433075b6Spvalchev    else if ( roundingMode != float_round_to_zero ) {
433075b6Spvalchev        if ( extractFloat32Sign( z ) ^ ( roundingMode == float_round_up ) ) {
433075b6Spvalchev            z += roundBitsMask;
433075b6Spvalchev        }
433075b6Spvalchev    }
433075b6Spvalchev    z &= ~ roundBitsMask;
433075b6Spvalchev    if ( z != a ) float_set_inexact();
433075b6Spvalchev    return z;
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev#endif /* !SOFTFLOAT_FOR_GCC */
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of adding the absolute values of the single-precision
433075b6Spvalchevfloating-point values `a' and `b'.  If `zSign' is 1, the sum is negated
433075b6Spvalchevbefore being returned.  `zSign' is ignored if the result is a NaN.
433075b6SpvalchevThe addition is performed according to the IEC/IEEE Standard for Binary
433075b6SpvalchevFloating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevstatic float32 addFloat32Sigs( float32 a, float32 b, flag zSign )
433075b6Spvalchev{
433075b6Spvalchev    int16 aExp, bExp, zExp;
433075b6Spvalchev    bits32 aSig, bSig, zSig;
433075b6Spvalchev    int16 expDiff;
433075b6Spvalchev
433075b6Spvalchev    aSig = extractFloat32Frac( a );
433075b6Spvalchev    aExp = extractFloat32Exp( a );
433075b6Spvalchev    bSig = extractFloat32Frac( b );
433075b6Spvalchev    bExp = extractFloat32Exp( b );
433075b6Spvalchev    expDiff = aExp - bExp;
433075b6Spvalchev    aSig <<= 6;
433075b6Spvalchev    bSig <<= 6;
433075b6Spvalchev    if ( 0 < expDiff ) {
433075b6Spvalchev        if ( aExp == 0xFF ) {
433075b6Spvalchev            if ( aSig ) return propagateFloat32NaN( a, b );
433075b6Spvalchev            return a;
433075b6Spvalchev        }
433075b6Spvalchev        if ( bExp == 0 ) {
433075b6Spvalchev            --expDiff;
433075b6Spvalchev        }
433075b6Spvalchev        else {
433075b6Spvalchev            bSig |= 0x20000000;
433075b6Spvalchev        }
433075b6Spvalchev        shift32RightJamming( bSig, expDiff, &bSig );
433075b6Spvalchev        zExp = aExp;
433075b6Spvalchev    }
433075b6Spvalchev    else if ( expDiff < 0 ) {
433075b6Spvalchev        if ( bExp == 0xFF ) {
433075b6Spvalchev            if ( bSig ) return propagateFloat32NaN( a, b );
433075b6Spvalchev            return packFloat32( zSign, 0xFF, 0 );
433075b6Spvalchev        }
433075b6Spvalchev        if ( aExp == 0 ) {
433075b6Spvalchev            ++expDiff;
433075b6Spvalchev        }
433075b6Spvalchev        else {
433075b6Spvalchev            aSig |= 0x20000000;
433075b6Spvalchev        }
433075b6Spvalchev        shift32RightJamming( aSig, - expDiff, &aSig );
433075b6Spvalchev        zExp = bExp;
433075b6Spvalchev    }
433075b6Spvalchev    else {
433075b6Spvalchev        if ( aExp == 0xFF ) {
433075b6Spvalchev            if ( aSig | bSig ) return propagateFloat32NaN( a, b );
433075b6Spvalchev            return a;
433075b6Spvalchev        }
433075b6Spvalchev        if ( aExp == 0 ) return packFloat32( zSign, 0, ( aSig + bSig )>>6 );
433075b6Spvalchev        zSig = 0x40000000 + aSig + bSig;
433075b6Spvalchev        zExp = aExp;
433075b6Spvalchev        goto roundAndPack;
433075b6Spvalchev    }
433075b6Spvalchev    aSig |= 0x20000000;
433075b6Spvalchev    zSig = ( aSig + bSig )<<1;
433075b6Spvalchev    --zExp;
433075b6Spvalchev    if ( (sbits32) zSig < 0 ) {
433075b6Spvalchev        zSig = aSig + bSig;
433075b6Spvalchev        ++zExp;
433075b6Spvalchev    }
433075b6Spvalchev roundAndPack:
433075b6Spvalchev    return roundAndPackFloat32( zSign, zExp, zSig );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of subtracting the absolute values of the single-
433075b6Spvalchevprecision floating-point values `a' and `b'.  If `zSign' is 1, the
433075b6Spvalchevdifference is negated before being returned.  `zSign' is ignored if the
433075b6Spvalchevresult is a NaN.  The subtraction is performed according to the IEC/IEEE
433075b6SpvalchevStandard for Binary Floating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevstatic float32 subFloat32Sigs( float32 a, float32 b, flag zSign )
433075b6Spvalchev{
433075b6Spvalchev    int16 aExp, bExp, zExp;
433075b6Spvalchev    bits32 aSig, bSig, zSig;
433075b6Spvalchev    int16 expDiff;
433075b6Spvalchev
433075b6Spvalchev    aSig = extractFloat32Frac( a );
433075b6Spvalchev    aExp = extractFloat32Exp( a );
433075b6Spvalchev    bSig = extractFloat32Frac( b );
433075b6Spvalchev    bExp = extractFloat32Exp( b );
433075b6Spvalchev    expDiff = aExp - bExp;
433075b6Spvalchev    aSig <<= 7;
433075b6Spvalchev    bSig <<= 7;
433075b6Spvalchev    if ( 0 < expDiff ) goto aExpBigger;
433075b6Spvalchev    if ( expDiff < 0 ) goto bExpBigger;
433075b6Spvalchev    if ( aExp == 0xFF ) {
433075b6Spvalchev        if ( aSig | bSig ) return propagateFloat32NaN( a, b );
433075b6Spvalchev        float_raise( float_flag_invalid );
433075b6Spvalchev        return float32_default_nan;
433075b6Spvalchev    }
433075b6Spvalchev    if ( aExp == 0 ) {
433075b6Spvalchev        aExp = 1;
433075b6Spvalchev        bExp = 1;
433075b6Spvalchev    }
433075b6Spvalchev    if ( bSig < aSig ) goto aBigger;
433075b6Spvalchev    if ( aSig < bSig ) goto bBigger;
433075b6Spvalchev    return packFloat32( float_rounding_mode() == float_round_down, 0, 0 );
433075b6Spvalchev bExpBigger:
433075b6Spvalchev    if ( bExp == 0xFF ) {
433075b6Spvalchev        if ( bSig ) return propagateFloat32NaN( a, b );
433075b6Spvalchev        return packFloat32( zSign ^ 1, 0xFF, 0 );
433075b6Spvalchev    }
433075b6Spvalchev    if ( aExp == 0 ) {
433075b6Spvalchev        ++expDiff;
433075b6Spvalchev    }
433075b6Spvalchev    else {
433075b6Spvalchev        aSig |= 0x40000000;
433075b6Spvalchev    }
433075b6Spvalchev    shift32RightJamming( aSig, - expDiff, &aSig );
433075b6Spvalchev    bSig |= 0x40000000;
433075b6Spvalchev bBigger:
433075b6Spvalchev    zSig = bSig - aSig;
433075b6Spvalchev    zExp = bExp;
433075b6Spvalchev    zSign ^= 1;
433075b6Spvalchev    goto normalizeRoundAndPack;
433075b6Spvalchev aExpBigger:
433075b6Spvalchev    if ( aExp == 0xFF ) {
433075b6Spvalchev        if ( aSig ) return propagateFloat32NaN( a, b );
433075b6Spvalchev        return a;
433075b6Spvalchev    }
433075b6Spvalchev    if ( bExp == 0 ) {
433075b6Spvalchev        --expDiff;
433075b6Spvalchev    }
433075b6Spvalchev    else {
433075b6Spvalchev        bSig |= 0x40000000;
433075b6Spvalchev    }
433075b6Spvalchev    shift32RightJamming( bSig, expDiff, &bSig );
433075b6Spvalchev    aSig |= 0x40000000;
433075b6Spvalchev aBigger:
433075b6Spvalchev    zSig = aSig - bSig;
433075b6Spvalchev    zExp = aExp;
433075b6Spvalchev normalizeRoundAndPack:
433075b6Spvalchev    --zExp;
433075b6Spvalchev    return normalizeRoundAndPackFloat32( zSign, zExp, zSig );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of adding the single-precision floating-point values `a'
433075b6Spvalchevand `b'.  The operation is performed according to the IEC/IEEE Standard for
433075b6SpvalchevBinary Floating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevfloat32 float32_add( float32 a, float32 b )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign, bSign;
433075b6Spvalchev
433075b6Spvalchev    aSign = extractFloat32Sign( a );
433075b6Spvalchev    bSign = extractFloat32Sign( b );
433075b6Spvalchev    if ( aSign == bSign ) {
433075b6Spvalchev        return addFloat32Sigs( a, b, aSign );
433075b6Spvalchev    }
433075b6Spvalchev    else {
433075b6Spvalchev        return subFloat32Sigs( a, b, aSign );
433075b6Spvalchev    }
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of subtracting the single-precision floating-point values
433075b6Spvalchev`a' and `b'.  The operation is performed according to the IEC/IEEE Standard
433075b6Spvalchevfor Binary Floating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevfloat32 float32_sub( float32 a, float32 b )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign, bSign;
433075b6Spvalchev
433075b6Spvalchev    aSign = extractFloat32Sign( a );
433075b6Spvalchev    bSign = extractFloat32Sign( b );
433075b6Spvalchev    if ( aSign == bSign ) {
433075b6Spvalchev        return subFloat32Sigs( a, b, aSign );
433075b6Spvalchev    }
433075b6Spvalchev    else {
433075b6Spvalchev        return addFloat32Sigs( a, b, aSign );
433075b6Spvalchev    }
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of multiplying the single-precision floating-point values
433075b6Spvalchev`a' and `b'.  The operation is performed according to the IEC/IEEE Standard
433075b6Spvalchevfor Binary Floating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevfloat32 float32_mul( float32 a, float32 b )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign, bSign, zSign;
433075b6Spvalchev    int16 aExp, bExp, zExp;
433075b6Spvalchev    bits32 aSig, bSig;
433075b6Spvalchev    bits64 zSig64;
433075b6Spvalchev    bits32 zSig;
433075b6Spvalchev
433075b6Spvalchev    aSig = extractFloat32Frac( a );
433075b6Spvalchev    aExp = extractFloat32Exp( a );
433075b6Spvalchev    aSign = extractFloat32Sign( a );
433075b6Spvalchev    bSig = extractFloat32Frac( b );
433075b6Spvalchev    bExp = extractFloat32Exp( b );
433075b6Spvalchev    bSign = extractFloat32Sign( b );
433075b6Spvalchev    zSign = aSign ^ bSign;
433075b6Spvalchev    if ( aExp == 0xFF ) {
433075b6Spvalchev        if ( aSig || ( ( bExp == 0xFF ) && bSig ) ) {
433075b6Spvalchev            return propagateFloat32NaN( a, b );
433075b6Spvalchev        }
433075b6Spvalchev        if ( ( bExp | bSig ) == 0 ) {
433075b6Spvalchev            float_raise( float_flag_invalid );
433075b6Spvalchev            return float32_default_nan;
433075b6Spvalchev        }
433075b6Spvalchev        return packFloat32( zSign, 0xFF, 0 );
433075b6Spvalchev    }
433075b6Spvalchev    if ( bExp == 0xFF ) {
433075b6Spvalchev        if ( bSig ) return propagateFloat32NaN( a, b );
433075b6Spvalchev        if ( ( aExp | aSig ) == 0 ) {
433075b6Spvalchev            float_raise( float_flag_invalid );
433075b6Spvalchev            return float32_default_nan;
433075b6Spvalchev        }
433075b6Spvalchev        return packFloat32( zSign, 0xFF, 0 );
433075b6Spvalchev    }
433075b6Spvalchev    if ( aExp == 0 ) {
433075b6Spvalchev        if ( aSig == 0 ) return packFloat32( zSign, 0, 0 );
433075b6Spvalchev        normalizeFloat32Subnormal( aSig, &aExp, &aSig );
433075b6Spvalchev    }
433075b6Spvalchev    if ( bExp == 0 ) {
433075b6Spvalchev        if ( bSig == 0 ) return packFloat32( zSign, 0, 0 );
433075b6Spvalchev        normalizeFloat32Subnormal( bSig, &bExp, &bSig );
433075b6Spvalchev    }
433075b6Spvalchev    zExp = aExp + bExp - 0x7F;
433075b6Spvalchev    aSig = ( aSig | 0x00800000 )<<7;
433075b6Spvalchev    bSig = ( bSig | 0x00800000 )<<8;
433075b6Spvalchev    shift64RightJamming( ( (bits64) aSig ) * bSig, 32, &zSig64 );
433075b6Spvalchev    zSig = zSig64;
433075b6Spvalchev    if ( 0 <= (sbits32) ( zSig<<1 ) ) {
433075b6Spvalchev        zSig <<= 1;
433075b6Spvalchev        --zExp;
433075b6Spvalchev    }
433075b6Spvalchev    return roundAndPackFloat32( zSign, zExp, zSig );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of dividing the single-precision floating-point value `a'
433075b6Spvalchevby the corresponding value `b'.  The operation is performed according to the
433075b6SpvalchevIEC/IEEE Standard for Binary Floating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevfloat32 float32_div( float32 a, float32 b )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign, bSign, zSign;
433075b6Spvalchev    int16 aExp, bExp, zExp;
433075b6Spvalchev    bits32 aSig, bSig, zSig;
433075b6Spvalchev
433075b6Spvalchev    aSig = extractFloat32Frac( a );
433075b6Spvalchev    aExp = extractFloat32Exp( a );
433075b6Spvalchev    aSign = extractFloat32Sign( a );
433075b6Spvalchev    bSig = extractFloat32Frac( b );
433075b6Spvalchev    bExp = extractFloat32Exp( b );
433075b6Spvalchev    bSign = extractFloat32Sign( b );
433075b6Spvalchev    zSign = aSign ^ bSign;
433075b6Spvalchev    if ( aExp == 0xFF ) {
433075b6Spvalchev        if ( aSig ) return propagateFloat32NaN( a, b );
433075b6Spvalchev        if ( bExp == 0xFF ) {
433075b6Spvalchev            if ( bSig ) return propagateFloat32NaN( a, b );
433075b6Spvalchev            float_raise( float_flag_invalid );
433075b6Spvalchev            return float32_default_nan;
433075b6Spvalchev        }
433075b6Spvalchev        return packFloat32( zSign, 0xFF, 0 );
433075b6Spvalchev    }
433075b6Spvalchev    if ( bExp == 0xFF ) {
433075b6Spvalchev        if ( bSig ) return propagateFloat32NaN( a, b );
433075b6Spvalchev        return packFloat32( zSign, 0, 0 );
433075b6Spvalchev    }
433075b6Spvalchev    if ( bExp == 0 ) {
433075b6Spvalchev        if ( bSig == 0 ) {
433075b6Spvalchev            if ( ( aExp | aSig ) == 0 ) {
433075b6Spvalchev                float_raise( float_flag_invalid );
433075b6Spvalchev                return float32_default_nan;
433075b6Spvalchev            }
433075b6Spvalchev            float_raise( float_flag_divbyzero );
433075b6Spvalchev            return packFloat32( zSign, 0xFF, 0 );
433075b6Spvalchev        }
433075b6Spvalchev        normalizeFloat32Subnormal( bSig, &bExp, &bSig );
433075b6Spvalchev    }
433075b6Spvalchev    if ( aExp == 0 ) {
433075b6Spvalchev        if ( aSig == 0 ) return packFloat32( zSign, 0, 0 );
433075b6Spvalchev        normalizeFloat32Subnormal( aSig, &aExp, &aSig );
433075b6Spvalchev    }
433075b6Spvalchev    zExp = aExp - bExp + 0x7D;
433075b6Spvalchev    aSig = ( aSig | 0x00800000 )<<7;
433075b6Spvalchev    bSig = ( bSig | 0x00800000 )<<8;
433075b6Spvalchev    if ( bSig <= ( aSig + aSig ) ) {
433075b6Spvalchev        aSig >>= 1;
433075b6Spvalchev        ++zExp;
433075b6Spvalchev    }
433075b6Spvalchev    zSig = ( ( (bits64) aSig )<<32 ) / bSig;
433075b6Spvalchev    if ( ( zSig & 0x3F ) == 0 ) {
433075b6Spvalchev        zSig |= ( (bits64) bSig * zSig != ( (bits64) aSig )<<32 );
433075b6Spvalchev    }
433075b6Spvalchev    return roundAndPackFloat32( zSign, zExp, zSig );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev#ifndef SOFTFLOAT_FOR_GCC /* Not needed */
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the remainder of the single-precision floating-point value `a'
433075b6Spvalchevwith respect to the corresponding value `b'.  The operation is performed
433075b6Spvalchevaccording to the IEC/IEEE Standard for Binary Floating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevfloat32 float32_rem( float32 a, float32 b )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign, bSign, zSign;
433075b6Spvalchev    int16 aExp, bExp, expDiff;
433075b6Spvalchev    bits32 aSig, bSig;
433075b6Spvalchev    bits32 q;
433075b6Spvalchev    bits64 aSig64, bSig64, q64;
433075b6Spvalchev    bits32 alternateASig;
433075b6Spvalchev    sbits32 sigMean;
433075b6Spvalchev
433075b6Spvalchev    aSig = extractFloat32Frac( a );
433075b6Spvalchev    aExp = extractFloat32Exp( a );
433075b6Spvalchev    aSign = extractFloat32Sign( a );
433075b6Spvalchev    bSig = extractFloat32Frac( b );
433075b6Spvalchev    bExp = extractFloat32Exp( b );
433075b6Spvalchev    bSign = extractFloat32Sign( b );
433075b6Spvalchev    if ( aExp == 0xFF ) {
433075b6Spvalchev        if ( aSig || ( ( bExp == 0xFF ) && bSig ) ) {
433075b6Spvalchev            return propagateFloat32NaN( a, b );
433075b6Spvalchev        }
433075b6Spvalchev        float_raise( float_flag_invalid );
433075b6Spvalchev        return float32_default_nan;
433075b6Spvalchev    }
433075b6Spvalchev    if ( bExp == 0xFF ) {
433075b6Spvalchev        if ( bSig ) return propagateFloat32NaN( a, b );
433075b6Spvalchev        return a;
433075b6Spvalchev    }
433075b6Spvalchev    if ( bExp == 0 ) {
433075b6Spvalchev        if ( bSig == 0 ) {
433075b6Spvalchev            float_raise( float_flag_invalid );
433075b6Spvalchev            return float32_default_nan;
433075b6Spvalchev        }
433075b6Spvalchev        normalizeFloat32Subnormal( bSig, &bExp, &bSig );
433075b6Spvalchev    }
433075b6Spvalchev    if ( aExp == 0 ) {
433075b6Spvalchev        if ( aSig == 0 ) return a;
433075b6Spvalchev        normalizeFloat32Subnormal( aSig, &aExp, &aSig );
433075b6Spvalchev    }
433075b6Spvalchev    expDiff = aExp - bExp;
433075b6Spvalchev    aSig |= 0x00800000;
433075b6Spvalchev    bSig |= 0x00800000;
433075b6Spvalchev    if ( expDiff < 32 ) {
433075b6Spvalchev        aSig <<= 8;
433075b6Spvalchev        bSig <<= 8;
433075b6Spvalchev        if ( expDiff < 0 ) {
433075b6Spvalchev            if ( expDiff < -1 ) return a;
433075b6Spvalchev            aSig >>= 1;
433075b6Spvalchev        }
433075b6Spvalchev        q = ( bSig <= aSig );
433075b6Spvalchev        if ( q ) aSig -= bSig;
433075b6Spvalchev        if ( 0 < expDiff ) {
433075b6Spvalchev            q = ( ( (bits64) aSig )<<32 ) / bSig;
433075b6Spvalchev            q >>= 32 - expDiff;
433075b6Spvalchev            bSig >>= 2;
433075b6Spvalchev            aSig = ( ( aSig>>1 )<<( expDiff - 1 ) ) - bSig * q;
433075b6Spvalchev        }
433075b6Spvalchev        else {
433075b6Spvalchev            aSig >>= 2;
433075b6Spvalchev            bSig >>= 2;
433075b6Spvalchev        }
433075b6Spvalchev    }
433075b6Spvalchev    else {
433075b6Spvalchev        if ( bSig <= aSig ) aSig -= bSig;
433075b6Spvalchev        aSig64 = ( (bits64) aSig )<<40;
433075b6Spvalchev        bSig64 = ( (bits64) bSig )<<40;
433075b6Spvalchev        expDiff -= 64;
433075b6Spvalchev        while ( 0 < expDiff ) {
433075b6Spvalchev            q64 = estimateDiv128To64( aSig64, 0, bSig64 );
433075b6Spvalchev            q64 = ( 2 < q64 ) ? q64 - 2 : 0;
433075b6Spvalchev            aSig64 = - ( ( bSig * q64 )<<38 );
433075b6Spvalchev            expDiff -= 62;
433075b6Spvalchev        }
433075b6Spvalchev        expDiff += 64;
433075b6Spvalchev        q64 = estimateDiv128To64( aSig64, 0, bSig64 );
433075b6Spvalchev        q64 = ( 2 < q64 ) ? q64 - 2 : 0;
433075b6Spvalchev        q = q64>>( 64 - expDiff );
433075b6Spvalchev        bSig <<= 6;
433075b6Spvalchev        aSig = ( ( aSig64>>33 )<<( expDiff - 1 ) ) - bSig * q;
433075b6Spvalchev    }
433075b6Spvalchev    do {
433075b6Spvalchev        alternateASig = aSig;
433075b6Spvalchev        ++q;
433075b6Spvalchev        aSig -= bSig;
433075b6Spvalchev    } while ( 0 <= (sbits32) aSig );
433075b6Spvalchev    sigMean = aSig + alternateASig;
433075b6Spvalchev    if ( ( sigMean < 0 ) || ( ( sigMean == 0 ) && ( q & 1 ) ) ) {
433075b6Spvalchev        aSig = alternateASig;
433075b6Spvalchev    }
433075b6Spvalchev    zSign = ( (sbits32) aSig < 0 );
433075b6Spvalchev    if ( zSign ) aSig = - aSig;
433075b6Spvalchev    return normalizeRoundAndPackFloat32( aSign ^ zSign, bExp, aSig );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev#endif /* !SOFTFLOAT_FOR_GCC */
433075b6Spvalchev
433075b6Spvalchev#ifndef SOFTFLOAT_FOR_GCC /* Not needed */
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the square root of the single-precision floating-point value `a'.
433075b6SpvalchevThe operation is performed according to the IEC/IEEE Standard for Binary
433075b6SpvalchevFloating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevfloat32 float32_sqrt( float32 a )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign;
433075b6Spvalchev    int16 aExp, zExp;
433075b6Spvalchev    bits32 aSig, zSig;
433075b6Spvalchev    bits64 rem, term;
433075b6Spvalchev
433075b6Spvalchev    aSig = extractFloat32Frac( a );
433075b6Spvalchev    aExp = extractFloat32Exp( a );
433075b6Spvalchev    aSign = extractFloat32Sign( a );
433075b6Spvalchev    if ( aExp == 0xFF ) {
433075b6Spvalchev        if ( aSig ) return propagateFloat32NaN( a, 0 );
433075b6Spvalchev        if ( ! aSign ) return a;
433075b6Spvalchev        float_raise( float_flag_invalid );
433075b6Spvalchev        return float32_default_nan;
433075b6Spvalchev    }
433075b6Spvalchev    if ( aSign ) {
433075b6Spvalchev        if ( ( aExp | aSig ) == 0 ) return a;
433075b6Spvalchev        float_raise( float_flag_invalid );
433075b6Spvalchev        return float32_default_nan;
433075b6Spvalchev    }
433075b6Spvalchev    if ( aExp == 0 ) {
433075b6Spvalchev        if ( aSig == 0 ) return 0;
433075b6Spvalchev        normalizeFloat32Subnormal( aSig, &aExp, &aSig );
433075b6Spvalchev    }
433075b6Spvalchev    zExp = ( ( aExp - 0x7F )>>1 ) + 0x7E;
433075b6Spvalchev    aSig = ( aSig | 0x00800000 )<<8;
433075b6Spvalchev    zSig = estimateSqrt32( aExp, aSig ) + 2;
433075b6Spvalchev    if ( ( zSig & 0x7F ) <= 5 ) {
433075b6Spvalchev        if ( zSig < 2 ) {
433075b6Spvalchev            zSig = 0x7FFFFFFF;
433075b6Spvalchev            goto roundAndPack;
433075b6Spvalchev        }
433075b6Spvalchev        aSig >>= aExp & 1;
433075b6Spvalchev        term = ( (bits64) zSig ) * zSig;
433075b6Spvalchev        rem = ( ( (bits64) aSig )<<32 ) - term;
433075b6Spvalchev        while ( (sbits64) rem < 0 ) {
433075b6Spvalchev            --zSig;
433075b6Spvalchev            rem += ( ( (bits64) zSig )<<1 ) | 1;
433075b6Spvalchev        }
433075b6Spvalchev        zSig |= ( rem != 0 );
433075b6Spvalchev    }
433075b6Spvalchev    shift32RightJamming( zSig, 1, &zSig );
433075b6Spvalchev roundAndPack:
433075b6Spvalchev    return roundAndPackFloat32( 0, zExp, zSig );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev#endif /* !SOFTFLOAT_FOR_GCC */
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns 1 if the single-precision floating-point value `a' is equal to
433075b6Spvalchevthe corresponding value `b', and 0 otherwise.  The comparison is performed
433075b6Spvalchevaccording to the IEC/IEEE Standard for Binary Floating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevflag float32_eq( float32 a, float32 b )
433075b6Spvalchev{
433075b6Spvalchev
433075b6Spvalchev    if (    ( ( extractFloat32Exp( a ) == 0xFF ) && extractFloat32Frac( a ) )
433075b6Spvalchev         || ( ( extractFloat32Exp( b ) == 0xFF ) && extractFloat32Frac( b ) )
433075b6Spvalchev       ) {
433075b6Spvalchev        if ( float32_is_signaling_nan( a ) || float32_is_signaling_nan( b ) ) {
433075b6Spvalchev            float_raise( float_flag_invalid );
433075b6Spvalchev        }
433075b6Spvalchev        return 0;
433075b6Spvalchev    }
433075b6Spvalchev    return ( a == b ) || ( (bits32) ( ( a | b )<<1 ) == 0 );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns 1 if the single-precision floating-point value `a' is less than
433075b6Spvalchevor equal to the corresponding value `b', and 0 otherwise.  The comparison
433075b6Spvalchevis performed according to the IEC/IEEE Standard for Binary Floating-Point
433075b6SpvalchevArithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevflag float32_le( float32 a, float32 b )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign, bSign;
433075b6Spvalchev
433075b6Spvalchev    if (    ( ( extractFloat32Exp( a ) == 0xFF ) && extractFloat32Frac( a ) )
433075b6Spvalchev         || ( ( extractFloat32Exp( b ) == 0xFF ) && extractFloat32Frac( b ) )
433075b6Spvalchev       ) {
433075b6Spvalchev        float_raise( float_flag_invalid );
433075b6Spvalchev        return 0;
433075b6Spvalchev    }
433075b6Spvalchev    aSign = extractFloat32Sign( a );
433075b6Spvalchev    bSign = extractFloat32Sign( b );
433075b6Spvalchev    if ( aSign != bSign ) return aSign || ( (bits32) ( ( a | b )<<1 ) == 0 );
433075b6Spvalchev    return ( a == b ) || ( aSign ^ ( a < b ) );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns 1 if the single-precision floating-point value `a' is less than
433075b6Spvalchevthe corresponding value `b', and 0 otherwise.  The comparison is performed
433075b6Spvalchevaccording to the IEC/IEEE Standard for Binary Floating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevflag float32_lt( float32 a, float32 b )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign, bSign;
433075b6Spvalchev
433075b6Spvalchev    if (    ( ( extractFloat32Exp( a ) == 0xFF ) && extractFloat32Frac( a ) )
433075b6Spvalchev         || ( ( extractFloat32Exp( b ) == 0xFF ) && extractFloat32Frac( b ) )
433075b6Spvalchev       ) {
433075b6Spvalchev        float_raise( float_flag_invalid );
433075b6Spvalchev        return 0;
433075b6Spvalchev    }
433075b6Spvalchev    aSign = extractFloat32Sign( a );
433075b6Spvalchev    bSign = extractFloat32Sign( b );
433075b6Spvalchev    if ( aSign != bSign ) return aSign && ( (bits32) ( ( a | b )<<1 ) != 0 );
433075b6Spvalchev    return ( a != b ) && ( aSign ^ ( a < b ) );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev#ifndef SOFTFLOAT_FOR_GCC /* Not needed */
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns 1 if the single-precision floating-point value `a' is equal to
433075b6Spvalchevthe corresponding value `b', and 0 otherwise.  The invalid exception is
433075b6Spvalchevraised if either operand is a NaN.  Otherwise, the comparison is performed
433075b6Spvalchevaccording to the IEC/IEEE Standard for Binary Floating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevflag float32_eq_signaling( float32 a, float32 b )
433075b6Spvalchev{
433075b6Spvalchev
433075b6Spvalchev    if (    ( ( extractFloat32Exp( a ) == 0xFF ) && extractFloat32Frac( a ) )
433075b6Spvalchev         || ( ( extractFloat32Exp( b ) == 0xFF ) && extractFloat32Frac( b ) )
433075b6Spvalchev       ) {
433075b6Spvalchev        float_raise( float_flag_invalid );
433075b6Spvalchev        return 0;
433075b6Spvalchev    }
433075b6Spvalchev    return ( a == b ) || ( (bits32) ( ( a | b )<<1 ) == 0 );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns 1 if the single-precision floating-point value `a' is less than or
433075b6Spvalchevequal to the corresponding value `b', and 0 otherwise.  Quiet NaNs do not
433075b6Spvalchevcause an exception.  Otherwise, the comparison is performed according to the
433075b6SpvalchevIEC/IEEE Standard for Binary Floating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevflag float32_le_quiet( float32 a, float32 b )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign, bSign;
433075b6Spvalchev
433075b6Spvalchev    if (    ( ( extractFloat32Exp( a ) == 0xFF ) && extractFloat32Frac( a ) )
433075b6Spvalchev         || ( ( extractFloat32Exp( b ) == 0xFF ) && extractFloat32Frac( b ) )
433075b6Spvalchev       ) {
433075b6Spvalchev        if ( float32_is_signaling_nan( a ) || float32_is_signaling_nan( b ) ) {
433075b6Spvalchev            float_raise( float_flag_invalid );
433075b6Spvalchev        }
433075b6Spvalchev        return 0;
433075b6Spvalchev    }
433075b6Spvalchev    aSign = extractFloat32Sign( a );
433075b6Spvalchev    bSign = extractFloat32Sign( b );
433075b6Spvalchev    if ( aSign != bSign ) return aSign || ( (bits32) ( ( a | b )<<1 ) == 0 );
433075b6Spvalchev    return ( a == b ) || ( aSign ^ ( a < b ) );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns 1 if the single-precision floating-point value `a' is less than
433075b6Spvalchevthe corresponding value `b', and 0 otherwise.  Quiet NaNs do not cause an
433075b6Spvalchevexception.  Otherwise, the comparison is performed according to the IEC/IEEE
433075b6SpvalchevStandard for Binary Floating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevflag float32_lt_quiet( float32 a, float32 b )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign, bSign;
433075b6Spvalchev
433075b6Spvalchev    if (    ( ( extractFloat32Exp( a ) == 0xFF ) && extractFloat32Frac( a ) )
433075b6Spvalchev         || ( ( extractFloat32Exp( b ) == 0xFF ) && extractFloat32Frac( b ) )
433075b6Spvalchev       ) {
433075b6Spvalchev        if ( float32_is_signaling_nan( a ) || float32_is_signaling_nan( b ) ) {
433075b6Spvalchev            float_raise( float_flag_invalid );
433075b6Spvalchev        }
433075b6Spvalchev        return 0;
433075b6Spvalchev    }
433075b6Spvalchev    aSign = extractFloat32Sign( a );
433075b6Spvalchev    bSign = extractFloat32Sign( b );
433075b6Spvalchev    if ( aSign != bSign ) return aSign && ( (bits32) ( ( a | b )<<1 ) != 0 );
433075b6Spvalchev    return ( a != b ) && ( aSign ^ ( a < b ) );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev#endif /* !SOFTFLOAT_FOR_GCC */
433075b6Spvalchev
433075b6Spvalchev#ifndef SOFTFLOAT_FOR_GCC /* Not needed */
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of converting the double-precision floating-point value
433075b6Spvalchev`a' to the 32-bit two's complement integer format.  The conversion is
433075b6Spvalchevperformed according to the IEC/IEEE Standard for Binary Floating-Point
433075b6SpvalchevArithmetic---which means in particular that the conversion is rounded
433075b6Spvalchevaccording to the current rounding mode.  If `a' is a NaN, the largest
433075b6Spvalchevpositive integer is returned.  Otherwise, if the conversion overflows, the
433075b6Spvalchevlargest integer with the same sign as `a' is returned.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevint32 float64_to_int32( float64 a )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign;
433075b6Spvalchev    int16 aExp, shiftCount;
433075b6Spvalchev    bits64 aSig;
433075b6Spvalchev
433075b6Spvalchev    aSig = extractFloat64Frac( a );
433075b6Spvalchev    aExp = extractFloat64Exp( a );
433075b6Spvalchev    aSign = extractFloat64Sign( a );
433075b6Spvalchev    if ( ( aExp == 0x7FF ) && aSig ) aSign = 0;
433075b6Spvalchev    if ( aExp ) aSig |= LIT64( 0x0010000000000000 );
433075b6Spvalchev    shiftCount = 0x42C - aExp;
433075b6Spvalchev    if ( 0 < shiftCount ) shift64RightJamming( aSig, shiftCount, &aSig );
433075b6Spvalchev    return roundAndPackInt32( aSign, aSig );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev#endif /* !SOFTFLOAT_FOR_GCC */
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of converting the double-precision floating-point value
433075b6Spvalchev`a' to the 32-bit two's complement integer format.  The conversion is
433075b6Spvalchevperformed according to the IEC/IEEE Standard for Binary Floating-Point
433075b6SpvalchevArithmetic, except that the conversion is always rounded toward zero.
433075b6SpvalchevIf `a' is a NaN, the largest positive integer is returned.  Otherwise, if
433075b6Spvalchevthe conversion overflows, the largest integer with the same sign as `a' is
433075b6Spvalchevreturned.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevint32 float64_to_int32_round_to_zero( float64 a )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign;
433075b6Spvalchev    int16 aExp, shiftCount;
433075b6Spvalchev    bits64 aSig, savedASig;
433075b6Spvalchev    int32 z;
433075b6Spvalchev
433075b6Spvalchev    aSig = extractFloat64Frac( a );
433075b6Spvalchev    aExp = extractFloat64Exp( a );
433075b6Spvalchev    aSign = extractFloat64Sign( a );
433075b6Spvalchev    if ( 0x41E < aExp ) {
433075b6Spvalchev        if ( ( aExp == 0x7FF ) && aSig ) aSign = 0;
433075b6Spvalchev        goto invalid;
433075b6Spvalchev    }
433075b6Spvalchev    else if ( aExp < 0x3FF ) {
433075b6Spvalchev        if ( aExp || aSig ) float_set_inexact();
433075b6Spvalchev        return 0;
433075b6Spvalchev    }
433075b6Spvalchev    aSig |= LIT64( 0x0010000000000000 );
433075b6Spvalchev    shiftCount = 0x433 - aExp;
433075b6Spvalchev    savedASig = aSig;
433075b6Spvalchev    aSig >>= shiftCount;
433075b6Spvalchev    z = aSig;
433075b6Spvalchev    if ( aSign ) z = - z;
433075b6Spvalchev    if ( ( z < 0 ) ^ aSign ) {
433075b6Spvalchev invalid:
433075b6Spvalchev        float_raise( float_flag_invalid );
433075b6Spvalchev        return aSign ? (sbits32) 0x80000000 : 0x7FFFFFFF;
433075b6Spvalchev    }
433075b6Spvalchev    if ( ( aSig<<shiftCount ) != savedASig ) {
433075b6Spvalchev        float_set_inexact();
433075b6Spvalchev    }
433075b6Spvalchev    return z;
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev#ifndef SOFTFLOAT_FOR_GCC /* Not needed */
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of converting the double-precision floating-point value
433075b6Spvalchev`a' to the 64-bit two's complement integer format.  The conversion is
433075b6Spvalchevperformed according to the IEC/IEEE Standard for Binary Floating-Point
433075b6SpvalchevArithmetic---which means in particular that the conversion is rounded
433075b6Spvalchevaccording to the current rounding mode.  If `a' is a NaN, the largest
433075b6Spvalchevpositive integer is returned.  Otherwise, if the conversion overflows, the
433075b6Spvalchevlargest integer with the same sign as `a' is returned.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevint64 float64_to_int64( float64 a )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign;
433075b6Spvalchev    int16 aExp, shiftCount;
433075b6Spvalchev    bits64 aSig, aSigExtra;
433075b6Spvalchev
433075b6Spvalchev    aSig = extractFloat64Frac( a );
433075b6Spvalchev    aExp = extractFloat64Exp( a );
433075b6Spvalchev    aSign = extractFloat64Sign( a );
433075b6Spvalchev    if ( aExp ) aSig |= LIT64( 0x0010000000000000 );
433075b6Spvalchev    shiftCount = 0x433 - aExp;
433075b6Spvalchev    if ( shiftCount <= 0 ) {
433075b6Spvalchev        if ( 0x43E < aExp ) {
433075b6Spvalchev            float_raise( float_flag_invalid );
433075b6Spvalchev            if (    ! aSign
433075b6Spvalchev                 || (    ( aExp == 0x7FF )
433075b6Spvalchev                      && ( aSig != LIT64( 0x0010000000000000 ) ) )
433075b6Spvalchev               ) {
433075b6Spvalchev                return LIT64( 0x7FFFFFFFFFFFFFFF );
433075b6Spvalchev            }
433075b6Spvalchev            return (sbits64) LIT64( 0x8000000000000000 );
433075b6Spvalchev        }
433075b6Spvalchev        aSigExtra = 0;
433075b6Spvalchev        aSig <<= - shiftCount;
433075b6Spvalchev    }
433075b6Spvalchev    else {
433075b6Spvalchev        shift64ExtraRightJamming( aSig, 0, shiftCount, &aSig, &aSigExtra );
433075b6Spvalchev    }
433075b6Spvalchev    return roundAndPackInt64( aSign, aSig, aSigExtra );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
a657e0a7Smartynas#ifdef __alpha__
a657e0a7Smartynas/*
a657e0a7Smartynas-------------------------------------------------------------------------------
a657e0a7SmartynasReturns the result of converting the double-precision floating-point value
a657e0a7Smartynas`a' to the 64-bit two's complement integer format.  The conversion is
a657e0a7Smartynasperformed according to the IEC/IEEE Standard for Binary Floating-Point
a657e0a7SmartynasArithmetic---which means in particular that the conversion is rounded
a657e0a7Smartynasaccording to the current rounding mode.  If `a' is a NaN, the invalid
a657e0a7Smartynasexception is raised and zero is returned.
a657e0a7Smartynas-------------------------------------------------------------------------------
a657e0a7Smartynas*/
a657e0a7Smartynasint64 float64_to_int64_no_overflow( float64 a )
a657e0a7Smartynas{
a657e0a7Smartynas    flag aSign;
a657e0a7Smartynas    int16 aExp, shiftCount;
a657e0a7Smartynas    bits64 aSig, aSigExtra;
a657e0a7Smartynas
a657e0a7Smartynas    aSig = extractFloat64Frac( a );
a657e0a7Smartynas    aExp = extractFloat64Exp( a );
a657e0a7Smartynas    aSign = extractFloat64Sign( a );
a657e0a7Smartynas    if ( aExp ) aSig |= LIT64( 0x0010000000000000 );
a657e0a7Smartynas    shiftCount = 0x433 - aExp;
a657e0a7Smartynas    if ( shiftCount <= 0 ) {
a657e0a7Smartynas        if ( 0x43E < aExp ) {
a657e0a7Smartynas            float_raise( float_flag_invalid );
a657e0a7Smartynas            return 0;
a657e0a7Smartynas        }
a657e0a7Smartynas        aSigExtra = 0;
a657e0a7Smartynas        aSig <<= - shiftCount;
a657e0a7Smartynas    }
a657e0a7Smartynas    else {
a657e0a7Smartynas        shift64ExtraRightJamming( aSig, 0, shiftCount, &aSig, &aSigExtra );
a657e0a7Smartynas    }
a657e0a7Smartynas    return roundAndPackInt64NoOverflow( aSign, aSig, aSigExtra );
a657e0a7Smartynas
a657e0a7Smartynas}
a657e0a7Smartynas#endif /* __alpha__ */
a657e0a7Smartynas
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of converting the double-precision floating-point value
433075b6Spvalchev`a' to the 64-bit two's complement integer format.  The conversion is
433075b6Spvalchevperformed according to the IEC/IEEE Standard for Binary Floating-Point
433075b6SpvalchevArithmetic, except that the conversion is always rounded toward zero.
433075b6SpvalchevIf `a' is a NaN, the largest positive integer is returned.  Otherwise, if
433075b6Spvalchevthe conversion overflows, the largest integer with the same sign as `a' is
433075b6Spvalchevreturned.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevint64 float64_to_int64_round_to_zero( float64 a )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign;
433075b6Spvalchev    int16 aExp, shiftCount;
433075b6Spvalchev    bits64 aSig;
433075b6Spvalchev    int64 z;
433075b6Spvalchev
433075b6Spvalchev    aSig = extractFloat64Frac( a );
433075b6Spvalchev    aExp = extractFloat64Exp( a );
433075b6Spvalchev    aSign = extractFloat64Sign( a );
433075b6Spvalchev    if ( aExp ) aSig |= LIT64( 0x0010000000000000 );
433075b6Spvalchev    shiftCount = aExp - 0x433;
433075b6Spvalchev    if ( 0 <= shiftCount ) {
433075b6Spvalchev        if ( 0x43E <= aExp ) {
433075b6Spvalchev            if ( a != LIT64( 0xC3E0000000000000 ) ) {
433075b6Spvalchev                float_raise( float_flag_invalid );
433075b6Spvalchev                if (    ! aSign
433075b6Spvalchev                     || (    ( aExp == 0x7FF )
433075b6Spvalchev                          && ( aSig != LIT64( 0x0010000000000000 ) ) )
433075b6Spvalchev                   ) {
433075b6Spvalchev                    return LIT64( 0x7FFFFFFFFFFFFFFF );
433075b6Spvalchev                }
433075b6Spvalchev            }
433075b6Spvalchev            return (sbits64) LIT64( 0x8000000000000000 );
433075b6Spvalchev        }
433075b6Spvalchev        z = aSig<<shiftCount;
433075b6Spvalchev    }
433075b6Spvalchev    else {
433075b6Spvalchev        if ( aExp < 0x3FE ) {
433075b6Spvalchev            if ( aExp | aSig ) float_set_inexact();
433075b6Spvalchev            return 0;
433075b6Spvalchev        }
433075b6Spvalchev        z = aSig>>( - shiftCount );
433075b6Spvalchev        if ( (bits64) ( aSig<<( shiftCount & 63 ) ) ) {
433075b6Spvalchev            float_set_inexact();
433075b6Spvalchev        }
433075b6Spvalchev    }
433075b6Spvalchev    if ( aSign ) z = - z;
433075b6Spvalchev    return z;
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev#endif /* !SOFTFLOAT_FOR_GCC */
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of converting the double-precision floating-point value
433075b6Spvalchev`a' to the single-precision floating-point format.  The conversion is
433075b6Spvalchevperformed according to the IEC/IEEE Standard for Binary Floating-Point
433075b6SpvalchevArithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevfloat32 float64_to_float32( float64 a )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign;
433075b6Spvalchev    int16 aExp;
433075b6Spvalchev    bits64 aSig;
433075b6Spvalchev    bits32 zSig;
433075b6Spvalchev
433075b6Spvalchev    aSig = extractFloat64Frac( a );
433075b6Spvalchev    aExp = extractFloat64Exp( a );
433075b6Spvalchev    aSign = extractFloat64Sign( a );
433075b6Spvalchev    if ( aExp == 0x7FF ) {
433075b6Spvalchev        if ( aSig ) return commonNaNToFloat32( float64ToCommonNaN( a ) );
433075b6Spvalchev        return packFloat32( aSign, 0xFF, 0 );
433075b6Spvalchev    }
433075b6Spvalchev    shift64RightJamming( aSig, 22, &aSig );
433075b6Spvalchev    zSig = aSig;
433075b6Spvalchev    if ( aExp || zSig ) {
433075b6Spvalchev        zSig |= 0x40000000;
433075b6Spvalchev        aExp -= 0x381;
433075b6Spvalchev    }
433075b6Spvalchev    return roundAndPackFloat32( aSign, aExp, zSig );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev#ifdef FLOATX80
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of converting the double-precision floating-point value
433075b6Spvalchev`a' to the extended double-precision floating-point format.  The conversion
433075b6Spvalchevis performed according to the IEC/IEEE Standard for Binary Floating-Point
433075b6SpvalchevArithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevfloatx80 float64_to_floatx80( float64 a )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign;
433075b6Spvalchev    int16 aExp;
433075b6Spvalchev    bits64 aSig;
433075b6Spvalchev
433075b6Spvalchev    aSig = extractFloat64Frac( a );
433075b6Spvalchev    aExp = extractFloat64Exp( a );
433075b6Spvalchev    aSign = extractFloat64Sign( a );
433075b6Spvalchev    if ( aExp == 0x7FF ) {
433075b6Spvalchev        if ( aSig ) return commonNaNToFloatx80( float64ToCommonNaN( a ) );
433075b6Spvalchev        return packFloatx80( aSign, 0x7FFF, LIT64( 0x8000000000000000 ) );
433075b6Spvalchev    }
433075b6Spvalchev    if ( aExp == 0 ) {
433075b6Spvalchev        if ( aSig == 0 ) return packFloatx80( aSign, 0, 0 );
433075b6Spvalchev        normalizeFloat64Subnormal( aSig, &aExp, &aSig );
433075b6Spvalchev    }
433075b6Spvalchev    return
433075b6Spvalchev        packFloatx80(
433075b6Spvalchev            aSign, aExp + 0x3C00, ( aSig | LIT64( 0x0010000000000000 ) )<<11 );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev#endif
433075b6Spvalchev
433075b6Spvalchev#ifdef FLOAT128
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of converting the double-precision floating-point value
433075b6Spvalchev`a' to the quadruple-precision floating-point format.  The conversion is
433075b6Spvalchevperformed according to the IEC/IEEE Standard for Binary Floating-Point
433075b6SpvalchevArithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevfloat128 float64_to_float128( float64 a )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign;
433075b6Spvalchev    int16 aExp;
433075b6Spvalchev    bits64 aSig, zSig0, zSig1;
433075b6Spvalchev
433075b6Spvalchev    aSig = extractFloat64Frac( a );
433075b6Spvalchev    aExp = extractFloat64Exp( a );
433075b6Spvalchev    aSign = extractFloat64Sign( a );
433075b6Spvalchev    if ( aExp == 0x7FF ) {
433075b6Spvalchev        if ( aSig ) return commonNaNToFloat128( float64ToCommonNaN( a ) );
433075b6Spvalchev        return packFloat128( aSign, 0x7FFF, 0, 0 );
433075b6Spvalchev    }
433075b6Spvalchev    if ( aExp == 0 ) {
433075b6Spvalchev        if ( aSig == 0 ) return packFloat128( aSign, 0, 0, 0 );
433075b6Spvalchev        normalizeFloat64Subnormal( aSig, &aExp, &aSig );
433075b6Spvalchev        --aExp;
433075b6Spvalchev    }
433075b6Spvalchev    shift128Right( aSig, 0, 4, &zSig0, &zSig1 );
433075b6Spvalchev    return packFloat128( aSign, aExp + 0x3C00, zSig0, zSig1 );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev#endif
433075b6Spvalchev
433075b6Spvalchev#ifndef SOFTFLOAT_FOR_GCC
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevRounds the double-precision floating-point value `a' to an integer, and
433075b6Spvalchevreturns the result as a double-precision floating-point value.  The
433075b6Spvalchevoperation is performed according to the IEC/IEEE Standard for Binary
433075b6SpvalchevFloating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevfloat64 float64_round_to_int( float64 a )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign;
433075b6Spvalchev    int16 aExp;
433075b6Spvalchev    bits64 lastBitMask, roundBitsMask;
433075b6Spvalchev    int8 roundingMode;
433075b6Spvalchev    float64 z;
433075b6Spvalchev
433075b6Spvalchev    aExp = extractFloat64Exp( a );
433075b6Spvalchev    if ( 0x433 <= aExp ) {
433075b6Spvalchev        if ( ( aExp == 0x7FF ) && extractFloat64Frac( a ) ) {
433075b6Spvalchev            return propagateFloat64NaN( a, a );
433075b6Spvalchev        }
433075b6Spvalchev        return a;
433075b6Spvalchev    }
433075b6Spvalchev    if ( aExp < 0x3FF ) {
433075b6Spvalchev        if ( (bits64) ( a<<1 ) == 0 ) return a;
433075b6Spvalchev        float_set_inexact();
433075b6Spvalchev        aSign = extractFloat64Sign( a );
433075b6Spvalchev        switch ( float_rounding_mode() ) {
433075b6Spvalchev         case float_round_nearest_even:
433075b6Spvalchev            if ( ( aExp == 0x3FE ) && extractFloat64Frac( a ) ) {
433075b6Spvalchev                return packFloat64( aSign, 0x3FF, 0 );
433075b6Spvalchev            }
433075b6Spvalchev            break;
433075b6Spvalchev         case float_round_down:
433075b6Spvalchev            return aSign ? LIT64( 0xBFF0000000000000 ) : 0;
433075b6Spvalchev         case float_round_up:
433075b6Spvalchev            return
433075b6Spvalchev            aSign ? LIT64( 0x8000000000000000 ) : LIT64( 0x3FF0000000000000 );
433075b6Spvalchev        }
433075b6Spvalchev        return packFloat64( aSign, 0, 0 );
433075b6Spvalchev    }
433075b6Spvalchev    lastBitMask = 1;
433075b6Spvalchev    lastBitMask <<= 0x433 - aExp;
433075b6Spvalchev    roundBitsMask = lastBitMask - 1;
433075b6Spvalchev    z = a;
433075b6Spvalchev    roundingMode = float_rounding_mode();
433075b6Spvalchev    if ( roundingMode == float_round_nearest_even ) {
433075b6Spvalchev        z += lastBitMask>>1;
433075b6Spvalchev        if ( ( z & roundBitsMask ) == 0 ) z &= ~ lastBitMask;
433075b6Spvalchev    }
433075b6Spvalchev    else if ( roundingMode != float_round_to_zero ) {
433075b6Spvalchev        if ( extractFloat64Sign( z ) ^ ( roundingMode == float_round_up ) ) {
433075b6Spvalchev            z += roundBitsMask;
433075b6Spvalchev        }
433075b6Spvalchev    }
433075b6Spvalchev    z &= ~ roundBitsMask;
433075b6Spvalchev    if ( z != a ) float_set_inexact();
433075b6Spvalchev    return z;
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev#endif
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of adding the absolute values of the double-precision
433075b6Spvalchevfloating-point values `a' and `b'.  If `zSign' is 1, the sum is negated
433075b6Spvalchevbefore being returned.  `zSign' is ignored if the result is a NaN.
433075b6SpvalchevThe addition is performed according to the IEC/IEEE Standard for Binary
433075b6SpvalchevFloating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevstatic float64 addFloat64Sigs( float64 a, float64 b, flag zSign )
433075b6Spvalchev{
433075b6Spvalchev    int16 aExp, bExp, zExp;
433075b6Spvalchev    bits64 aSig, bSig, zSig;
433075b6Spvalchev    int16 expDiff;
433075b6Spvalchev
433075b6Spvalchev    aSig = extractFloat64Frac( a );
433075b6Spvalchev    aExp = extractFloat64Exp( a );
433075b6Spvalchev    bSig = extractFloat64Frac( b );
433075b6Spvalchev    bExp = extractFloat64Exp( b );
433075b6Spvalchev    expDiff = aExp - bExp;
433075b6Spvalchev    aSig <<= 9;
433075b6Spvalchev    bSig <<= 9;
433075b6Spvalchev    if ( 0 < expDiff ) {
433075b6Spvalchev        if ( aExp == 0x7FF ) {
433075b6Spvalchev            if ( aSig ) return propagateFloat64NaN( a, b );
433075b6Spvalchev            return a;
433075b6Spvalchev        }
433075b6Spvalchev        if ( bExp == 0 ) {
433075b6Spvalchev            --expDiff;
433075b6Spvalchev        }
433075b6Spvalchev        else {
433075b6Spvalchev            bSig |= LIT64( 0x2000000000000000 );
433075b6Spvalchev        }
433075b6Spvalchev        shift64RightJamming( bSig, expDiff, &bSig );
433075b6Spvalchev        zExp = aExp;
433075b6Spvalchev    }
433075b6Spvalchev    else if ( expDiff < 0 ) {
433075b6Spvalchev        if ( bExp == 0x7FF ) {
433075b6Spvalchev            if ( bSig ) return propagateFloat64NaN( a, b );
433075b6Spvalchev            return packFloat64( zSign, 0x7FF, 0 );
433075b6Spvalchev        }
433075b6Spvalchev        if ( aExp == 0 ) {
433075b6Spvalchev            ++expDiff;
433075b6Spvalchev        }
433075b6Spvalchev        else {
433075b6Spvalchev            aSig |= LIT64( 0x2000000000000000 );
433075b6Spvalchev        }
433075b6Spvalchev        shift64RightJamming( aSig, - expDiff, &aSig );
433075b6Spvalchev        zExp = bExp;
433075b6Spvalchev    }
433075b6Spvalchev    else {
433075b6Spvalchev        if ( aExp == 0x7FF ) {
433075b6Spvalchev            if ( aSig | bSig ) return propagateFloat64NaN( a, b );
433075b6Spvalchev            return a;
433075b6Spvalchev        }
433075b6Spvalchev        if ( aExp == 0 ) return packFloat64( zSign, 0, ( aSig + bSig )>>9 );
433075b6Spvalchev        zSig = LIT64( 0x4000000000000000 ) + aSig + bSig;
433075b6Spvalchev        zExp = aExp;
433075b6Spvalchev        goto roundAndPack;
433075b6Spvalchev    }
433075b6Spvalchev    aSig |= LIT64( 0x2000000000000000 );
433075b6Spvalchev    zSig = ( aSig + bSig )<<1;
433075b6Spvalchev    --zExp;
433075b6Spvalchev    if ( (sbits64) zSig < 0 ) {
433075b6Spvalchev        zSig = aSig + bSig;
433075b6Spvalchev        ++zExp;
433075b6Spvalchev    }
433075b6Spvalchev roundAndPack:
433075b6Spvalchev    return roundAndPackFloat64( zSign, zExp, zSig );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of subtracting the absolute values of the double-
433075b6Spvalchevprecision floating-point values `a' and `b'.  If `zSign' is 1, the
433075b6Spvalchevdifference is negated before being returned.  `zSign' is ignored if the
433075b6Spvalchevresult is a NaN.  The subtraction is performed according to the IEC/IEEE
433075b6SpvalchevStandard for Binary Floating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevstatic float64 subFloat64Sigs( float64 a, float64 b, flag zSign )
433075b6Spvalchev{
433075b6Spvalchev    int16 aExp, bExp, zExp;
433075b6Spvalchev    bits64 aSig, bSig, zSig;
433075b6Spvalchev    int16 expDiff;
433075b6Spvalchev
433075b6Spvalchev    aSig = extractFloat64Frac( a );
433075b6Spvalchev    aExp = extractFloat64Exp( a );
433075b6Spvalchev    bSig = extractFloat64Frac( b );
433075b6Spvalchev    bExp = extractFloat64Exp( b );
433075b6Spvalchev    expDiff = aExp - bExp;
433075b6Spvalchev    aSig <<= 10;
433075b6Spvalchev    bSig <<= 10;
433075b6Spvalchev    if ( 0 < expDiff ) goto aExpBigger;
433075b6Spvalchev    if ( expDiff < 0 ) goto bExpBigger;
433075b6Spvalchev    if ( aExp == 0x7FF ) {
433075b6Spvalchev        if ( aSig | bSig ) return propagateFloat64NaN( a, b );
433075b6Spvalchev        float_raise( float_flag_invalid );
433075b6Spvalchev        return float64_default_nan;
433075b6Spvalchev    }
433075b6Spvalchev    if ( aExp == 0 ) {
433075b6Spvalchev        aExp = 1;
433075b6Spvalchev        bExp = 1;
433075b6Spvalchev    }
433075b6Spvalchev    if ( bSig < aSig ) goto aBigger;
433075b6Spvalchev    if ( aSig < bSig ) goto bBigger;
433075b6Spvalchev    return packFloat64( float_rounding_mode() == float_round_down, 0, 0 );
433075b6Spvalchev bExpBigger:
433075b6Spvalchev    if ( bExp == 0x7FF ) {
433075b6Spvalchev        if ( bSig ) return propagateFloat64NaN( a, b );
433075b6Spvalchev        return packFloat64( zSign ^ 1, 0x7FF, 0 );
433075b6Spvalchev    }
433075b6Spvalchev    if ( aExp == 0 ) {
433075b6Spvalchev        ++expDiff;
433075b6Spvalchev    }
433075b6Spvalchev    else {
433075b6Spvalchev        aSig |= LIT64( 0x4000000000000000 );
433075b6Spvalchev    }
433075b6Spvalchev    shift64RightJamming( aSig, - expDiff, &aSig );
433075b6Spvalchev    bSig |= LIT64( 0x4000000000000000 );
433075b6Spvalchev bBigger:
433075b6Spvalchev    zSig = bSig - aSig;
433075b6Spvalchev    zExp = bExp;
433075b6Spvalchev    zSign ^= 1;
433075b6Spvalchev    goto normalizeRoundAndPack;
433075b6Spvalchev aExpBigger:
433075b6Spvalchev    if ( aExp == 0x7FF ) {
433075b6Spvalchev        if ( aSig ) return propagateFloat64NaN( a, b );
433075b6Spvalchev        return a;
433075b6Spvalchev    }
433075b6Spvalchev    if ( bExp == 0 ) {
433075b6Spvalchev        --expDiff;
433075b6Spvalchev    }
433075b6Spvalchev    else {
433075b6Spvalchev        bSig |= LIT64( 0x4000000000000000 );
433075b6Spvalchev    }
433075b6Spvalchev    shift64RightJamming( bSig, expDiff, &bSig );
433075b6Spvalchev    aSig |= LIT64( 0x4000000000000000 );
433075b6Spvalchev aBigger:
433075b6Spvalchev    zSig = aSig - bSig;
433075b6Spvalchev    zExp = aExp;
433075b6Spvalchev normalizeRoundAndPack:
433075b6Spvalchev    --zExp;
433075b6Spvalchev    return normalizeRoundAndPackFloat64( zSign, zExp, zSig );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of adding the double-precision floating-point values `a'
433075b6Spvalchevand `b'.  The operation is performed according to the IEC/IEEE Standard for
433075b6SpvalchevBinary Floating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevfloat64 float64_add( float64 a, float64 b )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign, bSign;
433075b6Spvalchev
433075b6Spvalchev    aSign = extractFloat64Sign( a );
433075b6Spvalchev    bSign = extractFloat64Sign( b );
433075b6Spvalchev    if ( aSign == bSign ) {
433075b6Spvalchev        return addFloat64Sigs( a, b, aSign );
433075b6Spvalchev    }
433075b6Spvalchev    else {
433075b6Spvalchev        return subFloat64Sigs( a, b, aSign );
433075b6Spvalchev    }
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of subtracting the double-precision floating-point values
433075b6Spvalchev`a' and `b'.  The operation is performed according to the IEC/IEEE Standard
433075b6Spvalchevfor Binary Floating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevfloat64 float64_sub( float64 a, float64 b )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign, bSign;
433075b6Spvalchev
433075b6Spvalchev    aSign = extractFloat64Sign( a );
433075b6Spvalchev    bSign = extractFloat64Sign( b );
433075b6Spvalchev    if ( aSign == bSign ) {
433075b6Spvalchev        return subFloat64Sigs( a, b, aSign );
433075b6Spvalchev    }
433075b6Spvalchev    else {
433075b6Spvalchev        return addFloat64Sigs( a, b, aSign );
433075b6Spvalchev    }
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of multiplying the double-precision floating-point values
433075b6Spvalchev`a' and `b'.  The operation is performed according to the IEC/IEEE Standard
433075b6Spvalchevfor Binary Floating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevfloat64 float64_mul( float64 a, float64 b )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign, bSign, zSign;
433075b6Spvalchev    int16 aExp, bExp, zExp;
433075b6Spvalchev    bits64 aSig, bSig, zSig0, zSig1;
433075b6Spvalchev
433075b6Spvalchev    aSig = extractFloat64Frac( a );
433075b6Spvalchev    aExp = extractFloat64Exp( a );
433075b6Spvalchev    aSign = extractFloat64Sign( a );
433075b6Spvalchev    bSig = extractFloat64Frac( b );
433075b6Spvalchev    bExp = extractFloat64Exp( b );
433075b6Spvalchev    bSign = extractFloat64Sign( b );
433075b6Spvalchev    zSign = aSign ^ bSign;
433075b6Spvalchev    if ( aExp == 0x7FF ) {
433075b6Spvalchev        if ( aSig || ( ( bExp == 0x7FF ) && bSig ) ) {
433075b6Spvalchev            return propagateFloat64NaN( a, b );
433075b6Spvalchev        }
433075b6Spvalchev        if ( ( bExp | bSig ) == 0 ) {
433075b6Spvalchev            float_raise( float_flag_invalid );
433075b6Spvalchev            return float64_default_nan;
433075b6Spvalchev        }
433075b6Spvalchev        return packFloat64( zSign, 0x7FF, 0 );
433075b6Spvalchev    }
433075b6Spvalchev    if ( bExp == 0x7FF ) {
433075b6Spvalchev        if ( bSig ) return propagateFloat64NaN( a, b );
433075b6Spvalchev        if ( ( aExp | aSig ) == 0 ) {
433075b6Spvalchev            float_raise( float_flag_invalid );
433075b6Spvalchev            return float64_default_nan;
433075b6Spvalchev        }
433075b6Spvalchev        return packFloat64( zSign, 0x7FF, 0 );
433075b6Spvalchev    }
433075b6Spvalchev    if ( aExp == 0 ) {
433075b6Spvalchev        if ( aSig == 0 ) return packFloat64( zSign, 0, 0 );
433075b6Spvalchev        normalizeFloat64Subnormal( aSig, &aExp, &aSig );
433075b6Spvalchev    }
433075b6Spvalchev    if ( bExp == 0 ) {
433075b6Spvalchev        if ( bSig == 0 ) return packFloat64( zSign, 0, 0 );
433075b6Spvalchev        normalizeFloat64Subnormal( bSig, &bExp, &bSig );
433075b6Spvalchev    }
433075b6Spvalchev    zExp = aExp + bExp - 0x3FF;
433075b6Spvalchev    aSig = ( aSig | LIT64( 0x0010000000000000 ) )<<10;
433075b6Spvalchev    bSig = ( bSig | LIT64( 0x0010000000000000 ) )<<11;
433075b6Spvalchev    mul64To128( aSig, bSig, &zSig0, &zSig1 );
433075b6Spvalchev    zSig0 |= ( zSig1 != 0 );
433075b6Spvalchev    if ( 0 <= (sbits64) ( zSig0<<1 ) ) {
433075b6Spvalchev        zSig0 <<= 1;
433075b6Spvalchev        --zExp;
433075b6Spvalchev    }
433075b6Spvalchev    return roundAndPackFloat64( zSign, zExp, zSig0 );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of dividing the double-precision floating-point value `a'
433075b6Spvalchevby the corresponding value `b'.  The operation is performed according to
433075b6Spvalchevthe IEC/IEEE Standard for Binary Floating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevfloat64 float64_div( float64 a, float64 b )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign, bSign, zSign;
433075b6Spvalchev    int16 aExp, bExp, zExp;
433075b6Spvalchev    bits64 aSig, bSig, zSig;
433075b6Spvalchev    bits64 rem0, rem1;
433075b6Spvalchev    bits64 term0, term1;
433075b6Spvalchev
433075b6Spvalchev    aSig = extractFloat64Frac( a );
433075b6Spvalchev    aExp = extractFloat64Exp( a );
433075b6Spvalchev    aSign = extractFloat64Sign( a );
433075b6Spvalchev    bSig = extractFloat64Frac( b );
433075b6Spvalchev    bExp = extractFloat64Exp( b );
433075b6Spvalchev    bSign = extractFloat64Sign( b );
433075b6Spvalchev    zSign = aSign ^ bSign;
433075b6Spvalchev    if ( aExp == 0x7FF ) {
433075b6Spvalchev        if ( aSig ) return propagateFloat64NaN( a, b );
433075b6Spvalchev        if ( bExp == 0x7FF ) {
433075b6Spvalchev            if ( bSig ) return propagateFloat64NaN( a, b );
433075b6Spvalchev            float_raise( float_flag_invalid );
433075b6Spvalchev            return float64_default_nan;
433075b6Spvalchev        }
433075b6Spvalchev        return packFloat64( zSign, 0x7FF, 0 );
433075b6Spvalchev    }
433075b6Spvalchev    if ( bExp == 0x7FF ) {
433075b6Spvalchev        if ( bSig ) return propagateFloat64NaN( a, b );
433075b6Spvalchev        return packFloat64( zSign, 0, 0 );
433075b6Spvalchev    }
433075b6Spvalchev    if ( bExp == 0 ) {
433075b6Spvalchev        if ( bSig == 0 ) {
433075b6Spvalchev            if ( ( aExp | aSig ) == 0 ) {
433075b6Spvalchev                float_raise( float_flag_invalid );
433075b6Spvalchev                return float64_default_nan;
433075b6Spvalchev            }
433075b6Spvalchev            float_raise( float_flag_divbyzero );
433075b6Spvalchev            return packFloat64( zSign, 0x7FF, 0 );
433075b6Spvalchev        }
433075b6Spvalchev        normalizeFloat64Subnormal( bSig, &bExp, &bSig );
433075b6Spvalchev    }
433075b6Spvalchev    if ( aExp == 0 ) {
433075b6Spvalchev        if ( aSig == 0 ) return packFloat64( zSign, 0, 0 );
433075b6Spvalchev        normalizeFloat64Subnormal( aSig, &aExp, &aSig );
433075b6Spvalchev    }
433075b6Spvalchev    zExp = aExp - bExp + 0x3FD;
433075b6Spvalchev    aSig = ( aSig | LIT64( 0x0010000000000000 ) )<<10;
433075b6Spvalchev    bSig = ( bSig | LIT64( 0x0010000000000000 ) )<<11;
433075b6Spvalchev    if ( bSig <= ( aSig + aSig ) ) {
433075b6Spvalchev        aSig >>= 1;
433075b6Spvalchev        ++zExp;
433075b6Spvalchev    }
433075b6Spvalchev    zSig = estimateDiv128To64( aSig, 0, bSig );
433075b6Spvalchev    if ( ( zSig & 0x1FF ) <= 2 ) {
433075b6Spvalchev        mul64To128( bSig, zSig, &term0, &term1 );
433075b6Spvalchev        sub128( aSig, 0, term0, term1, &rem0, &rem1 );
433075b6Spvalchev        while ( (sbits64) rem0 < 0 ) {
433075b6Spvalchev            --zSig;
433075b6Spvalchev            add128( rem0, rem1, 0, bSig, &rem0, &rem1 );
433075b6Spvalchev        }
433075b6Spvalchev        zSig |= ( rem1 != 0 );
433075b6Spvalchev    }
433075b6Spvalchev    return roundAndPackFloat64( zSign, zExp, zSig );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev#ifndef SOFTFLOAT_FOR_GCC
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the remainder of the double-precision floating-point value `a'
433075b6Spvalchevwith respect to the corresponding value `b'.  The operation is performed
433075b6Spvalchevaccording to the IEC/IEEE Standard for Binary Floating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevfloat64 float64_rem( float64 a, float64 b )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign, bSign, zSign;
433075b6Spvalchev    int16 aExp, bExp, expDiff;
433075b6Spvalchev    bits64 aSig, bSig;
433075b6Spvalchev    bits64 q, alternateASig;
433075b6Spvalchev    sbits64 sigMean;
433075b6Spvalchev
433075b6Spvalchev    aSig = extractFloat64Frac( a );
433075b6Spvalchev    aExp = extractFloat64Exp( a );
433075b6Spvalchev    aSign = extractFloat64Sign( a );
433075b6Spvalchev    bSig = extractFloat64Frac( b );
433075b6Spvalchev    bExp = extractFloat64Exp( b );
433075b6Spvalchev    bSign = extractFloat64Sign( b );
433075b6Spvalchev    if ( aExp == 0x7FF ) {
433075b6Spvalchev        if ( aSig || ( ( bExp == 0x7FF ) && bSig ) ) {
433075b6Spvalchev            return propagateFloat64NaN( a, b );
433075b6Spvalchev        }
433075b6Spvalchev        float_raise( float_flag_invalid );
433075b6Spvalchev        return float64_default_nan;
433075b6Spvalchev    }
433075b6Spvalchev    if ( bExp == 0x7FF ) {
433075b6Spvalchev        if ( bSig ) return propagateFloat64NaN( a, b );
433075b6Spvalchev        return a;
433075b6Spvalchev    }
433075b6Spvalchev    if ( bExp == 0 ) {
433075b6Spvalchev        if ( bSig == 0 ) {
433075b6Spvalchev            float_raise( float_flag_invalid );
433075b6Spvalchev            return float64_default_nan;
433075b6Spvalchev        }
433075b6Spvalchev        normalizeFloat64Subnormal( bSig, &bExp, &bSig );
433075b6Spvalchev    }
433075b6Spvalchev    if ( aExp == 0 ) {
433075b6Spvalchev        if ( aSig == 0 ) return a;
433075b6Spvalchev        normalizeFloat64Subnormal( aSig, &aExp, &aSig );
433075b6Spvalchev    }
433075b6Spvalchev    expDiff = aExp - bExp;
433075b6Spvalchev    aSig = ( aSig | LIT64( 0x0010000000000000 ) )<<11;
433075b6Spvalchev    bSig = ( bSig | LIT64( 0x0010000000000000 ) )<<11;
433075b6Spvalchev    if ( expDiff < 0 ) {
433075b6Spvalchev        if ( expDiff < -1 ) return a;
433075b6Spvalchev        aSig >>= 1;
433075b6Spvalchev    }
433075b6Spvalchev    q = ( bSig <= aSig );
433075b6Spvalchev    if ( q ) aSig -= bSig;
433075b6Spvalchev    expDiff -= 64;
433075b6Spvalchev    while ( 0 < expDiff ) {
433075b6Spvalchev        q = estimateDiv128To64( aSig, 0, bSig );
433075b6Spvalchev        q = ( 2 < q ) ? q - 2 : 0;
433075b6Spvalchev        aSig = - ( ( bSig>>2 ) * q );
433075b6Spvalchev        expDiff -= 62;
433075b6Spvalchev    }
433075b6Spvalchev    expDiff += 64;
433075b6Spvalchev    if ( 0 < expDiff ) {
433075b6Spvalchev        q = estimateDiv128To64( aSig, 0, bSig );
433075b6Spvalchev        q = ( 2 < q ) ? q - 2 : 0;
433075b6Spvalchev        q >>= 64 - expDiff;
433075b6Spvalchev        bSig >>= 2;
433075b6Spvalchev        aSig = ( ( aSig>>1 )<<( expDiff - 1 ) ) - bSig * q;
433075b6Spvalchev    }
433075b6Spvalchev    else {
433075b6Spvalchev        aSig >>= 2;
433075b6Spvalchev        bSig >>= 2;
433075b6Spvalchev    }
433075b6Spvalchev    do {
433075b6Spvalchev        alternateASig = aSig;
433075b6Spvalchev        ++q;
433075b6Spvalchev        aSig -= bSig;
433075b6Spvalchev    } while ( 0 <= (sbits64) aSig );
433075b6Spvalchev    sigMean = aSig + alternateASig;
433075b6Spvalchev    if ( ( sigMean < 0 ) || ( ( sigMean == 0 ) && ( q & 1 ) ) ) {
433075b6Spvalchev        aSig = alternateASig;
433075b6Spvalchev    }
433075b6Spvalchev    zSign = ( (sbits64) aSig < 0 );
433075b6Spvalchev    if ( zSign ) aSig = - aSig;
433075b6Spvalchev    return normalizeRoundAndPackFloat64( aSign ^ zSign, bExp, aSig );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the square root of the double-precision floating-point value `a'.
433075b6SpvalchevThe operation is performed according to the IEC/IEEE Standard for Binary
433075b6SpvalchevFloating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevfloat64 float64_sqrt( float64 a )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign;
433075b6Spvalchev    int16 aExp, zExp;
433075b6Spvalchev    bits64 aSig, zSig, doubleZSig;
433075b6Spvalchev    bits64 rem0, rem1, term0, term1;
433075b6Spvalchev
433075b6Spvalchev    aSig = extractFloat64Frac( a );
433075b6Spvalchev    aExp = extractFloat64Exp( a );
433075b6Spvalchev    aSign = extractFloat64Sign( a );
433075b6Spvalchev    if ( aExp == 0x7FF ) {
433075b6Spvalchev        if ( aSig ) return propagateFloat64NaN( a, a );
433075b6Spvalchev        if ( ! aSign ) return a;
433075b6Spvalchev        float_raise( float_flag_invalid );
433075b6Spvalchev        return float64_default_nan;
433075b6Spvalchev    }
433075b6Spvalchev    if ( aSign ) {
433075b6Spvalchev        if ( ( aExp | aSig ) == 0 ) return a;
433075b6Spvalchev        float_raise( float_flag_invalid );
433075b6Spvalchev        return float64_default_nan;
433075b6Spvalchev    }
433075b6Spvalchev    if ( aExp == 0 ) {
433075b6Spvalchev        if ( aSig == 0 ) return 0;
433075b6Spvalchev        normalizeFloat64Subnormal( aSig, &aExp, &aSig );
433075b6Spvalchev    }
433075b6Spvalchev    zExp = ( ( aExp - 0x3FF )>>1 ) + 0x3FE;
433075b6Spvalchev    aSig |= LIT64( 0x0010000000000000 );
433075b6Spvalchev    zSig = estimateSqrt32( aExp, aSig>>21 );
433075b6Spvalchev    aSig <<= 9 - ( aExp & 1 );
433075b6Spvalchev    zSig = estimateDiv128To64( aSig, 0, zSig<<32 ) + ( zSig<<30 );
433075b6Spvalchev    if ( ( zSig & 0x1FF ) <= 5 ) {
433075b6Spvalchev        doubleZSig = zSig<<1;
433075b6Spvalchev        mul64To128( zSig, zSig, &term0, &term1 );
433075b6Spvalchev        sub128( aSig, 0, term0, term1, &rem0, &rem1 );
433075b6Spvalchev        while ( (sbits64) rem0 < 0 ) {
433075b6Spvalchev            --zSig;
433075b6Spvalchev            doubleZSig -= 2;
433075b6Spvalchev            add128( rem0, rem1, zSig>>63, doubleZSig | 1, &rem0, &rem1 );
433075b6Spvalchev        }
433075b6Spvalchev        zSig |= ( ( rem0 | rem1 ) != 0 );
433075b6Spvalchev    }
433075b6Spvalchev    return roundAndPackFloat64( 0, zExp, zSig );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev#endif
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns 1 if the double-precision floating-point value `a' is equal to the
433075b6Spvalchevcorresponding value `b', and 0 otherwise.  The comparison is performed
433075b6Spvalchevaccording to the IEC/IEEE Standard for Binary Floating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevflag float64_eq( float64 a, float64 b )
433075b6Spvalchev{
433075b6Spvalchev
433075b6Spvalchev    if (    ( ( extractFloat64Exp( a ) == 0x7FF ) && extractFloat64Frac( a ) )
433075b6Spvalchev         || ( ( extractFloat64Exp( b ) == 0x7FF ) && extractFloat64Frac( b ) )
433075b6Spvalchev       ) {
433075b6Spvalchev        if ( float64_is_signaling_nan( a ) || float64_is_signaling_nan( b ) ) {
433075b6Spvalchev            float_raise( float_flag_invalid );
433075b6Spvalchev        }
433075b6Spvalchev        return 0;
433075b6Spvalchev    }
433075b6Spvalchev    return ( a == b ) ||
433075b6Spvalchev	( (bits64) ( ( FLOAT64_DEMANGLE(a) | FLOAT64_DEMANGLE(b) )<<1 ) == 0 );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns 1 if the double-precision floating-point value `a' is less than or
433075b6Spvalchevequal to the corresponding value `b', and 0 otherwise.  The comparison is
433075b6Spvalchevperformed according to the IEC/IEEE Standard for Binary Floating-Point
433075b6SpvalchevArithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevflag float64_le( float64 a, float64 b )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign, bSign;
433075b6Spvalchev
433075b6Spvalchev    if (    ( ( extractFloat64Exp( a ) == 0x7FF ) && extractFloat64Frac( a ) )
433075b6Spvalchev         || ( ( extractFloat64Exp( b ) == 0x7FF ) && extractFloat64Frac( b ) )
433075b6Spvalchev       ) {
433075b6Spvalchev        float_raise( float_flag_invalid );
433075b6Spvalchev        return 0;
433075b6Spvalchev    }
433075b6Spvalchev    aSign = extractFloat64Sign( a );
433075b6Spvalchev    bSign = extractFloat64Sign( b );
433075b6Spvalchev    if ( aSign != bSign )
433075b6Spvalchev	return aSign ||
433075b6Spvalchev	    ( (bits64) ( ( FLOAT64_DEMANGLE(a) | FLOAT64_DEMANGLE(b) )<<1 ) ==
433075b6Spvalchev	      0 );
433075b6Spvalchev    return ( a == b ) ||
433075b6Spvalchev	( aSign ^ ( FLOAT64_DEMANGLE(a) < FLOAT64_DEMANGLE(b) ) );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns 1 if the double-precision floating-point value `a' is less than
433075b6Spvalchevthe corresponding value `b', and 0 otherwise.  The comparison is performed
433075b6Spvalchevaccording to the IEC/IEEE Standard for Binary Floating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevflag float64_lt( float64 a, float64 b )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign, bSign;
433075b6Spvalchev
433075b6Spvalchev    if (    ( ( extractFloat64Exp( a ) == 0x7FF ) && extractFloat64Frac( a ) )
433075b6Spvalchev         || ( ( extractFloat64Exp( b ) == 0x7FF ) && extractFloat64Frac( b ) )
433075b6Spvalchev       ) {
433075b6Spvalchev        float_raise( float_flag_invalid );
433075b6Spvalchev        return 0;
433075b6Spvalchev    }
433075b6Spvalchev    aSign = extractFloat64Sign( a );
433075b6Spvalchev    bSign = extractFloat64Sign( b );
433075b6Spvalchev    if ( aSign != bSign )
433075b6Spvalchev	return aSign &&
433075b6Spvalchev	    ( (bits64) ( ( FLOAT64_DEMANGLE(a) | FLOAT64_DEMANGLE(b) )<<1 ) !=
433075b6Spvalchev	      0 );
433075b6Spvalchev    return ( a != b ) &&
433075b6Spvalchev	( aSign ^ ( FLOAT64_DEMANGLE(a) < FLOAT64_DEMANGLE(b) ) );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev#ifndef SOFTFLOAT_FOR_GCC
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns 1 if the double-precision floating-point value `a' is equal to the
433075b6Spvalchevcorresponding value `b', and 0 otherwise.  The invalid exception is raised
433075b6Spvalchevif either operand is a NaN.  Otherwise, the comparison is performed
433075b6Spvalchevaccording to the IEC/IEEE Standard for Binary Floating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevflag float64_eq_signaling( float64 a, float64 b )
433075b6Spvalchev{
433075b6Spvalchev
433075b6Spvalchev    if (    ( ( extractFloat64Exp( a ) == 0x7FF ) && extractFloat64Frac( a ) )
433075b6Spvalchev         || ( ( extractFloat64Exp( b ) == 0x7FF ) && extractFloat64Frac( b ) )
433075b6Spvalchev       ) {
433075b6Spvalchev        float_raise( float_flag_invalid );
433075b6Spvalchev        return 0;
433075b6Spvalchev    }
433075b6Spvalchev    return ( a == b ) || ( (bits64) ( ( a | b )<<1 ) == 0 );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns 1 if the double-precision floating-point value `a' is less than or
433075b6Spvalchevequal to the corresponding value `b', and 0 otherwise.  Quiet NaNs do not
433075b6Spvalchevcause an exception.  Otherwise, the comparison is performed according to the
433075b6SpvalchevIEC/IEEE Standard for Binary Floating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevflag float64_le_quiet( float64 a, float64 b )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign, bSign;
433075b6Spvalchev
433075b6Spvalchev    if (    ( ( extractFloat64Exp( a ) == 0x7FF ) && extractFloat64Frac( a ) )
433075b6Spvalchev         || ( ( extractFloat64Exp( b ) == 0x7FF ) && extractFloat64Frac( b ) )
433075b6Spvalchev       ) {
433075b6Spvalchev        if ( float64_is_signaling_nan( a ) || float64_is_signaling_nan( b ) ) {
433075b6Spvalchev            float_raise( float_flag_invalid );
433075b6Spvalchev        }
433075b6Spvalchev        return 0;
433075b6Spvalchev    }
433075b6Spvalchev    aSign = extractFloat64Sign( a );
433075b6Spvalchev    bSign = extractFloat64Sign( b );
433075b6Spvalchev    if ( aSign != bSign ) return aSign || ( (bits64) ( ( a | b )<<1 ) == 0 );
433075b6Spvalchev    return ( a == b ) || ( aSign ^ ( a < b ) );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns 1 if the double-precision floating-point value `a' is less than
433075b6Spvalchevthe corresponding value `b', and 0 otherwise.  Quiet NaNs do not cause an
433075b6Spvalchevexception.  Otherwise, the comparison is performed according to the IEC/IEEE
433075b6SpvalchevStandard for Binary Floating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevflag float64_lt_quiet( float64 a, float64 b )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign, bSign;
433075b6Spvalchev
433075b6Spvalchev    if (    ( ( extractFloat64Exp( a ) == 0x7FF ) && extractFloat64Frac( a ) )
433075b6Spvalchev         || ( ( extractFloat64Exp( b ) == 0x7FF ) && extractFloat64Frac( b ) )
433075b6Spvalchev       ) {
433075b6Spvalchev        if ( float64_is_signaling_nan( a ) || float64_is_signaling_nan( b ) ) {
433075b6Spvalchev            float_raise( float_flag_invalid );
433075b6Spvalchev        }
433075b6Spvalchev        return 0;
433075b6Spvalchev    }
433075b6Spvalchev    aSign = extractFloat64Sign( a );
433075b6Spvalchev    bSign = extractFloat64Sign( b );
433075b6Spvalchev    if ( aSign != bSign ) return aSign && ( (bits64) ( ( a | b )<<1 ) != 0 );
433075b6Spvalchev    return ( a != b ) && ( aSign ^ ( a < b ) );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev#endif
433075b6Spvalchev
433075b6Spvalchev#ifdef FLOATX80
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of converting the extended double-precision floating-
433075b6Spvalchevpoint value `a' to the 32-bit two's complement integer format.  The
433075b6Spvalchevconversion is performed according to the IEC/IEEE Standard for Binary
433075b6SpvalchevFloating-Point Arithmetic---which means in particular that the conversion
433075b6Spvalchevis rounded according to the current rounding mode.  If `a' is a NaN, the
433075b6Spvalchevlargest positive integer is returned.  Otherwise, if the conversion
433075b6Spvalchevoverflows, the largest integer with the same sign as `a' is returned.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevint32 floatx80_to_int32( floatx80 a )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign;
433075b6Spvalchev    int32 aExp, shiftCount;
433075b6Spvalchev    bits64 aSig;
433075b6Spvalchev
433075b6Spvalchev    aSig = extractFloatx80Frac( a );
433075b6Spvalchev    aExp = extractFloatx80Exp( a );
433075b6Spvalchev    aSign = extractFloatx80Sign( a );
433075b6Spvalchev    if ( ( aExp == 0x7FFF ) && (bits64) ( aSig<<1 ) ) aSign = 0;
433075b6Spvalchev    shiftCount = 0x4037 - aExp;
433075b6Spvalchev    if ( shiftCount <= 0 ) shiftCount = 1;
433075b6Spvalchev    shift64RightJamming( aSig, shiftCount, &aSig );
433075b6Spvalchev    return roundAndPackInt32( aSign, aSig );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of converting the extended double-precision floating-
433075b6Spvalchevpoint value `a' to the 32-bit two's complement integer format.  The
433075b6Spvalchevconversion is performed according to the IEC/IEEE Standard for Binary
433075b6SpvalchevFloating-Point Arithmetic, except that the conversion is always rounded
433075b6Spvalchevtoward zero.  If `a' is a NaN, the largest positive integer is returned.
433075b6SpvalchevOtherwise, if the conversion overflows, the largest integer with the same
433075b6Spvalchevsign as `a' is returned.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevint32 floatx80_to_int32_round_to_zero( floatx80 a )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign;
433075b6Spvalchev    int32 aExp, shiftCount;
433075b6Spvalchev    bits64 aSig, savedASig;
433075b6Spvalchev    int32 z;
433075b6Spvalchev
433075b6Spvalchev    aSig = extractFloatx80Frac( a );
433075b6Spvalchev    aExp = extractFloatx80Exp( a );
433075b6Spvalchev    aSign = extractFloatx80Sign( a );
433075b6Spvalchev    if ( 0x401E < aExp ) {
433075b6Spvalchev        if ( ( aExp == 0x7FFF ) && (bits64) ( aSig<<1 ) ) aSign = 0;
433075b6Spvalchev        goto invalid;
433075b6Spvalchev    }
433075b6Spvalchev    else if ( aExp < 0x3FFF ) {
433075b6Spvalchev        if ( aExp || aSig ) float_set_inexact();
433075b6Spvalchev        return 0;
433075b6Spvalchev    }
433075b6Spvalchev    shiftCount = 0x403E - aExp;
433075b6Spvalchev    savedASig = aSig;
433075b6Spvalchev    aSig >>= shiftCount;
433075b6Spvalchev    z = aSig;
433075b6Spvalchev    if ( aSign ) z = - z;
433075b6Spvalchev    if ( ( z < 0 ) ^ aSign ) {
433075b6Spvalchev invalid:
433075b6Spvalchev        float_raise( float_flag_invalid );
433075b6Spvalchev        return aSign ? (sbits32) 0x80000000 : 0x7FFFFFFF;
433075b6Spvalchev    }
433075b6Spvalchev    if ( ( aSig<<shiftCount ) != savedASig ) {
433075b6Spvalchev        float_set_inexact();
433075b6Spvalchev    }
433075b6Spvalchev    return z;
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of converting the extended double-precision floating-
433075b6Spvalchevpoint value `a' to the 64-bit two's complement integer format.  The
433075b6Spvalchevconversion is performed according to the IEC/IEEE Standard for Binary
433075b6SpvalchevFloating-Point Arithmetic---which means in particular that the conversion
433075b6Spvalchevis rounded according to the current rounding mode.  If `a' is a NaN,
433075b6Spvalchevthe largest positive integer is returned.  Otherwise, if the conversion
433075b6Spvalchevoverflows, the largest integer with the same sign as `a' is returned.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevint64 floatx80_to_int64( floatx80 a )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign;
433075b6Spvalchev    int32 aExp, shiftCount;
433075b6Spvalchev    bits64 aSig, aSigExtra;
433075b6Spvalchev
433075b6Spvalchev    aSig = extractFloatx80Frac( a );
433075b6Spvalchev    aExp = extractFloatx80Exp( a );
433075b6Spvalchev    aSign = extractFloatx80Sign( a );
433075b6Spvalchev    shiftCount = 0x403E - aExp;
433075b6Spvalchev    if ( shiftCount <= 0 ) {
433075b6Spvalchev        if ( shiftCount ) {
433075b6Spvalchev            float_raise( float_flag_invalid );
433075b6Spvalchev            if (    ! aSign
433075b6Spvalchev                 || (    ( aExp == 0x7FFF )
433075b6Spvalchev                      && ( aSig != LIT64( 0x8000000000000000 ) ) )
433075b6Spvalchev               ) {
433075b6Spvalchev                return LIT64( 0x7FFFFFFFFFFFFFFF );
433075b6Spvalchev            }
433075b6Spvalchev            return (sbits64) LIT64( 0x8000000000000000 );
433075b6Spvalchev        }
433075b6Spvalchev        aSigExtra = 0;
433075b6Spvalchev    }
433075b6Spvalchev    else {
433075b6Spvalchev        shift64ExtraRightJamming( aSig, 0, shiftCount, &aSig, &aSigExtra );
433075b6Spvalchev    }
433075b6Spvalchev    return roundAndPackInt64( aSign, aSig, aSigExtra );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of converting the extended double-precision floating-
433075b6Spvalchevpoint value `a' to the 64-bit two's complement integer format.  The
433075b6Spvalchevconversion is performed according to the IEC/IEEE Standard for Binary
433075b6SpvalchevFloating-Point Arithmetic, except that the conversion is always rounded
433075b6Spvalchevtoward zero.  If `a' is a NaN, the largest positive integer is returned.
433075b6SpvalchevOtherwise, if the conversion overflows, the largest integer with the same
433075b6Spvalchevsign as `a' is returned.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevint64 floatx80_to_int64_round_to_zero( floatx80 a )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign;
433075b6Spvalchev    int32 aExp, shiftCount;
433075b6Spvalchev    bits64 aSig;
433075b6Spvalchev    int64 z;
433075b6Spvalchev
433075b6Spvalchev    aSig = extractFloatx80Frac( a );
433075b6Spvalchev    aExp = extractFloatx80Exp( a );
433075b6Spvalchev    aSign = extractFloatx80Sign( a );
433075b6Spvalchev    shiftCount = aExp - 0x403E;
433075b6Spvalchev    if ( 0 <= shiftCount ) {
433075b6Spvalchev        aSig &= LIT64( 0x7FFFFFFFFFFFFFFF );
433075b6Spvalchev        if ( ( a.high != 0xC03E ) || aSig ) {
433075b6Spvalchev            float_raise( float_flag_invalid );
433075b6Spvalchev            if ( ! aSign || ( ( aExp == 0x7FFF ) && aSig ) ) {
433075b6Spvalchev                return LIT64( 0x7FFFFFFFFFFFFFFF );
433075b6Spvalchev            }
433075b6Spvalchev        }
433075b6Spvalchev        return (sbits64) LIT64( 0x8000000000000000 );
433075b6Spvalchev    }
433075b6Spvalchev    else if ( aExp < 0x3FFF ) {
433075b6Spvalchev        if ( aExp | aSig ) float_set_inexact();
433075b6Spvalchev        return 0;
433075b6Spvalchev    }
433075b6Spvalchev    z = aSig>>( - shiftCount );
433075b6Spvalchev    if ( (bits64) ( aSig<<( shiftCount & 63 ) ) ) {
433075b6Spvalchev        float_set_inexact();
433075b6Spvalchev    }
433075b6Spvalchev    if ( aSign ) z = - z;
433075b6Spvalchev    return z;
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of converting the extended double-precision floating-
433075b6Spvalchevpoint value `a' to the single-precision floating-point format.  The
433075b6Spvalchevconversion is performed according to the IEC/IEEE Standard for Binary
433075b6SpvalchevFloating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevfloat32 floatx80_to_float32( floatx80 a )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign;
433075b6Spvalchev    int32 aExp;
433075b6Spvalchev    bits64 aSig;
433075b6Spvalchev
433075b6Spvalchev    aSig = extractFloatx80Frac( a );
433075b6Spvalchev    aExp = extractFloatx80Exp( a );
433075b6Spvalchev    aSign = extractFloatx80Sign( a );
433075b6Spvalchev    if ( aExp == 0x7FFF ) {
433075b6Spvalchev        if ( (bits64) ( aSig<<1 ) ) {
433075b6Spvalchev            return commonNaNToFloat32( floatx80ToCommonNaN( a ) );
433075b6Spvalchev        }
433075b6Spvalchev        return packFloat32( aSign, 0xFF, 0 );
433075b6Spvalchev    }
433075b6Spvalchev    shift64RightJamming( aSig, 33, &aSig );
433075b6Spvalchev    if ( aExp || aSig ) aExp -= 0x3F81;
433075b6Spvalchev    return roundAndPackFloat32( aSign, aExp, aSig );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of converting the extended double-precision floating-
433075b6Spvalchevpoint value `a' to the double-precision floating-point format.  The
433075b6Spvalchevconversion is performed according to the IEC/IEEE Standard for Binary
433075b6SpvalchevFloating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevfloat64 floatx80_to_float64( floatx80 a )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign;
433075b6Spvalchev    int32 aExp;
433075b6Spvalchev    bits64 aSig, zSig;
433075b6Spvalchev
433075b6Spvalchev    aSig = extractFloatx80Frac( a );
433075b6Spvalchev    aExp = extractFloatx80Exp( a );
433075b6Spvalchev    aSign = extractFloatx80Sign( a );
433075b6Spvalchev    if ( aExp == 0x7FFF ) {
433075b6Spvalchev        if ( (bits64) ( aSig<<1 ) ) {
433075b6Spvalchev            return commonNaNToFloat64( floatx80ToCommonNaN( a ) );
433075b6Spvalchev        }
433075b6Spvalchev        return packFloat64( aSign, 0x7FF, 0 );
433075b6Spvalchev    }
433075b6Spvalchev    shift64RightJamming( aSig, 1, &zSig );
433075b6Spvalchev    if ( aExp || aSig ) aExp -= 0x3C01;
433075b6Spvalchev    return roundAndPackFloat64( aSign, aExp, zSig );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev#ifdef FLOAT128
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of converting the extended double-precision floating-
433075b6Spvalchevpoint value `a' to the quadruple-precision floating-point format.  The
433075b6Spvalchevconversion is performed according to the IEC/IEEE Standard for Binary
433075b6SpvalchevFloating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevfloat128 floatx80_to_float128( floatx80 a )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign;
433075b6Spvalchev    int16 aExp;
433075b6Spvalchev    bits64 aSig, zSig0, zSig1;
433075b6Spvalchev
433075b6Spvalchev    aSig = extractFloatx80Frac( a );
433075b6Spvalchev    aExp = extractFloatx80Exp( a );
433075b6Spvalchev    aSign = extractFloatx80Sign( a );
433075b6Spvalchev    if ( ( aExp == 0x7FFF ) && (bits64) ( aSig<<1 ) ) {
433075b6Spvalchev        return commonNaNToFloat128( floatx80ToCommonNaN( a ) );
433075b6Spvalchev    }
433075b6Spvalchev    shift128Right( aSig<<1, 0, 16, &zSig0, &zSig1 );
433075b6Spvalchev    return packFloat128( aSign, aExp, zSig0, zSig1 );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev#endif
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevRounds the extended double-precision floating-point value `a' to an integer,
433075b6Spvalchevand returns the result as an extended quadruple-precision floating-point
433075b6Spvalchevvalue.  The operation is performed according to the IEC/IEEE Standard for
433075b6SpvalchevBinary Floating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevfloatx80 floatx80_round_to_int( floatx80 a )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign;
433075b6Spvalchev    int32 aExp;
433075b6Spvalchev    bits64 lastBitMask, roundBitsMask;
433075b6Spvalchev    int8 roundingMode;
433075b6Spvalchev    floatx80 z;
433075b6Spvalchev
433075b6Spvalchev    aExp = extractFloatx80Exp( a );
433075b6Spvalchev    if ( 0x403E <= aExp ) {
433075b6Spvalchev        if ( ( aExp == 0x7FFF ) && (bits64) ( extractFloatx80Frac( a )<<1 ) ) {
433075b6Spvalchev            return propagateFloatx80NaN( a, a );
433075b6Spvalchev        }
433075b6Spvalchev        return a;
433075b6Spvalchev    }
433075b6Spvalchev    if ( aExp < 0x3FFF ) {
433075b6Spvalchev        if (    ( aExp == 0 )
433075b6Spvalchev             && ( (bits64) ( extractFloatx80Frac( a )<<1 ) == 0 ) ) {
433075b6Spvalchev            return a;
433075b6Spvalchev        }
433075b6Spvalchev        float_set_inexact();
433075b6Spvalchev        aSign = extractFloatx80Sign( a );
433075b6Spvalchev        switch ( float_rounding_mode() ) {
433075b6Spvalchev         case float_round_nearest_even:
433075b6Spvalchev            if ( ( aExp == 0x3FFE ) && (bits64) ( extractFloatx80Frac( a )<<1 )
433075b6Spvalchev               ) {
433075b6Spvalchev                return
433075b6Spvalchev                    packFloatx80( aSign, 0x3FFF, LIT64( 0x8000000000000000 ) );
433075b6Spvalchev            }
433075b6Spvalchev            break;
433075b6Spvalchev         case float_round_down:
433075b6Spvalchev            return
433075b6Spvalchev                  aSign ?
433075b6Spvalchev                      packFloatx80( 1, 0x3FFF, LIT64( 0x8000000000000000 ) )
433075b6Spvalchev                : packFloatx80( 0, 0, 0 );
433075b6Spvalchev         case float_round_up:
433075b6Spvalchev            return
433075b6Spvalchev                  aSign ? packFloatx80( 1, 0, 0 )
433075b6Spvalchev                : packFloatx80( 0, 0x3FFF, LIT64( 0x8000000000000000 ) );
433075b6Spvalchev        }
433075b6Spvalchev        return packFloatx80( aSign, 0, 0 );
433075b6Spvalchev    }
433075b6Spvalchev    lastBitMask = 1;
433075b6Spvalchev    lastBitMask <<= 0x403E - aExp;
433075b6Spvalchev    roundBitsMask = lastBitMask - 1;
433075b6Spvalchev    z = a;
433075b6Spvalchev    roundingMode = float_rounding_mode();
433075b6Spvalchev    if ( roundingMode == float_round_nearest_even ) {
433075b6Spvalchev        z.low += lastBitMask>>1;
433075b6Spvalchev        if ( ( z.low & roundBitsMask ) == 0 ) z.low &= ~ lastBitMask;
433075b6Spvalchev    }
433075b6Spvalchev    else if ( roundingMode != float_round_to_zero ) {
433075b6Spvalchev        if ( extractFloatx80Sign( z ) ^ ( roundingMode == float_round_up ) ) {
433075b6Spvalchev            z.low += roundBitsMask;
433075b6Spvalchev        }
433075b6Spvalchev    }
433075b6Spvalchev    z.low &= ~ roundBitsMask;
433075b6Spvalchev    if ( z.low == 0 ) {
433075b6Spvalchev        ++z.high;
433075b6Spvalchev        z.low = LIT64( 0x8000000000000000 );
433075b6Spvalchev    }
433075b6Spvalchev    if ( z.low != a.low ) float_set_inexact();
433075b6Spvalchev    return z;
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of adding the absolute values of the extended double-
433075b6Spvalchevprecision floating-point values `a' and `b'.  If `zSign' is 1, the sum is
433075b6Spvalchevnegated before being returned.  `zSign' is ignored if the result is a NaN.
433075b6SpvalchevThe addition is performed according to the IEC/IEEE Standard for Binary
433075b6SpvalchevFloating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevstatic floatx80 addFloatx80Sigs( floatx80 a, floatx80 b, flag zSign )
433075b6Spvalchev{
433075b6Spvalchev    int32 aExp, bExp, zExp;
433075b6Spvalchev    bits64 aSig, bSig, zSig0, zSig1;
433075b6Spvalchev    int32 expDiff;
433075b6Spvalchev
433075b6Spvalchev    aSig = extractFloatx80Frac( a );
433075b6Spvalchev    aExp = extractFloatx80Exp( a );
433075b6Spvalchev    bSig = extractFloatx80Frac( b );
433075b6Spvalchev    bExp = extractFloatx80Exp( b );
433075b6Spvalchev    expDiff = aExp - bExp;
433075b6Spvalchev    if ( 0 < expDiff ) {
433075b6Spvalchev        if ( aExp == 0x7FFF ) {
433075b6Spvalchev            if ( (bits64) ( aSig<<1 ) ) return propagateFloatx80NaN( a, b );
433075b6Spvalchev            return a;
433075b6Spvalchev        }
433075b6Spvalchev        if ( bExp == 0 ) --expDiff;
433075b6Spvalchev        shift64ExtraRightJamming( bSig, 0, expDiff, &bSig, &zSig1 );
433075b6Spvalchev        zExp = aExp;
433075b6Spvalchev    }
433075b6Spvalchev    else if ( expDiff < 0 ) {
433075b6Spvalchev        if ( bExp == 0x7FFF ) {
433075b6Spvalchev            if ( (bits64) ( bSig<<1 ) ) return propagateFloatx80NaN( a, b );
433075b6Spvalchev            return packFloatx80( zSign, 0x7FFF, LIT64( 0x8000000000000000 ) );
433075b6Spvalchev        }
433075b6Spvalchev        if ( aExp == 0 ) ++expDiff;
433075b6Spvalchev        shift64ExtraRightJamming( aSig, 0, - expDiff, &aSig, &zSig1 );
433075b6Spvalchev        zExp = bExp;
433075b6Spvalchev    }
433075b6Spvalchev    else {
433075b6Spvalchev        if ( aExp == 0x7FFF ) {
433075b6Spvalchev            if ( (bits64) ( ( aSig | bSig )<<1 ) ) {
433075b6Spvalchev                return propagateFloatx80NaN( a, b );
433075b6Spvalchev            }
433075b6Spvalchev            return a;
433075b6Spvalchev        }
433075b6Spvalchev        zSig1 = 0;
433075b6Spvalchev        zSig0 = aSig + bSig;
433075b6Spvalchev        if ( aExp == 0 ) {
433075b6Spvalchev            normalizeFloatx80Subnormal( zSig0, &zExp, &zSig0 );
433075b6Spvalchev            goto roundAndPack;
433075b6Spvalchev        }
433075b6Spvalchev        zExp = aExp;
433075b6Spvalchev        goto shiftRight1;
433075b6Spvalchev    }
433075b6Spvalchev    zSig0 = aSig + bSig;
433075b6Spvalchev    if ( (sbits64) zSig0 < 0 ) goto roundAndPack;
433075b6Spvalchev shiftRight1:
433075b6Spvalchev    shift64ExtraRightJamming( zSig0, zSig1, 1, &zSig0, &zSig1 );
433075b6Spvalchev    zSig0 |= LIT64( 0x8000000000000000 );
433075b6Spvalchev    ++zExp;
433075b6Spvalchev roundAndPack:
433075b6Spvalchev    return
433075b6Spvalchev        roundAndPackFloatx80(
433075b6Spvalchev            floatx80_rounding_precision, zSign, zExp, zSig0, zSig1 );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of subtracting the absolute values of the extended
433075b6Spvalchevdouble-precision floating-point values `a' and `b'.  If `zSign' is 1, the
433075b6Spvalchevdifference is negated before being returned.  `zSign' is ignored if the
433075b6Spvalchevresult is a NaN.  The subtraction is performed according to the IEC/IEEE
433075b6SpvalchevStandard for Binary Floating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevstatic floatx80 subFloatx80Sigs( floatx80 a, floatx80 b, flag zSign )
433075b6Spvalchev{
433075b6Spvalchev    int32 aExp, bExp, zExp;
433075b6Spvalchev    bits64 aSig, bSig, zSig0, zSig1;
433075b6Spvalchev    int32 expDiff;
433075b6Spvalchev    floatx80 z;
433075b6Spvalchev
433075b6Spvalchev    aSig = extractFloatx80Frac( a );
433075b6Spvalchev    aExp = extractFloatx80Exp( a );
433075b6Spvalchev    bSig = extractFloatx80Frac( b );
433075b6Spvalchev    bExp = extractFloatx80Exp( b );
433075b6Spvalchev    expDiff = aExp - bExp;
433075b6Spvalchev    if ( 0 < expDiff ) goto aExpBigger;
433075b6Spvalchev    if ( expDiff < 0 ) goto bExpBigger;
433075b6Spvalchev    if ( aExp == 0x7FFF ) {
433075b6Spvalchev        if ( (bits64) ( ( aSig | bSig )<<1 ) ) {
433075b6Spvalchev            return propagateFloatx80NaN( a, b );
433075b6Spvalchev        }
433075b6Spvalchev        float_raise( float_flag_invalid );
433075b6Spvalchev        z.low = floatx80_default_nan_low;
433075b6Spvalchev        z.high = floatx80_default_nan_high;
433075b6Spvalchev        return z;
433075b6Spvalchev    }
433075b6Spvalchev    if ( aExp == 0 ) {
433075b6Spvalchev        aExp = 1;
433075b6Spvalchev        bExp = 1;
433075b6Spvalchev    }
433075b6Spvalchev    zSig1 = 0;
433075b6Spvalchev    if ( bSig < aSig ) goto aBigger;
433075b6Spvalchev    if ( aSig < bSig ) goto bBigger;
433075b6Spvalchev    return packFloatx80( float_rounding_mode() == float_round_down, 0, 0 );
433075b6Spvalchev bExpBigger:
433075b6Spvalchev    if ( bExp == 0x7FFF ) {
433075b6Spvalchev        if ( (bits64) ( bSig<<1 ) ) return propagateFloatx80NaN( a, b );
433075b6Spvalchev        return packFloatx80( zSign ^ 1, 0x7FFF, LIT64( 0x8000000000000000 ) );
433075b6Spvalchev    }
433075b6Spvalchev    if ( aExp == 0 ) ++expDiff;
433075b6Spvalchev    shift128RightJamming( aSig, 0, - expDiff, &aSig, &zSig1 );
433075b6Spvalchev bBigger:
433075b6Spvalchev    sub128( bSig, 0, aSig, zSig1, &zSig0, &zSig1 );
433075b6Spvalchev    zExp = bExp;
433075b6Spvalchev    zSign ^= 1;
433075b6Spvalchev    goto normalizeRoundAndPack;
433075b6Spvalchev aExpBigger:
433075b6Spvalchev    if ( aExp == 0x7FFF ) {
433075b6Spvalchev        if ( (bits64) ( aSig<<1 ) ) return propagateFloatx80NaN( a, b );
433075b6Spvalchev        return a;
433075b6Spvalchev    }
433075b6Spvalchev    if ( bExp == 0 ) --expDiff;
433075b6Spvalchev    shift128RightJamming( bSig, 0, expDiff, &bSig, &zSig1 );
433075b6Spvalchev aBigger:
433075b6Spvalchev    sub128( aSig, 0, bSig, zSig1, &zSig0, &zSig1 );
433075b6Spvalchev    zExp = aExp;
433075b6Spvalchev normalizeRoundAndPack:
433075b6Spvalchev    return
433075b6Spvalchev        normalizeRoundAndPackFloatx80(
433075b6Spvalchev            floatx80_rounding_precision, zSign, zExp, zSig0, zSig1 );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of adding the extended double-precision floating-point
433075b6Spvalchevvalues `a' and `b'.  The operation is performed according to the IEC/IEEE
433075b6SpvalchevStandard for Binary Floating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevfloatx80 floatx80_add( floatx80 a, floatx80 b )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign, bSign;
433075b6Spvalchev
433075b6Spvalchev    aSign = extractFloatx80Sign( a );
433075b6Spvalchev    bSign = extractFloatx80Sign( b );
433075b6Spvalchev    if ( aSign == bSign ) {
433075b6Spvalchev        return addFloatx80Sigs( a, b, aSign );
433075b6Spvalchev    }
433075b6Spvalchev    else {
433075b6Spvalchev        return subFloatx80Sigs( a, b, aSign );
433075b6Spvalchev    }
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of subtracting the extended double-precision floating-
433075b6Spvalchevpoint values `a' and `b'.  The operation is performed according to the
433075b6SpvalchevIEC/IEEE Standard for Binary Floating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevfloatx80 floatx80_sub( floatx80 a, floatx80 b )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign, bSign;
433075b6Spvalchev
433075b6Spvalchev    aSign = extractFloatx80Sign( a );
433075b6Spvalchev    bSign = extractFloatx80Sign( b );
433075b6Spvalchev    if ( aSign == bSign ) {
433075b6Spvalchev        return subFloatx80Sigs( a, b, aSign );
433075b6Spvalchev    }
433075b6Spvalchev    else {
433075b6Spvalchev        return addFloatx80Sigs( a, b, aSign );
433075b6Spvalchev    }
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of multiplying the extended double-precision floating-
433075b6Spvalchevpoint values `a' and `b'.  The operation is performed according to the
433075b6SpvalchevIEC/IEEE Standard for Binary Floating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevfloatx80 floatx80_mul( floatx80 a, floatx80 b )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign, bSign, zSign;
433075b6Spvalchev    int32 aExp, bExp, zExp;
433075b6Spvalchev    bits64 aSig, bSig, zSig0, zSig1;
433075b6Spvalchev    floatx80 z;
433075b6Spvalchev
433075b6Spvalchev    aSig = extractFloatx80Frac( a );
433075b6Spvalchev    aExp = extractFloatx80Exp( a );
433075b6Spvalchev    aSign = extractFloatx80Sign( a );
433075b6Spvalchev    bSig = extractFloatx80Frac( b );
433075b6Spvalchev    bExp = extractFloatx80Exp( b );
433075b6Spvalchev    bSign = extractFloatx80Sign( b );
433075b6Spvalchev    zSign = aSign ^ bSign;
433075b6Spvalchev    if ( aExp == 0x7FFF ) {
433075b6Spvalchev        if (    (bits64) ( aSig<<1 )
433075b6Spvalchev             || ( ( bExp == 0x7FFF ) && (bits64) ( bSig<<1 ) ) ) {
433075b6Spvalchev            return propagateFloatx80NaN( a, b );
433075b6Spvalchev        }
433075b6Spvalchev        if ( ( bExp | bSig ) == 0 ) goto invalid;
433075b6Spvalchev        return packFloatx80( zSign, 0x7FFF, LIT64( 0x8000000000000000 ) );
433075b6Spvalchev    }
433075b6Spvalchev    if ( bExp == 0x7FFF ) {
433075b6Spvalchev        if ( (bits64) ( bSig<<1 ) ) return propagateFloatx80NaN( a, b );
433075b6Spvalchev        if ( ( aExp | aSig ) == 0 ) {
433075b6Spvalchev invalid:
433075b6Spvalchev            float_raise( float_flag_invalid );
433075b6Spvalchev            z.low = floatx80_default_nan_low;
433075b6Spvalchev            z.high = floatx80_default_nan_high;
433075b6Spvalchev            return z;
433075b6Spvalchev        }
433075b6Spvalchev        return packFloatx80( zSign, 0x7FFF, LIT64( 0x8000000000000000 ) );
433075b6Spvalchev    }
433075b6Spvalchev    if ( aExp == 0 ) {
433075b6Spvalchev        if ( aSig == 0 ) return packFloatx80( zSign, 0, 0 );
433075b6Spvalchev        normalizeFloatx80Subnormal( aSig, &aExp, &aSig );
433075b6Spvalchev    }
433075b6Spvalchev    if ( bExp == 0 ) {
433075b6Spvalchev        if ( bSig == 0 ) return packFloatx80( zSign, 0, 0 );
433075b6Spvalchev        normalizeFloatx80Subnormal( bSig, &bExp, &bSig );
433075b6Spvalchev    }
433075b6Spvalchev    zExp = aExp + bExp - 0x3FFE;
433075b6Spvalchev    mul64To128( aSig, bSig, &zSig0, &zSig1 );
433075b6Spvalchev    if ( 0 < (sbits64) zSig0 ) {
433075b6Spvalchev        shortShift128Left( zSig0, zSig1, 1, &zSig0, &zSig1 );
433075b6Spvalchev        --zExp;
433075b6Spvalchev    }
433075b6Spvalchev    return
433075b6Spvalchev        roundAndPackFloatx80(
433075b6Spvalchev            floatx80_rounding_precision, zSign, zExp, zSig0, zSig1 );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of dividing the extended double-precision floating-point
433075b6Spvalchevvalue `a' by the corresponding value `b'.  The operation is performed
433075b6Spvalchevaccording to the IEC/IEEE Standard for Binary Floating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevfloatx80 floatx80_div( floatx80 a, floatx80 b )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign, bSign, zSign;
433075b6Spvalchev    int32 aExp, bExp, zExp;
433075b6Spvalchev    bits64 aSig, bSig, zSig0, zSig1;
433075b6Spvalchev    bits64 rem0, rem1, rem2, term0, term1, term2;
433075b6Spvalchev    floatx80 z;
433075b6Spvalchev
433075b6Spvalchev    aSig = extractFloatx80Frac( a );
433075b6Spvalchev    aExp = extractFloatx80Exp( a );
433075b6Spvalchev    aSign = extractFloatx80Sign( a );
433075b6Spvalchev    bSig = extractFloatx80Frac( b );
433075b6Spvalchev    bExp = extractFloatx80Exp( b );
433075b6Spvalchev    bSign = extractFloatx80Sign( b );
433075b6Spvalchev    zSign = aSign ^ bSign;
433075b6Spvalchev    if ( aExp == 0x7FFF ) {
433075b6Spvalchev        if ( (bits64) ( aSig<<1 ) ) return propagateFloatx80NaN( a, b );
433075b6Spvalchev        if ( bExp == 0x7FFF ) {
433075b6Spvalchev            if ( (bits64) ( bSig<<1 ) ) return propagateFloatx80NaN( a, b );
433075b6Spvalchev            goto invalid;
433075b6Spvalchev        }
433075b6Spvalchev        return packFloatx80( zSign, 0x7FFF, LIT64( 0x8000000000000000 ) );
433075b6Spvalchev    }
433075b6Spvalchev    if ( bExp == 0x7FFF ) {
433075b6Spvalchev        if ( (bits64) ( bSig<<1 ) ) return propagateFloatx80NaN( a, b );
433075b6Spvalchev        return packFloatx80( zSign, 0, 0 );
433075b6Spvalchev    }
433075b6Spvalchev    if ( bExp == 0 ) {
433075b6Spvalchev        if ( bSig == 0 ) {
433075b6Spvalchev            if ( ( aExp | aSig ) == 0 ) {
433075b6Spvalchev invalid:
433075b6Spvalchev                float_raise( float_flag_invalid );
433075b6Spvalchev                z.low = floatx80_default_nan_low;
433075b6Spvalchev                z.high = floatx80_default_nan_high;
433075b6Spvalchev                return z;
433075b6Spvalchev            }
433075b6Spvalchev            float_raise( float_flag_divbyzero );
433075b6Spvalchev            return packFloatx80( zSign, 0x7FFF, LIT64( 0x8000000000000000 ) );
433075b6Spvalchev        }
433075b6Spvalchev        normalizeFloatx80Subnormal( bSig, &bExp, &bSig );
433075b6Spvalchev    }
433075b6Spvalchev    if ( aExp == 0 ) {
433075b6Spvalchev        if ( aSig == 0 ) return packFloatx80( zSign, 0, 0 );
433075b6Spvalchev        normalizeFloatx80Subnormal( aSig, &aExp, &aSig );
433075b6Spvalchev    }
433075b6Spvalchev    zExp = aExp - bExp + 0x3FFE;
433075b6Spvalchev    rem1 = 0;
433075b6Spvalchev    if ( bSig <= aSig ) {
433075b6Spvalchev        shift128Right( aSig, 0, 1, &aSig, &rem1 );
433075b6Spvalchev        ++zExp;
433075b6Spvalchev    }
433075b6Spvalchev    zSig0 = estimateDiv128To64( aSig, rem1, bSig );
433075b6Spvalchev    mul64To128( bSig, zSig0, &term0, &term1 );
433075b6Spvalchev    sub128( aSig, rem1, term0, term1, &rem0, &rem1 );
433075b6Spvalchev    while ( (sbits64) rem0 < 0 ) {
433075b6Spvalchev        --zSig0;
433075b6Spvalchev        add128( rem0, rem1, 0, bSig, &rem0, &rem1 );
433075b6Spvalchev    }
433075b6Spvalchev    zSig1 = estimateDiv128To64( rem1, 0, bSig );
433075b6Spvalchev    if ( (bits64) ( zSig1<<1 ) <= 8 ) {
433075b6Spvalchev        mul64To128( bSig, zSig1, &term1, &term2 );
433075b6Spvalchev        sub128( rem1, 0, term1, term2, &rem1, &rem2 );
433075b6Spvalchev        while ( (sbits64) rem1 < 0 ) {
433075b6Spvalchev            --zSig1;
433075b6Spvalchev            add128( rem1, rem2, 0, bSig, &rem1, &rem2 );
433075b6Spvalchev        }
433075b6Spvalchev        zSig1 |= ( ( rem1 | rem2 ) != 0 );
433075b6Spvalchev    }
433075b6Spvalchev    return
433075b6Spvalchev        roundAndPackFloatx80(
433075b6Spvalchev            floatx80_rounding_precision, zSign, zExp, zSig0, zSig1 );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the remainder of the extended double-precision floating-point value
433075b6Spvalchev`a' with respect to the corresponding value `b'.  The operation is performed
433075b6Spvalchevaccording to the IEC/IEEE Standard for Binary Floating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevfloatx80 floatx80_rem( floatx80 a, floatx80 b )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign, bSign, zSign;
433075b6Spvalchev    int32 aExp, bExp, expDiff;
433075b6Spvalchev    bits64 aSig0, aSig1, bSig;
433075b6Spvalchev    bits64 q, term0, term1, alternateASig0, alternateASig1;
433075b6Spvalchev    floatx80 z;
433075b6Spvalchev
433075b6Spvalchev    aSig0 = extractFloatx80Frac( a );
433075b6Spvalchev    aExp = extractFloatx80Exp( a );
433075b6Spvalchev    aSign = extractFloatx80Sign( a );
433075b6Spvalchev    bSig = extractFloatx80Frac( b );
433075b6Spvalchev    bExp = extractFloatx80Exp( b );
433075b6Spvalchev    bSign = extractFloatx80Sign( b );
433075b6Spvalchev    if ( aExp == 0x7FFF ) {
433075b6Spvalchev        if (    (bits64) ( aSig0<<1 )
433075b6Spvalchev             || ( ( bExp == 0x7FFF ) && (bits64) ( bSig<<1 ) ) ) {
433075b6Spvalchev            return propagateFloatx80NaN( a, b );
433075b6Spvalchev        }
433075b6Spvalchev        goto invalid;
433075b6Spvalchev    }
433075b6Spvalchev    if ( bExp == 0x7FFF ) {
433075b6Spvalchev        if ( (bits64) ( bSig<<1 ) ) return propagateFloatx80NaN( a, b );
433075b6Spvalchev        return a;
433075b6Spvalchev    }
433075b6Spvalchev    if ( bExp == 0 ) {
433075b6Spvalchev        if ( bSig == 0 ) {
433075b6Spvalchev invalid:
433075b6Spvalchev            float_raise( float_flag_invalid );
433075b6Spvalchev            z.low = floatx80_default_nan_low;
433075b6Spvalchev            z.high = floatx80_default_nan_high;
433075b6Spvalchev            return z;
433075b6Spvalchev        }
433075b6Spvalchev        normalizeFloatx80Subnormal( bSig, &bExp, &bSig );
433075b6Spvalchev    }
433075b6Spvalchev    if ( aExp == 0 ) {
433075b6Spvalchev        if ( (bits64) ( aSig0<<1 ) == 0 ) return a;
433075b6Spvalchev        normalizeFloatx80Subnormal( aSig0, &aExp, &aSig0 );
433075b6Spvalchev    }
433075b6Spvalchev    bSig |= LIT64( 0x8000000000000000 );
433075b6Spvalchev    zSign = aSign;
433075b6Spvalchev    expDiff = aExp - bExp;
433075b6Spvalchev    aSig1 = 0;
433075b6Spvalchev    if ( expDiff < 0 ) {
433075b6Spvalchev        if ( expDiff < -1 ) return a;
433075b6Spvalchev        shift128Right( aSig0, 0, 1, &aSig0, &aSig1 );
433075b6Spvalchev        expDiff = 0;
433075b6Spvalchev    }
433075b6Spvalchev    q = ( bSig <= aSig0 );
433075b6Spvalchev    if ( q ) aSig0 -= bSig;
433075b6Spvalchev    expDiff -= 64;
433075b6Spvalchev    while ( 0 < expDiff ) {
433075b6Spvalchev        q = estimateDiv128To64( aSig0, aSig1, bSig );
433075b6Spvalchev        q = ( 2 < q ) ? q - 2 : 0;
433075b6Spvalchev        mul64To128( bSig, q, &term0, &term1 );
433075b6Spvalchev        sub128( aSig0, aSig1, term0, term1, &aSig0, &aSig1 );
433075b6Spvalchev        shortShift128Left( aSig0, aSig1, 62, &aSig0, &aSig1 );
433075b6Spvalchev        expDiff -= 62;
433075b6Spvalchev    }
433075b6Spvalchev    expDiff += 64;
433075b6Spvalchev    if ( 0 < expDiff ) {
433075b6Spvalchev        q = estimateDiv128To64( aSig0, aSig1, bSig );
433075b6Spvalchev        q = ( 2 < q ) ? q - 2 : 0;
433075b6Spvalchev        q >>= 64 - expDiff;
433075b6Spvalchev        mul64To128( bSig, q<<( 64 - expDiff ), &term0, &term1 );
433075b6Spvalchev        sub128( aSig0, aSig1, term0, term1, &aSig0, &aSig1 );
433075b6Spvalchev        shortShift128Left( 0, bSig, 64 - expDiff, &term0, &term1 );
433075b6Spvalchev        while ( le128( term0, term1, aSig0, aSig1 ) ) {
433075b6Spvalchev            ++q;
433075b6Spvalchev            sub128( aSig0, aSig1, term0, term1, &aSig0, &aSig1 );
433075b6Spvalchev        }
433075b6Spvalchev    }
433075b6Spvalchev    else {
433075b6Spvalchev        term1 = 0;
433075b6Spvalchev        term0 = bSig;
433075b6Spvalchev    }
433075b6Spvalchev    sub128( term0, term1, aSig0, aSig1, &alternateASig0, &alternateASig1 );
433075b6Spvalchev    if (    lt128( alternateASig0, alternateASig1, aSig0, aSig1 )
433075b6Spvalchev         || (    eq128( alternateASig0, alternateASig1, aSig0, aSig1 )
433075b6Spvalchev              && ( q & 1 ) )
433075b6Spvalchev       ) {
433075b6Spvalchev        aSig0 = alternateASig0;
433075b6Spvalchev        aSig1 = alternateASig1;
433075b6Spvalchev        zSign = ! zSign;
433075b6Spvalchev    }
433075b6Spvalchev    return
433075b6Spvalchev        normalizeRoundAndPackFloatx80(
433075b6Spvalchev            80, zSign, bExp + expDiff, aSig0, aSig1 );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the square root of the extended double-precision floating-point
433075b6Spvalchevvalue `a'.  The operation is performed according to the IEC/IEEE Standard
433075b6Spvalchevfor Binary Floating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevfloatx80 floatx80_sqrt( floatx80 a )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign;
433075b6Spvalchev    int32 aExp, zExp;
433075b6Spvalchev    bits64 aSig0, aSig1, zSig0, zSig1, doubleZSig0;
433075b6Spvalchev    bits64 rem0, rem1, rem2, rem3, term0, term1, term2, term3;
433075b6Spvalchev    floatx80 z;
433075b6Spvalchev
433075b6Spvalchev    aSig0 = extractFloatx80Frac( a );
433075b6Spvalchev    aExp = extractFloatx80Exp( a );
433075b6Spvalchev    aSign = extractFloatx80Sign( a );
433075b6Spvalchev    if ( aExp == 0x7FFF ) {
433075b6Spvalchev        if ( (bits64) ( aSig0<<1 ) ) return propagateFloatx80NaN( a, a );
433075b6Spvalchev        if ( ! aSign ) return a;
433075b6Spvalchev        goto invalid;
433075b6Spvalchev    }
433075b6Spvalchev    if ( aSign ) {
433075b6Spvalchev        if ( ( aExp | aSig0 ) == 0 ) return a;
433075b6Spvalchev invalid:
433075b6Spvalchev        float_raise( float_flag_invalid );
433075b6Spvalchev        z.low = floatx80_default_nan_low;
433075b6Spvalchev        z.high = floatx80_default_nan_high;
433075b6Spvalchev        return z;
433075b6Spvalchev    }
433075b6Spvalchev    if ( aExp == 0 ) {
433075b6Spvalchev        if ( aSig0 == 0 ) return packFloatx80( 0, 0, 0 );
433075b6Spvalchev        normalizeFloatx80Subnormal( aSig0, &aExp, &aSig0 );
433075b6Spvalchev    }
433075b6Spvalchev    zExp = ( ( aExp - 0x3FFF )>>1 ) + 0x3FFF;
433075b6Spvalchev    zSig0 = estimateSqrt32( aExp, aSig0>>32 );
433075b6Spvalchev    shift128Right( aSig0, 0, 2 + ( aExp & 1 ), &aSig0, &aSig1 );
433075b6Spvalchev    zSig0 = estimateDiv128To64( aSig0, aSig1, zSig0<<32 ) + ( zSig0<<30 );
433075b6Spvalchev    doubleZSig0 = zSig0<<1;
433075b6Spvalchev    mul64To128( zSig0, zSig0, &term0, &term1 );
433075b6Spvalchev    sub128( aSig0, aSig1, term0, term1, &rem0, &rem1 );
433075b6Spvalchev    while ( (sbits64) rem0 < 0 ) {
433075b6Spvalchev        --zSig0;
433075b6Spvalchev        doubleZSig0 -= 2;
433075b6Spvalchev        add128( rem0, rem1, zSig0>>63, doubleZSig0 | 1, &rem0, &rem1 );
433075b6Spvalchev    }
433075b6Spvalchev    zSig1 = estimateDiv128To64( rem1, 0, doubleZSig0 );
433075b6Spvalchev    if ( ( zSig1 & LIT64( 0x3FFFFFFFFFFFFFFF ) ) <= 5 ) {
433075b6Spvalchev        if ( zSig1 == 0 ) zSig1 = 1;
433075b6Spvalchev        mul64To128( doubleZSig0, zSig1, &term1, &term2 );
433075b6Spvalchev        sub128( rem1, 0, term1, term2, &rem1, &rem2 );
433075b6Spvalchev        mul64To128( zSig1, zSig1, &term2, &term3 );
433075b6Spvalchev        sub192( rem1, rem2, 0, 0, term2, term3, &rem1, &rem2, &rem3 );
433075b6Spvalchev        while ( (sbits64) rem1 < 0 ) {
433075b6Spvalchev            --zSig1;
433075b6Spvalchev            shortShift128Left( 0, zSig1, 1, &term2, &term3 );
433075b6Spvalchev            term3 |= 1;
433075b6Spvalchev            term2 |= doubleZSig0;
433075b6Spvalchev            add192( rem1, rem2, rem3, 0, term2, term3, &rem1, &rem2, &rem3 );
433075b6Spvalchev        }
433075b6Spvalchev        zSig1 |= ( ( rem1 | rem2 | rem3 ) != 0 );
433075b6Spvalchev    }
433075b6Spvalchev    shortShift128Left( 0, zSig1, 1, &zSig0, &zSig1 );
433075b6Spvalchev    zSig0 |= doubleZSig0;
433075b6Spvalchev    return
433075b6Spvalchev        roundAndPackFloatx80(
433075b6Spvalchev            floatx80_rounding_precision, 0, zExp, zSig0, zSig1 );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns 1 if the extended double-precision floating-point value `a' is
433075b6Spvalchevequal to the corresponding value `b', and 0 otherwise.  The comparison is
433075b6Spvalchevperformed according to the IEC/IEEE Standard for Binary Floating-Point
433075b6SpvalchevArithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevflag floatx80_eq( floatx80 a, floatx80 b )
433075b6Spvalchev{
433075b6Spvalchev
433075b6Spvalchev    if (    (    ( extractFloatx80Exp( a ) == 0x7FFF )
433075b6Spvalchev              && (bits64) ( extractFloatx80Frac( a )<<1 ) )
433075b6Spvalchev         || (    ( extractFloatx80Exp( b ) == 0x7FFF )
433075b6Spvalchev              && (bits64) ( extractFloatx80Frac( b )<<1 ) )
433075b6Spvalchev       ) {
433075b6Spvalchev        if (    floatx80_is_signaling_nan( a )
433075b6Spvalchev             || floatx80_is_signaling_nan( b ) ) {
433075b6Spvalchev            float_raise( float_flag_invalid );
433075b6Spvalchev        }
433075b6Spvalchev        return 0;
433075b6Spvalchev    }
433075b6Spvalchev    return
433075b6Spvalchev           ( a.low == b.low )
433075b6Spvalchev        && (    ( a.high == b.high )
433075b6Spvalchev             || (    ( a.low == 0 )
433075b6Spvalchev                  && ( (bits16) ( ( a.high | b.high )<<1 ) == 0 ) )
433075b6Spvalchev           );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns 1 if the extended double-precision floating-point value `a' is
433075b6Spvalchevless than or equal to the corresponding value `b', and 0 otherwise.  The
433075b6Spvalchevcomparison is performed according to the IEC/IEEE Standard for Binary
433075b6SpvalchevFloating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevflag floatx80_le( floatx80 a, floatx80 b )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign, bSign;
433075b6Spvalchev
433075b6Spvalchev    if (    (    ( extractFloatx80Exp( a ) == 0x7FFF )
433075b6Spvalchev              && (bits64) ( extractFloatx80Frac( a )<<1 ) )
433075b6Spvalchev         || (    ( extractFloatx80Exp( b ) == 0x7FFF )
433075b6Spvalchev              && (bits64) ( extractFloatx80Frac( b )<<1 ) )
433075b6Spvalchev       ) {
433075b6Spvalchev        float_raise( float_flag_invalid );
433075b6Spvalchev        return 0;
433075b6Spvalchev    }
433075b6Spvalchev    aSign = extractFloatx80Sign( a );
433075b6Spvalchev    bSign = extractFloatx80Sign( b );
433075b6Spvalchev    if ( aSign != bSign ) {
433075b6Spvalchev        return
433075b6Spvalchev               aSign
433075b6Spvalchev            || (    ( ( (bits16) ( ( a.high | b.high )<<1 ) ) | a.low | b.low )
433075b6Spvalchev                 == 0 );
433075b6Spvalchev    }
433075b6Spvalchev    return
433075b6Spvalchev          aSign ? le128( b.high, b.low, a.high, a.low )
433075b6Spvalchev        : le128( a.high, a.low, b.high, b.low );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns 1 if the extended double-precision floating-point value `a' is
433075b6Spvalchevless than the corresponding value `b', and 0 otherwise.  The comparison
433075b6Spvalchevis performed according to the IEC/IEEE Standard for Binary Floating-Point
433075b6SpvalchevArithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevflag floatx80_lt( floatx80 a, floatx80 b )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign, bSign;
433075b6Spvalchev
433075b6Spvalchev    if (    (    ( extractFloatx80Exp( a ) == 0x7FFF )
433075b6Spvalchev              && (bits64) ( extractFloatx80Frac( a )<<1 ) )
433075b6Spvalchev         || (    ( extractFloatx80Exp( b ) == 0x7FFF )
433075b6Spvalchev              && (bits64) ( extractFloatx80Frac( b )<<1 ) )
433075b6Spvalchev       ) {
433075b6Spvalchev        float_raise( float_flag_invalid );
433075b6Spvalchev        return 0;
433075b6Spvalchev    }
433075b6Spvalchev    aSign = extractFloatx80Sign( a );
433075b6Spvalchev    bSign = extractFloatx80Sign( b );
433075b6Spvalchev    if ( aSign != bSign ) {
433075b6Spvalchev        return
433075b6Spvalchev               aSign
433075b6Spvalchev            && (    ( ( (bits16) ( ( a.high | b.high )<<1 ) ) | a.low | b.low )
433075b6Spvalchev                 != 0 );
433075b6Spvalchev    }
433075b6Spvalchev    return
433075b6Spvalchev          aSign ? lt128( b.high, b.low, a.high, a.low )
433075b6Spvalchev        : lt128( a.high, a.low, b.high, b.low );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns 1 if the extended double-precision floating-point value `a' is equal
433075b6Spvalchevto the corresponding value `b', and 0 otherwise.  The invalid exception is
433075b6Spvalchevraised if either operand is a NaN.  Otherwise, the comparison is performed
433075b6Spvalchevaccording to the IEC/IEEE Standard for Binary Floating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevflag floatx80_eq_signaling( floatx80 a, floatx80 b )
433075b6Spvalchev{
433075b6Spvalchev
433075b6Spvalchev    if (    (    ( extractFloatx80Exp( a ) == 0x7FFF )
433075b6Spvalchev              && (bits64) ( extractFloatx80Frac( a )<<1 ) )
433075b6Spvalchev         || (    ( extractFloatx80Exp( b ) == 0x7FFF )
433075b6Spvalchev              && (bits64) ( extractFloatx80Frac( b )<<1 ) )
433075b6Spvalchev       ) {
433075b6Spvalchev        float_raise( float_flag_invalid );
433075b6Spvalchev        return 0;
433075b6Spvalchev    }
433075b6Spvalchev    return
433075b6Spvalchev           ( a.low == b.low )
433075b6Spvalchev        && (    ( a.high == b.high )
433075b6Spvalchev             || (    ( a.low == 0 )
433075b6Spvalchev                  && ( (bits16) ( ( a.high | b.high )<<1 ) == 0 ) )
433075b6Spvalchev           );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns 1 if the extended double-precision floating-point value `a' is less
433075b6Spvalchevthan or equal to the corresponding value `b', and 0 otherwise.  Quiet NaNs
433075b6Spvalchevdo not cause an exception.  Otherwise, the comparison is performed according
433075b6Spvalchevto the IEC/IEEE Standard for Binary Floating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevflag floatx80_le_quiet( floatx80 a, floatx80 b )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign, bSign;
433075b6Spvalchev
433075b6Spvalchev    if (    (    ( extractFloatx80Exp( a ) == 0x7FFF )
433075b6Spvalchev              && (bits64) ( extractFloatx80Frac( a )<<1 ) )
433075b6Spvalchev         || (    ( extractFloatx80Exp( b ) == 0x7FFF )
433075b6Spvalchev              && (bits64) ( extractFloatx80Frac( b )<<1 ) )
433075b6Spvalchev       ) {
433075b6Spvalchev        if (    floatx80_is_signaling_nan( a )
433075b6Spvalchev             || floatx80_is_signaling_nan( b ) ) {
433075b6Spvalchev            float_raise( float_flag_invalid );
433075b6Spvalchev        }
433075b6Spvalchev        return 0;
433075b6Spvalchev    }
433075b6Spvalchev    aSign = extractFloatx80Sign( a );
433075b6Spvalchev    bSign = extractFloatx80Sign( b );
433075b6Spvalchev    if ( aSign != bSign ) {
433075b6Spvalchev        return
433075b6Spvalchev               aSign
433075b6Spvalchev            || (    ( ( (bits16) ( ( a.high | b.high )<<1 ) ) | a.low | b.low )
433075b6Spvalchev                 == 0 );
433075b6Spvalchev    }
433075b6Spvalchev    return
433075b6Spvalchev          aSign ? le128( b.high, b.low, a.high, a.low )
433075b6Spvalchev        : le128( a.high, a.low, b.high, b.low );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns 1 if the extended double-precision floating-point value `a' is less
433075b6Spvalchevthan the corresponding value `b', and 0 otherwise.  Quiet NaNs do not cause
433075b6Spvalchevan exception.  Otherwise, the comparison is performed according to the
433075b6SpvalchevIEC/IEEE Standard for Binary Floating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevflag floatx80_lt_quiet( floatx80 a, floatx80 b )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign, bSign;
433075b6Spvalchev
433075b6Spvalchev    if (    (    ( extractFloatx80Exp( a ) == 0x7FFF )
433075b6Spvalchev              && (bits64) ( extractFloatx80Frac( a )<<1 ) )
433075b6Spvalchev         || (    ( extractFloatx80Exp( b ) == 0x7FFF )
433075b6Spvalchev              && (bits64) ( extractFloatx80Frac( b )<<1 ) )
433075b6Spvalchev       ) {
433075b6Spvalchev        if (    floatx80_is_signaling_nan( a )
433075b6Spvalchev             || floatx80_is_signaling_nan( b ) ) {
433075b6Spvalchev            float_raise( float_flag_invalid );
433075b6Spvalchev        }
433075b6Spvalchev        return 0;
433075b6Spvalchev    }
433075b6Spvalchev    aSign = extractFloatx80Sign( a );
433075b6Spvalchev    bSign = extractFloatx80Sign( b );
433075b6Spvalchev    if ( aSign != bSign ) {
433075b6Spvalchev        return
433075b6Spvalchev               aSign
433075b6Spvalchev            && (    ( ( (bits16) ( ( a.high | b.high )<<1 ) ) | a.low | b.low )
433075b6Spvalchev                 != 0 );
433075b6Spvalchev    }
433075b6Spvalchev    return
433075b6Spvalchev          aSign ? lt128( b.high, b.low, a.high, a.low )
433075b6Spvalchev        : lt128( a.high, a.low, b.high, b.low );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev#endif
433075b6Spvalchev
433075b6Spvalchev#ifdef FLOAT128
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of converting the quadruple-precision floating-point
433075b6Spvalchevvalue `a' to the 32-bit two's complement integer format.  The conversion
433075b6Spvalchevis performed according to the IEC/IEEE Standard for Binary Floating-Point
433075b6SpvalchevArithmetic---which means in particular that the conversion is rounded
433075b6Spvalchevaccording to the current rounding mode.  If `a' is a NaN, the largest
433075b6Spvalchevpositive integer is returned.  Otherwise, if the conversion overflows, the
433075b6Spvalchevlargest integer with the same sign as `a' is returned.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevint32 float128_to_int32( float128 a )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign;
433075b6Spvalchev    int32 aExp, shiftCount;
433075b6Spvalchev    bits64 aSig0, aSig1;
433075b6Spvalchev
433075b6Spvalchev    aSig1 = extractFloat128Frac1( a );
433075b6Spvalchev    aSig0 = extractFloat128Frac0( a );
433075b6Spvalchev    aExp = extractFloat128Exp( a );
433075b6Spvalchev    aSign = extractFloat128Sign( a );
433075b6Spvalchev    if ( ( aExp == 0x7FFF ) && ( aSig0 | aSig1 ) ) aSign = 0;
433075b6Spvalchev    if ( aExp ) aSig0 |= LIT64( 0x0001000000000000 );
433075b6Spvalchev    aSig0 |= ( aSig1 != 0 );
433075b6Spvalchev    shiftCount = 0x4028 - aExp;
433075b6Spvalchev    if ( 0 < shiftCount ) shift64RightJamming( aSig0, shiftCount, &aSig0 );
433075b6Spvalchev    return roundAndPackInt32( aSign, aSig0 );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of converting the quadruple-precision floating-point
433075b6Spvalchevvalue `a' to the 32-bit two's complement integer format.  The conversion
433075b6Spvalchevis performed according to the IEC/IEEE Standard for Binary Floating-Point
433075b6SpvalchevArithmetic, except that the conversion is always rounded toward zero.  If
433075b6Spvalchev`a' is a NaN, the largest positive integer is returned.  Otherwise, if the
433075b6Spvalchevconversion overflows, the largest integer with the same sign as `a' is
433075b6Spvalchevreturned.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevint32 float128_to_int32_round_to_zero( float128 a )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign;
433075b6Spvalchev    int32 aExp, shiftCount;
433075b6Spvalchev    bits64 aSig0, aSig1, savedASig;
433075b6Spvalchev    int32 z;
433075b6Spvalchev
433075b6Spvalchev    aSig1 = extractFloat128Frac1( a );
433075b6Spvalchev    aSig0 = extractFloat128Frac0( a );
433075b6Spvalchev    aExp = extractFloat128Exp( a );
433075b6Spvalchev    aSign = extractFloat128Sign( a );
433075b6Spvalchev    aSig0 |= ( aSig1 != 0 );
433075b6Spvalchev    if ( 0x401E < aExp ) {
433075b6Spvalchev        if ( ( aExp == 0x7FFF ) && aSig0 ) aSign = 0;
433075b6Spvalchev        goto invalid;
433075b6Spvalchev    }
433075b6Spvalchev    else if ( aExp < 0x3FFF ) {
433075b6Spvalchev        if ( aExp || aSig0 ) float_set_inexact();
433075b6Spvalchev        return 0;
433075b6Spvalchev    }
433075b6Spvalchev    aSig0 |= LIT64( 0x0001000000000000 );
433075b6Spvalchev    shiftCount = 0x402F - aExp;
433075b6Spvalchev    savedASig = aSig0;
433075b6Spvalchev    aSig0 >>= shiftCount;
433075b6Spvalchev    z = aSig0;
433075b6Spvalchev    if ( aSign ) z = - z;
433075b6Spvalchev    if ( ( z < 0 ) ^ aSign ) {
433075b6Spvalchev invalid:
433075b6Spvalchev        float_raise( float_flag_invalid );
433075b6Spvalchev        return aSign ? (sbits32) 0x80000000 : 0x7FFFFFFF;
433075b6Spvalchev    }
433075b6Spvalchev    if ( ( aSig0<<shiftCount ) != savedASig ) {
433075b6Spvalchev        float_set_inexact();
433075b6Spvalchev    }
433075b6Spvalchev    return z;
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of converting the quadruple-precision floating-point
433075b6Spvalchevvalue `a' to the 64-bit two's complement integer format.  The conversion
433075b6Spvalchevis performed according to the IEC/IEEE Standard for Binary Floating-Point
433075b6SpvalchevArithmetic---which means in particular that the conversion is rounded
433075b6Spvalchevaccording to the current rounding mode.  If `a' is a NaN, the largest
433075b6Spvalchevpositive integer is returned.  Otherwise, if the conversion overflows, the
433075b6Spvalchevlargest integer with the same sign as `a' is returned.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevint64 float128_to_int64( float128 a )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign;
433075b6Spvalchev    int32 aExp, shiftCount;
433075b6Spvalchev    bits64 aSig0, aSig1;
433075b6Spvalchev
433075b6Spvalchev    aSig1 = extractFloat128Frac1( a );
433075b6Spvalchev    aSig0 = extractFloat128Frac0( a );
433075b6Spvalchev    aExp = extractFloat128Exp( a );
433075b6Spvalchev    aSign = extractFloat128Sign( a );
433075b6Spvalchev    if ( aExp ) aSig0 |= LIT64( 0x0001000000000000 );
433075b6Spvalchev    shiftCount = 0x402F - aExp;
433075b6Spvalchev    if ( shiftCount <= 0 ) {
433075b6Spvalchev        if ( 0x403E < aExp ) {
433075b6Spvalchev            float_raise( float_flag_invalid );
433075b6Spvalchev            if (    ! aSign
433075b6Spvalchev                 || (    ( aExp == 0x7FFF )
433075b6Spvalchev                      && ( aSig1 || ( aSig0 != LIT64( 0x0001000000000000 ) ) )
433075b6Spvalchev                    )
433075b6Spvalchev               ) {
433075b6Spvalchev                return LIT64( 0x7FFFFFFFFFFFFFFF );
433075b6Spvalchev            }
433075b6Spvalchev            return (sbits64) LIT64( 0x8000000000000000 );
433075b6Spvalchev        }
433075b6Spvalchev        shortShift128Left( aSig0, aSig1, - shiftCount, &aSig0, &aSig1 );
433075b6Spvalchev    }
433075b6Spvalchev    else {
433075b6Spvalchev        shift64ExtraRightJamming( aSig0, aSig1, shiftCount, &aSig0, &aSig1 );
433075b6Spvalchev    }
433075b6Spvalchev    return roundAndPackInt64( aSign, aSig0, aSig1 );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of converting the quadruple-precision floating-point
433075b6Spvalchevvalue `a' to the 64-bit two's complement integer format.  The conversion
433075b6Spvalchevis performed according to the IEC/IEEE Standard for Binary Floating-Point
433075b6SpvalchevArithmetic, except that the conversion is always rounded toward zero.
433075b6SpvalchevIf `a' is a NaN, the largest positive integer is returned.  Otherwise, if
433075b6Spvalchevthe conversion overflows, the largest integer with the same sign as `a' is
433075b6Spvalchevreturned.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevint64 float128_to_int64_round_to_zero( float128 a )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign;
433075b6Spvalchev    int32 aExp, shiftCount;
433075b6Spvalchev    bits64 aSig0, aSig1;
433075b6Spvalchev    int64 z;
433075b6Spvalchev
433075b6Spvalchev    aSig1 = extractFloat128Frac1( a );
433075b6Spvalchev    aSig0 = extractFloat128Frac0( a );
433075b6Spvalchev    aExp = extractFloat128Exp( a );
433075b6Spvalchev    aSign = extractFloat128Sign( a );
433075b6Spvalchev    if ( aExp ) aSig0 |= LIT64( 0x0001000000000000 );
433075b6Spvalchev    shiftCount = aExp - 0x402F;
433075b6Spvalchev    if ( 0 < shiftCount ) {
433075b6Spvalchev        if ( 0x403E <= aExp ) {
433075b6Spvalchev            aSig0 &= LIT64( 0x0000FFFFFFFFFFFF );
433075b6Spvalchev            if (    ( a.high == LIT64( 0xC03E000000000000 ) )
433075b6Spvalchev                 && ( aSig1 < LIT64( 0x0002000000000000 ) ) ) {
433075b6Spvalchev                if ( aSig1 ) float_set_inexact();
433075b6Spvalchev            }
433075b6Spvalchev            else {
433075b6Spvalchev                float_raise( float_flag_invalid );
433075b6Spvalchev                if ( ! aSign || ( ( aExp == 0x7FFF ) && ( aSig0 | aSig1 ) ) ) {
433075b6Spvalchev                    return LIT64( 0x7FFFFFFFFFFFFFFF );
433075b6Spvalchev                }
433075b6Spvalchev            }
433075b6Spvalchev            return (sbits64) LIT64( 0x8000000000000000 );
433075b6Spvalchev        }
433075b6Spvalchev        z = ( aSig0<<shiftCount ) | ( aSig1>>( ( - shiftCount ) & 63 ) );
433075b6Spvalchev        if ( (bits64) ( aSig1<<shiftCount ) ) {
433075b6Spvalchev            float_set_inexact();
433075b6Spvalchev        }
433075b6Spvalchev    }
433075b6Spvalchev    else {
433075b6Spvalchev        if ( aExp < 0x3FFF ) {
433075b6Spvalchev            if ( aExp | aSig0 | aSig1 ) {
433075b6Spvalchev                float_set_inexact();
433075b6Spvalchev            }
433075b6Spvalchev            return 0;
433075b6Spvalchev        }
433075b6Spvalchev        z = aSig0>>( - shiftCount );
433075b6Spvalchev        if (    aSig1
433075b6Spvalchev             || ( shiftCount && (bits64) ( aSig0<<( shiftCount & 63 ) ) ) ) {
433075b6Spvalchev            float_set_inexact();
433075b6Spvalchev        }
433075b6Spvalchev    }
433075b6Spvalchev    if ( aSign ) z = - z;
433075b6Spvalchev    return z;
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of converting the quadruple-precision floating-point
433075b6Spvalchevvalue `a' to the single-precision floating-point format.  The conversion
433075b6Spvalchevis performed according to the IEC/IEEE Standard for Binary Floating-Point
433075b6SpvalchevArithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevfloat32 float128_to_float32( float128 a )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign;
433075b6Spvalchev    int32 aExp;
433075b6Spvalchev    bits64 aSig0, aSig1;
433075b6Spvalchev    bits32 zSig;
433075b6Spvalchev
433075b6Spvalchev    aSig1 = extractFloat128Frac1( a );
433075b6Spvalchev    aSig0 = extractFloat128Frac0( a );
433075b6Spvalchev    aExp = extractFloat128Exp( a );
433075b6Spvalchev    aSign = extractFloat128Sign( a );
433075b6Spvalchev    if ( aExp == 0x7FFF ) {
433075b6Spvalchev        if ( aSig0 | aSig1 ) {
433075b6Spvalchev            return commonNaNToFloat32( float128ToCommonNaN( a ) );
433075b6Spvalchev        }
433075b6Spvalchev        return packFloat32( aSign, 0xFF, 0 );
433075b6Spvalchev    }
433075b6Spvalchev    aSig0 |= ( aSig1 != 0 );
433075b6Spvalchev    shift64RightJamming( aSig0, 18, &aSig0 );
433075b6Spvalchev    zSig = aSig0;
433075b6Spvalchev    if ( aExp || zSig ) {
433075b6Spvalchev        zSig |= 0x40000000;
433075b6Spvalchev        aExp -= 0x3F81;
433075b6Spvalchev    }
433075b6Spvalchev    return roundAndPackFloat32( aSign, aExp, zSig );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of converting the quadruple-precision floating-point
433075b6Spvalchevvalue `a' to the double-precision floating-point format.  The conversion
433075b6Spvalchevis performed according to the IEC/IEEE Standard for Binary Floating-Point
433075b6SpvalchevArithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevfloat64 float128_to_float64( float128 a )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign;
433075b6Spvalchev    int32 aExp;
433075b6Spvalchev    bits64 aSig0, aSig1;
433075b6Spvalchev
433075b6Spvalchev    aSig1 = extractFloat128Frac1( a );
433075b6Spvalchev    aSig0 = extractFloat128Frac0( a );
433075b6Spvalchev    aExp = extractFloat128Exp( a );
433075b6Spvalchev    aSign = extractFloat128Sign( a );
433075b6Spvalchev    if ( aExp == 0x7FFF ) {
433075b6Spvalchev        if ( aSig0 | aSig1 ) {
433075b6Spvalchev            return commonNaNToFloat64( float128ToCommonNaN( a ) );
433075b6Spvalchev        }
433075b6Spvalchev        return packFloat64( aSign, 0x7FF, 0 );
433075b6Spvalchev    }
433075b6Spvalchev    shortShift128Left( aSig0, aSig1, 14, &aSig0, &aSig1 );
433075b6Spvalchev    aSig0 |= ( aSig1 != 0 );
433075b6Spvalchev    if ( aExp || aSig0 ) {
433075b6Spvalchev        aSig0 |= LIT64( 0x4000000000000000 );
433075b6Spvalchev        aExp -= 0x3C01;
433075b6Spvalchev    }
433075b6Spvalchev    return roundAndPackFloat64( aSign, aExp, aSig0 );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev#ifdef FLOATX80
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of converting the quadruple-precision floating-point
433075b6Spvalchevvalue `a' to the extended double-precision floating-point format.  The
433075b6Spvalchevconversion is performed according to the IEC/IEEE Standard for Binary
433075b6SpvalchevFloating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevfloatx80 float128_to_floatx80( float128 a )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign;
433075b6Spvalchev    int32 aExp;
433075b6Spvalchev    bits64 aSig0, aSig1;
433075b6Spvalchev
433075b6Spvalchev    aSig1 = extractFloat128Frac1( a );
433075b6Spvalchev    aSig0 = extractFloat128Frac0( a );
433075b6Spvalchev    aExp = extractFloat128Exp( a );
433075b6Spvalchev    aSign = extractFloat128Sign( a );
433075b6Spvalchev    if ( aExp == 0x7FFF ) {
433075b6Spvalchev        if ( aSig0 | aSig1 ) {
433075b6Spvalchev            return commonNaNToFloatx80( float128ToCommonNaN( a ) );
433075b6Spvalchev        }
433075b6Spvalchev        return packFloatx80( aSign, 0x7FFF, LIT64( 0x8000000000000000 ) );
433075b6Spvalchev    }
433075b6Spvalchev    if ( aExp == 0 ) {
433075b6Spvalchev        if ( ( aSig0 | aSig1 ) == 0 ) return packFloatx80( aSign, 0, 0 );
433075b6Spvalchev        normalizeFloat128Subnormal( aSig0, aSig1, &aExp, &aSig0, &aSig1 );
433075b6Spvalchev    }
433075b6Spvalchev    else {
433075b6Spvalchev        aSig0 |= LIT64( 0x0001000000000000 );
433075b6Spvalchev    }
433075b6Spvalchev    shortShift128Left( aSig0, aSig1, 15, &aSig0, &aSig1 );
433075b6Spvalchev    return roundAndPackFloatx80( 80, aSign, aExp, aSig0, aSig1 );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev#endif
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevRounds the quadruple-precision floating-point value `a' to an integer, and
433075b6Spvalchevreturns the result as a quadruple-precision floating-point value.  The
433075b6Spvalchevoperation is performed according to the IEC/IEEE Standard for Binary
433075b6SpvalchevFloating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevfloat128 float128_round_to_int( float128 a )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign;
433075b6Spvalchev    int32 aExp;
433075b6Spvalchev    bits64 lastBitMask, roundBitsMask;
433075b6Spvalchev    int8 roundingMode;
433075b6Spvalchev    float128 z;
433075b6Spvalchev
433075b6Spvalchev    aExp = extractFloat128Exp( a );
433075b6Spvalchev    if ( 0x402F <= aExp ) {
433075b6Spvalchev        if ( 0x406F <= aExp ) {
433075b6Spvalchev            if (    ( aExp == 0x7FFF )
433075b6Spvalchev                 && ( extractFloat128Frac0( a ) | extractFloat128Frac1( a ) )
433075b6Spvalchev               ) {
433075b6Spvalchev                return propagateFloat128NaN( a, a );
433075b6Spvalchev            }
433075b6Spvalchev            return a;
433075b6Spvalchev        }
433075b6Spvalchev        lastBitMask = 1;
433075b6Spvalchev        lastBitMask = ( lastBitMask<<( 0x406E - aExp ) )<<1;
433075b6Spvalchev        roundBitsMask = lastBitMask - 1;
433075b6Spvalchev        z = a;
433075b6Spvalchev        roundingMode = float_rounding_mode();
433075b6Spvalchev        if ( roundingMode == float_round_nearest_even ) {
433075b6Spvalchev            if ( lastBitMask ) {
433075b6Spvalchev                add128( z.high, z.low, 0, lastBitMask>>1, &z.high, &z.low );
433075b6Spvalchev                if ( ( z.low & roundBitsMask ) == 0 ) z.low &= ~ lastBitMask;
433075b6Spvalchev            }
433075b6Spvalchev            else {
433075b6Spvalchev                if ( (sbits64) z.low < 0 ) {
433075b6Spvalchev                    ++z.high;
433075b6Spvalchev                    if ( (bits64) ( z.low<<1 ) == 0 ) z.high &= ~1;
433075b6Spvalchev                }
433075b6Spvalchev            }
433075b6Spvalchev        }
433075b6Spvalchev        else if ( roundingMode != float_round_to_zero ) {
433075b6Spvalchev            if (   extractFloat128Sign( z )
433075b6Spvalchev                 ^ ( roundingMode == float_round_up ) ) {
433075b6Spvalchev                add128( z.high, z.low, 0, roundBitsMask, &z.high, &z.low );
433075b6Spvalchev            }
433075b6Spvalchev        }
433075b6Spvalchev        z.low &= ~ roundBitsMask;
433075b6Spvalchev    }
433075b6Spvalchev    else {
433075b6Spvalchev        if ( aExp < 0x3FFF ) {
433075b6Spvalchev            if ( ( ( (bits64) ( a.high<<1 ) ) | a.low ) == 0 ) return a;
433075b6Spvalchev            float_set_inexact();
433075b6Spvalchev            aSign = extractFloat128Sign( a );
433075b6Spvalchev            switch ( float_rounding_mode() ) {
433075b6Spvalchev             case float_round_nearest_even:
433075b6Spvalchev                if (    ( aExp == 0x3FFE )
433075b6Spvalchev                     && (   extractFloat128Frac0( a )
433075b6Spvalchev                          | extractFloat128Frac1( a ) )
433075b6Spvalchev                   ) {
433075b6Spvalchev                    return packFloat128( aSign, 0x3FFF, 0, 0 );
433075b6Spvalchev                }
433075b6Spvalchev                break;
433075b6Spvalchev             case float_round_down:
433075b6Spvalchev                return
433075b6Spvalchev                      aSign ? packFloat128( 1, 0x3FFF, 0, 0 )
433075b6Spvalchev                    : packFloat128( 0, 0, 0, 0 );
433075b6Spvalchev             case float_round_up:
433075b6Spvalchev                return
433075b6Spvalchev                      aSign ? packFloat128( 1, 0, 0, 0 )
433075b6Spvalchev                    : packFloat128( 0, 0x3FFF, 0, 0 );
433075b6Spvalchev            }
433075b6Spvalchev            return packFloat128( aSign, 0, 0, 0 );
433075b6Spvalchev        }
433075b6Spvalchev        lastBitMask = 1;
433075b6Spvalchev        lastBitMask <<= 0x402F - aExp;
433075b6Spvalchev        roundBitsMask = lastBitMask - 1;
433075b6Spvalchev        z.low = 0;
433075b6Spvalchev        z.high = a.high;
433075b6Spvalchev        roundingMode = float_rounding_mode();
433075b6Spvalchev        if ( roundingMode == float_round_nearest_even ) {
433075b6Spvalchev            z.high += lastBitMask>>1;
433075b6Spvalchev            if ( ( ( z.high & roundBitsMask ) | a.low ) == 0 ) {
433075b6Spvalchev                z.high &= ~ lastBitMask;
433075b6Spvalchev            }
433075b6Spvalchev        }
433075b6Spvalchev        else if ( roundingMode != float_round_to_zero ) {
433075b6Spvalchev            if (   extractFloat128Sign( z )
433075b6Spvalchev                 ^ ( roundingMode == float_round_up ) ) {
433075b6Spvalchev                z.high |= ( a.low != 0 );
433075b6Spvalchev                z.high += roundBitsMask;
433075b6Spvalchev            }
433075b6Spvalchev        }
433075b6Spvalchev        z.high &= ~ roundBitsMask;
433075b6Spvalchev    }
433075b6Spvalchev    if ( ( z.low != a.low ) || ( z.high != a.high ) ) {
433075b6Spvalchev        float_set_inexact();
433075b6Spvalchev    }
433075b6Spvalchev    return z;
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of adding the absolute values of the quadruple-precision
433075b6Spvalchevfloating-point values `a' and `b'.  If `zSign' is 1, the sum is negated
433075b6Spvalchevbefore being returned.  `zSign' is ignored if the result is a NaN.
433075b6SpvalchevThe addition is performed according to the IEC/IEEE Standard for Binary
433075b6SpvalchevFloating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevstatic float128 addFloat128Sigs( float128 a, float128 b, flag zSign )
433075b6Spvalchev{
433075b6Spvalchev    int32 aExp, bExp, zExp;
433075b6Spvalchev    bits64 aSig0, aSig1, bSig0, bSig1, zSig0, zSig1, zSig2;
433075b6Spvalchev    int32 expDiff;
433075b6Spvalchev
433075b6Spvalchev    aSig1 = extractFloat128Frac1( a );
433075b6Spvalchev    aSig0 = extractFloat128Frac0( a );
433075b6Spvalchev    aExp = extractFloat128Exp( a );
433075b6Spvalchev    bSig1 = extractFloat128Frac1( b );
433075b6Spvalchev    bSig0 = extractFloat128Frac0( b );
433075b6Spvalchev    bExp = extractFloat128Exp( b );
433075b6Spvalchev    expDiff = aExp - bExp;
433075b6Spvalchev    if ( 0 < expDiff ) {
433075b6Spvalchev        if ( aExp == 0x7FFF ) {
433075b6Spvalchev            if ( aSig0 | aSig1 ) return propagateFloat128NaN( a, b );
433075b6Spvalchev            return a;
433075b6Spvalchev        }
433075b6Spvalchev        if ( bExp == 0 ) {
433075b6Spvalchev            --expDiff;
433075b6Spvalchev        }
433075b6Spvalchev        else {
433075b6Spvalchev            bSig0 |= LIT64( 0x0001000000000000 );
433075b6Spvalchev        }
433075b6Spvalchev        shift128ExtraRightJamming(
433075b6Spvalchev            bSig0, bSig1, 0, expDiff, &bSig0, &bSig1, &zSig2 );
433075b6Spvalchev        zExp = aExp;
433075b6Spvalchev    }
433075b6Spvalchev    else if ( expDiff < 0 ) {
433075b6Spvalchev        if ( bExp == 0x7FFF ) {
433075b6Spvalchev            if ( bSig0 | bSig1 ) return propagateFloat128NaN( a, b );
433075b6Spvalchev            return packFloat128( zSign, 0x7FFF, 0, 0 );
433075b6Spvalchev        }
433075b6Spvalchev        if ( aExp == 0 ) {
433075b6Spvalchev            ++expDiff;
433075b6Spvalchev        }
433075b6Spvalchev        else {
433075b6Spvalchev            aSig0 |= LIT64( 0x0001000000000000 );
433075b6Spvalchev        }
433075b6Spvalchev        shift128ExtraRightJamming(
433075b6Spvalchev            aSig0, aSig1, 0, - expDiff, &aSig0, &aSig1, &zSig2 );
433075b6Spvalchev        zExp = bExp;
433075b6Spvalchev    }
433075b6Spvalchev    else {
433075b6Spvalchev        if ( aExp == 0x7FFF ) {
433075b6Spvalchev            if ( aSig0 | aSig1 | bSig0 | bSig1 ) {
433075b6Spvalchev                return propagateFloat128NaN( a, b );
433075b6Spvalchev            }
433075b6Spvalchev            return a;
433075b6Spvalchev        }
433075b6Spvalchev        add128( aSig0, aSig1, bSig0, bSig1, &zSig0, &zSig1 );
433075b6Spvalchev        if ( aExp == 0 ) return packFloat128( zSign, 0, zSig0, zSig1 );
433075b6Spvalchev        zSig2 = 0;
433075b6Spvalchev        zSig0 |= LIT64( 0x0002000000000000 );
433075b6Spvalchev        zExp = aExp;
433075b6Spvalchev        goto shiftRight1;
433075b6Spvalchev    }
433075b6Spvalchev    aSig0 |= LIT64( 0x0001000000000000 );
433075b6Spvalchev    add128( aSig0, aSig1, bSig0, bSig1, &zSig0, &zSig1 );
433075b6Spvalchev    --zExp;
433075b6Spvalchev    if ( zSig0 < LIT64( 0x0002000000000000 ) ) goto roundAndPack;
433075b6Spvalchev    ++zExp;
433075b6Spvalchev shiftRight1:
433075b6Spvalchev    shift128ExtraRightJamming(
433075b6Spvalchev        zSig0, zSig1, zSig2, 1, &zSig0, &zSig1, &zSig2 );
433075b6Spvalchev roundAndPack:
433075b6Spvalchev    return roundAndPackFloat128( zSign, zExp, zSig0, zSig1, zSig2 );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of subtracting the absolute values of the quadruple-
433075b6Spvalchevprecision floating-point values `a' and `b'.  If `zSign' is 1, the
433075b6Spvalchevdifference is negated before being returned.  `zSign' is ignored if the
433075b6Spvalchevresult is a NaN.  The subtraction is performed according to the IEC/IEEE
433075b6SpvalchevStandard for Binary Floating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevstatic float128 subFloat128Sigs( float128 a, float128 b, flag zSign )
433075b6Spvalchev{
433075b6Spvalchev    int32 aExp, bExp, zExp;
433075b6Spvalchev    bits64 aSig0, aSig1, bSig0, bSig1, zSig0, zSig1;
433075b6Spvalchev    int32 expDiff;
433075b6Spvalchev    float128 z;
433075b6Spvalchev
433075b6Spvalchev    aSig1 = extractFloat128Frac1( a );
433075b6Spvalchev    aSig0 = extractFloat128Frac0( a );
433075b6Spvalchev    aExp = extractFloat128Exp( a );
433075b6Spvalchev    bSig1 = extractFloat128Frac1( b );
433075b6Spvalchev    bSig0 = extractFloat128Frac0( b );
433075b6Spvalchev    bExp = extractFloat128Exp( b );
433075b6Spvalchev    expDiff = aExp - bExp;
433075b6Spvalchev    shortShift128Left( aSig0, aSig1, 14, &aSig0, &aSig1 );
433075b6Spvalchev    shortShift128Left( bSig0, bSig1, 14, &bSig0, &bSig1 );
433075b6Spvalchev    if ( 0 < expDiff ) goto aExpBigger;
433075b6Spvalchev    if ( expDiff < 0 ) goto bExpBigger;
433075b6Spvalchev    if ( aExp == 0x7FFF ) {
433075b6Spvalchev        if ( aSig0 | aSig1 | bSig0 | bSig1 ) {
433075b6Spvalchev            return propagateFloat128NaN( a, b );
433075b6Spvalchev        }
433075b6Spvalchev        float_raise( float_flag_invalid );
433075b6Spvalchev        z.low = float128_default_nan_low;
433075b6Spvalchev        z.high = float128_default_nan_high;
433075b6Spvalchev        return z;
433075b6Spvalchev    }
433075b6Spvalchev    if ( aExp == 0 ) {
433075b6Spvalchev        aExp = 1;
433075b6Spvalchev        bExp = 1;
433075b6Spvalchev    }
433075b6Spvalchev    if ( bSig0 < aSig0 ) goto aBigger;
433075b6Spvalchev    if ( aSig0 < bSig0 ) goto bBigger;
433075b6Spvalchev    if ( bSig1 < aSig1 ) goto aBigger;
433075b6Spvalchev    if ( aSig1 < bSig1 ) goto bBigger;
433075b6Spvalchev    return packFloat128( float_rounding_mode() == float_round_down, 0, 0, 0 );
433075b6Spvalchev bExpBigger:
433075b6Spvalchev    if ( bExp == 0x7FFF ) {
433075b6Spvalchev        if ( bSig0 | bSig1 ) return propagateFloat128NaN( a, b );
433075b6Spvalchev        return packFloat128( zSign ^ 1, 0x7FFF, 0, 0 );
433075b6Spvalchev    }
433075b6Spvalchev    if ( aExp == 0 ) {
433075b6Spvalchev        ++expDiff;
433075b6Spvalchev    }
433075b6Spvalchev    else {
433075b6Spvalchev        aSig0 |= LIT64( 0x4000000000000000 );
433075b6Spvalchev    }
433075b6Spvalchev    shift128RightJamming( aSig0, aSig1, - expDiff, &aSig0, &aSig1 );
433075b6Spvalchev    bSig0 |= LIT64( 0x4000000000000000 );
433075b6Spvalchev bBigger:
433075b6Spvalchev    sub128( bSig0, bSig1, aSig0, aSig1, &zSig0, &zSig1 );
433075b6Spvalchev    zExp = bExp;
433075b6Spvalchev    zSign ^= 1;
433075b6Spvalchev    goto normalizeRoundAndPack;
433075b6Spvalchev aExpBigger:
433075b6Spvalchev    if ( aExp == 0x7FFF ) {
433075b6Spvalchev        if ( aSig0 | aSig1 ) return propagateFloat128NaN( a, b );
433075b6Spvalchev        return a;
433075b6Spvalchev    }
433075b6Spvalchev    if ( bExp == 0 ) {
433075b6Spvalchev        --expDiff;
433075b6Spvalchev    }
433075b6Spvalchev    else {
433075b6Spvalchev        bSig0 |= LIT64( 0x4000000000000000 );
433075b6Spvalchev    }
433075b6Spvalchev    shift128RightJamming( bSig0, bSig1, expDiff, &bSig0, &bSig1 );
433075b6Spvalchev    aSig0 |= LIT64( 0x4000000000000000 );
433075b6Spvalchev aBigger:
433075b6Spvalchev    sub128( aSig0, aSig1, bSig0, bSig1, &zSig0, &zSig1 );
433075b6Spvalchev    zExp = aExp;
433075b6Spvalchev normalizeRoundAndPack:
433075b6Spvalchev    --zExp;
433075b6Spvalchev    return normalizeRoundAndPackFloat128( zSign, zExp - 14, zSig0, zSig1 );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of adding the quadruple-precision floating-point values
433075b6Spvalchev`a' and `b'.  The operation is performed according to the IEC/IEEE Standard
433075b6Spvalchevfor Binary Floating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevfloat128 float128_add( float128 a, float128 b )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign, bSign;
433075b6Spvalchev
433075b6Spvalchev    aSign = extractFloat128Sign( a );
433075b6Spvalchev    bSign = extractFloat128Sign( b );
433075b6Spvalchev    if ( aSign == bSign ) {
433075b6Spvalchev        return addFloat128Sigs( a, b, aSign );
433075b6Spvalchev    }
433075b6Spvalchev    else {
433075b6Spvalchev        return subFloat128Sigs( a, b, aSign );
433075b6Spvalchev    }
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of subtracting the quadruple-precision floating-point
433075b6Spvalchevvalues `a' and `b'.  The operation is performed according to the IEC/IEEE
433075b6SpvalchevStandard for Binary Floating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevfloat128 float128_sub( float128 a, float128 b )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign, bSign;
433075b6Spvalchev
433075b6Spvalchev    aSign = extractFloat128Sign( a );
433075b6Spvalchev    bSign = extractFloat128Sign( b );
433075b6Spvalchev    if ( aSign == bSign ) {
433075b6Spvalchev        return subFloat128Sigs( a, b, aSign );
433075b6Spvalchev    }
433075b6Spvalchev    else {
433075b6Spvalchev        return addFloat128Sigs( a, b, aSign );
433075b6Spvalchev    }
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of multiplying the quadruple-precision floating-point
433075b6Spvalchevvalues `a' and `b'.  The operation is performed according to the IEC/IEEE
433075b6SpvalchevStandard for Binary Floating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevfloat128 float128_mul( float128 a, float128 b )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign, bSign, zSign;
433075b6Spvalchev    int32 aExp, bExp, zExp;
433075b6Spvalchev    bits64 aSig0, aSig1, bSig0, bSig1, zSig0, zSig1, zSig2, zSig3;
433075b6Spvalchev    float128 z;
433075b6Spvalchev
433075b6Spvalchev    aSig1 = extractFloat128Frac1( a );
433075b6Spvalchev    aSig0 = extractFloat128Frac0( a );
433075b6Spvalchev    aExp = extractFloat128Exp( a );
433075b6Spvalchev    aSign = extractFloat128Sign( a );
433075b6Spvalchev    bSig1 = extractFloat128Frac1( b );
433075b6Spvalchev    bSig0 = extractFloat128Frac0( b );
433075b6Spvalchev    bExp = extractFloat128Exp( b );
433075b6Spvalchev    bSign = extractFloat128Sign( b );
433075b6Spvalchev    zSign = aSign ^ bSign;
433075b6Spvalchev    if ( aExp == 0x7FFF ) {
433075b6Spvalchev        if (    ( aSig0 | aSig1 )
433075b6Spvalchev             || ( ( bExp == 0x7FFF ) && ( bSig0 | bSig1 ) ) ) {
433075b6Spvalchev            return propagateFloat128NaN( a, b );
433075b6Spvalchev        }
433075b6Spvalchev        if ( ( bExp | bSig0 | bSig1 ) == 0 ) goto invalid;
433075b6Spvalchev        return packFloat128( zSign, 0x7FFF, 0, 0 );
433075b6Spvalchev    }
433075b6Spvalchev    if ( bExp == 0x7FFF ) {
433075b6Spvalchev        if ( bSig0 | bSig1 ) return propagateFloat128NaN( a, b );
433075b6Spvalchev        if ( ( aExp | aSig0 | aSig1 ) == 0 ) {
433075b6Spvalchev invalid:
433075b6Spvalchev            float_raise( float_flag_invalid );
433075b6Spvalchev            z.low = float128_default_nan_low;
433075b6Spvalchev            z.high = float128_default_nan_high;
433075b6Spvalchev            return z;
433075b6Spvalchev        }
433075b6Spvalchev        return packFloat128( zSign, 0x7FFF, 0, 0 );
433075b6Spvalchev    }
433075b6Spvalchev    if ( aExp == 0 ) {
433075b6Spvalchev        if ( ( aSig0 | aSig1 ) == 0 ) return packFloat128( zSign, 0, 0, 0 );
433075b6Spvalchev        normalizeFloat128Subnormal( aSig0, aSig1, &aExp, &aSig0, &aSig1 );
433075b6Spvalchev    }
433075b6Spvalchev    if ( bExp == 0 ) {
433075b6Spvalchev        if ( ( bSig0 | bSig1 ) == 0 ) return packFloat128( zSign, 0, 0, 0 );
433075b6Spvalchev        normalizeFloat128Subnormal( bSig0, bSig1, &bExp, &bSig0, &bSig1 );
433075b6Spvalchev    }
433075b6Spvalchev    zExp = aExp + bExp - 0x4000;
433075b6Spvalchev    aSig0 |= LIT64( 0x0001000000000000 );
433075b6Spvalchev    shortShift128Left( bSig0, bSig1, 16, &bSig0, &bSig1 );
433075b6Spvalchev    mul128To256( aSig0, aSig1, bSig0, bSig1, &zSig0, &zSig1, &zSig2, &zSig3 );
433075b6Spvalchev    add128( zSig0, zSig1, aSig0, aSig1, &zSig0, &zSig1 );
433075b6Spvalchev    zSig2 |= ( zSig3 != 0 );
433075b6Spvalchev    if ( LIT64( 0x0002000000000000 ) <= zSig0 ) {
433075b6Spvalchev        shift128ExtraRightJamming(
433075b6Spvalchev            zSig0, zSig1, zSig2, 1, &zSig0, &zSig1, &zSig2 );
433075b6Spvalchev        ++zExp;
433075b6Spvalchev    }
433075b6Spvalchev    return roundAndPackFloat128( zSign, zExp, zSig0, zSig1, zSig2 );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of dividing the quadruple-precision floating-point value
433075b6Spvalchev`a' by the corresponding value `b'.  The operation is performed according to
433075b6Spvalchevthe IEC/IEEE Standard for Binary Floating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevfloat128 float128_div( float128 a, float128 b )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign, bSign, zSign;
433075b6Spvalchev    int32 aExp, bExp, zExp;
433075b6Spvalchev    bits64 aSig0, aSig1, bSig0, bSig1, zSig0, zSig1, zSig2;
433075b6Spvalchev    bits64 rem0, rem1, rem2, rem3, term0, term1, term2, term3;
433075b6Spvalchev    float128 z;
433075b6Spvalchev
433075b6Spvalchev    aSig1 = extractFloat128Frac1( a );
433075b6Spvalchev    aSig0 = extractFloat128Frac0( a );
433075b6Spvalchev    aExp = extractFloat128Exp( a );
433075b6Spvalchev    aSign = extractFloat128Sign( a );
433075b6Spvalchev    bSig1 = extractFloat128Frac1( b );
433075b6Spvalchev    bSig0 = extractFloat128Frac0( b );
433075b6Spvalchev    bExp = extractFloat128Exp( b );
433075b6Spvalchev    bSign = extractFloat128Sign( b );
433075b6Spvalchev    zSign = aSign ^ bSign;
433075b6Spvalchev    if ( aExp == 0x7FFF ) {
433075b6Spvalchev        if ( aSig0 | aSig1 ) return propagateFloat128NaN( a, b );
433075b6Spvalchev        if ( bExp == 0x7FFF ) {
433075b6Spvalchev            if ( bSig0 | bSig1 ) return propagateFloat128NaN( a, b );
433075b6Spvalchev            goto invalid;
433075b6Spvalchev        }
433075b6Spvalchev        return packFloat128( zSign, 0x7FFF, 0, 0 );
433075b6Spvalchev    }
433075b6Spvalchev    if ( bExp == 0x7FFF ) {
433075b6Spvalchev        if ( bSig0 | bSig1 ) return propagateFloat128NaN( a, b );
433075b6Spvalchev        return packFloat128( zSign, 0, 0, 0 );
433075b6Spvalchev    }
433075b6Spvalchev    if ( bExp == 0 ) {
433075b6Spvalchev        if ( ( bSig0 | bSig1 ) == 0 ) {
433075b6Spvalchev            if ( ( aExp | aSig0 | aSig1 ) == 0 ) {
433075b6Spvalchev invalid:
433075b6Spvalchev                float_raise( float_flag_invalid );
433075b6Spvalchev                z.low = float128_default_nan_low;
433075b6Spvalchev                z.high = float128_default_nan_high;
433075b6Spvalchev                return z;
433075b6Spvalchev            }
433075b6Spvalchev            float_raise( float_flag_divbyzero );
433075b6Spvalchev            return packFloat128( zSign, 0x7FFF, 0, 0 );
433075b6Spvalchev        }
433075b6Spvalchev        normalizeFloat128Subnormal( bSig0, bSig1, &bExp, &bSig0, &bSig1 );
433075b6Spvalchev    }
433075b6Spvalchev    if ( aExp == 0 ) {
433075b6Spvalchev        if ( ( aSig0 | aSig1 ) == 0 ) return packFloat128( zSign, 0, 0, 0 );
433075b6Spvalchev        normalizeFloat128Subnormal( aSig0, aSig1, &aExp, &aSig0, &aSig1 );
433075b6Spvalchev    }
433075b6Spvalchev    zExp = aExp - bExp + 0x3FFD;
433075b6Spvalchev    shortShift128Left(
433075b6Spvalchev        aSig0 | LIT64( 0x0001000000000000 ), aSig1, 15, &aSig0, &aSig1 );
433075b6Spvalchev    shortShift128Left(
433075b6Spvalchev        bSig0 | LIT64( 0x0001000000000000 ), bSig1, 15, &bSig0, &bSig1 );
433075b6Spvalchev    if ( le128( bSig0, bSig1, aSig0, aSig1 ) ) {
433075b6Spvalchev        shift128Right( aSig0, aSig1, 1, &aSig0, &aSig1 );
433075b6Spvalchev        ++zExp;
433075b6Spvalchev    }
433075b6Spvalchev    zSig0 = estimateDiv128To64( aSig0, aSig1, bSig0 );
433075b6Spvalchev    mul128By64To192( bSig0, bSig1, zSig0, &term0, &term1, &term2 );
433075b6Spvalchev    sub192( aSig0, aSig1, 0, term0, term1, term2, &rem0, &rem1, &rem2 );
433075b6Spvalchev    while ( (sbits64) rem0 < 0 ) {
433075b6Spvalchev        --zSig0;
433075b6Spvalchev        add192( rem0, rem1, rem2, 0, bSig0, bSig1, &rem0, &rem1, &rem2 );
433075b6Spvalchev    }
433075b6Spvalchev    zSig1 = estimateDiv128To64( rem1, rem2, bSig0 );
433075b6Spvalchev    if ( ( zSig1 & 0x3FFF ) <= 4 ) {
433075b6Spvalchev        mul128By64To192( bSig0, bSig1, zSig1, &term1, &term2, &term3 );
433075b6Spvalchev        sub192( rem1, rem2, 0, term1, term2, term3, &rem1, &rem2, &rem3 );
433075b6Spvalchev        while ( (sbits64) rem1 < 0 ) {
433075b6Spvalchev            --zSig1;
433075b6Spvalchev            add192( rem1, rem2, rem3, 0, bSig0, bSig1, &rem1, &rem2, &rem3 );
433075b6Spvalchev        }
433075b6Spvalchev        zSig1 |= ( ( rem1 | rem2 | rem3 ) != 0 );
433075b6Spvalchev    }
433075b6Spvalchev    shift128ExtraRightJamming( zSig0, zSig1, 0, 15, &zSig0, &zSig1, &zSig2 );
433075b6Spvalchev    return roundAndPackFloat128( zSign, zExp, zSig0, zSig1, zSig2 );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the remainder of the quadruple-precision floating-point value `a'
433075b6Spvalchevwith respect to the corresponding value `b'.  The operation is performed
433075b6Spvalchevaccording to the IEC/IEEE Standard for Binary Floating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevfloat128 float128_rem( float128 a, float128 b )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign, bSign, zSign;
433075b6Spvalchev    int32 aExp, bExp, expDiff;
433075b6Spvalchev    bits64 aSig0, aSig1, bSig0, bSig1, q, term0, term1, term2;
433075b6Spvalchev    bits64 allZero, alternateASig0, alternateASig1, sigMean1;
433075b6Spvalchev    sbits64 sigMean0;
433075b6Spvalchev    float128 z;
433075b6Spvalchev
433075b6Spvalchev    aSig1 = extractFloat128Frac1( a );
433075b6Spvalchev    aSig0 = extractFloat128Frac0( a );
433075b6Spvalchev    aExp = extractFloat128Exp( a );
433075b6Spvalchev    aSign = extractFloat128Sign( a );
433075b6Spvalchev    bSig1 = extractFloat128Frac1( b );
433075b6Spvalchev    bSig0 = extractFloat128Frac0( b );
433075b6Spvalchev    bExp = extractFloat128Exp( b );
433075b6Spvalchev    bSign = extractFloat128Sign( b );
433075b6Spvalchev    if ( aExp == 0x7FFF ) {
433075b6Spvalchev        if (    ( aSig0 | aSig1 )
433075b6Spvalchev             || ( ( bExp == 0x7FFF ) && ( bSig0 | bSig1 ) ) ) {
433075b6Spvalchev            return propagateFloat128NaN( a, b );
433075b6Spvalchev        }
433075b6Spvalchev        goto invalid;
433075b6Spvalchev    }
433075b6Spvalchev    if ( bExp == 0x7FFF ) {
433075b6Spvalchev        if ( bSig0 | bSig1 ) return propagateFloat128NaN( a, b );
433075b6Spvalchev        return a;
433075b6Spvalchev    }
433075b6Spvalchev    if ( bExp == 0 ) {
433075b6Spvalchev        if ( ( bSig0 | bSig1 ) == 0 ) {
433075b6Spvalchev invalid:
433075b6Spvalchev            float_raise( float_flag_invalid );
433075b6Spvalchev            z.low = float128_default_nan_low;
433075b6Spvalchev            z.high = float128_default_nan_high;
433075b6Spvalchev            return z;
433075b6Spvalchev        }
433075b6Spvalchev        normalizeFloat128Subnormal( bSig0, bSig1, &bExp, &bSig0, &bSig1 );
433075b6Spvalchev    }
433075b6Spvalchev    if ( aExp == 0 ) {
433075b6Spvalchev        if ( ( aSig0 | aSig1 ) == 0 ) return a;
433075b6Spvalchev        normalizeFloat128Subnormal( aSig0, aSig1, &aExp, &aSig0, &aSig1 );
433075b6Spvalchev    }
433075b6Spvalchev    expDiff = aExp - bExp;
433075b6Spvalchev    if ( expDiff < -1 ) return a;
433075b6Spvalchev    shortShift128Left(
433075b6Spvalchev        aSig0 | LIT64( 0x0001000000000000 ),
433075b6Spvalchev        aSig1,
433075b6Spvalchev        15 - ( expDiff < 0 ),
433075b6Spvalchev        &aSig0,
433075b6Spvalchev        &aSig1
433075b6Spvalchev    );
433075b6Spvalchev    shortShift128Left(
433075b6Spvalchev        bSig0 | LIT64( 0x0001000000000000 ), bSig1, 15, &bSig0, &bSig1 );
433075b6Spvalchev    q = le128( bSig0, bSig1, aSig0, aSig1 );
433075b6Spvalchev    if ( q ) sub128( aSig0, aSig1, bSig0, bSig1, &aSig0, &aSig1 );
433075b6Spvalchev    expDiff -= 64;
433075b6Spvalchev    while ( 0 < expDiff ) {
433075b6Spvalchev        q = estimateDiv128To64( aSig0, aSig1, bSig0 );
433075b6Spvalchev        q = ( 4 < q ) ? q - 4 : 0;
433075b6Spvalchev        mul128By64To192( bSig0, bSig1, q, &term0, &term1, &term2 );
433075b6Spvalchev        shortShift192Left( term0, term1, term2, 61, &term1, &term2, &allZero );
433075b6Spvalchev        shortShift128Left( aSig0, aSig1, 61, &aSig0, &allZero );
433075b6Spvalchev        sub128( aSig0, 0, term1, term2, &aSig0, &aSig1 );
433075b6Spvalchev        expDiff -= 61;
433075b6Spvalchev    }
433075b6Spvalchev    if ( -64 < expDiff ) {
433075b6Spvalchev        q = estimateDiv128To64( aSig0, aSig1, bSig0 );
433075b6Spvalchev        q = ( 4 < q ) ? q - 4 : 0;
433075b6Spvalchev        q >>= - expDiff;
433075b6Spvalchev        shift128Right( bSig0, bSig1, 12, &bSig0, &bSig1 );
433075b6Spvalchev        expDiff += 52;
433075b6Spvalchev        if ( expDiff < 0 ) {
433075b6Spvalchev            shift128Right( aSig0, aSig1, - expDiff, &aSig0, &aSig1 );
433075b6Spvalchev        }
433075b6Spvalchev        else {
433075b6Spvalchev            shortShift128Left( aSig0, aSig1, expDiff, &aSig0, &aSig1 );
433075b6Spvalchev        }
433075b6Spvalchev        mul128By64To192( bSig0, bSig1, q, &term0, &term1, &term2 );
433075b6Spvalchev        sub128( aSig0, aSig1, term1, term2, &aSig0, &aSig1 );
433075b6Spvalchev    }
433075b6Spvalchev    else {
433075b6Spvalchev        shift128Right( aSig0, aSig1, 12, &aSig0, &aSig1 );
433075b6Spvalchev        shift128Right( bSig0, bSig1, 12, &bSig0, &bSig1 );
433075b6Spvalchev    }
433075b6Spvalchev    do {
433075b6Spvalchev        alternateASig0 = aSig0;
433075b6Spvalchev        alternateASig1 = aSig1;
433075b6Spvalchev        ++q;
433075b6Spvalchev        sub128( aSig0, aSig1, bSig0, bSig1, &aSig0, &aSig1 );
433075b6Spvalchev    } while ( 0 <= (sbits64) aSig0 );
433075b6Spvalchev    add128(
433075b6Spvalchev        aSig0, aSig1, alternateASig0, alternateASig1, &sigMean0, &sigMean1 );
433075b6Spvalchev    if (    ( sigMean0 < 0 )
433075b6Spvalchev         || ( ( ( sigMean0 | sigMean1 ) == 0 ) && ( q & 1 ) ) ) {
433075b6Spvalchev        aSig0 = alternateASig0;
433075b6Spvalchev        aSig1 = alternateASig1;
433075b6Spvalchev    }
433075b6Spvalchev    zSign = ( (sbits64) aSig0 < 0 );
433075b6Spvalchev    if ( zSign ) sub128( 0, 0, aSig0, aSig1, &aSig0, &aSig1 );
433075b6Spvalchev    return
433075b6Spvalchev        normalizeRoundAndPackFloat128( aSign ^ zSign, bExp - 4, aSig0, aSig1 );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the square root of the quadruple-precision floating-point value `a'.
433075b6SpvalchevThe operation is performed according to the IEC/IEEE Standard for Binary
433075b6SpvalchevFloating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevfloat128 float128_sqrt( float128 a )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign;
433075b6Spvalchev    int32 aExp, zExp;
433075b6Spvalchev    bits64 aSig0, aSig1, zSig0, zSig1, zSig2, doubleZSig0;
433075b6Spvalchev    bits64 rem0, rem1, rem2, rem3, term0, term1, term2, term3;
433075b6Spvalchev    float128 z;
433075b6Spvalchev
433075b6Spvalchev    aSig1 = extractFloat128Frac1( a );
433075b6Spvalchev    aSig0 = extractFloat128Frac0( a );
433075b6Spvalchev    aExp = extractFloat128Exp( a );
433075b6Spvalchev    aSign = extractFloat128Sign( a );
433075b6Spvalchev    if ( aExp == 0x7FFF ) {
433075b6Spvalchev        if ( aSig0 | aSig1 ) return propagateFloat128NaN( a, a );
433075b6Spvalchev        if ( ! aSign ) return a;
433075b6Spvalchev        goto invalid;
433075b6Spvalchev    }
433075b6Spvalchev    if ( aSign ) {
433075b6Spvalchev        if ( ( aExp | aSig0 | aSig1 ) == 0 ) return a;
433075b6Spvalchev invalid:
433075b6Spvalchev        float_raise( float_flag_invalid );
433075b6Spvalchev        z.low = float128_default_nan_low;
433075b6Spvalchev        z.high = float128_default_nan_high;
433075b6Spvalchev        return z;
433075b6Spvalchev    }
433075b6Spvalchev    if ( aExp == 0 ) {
433075b6Spvalchev        if ( ( aSig0 | aSig1 ) == 0 ) return packFloat128( 0, 0, 0, 0 );
433075b6Spvalchev        normalizeFloat128Subnormal( aSig0, aSig1, &aExp, &aSig0, &aSig1 );
433075b6Spvalchev    }
433075b6Spvalchev    zExp = ( ( aExp - 0x3FFF )>>1 ) + 0x3FFE;
433075b6Spvalchev    aSig0 |= LIT64( 0x0001000000000000 );
433075b6Spvalchev    zSig0 = estimateSqrt32( aExp, aSig0>>17 );
433075b6Spvalchev    shortShift128Left( aSig0, aSig1, 13 - ( aExp & 1 ), &aSig0, &aSig1 );
433075b6Spvalchev    zSig0 = estimateDiv128To64( aSig0, aSig1, zSig0<<32 ) + ( zSig0<<30 );
433075b6Spvalchev    doubleZSig0 = zSig0<<1;
433075b6Spvalchev    mul64To128( zSig0, zSig0, &term0, &term1 );
433075b6Spvalchev    sub128( aSig0, aSig1, term0, term1, &rem0, &rem1 );
433075b6Spvalchev    while ( (sbits64) rem0 < 0 ) {
433075b6Spvalchev        --zSig0;
433075b6Spvalchev        doubleZSig0 -= 2;
433075b6Spvalchev        add128( rem0, rem1, zSig0>>63, doubleZSig0 | 1, &rem0, &rem1 );
433075b6Spvalchev    }
433075b6Spvalchev    zSig1 = estimateDiv128To64( rem1, 0, doubleZSig0 );
433075b6Spvalchev    if ( ( zSig1 & 0x1FFF ) <= 5 ) {
433075b6Spvalchev        if ( zSig1 == 0 ) zSig1 = 1;
433075b6Spvalchev        mul64To128( doubleZSig0, zSig1, &term1, &term2 );
433075b6Spvalchev        sub128( rem1, 0, term1, term2, &rem1, &rem2 );
433075b6Spvalchev        mul64To128( zSig1, zSig1, &term2, &term3 );
433075b6Spvalchev        sub192( rem1, rem2, 0, 0, term2, term3, &rem1, &rem2, &rem3 );
433075b6Spvalchev        while ( (sbits64) rem1 < 0 ) {
433075b6Spvalchev            --zSig1;
433075b6Spvalchev            shortShift128Left( 0, zSig1, 1, &term2, &term3 );
433075b6Spvalchev            term3 |= 1;
433075b6Spvalchev            term2 |= doubleZSig0;
433075b6Spvalchev            add192( rem1, rem2, rem3, 0, term2, term3, &rem1, &rem2, &rem3 );
433075b6Spvalchev        }
433075b6Spvalchev        zSig1 |= ( ( rem1 | rem2 | rem3 ) != 0 );
433075b6Spvalchev    }
433075b6Spvalchev    shift128ExtraRightJamming( zSig0, zSig1, 0, 14, &zSig0, &zSig1, &zSig2 );
433075b6Spvalchev    return roundAndPackFloat128( 0, zExp, zSig0, zSig1, zSig2 );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns 1 if the quadruple-precision floating-point value `a' is equal to
433075b6Spvalchevthe corresponding value `b', and 0 otherwise.  The comparison is performed
433075b6Spvalchevaccording to the IEC/IEEE Standard for Binary Floating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevflag float128_eq( float128 a, float128 b )
433075b6Spvalchev{
433075b6Spvalchev
433075b6Spvalchev    if (    (    ( extractFloat128Exp( a ) == 0x7FFF )
433075b6Spvalchev              && ( extractFloat128Frac0( a ) | extractFloat128Frac1( a ) ) )
433075b6Spvalchev         || (    ( extractFloat128Exp( b ) == 0x7FFF )
433075b6Spvalchev              && ( extractFloat128Frac0( b ) | extractFloat128Frac1( b ) ) )
433075b6Spvalchev       ) {
433075b6Spvalchev        if (    float128_is_signaling_nan( a )
433075b6Spvalchev             || float128_is_signaling_nan( b ) ) {
433075b6Spvalchev            float_raise( float_flag_invalid );
433075b6Spvalchev        }
433075b6Spvalchev        return 0;
433075b6Spvalchev    }
433075b6Spvalchev    return
433075b6Spvalchev           ( a.low == b.low )
433075b6Spvalchev        && (    ( a.high == b.high )
433075b6Spvalchev             || (    ( a.low == 0 )
433075b6Spvalchev                  && ( (bits64) ( ( a.high | b.high )<<1 ) == 0 ) )
433075b6Spvalchev           );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns 1 if the quadruple-precision floating-point value `a' is less than
433075b6Spvalchevor equal to the corresponding value `b', and 0 otherwise.  The comparison
433075b6Spvalchevis performed according to the IEC/IEEE Standard for Binary Floating-Point
433075b6SpvalchevArithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevflag float128_le( float128 a, float128 b )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign, bSign;
433075b6Spvalchev
433075b6Spvalchev    if (    (    ( extractFloat128Exp( a ) == 0x7FFF )
433075b6Spvalchev              && ( extractFloat128Frac0( a ) | extractFloat128Frac1( a ) ) )
433075b6Spvalchev         || (    ( extractFloat128Exp( b ) == 0x7FFF )
433075b6Spvalchev              && ( extractFloat128Frac0( b ) | extractFloat128Frac1( b ) ) )
433075b6Spvalchev       ) {
433075b6Spvalchev        float_raise( float_flag_invalid );
433075b6Spvalchev        return 0;
433075b6Spvalchev    }
433075b6Spvalchev    aSign = extractFloat128Sign( a );
433075b6Spvalchev    bSign = extractFloat128Sign( b );
433075b6Spvalchev    if ( aSign != bSign ) {
433075b6Spvalchev        return
433075b6Spvalchev               aSign
433075b6Spvalchev            || (    ( ( (bits64) ( ( a.high | b.high )<<1 ) ) | a.low | b.low )
433075b6Spvalchev                 == 0 );
433075b6Spvalchev    }
433075b6Spvalchev    return
433075b6Spvalchev          aSign ? le128( b.high, b.low, a.high, a.low )
433075b6Spvalchev        : le128( a.high, a.low, b.high, b.low );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns 1 if the quadruple-precision floating-point value `a' is less than
433075b6Spvalchevthe corresponding value `b', and 0 otherwise.  The comparison is performed
433075b6Spvalchevaccording to the IEC/IEEE Standard for Binary Floating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevflag float128_lt( float128 a, float128 b )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign, bSign;
433075b6Spvalchev
433075b6Spvalchev    if (    (    ( extractFloat128Exp( a ) == 0x7FFF )
433075b6Spvalchev              && ( extractFloat128Frac0( a ) | extractFloat128Frac1( a ) ) )
433075b6Spvalchev         || (    ( extractFloat128Exp( b ) == 0x7FFF )
433075b6Spvalchev              && ( extractFloat128Frac0( b ) | extractFloat128Frac1( b ) ) )
433075b6Spvalchev       ) {
433075b6Spvalchev        float_raise( float_flag_invalid );
433075b6Spvalchev        return 0;
433075b6Spvalchev    }
433075b6Spvalchev    aSign = extractFloat128Sign( a );
433075b6Spvalchev    bSign = extractFloat128Sign( b );
433075b6Spvalchev    if ( aSign != bSign ) {
433075b6Spvalchev        return
433075b6Spvalchev               aSign
433075b6Spvalchev            && (    ( ( (bits64) ( ( a.high | b.high )<<1 ) ) | a.low | b.low )
433075b6Spvalchev                 != 0 );
433075b6Spvalchev    }
433075b6Spvalchev    return
433075b6Spvalchev          aSign ? lt128( b.high, b.low, a.high, a.low )
433075b6Spvalchev        : lt128( a.high, a.low, b.high, b.low );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns 1 if the quadruple-precision floating-point value `a' is equal to
433075b6Spvalchevthe corresponding value `b', and 0 otherwise.  The invalid exception is
433075b6Spvalchevraised if either operand is a NaN.  Otherwise, the comparison is performed
433075b6Spvalchevaccording to the IEC/IEEE Standard for Binary Floating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevflag float128_eq_signaling( float128 a, float128 b )
433075b6Spvalchev{
433075b6Spvalchev
433075b6Spvalchev    if (    (    ( extractFloat128Exp( a ) == 0x7FFF )
433075b6Spvalchev              && ( extractFloat128Frac0( a ) | extractFloat128Frac1( a ) ) )
433075b6Spvalchev         || (    ( extractFloat128Exp( b ) == 0x7FFF )
433075b6Spvalchev              && ( extractFloat128Frac0( b ) | extractFloat128Frac1( b ) ) )
433075b6Spvalchev       ) {
433075b6Spvalchev        float_raise( float_flag_invalid );
433075b6Spvalchev        return 0;
433075b6Spvalchev    }
433075b6Spvalchev    return
433075b6Spvalchev           ( a.low == b.low )
433075b6Spvalchev        && (    ( a.high == b.high )
433075b6Spvalchev             || (    ( a.low == 0 )
433075b6Spvalchev                  && ( (bits64) ( ( a.high | b.high )<<1 ) == 0 ) )
433075b6Spvalchev           );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns 1 if the quadruple-precision floating-point value `a' is less than
433075b6Spvalchevor equal to the corresponding value `b', and 0 otherwise.  Quiet NaNs do not
433075b6Spvalchevcause an exception.  Otherwise, the comparison is performed according to the
433075b6SpvalchevIEC/IEEE Standard for Binary Floating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevflag float128_le_quiet( float128 a, float128 b )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign, bSign;
433075b6Spvalchev
433075b6Spvalchev    if (    (    ( extractFloat128Exp( a ) == 0x7FFF )
433075b6Spvalchev              && ( extractFloat128Frac0( a ) | extractFloat128Frac1( a ) ) )
433075b6Spvalchev         || (    ( extractFloat128Exp( b ) == 0x7FFF )
433075b6Spvalchev              && ( extractFloat128Frac0( b ) | extractFloat128Frac1( b ) ) )
433075b6Spvalchev       ) {
433075b6Spvalchev        if (    float128_is_signaling_nan( a )
433075b6Spvalchev             || float128_is_signaling_nan( b ) ) {
433075b6Spvalchev            float_raise( float_flag_invalid );
433075b6Spvalchev        }
433075b6Spvalchev        return 0;
433075b6Spvalchev    }
433075b6Spvalchev    aSign = extractFloat128Sign( a );
433075b6Spvalchev    bSign = extractFloat128Sign( b );
433075b6Spvalchev    if ( aSign != bSign ) {
433075b6Spvalchev        return
433075b6Spvalchev               aSign
433075b6Spvalchev            || (    ( ( (bits64) ( ( a.high | b.high )<<1 ) ) | a.low | b.low )
433075b6Spvalchev                 == 0 );
433075b6Spvalchev    }
433075b6Spvalchev    return
433075b6Spvalchev          aSign ? le128( b.high, b.low, a.high, a.low )
433075b6Spvalchev        : le128( a.high, a.low, b.high, b.low );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns 1 if the quadruple-precision floating-point value `a' is less than
433075b6Spvalchevthe corresponding value `b', and 0 otherwise.  Quiet NaNs do not cause an
433075b6Spvalchevexception.  Otherwise, the comparison is performed according to the IEC/IEEE
433075b6SpvalchevStandard for Binary Floating-Point Arithmetic.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevflag float128_lt_quiet( float128 a, float128 b )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign, bSign;
433075b6Spvalchev
433075b6Spvalchev    if (    (    ( extractFloat128Exp( a ) == 0x7FFF )
433075b6Spvalchev              && ( extractFloat128Frac0( a ) | extractFloat128Frac1( a ) ) )
433075b6Spvalchev         || (    ( extractFloat128Exp( b ) == 0x7FFF )
433075b6Spvalchev              && ( extractFloat128Frac0( b ) | extractFloat128Frac1( b ) ) )
433075b6Spvalchev       ) {
433075b6Spvalchev        if (    float128_is_signaling_nan( a )
433075b6Spvalchev             || float128_is_signaling_nan( b ) ) {
433075b6Spvalchev            float_raise( float_flag_invalid );
433075b6Spvalchev        }
433075b6Spvalchev        return 0;
433075b6Spvalchev    }
433075b6Spvalchev    aSign = extractFloat128Sign( a );
433075b6Spvalchev    bSign = extractFloat128Sign( b );
433075b6Spvalchev    if ( aSign != bSign ) {
433075b6Spvalchev        return
433075b6Spvalchev               aSign
433075b6Spvalchev            && (    ( ( (bits64) ( ( a.high | b.high )<<1 ) ) | a.low | b.low )
433075b6Spvalchev                 != 0 );
433075b6Spvalchev    }
433075b6Spvalchev    return
433075b6Spvalchev          aSign ? lt128( b.high, b.low, a.high, a.low )
433075b6Spvalchev        : lt128( a.high, a.low, b.high, b.low );
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev#endif
433075b6Spvalchev
433075b6Spvalchev
433075b6Spvalchev#if defined(SOFTFLOAT_FOR_GCC) && defined(SOFTFLOAT_NEED_FIXUNS)
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev * These two routines are not part of the original softfloat distribution.
433075b6Spvalchev *
433075b6Spvalchev * They are based on the corresponding conversions to integer but return
433075b6Spvalchev * unsigned numbers instead since these functions are required by GCC.
433075b6Spvalchev *
433075b6Spvalchev * Added by Mark Brinicombe <mark@netbsd.org>	27/09/97
433075b6Spvalchev *
433075b6Spvalchev * float64 version overhauled for SoftFloat 2a [bjh21 2000-07-15]
433075b6Spvalchev */
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of converting the double-precision floating-point value
433075b6Spvalchev`a' to the 32-bit unsigned integer format.  The conversion is
433075b6Spvalchevperformed according to the IEC/IEEE Standard for Binary Floating-point
433075b6SpvalchevArithmetic, except that the conversion is always rounded toward zero.  If
433075b6Spvalchev`a' is a NaN, the largest positive integer is returned.  If the conversion
433075b6Spvalchevoverflows, the largest integer positive is returned.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevuint32 float64_to_uint32_round_to_zero( float64 a )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign;
433075b6Spvalchev    int16 aExp, shiftCount;
433075b6Spvalchev    bits64 aSig, savedASig;
433075b6Spvalchev    uint32 z;
433075b6Spvalchev
433075b6Spvalchev    aSig = extractFloat64Frac( a );
433075b6Spvalchev    aExp = extractFloat64Exp( a );
433075b6Spvalchev    aSign = extractFloat64Sign( a );
433075b6Spvalchev
433075b6Spvalchev    if (aSign) {
433075b6Spvalchev        float_raise( float_flag_invalid );
433075b6Spvalchev    	return(0);
433075b6Spvalchev    }
433075b6Spvalchev
433075b6Spvalchev    if ( 0x41E < aExp ) {
433075b6Spvalchev        float_raise( float_flag_invalid );
433075b6Spvalchev        return 0xffffffff;
433075b6Spvalchev    }
433075b6Spvalchev    else if ( aExp < 0x3FF ) {
433075b6Spvalchev        if ( aExp || aSig ) float_set_inexact();
433075b6Spvalchev        return 0;
433075b6Spvalchev    }
433075b6Spvalchev    aSig |= LIT64( 0x0010000000000000 );
433075b6Spvalchev    shiftCount = 0x433 - aExp;
433075b6Spvalchev    savedASig = aSig;
433075b6Spvalchev    aSig >>= shiftCount;
433075b6Spvalchev    z = aSig;
433075b6Spvalchev    if ( ( aSig<<shiftCount ) != savedASig ) {
433075b6Spvalchev        float_set_inexact();
433075b6Spvalchev    }
433075b6Spvalchev    return z;
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev/*
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6SpvalchevReturns the result of converting the single-precision floating-point value
433075b6Spvalchev`a' to the 32-bit unsigned integer format.  The conversion is
433075b6Spvalchevperformed according to the IEC/IEEE Standard for Binary Floating-point
433075b6SpvalchevArithmetic, except that the conversion is always rounded toward zero.  If
433075b6Spvalchev`a' is a NaN, the largest positive integer is returned.  If the conversion
433075b6Spvalchevoverflows, the largest positive integer is returned.
433075b6Spvalchev-------------------------------------------------------------------------------
433075b6Spvalchev*/
433075b6Spvalchevuint32 float32_to_uint32_round_to_zero( float32 a )
433075b6Spvalchev{
433075b6Spvalchev    flag aSign;
433075b6Spvalchev    int16 aExp, shiftCount;
433075b6Spvalchev    bits32 aSig;
433075b6Spvalchev    uint32 z;
433075b6Spvalchev
433075b6Spvalchev    aSig = extractFloat32Frac( a );
433075b6Spvalchev    aExp = extractFloat32Exp( a );
433075b6Spvalchev    aSign = extractFloat32Sign( a );
433075b6Spvalchev    shiftCount = aExp - 0x9E;
433075b6Spvalchev
433075b6Spvalchev    if (aSign) {
433075b6Spvalchev        float_raise( float_flag_invalid );
433075b6Spvalchev    	return(0);
433075b6Spvalchev    }
433075b6Spvalchev    if ( 0 < shiftCount ) {
433075b6Spvalchev        float_raise( float_flag_invalid );
433075b6Spvalchev        return 0xFFFFFFFF;
433075b6Spvalchev    }
433075b6Spvalchev    else if ( aExp <= 0x7E ) {
433075b6Spvalchev        if ( aExp | aSig ) float_set_inexact();
433075b6Spvalchev        return 0;
433075b6Spvalchev    }
433075b6Spvalchev    aSig = ( aSig | 0x800000 )<<8;
433075b6Spvalchev    z = aSig>>( - shiftCount );
433075b6Spvalchev    if ( aSig<<( shiftCount & 31 ) ) {
433075b6Spvalchev        float_set_inexact();
433075b6Spvalchev    }
433075b6Spvalchev    return z;
433075b6Spvalchev
433075b6Spvalchev}
433075b6Spvalchev
433075b6Spvalchev#endif