internal/math/biguintnoasm.d

181254a7Smrg/** Arbitrary precision arithmetic ('bignum') for processors with no asm support
181254a7Smrg *
181254a7Smrg * All functions operate on arrays of uints, stored LSB first.
181254a7Smrg * If there is a destination array, it will be the first parameter.
181254a7Smrg * Currently, all of these functions are subject to change, and are
181254a7Smrg * intended for internal use only.
181254a7Smrg * This module is intended only to assist development of high-speed routines
181254a7Smrg * on currently unsupported processors.
181254a7Smrg * The X86 asm version is about 30 times faster than the D version (DMD).
181254a7Smrg */
181254a7Smrg
181254a7Smrg/*          Copyright Don Clugston 2008 - 2010.
181254a7Smrg * Distributed under the Boost Software License, Version 1.0.
181254a7Smrg *    (See accompanying file LICENSE_1_0.txt or copy at
181254a7Smrg *          http://www.boost.org/LICENSE_1_0.txt)
181254a7Smrg */
181254a7Smrg
181254a7Smrgmodule std.internal.math.biguintnoasm;
181254a7Smrg
181254a7Smrgnothrow:
181254a7Smrg@safe:
181254a7Smrg
181254a7Smrgpublic:
181254a7Smrgalias BigDigit = uint; // A Bignum is an array of BigDigits.
181254a7Smrg
181254a7Smrg    // Limits for when to switch between multiplication algorithms.
181254a7Smrgenum int KARATSUBALIMIT = 10; // Minimum value for which Karatsuba is worthwhile.
181254a7Smrgenum int KARATSUBASQUARELIMIT = 12; // Minimum value for which square Karatsuba is worthwhile
181254a7Smrg
181254a7Smrg
181254a7Smrg/** Multi-byte addition or subtraction
181254a7Smrg *    dest[] = src1[] + src2[] + carry (0 or 1).
181254a7Smrg * or dest[] = src1[] - src2[] - carry (0 or 1).
181254a7Smrg * Returns carry or borrow (0 or 1).
181254a7Smrg * Set op == '+' for addition, '-' for subtraction.
181254a7Smrg */
181254a7Smrguint multibyteAddSub(char op)(uint[] dest, const(uint) [] src1,
181254a7Smrg    const (uint) [] src2, uint carry) pure @nogc @safe
181254a7Smrg{
181254a7Smrg    ulong c = carry;
181254a7Smrg    for (size_t i = 0; i < src2.length; ++i)
181254a7Smrg    {
181254a7Smrg        static if (op=='+') c = c  + src1[i] + src2[i];
181254a7Smrg             else           c = cast(ulong) src1[i] - src2[i] - c;
181254a7Smrg        dest[i] = cast(uint) c;
181254a7Smrg        c = (c > 0xFFFF_FFFF);
181254a7Smrg    }
181254a7Smrg    return cast(uint) c;
181254a7Smrg}
181254a7Smrg
181254a7Smrg@safe unittest
181254a7Smrg{
181254a7Smrg    uint [] a = new uint[40];
181254a7Smrg    uint [] b = new uint[40];
181254a7Smrg    uint [] c = new uint[40];
181254a7Smrg    for (size_t i = 0; i < a.length; ++i)
181254a7Smrg    {
181254a7Smrg        if (i&1) a[i]=cast(uint)(0x8000_0000 + i);
181254a7Smrg        else a[i]=cast(uint) i;
181254a7Smrg        b[i]= 0x8000_0003;
181254a7Smrg    }
181254a7Smrg    c[19]=0x3333_3333;
181254a7Smrg    uint carry = multibyteAddSub!('+')(c[0 .. 18], b[0 .. 18], a[0 .. 18], 0);
*b1e83836Smrg    assert(c[0]==0x8000_0003, "c[0] has invalid value");
*b1e83836Smrg    assert(c[1]==4, "c[1] must be for");
*b1e83836Smrg    assert(c[19]==0x3333_3333, "c[19] has invalid value"); // check for overrun
*b1e83836Smrg    assert(carry == 1, "carry must be 1");
181254a7Smrg    for (size_t i = 0; i < a.length; ++i)
181254a7Smrg    {
181254a7Smrg        a[i] = b[i] = c[i] = 0;
181254a7Smrg    }
181254a7Smrg    a[8]=0x048D159E;
181254a7Smrg    b[8]=0x048D159E;
181254a7Smrg    a[10]=0x1D950C84;
181254a7Smrg    b[10]=0x1D950C84;
181254a7Smrg    a[5] =0x44444444;
181254a7Smrg    carry = multibyteAddSub!('-')(a[0 .. 12], a[0 .. 12], b[0 .. 12], 0);
*b1e83836Smrg    assert(a[11] == 0, "a[11] must be 0");
181254a7Smrg    for (size_t i = 0; i < 10; ++i)
181254a7Smrg        if (i != 5)
*b1e83836Smrg            assert(a[i] == 0, "a[1] must be 0");
181254a7Smrg
181254a7Smrg    for (size_t q = 3; q < 36; ++q)
181254a7Smrg    {
181254a7Smrg        for (size_t i = 0; i< a.length; ++i)
181254a7Smrg        {
181254a7Smrg            a[i] = b[i] = c[i] = 0;
181254a7Smrg        }
181254a7Smrg        a[q-2]=0x040000;
181254a7Smrg        b[q-2]=0x040000;
181254a7Smrg       carry = multibyteAddSub!('-')(a[0 .. q], a[0 .. q], b[0 .. q], 0);
*b1e83836Smrg       assert(a[q-2]==0, "a[q-2] must be 0");
181254a7Smrg    }
181254a7Smrg}
181254a7Smrg
181254a7Smrg
181254a7Smrg
181254a7Smrg/** dest[] += carry, or dest[] -= carry.
181254a7Smrg *  op must be '+' or '-'
181254a7Smrg *  Returns final carry or borrow (0 or 1)
181254a7Smrg */
181254a7Smrguint multibyteIncrementAssign(char op)(uint[] dest, uint carry)
181254a7Smrg    pure @nogc @safe
181254a7Smrg{
181254a7Smrg    static if (op=='+')
181254a7Smrg    {
181254a7Smrg        ulong c = carry;
181254a7Smrg        c += dest[0];
181254a7Smrg        dest[0] = cast(uint) c;
181254a7Smrg        if (c <= 0xFFFF_FFFF)
181254a7Smrg            return 0;
181254a7Smrg
181254a7Smrg        for (size_t i = 1; i < dest.length; ++i)
181254a7Smrg        {
181254a7Smrg            ++dest[i];
181254a7Smrg            if (dest[i] != 0)
181254a7Smrg                return 0;
181254a7Smrg        }
181254a7Smrg        return 1;
181254a7Smrg    }
181254a7Smrg    else
181254a7Smrg    {
181254a7Smrg        ulong c = carry;
181254a7Smrg        c = dest[0] - c;
181254a7Smrg        dest[0] = cast(uint) c;
181254a7Smrg        if (c <= 0xFFFF_FFFF)
181254a7Smrg            return 0;
181254a7Smrg        for (size_t i = 1; i < dest.length; ++i)
181254a7Smrg        {
181254a7Smrg            --dest[i];
181254a7Smrg            if (dest[i] != 0xFFFF_FFFF)
181254a7Smrg                return 0;
181254a7Smrg        }
181254a7Smrg        return 1;
181254a7Smrg    }
181254a7Smrg}
181254a7Smrg
181254a7Smrg/** dest[] = src[] << numbits
181254a7Smrg *  numbits must be in the range 1 .. 31
181254a7Smrg */
181254a7Smrguint multibyteShl(uint [] dest, const(uint) [] src, uint numbits)
181254a7Smrg    pure @nogc @safe
181254a7Smrg{
181254a7Smrg    ulong c = 0;
181254a7Smrg    for (size_t i = 0; i < dest.length; ++i)
181254a7Smrg    {
181254a7Smrg        c += (cast(ulong)(src[i]) << numbits);
181254a7Smrg        dest[i] = cast(uint) c;
181254a7Smrg        c >>>= 32;
181254a7Smrg   }
181254a7Smrg   return cast(uint) c;
181254a7Smrg}
181254a7Smrg
181254a7Smrg
181254a7Smrg/** dest[] = src[] >> numbits
181254a7Smrg *  numbits must be in the range 1 .. 31
181254a7Smrg */
181254a7Smrgvoid multibyteShr(uint [] dest, const(uint) [] src, uint numbits)
181254a7Smrg    pure @nogc @safe
181254a7Smrg{
181254a7Smrg    ulong c = 0;
181254a7Smrg    for (ptrdiff_t i = dest.length; i != 0; --i)
181254a7Smrg    {
181254a7Smrg        c += (src[i-1] >>numbits) + (cast(ulong)(src[i-1]) << (64 - numbits));
181254a7Smrg        dest[i-1] = cast(uint) c;
181254a7Smrg        c >>>= 32;
181254a7Smrg   }
181254a7Smrg}
181254a7Smrg
181254a7Smrg@safe unittest
181254a7Smrg{
181254a7Smrg
181254a7Smrg    uint [] aa = [0x1222_2223, 0x4555_5556, 0x8999_999A, 0xBCCC_CCCD, 0xEEEE_EEEE];
181254a7Smrg    multibyteShr(aa[0..$-2], aa, 4);
181254a7Smrg    assert(aa[0] == 0x6122_2222 && aa[1] == 0xA455_5555 && aa[2] == 0x0899_9999);
181254a7Smrg    assert(aa[3] == 0xBCCC_CCCD);
181254a7Smrg
181254a7Smrg    aa = [0x1222_2223, 0x4555_5556, 0x8999_999A, 0xBCCC_CCCD, 0xEEEE_EEEE];
181254a7Smrg    multibyteShr(aa[0..$-1], aa, 4);
181254a7Smrg    assert(aa[0] == 0x6122_2222 && aa[1] == 0xA455_5555
181254a7Smrg        && aa[2] == 0xD899_9999 && aa[3] == 0x0BCC_CCCC);
181254a7Smrg
181254a7Smrg    aa = [0xF0FF_FFFF, 0x1222_2223, 0x4555_5556, 0x8999_999A, 0xBCCC_CCCD,
181254a7Smrg        0xEEEE_EEEE];
181254a7Smrg    multibyteShl(aa[1 .. 4], aa[1..$], 4);
181254a7Smrg    assert(aa[0] == 0xF0FF_FFFF && aa[1] == 0x2222_2230
181254a7Smrg        && aa[2]==0x5555_5561 && aa[3]==0x9999_99A4 && aa[4]==0x0BCCC_CCCD);
181254a7Smrg}
181254a7Smrg
181254a7Smrg/** dest[] = src[] * multiplier + carry.
181254a7Smrg * Returns carry.
181254a7Smrg */
181254a7Smrguint multibyteMul(uint[] dest, const(uint)[] src, uint multiplier, uint carry)
181254a7Smrg    pure @nogc @safe
181254a7Smrg{
*b1e83836Smrg    assert(dest.length == src.length, "dest and src must have the same length");
181254a7Smrg    ulong c = carry;
181254a7Smrg    for (size_t i = 0; i < src.length; ++i)
181254a7Smrg    {
181254a7Smrg        c += cast(ulong)(src[i]) * multiplier;
181254a7Smrg        dest[i] = cast(uint) c;
181254a7Smrg        c>>=32;
181254a7Smrg    }
181254a7Smrg    return cast(uint) c;
181254a7Smrg}
181254a7Smrg
181254a7Smrg@safe unittest
181254a7Smrg{
181254a7Smrg    uint [] aa = [0xF0FF_FFFF, 0x1222_2223, 0x4555_5556, 0x8999_999A,
181254a7Smrg        0xBCCC_CCCD, 0xEEEE_EEEE];
181254a7Smrg    multibyteMul(aa[1 .. 4], aa[1 .. 4], 16, 0);
181254a7Smrg    assert(aa[0] == 0xF0FF_FFFF && aa[1] == 0x2222_2230 && aa[2]==0x5555_5561
181254a7Smrg        && aa[3]==0x9999_99A4 && aa[4]==0x0BCCC_CCCD);
181254a7Smrg}
181254a7Smrg
181254a7Smrg/**
181254a7Smrg * dest[] += src[] * multiplier + carry(0 .. FFFF_FFFF).
181254a7Smrg * Returns carry out of MSB (0 .. FFFF_FFFF).
181254a7Smrg */
181254a7Smrguint multibyteMulAdd(char op)(uint [] dest, const(uint)[] src,
181254a7Smrg    uint multiplier, uint carry) pure @nogc @safe
181254a7Smrg{
*b1e83836Smrg    assert(dest.length == src.length, "dest and src must have the same length");
181254a7Smrg    ulong c = carry;
181254a7Smrg    for (size_t i = 0; i < src.length; ++i)
181254a7Smrg    {
181254a7Smrg        static if (op=='+')
181254a7Smrg        {
181254a7Smrg            c += cast(ulong)(multiplier) * src[i]  + dest[i];
181254a7Smrg            dest[i] = cast(uint) c;
181254a7Smrg            c >>= 32;
181254a7Smrg        }
181254a7Smrg        else
181254a7Smrg        {
181254a7Smrg            c += cast(ulong) multiplier * src[i];
181254a7Smrg            ulong t = cast(ulong) dest[i] - cast(uint) c;
181254a7Smrg            dest[i] = cast(uint) t;
181254a7Smrg            c = cast(uint)((c >> 32) - (t >> 32));
181254a7Smrg        }
181254a7Smrg    }
181254a7Smrg    return cast(uint) c;
181254a7Smrg}
181254a7Smrg
181254a7Smrg@safe unittest
181254a7Smrg{
181254a7Smrg
181254a7Smrg    uint [] aa = [0xF0FF_FFFF, 0x1222_2223, 0x4555_5556, 0x8999_999A,
181254a7Smrg        0xBCCC_CCCD, 0xEEEE_EEEE];
181254a7Smrg    uint [] bb = [0x1234_1234, 0xF0F0_F0F0, 0x00C0_C0C0, 0xF0F0_F0F0,
181254a7Smrg        0xC0C0_C0C0];
181254a7Smrg    multibyteMulAdd!('+')(bb[1..$-1], aa[1..$-2], 16, 5);
181254a7Smrg    assert(bb[0] == 0x1234_1234 && bb[4] == 0xC0C0_C0C0);
181254a7Smrg    assert(bb[1] == 0x2222_2230 + 0xF0F0_F0F0 + 5
181254a7Smrg        && bb[2] == 0x5555_5561 + 0x00C0_C0C0 + 1
181254a7Smrg        && bb[3] == 0x9999_99A4 + 0xF0F0_F0F0 );
181254a7Smrg}
181254a7Smrg
181254a7Smrg
181254a7Smrg/**
181254a7Smrg   Sets result = result[0 .. left.length] + left * right
181254a7Smrg
181254a7Smrg   It is defined in this way to allow cache-efficient multiplication.
181254a7Smrg   This function is equivalent to:
181254a7Smrg    ----
181254a7Smrg    for (size_t i = 0; i< right.length; ++i)
181254a7Smrg    {
181254a7Smrg        dest[left.length + i] = multibyteMulAdd(dest[i .. left.length+i],
181254a7Smrg                left, right[i], 0);
181254a7Smrg    }
181254a7Smrg    ----
181254a7Smrg */
181254a7Smrgvoid multibyteMultiplyAccumulate(uint [] dest, const(uint)[] left, const(uint)
181254a7Smrg        [] right) pure @nogc @safe
181254a7Smrg{
181254a7Smrg    for (size_t i = 0; i < right.length; ++i)
181254a7Smrg    {
181254a7Smrg        dest[left.length + i] = multibyteMulAdd!('+')(dest[i .. left.length+i],
181254a7Smrg                left, right[i], 0);
181254a7Smrg    }
181254a7Smrg}
181254a7Smrg
181254a7Smrg/**  dest[] /= divisor.
181254a7Smrg * overflow is the initial remainder, and must be in the range 0 .. divisor-1.
181254a7Smrg */
181254a7Smrguint multibyteDivAssign(uint [] dest, uint divisor, uint overflow)
181254a7Smrg    pure @nogc @safe
181254a7Smrg{
181254a7Smrg    ulong c = cast(ulong) overflow;
181254a7Smrg    for (ptrdiff_t i = dest.length-1; i >= 0; --i)
181254a7Smrg    {
181254a7Smrg        c = (c << 32) + cast(ulong)(dest[i]);
181254a7Smrg        uint q = cast(uint)(c/divisor);
181254a7Smrg        c -= divisor * q;
181254a7Smrg        dest[i] = q;
181254a7Smrg    }
181254a7Smrg    return cast(uint) c;
181254a7Smrg}
181254a7Smrg
181254a7Smrg@safe unittest
181254a7Smrg{
181254a7Smrg    uint [] aa = new uint[101];
181254a7Smrg    for (uint i = 0; i < aa.length; ++i)
181254a7Smrg        aa[i] = 0x8765_4321 * (i+3);
181254a7Smrg    uint overflow = multibyteMul(aa, aa, 0x8EFD_FCFB, 0x33FF_7461);
181254a7Smrg    uint r = multibyteDivAssign(aa, 0x8EFD_FCFB, overflow);
181254a7Smrg    for (uint i=0; i<aa.length; ++i)
181254a7Smrg    {
181254a7Smrg        assert(aa[i] == 0x8765_4321 * (i+3));
181254a7Smrg    }
181254a7Smrg    assert(r == 0x33FF_7461);
181254a7Smrg
181254a7Smrg}
181254a7Smrg// Set dest[2*i .. 2*i+1]+=src[i]*src[i]
181254a7Smrgvoid multibyteAddDiagonalSquares(uint[] dest, const(uint)[] src)
181254a7Smrg    pure @nogc @safe
181254a7Smrg{
181254a7Smrg    ulong c = 0;
181254a7Smrg    for (size_t i = 0; i < src.length; ++i)
181254a7Smrg    {
181254a7Smrg        // At this point, c is 0 or 1, since FFFF*FFFF+FFFF_FFFF = 1_0000_0000.
181254a7Smrg        c += cast(ulong)(src[i]) * src[i] + dest[2*i];
181254a7Smrg        dest[2*i] = cast(uint) c;
181254a7Smrg        c = (c>>=32) + dest[2*i+1];
181254a7Smrg        dest[2*i+1] = cast(uint) c;
181254a7Smrg        c >>= 32;
181254a7Smrg    }
181254a7Smrg}
181254a7Smrg
181254a7Smrg// Does half a square multiply. (square = diagonal + 2*triangle)
181254a7Smrgvoid multibyteTriangleAccumulate(uint[] dest, const(uint)[] x)
181254a7Smrg    pure @nogc @safe
181254a7Smrg{
181254a7Smrg    // x[0]*x[1...$] + x[1]*x[2..$] + ... + x[$-2]x[$-1..$]
181254a7Smrg    dest[x.length] = multibyteMul(dest[1 .. x.length], x[1..$], x[0], 0);
181254a7Smrg    if (x.length < 4)
181254a7Smrg    {
181254a7Smrg        if (x.length == 3)
181254a7Smrg        {
181254a7Smrg            ulong c = cast(ulong)(x[$-1]) * x[$-2]  + dest[2*x.length-3];
181254a7Smrg            dest[2*x.length - 3] = cast(uint) c;
181254a7Smrg            c >>= 32;
181254a7Smrg            dest[2*x.length - 2] = cast(uint) c;
181254a7Smrg        }
181254a7Smrg        return;
181254a7Smrg    }
181254a7Smrg    for (size_t i = 2; i < x.length - 2; ++i)
181254a7Smrg    {
181254a7Smrg        dest[i-1+ x.length] = multibyteMulAdd!('+')(
181254a7Smrg             dest[i+i-1 .. i+x.length-1], x[i..$], x[i-1], 0);
181254a7Smrg    }
181254a7Smrg        // Unroll the last two entries, to reduce loop overhead:
181254a7Smrg    ulong  c = cast(ulong)(x[$-3]) * x[$-2] + dest[2*x.length-5];
181254a7Smrg    dest[2*x.length-5] = cast(uint) c;
181254a7Smrg    c >>= 32;
181254a7Smrg    c += cast(ulong)(x[$-3]) * x[$-1] + dest[2*x.length-4];
181254a7Smrg    dest[2*x.length-4] = cast(uint) c;
181254a7Smrg    c >>= 32;
181254a7Smrg    c += cast(ulong)(x[$-1]) * x[$-2];
181254a7Smrg    dest[2*x.length-3] = cast(uint) c;
181254a7Smrg    c >>= 32;
181254a7Smrg    dest[2*x.length-2] = cast(uint) c;
181254a7Smrg}
181254a7Smrg
181254a7Smrgvoid multibyteSquare(BigDigit[] result, const(BigDigit) [] x) pure @nogc @safe
181254a7Smrg{
181254a7Smrg    multibyteTriangleAccumulate(result, x);
181254a7Smrg    result[$-1] = multibyteShl(result[1..$-1], result[1..$-1], 1); // mul by 2
181254a7Smrg    result[0] = 0;
181254a7Smrg    multibyteAddDiagonalSquares(result, x);
181254a7Smrg}