mpn/generic/toom32_mul.c

86d7f5d3SJohn Marino/* mpn_toom32_mul -- Multiply {ap,an} and {bp,bn} where an is nominally 1.5
86d7f5d3SJohn Marino   times as large as bn.  Or more accurately, bn < an < 3bn.
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino   Contributed to the GNU project by Torbjorn Granlund.
86d7f5d3SJohn Marino   Improvements by Marco Bodrato and Niels M�ller.
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino   The idea of applying toom to unbalanced multiplication is due to Marco
86d7f5d3SJohn Marino   Bodrato and Alberto Zanoni.
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino   THE FUNCTION IN THIS FILE IS INTERNAL WITH A MUTABLE INTERFACE.  IT IS ONLY
86d7f5d3SJohn Marino   SAFE TO REACH IT THROUGH DOCUMENTED INTERFACES.  IN FACT, IT IS ALMOST
86d7f5d3SJohn Marino   GUARANTEED THAT IT WILL CHANGE OR DISAPPEAR IN A FUTURE GNU MP RELEASE.
86d7f5d3SJohn Marino
86d7f5d3SJohn MarinoCopyright 2006, 2007, 2008, 2009, 2010 Free Software Foundation, Inc.
86d7f5d3SJohn Marino
86d7f5d3SJohn MarinoThis file is part of the GNU MP Library.
86d7f5d3SJohn Marino
86d7f5d3SJohn MarinoThe GNU MP Library is free software; you can redistribute it and/or modify
86d7f5d3SJohn Marinoit under the terms of the GNU Lesser General Public License as published by
86d7f5d3SJohn Marinothe Free Software Foundation; either version 3 of the License, or (at your
86d7f5d3SJohn Marinooption) any later version.
86d7f5d3SJohn Marino
86d7f5d3SJohn MarinoThe GNU MP Library is distributed in the hope that it will be useful, but
86d7f5d3SJohn MarinoWITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY
86d7f5d3SJohn Marinoor FITNESS FOR A PARTICULAR PURPOSE.  See the GNU Lesser General Public
86d7f5d3SJohn MarinoLicense for more details.
86d7f5d3SJohn Marino
86d7f5d3SJohn MarinoYou should have received a copy of the GNU Lesser General Public License
86d7f5d3SJohn Marinoalong with the GNU MP Library.  If not, see http://www.gnu.org/licenses/.  */
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino#include "gmp.h"
86d7f5d3SJohn Marino#include "gmp-impl.h"
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino/* Evaluate in: -1, 0, +1, +inf
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  <-s-><--n--><--n-->
86d7f5d3SJohn Marino   ___ ______ ______
86d7f5d3SJohn Marino  |a2_|___a1_|___a0_|
86d7f5d3SJohn Marino	|_b1_|___b0_|
86d7f5d3SJohn Marino	<-t--><--n-->
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  v0  =  a0         * b0      #   A(0)*B(0)
86d7f5d3SJohn Marino  v1  = (a0+ a1+ a2)*(b0+ b1) #   A(1)*B(1)      ah  <= 2  bh <= 1
86d7f5d3SJohn Marino  vm1 = (a0- a1+ a2)*(b0- b1) #  A(-1)*B(-1)    |ah| <= 1  bh = 0
86d7f5d3SJohn Marino  vinf=          a2 *     b1  # A(inf)*B(inf)
86d7f5d3SJohn Marino*/
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino#define TOOM32_MUL_N_REC(p, a, b, n, ws)				\
86d7f5d3SJohn Marino  do {									\
86d7f5d3SJohn Marino    mpn_mul_n (p, a, b, n);						\
86d7f5d3SJohn Marino  } while (0)
86d7f5d3SJohn Marino
86d7f5d3SJohn Marinovoid
86d7f5d3SJohn Marinompn_toom32_mul (mp_ptr pp,
86d7f5d3SJohn Marino		mp_srcptr ap, mp_size_t an,
86d7f5d3SJohn Marino		mp_srcptr bp, mp_size_t bn,
86d7f5d3SJohn Marino		mp_ptr scratch)
86d7f5d3SJohn Marino{
86d7f5d3SJohn Marino  mp_size_t n, s, t;
86d7f5d3SJohn Marino  int vm1_neg;
86d7f5d3SJohn Marino  mp_limb_t cy;
86d7f5d3SJohn Marino  int hi;
86d7f5d3SJohn Marino  mp_limb_t ap1_hi, bp1_hi;
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino#define a0  ap
86d7f5d3SJohn Marino#define a1  (ap + n)
86d7f5d3SJohn Marino#define a2  (ap + 2 * n)
86d7f5d3SJohn Marino#define b0  bp
86d7f5d3SJohn Marino#define b1  (bp + n)
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  /* Required, to ensure that s + t >= n. */
86d7f5d3SJohn Marino  ASSERT (bn + 2 <= an && an + 6 <= 3*bn);
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  n = 1 + (2 * an >= 3 * bn ? (an - 1) / (size_t) 3 : (bn - 1) >> 1);
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  s = an - 2 * n;
86d7f5d3SJohn Marino  t = bn - n;
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  ASSERT (0 < s && s <= n);
86d7f5d3SJohn Marino  ASSERT (0 < t && t <= n);
86d7f5d3SJohn Marino  ASSERT (s + t >= n);
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  /* Product area of size an + bn = 3*n + s + t >= 4*n + 2. */
86d7f5d3SJohn Marino#define ap1 (pp)		/* n, most significant limb in ap1_hi */
86d7f5d3SJohn Marino#define bp1 (pp + n)		/* n, most significant bit in bp1_hi */
86d7f5d3SJohn Marino#define am1 (pp + 2*n)		/* n, most significant bit in hi */
86d7f5d3SJohn Marino#define bm1 (pp + 3*n)		/* n */
86d7f5d3SJohn Marino#define v1 (scratch)		/* 2n + 1 */
86d7f5d3SJohn Marino#define vm1 (pp)		/* 2n + 1 */
86d7f5d3SJohn Marino#define scratch_out (scratch + 2*n + 1) /* Currently unused. */
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  /* Scratch need: 2*n + 1 + scratch for the recursive multiplications. */
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  /* FIXME: Keep v1[2*n] and vm1[2*n] in scalar variables? */
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  /* Compute ap1 = a0 + a1 + a3, am1 = a0 - a1 + a3 */
86d7f5d3SJohn Marino  ap1_hi = mpn_add (ap1, a0, n, a2, s);
86d7f5d3SJohn Marino#if HAVE_NATIVE_mpn_add_n_sub_n
86d7f5d3SJohn Marino  if (ap1_hi == 0 && mpn_cmp (ap1, a1, n) < 0)
86d7f5d3SJohn Marino    {
86d7f5d3SJohn Marino      ap1_hi = mpn_add_n_sub_n (ap1, am1, a1, ap1, n) >> 1;
86d7f5d3SJohn Marino      hi = 0;
86d7f5d3SJohn Marino      vm1_neg = 1;
86d7f5d3SJohn Marino    }
86d7f5d3SJohn Marino  else
86d7f5d3SJohn Marino    {
86d7f5d3SJohn Marino      cy = mpn_add_n_sub_n (ap1, am1, ap1, a1, n);
86d7f5d3SJohn Marino      hi = ap1_hi - (cy & 1);
86d7f5d3SJohn Marino      ap1_hi += (cy >> 1);
86d7f5d3SJohn Marino      vm1_neg = 0;
86d7f5d3SJohn Marino    }
86d7f5d3SJohn Marino#else
86d7f5d3SJohn Marino  if (ap1_hi == 0 && mpn_cmp (ap1, a1, n) < 0)
86d7f5d3SJohn Marino    {
86d7f5d3SJohn Marino      ASSERT_NOCARRY (mpn_sub_n (am1, a1, ap1, n));
86d7f5d3SJohn Marino      hi = 0;
86d7f5d3SJohn Marino      vm1_neg = 1;
86d7f5d3SJohn Marino    }
86d7f5d3SJohn Marino  else
86d7f5d3SJohn Marino    {
86d7f5d3SJohn Marino      hi = ap1_hi - mpn_sub_n (am1, ap1, a1, n);
86d7f5d3SJohn Marino      vm1_neg = 0;
86d7f5d3SJohn Marino    }
86d7f5d3SJohn Marino  ap1_hi += mpn_add_n (ap1, ap1, a1, n);
86d7f5d3SJohn Marino#endif
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  /* Compute bp1 = b0 + b1 and bm1 = b0 - b1. */
86d7f5d3SJohn Marino  if (t == n)
86d7f5d3SJohn Marino    {
86d7f5d3SJohn Marino#if HAVE_NATIVE_mpn_add_n_sub_n
86d7f5d3SJohn Marino      if (mpn_cmp (b0, b1, n) < 0)
86d7f5d3SJohn Marino	{
86d7f5d3SJohn Marino	  cy = mpn_add_n_sub_n (bp1, bm1, b1, b0, n);
86d7f5d3SJohn Marino	  vm1_neg ^= 1;
86d7f5d3SJohn Marino	}
86d7f5d3SJohn Marino      else
86d7f5d3SJohn Marino	{
86d7f5d3SJohn Marino	  cy = mpn_add_n_sub_n (bp1, bm1, b0, b1, n);
86d7f5d3SJohn Marino	}
86d7f5d3SJohn Marino      bp1_hi = cy >> 1;
86d7f5d3SJohn Marino#else
86d7f5d3SJohn Marino      bp1_hi = mpn_add_n (bp1, b0, b1, n);
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino      if (mpn_cmp (b0, b1, n) < 0)
86d7f5d3SJohn Marino	{
86d7f5d3SJohn Marino	  ASSERT_NOCARRY (mpn_sub_n (bm1, b1, b0, n));
86d7f5d3SJohn Marino	  vm1_neg ^= 1;
86d7f5d3SJohn Marino	}
86d7f5d3SJohn Marino      else
86d7f5d3SJohn Marino	{
86d7f5d3SJohn Marino	  ASSERT_NOCARRY (mpn_sub_n (bm1, b0, b1, n));
86d7f5d3SJohn Marino	}
86d7f5d3SJohn Marino#endif
86d7f5d3SJohn Marino    }
86d7f5d3SJohn Marino  else
86d7f5d3SJohn Marino    {
86d7f5d3SJohn Marino      /* FIXME: Should still use mpn_add_n_sub_n for the main part. */
86d7f5d3SJohn Marino      bp1_hi = mpn_add (bp1, b0, n, b1, t);
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino      if (mpn_zero_p (b0 + t, n - t) && mpn_cmp (b0, b1, t) < 0)
86d7f5d3SJohn Marino	{
86d7f5d3SJohn Marino	  ASSERT_NOCARRY (mpn_sub_n (bm1, b1, b0, t));
86d7f5d3SJohn Marino	  MPN_ZERO (bm1 + t, n - t);
86d7f5d3SJohn Marino	  vm1_neg ^= 1;
86d7f5d3SJohn Marino	}
86d7f5d3SJohn Marino      else
86d7f5d3SJohn Marino	{
86d7f5d3SJohn Marino	  ASSERT_NOCARRY (mpn_sub (bm1, b0, n, b1, t));
86d7f5d3SJohn Marino	}
86d7f5d3SJohn Marino    }
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  TOOM32_MUL_N_REC (v1, ap1, bp1, n, scratch_out);
86d7f5d3SJohn Marino  if (ap1_hi == 1)
86d7f5d3SJohn Marino    {
86d7f5d3SJohn Marino      cy = bp1_hi + mpn_add_n (v1 + n, v1 + n, bp1, n);
86d7f5d3SJohn Marino    }
86d7f5d3SJohn Marino  else if (ap1_hi == 2)
86d7f5d3SJohn Marino    {
86d7f5d3SJohn Marino#if HAVE_NATIVE_mpn_addlsh1_n
86d7f5d3SJohn Marino      cy = 2 * bp1_hi + mpn_addlsh1_n (v1 + n, v1 + n, bp1, n);
86d7f5d3SJohn Marino#else
86d7f5d3SJohn Marino      cy = 2 * bp1_hi + mpn_addmul_1 (v1 + n, bp1, n, CNST_LIMB(2));
86d7f5d3SJohn Marino#endif
86d7f5d3SJohn Marino    }
86d7f5d3SJohn Marino  else
86d7f5d3SJohn Marino    cy = 0;
86d7f5d3SJohn Marino  if (bp1_hi != 0)
86d7f5d3SJohn Marino    cy += mpn_add_n (v1 + n, v1 + n, ap1, n);
86d7f5d3SJohn Marino  v1[2 * n] = cy;
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  TOOM32_MUL_N_REC (vm1, am1, bm1, n, scratch_out);
86d7f5d3SJohn Marino  if (hi)
86d7f5d3SJohn Marino    hi = mpn_add_n (vm1+n, vm1+n, bm1, n);
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  vm1[2*n] = hi;
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  /* v1 <-- (v1 + vm1) / 2 = x0 + x2 */
86d7f5d3SJohn Marino  if (vm1_neg)
86d7f5d3SJohn Marino    {
86d7f5d3SJohn Marino#if HAVE_NATIVE_mpn_rsh1sub_n
86d7f5d3SJohn Marino      mpn_rsh1sub_n (v1, v1, vm1, 2*n+1);
86d7f5d3SJohn Marino#else
86d7f5d3SJohn Marino      mpn_sub_n (v1, v1, vm1, 2*n+1);
86d7f5d3SJohn Marino      ASSERT_NOCARRY (mpn_rshift (v1, v1, 2*n+1, 1));
86d7f5d3SJohn Marino#endif
86d7f5d3SJohn Marino    }
86d7f5d3SJohn Marino  else
86d7f5d3SJohn Marino    {
86d7f5d3SJohn Marino#if HAVE_NATIVE_mpn_rsh1add_n
86d7f5d3SJohn Marino      mpn_rsh1add_n (v1, v1, vm1, 2*n+1);
86d7f5d3SJohn Marino#else
86d7f5d3SJohn Marino      mpn_add_n (v1, v1, vm1, 2*n+1);
86d7f5d3SJohn Marino      ASSERT_NOCARRY (mpn_rshift (v1, v1, 2*n+1, 1));
86d7f5d3SJohn Marino#endif
86d7f5d3SJohn Marino    }
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  /* We get x1 + x3 = (x0 + x2) - (x0 - x1 + x2 - x3), and hence
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino     y = x1 + x3 + (x0 + x2) * B
86d7f5d3SJohn Marino       = (x0 + x2) * B + (x0 + x2) - vm1.
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino     y is 3*n + 1 limbs, y = y0 + y1 B + y2 B^2. We store them as
86d7f5d3SJohn Marino     follows: y0 at scratch, y1 at pp + 2*n, and y2 at scratch + n
86d7f5d3SJohn Marino     (already in place, except for carry propagation).
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino     We thus add
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino   B^3  B^2   B    1
86d7f5d3SJohn Marino    |    |    |    |
86d7f5d3SJohn Marino   +-----+----+
86d7f5d3SJohn Marino + |  x0 + x2 |
86d7f5d3SJohn Marino   +----+-----+----+
86d7f5d3SJohn Marino +      |  x0 + x2 |
86d7f5d3SJohn Marino	+----------+
86d7f5d3SJohn Marino -      |  vm1     |
86d7f5d3SJohn Marino --+----++----+----+-
86d7f5d3SJohn Marino   | y2  | y1 | y0 |
86d7f5d3SJohn Marino   +-----+----+----+
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  Since we store y0 at the same location as the low half of x0 + x2, we
86d7f5d3SJohn Marino  need to do the middle sum first. */
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  hi = vm1[2*n];
86d7f5d3SJohn Marino  cy = mpn_add_n (pp + 2*n, v1, v1 + n, n);
86d7f5d3SJohn Marino  MPN_INCR_U (v1 + n, n + 1, cy + v1[2*n]);
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  /* FIXME: Can we get rid of this second vm1_neg conditional by
86d7f5d3SJohn Marino     swapping the location of +1 and -1 values? */
86d7f5d3SJohn Marino  if (vm1_neg)
86d7f5d3SJohn Marino    {
86d7f5d3SJohn Marino      cy = mpn_add_n (v1, v1, vm1, n);
86d7f5d3SJohn Marino      hi += mpn_add_nc (pp + 2*n, pp + 2*n, vm1 + n, n, cy);
86d7f5d3SJohn Marino      MPN_INCR_U (v1 + n, n+1, hi);
86d7f5d3SJohn Marino    }
86d7f5d3SJohn Marino  else
86d7f5d3SJohn Marino    {
86d7f5d3SJohn Marino      cy = mpn_sub_n (v1, v1, vm1, n);
86d7f5d3SJohn Marino      hi += mpn_sub_nc (pp + 2*n, pp + 2*n, vm1 + n, n, cy);
86d7f5d3SJohn Marino      MPN_DECR_U (v1 + n, n+1, hi);
86d7f5d3SJohn Marino    }
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  TOOM32_MUL_N_REC (pp, a0, b0, n, scratch_out);
86d7f5d3SJohn Marino  /* vinf, s+t limbs.  Use mpn_mul for now, to handle unbalanced operands */
86d7f5d3SJohn Marino  if (s > t)  mpn_mul (pp+3*n, a2, s, b1, t);
86d7f5d3SJohn Marino  else        mpn_mul (pp+3*n, b1, t, a2, s);
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  /* Remaining interpolation.
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino     y * B + x0 + x3 B^3 - x0 B^2 - x3 B
86d7f5d3SJohn Marino     = (x1 + x3) B + (x0 + x2) B^2 + x0 + x3 B^3 - x0 B^2 - x3 B
86d7f5d3SJohn Marino     = y0 B + y1 B^2 + y3 B^3 + Lx0 + H x0 B
86d7f5d3SJohn Marino       + L x3 B^3 + H x3 B^4 - Lx0 B^2 - H x0 B^3 - L x3 B - H x3 B^2
86d7f5d3SJohn Marino     = L x0 + (y0 + H x0 - L x3) B + (y1 - L x0 - H x3) B^2
86d7f5d3SJohn Marino       + (y2 - (H x0 - L x3)) B^3 + H x3 B^4
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino	  B^4       B^3       B^2        B         1
86d7f5d3SJohn Marino |         |         |         |         |         |
86d7f5d3SJohn Marino   +-------+                   +---------+---------+
86d7f5d3SJohn Marino   |  Hx3  |                   | Hx0-Lx3 |    Lx0  |
86d7f5d3SJohn Marino   +------+----------+---------+---------+---------+
86d7f5d3SJohn Marino	  |    y2    |  y1     |   y0    |
86d7f5d3SJohn Marino	  ++---------+---------+---------+
86d7f5d3SJohn Marino	  -| Hx0-Lx3 | - Lx0   |
86d7f5d3SJohn Marino	   +---------+---------+
86d7f5d3SJohn Marino		      | - Hx3  |
86d7f5d3SJohn Marino		      +--------+
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino    We must take into account the carry from Hx0 - Lx3.
86d7f5d3SJohn Marino  */
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  cy = mpn_sub_n (pp + n, pp + n, pp+3*n, n);
86d7f5d3SJohn Marino  hi = scratch[2*n] + cy;
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  cy = mpn_sub_nc (pp + 2*n, pp + 2*n, pp, n, cy);
86d7f5d3SJohn Marino  hi -= mpn_sub_nc (pp + 3*n, scratch + n, pp + n, n, cy);
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  hi += mpn_add (pp + n, pp + n, 3*n, scratch, n);
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  /* FIXME: Is support for s + t == n needed? */
86d7f5d3SJohn Marino  if (LIKELY (s + t > n))
86d7f5d3SJohn Marino    {
86d7f5d3SJohn Marino      hi -= mpn_sub (pp + 2*n, pp + 2*n, 2*n, pp + 4*n, s+t-n);
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino      if (hi < 0)
86d7f5d3SJohn Marino	MPN_DECR_U (pp + 4*n, s+t-n, -hi);
86d7f5d3SJohn Marino      else
86d7f5d3SJohn Marino	MPN_INCR_U (pp + 4*n, s+t-n, hi);
86d7f5d3SJohn Marino    }
86d7f5d3SJohn Marino  else
86d7f5d3SJohn Marino    ASSERT (hi == 0);
86d7f5d3SJohn Marino}