mpn/generic/mul_fft.c

86d7f5d3SJohn Marino/* Schoenhage's fast multiplication modulo 2^N+1.
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino   Contributed by Paul Zimmermann.
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino   THE FUNCTIONS IN THIS FILE ARE INTERNAL WITH MUTABLE INTERFACES.  IT IS ONLY
86d7f5d3SJohn Marino   SAFE TO REACH THEM THROUGH DOCUMENTED INTERFACES.  IN FACT, IT IS ALMOST
86d7f5d3SJohn Marino   GUARANTEED THAT THEY WILL CHANGE OR DISAPPEAR IN A FUTURE GNU MP RELEASE.
86d7f5d3SJohn Marino
86d7f5d3SJohn MarinoCopyright 1998, 1999, 2000, 2001, 2002, 2003, 2004, 2005, 2006, 2007, 2008,
86d7f5d3SJohn Marino2009, 2010 Free Software Foundation, Inc.
86d7f5d3SJohn Marino
86d7f5d3SJohn MarinoThis file is part of the GNU MP Library.
86d7f5d3SJohn Marino
86d7f5d3SJohn MarinoThe GNU MP Library is free software; you can redistribute it and/or modify
86d7f5d3SJohn Marinoit under the terms of the GNU Lesser General Public License as published by
86d7f5d3SJohn Marinothe Free Software Foundation; either version 3 of the License, or (at your
86d7f5d3SJohn Marinooption) any later version.
86d7f5d3SJohn Marino
86d7f5d3SJohn MarinoThe GNU MP Library is distributed in the hope that it will be useful, but
86d7f5d3SJohn MarinoWITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY
86d7f5d3SJohn Marinoor FITNESS FOR A PARTICULAR PURPOSE.  See the GNU Lesser General Public
86d7f5d3SJohn MarinoLicense for more details.
86d7f5d3SJohn Marino
86d7f5d3SJohn MarinoYou should have received a copy of the GNU Lesser General Public License
86d7f5d3SJohn Marinoalong with the GNU MP Library.  If not, see http://www.gnu.org/licenses/.  */
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino/* References:
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino   Schnelle Multiplikation grosser Zahlen, by Arnold Schoenhage and Volker
86d7f5d3SJohn Marino   Strassen, Computing 7, p. 281-292, 1971.
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino   Asymptotically fast algorithms for the numerical multiplication and division
86d7f5d3SJohn Marino   of polynomials with complex coefficients, by Arnold Schoenhage, Computer
86d7f5d3SJohn Marino   Algebra, EUROCAM'82, LNCS 144, p. 3-15, 1982.
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino   Tapes versus Pointers, a study in implementing fast algorithms, by Arnold
86d7f5d3SJohn Marino   Schoenhage, Bulletin of the EATCS, 30, p. 23-32, 1986.
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino   TODO:
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino   Implement some of the tricks published at ISSAC'2007 by Gaudry, Kruppa, and
86d7f5d3SJohn Marino   Zimmermann.
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino   It might be possible to avoid a small number of MPN_COPYs by using a
86d7f5d3SJohn Marino   rotating temporary or two.
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino   Cleanup and simplify the code!
86d7f5d3SJohn Marino*/
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino#ifdef TRACE
86d7f5d3SJohn Marino#undef TRACE
86d7f5d3SJohn Marino#define TRACE(x) x
86d7f5d3SJohn Marino#include <stdio.h>
86d7f5d3SJohn Marino#else
86d7f5d3SJohn Marino#define TRACE(x)
86d7f5d3SJohn Marino#endif
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino#include "gmp.h"
86d7f5d3SJohn Marino#include "gmp-impl.h"
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino#ifdef WANT_ADDSUB
86d7f5d3SJohn Marino#include "generic/add_n_sub_n.c"
86d7f5d3SJohn Marino#define HAVE_NATIVE_mpn_add_n_sub_n 1
86d7f5d3SJohn Marino#endif
86d7f5d3SJohn Marino
86d7f5d3SJohn Marinostatic mp_limb_t mpn_mul_fft_internal
86d7f5d3SJohn Marino__GMP_PROTO ((mp_ptr, mp_size_t, int, mp_ptr *, mp_ptr *,
86d7f5d3SJohn Marino	      mp_ptr, mp_ptr, mp_size_t, mp_size_t, mp_size_t, int **, mp_ptr, int));
86d7f5d3SJohn Marinostatic void mpn_mul_fft_decompose
86d7f5d3SJohn Marino__GMP_PROTO ((mp_ptr, mp_ptr *, int, int, mp_srcptr, mp_size_t, int, int, mp_ptr));
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino/* Find the best k to use for a mod 2^(m*GMP_NUMB_BITS)+1 FFT for m >= n.
86d7f5d3SJohn Marino   We have sqr=0 if for a multiply, sqr=1 for a square.
86d7f5d3SJohn Marino   There are three generations of this code; we keep the old ones as long as
86d7f5d3SJohn Marino   some gmp-mparam.h is not updated.  */
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino/*****************************************************************************/
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino#if TUNE_PROGRAM_BUILD || (defined (MUL_FFT_TABLE3) && defined (SQR_FFT_TABLE3))
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino#ifndef FFT_TABLE3_SIZE		/* When tuning, this is define in gmp-impl.h */
86d7f5d3SJohn Marino#if defined (MUL_FFT_TABLE3_SIZE) && defined (SQR_FFT_TABLE3_SIZE)
86d7f5d3SJohn Marino#if MUL_FFT_TABLE3_SIZE > SQR_FFT_TABLE3_SIZE
86d7f5d3SJohn Marino#define FFT_TABLE3_SIZE MUL_FFT_TABLE3_SIZE
86d7f5d3SJohn Marino#else
86d7f5d3SJohn Marino#define FFT_TABLE3_SIZE SQR_FFT_TABLE3_SIZE
86d7f5d3SJohn Marino#endif
86d7f5d3SJohn Marino#endif
86d7f5d3SJohn Marino#endif
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino#ifndef FFT_TABLE3_SIZE
86d7f5d3SJohn Marino#define FFT_TABLE3_SIZE 200
86d7f5d3SJohn Marino#endif
86d7f5d3SJohn Marino
86d7f5d3SJohn MarinoFFT_TABLE_ATTRS struct fft_table_nk mpn_fft_table3[2][FFT_TABLE3_SIZE] =
86d7f5d3SJohn Marino{
86d7f5d3SJohn Marino  MUL_FFT_TABLE3,
86d7f5d3SJohn Marino  SQR_FFT_TABLE3
86d7f5d3SJohn Marino};
86d7f5d3SJohn Marino
86d7f5d3SJohn Marinoint
86d7f5d3SJohn Marinompn_fft_best_k (mp_size_t n, int sqr)
86d7f5d3SJohn Marino{
86d7f5d3SJohn Marino  FFT_TABLE_ATTRS struct fft_table_nk *fft_tab, *tab;
86d7f5d3SJohn Marino  mp_size_t tab_n, thres;
86d7f5d3SJohn Marino  int last_k;
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  fft_tab = mpn_fft_table3[sqr];
86d7f5d3SJohn Marino  last_k = fft_tab->k;
86d7f5d3SJohn Marino  for (tab = fft_tab + 1; ; tab++)
86d7f5d3SJohn Marino    {
86d7f5d3SJohn Marino      tab_n = tab->n;
86d7f5d3SJohn Marino      thres = tab_n << last_k;
86d7f5d3SJohn Marino      if (n <= thres)
86d7f5d3SJohn Marino	break;
86d7f5d3SJohn Marino      last_k = tab->k;
86d7f5d3SJohn Marino    }
86d7f5d3SJohn Marino  return last_k;
86d7f5d3SJohn Marino}
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino#define MPN_FFT_BEST_READY 1
86d7f5d3SJohn Marino#endif
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino/*****************************************************************************/
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino#if ! defined (MPN_FFT_BEST_READY)
86d7f5d3SJohn MarinoFFT_TABLE_ATTRS mp_size_t mpn_fft_table[2][MPN_FFT_TABLE_SIZE] =
86d7f5d3SJohn Marino{
86d7f5d3SJohn Marino  MUL_FFT_TABLE,
86d7f5d3SJohn Marino  SQR_FFT_TABLE
86d7f5d3SJohn Marino};
86d7f5d3SJohn Marino
86d7f5d3SJohn Marinoint
86d7f5d3SJohn Marinompn_fft_best_k (mp_size_t n, int sqr)
86d7f5d3SJohn Marino{
86d7f5d3SJohn Marino  int i;
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  for (i = 0; mpn_fft_table[sqr][i] != 0; i++)
86d7f5d3SJohn Marino    if (n < mpn_fft_table[sqr][i])
86d7f5d3SJohn Marino      return i + FFT_FIRST_K;
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  /* treat 4*last as one further entry */
86d7f5d3SJohn Marino  if (i == 0 || n < 4 * mpn_fft_table[sqr][i - 1])
86d7f5d3SJohn Marino    return i + FFT_FIRST_K;
86d7f5d3SJohn Marino  else
86d7f5d3SJohn Marino    return i + FFT_FIRST_K + 1;
86d7f5d3SJohn Marino}
86d7f5d3SJohn Marino#endif
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino/*****************************************************************************/
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino/* Returns smallest possible number of limbs >= pl for a fft of size 2^k,
86d7f5d3SJohn Marino   i.e. smallest multiple of 2^k >= pl.
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino   Don't declare static: needed by tuneup.
86d7f5d3SJohn Marino*/
86d7f5d3SJohn Marino
86d7f5d3SJohn Marinomp_size_t
86d7f5d3SJohn Marinompn_fft_next_size (mp_size_t pl, int k)
86d7f5d3SJohn Marino{
86d7f5d3SJohn Marino  pl = 1 + ((pl - 1) >> k); /* ceil (pl/2^k) */
86d7f5d3SJohn Marino  return pl << k;
86d7f5d3SJohn Marino}
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino/* Initialize l[i][j] with bitrev(j) */
86d7f5d3SJohn Marinostatic void
86d7f5d3SJohn Marinompn_fft_initl (int **l, int k)
86d7f5d3SJohn Marino{
86d7f5d3SJohn Marino  int i, j, K;
86d7f5d3SJohn Marino  int *li;
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  l[0][0] = 0;
86d7f5d3SJohn Marino  for (i = 1, K = 1; i <= k; i++, K *= 2)
86d7f5d3SJohn Marino    {
86d7f5d3SJohn Marino      li = l[i];
86d7f5d3SJohn Marino      for (j = 0; j < K; j++)
86d7f5d3SJohn Marino	{
86d7f5d3SJohn Marino	  li[j] = 2 * l[i - 1][j];
86d7f5d3SJohn Marino	  li[K + j] = 1 + li[j];
86d7f5d3SJohn Marino	}
86d7f5d3SJohn Marino    }
86d7f5d3SJohn Marino}
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino/* r <- a*2^d mod 2^(n*GMP_NUMB_BITS)+1 with a = {a, n+1}
86d7f5d3SJohn Marino   Assumes a is semi-normalized, i.e. a[n] <= 1.
86d7f5d3SJohn Marino   r and a must have n+1 limbs, and not overlap.
86d7f5d3SJohn Marino*/
86d7f5d3SJohn Marinostatic void
86d7f5d3SJohn Marinompn_fft_mul_2exp_modF (mp_ptr r, mp_srcptr a, unsigned int d, mp_size_t n)
86d7f5d3SJohn Marino{
86d7f5d3SJohn Marino  int sh;
86d7f5d3SJohn Marino  mp_limb_t cc, rd;
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  sh = d % GMP_NUMB_BITS;
86d7f5d3SJohn Marino  d /= GMP_NUMB_BITS;
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  if (d >= n)			/* negate */
86d7f5d3SJohn Marino    {
86d7f5d3SJohn Marino      /* r[0..d-1]  <-- lshift(a[n-d]..a[n-1], sh)
86d7f5d3SJohn Marino	 r[d..n-1]  <-- -lshift(a[0]..a[n-d-1],  sh) */
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino      d -= n;
86d7f5d3SJohn Marino      if (sh != 0)
86d7f5d3SJohn Marino	{
86d7f5d3SJohn Marino	  /* no out shift below since a[n] <= 1 */
86d7f5d3SJohn Marino	  mpn_lshift (r, a + n - d, d + 1, sh);
86d7f5d3SJohn Marino	  rd = r[d];
86d7f5d3SJohn Marino	  cc = mpn_lshiftc (r + d, a, n - d, sh);
86d7f5d3SJohn Marino	}
86d7f5d3SJohn Marino      else
86d7f5d3SJohn Marino	{
86d7f5d3SJohn Marino	  MPN_COPY (r, a + n - d, d);
86d7f5d3SJohn Marino	  rd = a[n];
86d7f5d3SJohn Marino	  mpn_com (r + d, a, n - d);
86d7f5d3SJohn Marino	  cc = 0;
86d7f5d3SJohn Marino	}
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino      /* add cc to r[0], and add rd to r[d] */
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino      /* now add 1 in r[d], subtract 1 in r[n], i.e. add 1 in r[0] */
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino      r[n] = 0;
86d7f5d3SJohn Marino      /* cc < 2^sh <= 2^(GMP_NUMB_BITS-1) thus no overflow here */
86d7f5d3SJohn Marino      cc++;
86d7f5d3SJohn Marino      mpn_incr_u (r, cc);
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino      rd++;
86d7f5d3SJohn Marino      /* rd might overflow when sh=GMP_NUMB_BITS-1 */
86d7f5d3SJohn Marino      cc = (rd == 0) ? 1 : rd;
86d7f5d3SJohn Marino      r = r + d + (rd == 0);
86d7f5d3SJohn Marino      mpn_incr_u (r, cc);
86d7f5d3SJohn Marino    }
86d7f5d3SJohn Marino  else
86d7f5d3SJohn Marino    {
86d7f5d3SJohn Marino      /* r[0..d-1]  <-- -lshift(a[n-d]..a[n-1], sh)
86d7f5d3SJohn Marino	 r[d..n-1]  <-- lshift(a[0]..a[n-d-1],  sh)  */
86d7f5d3SJohn Marino      if (sh != 0)
86d7f5d3SJohn Marino	{
86d7f5d3SJohn Marino	  /* no out bits below since a[n] <= 1 */
86d7f5d3SJohn Marino	  mpn_lshiftc (r, a + n - d, d + 1, sh);
86d7f5d3SJohn Marino	  rd = ~r[d];
86d7f5d3SJohn Marino	  /* {r, d+1} = {a+n-d, d+1} << sh */
86d7f5d3SJohn Marino	  cc = mpn_lshift (r + d, a, n - d, sh); /* {r+d, n-d} = {a, n-d}<<sh */
86d7f5d3SJohn Marino	}
86d7f5d3SJohn Marino      else
86d7f5d3SJohn Marino	{
86d7f5d3SJohn Marino	  /* r[d] is not used below, but we save a test for d=0 */
86d7f5d3SJohn Marino	  mpn_com (r, a + n - d, d + 1);
86d7f5d3SJohn Marino	  rd = a[n];
86d7f5d3SJohn Marino	  MPN_COPY (r + d, a, n - d);
86d7f5d3SJohn Marino	  cc = 0;
86d7f5d3SJohn Marino	}
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino      /* now complement {r, d}, subtract cc from r[0], subtract rd from r[d] */
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino      /* if d=0 we just have r[0]=a[n] << sh */
86d7f5d3SJohn Marino      if (d != 0)
86d7f5d3SJohn Marino	{
86d7f5d3SJohn Marino	  /* now add 1 in r[0], subtract 1 in r[d] */
86d7f5d3SJohn Marino	  if (cc-- == 0) /* then add 1 to r[0] */
86d7f5d3SJohn Marino	    cc = mpn_add_1 (r, r, n, CNST_LIMB(1));
86d7f5d3SJohn Marino	  cc = mpn_sub_1 (r, r, d, cc) + 1;
86d7f5d3SJohn Marino	  /* add 1 to cc instead of rd since rd might overflow */
86d7f5d3SJohn Marino	}
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino      /* now subtract cc and rd from r[d..n] */
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino      r[n] = -mpn_sub_1 (r + d, r + d, n - d, cc);
86d7f5d3SJohn Marino      r[n] -= mpn_sub_1 (r + d, r + d, n - d, rd);
86d7f5d3SJohn Marino      if (r[n] & GMP_LIMB_HIGHBIT)
86d7f5d3SJohn Marino	r[n] = mpn_add_1 (r, r, n, CNST_LIMB(1));
86d7f5d3SJohn Marino    }
86d7f5d3SJohn Marino}
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino/* r <- a+b mod 2^(n*GMP_NUMB_BITS)+1.
86d7f5d3SJohn Marino   Assumes a and b are semi-normalized.
86d7f5d3SJohn Marino*/
86d7f5d3SJohn Marinostatic inline void
86d7f5d3SJohn Marinompn_fft_add_modF (mp_ptr r, mp_srcptr a, mp_srcptr b, int n)
86d7f5d3SJohn Marino{
86d7f5d3SJohn Marino  mp_limb_t c, x;
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  c = a[n] + b[n] + mpn_add_n (r, a, b, n);
86d7f5d3SJohn Marino  /* 0 <= c <= 3 */
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino#if 1
86d7f5d3SJohn Marino  /* GCC 4.1 outsmarts most expressions here, and generates a 50% branch.  The
86d7f5d3SJohn Marino     result is slower code, of course.  But the following outsmarts GCC.  */
86d7f5d3SJohn Marino  x = (c - 1) & -(c != 0);
86d7f5d3SJohn Marino  r[n] = c - x;
86d7f5d3SJohn Marino  MPN_DECR_U (r, n + 1, x);
86d7f5d3SJohn Marino#endif
86d7f5d3SJohn Marino#if 0
86d7f5d3SJohn Marino  if (c > 1)
86d7f5d3SJohn Marino    {
86d7f5d3SJohn Marino      r[n] = 1;                       /* r[n] - c = 1 */
86d7f5d3SJohn Marino      MPN_DECR_U (r, n + 1, c - 1);
86d7f5d3SJohn Marino    }
86d7f5d3SJohn Marino  else
86d7f5d3SJohn Marino    {
86d7f5d3SJohn Marino      r[n] = c;
86d7f5d3SJohn Marino    }
86d7f5d3SJohn Marino#endif
86d7f5d3SJohn Marino}
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino/* r <- a-b mod 2^(n*GMP_NUMB_BITS)+1.
86d7f5d3SJohn Marino   Assumes a and b are semi-normalized.
86d7f5d3SJohn Marino*/
86d7f5d3SJohn Marinostatic inline void
86d7f5d3SJohn Marinompn_fft_sub_modF (mp_ptr r, mp_srcptr a, mp_srcptr b, int n)
86d7f5d3SJohn Marino{
86d7f5d3SJohn Marino  mp_limb_t c, x;
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  c = a[n] - b[n] - mpn_sub_n (r, a, b, n);
86d7f5d3SJohn Marino  /* -2 <= c <= 1 */
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino#if 1
86d7f5d3SJohn Marino  /* GCC 4.1 outsmarts most expressions here, and generates a 50% branch.  The
86d7f5d3SJohn Marino     result is slower code, of course.  But the following outsmarts GCC.  */
86d7f5d3SJohn Marino  x = (-c) & -((c & GMP_LIMB_HIGHBIT) != 0);
86d7f5d3SJohn Marino  r[n] = x + c;
86d7f5d3SJohn Marino  MPN_INCR_U (r, n + 1, x);
86d7f5d3SJohn Marino#endif
86d7f5d3SJohn Marino#if 0
86d7f5d3SJohn Marino  if ((c & GMP_LIMB_HIGHBIT) != 0)
86d7f5d3SJohn Marino    {
86d7f5d3SJohn Marino      r[n] = 0;
86d7f5d3SJohn Marino      MPN_INCR_U (r, n + 1, -c);
86d7f5d3SJohn Marino    }
86d7f5d3SJohn Marino  else
86d7f5d3SJohn Marino    {
86d7f5d3SJohn Marino      r[n] = c;
86d7f5d3SJohn Marino    }
86d7f5d3SJohn Marino#endif
86d7f5d3SJohn Marino}
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino/* input: A[0] ... A[inc*(K-1)] are residues mod 2^N+1 where
86d7f5d3SJohn Marino	  N=n*GMP_NUMB_BITS, and 2^omega is a primitive root mod 2^N+1
86d7f5d3SJohn Marino   output: A[inc*l[k][i]] <- \sum (2^omega)^(ij) A[inc*j] mod 2^N+1 */
86d7f5d3SJohn Marino
86d7f5d3SJohn Marinostatic void
86d7f5d3SJohn Marinompn_fft_fft (mp_ptr *Ap, mp_size_t K, int **ll,
86d7f5d3SJohn Marino	     mp_size_t omega, mp_size_t n, mp_size_t inc, mp_ptr tp)
86d7f5d3SJohn Marino{
86d7f5d3SJohn Marino  if (K == 2)
86d7f5d3SJohn Marino    {
86d7f5d3SJohn Marino      mp_limb_t cy;
86d7f5d3SJohn Marino#if HAVE_NATIVE_mpn_add_n_sub_n
86d7f5d3SJohn Marino      cy = mpn_add_n_sub_n (Ap[0], Ap[inc], Ap[0], Ap[inc], n + 1) & 1;
86d7f5d3SJohn Marino#else
86d7f5d3SJohn Marino      MPN_COPY (tp, Ap[0], n + 1);
86d7f5d3SJohn Marino      mpn_add_n (Ap[0], Ap[0], Ap[inc], n + 1);
86d7f5d3SJohn Marino      cy = mpn_sub_n (Ap[inc], tp, Ap[inc], n + 1);
86d7f5d3SJohn Marino#endif
86d7f5d3SJohn Marino      if (Ap[0][n] > 1) /* can be 2 or 3 */
86d7f5d3SJohn Marino	Ap[0][n] = 1 - mpn_sub_1 (Ap[0], Ap[0], n, Ap[0][n] - 1);
86d7f5d3SJohn Marino      if (cy) /* Ap[inc][n] can be -1 or -2 */
86d7f5d3SJohn Marino	Ap[inc][n] = mpn_add_1 (Ap[inc], Ap[inc], n, ~Ap[inc][n] + 1);
86d7f5d3SJohn Marino    }
86d7f5d3SJohn Marino  else
86d7f5d3SJohn Marino    {
86d7f5d3SJohn Marino      int j;
86d7f5d3SJohn Marino      int *lk = *ll;
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino      mpn_fft_fft (Ap,     K >> 1, ll-1, 2 * omega, n, inc * 2, tp);
86d7f5d3SJohn Marino      mpn_fft_fft (Ap+inc, K >> 1, ll-1, 2 * omega, n, inc * 2, tp);
86d7f5d3SJohn Marino      /* A[2*j*inc]   <- A[2*j*inc] + omega^l[k][2*j*inc] A[(2j+1)inc]
86d7f5d3SJohn Marino	 A[(2j+1)inc] <- A[2*j*inc] + omega^l[k][(2j+1)inc] A[(2j+1)inc] */
86d7f5d3SJohn Marino      for (j = 0; j < (K >> 1); j++, lk += 2, Ap += 2 * inc)
86d7f5d3SJohn Marino	{
86d7f5d3SJohn Marino	  /* Ap[inc] <- Ap[0] + Ap[inc] * 2^(lk[1] * omega)
86d7f5d3SJohn Marino	     Ap[0]   <- Ap[0] + Ap[inc] * 2^(lk[0] * omega) */
86d7f5d3SJohn Marino	  mpn_fft_mul_2exp_modF (tp, Ap[inc], lk[0] * omega, n);
86d7f5d3SJohn Marino	  mpn_fft_sub_modF (Ap[inc], Ap[0], tp, n);
86d7f5d3SJohn Marino	  mpn_fft_add_modF (Ap[0],   Ap[0], tp, n);
86d7f5d3SJohn Marino	}
86d7f5d3SJohn Marino    }
86d7f5d3SJohn Marino}
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino/* input: A[0] ... A[inc*(K-1)] are residues mod 2^N+1 where
86d7f5d3SJohn Marino	  N=n*GMP_NUMB_BITS, and 2^omega is a primitive root mod 2^N+1
86d7f5d3SJohn Marino   output: A[inc*l[k][i]] <- \sum (2^omega)^(ij) A[inc*j] mod 2^N+1
86d7f5d3SJohn Marino   tp must have space for 2*(n+1) limbs.
86d7f5d3SJohn Marino*/
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino/* Given ap[0..n] with ap[n]<=1, reduce it modulo 2^(n*GMP_NUMB_BITS)+1,
86d7f5d3SJohn Marino   by subtracting that modulus if necessary.
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino   If ap[0..n] is exactly 2^(n*GMP_NUMB_BITS) then mpn_sub_1 produces a
86d7f5d3SJohn Marino   borrow and the limbs must be zeroed out again.  This will occur very
86d7f5d3SJohn Marino   infrequently.  */
86d7f5d3SJohn Marino
86d7f5d3SJohn Marinostatic inline void
86d7f5d3SJohn Marinompn_fft_normalize (mp_ptr ap, mp_size_t n)
86d7f5d3SJohn Marino{
86d7f5d3SJohn Marino  if (ap[n] != 0)
86d7f5d3SJohn Marino    {
86d7f5d3SJohn Marino      MPN_DECR_U (ap, n + 1, CNST_LIMB(1));
86d7f5d3SJohn Marino      if (ap[n] == 0)
86d7f5d3SJohn Marino	{
86d7f5d3SJohn Marino	  /* This happens with very low probability; we have yet to trigger it,
86d7f5d3SJohn Marino	     and thereby make sure this code is correct.  */
86d7f5d3SJohn Marino	  MPN_ZERO (ap, n);
86d7f5d3SJohn Marino	  ap[n] = 1;
86d7f5d3SJohn Marino	}
86d7f5d3SJohn Marino      else
86d7f5d3SJohn Marino	ap[n] = 0;
86d7f5d3SJohn Marino    }
86d7f5d3SJohn Marino}
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino/* a[i] <- a[i]*b[i] mod 2^(n*GMP_NUMB_BITS)+1 for 0 <= i < K */
86d7f5d3SJohn Marinostatic void
86d7f5d3SJohn Marinompn_fft_mul_modF_K (mp_ptr *ap, mp_ptr *bp, mp_size_t n, int K)
86d7f5d3SJohn Marino{
86d7f5d3SJohn Marino  int i;
86d7f5d3SJohn Marino  int sqr = (ap == bp);
86d7f5d3SJohn Marino  TMP_DECL;
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  TMP_MARK;
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  if (n >= (sqr ? SQR_FFT_MODF_THRESHOLD : MUL_FFT_MODF_THRESHOLD))
86d7f5d3SJohn Marino    {
86d7f5d3SJohn Marino      int k, K2, nprime2, Nprime2, M2, maxLK, l, Mp2;
86d7f5d3SJohn Marino      int **fft_l;
86d7f5d3SJohn Marino      mp_ptr *Ap, *Bp, A, B, T;
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino      k = mpn_fft_best_k (n, sqr);
86d7f5d3SJohn Marino      K2 = 1 << k;
86d7f5d3SJohn Marino      ASSERT_ALWAYS((n & (K2 - 1)) == 0);
86d7f5d3SJohn Marino      maxLK = (K2 > GMP_NUMB_BITS) ? K2 : GMP_NUMB_BITS;
86d7f5d3SJohn Marino      M2 = n * GMP_NUMB_BITS >> k;
86d7f5d3SJohn Marino      l = n >> k;
86d7f5d3SJohn Marino      Nprime2 = ((2 * M2 + k + 2 + maxLK) / maxLK) * maxLK;
86d7f5d3SJohn Marino      /* Nprime2 = ceil((2*M2+k+3)/maxLK)*maxLK*/
86d7f5d3SJohn Marino      nprime2 = Nprime2 / GMP_NUMB_BITS;
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino      /* we should ensure that nprime2 is a multiple of the next K */
86d7f5d3SJohn Marino      if (nprime2 >= (sqr ? SQR_FFT_MODF_THRESHOLD : MUL_FFT_MODF_THRESHOLD))
86d7f5d3SJohn Marino	{
86d7f5d3SJohn Marino	  unsigned long K3;
86d7f5d3SJohn Marino	  for (;;)
86d7f5d3SJohn Marino	    {
86d7f5d3SJohn Marino	      K3 = 1L << mpn_fft_best_k (nprime2, sqr);
86d7f5d3SJohn Marino	      if ((nprime2 & (K3 - 1)) == 0)
86d7f5d3SJohn Marino		break;
86d7f5d3SJohn Marino	      nprime2 = (nprime2 + K3 - 1) & -K3;
86d7f5d3SJohn Marino	      Nprime2 = nprime2 * GMP_LIMB_BITS;
86d7f5d3SJohn Marino	      /* warning: since nprime2 changed, K3 may change too! */
86d7f5d3SJohn Marino	    }
86d7f5d3SJohn Marino	}
86d7f5d3SJohn Marino      ASSERT_ALWAYS(nprime2 < n); /* otherwise we'll loop */
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino      Mp2 = Nprime2 >> k;
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino      Ap = TMP_ALLOC_MP_PTRS (K2);
86d7f5d3SJohn Marino      Bp = TMP_ALLOC_MP_PTRS (K2);
86d7f5d3SJohn Marino      A = TMP_ALLOC_LIMBS (2 * (nprime2 + 1) << k);
86d7f5d3SJohn Marino      T = TMP_ALLOC_LIMBS (2 * (nprime2 + 1));
86d7f5d3SJohn Marino      B = A + ((nprime2 + 1) << k);
86d7f5d3SJohn Marino      fft_l = TMP_ALLOC_TYPE (k + 1, int *);
86d7f5d3SJohn Marino      for (i = 0; i <= k; i++)
86d7f5d3SJohn Marino	fft_l[i] = TMP_ALLOC_TYPE (1<<i, int);
86d7f5d3SJohn Marino      mpn_fft_initl (fft_l, k);
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino      TRACE (printf ("recurse: %ldx%ld limbs -> %d times %dx%d (%1.2f)\n", n,
86d7f5d3SJohn Marino		    n, K2, nprime2, nprime2, 2.0*(double)n/nprime2/K2));
86d7f5d3SJohn Marino      for (i = 0; i < K; i++, ap++, bp++)
86d7f5d3SJohn Marino	{
86d7f5d3SJohn Marino	  mp_limb_t cy;
86d7f5d3SJohn Marino	  mpn_fft_normalize (*ap, n);
86d7f5d3SJohn Marino	  if (!sqr)
86d7f5d3SJohn Marino	    mpn_fft_normalize (*bp, n);
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino	  mpn_mul_fft_decompose (A, Ap, K2, nprime2, *ap, (l << k) + 1, l, Mp2, T);
86d7f5d3SJohn Marino	  if (!sqr)
86d7f5d3SJohn Marino	    mpn_mul_fft_decompose (B, Bp, K2, nprime2, *bp, (l << k) + 1, l, Mp2, T);
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino	  cy = mpn_mul_fft_internal (*ap, n, k, Ap, Bp, A, B, nprime2,
86d7f5d3SJohn Marino				     l, Mp2, fft_l, T, sqr);
86d7f5d3SJohn Marino	  (*ap)[n] = cy;
86d7f5d3SJohn Marino	}
86d7f5d3SJohn Marino    }
86d7f5d3SJohn Marino  else
86d7f5d3SJohn Marino    {
86d7f5d3SJohn Marino      mp_ptr a, b, tp, tpn;
86d7f5d3SJohn Marino      mp_limb_t cc;
86d7f5d3SJohn Marino      int n2 = 2 * n;
86d7f5d3SJohn Marino      tp = TMP_ALLOC_LIMBS (n2);
86d7f5d3SJohn Marino      tpn = tp + n;
86d7f5d3SJohn Marino      TRACE (printf ("  mpn_mul_n %d of %ld limbs\n", K, n));
86d7f5d3SJohn Marino      for (i = 0; i < K; i++)
86d7f5d3SJohn Marino	{
86d7f5d3SJohn Marino	  a = *ap++;
86d7f5d3SJohn Marino	  b = *bp++;
86d7f5d3SJohn Marino	  if (sqr)
86d7f5d3SJohn Marino	    mpn_sqr (tp, a, n);
86d7f5d3SJohn Marino	  else
86d7f5d3SJohn Marino	    mpn_mul_n (tp, b, a, n);
86d7f5d3SJohn Marino	  if (a[n] != 0)
86d7f5d3SJohn Marino	    cc = mpn_add_n (tpn, tpn, b, n);
86d7f5d3SJohn Marino	  else
86d7f5d3SJohn Marino	    cc = 0;
86d7f5d3SJohn Marino	  if (b[n] != 0)
86d7f5d3SJohn Marino	    cc += mpn_add_n (tpn, tpn, a, n) + a[n];
86d7f5d3SJohn Marino	  if (cc != 0)
86d7f5d3SJohn Marino	    {
86d7f5d3SJohn Marino	      /* FIXME: use MPN_INCR_U here, since carry is not expected.  */
86d7f5d3SJohn Marino	      cc = mpn_add_1 (tp, tp, n2, cc);
86d7f5d3SJohn Marino	      ASSERT (cc == 0);
86d7f5d3SJohn Marino	    }
86d7f5d3SJohn Marino	  a[n] = mpn_sub_n (a, tp, tpn, n) && mpn_add_1 (a, a, n, CNST_LIMB(1));
86d7f5d3SJohn Marino	}
86d7f5d3SJohn Marino    }
86d7f5d3SJohn Marino  TMP_FREE;
86d7f5d3SJohn Marino}
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino/* input: A^[l[k][0]] A^[l[k][1]] ... A^[l[k][K-1]]
86d7f5d3SJohn Marino   output: K*A[0] K*A[K-1] ... K*A[1].
86d7f5d3SJohn Marino   Assumes the Ap[] are pseudo-normalized, i.e. 0 <= Ap[][n] <= 1.
86d7f5d3SJohn Marino   This condition is also fulfilled at exit.
86d7f5d3SJohn Marino*/
86d7f5d3SJohn Marinostatic void
86d7f5d3SJohn Marinompn_fft_fftinv (mp_ptr *Ap, int K, mp_size_t omega, mp_size_t n, mp_ptr tp)
86d7f5d3SJohn Marino{
86d7f5d3SJohn Marino  if (K == 2)
86d7f5d3SJohn Marino    {
86d7f5d3SJohn Marino      mp_limb_t cy;
86d7f5d3SJohn Marino#if HAVE_NATIVE_mpn_add_n_sub_n
86d7f5d3SJohn Marino      cy = mpn_add_n_sub_n (Ap[0], Ap[1], Ap[0], Ap[1], n + 1) & 1;
86d7f5d3SJohn Marino#else
86d7f5d3SJohn Marino      MPN_COPY (tp, Ap[0], n + 1);
86d7f5d3SJohn Marino      mpn_add_n (Ap[0], Ap[0], Ap[1], n + 1);
86d7f5d3SJohn Marino      cy = mpn_sub_n (Ap[1], tp, Ap[1], n + 1);
86d7f5d3SJohn Marino#endif
86d7f5d3SJohn Marino      if (Ap[0][n] > 1) /* can be 2 or 3 */
86d7f5d3SJohn Marino	Ap[0][n] = 1 - mpn_sub_1 (Ap[0], Ap[0], n, Ap[0][n] - 1);
86d7f5d3SJohn Marino      if (cy) /* Ap[1][n] can be -1 or -2 */
86d7f5d3SJohn Marino	Ap[1][n] = mpn_add_1 (Ap[1], Ap[1], n, ~Ap[1][n] + 1);
86d7f5d3SJohn Marino    }
86d7f5d3SJohn Marino  else
86d7f5d3SJohn Marino    {
86d7f5d3SJohn Marino      int j, K2 = K >> 1;
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino      mpn_fft_fftinv (Ap,      K2, 2 * omega, n, tp);
86d7f5d3SJohn Marino      mpn_fft_fftinv (Ap + K2, K2, 2 * omega, n, tp);
86d7f5d3SJohn Marino      /* A[j]     <- A[j] + omega^j A[j+K/2]
86d7f5d3SJohn Marino	 A[j+K/2] <- A[j] + omega^(j+K/2) A[j+K/2] */
86d7f5d3SJohn Marino      for (j = 0; j < K2; j++, Ap++)
86d7f5d3SJohn Marino	{
86d7f5d3SJohn Marino	  /* Ap[K2] <- Ap[0] + Ap[K2] * 2^((j + K2) * omega)
86d7f5d3SJohn Marino	     Ap[0]  <- Ap[0] + Ap[K2] * 2^(j * omega) */
86d7f5d3SJohn Marino	  mpn_fft_mul_2exp_modF (tp, Ap[K2], j * omega, n);
86d7f5d3SJohn Marino	  mpn_fft_sub_modF (Ap[K2], Ap[0], tp, n);
86d7f5d3SJohn Marino	  mpn_fft_add_modF (Ap[0],  Ap[0], tp, n);
86d7f5d3SJohn Marino	}
86d7f5d3SJohn Marino    }
86d7f5d3SJohn Marino}
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino/* R <- A/2^k mod 2^(n*GMP_NUMB_BITS)+1 */
86d7f5d3SJohn Marinostatic void
86d7f5d3SJohn Marinompn_fft_div_2exp_modF (mp_ptr r, mp_srcptr a, int k, mp_size_t n)
86d7f5d3SJohn Marino{
86d7f5d3SJohn Marino  int i;
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  ASSERT (r != a);
86d7f5d3SJohn Marino  i = 2 * n * GMP_NUMB_BITS - k;
86d7f5d3SJohn Marino  mpn_fft_mul_2exp_modF (r, a, i, n);
86d7f5d3SJohn Marino  /* 1/2^k = 2^(2nL-k) mod 2^(n*GMP_NUMB_BITS)+1 */
86d7f5d3SJohn Marino  /* normalize so that R < 2^(n*GMP_NUMB_BITS)+1 */
86d7f5d3SJohn Marino  mpn_fft_normalize (r, n);
86d7f5d3SJohn Marino}
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino/* {rp,n} <- {ap,an} mod 2^(n*GMP_NUMB_BITS)+1, n <= an <= 3*n.
86d7f5d3SJohn Marino   Returns carry out, i.e. 1 iff {ap,an} = -1 mod 2^(n*GMP_NUMB_BITS)+1,
86d7f5d3SJohn Marino   then {rp,n}=0.
86d7f5d3SJohn Marino*/
86d7f5d3SJohn Marinostatic int
86d7f5d3SJohn Marinompn_fft_norm_modF (mp_ptr rp, mp_size_t n, mp_ptr ap, mp_size_t an)
86d7f5d3SJohn Marino{
86d7f5d3SJohn Marino  mp_size_t l;
86d7f5d3SJohn Marino  long int m;
86d7f5d3SJohn Marino  mp_limb_t cc;
86d7f5d3SJohn Marino  int rpn;
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  ASSERT ((n <= an) && (an <= 3 * n));
86d7f5d3SJohn Marino  m = an - 2 * n;
86d7f5d3SJohn Marino  if (m > 0)
86d7f5d3SJohn Marino    {
86d7f5d3SJohn Marino      l = n;
86d7f5d3SJohn Marino      /* add {ap, m} and {ap+2n, m} in {rp, m} */
86d7f5d3SJohn Marino      cc = mpn_add_n (rp, ap, ap + 2 * n, m);
86d7f5d3SJohn Marino      /* copy {ap+m, n-m} to {rp+m, n-m} */
86d7f5d3SJohn Marino      rpn = mpn_add_1 (rp + m, ap + m, n - m, cc);
86d7f5d3SJohn Marino    }
86d7f5d3SJohn Marino  else
86d7f5d3SJohn Marino    {
86d7f5d3SJohn Marino      l = an - n; /* l <= n */
86d7f5d3SJohn Marino      MPN_COPY (rp, ap, n);
86d7f5d3SJohn Marino      rpn = 0;
86d7f5d3SJohn Marino    }
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  /* remains to subtract {ap+n, l} from {rp, n+1} */
86d7f5d3SJohn Marino  cc = mpn_sub_n (rp, rp, ap + n, l);
86d7f5d3SJohn Marino  rpn -= mpn_sub_1 (rp + l, rp + l, n - l, cc);
86d7f5d3SJohn Marino  if (rpn < 0) /* necessarily rpn = -1 */
86d7f5d3SJohn Marino    rpn = mpn_add_1 (rp, rp, n, CNST_LIMB(1));
86d7f5d3SJohn Marino  return rpn;
86d7f5d3SJohn Marino}
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino/* store in A[0..nprime] the first M bits from {n, nl},
86d7f5d3SJohn Marino   in A[nprime+1..] the following M bits, ...
86d7f5d3SJohn Marino   Assumes M is a multiple of GMP_NUMB_BITS (M = l * GMP_NUMB_BITS).
86d7f5d3SJohn Marino   T must have space for at least (nprime + 1) limbs.
86d7f5d3SJohn Marino   We must have nl <= 2*K*l.
86d7f5d3SJohn Marino*/
86d7f5d3SJohn Marinostatic void
86d7f5d3SJohn Marinompn_mul_fft_decompose (mp_ptr A, mp_ptr *Ap, int K, int nprime, mp_srcptr n,
86d7f5d3SJohn Marino		       mp_size_t nl, int l, int Mp, mp_ptr T)
86d7f5d3SJohn Marino{
86d7f5d3SJohn Marino  int i, j;
86d7f5d3SJohn Marino  mp_ptr tmp;
86d7f5d3SJohn Marino  mp_size_t Kl = K * l;
86d7f5d3SJohn Marino  TMP_DECL;
86d7f5d3SJohn Marino  TMP_MARK;
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  if (nl > Kl) /* normalize {n, nl} mod 2^(Kl*GMP_NUMB_BITS)+1 */
86d7f5d3SJohn Marino    {
86d7f5d3SJohn Marino      mp_size_t dif = nl - Kl;
86d7f5d3SJohn Marino      mp_limb_signed_t cy;
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino      tmp = TMP_ALLOC_LIMBS(Kl + 1);
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino      if (dif > Kl)
86d7f5d3SJohn Marino	{
86d7f5d3SJohn Marino	  int subp = 0;
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino	  cy = mpn_sub_n (tmp, n, n + Kl, Kl);
86d7f5d3SJohn Marino	  n += 2 * Kl;
86d7f5d3SJohn Marino	  dif -= Kl;
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino	  /* now dif > 0 */
86d7f5d3SJohn Marino	  while (dif > Kl)
86d7f5d3SJohn Marino	    {
86d7f5d3SJohn Marino	      if (subp)
86d7f5d3SJohn Marino		cy += mpn_sub_n (tmp, tmp, n, Kl);
86d7f5d3SJohn Marino	      else
86d7f5d3SJohn Marino		cy -= mpn_add_n (tmp, tmp, n, Kl);
86d7f5d3SJohn Marino	      subp ^= 1;
86d7f5d3SJohn Marino	      n += Kl;
86d7f5d3SJohn Marino	      dif -= Kl;
86d7f5d3SJohn Marino	    }
86d7f5d3SJohn Marino	  /* now dif <= Kl */
86d7f5d3SJohn Marino	  if (subp)
86d7f5d3SJohn Marino	    cy += mpn_sub (tmp, tmp, Kl, n, dif);
86d7f5d3SJohn Marino	  else
86d7f5d3SJohn Marino	    cy -= mpn_add (tmp, tmp, Kl, n, dif);
86d7f5d3SJohn Marino	  if (cy >= 0)
86d7f5d3SJohn Marino	    cy = mpn_add_1 (tmp, tmp, Kl, cy);
86d7f5d3SJohn Marino	  else
86d7f5d3SJohn Marino	    cy = mpn_sub_1 (tmp, tmp, Kl, -cy);
86d7f5d3SJohn Marino	}
86d7f5d3SJohn Marino      else /* dif <= Kl, i.e. nl <= 2 * Kl */
86d7f5d3SJohn Marino	{
86d7f5d3SJohn Marino	  cy = mpn_sub (tmp, n, Kl, n + Kl, dif);
86d7f5d3SJohn Marino	  cy = mpn_add_1 (tmp, tmp, Kl, cy);
86d7f5d3SJohn Marino	}
86d7f5d3SJohn Marino      tmp[Kl] = cy;
86d7f5d3SJohn Marino      nl = Kl + 1;
86d7f5d3SJohn Marino      n = tmp;
86d7f5d3SJohn Marino    }
86d7f5d3SJohn Marino  for (i = 0; i < K; i++)
86d7f5d3SJohn Marino    {
86d7f5d3SJohn Marino      Ap[i] = A;
86d7f5d3SJohn Marino      /* store the next M bits of n into A[0..nprime] */
86d7f5d3SJohn Marino      if (nl > 0) /* nl is the number of remaining limbs */
86d7f5d3SJohn Marino	{
86d7f5d3SJohn Marino	  j = (l <= nl && i < K - 1) ? l : nl; /* store j next limbs */
86d7f5d3SJohn Marino	  nl -= j;
86d7f5d3SJohn Marino	  MPN_COPY (T, n, j);
86d7f5d3SJohn Marino	  MPN_ZERO (T + j, nprime + 1 - j);
86d7f5d3SJohn Marino	  n += l;
86d7f5d3SJohn Marino	  mpn_fft_mul_2exp_modF (A, T, i * Mp, nprime);
86d7f5d3SJohn Marino	}
86d7f5d3SJohn Marino      else
86d7f5d3SJohn Marino	MPN_ZERO (A, nprime + 1);
86d7f5d3SJohn Marino      A += nprime + 1;
86d7f5d3SJohn Marino    }
86d7f5d3SJohn Marino  ASSERT_ALWAYS (nl == 0);
86d7f5d3SJohn Marino  TMP_FREE;
86d7f5d3SJohn Marino}
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino/* op <- n*m mod 2^N+1 with fft of size 2^k where N=pl*GMP_NUMB_BITS
86d7f5d3SJohn Marino   op is pl limbs, its high bit is returned.
86d7f5d3SJohn Marino   One must have pl = mpn_fft_next_size (pl, k).
86d7f5d3SJohn Marino   T must have space for 2 * (nprime + 1) limbs.
86d7f5d3SJohn Marino*/
86d7f5d3SJohn Marino
86d7f5d3SJohn Marinostatic mp_limb_t
86d7f5d3SJohn Marinompn_mul_fft_internal (mp_ptr op, mp_size_t pl, int k,
86d7f5d3SJohn Marino		      mp_ptr *Ap, mp_ptr *Bp, mp_ptr A, mp_ptr B,
86d7f5d3SJohn Marino		      mp_size_t nprime, mp_size_t l, mp_size_t Mp,
86d7f5d3SJohn Marino		      int **fft_l, mp_ptr T, int sqr)
86d7f5d3SJohn Marino{
86d7f5d3SJohn Marino  int K, i, pla, lo, sh, j;
86d7f5d3SJohn Marino  mp_ptr p;
86d7f5d3SJohn Marino  mp_limb_t cc;
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  K = 1 << k;
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  /* direct fft's */
86d7f5d3SJohn Marino  mpn_fft_fft (Ap, K, fft_l + k, 2 * Mp, nprime, 1, T);
86d7f5d3SJohn Marino  if (!sqr)
86d7f5d3SJohn Marino    mpn_fft_fft (Bp, K, fft_l + k, 2 * Mp, nprime, 1, T);
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  /* term to term multiplications */
86d7f5d3SJohn Marino  mpn_fft_mul_modF_K (Ap, sqr ? Ap : Bp, nprime, K);
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  /* inverse fft's */
86d7f5d3SJohn Marino  mpn_fft_fftinv (Ap, K, 2 * Mp, nprime, T);
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  /* division of terms after inverse fft */
86d7f5d3SJohn Marino  Bp[0] = T + nprime + 1;
86d7f5d3SJohn Marino  mpn_fft_div_2exp_modF (Bp[0], Ap[0], k, nprime);
86d7f5d3SJohn Marino  for (i = 1; i < K; i++)
86d7f5d3SJohn Marino    {
86d7f5d3SJohn Marino      Bp[i] = Ap[i - 1];
86d7f5d3SJohn Marino      mpn_fft_div_2exp_modF (Bp[i], Ap[i], k + (K - i) * Mp, nprime);
86d7f5d3SJohn Marino    }
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  /* addition of terms in result p */
86d7f5d3SJohn Marino  MPN_ZERO (T, nprime + 1);
86d7f5d3SJohn Marino  pla = l * (K - 1) + nprime + 1; /* number of required limbs for p */
86d7f5d3SJohn Marino  p = B; /* B has K*(n' + 1) limbs, which is >= pla, i.e. enough */
86d7f5d3SJohn Marino  MPN_ZERO (p, pla);
86d7f5d3SJohn Marino  cc = 0; /* will accumulate the (signed) carry at p[pla] */
86d7f5d3SJohn Marino  for (i = K - 1, lo = l * i + nprime,sh = l * i; i >= 0; i--,lo -= l,sh -= l)
86d7f5d3SJohn Marino    {
86d7f5d3SJohn Marino      mp_ptr n = p + sh;
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino      j = (K - i) & (K - 1);
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino      if (mpn_add_n (n, n, Bp[j], nprime + 1))
86d7f5d3SJohn Marino	cc += mpn_add_1 (n + nprime + 1, n + nprime + 1,
86d7f5d3SJohn Marino			  pla - sh - nprime - 1, CNST_LIMB(1));
86d7f5d3SJohn Marino      T[2 * l] = i + 1; /* T = (i + 1)*2^(2*M) */
86d7f5d3SJohn Marino      if (mpn_cmp (Bp[j], T, nprime + 1) > 0)
86d7f5d3SJohn Marino	{ /* subtract 2^N'+1 */
86d7f5d3SJohn Marino	  cc -= mpn_sub_1 (n, n, pla - sh, CNST_LIMB(1));
86d7f5d3SJohn Marino	  cc -= mpn_sub_1 (p + lo, p + lo, pla - lo, CNST_LIMB(1));
86d7f5d3SJohn Marino	}
86d7f5d3SJohn Marino    }
86d7f5d3SJohn Marino  if (cc == -CNST_LIMB(1))
86d7f5d3SJohn Marino    {
86d7f5d3SJohn Marino      if ((cc = mpn_add_1 (p + pla - pl, p + pla - pl, pl, CNST_LIMB(1))))
86d7f5d3SJohn Marino	{
86d7f5d3SJohn Marino	  /* p[pla-pl]...p[pla-1] are all zero */
86d7f5d3SJohn Marino	  mpn_sub_1 (p + pla - pl - 1, p + pla - pl - 1, pl + 1, CNST_LIMB(1));
86d7f5d3SJohn Marino	  mpn_sub_1 (p + pla - 1, p + pla - 1, 1, CNST_LIMB(1));
86d7f5d3SJohn Marino	}
86d7f5d3SJohn Marino    }
86d7f5d3SJohn Marino  else if (cc == 1)
86d7f5d3SJohn Marino    {
86d7f5d3SJohn Marino      if (pla >= 2 * pl)
86d7f5d3SJohn Marino	{
86d7f5d3SJohn Marino	  while ((cc = mpn_add_1 (p + pla - 2 * pl, p + pla - 2 * pl, 2 * pl, cc)))
86d7f5d3SJohn Marino	    ;
86d7f5d3SJohn Marino	}
86d7f5d3SJohn Marino      else
86d7f5d3SJohn Marino	{
86d7f5d3SJohn Marino	  cc = mpn_sub_1 (p + pla - pl, p + pla - pl, pl, cc);
86d7f5d3SJohn Marino	  ASSERT (cc == 0);
86d7f5d3SJohn Marino	}
86d7f5d3SJohn Marino    }
86d7f5d3SJohn Marino  else
86d7f5d3SJohn Marino    ASSERT (cc == 0);
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  /* here p < 2^(2M) [K 2^(M(K-1)) + (K-1) 2^(M(K-2)) + ... ]
86d7f5d3SJohn Marino     < K 2^(2M) [2^(M(K-1)) + 2^(M(K-2)) + ... ]
86d7f5d3SJohn Marino     < K 2^(2M) 2^(M(K-1))*2 = 2^(M*K+M+k+1) */
86d7f5d3SJohn Marino  return mpn_fft_norm_modF (op, pl, p, pla);
86d7f5d3SJohn Marino}
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino/* return the lcm of a and 2^k */
86d7f5d3SJohn Marinostatic unsigned long int
86d7f5d3SJohn Marinompn_mul_fft_lcm (unsigned long int a, unsigned int k)
86d7f5d3SJohn Marino{
86d7f5d3SJohn Marino  unsigned long int l = k;
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  while (a % 2 == 0 && k > 0)
86d7f5d3SJohn Marino    {
86d7f5d3SJohn Marino      a >>= 1;
86d7f5d3SJohn Marino      k --;
86d7f5d3SJohn Marino    }
86d7f5d3SJohn Marino  return a << l;
86d7f5d3SJohn Marino}
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino
86d7f5d3SJohn Marinomp_limb_t
86d7f5d3SJohn Marinompn_mul_fft (mp_ptr op, mp_size_t pl,
86d7f5d3SJohn Marino	     mp_srcptr n, mp_size_t nl,
86d7f5d3SJohn Marino	     mp_srcptr m, mp_size_t ml,
86d7f5d3SJohn Marino	     int k)
86d7f5d3SJohn Marino{
86d7f5d3SJohn Marino  int K, maxLK, i;
86d7f5d3SJohn Marino  mp_size_t N, Nprime, nprime, M, Mp, l;
86d7f5d3SJohn Marino  mp_ptr *Ap, *Bp, A, T, B;
86d7f5d3SJohn Marino  int **fft_l;
86d7f5d3SJohn Marino  int sqr = (n == m && nl == ml);
86d7f5d3SJohn Marino  mp_limb_t h;
86d7f5d3SJohn Marino  TMP_DECL;
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  TRACE (printf ("\nmpn_mul_fft pl=%ld nl=%ld ml=%ld k=%d\n", pl, nl, ml, k));
86d7f5d3SJohn Marino  ASSERT_ALWAYS (mpn_fft_next_size (pl, k) == pl);
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  TMP_MARK;
86d7f5d3SJohn Marino  N = pl * GMP_NUMB_BITS;
86d7f5d3SJohn Marino  fft_l = TMP_ALLOC_TYPE (k + 1, int *);
86d7f5d3SJohn Marino  for (i = 0; i <= k; i++)
86d7f5d3SJohn Marino    fft_l[i] = TMP_ALLOC_TYPE (1 << i, int);
86d7f5d3SJohn Marino  mpn_fft_initl (fft_l, k);
86d7f5d3SJohn Marino  K = 1 << k;
86d7f5d3SJohn Marino  M = N >> k;	/* N = 2^k M */
86d7f5d3SJohn Marino  l = 1 + (M - 1) / GMP_NUMB_BITS;
86d7f5d3SJohn Marino  maxLK = mpn_mul_fft_lcm ((unsigned long) GMP_NUMB_BITS, k); /* lcm (GMP_NUMB_BITS, 2^k) */
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  Nprime = (1 + (2 * M + k + 2) / maxLK) * maxLK;
86d7f5d3SJohn Marino  /* Nprime = ceil((2*M+k+3)/maxLK)*maxLK; */
86d7f5d3SJohn Marino  nprime = Nprime / GMP_NUMB_BITS;
86d7f5d3SJohn Marino  TRACE (printf ("N=%ld K=%d, M=%ld, l=%ld, maxLK=%d, Np=%ld, np=%ld\n",
86d7f5d3SJohn Marino		 N, K, M, l, maxLK, Nprime, nprime));
86d7f5d3SJohn Marino  /* we should ensure that recursively, nprime is a multiple of the next K */
86d7f5d3SJohn Marino  if (nprime >= (sqr ? SQR_FFT_MODF_THRESHOLD : MUL_FFT_MODF_THRESHOLD))
86d7f5d3SJohn Marino    {
86d7f5d3SJohn Marino      unsigned long K2;
86d7f5d3SJohn Marino      for (;;)
86d7f5d3SJohn Marino	{
86d7f5d3SJohn Marino	  K2 = 1L << mpn_fft_best_k (nprime, sqr);
86d7f5d3SJohn Marino	  if ((nprime & (K2 - 1)) == 0)
86d7f5d3SJohn Marino	    break;
86d7f5d3SJohn Marino	  nprime = (nprime + K2 - 1) & -K2;
86d7f5d3SJohn Marino	  Nprime = nprime * GMP_LIMB_BITS;
86d7f5d3SJohn Marino	  /* warning: since nprime changed, K2 may change too! */
86d7f5d3SJohn Marino	}
86d7f5d3SJohn Marino      TRACE (printf ("new maxLK=%d, Np=%ld, np=%ld\n", maxLK, Nprime, nprime));
86d7f5d3SJohn Marino    }
86d7f5d3SJohn Marino  ASSERT_ALWAYS (nprime < pl); /* otherwise we'll loop */
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  T = TMP_ALLOC_LIMBS (2 * (nprime + 1));
86d7f5d3SJohn Marino  Mp = Nprime >> k;
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  TRACE (printf ("%ldx%ld limbs -> %d times %ldx%ld limbs (%1.2f)\n",
86d7f5d3SJohn Marino		pl, pl, K, nprime, nprime, 2.0 * (double) N / Nprime / K);
86d7f5d3SJohn Marino	 printf ("   temp space %ld\n", 2 * K * (nprime + 1)));
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  A = TMP_ALLOC_LIMBS (K * (nprime + 1));
86d7f5d3SJohn Marino  Ap = TMP_ALLOC_MP_PTRS (K);
86d7f5d3SJohn Marino  mpn_mul_fft_decompose (A, Ap, K, nprime, n, nl, l, Mp, T);
86d7f5d3SJohn Marino  if (sqr)
86d7f5d3SJohn Marino    {
86d7f5d3SJohn Marino      mp_size_t pla;
86d7f5d3SJohn Marino      pla = l * (K - 1) + nprime + 1; /* number of required limbs for p */
86d7f5d3SJohn Marino      B = TMP_ALLOC_LIMBS (pla);
86d7f5d3SJohn Marino      Bp = TMP_ALLOC_MP_PTRS (K);
86d7f5d3SJohn Marino    }
86d7f5d3SJohn Marino  else
86d7f5d3SJohn Marino    {
86d7f5d3SJohn Marino      B = TMP_ALLOC_LIMBS (K * (nprime + 1));
86d7f5d3SJohn Marino      Bp = TMP_ALLOC_MP_PTRS (K);
86d7f5d3SJohn Marino      mpn_mul_fft_decompose (B, Bp, K, nprime, m, ml, l, Mp, T);
86d7f5d3SJohn Marino    }
86d7f5d3SJohn Marino  h = mpn_mul_fft_internal (op, pl, k, Ap, Bp, A, B, nprime, l, Mp, fft_l, T, sqr);
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  TMP_FREE;
86d7f5d3SJohn Marino  return h;
86d7f5d3SJohn Marino}
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino#if WANT_OLD_FFT_FULL
86d7f5d3SJohn Marino/* multiply {n, nl} by {m, ml}, and put the result in {op, nl+ml} */
86d7f5d3SJohn Marinovoid
86d7f5d3SJohn Marinompn_mul_fft_full (mp_ptr op,
86d7f5d3SJohn Marino		  mp_srcptr n, mp_size_t nl,
86d7f5d3SJohn Marino		  mp_srcptr m, mp_size_t ml)
86d7f5d3SJohn Marino{
86d7f5d3SJohn Marino  mp_ptr pad_op;
86d7f5d3SJohn Marino  mp_size_t pl, pl2, pl3, l;
86d7f5d3SJohn Marino  int k2, k3;
86d7f5d3SJohn Marino  int sqr = (n == m && nl == ml);
86d7f5d3SJohn Marino  int cc, c2, oldcc;
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  pl = nl + ml; /* total number of limbs of the result */
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  /* perform a fft mod 2^(2N)+1 and one mod 2^(3N)+1.
86d7f5d3SJohn Marino     We must have pl3 = 3/2 * pl2, with pl2 a multiple of 2^k2, and
86d7f5d3SJohn Marino     pl3 a multiple of 2^k3. Since k3 >= k2, both are multiples of 2^k2,
86d7f5d3SJohn Marino     and pl2 must be an even multiple of 2^k2. Thus (pl2,pl3) =
86d7f5d3SJohn Marino     (2*j*2^k2,3*j*2^k2), which works for 3*j <= pl/2^k2 <= 5*j.
86d7f5d3SJohn Marino     We need that consecutive intervals overlap, i.e. 5*j >= 3*(j+1),
86d7f5d3SJohn Marino     which requires j>=2. Thus this scheme requires pl >= 6 * 2^FFT_FIRST_K. */
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  /*  ASSERT_ALWAYS(pl >= 6 * (1 << FFT_FIRST_K)); */
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  pl2 = (2 * pl - 1) / 5; /* ceil (2pl/5) - 1 */
86d7f5d3SJohn Marino  do
86d7f5d3SJohn Marino    {
86d7f5d3SJohn Marino      pl2++;
86d7f5d3SJohn Marino      k2 = mpn_fft_best_k (pl2, sqr); /* best fft size for pl2 limbs */
86d7f5d3SJohn Marino      pl2 = mpn_fft_next_size (pl2, k2);
86d7f5d3SJohn Marino      pl3 = 3 * pl2 / 2; /* since k>=FFT_FIRST_K=4, pl2 is a multiple of 2^4,
86d7f5d3SJohn Marino			    thus pl2 / 2 is exact */
86d7f5d3SJohn Marino      k3 = mpn_fft_best_k (pl3, sqr);
86d7f5d3SJohn Marino    }
86d7f5d3SJohn Marino  while (mpn_fft_next_size (pl3, k3) != pl3);
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  TRACE (printf ("mpn_mul_fft_full nl=%ld ml=%ld -> pl2=%ld pl3=%ld k=%d\n",
86d7f5d3SJohn Marino		 nl, ml, pl2, pl3, k2));
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  ASSERT_ALWAYS(pl3 <= pl);
86d7f5d3SJohn Marino  cc = mpn_mul_fft (op, pl3, n, nl, m, ml, k3);     /* mu */
86d7f5d3SJohn Marino  ASSERT(cc == 0);
86d7f5d3SJohn Marino  pad_op = __GMP_ALLOCATE_FUNC_LIMBS (pl2);
86d7f5d3SJohn Marino  cc = mpn_mul_fft (pad_op, pl2, n, nl, m, ml, k2); /* lambda */
86d7f5d3SJohn Marino  cc = -cc + mpn_sub_n (pad_op, pad_op, op, pl2);    /* lambda - low(mu) */
86d7f5d3SJohn Marino  /* 0 <= cc <= 1 */
86d7f5d3SJohn Marino  ASSERT(0 <= cc && cc <= 1);
86d7f5d3SJohn Marino  l = pl3 - pl2; /* l = pl2 / 2 since pl3 = 3/2 * pl2 */
86d7f5d3SJohn Marino  c2 = mpn_add_n (pad_op, pad_op, op + pl2, l);
86d7f5d3SJohn Marino  cc = mpn_add_1 (pad_op + l, pad_op + l, l, (mp_limb_t) c2) - cc;
86d7f5d3SJohn Marino  ASSERT(-1 <= cc && cc <= 1);
86d7f5d3SJohn Marino  if (cc < 0)
86d7f5d3SJohn Marino    cc = mpn_add_1 (pad_op, pad_op, pl2, (mp_limb_t) -cc);
86d7f5d3SJohn Marino  ASSERT(0 <= cc && cc <= 1);
86d7f5d3SJohn Marino  /* now lambda-mu = {pad_op, pl2} - cc mod 2^(pl2*GMP_NUMB_BITS)+1 */
86d7f5d3SJohn Marino  oldcc = cc;
86d7f5d3SJohn Marino#if HAVE_NATIVE_mpn_add_n_sub_n
86d7f5d3SJohn Marino  c2 = mpn_add_n_sub_n (pad_op + l, pad_op, pad_op, pad_op + l, l);
86d7f5d3SJohn Marino  /* c2 & 1 is the borrow, c2 & 2 is the carry */
86d7f5d3SJohn Marino  cc += c2 >> 1; /* carry out from high <- low + high */
86d7f5d3SJohn Marino  c2 = c2 & 1; /* borrow out from low <- low - high */
86d7f5d3SJohn Marino#else
86d7f5d3SJohn Marino  {
86d7f5d3SJohn Marino    mp_ptr tmp;
86d7f5d3SJohn Marino    TMP_DECL;
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino    TMP_MARK;
86d7f5d3SJohn Marino    tmp = TMP_ALLOC_LIMBS (l);
86d7f5d3SJohn Marino    MPN_COPY (tmp, pad_op, l);
86d7f5d3SJohn Marino    c2 = mpn_sub_n (pad_op,      pad_op, pad_op + l, l);
86d7f5d3SJohn Marino    cc += mpn_add_n (pad_op + l, tmp,    pad_op + l, l);
86d7f5d3SJohn Marino    TMP_FREE;
86d7f5d3SJohn Marino  }
86d7f5d3SJohn Marino#endif
86d7f5d3SJohn Marino  c2 += oldcc;
86d7f5d3SJohn Marino  /* first normalize {pad_op, pl2} before dividing by 2: c2 is the borrow
86d7f5d3SJohn Marino     at pad_op + l, cc is the carry at pad_op + pl2 */
86d7f5d3SJohn Marino  /* 0 <= cc <= 2 */
86d7f5d3SJohn Marino  cc -= mpn_sub_1 (pad_op + l, pad_op + l, l, (mp_limb_t) c2);
86d7f5d3SJohn Marino  /* -1 <= cc <= 2 */
86d7f5d3SJohn Marino  if (cc > 0)
86d7f5d3SJohn Marino    cc = -mpn_sub_1 (pad_op, pad_op, pl2, (mp_limb_t) cc);
86d7f5d3SJohn Marino  /* now -1 <= cc <= 0 */
86d7f5d3SJohn Marino  if (cc < 0)
86d7f5d3SJohn Marino    cc = mpn_add_1 (pad_op, pad_op, pl2, (mp_limb_t) -cc);
86d7f5d3SJohn Marino  /* now {pad_op, pl2} is normalized, with 0 <= cc <= 1 */
86d7f5d3SJohn Marino  if (pad_op[0] & 1) /* if odd, add 2^(pl2*GMP_NUMB_BITS)+1 */
86d7f5d3SJohn Marino    cc += 1 + mpn_add_1 (pad_op, pad_op, pl2, CNST_LIMB(1));
86d7f5d3SJohn Marino  /* now 0 <= cc <= 2, but cc=2 cannot occur since it would give a carry
86d7f5d3SJohn Marino     out below */
86d7f5d3SJohn Marino  mpn_rshift (pad_op, pad_op, pl2, 1); /* divide by two */
86d7f5d3SJohn Marino  if (cc) /* then cc=1 */
86d7f5d3SJohn Marino    pad_op [pl2 - 1] |= (mp_limb_t) 1 << (GMP_NUMB_BITS - 1);
86d7f5d3SJohn Marino  /* now {pad_op,pl2}-cc = (lambda-mu)/(1-2^(l*GMP_NUMB_BITS))
86d7f5d3SJohn Marino     mod 2^(pl2*GMP_NUMB_BITS) + 1 */
86d7f5d3SJohn Marino  c2 = mpn_add_n (op, op, pad_op, pl2); /* no need to add cc (is 0) */
86d7f5d3SJohn Marino  /* since pl2+pl3 >= pl, necessary the extra limbs (including cc) are zero */
86d7f5d3SJohn Marino  MPN_COPY (op + pl3, pad_op, pl - pl3);
86d7f5d3SJohn Marino  ASSERT_MPN_ZERO_P (pad_op + pl - pl3, pl2 + pl3 - pl);
86d7f5d3SJohn Marino  __GMP_FREE_FUNC_LIMBS (pad_op, pl2);
86d7f5d3SJohn Marino  /* since the final result has at most pl limbs, no carry out below */
86d7f5d3SJohn Marino  mpn_add_1 (op + pl2, op + pl2, pl - pl2, (mp_limb_t) c2);
86d7f5d3SJohn Marino}
86d7f5d3SJohn Marino#endif