mpn/generic/gcdext.c

4b6a78b7SSimon Schubert/* mpn_gcdext -- Extended Greatest Common Divisor.
4b6a78b7SSimon Schubert
8b5d8148SSascha WildnerCopyright 1996, 1998, 2000, 2001, 2002, 2003, 2004, 2005, 2008, 2009 Free Software
4b6a78b7SSimon SchubertFoundation, Inc.
4b6a78b7SSimon Schubert
4b6a78b7SSimon SchubertThis file is part of the GNU MP Library.
4b6a78b7SSimon Schubert
4b6a78b7SSimon SchubertThe GNU MP Library is free software; you can redistribute it and/or modify
4b6a78b7SSimon Schubertit under the terms of the GNU Lesser General Public License as published by
4b6a78b7SSimon Schubertthe Free Software Foundation; either version 3 of the License, or (at your
4b6a78b7SSimon Schubertoption) any later version.
4b6a78b7SSimon Schubert
4b6a78b7SSimon SchubertThe GNU MP Library is distributed in the hope that it will be useful, but
4b6a78b7SSimon SchubertWITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY
4b6a78b7SSimon Schubertor FITNESS FOR A PARTICULAR PURPOSE.  See the GNU Lesser General Public
4b6a78b7SSimon SchubertLicense for more details.
4b6a78b7SSimon Schubert
4b6a78b7SSimon SchubertYou should have received a copy of the GNU Lesser General Public License
4b6a78b7SSimon Schubertalong with the GNU MP Library.  If not, see http://www.gnu.org/licenses/.  */
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert#include "gmp.h"
4b6a78b7SSimon Schubert#include "gmp-impl.h"
4b6a78b7SSimon Schubert#include "longlong.h"
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert/* Computes (r;b) = (a; b) M. Result is of size n + M->n +/- 1, and
4b6a78b7SSimon Schubert   the size is returned (if inputs are non-normalized, result may be
4b6a78b7SSimon Schubert   non-normalized too). Temporary space needed is M->n + n.
4b6a78b7SSimon Schubert */
4b6a78b7SSimon Schubertstatic size_t
4b6a78b7SSimon Schuberthgcd_mul_matrix_vector (struct hgcd_matrix *M,
4b6a78b7SSimon Schubert			mp_ptr rp, mp_srcptr ap, mp_ptr bp, mp_size_t n, mp_ptr tp)
4b6a78b7SSimon Schubert{
4b6a78b7SSimon Schubert  mp_limb_t ah, bh;
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert  /* Compute (r,b) <-- (u00 a + u10 b, u01 a + u11 b) as
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert     t  = u00 * a
4b6a78b7SSimon Schubert     r  = u10 * b
4b6a78b7SSimon Schubert     r += t;
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert     t  = u11 * b
4b6a78b7SSimon Schubert     b  = u01 * a
4b6a78b7SSimon Schubert     b += t;
4b6a78b7SSimon Schubert  */
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert  if (M->n >= n)
4b6a78b7SSimon Schubert    {
4b6a78b7SSimon Schubert      mpn_mul (tp, M->p[0][0], M->n, ap, n);
4b6a78b7SSimon Schubert      mpn_mul (rp, M->p[1][0], M->n, bp, n);
4b6a78b7SSimon Schubert    }
4b6a78b7SSimon Schubert  else
4b6a78b7SSimon Schubert    {
4b6a78b7SSimon Schubert      mpn_mul (tp, ap, n, M->p[0][0], M->n);
4b6a78b7SSimon Schubert      mpn_mul (rp, bp, n, M->p[1][0], M->n);
4b6a78b7SSimon Schubert    }
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert  ah = mpn_add_n (rp, rp, tp, n + M->n);
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert  if (M->n >= n)
4b6a78b7SSimon Schubert    {
4b6a78b7SSimon Schubert      mpn_mul (tp, M->p[1][1], M->n, bp, n);
4b6a78b7SSimon Schubert      mpn_mul (bp, M->p[0][1], M->n, ap, n);
4b6a78b7SSimon Schubert    }
4b6a78b7SSimon Schubert  else
4b6a78b7SSimon Schubert    {
4b6a78b7SSimon Schubert      mpn_mul (tp, bp, n, M->p[1][1], M->n);
4b6a78b7SSimon Schubert      mpn_mul (bp, ap, n, M->p[0][1], M->n);
4b6a78b7SSimon Schubert    }
4b6a78b7SSimon Schubert  bh = mpn_add_n (bp, bp, tp, n + M->n);
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert  n += M->n;
4b6a78b7SSimon Schubert  if ( (ah | bh) > 0)
4b6a78b7SSimon Schubert    {
4b6a78b7SSimon Schubert      rp[n] = ah;
4b6a78b7SSimon Schubert      bp[n] = bh;
4b6a78b7SSimon Schubert      n++;
4b6a78b7SSimon Schubert    }
4b6a78b7SSimon Schubert  else
4b6a78b7SSimon Schubert    {
4b6a78b7SSimon Schubert      /* Normalize */
4b6a78b7SSimon Schubert      while ( (rp[n-1] | bp[n-1]) == 0)
4b6a78b7SSimon Schubert	n--;
4b6a78b7SSimon Schubert    }
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert  return n;
4b6a78b7SSimon Schubert}
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert#define COMPUTE_V_ITCH(n) (2*(n) + 1)
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert/* Computes |v| = |(g - u a)| / b, where u may be positive or
4b6a78b7SSimon Schubert   negative, and v is of the opposite sign. a, b are of size n, u and
4b6a78b7SSimon Schubert   v at most size n, and v must have space for n+1 limbs. */
4b6a78b7SSimon Schubertstatic mp_size_t
4b6a78b7SSimon Schubertcompute_v (mp_ptr vp,
4b6a78b7SSimon Schubert	   mp_srcptr ap, mp_srcptr bp, mp_size_t n,
4b6a78b7SSimon Schubert	   mp_srcptr gp, mp_size_t gn,
4b6a78b7SSimon Schubert	   mp_srcptr up, mp_size_t usize,
4b6a78b7SSimon Schubert	   mp_ptr tp)
4b6a78b7SSimon Schubert{
4b6a78b7SSimon Schubert  mp_size_t size;
4b6a78b7SSimon Schubert  mp_size_t an;
4b6a78b7SSimon Schubert  mp_size_t bn;
4b6a78b7SSimon Schubert  mp_size_t vn;
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert  ASSERT (n > 0);
4b6a78b7SSimon Schubert  ASSERT (gn > 0);
4b6a78b7SSimon Schubert  ASSERT (usize != 0);
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert  size = ABS (usize);
4b6a78b7SSimon Schubert  ASSERT (size <= n);
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert  an = n;
4b6a78b7SSimon Schubert  MPN_NORMALIZE (ap, an);
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert  if (an >= size)
4b6a78b7SSimon Schubert    mpn_mul (tp, ap, an, up, size);
4b6a78b7SSimon Schubert  else
4b6a78b7SSimon Schubert    mpn_mul (tp, up, size, ap, an);
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert  size += an;
54028e53SJohn Marino  size -= tp[size - 1] == 0;
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert  ASSERT (gn <= size);
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert  if (usize > 0)
4b6a78b7SSimon Schubert    {
4b6a78b7SSimon Schubert      /* |v| = -v = (u a - g) / b */
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert      ASSERT_NOCARRY (mpn_sub (tp, tp, size, gp, gn));
4b6a78b7SSimon Schubert      MPN_NORMALIZE (tp, size);
4b6a78b7SSimon Schubert      if (size == 0)
4b6a78b7SSimon Schubert	return 0;
4b6a78b7SSimon Schubert    }
4b6a78b7SSimon Schubert  else
4b6a78b7SSimon Schubert    { /* usize < 0 */
4b6a78b7SSimon Schubert      /* |v| = v = (c - u a) / b = (c + |u| a) / b */
4b6a78b7SSimon Schubert      mp_limb_t cy = mpn_add (tp, tp, size, gp, gn);
4b6a78b7SSimon Schubert      if (cy)
4b6a78b7SSimon Schubert	tp[size++] = cy;
4b6a78b7SSimon Schubert    }
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert  /* Now divide t / b. There must be no remainder */
4b6a78b7SSimon Schubert  bn = n;
4b6a78b7SSimon Schubert  MPN_NORMALIZE (bp, bn);
4b6a78b7SSimon Schubert  ASSERT (size >= bn);
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert  vn = size + 1 - bn;
4b6a78b7SSimon Schubert  ASSERT (vn <= n + 1);
4b6a78b7SSimon Schubert
54028e53SJohn Marino  mpn_divexact (vp, tp, size, bp, bn);
4b6a78b7SSimon Schubert  vn -= (vp[vn-1] == 0);
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert  return vn;
4b6a78b7SSimon Schubert}
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert/* Temporary storage:
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert   Initial division: Quotient of at most an - n + 1 <= an limbs.
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert   Storage for u0 and u1: 2(n+1).
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert   Storage for hgcd matrix M, with input ceil(n/2): 5 * ceil(n/4)
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert   Storage for hgcd, input (n + 1)/2: 9 n/4 plus some.
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert   When hgcd succeeds: 1 + floor(3n/2) for adjusting a and b, and 2(n+1) for the cofactors.
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert   When hgcd fails: 2n + 1 for mpn_gcdext_subdiv_step, which is less.
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert   For the lehmer call after the loop, Let T denote
4b6a78b7SSimon Schubert   GCDEXT_DC_THRESHOLD. For the gcdext_lehmer call, we need T each for
4b6a78b7SSimon Schubert   u, a and b, and 4T+3 scratch space. Next, for compute_v, we need T
54028e53SJohn Marino   for u, T+1 for v and 2T + 1 scratch space. In all, 7T + 3 is
54028e53SJohn Marino   sufficient for both operations.
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert*/
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert/* Optimal choice of p seems difficult. In each iteration the division
4b6a78b7SSimon Schubert * of work between hgcd and the updates of u0 and u1 depends on the
4b6a78b7SSimon Schubert * current size of the u. It may be desirable to use a different
4b6a78b7SSimon Schubert * choice of p in each iteration. Also the input size seems to matter;
4b6a78b7SSimon Schubert * choosing p = n / 3 in the first iteration seems to improve
4b6a78b7SSimon Schubert * performance slightly for input size just above the threshold, but
4b6a78b7SSimon Schubert * degrade performance for larger inputs. */
4b6a78b7SSimon Schubert#define CHOOSE_P_1(n) ((n) / 2)
4b6a78b7SSimon Schubert#define CHOOSE_P_2(n) ((n) / 3)
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubertmp_size_t
4b6a78b7SSimon Schubertmpn_gcdext (mp_ptr gp, mp_ptr up, mp_size_t *usizep,
4b6a78b7SSimon Schubert	    mp_ptr ap, mp_size_t an, mp_ptr bp, mp_size_t n)
4b6a78b7SSimon Schubert{
4b6a78b7SSimon Schubert  mp_size_t talloc;
4b6a78b7SSimon Schubert  mp_size_t scratch;
4b6a78b7SSimon Schubert  mp_size_t matrix_scratch;
4b6a78b7SSimon Schubert  mp_size_t ualloc = n + 1;
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert  mp_size_t un;
4b6a78b7SSimon Schubert  mp_ptr u0;
4b6a78b7SSimon Schubert  mp_ptr u1;
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert  mp_ptr tp;
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert  TMP_DECL;
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert  ASSERT (an >= n);
4b6a78b7SSimon Schubert  ASSERT (n > 0);
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert  TMP_MARK;
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert  /* FIXME: Check for small sizes first, before setting up temporary
4b6a78b7SSimon Schubert     storage etc. */
4b6a78b7SSimon Schubert  talloc = MPN_GCDEXT_LEHMER_N_ITCH(n);
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert  /* For initial division */
4b6a78b7SSimon Schubert  scratch = an - n + 1;
4b6a78b7SSimon Schubert  if (scratch > talloc)
4b6a78b7SSimon Schubert    talloc = scratch;
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert  if (ABOVE_THRESHOLD (n, GCDEXT_DC_THRESHOLD))
4b6a78b7SSimon Schubert    {
4b6a78b7SSimon Schubert      /* For hgcd loop. */
4b6a78b7SSimon Schubert      mp_size_t hgcd_scratch;
4b6a78b7SSimon Schubert      mp_size_t update_scratch;
4b6a78b7SSimon Schubert      mp_size_t p1 = CHOOSE_P_1 (n);
4b6a78b7SSimon Schubert      mp_size_t p2 = CHOOSE_P_2 (n);
4b6a78b7SSimon Schubert      mp_size_t min_p = MIN(p1, p2);
4b6a78b7SSimon Schubert      mp_size_t max_p = MAX(p1, p2);
4b6a78b7SSimon Schubert      matrix_scratch = MPN_HGCD_MATRIX_INIT_ITCH (n - min_p);
4b6a78b7SSimon Schubert      hgcd_scratch = mpn_hgcd_itch (n - min_p);
4b6a78b7SSimon Schubert      update_scratch = max_p + n - 1;
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert      scratch = matrix_scratch + MAX(hgcd_scratch, update_scratch);
4b6a78b7SSimon Schubert      if (scratch > talloc)
4b6a78b7SSimon Schubert	talloc = scratch;
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert      /* Final mpn_gcdext_lehmer_n call. Need space for u and for
4b6a78b7SSimon Schubert	 copies of a and b. */
4b6a78b7SSimon Schubert      scratch = MPN_GCDEXT_LEHMER_N_ITCH (GCDEXT_DC_THRESHOLD)
4b6a78b7SSimon Schubert	+ 3*GCDEXT_DC_THRESHOLD;
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert      if (scratch > talloc)
4b6a78b7SSimon Schubert	talloc = scratch;
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert      /* Cofactors u0 and u1 */
4b6a78b7SSimon Schubert      talloc += 2*(n+1);
4b6a78b7SSimon Schubert    }
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert  tp = TMP_ALLOC_LIMBS(talloc);
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert  if (an > n)
4b6a78b7SSimon Schubert    {
4b6a78b7SSimon Schubert      mpn_tdiv_qr (tp, ap, 0, ap, an, bp, n);
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert      if (mpn_zero_p (ap, n))
4b6a78b7SSimon Schubert	{
4b6a78b7SSimon Schubert	  MPN_COPY (gp, bp, n);
4b6a78b7SSimon Schubert	  *usizep = 0;
4b6a78b7SSimon Schubert	  TMP_FREE;
4b6a78b7SSimon Schubert	  return n;
4b6a78b7SSimon Schubert	}
4b6a78b7SSimon Schubert    }
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert  if (BELOW_THRESHOLD (n, GCDEXT_DC_THRESHOLD))
4b6a78b7SSimon Schubert    {
4b6a78b7SSimon Schubert      mp_size_t gn = mpn_gcdext_lehmer_n(gp, up, usizep, ap, bp, n, tp);
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert      TMP_FREE;
4b6a78b7SSimon Schubert      return gn;
4b6a78b7SSimon Schubert    }
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert  MPN_ZERO (tp, 2*ualloc);
4b6a78b7SSimon Schubert  u0 = tp; tp += ualloc;
4b6a78b7SSimon Schubert  u1 = tp; tp += ualloc;
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert  {
4b6a78b7SSimon Schubert    /* For the first hgcd call, there are no u updates, and it makes
4b6a78b7SSimon Schubert       some sense to use a different choice for p. */
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert    /* FIXME: We could trim use of temporary storage, since u0 and u1
4b6a78b7SSimon Schubert       are not used yet. For the hgcd call, we could swap in the u0
4b6a78b7SSimon Schubert       and u1 pointers for the relevant matrix elements. */
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert    struct hgcd_matrix M;
4b6a78b7SSimon Schubert    mp_size_t p = CHOOSE_P_1 (n);
4b6a78b7SSimon Schubert    mp_size_t nn;
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert    mpn_hgcd_matrix_init (&M, n - p, tp);
4b6a78b7SSimon Schubert    nn = mpn_hgcd (ap + p, bp + p, n - p, &M, tp + matrix_scratch);
4b6a78b7SSimon Schubert    if (nn > 0)
4b6a78b7SSimon Schubert      {
4b6a78b7SSimon Schubert	ASSERT (M.n <= (n - p - 1)/2);
4b6a78b7SSimon Schubert	ASSERT (M.n + p <= (p + n - 1) / 2);
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert	/* Temporary storage 2 (p + M->n) <= p + n - 1 */
4b6a78b7SSimon Schubert	n = mpn_hgcd_matrix_adjust (&M, p + nn, ap, bp, p, tp + matrix_scratch);
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert	MPN_COPY (u0, M.p[1][0], M.n);
4b6a78b7SSimon Schubert	MPN_COPY (u1, M.p[1][1], M.n);
4b6a78b7SSimon Schubert	un = M.n;
4b6a78b7SSimon Schubert	while ( (u0[un-1] | u1[un-1] ) == 0)
4b6a78b7SSimon Schubert	  un--;
4b6a78b7SSimon Schubert      }
4b6a78b7SSimon Schubert    else
4b6a78b7SSimon Schubert      {
4b6a78b7SSimon Schubert	/* mpn_hgcd has failed. Then either one of a or b is very
4b6a78b7SSimon Schubert	   small, or the difference is very small. Perform one
4b6a78b7SSimon Schubert	   subtraction followed by one division. */
4b6a78b7SSimon Schubert	mp_size_t gn;
4b6a78b7SSimon Schubert	mp_size_t updated_un = 1;
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert	u1[0] = 1;
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert	/* Temporary storage 2n + 1 */
4b6a78b7SSimon Schubert	n = mpn_gcdext_subdiv_step (gp, &gn, up, usizep, ap, bp, n,
4b6a78b7SSimon Schubert				    u0, u1, &updated_un, tp, tp + n);
4b6a78b7SSimon Schubert	if (n == 0)
4b6a78b7SSimon Schubert	  {
4b6a78b7SSimon Schubert	    TMP_FREE;
4b6a78b7SSimon Schubert	    return gn;
4b6a78b7SSimon Schubert	  }
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert	un = updated_un;
4b6a78b7SSimon Schubert	ASSERT (un < ualloc);
4b6a78b7SSimon Schubert      }
4b6a78b7SSimon Schubert  }
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert  while (ABOVE_THRESHOLD (n, GCDEXT_DC_THRESHOLD))
4b6a78b7SSimon Schubert    {
4b6a78b7SSimon Schubert      struct hgcd_matrix M;
4b6a78b7SSimon Schubert      mp_size_t p = CHOOSE_P_2 (n);
4b6a78b7SSimon Schubert      mp_size_t nn;
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert      mpn_hgcd_matrix_init (&M, n - p, tp);
4b6a78b7SSimon Schubert      nn = mpn_hgcd (ap + p, bp + p, n - p, &M, tp + matrix_scratch);
4b6a78b7SSimon Schubert      if (nn > 0)
4b6a78b7SSimon Schubert	{
4b6a78b7SSimon Schubert	  mp_ptr t0;
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert	  t0 = tp + matrix_scratch;
4b6a78b7SSimon Schubert	  ASSERT (M.n <= (n - p - 1)/2);
4b6a78b7SSimon Schubert	  ASSERT (M.n + p <= (p + n - 1) / 2);
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert	  /* Temporary storage 2 (p + M->n) <= p + n - 1 */
4b6a78b7SSimon Schubert	  n = mpn_hgcd_matrix_adjust (&M, p + nn, ap, bp, p, t0);
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert	  /* By the same analysis as for mpn_hgcd_matrix_mul */
4b6a78b7SSimon Schubert	  ASSERT (M.n + un <= ualloc);
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert	  /* FIXME: This copying could be avoided by some swapping of
4b6a78b7SSimon Schubert	   * pointers. May need more temporary storage, though. */
4b6a78b7SSimon Schubert	  MPN_COPY (t0, u0, un);
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert	  /* Temporary storage ualloc */
4b6a78b7SSimon Schubert	  un = hgcd_mul_matrix_vector (&M, u0, t0, u1, un, t0 + un);
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert	  ASSERT (un < ualloc);
4b6a78b7SSimon Schubert	  ASSERT ( (u0[un-1] | u1[un-1]) > 0);
4b6a78b7SSimon Schubert	}
4b6a78b7SSimon Schubert      else
4b6a78b7SSimon Schubert	{
4b6a78b7SSimon Schubert	  /* mpn_hgcd has failed. Then either one of a or b is very
4b6a78b7SSimon Schubert	     small, or the difference is very small. Perform one
4b6a78b7SSimon Schubert	     subtraction followed by one division. */
4b6a78b7SSimon Schubert	  mp_size_t gn;
4b6a78b7SSimon Schubert	  mp_size_t updated_un = un;
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert	  /* Temporary storage 2n + 1 */
4b6a78b7SSimon Schubert	  n = mpn_gcdext_subdiv_step (gp, &gn, up, usizep, ap, bp, n,
4b6a78b7SSimon Schubert				      u0, u1, &updated_un, tp, tp + n);
4b6a78b7SSimon Schubert	  if (n == 0)
4b6a78b7SSimon Schubert	    {
4b6a78b7SSimon Schubert	      TMP_FREE;
4b6a78b7SSimon Schubert	      return gn;
4b6a78b7SSimon Schubert	    }
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert	  un = updated_un;
4b6a78b7SSimon Schubert	  ASSERT (un < ualloc);
4b6a78b7SSimon Schubert	}
4b6a78b7SSimon Schubert    }
4b6a78b7SSimon Schubert
8b5d8148SSascha Wildner  if (UNLIKELY (mpn_cmp (ap, bp, n) == 0))
4b6a78b7SSimon Schubert    {
8b5d8148SSascha Wildner      /* Must return the smallest cofactor, +u1 or -u0 */
8b5d8148SSascha Wildner      int c;
8b5d8148SSascha Wildner
8b5d8148SSascha Wildner      MPN_COPY (gp, ap, n);
8b5d8148SSascha Wildner
8b5d8148SSascha Wildner      MPN_CMP (c, u0, u1, un);
*d2d4b659SJohn Marino      /* c == 0 can happen only when A = (2k+1) G, B = 2 G. And in
*d2d4b659SJohn Marino	 this case we choose the cofactor + 1, corresponding to G = A
*d2d4b659SJohn Marino	 - k B, rather than -1, corresponding to G = - A + (k+1) B. */
*d2d4b659SJohn Marino      ASSERT (c != 0 || (un == 1 && u0[0] == 1 && u1[0] == 1));
8b5d8148SSascha Wildner      if (c < 0)
8b5d8148SSascha Wildner	{
8b5d8148SSascha Wildner	  MPN_NORMALIZE (u0, un);
4b6a78b7SSimon Schubert	  MPN_COPY (up, u0, un);
4b6a78b7SSimon Schubert	  *usizep = -un;
4b6a78b7SSimon Schubert	}
8b5d8148SSascha Wildner      else
4b6a78b7SSimon Schubert	{
4b6a78b7SSimon Schubert	  MPN_NORMALIZE_NOT_ZERO (u1, un);
4b6a78b7SSimon Schubert	  MPN_COPY (up, u1, un);
4b6a78b7SSimon Schubert	  *usizep = un;
8b5d8148SSascha Wildner	}
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert      TMP_FREE;
4b6a78b7SSimon Schubert      return n;
4b6a78b7SSimon Schubert    }
4b6a78b7SSimon Schubert  else if (mpn_zero_p (u0, un))
4b6a78b7SSimon Schubert    {
4b6a78b7SSimon Schubert      mp_size_t gn;
4b6a78b7SSimon Schubert      ASSERT (un == 1);
4b6a78b7SSimon Schubert      ASSERT (u1[0] == 1);
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert      /* g = u a + v b = (u u1 - v u0) A + (...) B = u A + (...) B */
4b6a78b7SSimon Schubert      gn = mpn_gcdext_lehmer_n (gp, up, usizep, ap, bp, n, tp);
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert      TMP_FREE;
4b6a78b7SSimon Schubert      return gn;
4b6a78b7SSimon Schubert    }
4b6a78b7SSimon Schubert  else
4b6a78b7SSimon Schubert    {
4b6a78b7SSimon Schubert      /* We have A = ... a + ... b
4b6a78b7SSimon Schubert		 B =  u0 a +  u1 b
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert		 a = u1  A + ... B
4b6a78b7SSimon Schubert		 b = -u0 A + ... B
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert	 with bounds
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert	   |u0|, |u1| <= B / min(a, b)
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert	 Compute g = u a + v b = (u u1 - v u0) A + (...) B
4b6a78b7SSimon Schubert	 Here, u, v are bounded by
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert	 |u| <= b,
4b6a78b7SSimon Schubert	 |v| <= a
4b6a78b7SSimon Schubert      */
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert      mp_size_t u0n;
4b6a78b7SSimon Schubert      mp_size_t u1n;
4b6a78b7SSimon Schubert      mp_size_t lehmer_un;
4b6a78b7SSimon Schubert      mp_size_t lehmer_vn;
4b6a78b7SSimon Schubert      mp_size_t gn;
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert      mp_ptr lehmer_up;
4b6a78b7SSimon Schubert      mp_ptr lehmer_vp;
4b6a78b7SSimon Schubert      int negate;
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert      lehmer_up = tp; tp += n;
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert      /* Call mpn_gcdext_lehmer_n with copies of a and b. */
4b6a78b7SSimon Schubert      MPN_COPY (tp, ap, n);
4b6a78b7SSimon Schubert      MPN_COPY (tp + n, bp, n);
4b6a78b7SSimon Schubert      gn = mpn_gcdext_lehmer_n (gp, lehmer_up, &lehmer_un, tp, tp + n, n, tp + 2*n);
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert      u0n = un;
4b6a78b7SSimon Schubert      MPN_NORMALIZE (u0, u0n);
4b6a78b7SSimon Schubert      if (lehmer_un == 0)
4b6a78b7SSimon Schubert	{
4b6a78b7SSimon Schubert	  /* u == 0  ==>  v = g / b == 1  ==> g = - u0 A + (...) B */
4b6a78b7SSimon Schubert	  MPN_COPY (up, u0, u0n);
4b6a78b7SSimon Schubert	  *usizep = -u0n;
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert	  TMP_FREE;
4b6a78b7SSimon Schubert	  return gn;
4b6a78b7SSimon Schubert	}
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert      lehmer_vp = tp;
4b6a78b7SSimon Schubert      /* Compute v = (g - u a) / b */
4b6a78b7SSimon Schubert      lehmer_vn = compute_v (lehmer_vp,
4b6a78b7SSimon Schubert			     ap, bp, n, gp, gn, lehmer_up, lehmer_un, tp + n + 1);
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert      if (lehmer_un > 0)
4b6a78b7SSimon Schubert	negate = 0;
4b6a78b7SSimon Schubert      else
4b6a78b7SSimon Schubert	{
4b6a78b7SSimon Schubert	  lehmer_un = -lehmer_un;
4b6a78b7SSimon Schubert	  negate = 1;
4b6a78b7SSimon Schubert	}
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert      u1n = un;
4b6a78b7SSimon Schubert      MPN_NORMALIZE (u1, u1n);
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert      /* It's possible that u0 = 1, u1 = 0 */
4b6a78b7SSimon Schubert      if (u1n == 0)
4b6a78b7SSimon Schubert	{
4b6a78b7SSimon Schubert	  ASSERT (un == 1);
4b6a78b7SSimon Schubert	  ASSERT (u0[0] == 1);
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert	  /* u1 == 0 ==> u u1 + v u0 = v */
4b6a78b7SSimon Schubert	  MPN_COPY (up, lehmer_vp, lehmer_vn);
4b6a78b7SSimon Schubert	  *usizep = negate ? lehmer_vn : - lehmer_vn;
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert	  TMP_FREE;
4b6a78b7SSimon Schubert	  return gn;
4b6a78b7SSimon Schubert	}
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert      ASSERT (lehmer_un + u1n <= ualloc);
4b6a78b7SSimon Schubert      ASSERT (lehmer_vn + u0n <= ualloc);
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert      /* Now u0, u1, u are non-zero. We may still have v == 0 */
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert      /* Compute u u0 */
4b6a78b7SSimon Schubert      if (lehmer_un <= u1n)
4b6a78b7SSimon Schubert	/* Should be the common case */
4b6a78b7SSimon Schubert	mpn_mul (up, u1, u1n, lehmer_up, lehmer_un);
4b6a78b7SSimon Schubert      else
4b6a78b7SSimon Schubert	mpn_mul (up, lehmer_up, lehmer_un, u1, u1n);
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert      un = u1n + lehmer_un;
4b6a78b7SSimon Schubert      un -= (up[un - 1] == 0);
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert      if (lehmer_vn > 0)
4b6a78b7SSimon Schubert	{
4b6a78b7SSimon Schubert	  mp_limb_t cy;
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert	  /* Overwrites old u1 value */
4b6a78b7SSimon Schubert	  if (lehmer_vn <= u0n)
4b6a78b7SSimon Schubert	    /* Should be the common case */
4b6a78b7SSimon Schubert	    mpn_mul (u1, u0, u0n, lehmer_vp, lehmer_vn);
4b6a78b7SSimon Schubert	  else
4b6a78b7SSimon Schubert	    mpn_mul (u1, lehmer_vp, lehmer_vn, u0, u0n);
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert	  u1n = u0n + lehmer_vn;
4b6a78b7SSimon Schubert	  u1n -= (u1[u1n - 1] == 0);
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert	  if (u1n <= un)
4b6a78b7SSimon Schubert	    {
4b6a78b7SSimon Schubert	      cy = mpn_add (up, up, un, u1, u1n);
4b6a78b7SSimon Schubert	    }
4b6a78b7SSimon Schubert	  else
4b6a78b7SSimon Schubert	    {
4b6a78b7SSimon Schubert	      cy = mpn_add (up, u1, u1n, up, un);
4b6a78b7SSimon Schubert	      un = u1n;
4b6a78b7SSimon Schubert	    }
4b6a78b7SSimon Schubert	  up[un] = cy;
4b6a78b7SSimon Schubert	  un += (cy != 0);
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert	  ASSERT (un < ualloc);
4b6a78b7SSimon Schubert	}
4b6a78b7SSimon Schubert      *usizep = negate ? -un : un;
4b6a78b7SSimon Schubert
4b6a78b7SSimon Schubert      TMP_FREE;
4b6a78b7SSimon Schubert      return gn;
4b6a78b7SSimon Schubert    }
4b6a78b7SSimon Schubert}