mpn/generic/gcdext.c

*4b6a78b7SSimon Schubert/* mpn_gcdext -- Extended Greatest Common Divisor.
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon SchubertCopyright 1996, 1998, 2000, 2001, 2002, 2003, 2004, 2005, 2008 Free Software
*4b6a78b7SSimon SchubertFoundation, Inc.
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon SchubertThis file is part of the GNU MP Library.
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon SchubertThe GNU MP Library is free software; you can redistribute it and/or modify
*4b6a78b7SSimon Schubertit under the terms of the GNU Lesser General Public License as published by
*4b6a78b7SSimon Schubertthe Free Software Foundation; either version 3 of the License, or (at your
*4b6a78b7SSimon Schubertoption) any later version.
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon SchubertThe GNU MP Library is distributed in the hope that it will be useful, but
*4b6a78b7SSimon SchubertWITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY
*4b6a78b7SSimon Schubertor FITNESS FOR A PARTICULAR PURPOSE.  See the GNU Lesser General Public
*4b6a78b7SSimon SchubertLicense for more details.
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon SchubertYou should have received a copy of the GNU Lesser General Public License
*4b6a78b7SSimon Schubertalong with the GNU MP Library.  If not, see http://www.gnu.org/licenses/.  */
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert#include "gmp.h"
*4b6a78b7SSimon Schubert#include "gmp-impl.h"
*4b6a78b7SSimon Schubert#include "longlong.h"
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert/* Computes (r;b) = (a; b) M. Result is of size n + M->n +/- 1, and
*4b6a78b7SSimon Schubert   the size is returned (if inputs are non-normalized, result may be
*4b6a78b7SSimon Schubert   non-normalized too). Temporary space needed is M->n + n.
*4b6a78b7SSimon Schubert */
*4b6a78b7SSimon Schubertstatic size_t
*4b6a78b7SSimon Schuberthgcd_mul_matrix_vector (struct hgcd_matrix *M,
*4b6a78b7SSimon Schubert			mp_ptr rp, mp_srcptr ap, mp_ptr bp, mp_size_t n, mp_ptr tp)
*4b6a78b7SSimon Schubert{
*4b6a78b7SSimon Schubert  mp_limb_t ah, bh;
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert  /* Compute (r,b) <-- (u00 a + u10 b, u01 a + u11 b) as
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert     t  = u00 * a
*4b6a78b7SSimon Schubert     r  = u10 * b
*4b6a78b7SSimon Schubert     r += t;
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert     t  = u11 * b
*4b6a78b7SSimon Schubert     b  = u01 * a
*4b6a78b7SSimon Schubert     b += t;
*4b6a78b7SSimon Schubert  */
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert  if (M->n >= n)
*4b6a78b7SSimon Schubert    {
*4b6a78b7SSimon Schubert      mpn_mul (tp, M->p[0][0], M->n, ap, n);
*4b6a78b7SSimon Schubert      mpn_mul (rp, M->p[1][0], M->n, bp, n);
*4b6a78b7SSimon Schubert    }
*4b6a78b7SSimon Schubert  else
*4b6a78b7SSimon Schubert    {
*4b6a78b7SSimon Schubert      mpn_mul (tp, ap, n, M->p[0][0], M->n);
*4b6a78b7SSimon Schubert      mpn_mul (rp, bp, n, M->p[1][0], M->n);
*4b6a78b7SSimon Schubert    }
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert  ah = mpn_add_n (rp, rp, tp, n + M->n);
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert  if (M->n >= n)
*4b6a78b7SSimon Schubert    {
*4b6a78b7SSimon Schubert      mpn_mul (tp, M->p[1][1], M->n, bp, n);
*4b6a78b7SSimon Schubert      mpn_mul (bp, M->p[0][1], M->n, ap, n);
*4b6a78b7SSimon Schubert    }
*4b6a78b7SSimon Schubert  else
*4b6a78b7SSimon Schubert    {
*4b6a78b7SSimon Schubert      mpn_mul (tp, bp, n, M->p[1][1], M->n);
*4b6a78b7SSimon Schubert      mpn_mul (bp, ap, n, M->p[0][1], M->n);
*4b6a78b7SSimon Schubert    }
*4b6a78b7SSimon Schubert  bh = mpn_add_n (bp, bp, tp, n + M->n);
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert  n += M->n;
*4b6a78b7SSimon Schubert  if ( (ah | bh) > 0)
*4b6a78b7SSimon Schubert    {
*4b6a78b7SSimon Schubert      rp[n] = ah;
*4b6a78b7SSimon Schubert      bp[n] = bh;
*4b6a78b7SSimon Schubert      n++;
*4b6a78b7SSimon Schubert    }
*4b6a78b7SSimon Schubert  else
*4b6a78b7SSimon Schubert    {
*4b6a78b7SSimon Schubert      /* Normalize */
*4b6a78b7SSimon Schubert      while ( (rp[n-1] | bp[n-1]) == 0)
*4b6a78b7SSimon Schubert	n--;
*4b6a78b7SSimon Schubert    }
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert  return n;
*4b6a78b7SSimon Schubert}
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert#define COMPUTE_V_ITCH(n) (2*(n) + 1)
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert/* Computes |v| = |(g - u a)| / b, where u may be positive or
*4b6a78b7SSimon Schubert   negative, and v is of the opposite sign. a, b are of size n, u and
*4b6a78b7SSimon Schubert   v at most size n, and v must have space for n+1 limbs. */
*4b6a78b7SSimon Schubertstatic mp_size_t
*4b6a78b7SSimon Schubertcompute_v (mp_ptr vp,
*4b6a78b7SSimon Schubert	   mp_srcptr ap, mp_srcptr bp, mp_size_t n,
*4b6a78b7SSimon Schubert	   mp_srcptr gp, mp_size_t gn,
*4b6a78b7SSimon Schubert	   mp_srcptr up, mp_size_t usize,
*4b6a78b7SSimon Schubert	   mp_ptr tp)
*4b6a78b7SSimon Schubert{
*4b6a78b7SSimon Schubert  mp_size_t size;
*4b6a78b7SSimon Schubert  mp_size_t an;
*4b6a78b7SSimon Schubert  mp_size_t bn;
*4b6a78b7SSimon Schubert  mp_size_t vn;
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert  ASSERT (n > 0);
*4b6a78b7SSimon Schubert  ASSERT (gn > 0);
*4b6a78b7SSimon Schubert  ASSERT (usize != 0);
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert  size = ABS (usize);
*4b6a78b7SSimon Schubert  ASSERT (size <= n);
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert  an = n;
*4b6a78b7SSimon Schubert  MPN_NORMALIZE (ap, an);
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert  if (an >= size)
*4b6a78b7SSimon Schubert    mpn_mul (tp, ap, an, up, size);
*4b6a78b7SSimon Schubert  else
*4b6a78b7SSimon Schubert    mpn_mul (tp, up, size, ap, an);
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert  size += an;
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert  ASSERT (gn <= size);
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert  if (usize > 0)
*4b6a78b7SSimon Schubert    {
*4b6a78b7SSimon Schubert      /* |v| = -v = (u a - g) / b */
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert      ASSERT_NOCARRY (mpn_sub (tp, tp, size, gp, gn));
*4b6a78b7SSimon Schubert      MPN_NORMALIZE (tp, size);
*4b6a78b7SSimon Schubert      if (size == 0)
*4b6a78b7SSimon Schubert	return 0;
*4b6a78b7SSimon Schubert    }
*4b6a78b7SSimon Schubert  else
*4b6a78b7SSimon Schubert    { /* usize < 0 */
*4b6a78b7SSimon Schubert      /* |v| = v = (c - u a) / b = (c + |u| a) / b */
*4b6a78b7SSimon Schubert      mp_limb_t cy = mpn_add (tp, tp, size, gp, gn);
*4b6a78b7SSimon Schubert      if (cy)
*4b6a78b7SSimon Schubert	tp[size++] = cy;
*4b6a78b7SSimon Schubert    }
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert  /* Now divide t / b. There must be no remainder */
*4b6a78b7SSimon Schubert  bn = n;
*4b6a78b7SSimon Schubert  MPN_NORMALIZE (bp, bn);
*4b6a78b7SSimon Schubert  ASSERT (size >= bn);
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert  vn = size + 1 - bn;
*4b6a78b7SSimon Schubert  ASSERT (vn <= n + 1);
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert  /* FIXME: Use divexact. Or do the entire calculation mod 2^{n *
*4b6a78b7SSimon Schubert     GMP_NUMB_BITS}. */
*4b6a78b7SSimon Schubert  mpn_tdiv_qr (vp, tp, 0, tp, size, bp, bn);
*4b6a78b7SSimon Schubert  vn -= (vp[vn-1] == 0);
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert  /* Remainder must be zero */
*4b6a78b7SSimon Schubert#if WANT_ASSERT
*4b6a78b7SSimon Schubert  {
*4b6a78b7SSimon Schubert    mp_size_t i;
*4b6a78b7SSimon Schubert    for (i = 0; i < bn; i++)
*4b6a78b7SSimon Schubert      {
*4b6a78b7SSimon Schubert	ASSERT (tp[i] == 0);
*4b6a78b7SSimon Schubert      }
*4b6a78b7SSimon Schubert  }
*4b6a78b7SSimon Schubert#endif
*4b6a78b7SSimon Schubert  return vn;
*4b6a78b7SSimon Schubert}
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert/* Temporary storage:
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert   Initial division: Quotient of at most an - n + 1 <= an limbs.
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert   Storage for u0 and u1: 2(n+1).
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert   Storage for hgcd matrix M, with input ceil(n/2): 5 * ceil(n/4)
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert   Storage for hgcd, input (n + 1)/2: 9 n/4 plus some.
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert   When hgcd succeeds: 1 + floor(3n/2) for adjusting a and b, and 2(n+1) for the cofactors.
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert   When hgcd fails: 2n + 1 for mpn_gcdext_subdiv_step, which is less.
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert   For the lehmer call after the loop, Let T denote
*4b6a78b7SSimon Schubert   GCDEXT_DC_THRESHOLD. For the gcdext_lehmer call, we need T each for
*4b6a78b7SSimon Schubert   u, a and b, and 4T+3 scratch space. Next, for compute_v, we need T
*4b6a78b7SSimon Schubert   + 1 for v and 2T + 1 scratch space. In all, 7T + 3 is sufficient.
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert*/
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert/* Optimal choice of p seems difficult. In each iteration the division
*4b6a78b7SSimon Schubert * of work between hgcd and the updates of u0 and u1 depends on the
*4b6a78b7SSimon Schubert * current size of the u. It may be desirable to use a different
*4b6a78b7SSimon Schubert * choice of p in each iteration. Also the input size seems to matter;
*4b6a78b7SSimon Schubert * choosing p = n / 3 in the first iteration seems to improve
*4b6a78b7SSimon Schubert * performance slightly for input size just above the threshold, but
*4b6a78b7SSimon Schubert * degrade performance for larger inputs. */
*4b6a78b7SSimon Schubert#define CHOOSE_P_1(n) ((n) / 2)
*4b6a78b7SSimon Schubert#define CHOOSE_P_2(n) ((n) / 3)
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubertmp_size_t
*4b6a78b7SSimon Schubertmpn_gcdext (mp_ptr gp, mp_ptr up, mp_size_t *usizep,
*4b6a78b7SSimon Schubert	    mp_ptr ap, mp_size_t an, mp_ptr bp, mp_size_t n)
*4b6a78b7SSimon Schubert{
*4b6a78b7SSimon Schubert  mp_size_t talloc;
*4b6a78b7SSimon Schubert  mp_size_t scratch;
*4b6a78b7SSimon Schubert  mp_size_t matrix_scratch;
*4b6a78b7SSimon Schubert  mp_size_t ualloc = n + 1;
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert  mp_size_t un;
*4b6a78b7SSimon Schubert  mp_ptr u0;
*4b6a78b7SSimon Schubert  mp_ptr u1;
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert  mp_ptr tp;
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert  TMP_DECL;
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert  ASSERT (an >= n);
*4b6a78b7SSimon Schubert  ASSERT (n > 0);
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert  TMP_MARK;
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert  /* FIXME: Check for small sizes first, before setting up temporary
*4b6a78b7SSimon Schubert     storage etc. */
*4b6a78b7SSimon Schubert  talloc = MPN_GCDEXT_LEHMER_N_ITCH(n);
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert  /* For initial division */
*4b6a78b7SSimon Schubert  scratch = an - n + 1;
*4b6a78b7SSimon Schubert  if (scratch > talloc)
*4b6a78b7SSimon Schubert    talloc = scratch;
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert  if (ABOVE_THRESHOLD (n, GCDEXT_DC_THRESHOLD))
*4b6a78b7SSimon Schubert    {
*4b6a78b7SSimon Schubert      /* For hgcd loop. */
*4b6a78b7SSimon Schubert      mp_size_t hgcd_scratch;
*4b6a78b7SSimon Schubert      mp_size_t update_scratch;
*4b6a78b7SSimon Schubert      mp_size_t p1 = CHOOSE_P_1 (n);
*4b6a78b7SSimon Schubert      mp_size_t p2 = CHOOSE_P_2 (n);
*4b6a78b7SSimon Schubert      mp_size_t min_p = MIN(p1, p2);
*4b6a78b7SSimon Schubert      mp_size_t max_p = MAX(p1, p2);
*4b6a78b7SSimon Schubert      matrix_scratch = MPN_HGCD_MATRIX_INIT_ITCH (n - min_p);
*4b6a78b7SSimon Schubert      hgcd_scratch = mpn_hgcd_itch (n - min_p);
*4b6a78b7SSimon Schubert      update_scratch = max_p + n - 1;
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert      scratch = matrix_scratch + MAX(hgcd_scratch, update_scratch);
*4b6a78b7SSimon Schubert      if (scratch > talloc)
*4b6a78b7SSimon Schubert	talloc = scratch;
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert      /* Final mpn_gcdext_lehmer_n call. Need space for u and for
*4b6a78b7SSimon Schubert	 copies of a and b. */
*4b6a78b7SSimon Schubert      scratch = MPN_GCDEXT_LEHMER_N_ITCH (GCDEXT_DC_THRESHOLD)
*4b6a78b7SSimon Schubert	+ 3*GCDEXT_DC_THRESHOLD;
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert      if (scratch > talloc)
*4b6a78b7SSimon Schubert	talloc = scratch;
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert      /* Cofactors u0 and u1 */
*4b6a78b7SSimon Schubert      talloc += 2*(n+1);
*4b6a78b7SSimon Schubert    }
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert  tp = TMP_ALLOC_LIMBS(talloc);
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert  if (an > n)
*4b6a78b7SSimon Schubert    {
*4b6a78b7SSimon Schubert      mpn_tdiv_qr (tp, ap, 0, ap, an, bp, n);
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert      if (mpn_zero_p (ap, n))
*4b6a78b7SSimon Schubert	{
*4b6a78b7SSimon Schubert	  MPN_COPY (gp, bp, n);
*4b6a78b7SSimon Schubert	  *usizep = 0;
*4b6a78b7SSimon Schubert	  TMP_FREE;
*4b6a78b7SSimon Schubert	  return n;
*4b6a78b7SSimon Schubert	}
*4b6a78b7SSimon Schubert    }
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert  if (BELOW_THRESHOLD (n, GCDEXT_DC_THRESHOLD))
*4b6a78b7SSimon Schubert    {
*4b6a78b7SSimon Schubert      mp_size_t gn = mpn_gcdext_lehmer_n(gp, up, usizep, ap, bp, n, tp);
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert      TMP_FREE;
*4b6a78b7SSimon Schubert      return gn;
*4b6a78b7SSimon Schubert    }
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert  MPN_ZERO (tp, 2*ualloc);
*4b6a78b7SSimon Schubert  u0 = tp; tp += ualloc;
*4b6a78b7SSimon Schubert  u1 = tp; tp += ualloc;
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert  {
*4b6a78b7SSimon Schubert    /* For the first hgcd call, there are no u updates, and it makes
*4b6a78b7SSimon Schubert       some sense to use a different choice for p. */
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert    /* FIXME: We could trim use of temporary storage, since u0 and u1
*4b6a78b7SSimon Schubert       are not used yet. For the hgcd call, we could swap in the u0
*4b6a78b7SSimon Schubert       and u1 pointers for the relevant matrix elements. */
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert    struct hgcd_matrix M;
*4b6a78b7SSimon Schubert    mp_size_t p = CHOOSE_P_1 (n);
*4b6a78b7SSimon Schubert    mp_size_t nn;
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert    mpn_hgcd_matrix_init (&M, n - p, tp);
*4b6a78b7SSimon Schubert    nn = mpn_hgcd (ap + p, bp + p, n - p, &M, tp + matrix_scratch);
*4b6a78b7SSimon Schubert    if (nn > 0)
*4b6a78b7SSimon Schubert      {
*4b6a78b7SSimon Schubert	ASSERT (M.n <= (n - p - 1)/2);
*4b6a78b7SSimon Schubert	ASSERT (M.n + p <= (p + n - 1) / 2);
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert	/* Temporary storage 2 (p + M->n) <= p + n - 1 */
*4b6a78b7SSimon Schubert	n = mpn_hgcd_matrix_adjust (&M, p + nn, ap, bp, p, tp + matrix_scratch);
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert	MPN_COPY (u0, M.p[1][0], M.n);
*4b6a78b7SSimon Schubert	MPN_COPY (u1, M.p[1][1], M.n);
*4b6a78b7SSimon Schubert	un = M.n;
*4b6a78b7SSimon Schubert	while ( (u0[un-1] | u1[un-1] ) == 0)
*4b6a78b7SSimon Schubert	  un--;
*4b6a78b7SSimon Schubert      }
*4b6a78b7SSimon Schubert    else
*4b6a78b7SSimon Schubert      {
*4b6a78b7SSimon Schubert	/* mpn_hgcd has failed. Then either one of a or b is very
*4b6a78b7SSimon Schubert	   small, or the difference is very small. Perform one
*4b6a78b7SSimon Schubert	   subtraction followed by one division. */
*4b6a78b7SSimon Schubert	mp_size_t gn;
*4b6a78b7SSimon Schubert	mp_size_t updated_un = 1;
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert	u1[0] = 1;
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert	/* Temporary storage 2n + 1 */
*4b6a78b7SSimon Schubert	n = mpn_gcdext_subdiv_step (gp, &gn, up, usizep, ap, bp, n,
*4b6a78b7SSimon Schubert				    u0, u1, &updated_un, tp, tp + n);
*4b6a78b7SSimon Schubert	if (n == 0)
*4b6a78b7SSimon Schubert	  {
*4b6a78b7SSimon Schubert	    TMP_FREE;
*4b6a78b7SSimon Schubert	    return gn;
*4b6a78b7SSimon Schubert	  }
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert	un = updated_un;
*4b6a78b7SSimon Schubert	ASSERT (un < ualloc);
*4b6a78b7SSimon Schubert      }
*4b6a78b7SSimon Schubert  }
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert  while (ABOVE_THRESHOLD (n, GCDEXT_DC_THRESHOLD))
*4b6a78b7SSimon Schubert    {
*4b6a78b7SSimon Schubert      struct hgcd_matrix M;
*4b6a78b7SSimon Schubert      mp_size_t p = CHOOSE_P_2 (n);
*4b6a78b7SSimon Schubert      mp_size_t nn;
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert      mpn_hgcd_matrix_init (&M, n - p, tp);
*4b6a78b7SSimon Schubert      nn = mpn_hgcd (ap + p, bp + p, n - p, &M, tp + matrix_scratch);
*4b6a78b7SSimon Schubert      if (nn > 0)
*4b6a78b7SSimon Schubert	{
*4b6a78b7SSimon Schubert	  mp_ptr t0;
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert	  t0 = tp + matrix_scratch;
*4b6a78b7SSimon Schubert	  ASSERT (M.n <= (n - p - 1)/2);
*4b6a78b7SSimon Schubert	  ASSERT (M.n + p <= (p + n - 1) / 2);
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert	  /* Temporary storage 2 (p + M->n) <= p + n - 1 */
*4b6a78b7SSimon Schubert	  n = mpn_hgcd_matrix_adjust (&M, p + nn, ap, bp, p, t0);
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert	  /* By the same analysis as for mpn_hgcd_matrix_mul */
*4b6a78b7SSimon Schubert	  ASSERT (M.n + un <= ualloc);
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert	  /* FIXME: This copying could be avoided by some swapping of
*4b6a78b7SSimon Schubert	   * pointers. May need more temporary storage, though. */
*4b6a78b7SSimon Schubert	  MPN_COPY (t0, u0, un);
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert	  /* Temporary storage ualloc */
*4b6a78b7SSimon Schubert	  un = hgcd_mul_matrix_vector (&M, u0, t0, u1, un, t0 + un);
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert	  ASSERT (un < ualloc);
*4b6a78b7SSimon Schubert	  ASSERT ( (u0[un-1] | u1[un-1]) > 0);
*4b6a78b7SSimon Schubert	}
*4b6a78b7SSimon Schubert      else
*4b6a78b7SSimon Schubert	{
*4b6a78b7SSimon Schubert	  /* mpn_hgcd has failed. Then either one of a or b is very
*4b6a78b7SSimon Schubert	     small, or the difference is very small. Perform one
*4b6a78b7SSimon Schubert	     subtraction followed by one division. */
*4b6a78b7SSimon Schubert	  mp_size_t gn;
*4b6a78b7SSimon Schubert	  mp_size_t updated_un = un;
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert	  /* Temporary storage 2n + 1 */
*4b6a78b7SSimon Schubert	  n = mpn_gcdext_subdiv_step (gp, &gn, up, usizep, ap, bp, n,
*4b6a78b7SSimon Schubert				      u0, u1, &updated_un, tp, tp + n);
*4b6a78b7SSimon Schubert	  if (n == 0)
*4b6a78b7SSimon Schubert	    {
*4b6a78b7SSimon Schubert	      TMP_FREE;
*4b6a78b7SSimon Schubert	      return gn;
*4b6a78b7SSimon Schubert	    }
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert	  un = updated_un;
*4b6a78b7SSimon Schubert	  ASSERT (un < ualloc);
*4b6a78b7SSimon Schubert	}
*4b6a78b7SSimon Schubert    }
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert  if (mpn_zero_p (ap, n))
*4b6a78b7SSimon Schubert    {
*4b6a78b7SSimon Schubert      MPN_COPY (gp, bp, n);
*4b6a78b7SSimon Schubert      MPN_NORMALIZE_NOT_ZERO (u0, un);
*4b6a78b7SSimon Schubert      MPN_COPY (up, u0, un);
*4b6a78b7SSimon Schubert      *usizep = -un;
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert      TMP_FREE;
*4b6a78b7SSimon Schubert      return n;
*4b6a78b7SSimon Schubert    }
*4b6a78b7SSimon Schubert  else if (mpn_zero_p (bp, n))
*4b6a78b7SSimon Schubert    {
*4b6a78b7SSimon Schubert      MPN_COPY (gp, ap, n);
*4b6a78b7SSimon Schubert      MPN_NORMALIZE_NOT_ZERO (u1, un);
*4b6a78b7SSimon Schubert      MPN_COPY (up, u1, un);
*4b6a78b7SSimon Schubert      *usizep = un;
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert      TMP_FREE;
*4b6a78b7SSimon Schubert      return n;
*4b6a78b7SSimon Schubert    }
*4b6a78b7SSimon Schubert  else if (mpn_zero_p (u0, un))
*4b6a78b7SSimon Schubert    {
*4b6a78b7SSimon Schubert      mp_size_t gn;
*4b6a78b7SSimon Schubert      ASSERT (un == 1);
*4b6a78b7SSimon Schubert      ASSERT (u1[0] == 1);
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert      /* g = u a + v b = (u u1 - v u0) A + (...) B = u A + (...) B */
*4b6a78b7SSimon Schubert      gn = mpn_gcdext_lehmer_n (gp, up, usizep, ap, bp, n, tp);
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert      TMP_FREE;
*4b6a78b7SSimon Schubert      return gn;
*4b6a78b7SSimon Schubert    }
*4b6a78b7SSimon Schubert  else
*4b6a78b7SSimon Schubert    {
*4b6a78b7SSimon Schubert      /* We have A = ... a + ... b
*4b6a78b7SSimon Schubert		 B =  u0 a +  u1 b
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert		 a = u1  A + ... B
*4b6a78b7SSimon Schubert		 b = -u0 A + ... B
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert	 with bounds
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert	   |u0|, |u1| <= B / min(a, b)
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert	 Compute g = u a + v b = (u u1 - v u0) A + (...) B
*4b6a78b7SSimon Schubert	 Here, u, v are bounded by
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert	 |u| <= b,
*4b6a78b7SSimon Schubert	 |v| <= a
*4b6a78b7SSimon Schubert      */
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert      mp_size_t u0n;
*4b6a78b7SSimon Schubert      mp_size_t u1n;
*4b6a78b7SSimon Schubert      mp_size_t lehmer_un;
*4b6a78b7SSimon Schubert      mp_size_t lehmer_vn;
*4b6a78b7SSimon Schubert      mp_size_t gn;
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert      mp_ptr lehmer_up;
*4b6a78b7SSimon Schubert      mp_ptr lehmer_vp;
*4b6a78b7SSimon Schubert      int negate;
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert      lehmer_up = tp; tp += n;
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert      /* Call mpn_gcdext_lehmer_n with copies of a and b. */
*4b6a78b7SSimon Schubert      MPN_COPY (tp, ap, n);
*4b6a78b7SSimon Schubert      MPN_COPY (tp + n, bp, n);
*4b6a78b7SSimon Schubert      gn = mpn_gcdext_lehmer_n (gp, lehmer_up, &lehmer_un, tp, tp + n, n, tp + 2*n);
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert      u0n = un;
*4b6a78b7SSimon Schubert      MPN_NORMALIZE (u0, u0n);
*4b6a78b7SSimon Schubert      if (lehmer_un == 0)
*4b6a78b7SSimon Schubert	{
*4b6a78b7SSimon Schubert	  /* u == 0  ==>  v = g / b == 1  ==> g = - u0 A + (...) B */
*4b6a78b7SSimon Schubert	  MPN_COPY (up, u0, u0n);
*4b6a78b7SSimon Schubert	  *usizep = -u0n;
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert	  TMP_FREE;
*4b6a78b7SSimon Schubert	  return gn;
*4b6a78b7SSimon Schubert	}
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert      lehmer_vp = tp;
*4b6a78b7SSimon Schubert      /* Compute v = (g - u a) / b */
*4b6a78b7SSimon Schubert      lehmer_vn = compute_v (lehmer_vp,
*4b6a78b7SSimon Schubert			     ap, bp, n, gp, gn, lehmer_up, lehmer_un, tp + n + 1);
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert      if (lehmer_un > 0)
*4b6a78b7SSimon Schubert	negate = 0;
*4b6a78b7SSimon Schubert      else
*4b6a78b7SSimon Schubert	{
*4b6a78b7SSimon Schubert	  lehmer_un = -lehmer_un;
*4b6a78b7SSimon Schubert	  negate = 1;
*4b6a78b7SSimon Schubert	}
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert      u1n = un;
*4b6a78b7SSimon Schubert      MPN_NORMALIZE (u1, u1n);
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert      /* It's possible that u0 = 1, u1 = 0 */
*4b6a78b7SSimon Schubert      if (u1n == 0)
*4b6a78b7SSimon Schubert	{
*4b6a78b7SSimon Schubert	  ASSERT (un == 1);
*4b6a78b7SSimon Schubert	  ASSERT (u0[0] == 1);
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert	  /* u1 == 0 ==> u u1 + v u0 = v */
*4b6a78b7SSimon Schubert	  MPN_COPY (up, lehmer_vp, lehmer_vn);
*4b6a78b7SSimon Schubert	  *usizep = negate ? lehmer_vn : - lehmer_vn;
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert	  TMP_FREE;
*4b6a78b7SSimon Schubert	  return gn;
*4b6a78b7SSimon Schubert	}
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert      ASSERT (lehmer_un + u1n <= ualloc);
*4b6a78b7SSimon Schubert      ASSERT (lehmer_vn + u0n <= ualloc);
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert      /* Now u0, u1, u are non-zero. We may still have v == 0 */
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert      /* Compute u u0 */
*4b6a78b7SSimon Schubert      if (lehmer_un <= u1n)
*4b6a78b7SSimon Schubert	/* Should be the common case */
*4b6a78b7SSimon Schubert	mpn_mul (up, u1, u1n, lehmer_up, lehmer_un);
*4b6a78b7SSimon Schubert      else
*4b6a78b7SSimon Schubert	mpn_mul (up, lehmer_up, lehmer_un, u1, u1n);
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert      un = u1n + lehmer_un;
*4b6a78b7SSimon Schubert      un -= (up[un - 1] == 0);
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert      if (lehmer_vn > 0)
*4b6a78b7SSimon Schubert	{
*4b6a78b7SSimon Schubert	  mp_limb_t cy;
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert	  /* Overwrites old u1 value */
*4b6a78b7SSimon Schubert	  if (lehmer_vn <= u0n)
*4b6a78b7SSimon Schubert	    /* Should be the common case */
*4b6a78b7SSimon Schubert	    mpn_mul (u1, u0, u0n, lehmer_vp, lehmer_vn);
*4b6a78b7SSimon Schubert	  else
*4b6a78b7SSimon Schubert	    mpn_mul (u1, lehmer_vp, lehmer_vn, u0, u0n);
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert	  u1n = u0n + lehmer_vn;
*4b6a78b7SSimon Schubert	  u1n -= (u1[u1n - 1] == 0);
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert	  if (u1n <= un)
*4b6a78b7SSimon Schubert	    {
*4b6a78b7SSimon Schubert	      cy = mpn_add (up, up, un, u1, u1n);
*4b6a78b7SSimon Schubert	    }
*4b6a78b7SSimon Schubert	  else
*4b6a78b7SSimon Schubert	    {
*4b6a78b7SSimon Schubert	      cy = mpn_add (up, u1, u1n, up, un);
*4b6a78b7SSimon Schubert	      un = u1n;
*4b6a78b7SSimon Schubert	    }
*4b6a78b7SSimon Schubert	  up[un] = cy;
*4b6a78b7SSimon Schubert	  un += (cy != 0);
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert	  ASSERT (un < ualloc);
*4b6a78b7SSimon Schubert	}
*4b6a78b7SSimon Schubert      *usizep = negate ? -un : un;
*4b6a78b7SSimon Schubert
*4b6a78b7SSimon Schubert      TMP_FREE;
*4b6a78b7SSimon Schubert      return gn;
*4b6a78b7SSimon Schubert    }
*4b6a78b7SSimon Schubert}