mpn/generic/div_q.c

86d7f5d3SJohn Marino/* mpn_div_q -- division for arbitrary size operands.
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino   Contributed to the GNU project by Torbjorn Granlund.
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino   THE FUNCTION IN THIS FILE IS INTERNAL WITH A MUTABLE INTERFACE.  IT IS ONLY
86d7f5d3SJohn Marino   SAFE TO REACH IT THROUGH DOCUMENTED INTERFACES.  IN FACT, IT IS ALMOST
86d7f5d3SJohn Marino   GUARANTEED THAT IT WILL CHANGE OR DISAPPEAR IN A FUTURE GMP RELEASE.
86d7f5d3SJohn Marino
86d7f5d3SJohn MarinoCopyright 2009, 2010 Free Software Foundation, Inc.
86d7f5d3SJohn Marino
86d7f5d3SJohn MarinoThis file is part of the GNU MP Library.
86d7f5d3SJohn Marino
86d7f5d3SJohn MarinoThe GNU MP Library is free software; you can redistribute it and/or modify
86d7f5d3SJohn Marinoit under the terms of the GNU Lesser General Public License as published by
86d7f5d3SJohn Marinothe Free Software Foundation; either version 3 of the License, or (at your
86d7f5d3SJohn Marinooption) any later version.
86d7f5d3SJohn Marino
86d7f5d3SJohn MarinoThe GNU MP Library is distributed in the hope that it will be useful, but
86d7f5d3SJohn MarinoWITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY
86d7f5d3SJohn Marinoor FITNESS FOR A PARTICULAR PURPOSE.  See the GNU Lesser General Public
86d7f5d3SJohn MarinoLicense for more details.
86d7f5d3SJohn Marino
86d7f5d3SJohn MarinoYou should have received a copy of the GNU Lesser General Public License
86d7f5d3SJohn Marinoalong with the GNU MP Library.  If not, see http://www.gnu.org/licenses/.  */
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino#include "gmp.h"
86d7f5d3SJohn Marino#include "gmp-impl.h"
86d7f5d3SJohn Marino#include "longlong.h"
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino/* Compute Q = N/D with truncation.
86d7f5d3SJohn Marino     N = {np,nn}
86d7f5d3SJohn Marino     D = {dp,dn}
86d7f5d3SJohn Marino     Q = {qp,nn-dn+1}
86d7f5d3SJohn Marino     T = {scratch,nn+1} is scratch space
86d7f5d3SJohn Marino   N and D are both untouched by the computation.
86d7f5d3SJohn Marino   N and T may overlap; pass the same space if N is irrelevant after the call,
86d7f5d3SJohn Marino   but note that tp needs an extra limb.
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino   Operand requirements:
86d7f5d3SJohn Marino     N >= D > 0
86d7f5d3SJohn Marino     dp[dn-1] != 0
86d7f5d3SJohn Marino     No overlap between the N, D, and Q areas.
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino   This division function does not clobber its input operands, since it is
86d7f5d3SJohn Marino   intended to support average-O(qn) division, and for that to be effective, it
86d7f5d3SJohn Marino   cannot put requirements on callers to copy a O(nn) operand.
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino   If a caller does not care about the value of {np,nn+1} after calling this
86d7f5d3SJohn Marino   function, it should pass np also for the scratch argument.  This function
86d7f5d3SJohn Marino   will then save some time and space by avoiding allocation and copying.
86d7f5d3SJohn Marino   (FIXME: Is this a good design?  We only really save any copying for
86d7f5d3SJohn Marino   already-normalised divisors, which should be rare.  It also prevents us from
86d7f5d3SJohn Marino   reasonably asking for all scratch space we need.)
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino   We write nn-dn+1 limbs for the quotient, but return void.  Why not return
86d7f5d3SJohn Marino   the most significant quotient limb?  Look at the 4 main code blocks below
86d7f5d3SJohn Marino   (consisting of an outer if-else where each arm contains an if-else). It is
86d7f5d3SJohn Marino   tricky for the first code block, since the mpn_*_div_q calls will typically
86d7f5d3SJohn Marino   generate all nn-dn+1 and return 0 or 1.  I don't see how to fix that unless
86d7f5d3SJohn Marino   we generate the most significant quotient limb here, before calling
86d7f5d3SJohn Marino   mpn_*_div_q, or put the quotient in a temporary area.  Since this is a
86d7f5d3SJohn Marino   critical division case (the SB sub-case in particular) copying is not a good
86d7f5d3SJohn Marino   idea.
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino   It might make sense to split the if-else parts of the (qn + FUDGE
86d7f5d3SJohn Marino   >= dn) blocks into separate functions, since we could promise quite
86d7f5d3SJohn Marino   different things to callers in these two cases.  The 'then' case
86d7f5d3SJohn Marino   benefits from np=scratch, and it could perhaps even tolerate qp=np,
86d7f5d3SJohn Marino   saving some headache for many callers.
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino   FIXME: Scratch allocation leaves a lot to be desired.  E.g., for the MU size
86d7f5d3SJohn Marino   operands, we do not reuse the huge scratch for adjustments.  This can be a
86d7f5d3SJohn Marino   serious waste of memory for the largest operands.
86d7f5d3SJohn Marino*/
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino/* FUDGE determines when to try getting an approximate quotient from the upper
86d7f5d3SJohn Marino   parts of the dividend and divisor, then adjust.  N.B. FUDGE must be >= 2
86d7f5d3SJohn Marino   for the code to be correct.  */
86d7f5d3SJohn Marino#define FUDGE 5			/* FIXME: tune this */
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino#define DC_DIV_Q_THRESHOLD      DC_DIVAPPR_Q_THRESHOLD
86d7f5d3SJohn Marino#define MU_DIV_Q_THRESHOLD      MU_DIVAPPR_Q_THRESHOLD
86d7f5d3SJohn Marino#define MUPI_DIV_Q_THRESHOLD  MUPI_DIVAPPR_Q_THRESHOLD
86d7f5d3SJohn Marino#ifndef MUPI_DIVAPPR_Q_THRESHOLD
86d7f5d3SJohn Marino#define MUPI_DIVAPPR_Q_THRESHOLD  MUPI_DIV_QR_THRESHOLD
86d7f5d3SJohn Marino#endif
86d7f5d3SJohn Marino
86d7f5d3SJohn Marinovoid
86d7f5d3SJohn Marinompn_div_q (mp_ptr qp,
86d7f5d3SJohn Marino	   mp_srcptr np, mp_size_t nn,
86d7f5d3SJohn Marino	   mp_srcptr dp, mp_size_t dn, mp_ptr scratch)
86d7f5d3SJohn Marino{
86d7f5d3SJohn Marino  mp_ptr new_dp, new_np, tp, rp;
86d7f5d3SJohn Marino  mp_limb_t cy, dh, qh;
86d7f5d3SJohn Marino  mp_size_t new_nn, qn;
86d7f5d3SJohn Marino  gmp_pi1_t dinv;
86d7f5d3SJohn Marino  int cnt;
86d7f5d3SJohn Marino  TMP_DECL;
86d7f5d3SJohn Marino  TMP_MARK;
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  ASSERT (nn >= dn);
86d7f5d3SJohn Marino  ASSERT (dn > 0);
86d7f5d3SJohn Marino  ASSERT (dp[dn - 1] != 0);
86d7f5d3SJohn Marino  ASSERT (! MPN_OVERLAP_P (qp, nn - dn + 1, np, nn));
86d7f5d3SJohn Marino  ASSERT (! MPN_OVERLAP_P (qp, nn - dn + 1, dp, dn));
86d7f5d3SJohn Marino  ASSERT (MPN_SAME_OR_SEPARATE_P (np, scratch, nn));
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  ASSERT_ALWAYS (FUDGE >= 2);
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  if (dn == 1)
86d7f5d3SJohn Marino    {
86d7f5d3SJohn Marino      mpn_divrem_1 (qp, 0L, np, nn, dp[dn - 1]);
86d7f5d3SJohn Marino      return;
86d7f5d3SJohn Marino    }
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  qn = nn - dn + 1;		/* Quotient size, high limb might be zero */
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  if (qn + FUDGE >= dn)
86d7f5d3SJohn Marino    {
86d7f5d3SJohn Marino      /* |________________________|
86d7f5d3SJohn Marino                          |_______|  */
86d7f5d3SJohn Marino      new_np = scratch;
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino      dh = dp[dn - 1];
86d7f5d3SJohn Marino      if (LIKELY ((dh & GMP_NUMB_HIGHBIT) == 0))
86d7f5d3SJohn Marino	{
86d7f5d3SJohn Marino	  count_leading_zeros (cnt, dh);
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino	  cy = mpn_lshift (new_np, np, nn, cnt);
86d7f5d3SJohn Marino	  new_np[nn] = cy;
86d7f5d3SJohn Marino	  new_nn = nn + (cy != 0);
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino	  new_dp = TMP_ALLOC_LIMBS (dn);
86d7f5d3SJohn Marino	  mpn_lshift (new_dp, dp, dn, cnt);
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino	  if (dn == 2)
86d7f5d3SJohn Marino	    {
86d7f5d3SJohn Marino	      qh = mpn_divrem_2 (qp, 0L, new_np, new_nn, new_dp);
86d7f5d3SJohn Marino	    }
86d7f5d3SJohn Marino	  else if (BELOW_THRESHOLD (dn, DC_DIV_Q_THRESHOLD) ||
86d7f5d3SJohn Marino		   BELOW_THRESHOLD (new_nn - dn, DC_DIV_Q_THRESHOLD))
86d7f5d3SJohn Marino	    {
86d7f5d3SJohn Marino	      invert_pi1 (dinv, new_dp[dn - 1], new_dp[dn - 2]);
86d7f5d3SJohn Marino	      qh = mpn_sbpi1_div_q (qp, new_np, new_nn, new_dp, dn, dinv.inv32);
86d7f5d3SJohn Marino	    }
86d7f5d3SJohn Marino	  else if (BELOW_THRESHOLD (dn, MUPI_DIV_Q_THRESHOLD) ||   /* fast condition */
86d7f5d3SJohn Marino		   BELOW_THRESHOLD (nn, 2 * MU_DIV_Q_THRESHOLD) || /* fast condition */
86d7f5d3SJohn Marino		   (double) (2 * (MU_DIV_Q_THRESHOLD - MUPI_DIV_Q_THRESHOLD)) * dn /* slow... */
86d7f5d3SJohn Marino		   + (double) MUPI_DIV_Q_THRESHOLD * nn > (double) dn * nn)   /* ...condition */
86d7f5d3SJohn Marino	    {
86d7f5d3SJohn Marino	      invert_pi1 (dinv, new_dp[dn - 1], new_dp[dn - 2]);
86d7f5d3SJohn Marino	      qh = mpn_dcpi1_div_q (qp, new_np, new_nn, new_dp, dn, &dinv);
86d7f5d3SJohn Marino	    }
86d7f5d3SJohn Marino	  else
86d7f5d3SJohn Marino	    {
86d7f5d3SJohn Marino	      mp_size_t itch = mpn_mu_div_q_itch (new_nn, dn, 0);
86d7f5d3SJohn Marino	      mp_ptr scratch = TMP_ALLOC_LIMBS (itch);
86d7f5d3SJohn Marino	      qh = mpn_mu_div_q (qp, new_np, new_nn, new_dp, dn, scratch);
86d7f5d3SJohn Marino	    }
86d7f5d3SJohn Marino	  if (cy == 0)
86d7f5d3SJohn Marino	    qp[qn - 1] = qh;
86d7f5d3SJohn Marino	  else if (UNLIKELY (qh != 0))
86d7f5d3SJohn Marino	    {
86d7f5d3SJohn Marino	      /* This happens only when the quotient is close to B^n and
86d7f5d3SJohn Marino		 mpn_*_divappr_q returned B^n.  */
86d7f5d3SJohn Marino	      mp_size_t i, n;
86d7f5d3SJohn Marino	      n = new_nn - dn;
86d7f5d3SJohn Marino	      for (i = 0; i < n; i++)
86d7f5d3SJohn Marino		qp[i] = GMP_NUMB_MAX;
86d7f5d3SJohn Marino	      qh = 0;		/* currently ignored */
86d7f5d3SJohn Marino	    }
86d7f5d3SJohn Marino	}
86d7f5d3SJohn Marino      else  /* divisor is already normalised */
86d7f5d3SJohn Marino	{
86d7f5d3SJohn Marino	  if (new_np != np)
86d7f5d3SJohn Marino	    MPN_COPY (new_np, np, nn);
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino	  if (dn == 2)
86d7f5d3SJohn Marino	    {
86d7f5d3SJohn Marino	      qh = mpn_divrem_2 (qp, 0L, new_np, nn, dp);
86d7f5d3SJohn Marino	    }
86d7f5d3SJohn Marino	  else if (BELOW_THRESHOLD (dn, DC_DIV_Q_THRESHOLD) ||
86d7f5d3SJohn Marino		   BELOW_THRESHOLD (nn - dn, DC_DIV_Q_THRESHOLD))
86d7f5d3SJohn Marino	    {
86d7f5d3SJohn Marino	      invert_pi1 (dinv, dh, dp[dn - 2]);
86d7f5d3SJohn Marino	      qh = mpn_sbpi1_div_q (qp, new_np, nn, dp, dn, dinv.inv32);
86d7f5d3SJohn Marino	    }
86d7f5d3SJohn Marino	  else if (BELOW_THRESHOLD (dn, MUPI_DIV_Q_THRESHOLD) ||   /* fast condition */
86d7f5d3SJohn Marino		   BELOW_THRESHOLD (nn, 2 * MU_DIV_Q_THRESHOLD) || /* fast condition */
86d7f5d3SJohn Marino		   (double) (2 * (MU_DIV_Q_THRESHOLD - MUPI_DIV_Q_THRESHOLD)) * dn /* slow... */
86d7f5d3SJohn Marino		   + (double) MUPI_DIV_Q_THRESHOLD * nn > (double) dn * nn)   /* ...condition */
86d7f5d3SJohn Marino	    {
86d7f5d3SJohn Marino	      invert_pi1 (dinv, dh, dp[dn - 2]);
86d7f5d3SJohn Marino	      qh = mpn_dcpi1_div_q (qp, new_np, nn, dp, dn, &dinv);
86d7f5d3SJohn Marino	    }
86d7f5d3SJohn Marino	  else
86d7f5d3SJohn Marino	    {
86d7f5d3SJohn Marino	      mp_size_t itch = mpn_mu_div_q_itch (nn, dn, 0);
86d7f5d3SJohn Marino	      mp_ptr scratch = TMP_ALLOC_LIMBS (itch);
86d7f5d3SJohn Marino	      qh = mpn_mu_div_q (qp, np, nn, dp, dn, scratch);
86d7f5d3SJohn Marino	    }
86d7f5d3SJohn Marino	  qp[nn - dn] = qh;
86d7f5d3SJohn Marino	}
86d7f5d3SJohn Marino    }
86d7f5d3SJohn Marino  else
86d7f5d3SJohn Marino    {
86d7f5d3SJohn Marino      /* |________________________|
86d7f5d3SJohn Marino                |_________________|  */
86d7f5d3SJohn Marino      tp = TMP_ALLOC_LIMBS (qn + 1);
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino      new_np = scratch;
86d7f5d3SJohn Marino      new_nn = 2 * qn + 1;
86d7f5d3SJohn Marino      if (new_np == np)
86d7f5d3SJohn Marino	/* We need {np,nn} to remain untouched until the final adjustment, so
86d7f5d3SJohn Marino	   we need to allocate separate space for new_np.  */
86d7f5d3SJohn Marino	new_np = TMP_ALLOC_LIMBS (new_nn + 1);
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino      dh = dp[dn - 1];
86d7f5d3SJohn Marino      if (LIKELY ((dh & GMP_NUMB_HIGHBIT) == 0))
86d7f5d3SJohn Marino	{
86d7f5d3SJohn Marino	  count_leading_zeros (cnt, dh);
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino	  cy = mpn_lshift (new_np, np + nn - new_nn, new_nn, cnt);
86d7f5d3SJohn Marino	  new_np[new_nn] = cy;
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino	  new_nn += (cy != 0);
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino	  new_dp = TMP_ALLOC_LIMBS (qn + 1);
86d7f5d3SJohn Marino	  mpn_lshift (new_dp, dp + dn - (qn + 1), qn + 1, cnt);
86d7f5d3SJohn Marino	  new_dp[0] |= dp[dn - (qn + 1) - 1] >> (GMP_NUMB_BITS - cnt);
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino	  if (qn + 1 == 2)
86d7f5d3SJohn Marino	    {
86d7f5d3SJohn Marino	      qh = mpn_divrem_2 (tp, 0L, new_np, new_nn, new_dp);
86d7f5d3SJohn Marino	    }
86d7f5d3SJohn Marino	  else if (BELOW_THRESHOLD (qn, DC_DIVAPPR_Q_THRESHOLD - 1))
86d7f5d3SJohn Marino	    {
86d7f5d3SJohn Marino	      invert_pi1 (dinv, new_dp[qn], new_dp[qn - 1]);
86d7f5d3SJohn Marino	      qh = mpn_sbpi1_divappr_q (tp, new_np, new_nn, new_dp, qn + 1, dinv.inv32);
86d7f5d3SJohn Marino	    }
86d7f5d3SJohn Marino	  else if (BELOW_THRESHOLD (qn, MU_DIVAPPR_Q_THRESHOLD - 1))
86d7f5d3SJohn Marino	    {
86d7f5d3SJohn Marino	      invert_pi1 (dinv, new_dp[qn], new_dp[qn - 1]);
86d7f5d3SJohn Marino	      qh = mpn_dcpi1_divappr_q (tp, new_np, new_nn, new_dp, qn + 1, &dinv);
86d7f5d3SJohn Marino	    }
86d7f5d3SJohn Marino	  else
86d7f5d3SJohn Marino	    {
86d7f5d3SJohn Marino	      mp_size_t itch = mpn_mu_divappr_q_itch (new_nn, qn + 1, 0);
86d7f5d3SJohn Marino	      mp_ptr scratch = TMP_ALLOC_LIMBS (itch);
86d7f5d3SJohn Marino	      qh = mpn_mu_divappr_q (tp, new_np, new_nn, new_dp, qn + 1, scratch);
86d7f5d3SJohn Marino	    }
86d7f5d3SJohn Marino	  if (cy == 0)
86d7f5d3SJohn Marino	    tp[qn] = qh;
86d7f5d3SJohn Marino	  else if (UNLIKELY (qh != 0))
86d7f5d3SJohn Marino	    {
86d7f5d3SJohn Marino	      /* This happens only when the quotient is close to B^n and
86d7f5d3SJohn Marino		 mpn_*_divappr_q returned B^n.  */
86d7f5d3SJohn Marino	      mp_size_t i, n;
86d7f5d3SJohn Marino	      n = new_nn - (qn + 1);
86d7f5d3SJohn Marino	      for (i = 0; i < n; i++)
86d7f5d3SJohn Marino		tp[i] = GMP_NUMB_MAX;
86d7f5d3SJohn Marino	      qh = 0;		/* currently ignored */
86d7f5d3SJohn Marino	    }
86d7f5d3SJohn Marino	}
86d7f5d3SJohn Marino      else  /* divisor is already normalised */
86d7f5d3SJohn Marino	{
86d7f5d3SJohn Marino	  MPN_COPY (new_np, np + nn - new_nn, new_nn); /* pointless of MU will be used */
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino	  new_dp = (mp_ptr) dp + dn - (qn + 1);
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino	  if (qn == 2 - 1)
86d7f5d3SJohn Marino	    {
86d7f5d3SJohn Marino	      qh = mpn_divrem_2 (tp, 0L, new_np, new_nn, new_dp);
86d7f5d3SJohn Marino	    }
86d7f5d3SJohn Marino	  else if (BELOW_THRESHOLD (qn, DC_DIVAPPR_Q_THRESHOLD - 1))
86d7f5d3SJohn Marino	    {
86d7f5d3SJohn Marino	      invert_pi1 (dinv, dh, new_dp[qn - 1]);
86d7f5d3SJohn Marino	      qh = mpn_sbpi1_divappr_q (tp, new_np, new_nn, new_dp, qn + 1, dinv.inv32);
86d7f5d3SJohn Marino	    }
86d7f5d3SJohn Marino	  else if (BELOW_THRESHOLD (qn, MU_DIVAPPR_Q_THRESHOLD - 1))
86d7f5d3SJohn Marino	    {
86d7f5d3SJohn Marino	      invert_pi1 (dinv, dh, new_dp[qn - 1]);
86d7f5d3SJohn Marino	      qh = mpn_dcpi1_divappr_q (tp, new_np, new_nn, new_dp, qn + 1, &dinv);
86d7f5d3SJohn Marino	    }
86d7f5d3SJohn Marino	  else
86d7f5d3SJohn Marino	    {
86d7f5d3SJohn Marino	      mp_size_t itch = mpn_mu_divappr_q_itch (new_nn, qn + 1, 0);
86d7f5d3SJohn Marino	      mp_ptr scratch = TMP_ALLOC_LIMBS (itch);
86d7f5d3SJohn Marino	      qh = mpn_mu_divappr_q (tp, new_np, new_nn, new_dp, qn + 1, scratch);
86d7f5d3SJohn Marino	    }
86d7f5d3SJohn Marino	  tp[qn] = qh;
86d7f5d3SJohn Marino	}
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino      MPN_COPY (qp, tp + 1, qn);
86d7f5d3SJohn Marino      if (tp[0] <= 4)
86d7f5d3SJohn Marino        {
86d7f5d3SJohn Marino	  mp_size_t rn;
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino          rp = TMP_ALLOC_LIMBS (dn + qn);
86d7f5d3SJohn Marino          mpn_mul (rp, dp, dn, tp + 1, qn);
86d7f5d3SJohn Marino	  rn = dn + qn;
86d7f5d3SJohn Marino	  rn -= rp[rn - 1] == 0;
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino          if (rn > nn || mpn_cmp (np, rp, nn) < 0)
86d7f5d3SJohn Marino            mpn_decr_u (qp, 1);
86d7f5d3SJohn Marino        }
86d7f5d3SJohn Marino    }
86d7f5d3SJohn Marino
86d7f5d3SJohn Marino  TMP_FREE;
86d7f5d3SJohn Marino}